SlideShare a Scribd company logo
1 of 5
Download to read offline
48 특집원고 Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역
강원대학교 이창기*
네이버 김준석・이형규・이재송*
1. 서 론
1)
최근의 기계번역 연구에서 Neural Machine Translation
(NMT) 모델이 큰 각광을 받고 있다. 최근까지 기계번
역에 신경망을 적용하는 방식은re-ranking 방식이 주
로 연구되었고, 최근에는 end-to-end 방식의 신경망
구조를 사용하는 NMT 모델이 영어-프랑스와 같이 어
순이 유사한 언어 쌍에서 좋은 성능을 보였다.
본 논문에서는 전통적인 방식의 SMT 방식인 구 기반
(Phrase-based) 모델과 계층적 구 기반(Hierarchical
Phrase-based) 모델, 그리고 구문 기반(Syntax-based) 모델
을 소개한다. 또한 최근에 각광받고 있는 NMT 모델에 대해
설명하고 이를 어순이 상이한 영어-일본어 기계번역에 적
용한다. 실험을 통해 NMT 모델이 기존의 구 기반 모델과
계층적 구 기반 모델보다 성능이 우수하고, 구문분석을
사용하는 Syntax-based 모델과 성능이 유사함을 보인다.
2장에서는 전통적인 방식의 SMT 모델에 대해서 소
개하고, 3장에서는 NMT 모델에 대해서 설명하고
NMT 모델의 장단점에 대해서 알아본다. 4장에서는
기존의 SMT 모델과 NMT 모델을 어순이 상이한 영
어-일본어 기계번역에 적용한 결과를 설명한다.
2. SMT
전통적인 방식의 SMT는 대규모 데이터 기반으로 자동
으로 학습된 통계적 모델을 기반으로 번역하는 방식이다.
그림 1은 전통적인 방식의 SMT의 기본 구조를 보여준다.
SMT는 병렬코퍼스(bilingual corpus)로부터 학습된 번역
모델(translation model)과 단일언어 코퍼스(monolingual
corpus)로부터 학습된 언어 모델(language model)을 이용
하여 번역을 수행한다. 입력 언어(source language) 문장이
들어오면 형태소 분석과 같은 전처리를 수행하고, 디코더
(decoder)에서는 번역 모델과 언어 모델 등의 통계 모델을
*
종신회원
기반으로 최적의 번역 열을 찾은 후에 출력 언어(target
language) 문장에 맞게 생성하면 번역이 완료된다.
그림 2는 구(phrase) 기반의 SMT의 기본 수식을 보
여준다. fi는 입력 언어의 구(phrase)를 ei는 출력 언어의
구를 의미한다. P(fi|ei)는 ei가 fi로 번역될 확률 값이고,
P(ei)은 출력 언어가 나타날 확률인 언어 모델 값이다.
수식에서 양변에 log를 취하는 log-linear 모델로 변환하
면 그림 2의 아래와 같은 가중치-합(weighted-sum) 형
태의 수식이 된다. hm(e, f)은 번역 모델과 언어 모델
같은 feature 함수가 되고, λm은 해당 feature 함수의
가중치를 의미한다. 가중치는 기계번역에서 가장 많
이 사용하는 척도인 BLEU[1]값을 최대화 시키는 파
라미터 최적화 방식 MERT[2]를 사용하여 그 값이 결
정된다. 따라서 전통적인 방식의 SMT는 결국 좋은
feature 함수를 발굴하는 것이 가장 중요하다. 이에 따라,
번역 모델, 언어 모델 외에 다양한 feature 함수를 만
들어내고 기존 모델에 추가하여 실험을 통해 번역 품
질 높이는 많은 연구들이 진행되었다.
그림 1 SMT 기본 구조
그림 2 SMT 기본 수식
특집원고
2015. 10 정보과학회지 49
그림 3은 전통적인 방식의 SMT 기술 발전 과정을
보여준다. 처음에는 단어(word) 단위로 번역을 수행하
다가 2003년 여러 개의 단어들의 묶음인 구(phrase)
라는 단위의 번역 방식이 제안되었다[3]. 단어 단위
보다 구 단위가 번역의 모호성(ambiguity)이 낮기 때
문에 더 좋은 번역 품질을 얻을 수 있다. 구(phrase)
내에 단어뿐만 아니라 변수 개념을 도입한 것이 계층
적 구(hierarchical phrase) 기반의 번역 방식인데, 2005
년 David Chiang에 의해서 제안되었다[4]. 기존의 구
기반 방식에서는 ‘eat an apple’ → ‘사과를 먹다’, ‘eat
a tomato’ → ‘토마토를 먹다’, ‘eat a hamburger’ →
‘햄버거를 먹다’와 같이 대역 관계를 표현했다면, 계층
적 구 방식에서는 ‘eat X’ → ‘X를 먹다’와 같이 대역
관계를 표현할 수 있어서 기존의 구(phrase) 방식에 비
해서 훨씬 더 많은 대역 관계를 표현할 수 있다. 그러
나 계층적 구 기반 번역은 변수 때문에 디코딩 방식이
복잡해지고 번역 속도가 느려지는 문제점이 존재한다.
한국어-영어와 같이 어순 차이가 큰 언어 쌍에서는
단순한 구 기반 모델로는 번역에 어려움이 있다. 대역
어 간의 정렬(alignment)을 찾는 과정도 어렵고, 그 결과
에도 많은 오류들이 포함되어 있다. 또한 원거리 의존
(long distance dependency) 관계를 표현하기도 쉽지 않
다. 그래서 번역을 하기 전에 입력 문장을 출력 언어의
어순과 비슷하게 바꾼 후에 번역을 시도하는 많은 연구
들이 있었고[5, 6], 번역을 하기 전에 어순을 바꾼다고
하여 사전 순서 변경(pre-reordering) 이라고 부른다. 예
를 들어 영어를 한국어로 번역을 한다고 했을 때, 영어
문장을 구문분석(parsing)을 하고 그 결과와 어순 변형
규칙을 이용해서 영어 문장을 한국어와 비슷하게 변형
을 한 다음에 구 기반 번역을 수행하면 번역 품질이 높
아진다. 그러나 이 방법들은 구문분석 결과에 의존적이
라서 구문분석 결과가 틀리면 어순 변경도 틀려져서 결
국 전혀 다른 의미로 번역되는 문제점을 가진다. 입력
문장의 구문분석 결과를 번역에 사용하는 방법을 구문
기반의 번역(Syntax-based SMT)이라고 하며[7,8], 계층
적 구 기반의 번역에서 변수 X 대신에 구문 카테고리
정보가 들어간다. 예를 들면, ‘eat X’가 아니고 ‘eat NP’
가 된다. 이때 NP는 명사구이고, ‘eat’ 다음에 모든 구가
가능한 것이 아니라 명사구만 올 수 있다고 한정하는
것이다. 이를 통해 불필요한 번역 후보 생성을 막아서 더
욱 정확한 번역을 할 수 있다. 하지만 이 방법 역시 구문
분석기의 정확률이 번역 품질에 영향을 준다.
다양한 번역 방식들 중에서 어떤 방식이 적합한지는
언어 쌍에 따라서 달라지고 결국 많은 실험을 통해 가
장 좋은 품질을 가지는 번역 방식을 찾아야 한다.
그림 3 SMT 기술 발전 과정
3. NMT
NMT는 Recurrent Neural Network(RNN)등의 신경
망을 이용하여 P(y|x)를 직접 최적화한다(x는 입력 언
어 문장, y는 출력 언어 문장). 그림4는 가장 기본적
인 NMT 모델중에 하나인 RNN encoder-decoder 모델
을 나타낸다[13]. 첫 번째 RNN(encoder)은 입력 언어
문장을 다음과 같이 continuous-space representation (c)
으로 인코딩(encoding)한다:
   
두 번째 RNN(decoder)은 이로부터 P(y|x)를 최대화
하는 출력 언어 문장을 생성한다. RNN에서는 long
term dependency를 학습하기 위해서 Long Short-Term
Memory (LSTM)나 Gated Recurrent Unit(GRU)를 사
용하며, 전체 시스템은 한번에(end-to-end) 학습된다.
학습이 끝난 후, 실제 번역을 수행할 때는 주어진 입
력 언어 문장으로부터 beam search 등을 이용하여
P(y|x)이 가장 높은 출력 언어 문장을 찾는다.
그림 4 RNN encoder-decoder model [13]
50 특집원고 Neural Machine Translation 기반의 영어-일본어 자동번역
RNN encoder-decoder 모델은 입력 언어의 문장을 길
이에 상관없이 항상 고정된 차원의 단일 벡터로 인코
딩하는데, 이로 인해 입력 문장이 길어질 경우 번역의
성능이 떨어진다는 문제가 있다. 또한 입력 언어 문장
으로부터 고정된 길이의 벡터만을 생성하고, 이로부터
출력 언어 문장을 생성하기 때문에 번역이 잘못되었을
경우에 원인을 분석하기 어렵다는 문제가 있다.
RNN search 모델에서는 인코더(encoder)와 디코더
(decoder)사이에 attention mechanism을 두어 이러한
문제들을 해결하였다[14]. 그림5는 RNN search모
델을 나타낸다. 인코더에서는 Bidirectional RNN을
사용하여 forward network에서는 hidden state vector set
{  ⋯ }를 생성하고 backward network에서는
hidden state vector set {  ⋯ }를 생성하여, 각 시간
별로 두 벡터들을 합하여 context vector set {  ⋯ }
(    )를 생성한다. Attention mechanism은 인코더
가 생성한 각각의 context vector  와 디코더가 현재까지
생성한 출력 언어 문장(  ⋯   )의 정보를 포함
하고 있는 hidden state vector   을 입력으로 받아
서 다음 출력 언어 단어  를 예측하기 위해서 주의해
서 봐야 할 context vector 의 attention weight 
  
를 결정한다. 이러한 attention weight를 결정하기 위해
서 Feed-Forward Neural Network(FFNN)와 같은 신경
망(fATT)이 내부적으로 사용되고, attention weight를 이
용하여 context vector set의 가중치 합(weighted sum)
을 구하여 새로운 context vector 
를 아래와 같이 구한다:


     


 
∑  

exp


exp



   




그림 5 Attention-based neural machine translation [14]
디코더는 새로 구한 context vector 
와 디코더의 이
전 hidden state vector   와 이전 출력 단어   을 입
력으로 받아서 hidden state vector  를 갱신하고 이를 이
용하여 새로운 출력 단어  를 beam search 등을 이용하여
결정한다. RNN search 모델은 attention mechanism을 도
입하여 출력 언어의 각 단어별로 context vector 
를 새로
계산하기 때문에 RNN encoder-decoder 모델에 비해서
긴 입력 언어 문장이 들어오더라도 성능 하락이 적으며,
attention weight를 단어 정렬(word alignment)로 사용할
수 있어 잘못된 번역의 원인 분석이 좀더 쉽다
지금까지 살펴본 NMT가 전통적인 방식의 SMT에
비해서 가지는 장점은 다음의 세 가지이다.
첫 번째는 전통적인 방식의 SMT는 많은 feature
engineering이 필요한데, 번역에 도움이 되는 feature들을
발굴하는 데는 전문적인 지식이 필요하고 시간도 많이 소
요된다. 그러나 NMT는 이런 feature의 발굴 작업이 필요
없이 학습할 네트웍의 구조만 결정해 주면 학습되는 파라
미터들에 번역에 필요한 모든 정보들이 포함되게 된다.
두 번째는 전통적인 방식의 SMT는 단어 정렬(word
alignment)을 최적화 시키기 위한 기계학습, 언어 모
델을 최적화시키기 위한 기계학습, 디코더에서 각
feature들의 가중치(weight)를 최적화시키기 위한 기계
학습을 각자 수행하는 문제점이 있다. NMT의 경우
입력 언어 문장을 input으로 했을 때, 출력 언어 문장
이 output으로 나오게 학습한다. 즉, 번역 결과가 최적
이 되도록 직접적으로 학습을 하는 장점을 가진다.
세 번째로 번역 시스템의 단순함이다. 전통적인 방
식의 SMT는 번역 모델, 언어 모델 등 리소스가 필요
하고 번역 방식에 따라서 다양한 형태의 디코더가 필
요하다. 또한 경우에 따라서는 구문분석기가 필요해
지고 어순의 변경도 필요하다. 하지만 NMT의 경우
전통적인 방식의 SMT에 비해서 상대적으로 간단한
구조의 디코더만 있으면 된다.
NMT의 단점은 다음과 같다.
첫 번째는 학습 시간이 오래 걸린다는 점이다. 데
이터가 많아지고 학습을 위한 네트웍이 복잡해질 수
록 학습 시간이 오래 걸린다. 그래서 학습을 빠르게
하기 위한 병렬 처리가 필수적이다.
두 번째는 번역 결과가 틀렸을 때, 원인을 분석하기가
어렵다는 점이다. 디버깅을 하고, 틀린 원인을 찾고, 수정하
는 과정은 기계번역기를 서비스하는데 꼭 필요한 과정이다.
4. 실험 및 평가
본 논문에서는 SMT와 NMT의 성능을 비교 평가하
→ → →
← ← ←
→ ←
2015. 10 정보과학회지 51
기 위해서, ASPEC(Asian Scientific Paper Excerpt
Corpus) 영어-일본어 병렬 코퍼스2)를 이용하여 영-일
기계번역 시스템을 학습 및 평가하였다. ASPEC 코퍼
스는 과학 기술 분야의 논문에서 수집된 문장으로 구
성되어 있다. 표 1은 ASPEC 코퍼스의 학습/개발/테스
트 데이터 통계를 보여준다.
표 1 ASPEC 코퍼스 통계
문장 수 영어 단어 수 일본어 단어 수
학습 3,008,500 79,186,067 93,156,187
개발 1,790 44,046 51,321
테스트 1,812 44,305 51,124
본 논문에서는 SMT 시스템과 NMT 시스템을 각각
구현하였으며, 학습 데이터는 동일하게 번역 품질 상위
100만 문장만을 이용하였다. SMT 시스템은 오픈소스
엔진인 Moses[9]을 이용하여 구현되었으며, 구문 기반
(Syntax-based) 모델 중 하나인 Tree-to-string 모델[8]을
학습하였다. 또한 MERT 알고리즘[2]을 이용하여 파라
미터 튜닝을 수행하였고, Chart 파싱 디코딩[4]을 통해
번역문을 생성하였다. Tree-to-string 모델에서는 소스
언어의 구문 분석 정보를 필요로 하기 때문에 영어 구
문 분석을 위해서 Berkeley 파서[10]를 이용하였다.
NMT 시스템은 RNN search 모델[14]과 유사하게
Theano[15]를 이용하여 자체적으로 구현하였으며, 디코더
부분에서 학습 속도를 위해 Maxout network 대신 ReLU를
사용하였다. 학습은 Stochastic Gradient Decent(SGD)를 사
용하였으며, 입력/출력 언어 모두 200차원의 word
embedding을 projection layer에 사용했고, hidden layer unit
수는 1000을 사용했으며, Dropout은 사용하지 않았다.
번역 결과의 성능 평가를 위해 테스트 데이터에서
의 BLEU[1]와 RIBES[11]를 측정하였다. BLEU는 번
역 평가에서 가장 널리 사용되고 있는 척도이며,
RIBES는 BLEU에 비해 영어-일본어와 같이 어순 차
이가 큰 언어쌍에서 더 정확한 평가가 가능하다고 알
려진 척도이다.
표 2는 NMT와 구 기반SMT, 계층적 구 기반 SMT,
구문 기반 SMT의 비교 평가 결과를 보여준다. SMT의
기본 모델인 구 기반 모델과 계층적 구 기반 모델의 결
과는 동일한 코퍼스로 학습하고 평가되어 WAT
2014[12]에서 보고된 결과를 참조하였다. 구문 기반 모
델은 구 기반 모델이나 계층적 구 기반 모델에 비해 확
연히 좋은 성능을 보여주었다. 실험 언어 쌍이 어순 차
2) http://lotus.kuee.kyoto-u.ac.jp/ASPEC/
이가 큰 영어-일본어이기 때문에 입력 언어 문장의 구
문 분석 정보가 활용되는 구문 기반 모델이 더 좋은 번
역문을 만들어 내었다. 반면, NMT는 명시적인 구문 분
석을 수행하지 않음에도 불구하고 SMT의 구 기반 모델
과 계층적 구 기반 모델을 능가하였고, 구문 기반 모델
과 BLEU에서는 거의 대등하였으며, RIBES에서는 오
히려 더 높은 성능을 보여주었다. 이는 NMT의 RNN
모델이 단순히 단어 번역에서뿐만 아니라 문장 내의 원
거리 의존성을 잘 학습하고 있기 때문으로 분석된다.
추가적으로 번역 예제 분석을 수행하였다. 표3은
SMT 번역문과 NMT 번역문을 비교하여 보여준다. 1번
예문에서 SMT 번역문은 전치사구로 수식되는 부분의
해석에 오류를 보인 반면, NMT는 수식 구조를 정확
히 해석하여 더욱 정확한 번역문을 만들었다. 2번 예
문에서는 SMT 번역문은 콤마로 연결된 대등 관계 부
분에서의 재배열 오류로 인해 원문의 의미를 정확히
전달하지 못한 반면, NMT 번역문은 정확한 배열을 보
이고 있다. SMT에서는 비교적 길고 복잡한 문장에서
구문 분석의 오류 전파가 자주 발생하는 것으로 보인다.
표 2 영-일 번역 성능 평가
시스템 BLEU (Juman) RIBES (Juman)
Phrase-based SMT 27.48 0.6837
Hierarchical
Phrase-based SMT
30.19 0.7347
Syntax-based SMT 32.63 0.7833
NMT 32.05 0.8012
표 3 영-일 번역 예문
예문
1
입력문
Three towns and eight villages in Kiso
District in Nagano Prefecture were
investigated as an object area for the
investigation.
SMT
번역문
3町と長野県木曽郡における8集落を調
査の対象地域として調べた。
NMT
번역문
調査の対象地域として長野県の木曽地区
の3つの町と8つの村を調査対象地域と
して 調査した。
예문
2
입력문
The results showed that the friction
coefficient of poly(2) brush was remarkably
smaller than that of poly(1) brush in water,
but reversely larger in air.
SMT
번역문
その結果,ポリ(2)ブラシの摩擦係数
は空気中で顕著にポリ(1)水における
ブラ シより小さいが,逆に大きいことを
示した。
NMT
번역문
その結果,ポリ(2)ブラシの摩擦係数
はポリ(1)ブラシのそれより著しく
小さい が,空気中では大きくなった。
52 특집원고 Neural Machine Translation 기반의 영어-일본어 자동번역
그러나 NMT는 이러한 오류 전파에서 자유롭고 원거
리 단어 재배열에서 좀더 좋은 결과를 보여준다.
5. 결 론
본 논문에서는 전통적인 방식의 SMT 방식인 구 기반
모델과 계층적 구 기반 모델과 구문 기반 모델을 소개
하고, 최근에 각광받고 있는 Neural Machine Translation
(NMT) 모델에 설명하고 이를 영어-일본어 기계번역에
적용하였다. 실험 결과, Attention mechanism을 사용하
는 NMT 모델이 기존의 구 기반 모델과 계층적 구 기반
모델보다 성능이 우수하였으며, 구문분석을 사용하는
구문 기반 모델과 유사한 성능을 보였다.
향후 연구로는 NMT 모델의 성능을 개선하고, 한
국어나 일본어, 중국어와 같은 언어에 알맞은 NMT
모델을 개발할 계획이다.
참고문헌
[ 1 ] Papineni, K, et al., "BLEU: a method for automatic
evaluation of machine translation," Proceedings of
ACL ’02, 2002.
[ 2 ] Och, F. J., "Minimum error rate training in statistical
machine translation." Proceedings of ACL ’03, 2003.
[ 3 ] Koehn, P. et al., "Statistical phrase-based translation,"
Proceedings of NAACL-HLT ’03, 2003.
[ 4 ] Chiang, D., "A hierarchical phrase-based model for
statistical machine translation," Proceedings of ACL
’05, 2005.
[ 5 ] Xu, P., et al., "Using a dependency parser to improve
SMT for subject-object-verb languages." Proceedings
of NAACL-HLT ’09., 2009.
[ 6 ] Goto, I., et al., "Post-ordering by parsing for
Japanese-English statistical machine translation,"
Proceedings of ACL ’12, 2012.
[ 7 ] Ahmed, A. and Hanneman, G., "Syntax-based
statistical machine translation: Areview," Computational
Linguistics, 2005.
[ 8 ] Liu, Y., et al., “Tree-to-string alignment template for
statistical machine translation,” Proceedings of
Coling-ACL ’06, 2006.
[ 9 ] Koehn, P., et al., “Moses: Open source toolkit for
statistical machine translation,” Proceedings of ACL
’07, 2007.
[10] Petrov, S. et al., "Learning Accurate, Compact, and
Interpretable Tree Annotation," Proceedings of
Coling-ACL ’06, 2006.
[11] Isozaki, H. et al., “Automatic Evaluation of Translation
Quality for Distant Language Pairs,” Proceedings of
EMNLP ’10, 2010.
[12] Nakazawa, T. et al., “Overview of the 1st workshop on
Asian translation,” Proceedings of WAT ’14, 2014.
[13] Cho, K. et al., “Learning phrase representations using
RNN encoder-decoder for statistical machine
translation,” Proceedings of EMNLP ’14, 2014.
[14] Bahdanau, D. et al., “Neural machine translation by
jointly learning to align and translate,” Proceedings of
ICLR’15, arXiv:1409.0473, 2015.
[15] Bastien, F. et al. “Theano: new features and speed
improvements,” Deep Learning and Unsupervised
Feature Learning NIPS 2012 Workshop. 2012.
이 창 기
1999 KAIST 학사.
2001 POSTECH 석사.
2004 POSTECH 박사.
2004~2012 ETRI 선임연구원.
2012~현재 강원대 IT대학 컴퓨터과학과 조교수.
관심분야: 자연언어처리, 기계학습, 딥러닝.
Email: leeck@kangwon.ac.kr
김 준 석
1999 경북대학교 컴퓨터공학과 졸업 (학사)
2001 포항공과대학교 컴퓨터공학과 졸업 (석사)
2001~2007 LG전자기술원 선임연구원
2007~현재 NAVER LABS
관심분야: 기계번역, 음성인식, 검색모델링, 자연
언어처리, 대화모델링
Email: jun.seok@navercorp.com
이 형 규
2005 고려대학교 컴퓨터학과 졸업 (학사)
2014 고려대학교 컴퓨터학과 졸업 (박사)
2005~2007 LG전자 MC연구소 연구원
2014~현재 NAVER LABS
관심분야: 자연언어처리, 정보추출, 기계번역
Email: hg.lee@navercorp.com
이 재 송
2010 한국과학기술원 전산학과 졸업 (학사)
2012 한국과학기술원 전산학과 졸업 (석사)
2015~현재 NAVER LABS
관심분야: 기계번역, 자연언어처리, 기계학습
Email: jaesong.lee@navercorp.com

More Related Content

What's hot

딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...keunbong kwak
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽NAVER D2
 
Efficient Training of Bert by Progressively Stacking
Efficient Training of Bert by Progressively StackingEfficient Training of Bert by Progressively Stacking
Efficient Training of Bert by Progressively StackingHoon Heo
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용r-kor
 
Character-Aware Neural Language Models
Character-Aware Neural Language ModelsCharacter-Aware Neural Language Models
Character-Aware Neural Language ModelsHoon Heo
 
Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksSequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksHoon Heo
 
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우NAVER D2
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향홍배 김
 
Masked Sequence to Sequence Pre-training for Language Generation
Masked Sequence to Sequence Pre-training for Language GenerationMasked Sequence to Sequence Pre-training for Language Generation
Masked Sequence to Sequence Pre-training for Language GenerationHoon Heo
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTLGCNSairesearch
 
Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2gohyunwoong
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차Taekyung Han
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현태현 임
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...gohyunwoong
 

What's hot (20)

딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽
 
Efficient Training of Bert by Progressively Stacking
Efficient Training of Bert by Progressively StackingEfficient Training of Bert by Progressively Stacking
Efficient Training of Bert by Progressively Stacking
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
Character-Aware Neural Language Models
Character-Aware Neural Language ModelsCharacter-Aware Neural Language Models
Character-Aware Neural Language Models
 
Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksSequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural Networks
 
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
REALM
REALMREALM
REALM
 
파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
Masked Sequence to Sequence Pre-training for Language Generation
Masked Sequence to Sequence Pre-training for Language GenerationMasked Sequence to Sequence Pre-training for Language Generation
Masked Sequence to Sequence Pre-training for Language Generation
 
GPT-X
GPT-XGPT-X
GPT-X
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
 
Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2
 
TinyBERT
TinyBERTTinyBERT
TinyBERT
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
 

Viewers also liked

AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...
AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...
AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...NAVER LABS
 
Webkit/chromium contribution process
Webkit/chromium contribution processWebkit/chromium contribution process
Webkit/chromium contribution processNAVER LABS
 
[134]papago 김준석
[134]papago 김준석[134]papago 김준석
[134]papago 김준석NAVER D2
 
챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 api챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 apiNAVER D2
 
챗봇 시작해보기
챗봇 시작해보기챗봇 시작해보기
챗봇 시작해보기성일 한
 
Docker + Kubernetes를 이용한 빌드 서버 가상화 사례
Docker + Kubernetes를 이용한 빌드 서버 가상화 사례Docker + Kubernetes를 이용한 빌드 서버 가상화 사례
Docker + Kubernetes를 이용한 빌드 서버 가상화 사례NAVER LABS
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 
Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)정명훈 Jerry Jeong
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템Seokhwan Kim
 
B6 문맥인식기술활용
B6 문맥인식기술활용B6 문맥인식기술활용
B6 문맥인식기술활용NAVER D2
 
On Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and BeyondOn Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and BeyondEunjeong (Lucy) Park
 
Language support and linguistics in lucene solr & its eco system
Language support and linguistics in lucene solr & its eco systemLanguage support and linguistics in lucene solr & its eco system
Language support and linguistics in lucene solr & its eco systemlucenerevolution
 
도도와 파이썬: 좋은 선택과 나쁜 선택
도도와 파이썬: 좋은 선택과 나쁜 선택도도와 파이썬: 좋은 선택과 나쁜 선택
도도와 파이썬: 좋은 선택과 나쁜 선택Jc Kim
 
Writing multi-language documentation using Sphinx
Writing multi-language documentation using SphinxWriting multi-language documentation using Sphinx
Writing multi-language documentation using SphinxMarkus Zapke-Gründemann
 
인공지능시대의 한국어 정보처리
인공지능시대의 한국어 정보처리인공지능시대의 한국어 정보처리
인공지능시대의 한국어 정보처리휘웅 정
 
통찰의연결 학습자료 02
통찰의연결 학습자료 02통찰의연결 학습자료 02
통찰의연결 학습자료 02connect_foundation
 
통찰의연결 학습자료 03
통찰의연결 학습자료 03통찰의연결 학습자료 03
통찰의연결 학습자료 03connect_foundation
 
통찰의연결 학습자료 01
통찰의연결 학습자료 01통찰의연결 학습자료 01
통찰의연결 학습자료 01connect_foundation
 
Introduction to Data Mining for Newbies
Introduction to Data Mining for NewbiesIntroduction to Data Mining for Newbies
Introduction to Data Mining for NewbiesEunjeong (Lucy) Park
 
형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘Dosang Yoon
 

Viewers also liked (20)

AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...
AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...
AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...
 
Webkit/chromium contribution process
Webkit/chromium contribution processWebkit/chromium contribution process
Webkit/chromium contribution process
 
[134]papago 김준석
[134]papago 김준석[134]papago 김준석
[134]papago 김준석
 
챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 api챗봇 개발을 위한 네이버 랩스 api
챗봇 개발을 위한 네이버 랩스 api
 
챗봇 시작해보기
챗봇 시작해보기챗봇 시작해보기
챗봇 시작해보기
 
Docker + Kubernetes를 이용한 빌드 서버 가상화 사례
Docker + Kubernetes를 이용한 빌드 서버 가상화 사례Docker + Kubernetes를 이용한 빌드 서버 가상화 사례
Docker + Kubernetes를 이용한 빌드 서버 가상화 사례
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 
B6 문맥인식기술활용
B6 문맥인식기술활용B6 문맥인식기술활용
B6 문맥인식기술활용
 
On Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and BeyondOn Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and Beyond
 
Language support and linguistics in lucene solr & its eco system
Language support and linguistics in lucene solr & its eco systemLanguage support and linguistics in lucene solr & its eco system
Language support and linguistics in lucene solr & its eco system
 
도도와 파이썬: 좋은 선택과 나쁜 선택
도도와 파이썬: 좋은 선택과 나쁜 선택도도와 파이썬: 좋은 선택과 나쁜 선택
도도와 파이썬: 좋은 선택과 나쁜 선택
 
Writing multi-language documentation using Sphinx
Writing multi-language documentation using SphinxWriting multi-language documentation using Sphinx
Writing multi-language documentation using Sphinx
 
인공지능시대의 한국어 정보처리
인공지능시대의 한국어 정보처리인공지능시대의 한국어 정보처리
인공지능시대의 한국어 정보처리
 
통찰의연결 학습자료 02
통찰의연결 학습자료 02통찰의연결 학습자료 02
통찰의연결 학습자료 02
 
통찰의연결 학습자료 03
통찰의연결 학습자료 03통찰의연결 학습자료 03
통찰의연결 학습자료 03
 
통찰의연결 학습자료 01
통찰의연결 학습자료 01통찰의연결 학습자료 01
통찰의연결 학습자료 01
 
Introduction to Data Mining for Newbies
Introduction to Data Mining for NewbiesIntroduction to Data Mining for Newbies
Introduction to Data Mining for Newbies
 
형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘
 

Similar to Neural Machine Translation 기반의 영어-일본어 자동번역

Improving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-TrainingImproving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-Trainingpko89403
 
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축Heewon Jeon
 
[Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? [Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? Hangil Kim
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거찬희 이
 
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래 engedukamall
 
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?Lee Gyeong Hoon
 
KIPS_C2008A_0034
KIPS_C2008A_0034KIPS_C2008A_0034
KIPS_C2008A_0034suhyuk park
 
Bert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeBert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeOverDeep
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템NAVER D2
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPTTae Young Lee
 
Bidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionBidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionWoodam Lim
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)SK(주) C&C - 강병호
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_pptseungwoo kim
 
(Papers Review)CNN for sentence classification
(Papers Review)CNN for sentence classification(Papers Review)CNN for sentence classification
(Papers Review)CNN for sentence classificationMYEONGGYU LEE
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발Jungkyu Lee
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성Hye-rim Jang
 
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...taeseon ryu
 

Similar to Neural Machine Translation 기반의 영어-일본어 자동번역 (20)

Improving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-TrainingImproving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-Training
 
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
 
자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
 
Mt
MtMt
Mt
 
[Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? [Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization?
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
 
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
 
KIPS_C2008A_0034
KIPS_C2008A_0034KIPS_C2008A_0034
KIPS_C2008A_0034
 
Bert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeBert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP Challenge
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT
 
Bidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionBidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehension
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_ppt
 
(Papers Review)CNN for sentence classification
(Papers Review)CNN for sentence classification(Papers Review)CNN for sentence classification
(Papers Review)CNN for sentence classification
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
 
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...
 

Neural Machine Translation 기반의 영어-일본어 자동번역

  • 1. 48 특집원고 Neural Machine Translation 기반의 영어-일본어 자동번역 Neural Machine Translation 기반의 영어-일본어 자동번역 강원대학교 이창기* 네이버 김준석・이형규・이재송* 1. 서 론 1) 최근의 기계번역 연구에서 Neural Machine Translation (NMT) 모델이 큰 각광을 받고 있다. 최근까지 기계번 역에 신경망을 적용하는 방식은re-ranking 방식이 주 로 연구되었고, 최근에는 end-to-end 방식의 신경망 구조를 사용하는 NMT 모델이 영어-프랑스와 같이 어 순이 유사한 언어 쌍에서 좋은 성능을 보였다. 본 논문에서는 전통적인 방식의 SMT 방식인 구 기반 (Phrase-based) 모델과 계층적 구 기반(Hierarchical Phrase-based) 모델, 그리고 구문 기반(Syntax-based) 모델 을 소개한다. 또한 최근에 각광받고 있는 NMT 모델에 대해 설명하고 이를 어순이 상이한 영어-일본어 기계번역에 적 용한다. 실험을 통해 NMT 모델이 기존의 구 기반 모델과 계층적 구 기반 모델보다 성능이 우수하고, 구문분석을 사용하는 Syntax-based 모델과 성능이 유사함을 보인다. 2장에서는 전통적인 방식의 SMT 모델에 대해서 소 개하고, 3장에서는 NMT 모델에 대해서 설명하고 NMT 모델의 장단점에 대해서 알아본다. 4장에서는 기존의 SMT 모델과 NMT 모델을 어순이 상이한 영 어-일본어 기계번역에 적용한 결과를 설명한다. 2. SMT 전통적인 방식의 SMT는 대규모 데이터 기반으로 자동 으로 학습된 통계적 모델을 기반으로 번역하는 방식이다. 그림 1은 전통적인 방식의 SMT의 기본 구조를 보여준다. SMT는 병렬코퍼스(bilingual corpus)로부터 학습된 번역 모델(translation model)과 단일언어 코퍼스(monolingual corpus)로부터 학습된 언어 모델(language model)을 이용 하여 번역을 수행한다. 입력 언어(source language) 문장이 들어오면 형태소 분석과 같은 전처리를 수행하고, 디코더 (decoder)에서는 번역 모델과 언어 모델 등의 통계 모델을 * 종신회원 기반으로 최적의 번역 열을 찾은 후에 출력 언어(target language) 문장에 맞게 생성하면 번역이 완료된다. 그림 2는 구(phrase) 기반의 SMT의 기본 수식을 보 여준다. fi는 입력 언어의 구(phrase)를 ei는 출력 언어의 구를 의미한다. P(fi|ei)는 ei가 fi로 번역될 확률 값이고, P(ei)은 출력 언어가 나타날 확률인 언어 모델 값이다. 수식에서 양변에 log를 취하는 log-linear 모델로 변환하 면 그림 2의 아래와 같은 가중치-합(weighted-sum) 형 태의 수식이 된다. hm(e, f)은 번역 모델과 언어 모델 같은 feature 함수가 되고, λm은 해당 feature 함수의 가중치를 의미한다. 가중치는 기계번역에서 가장 많 이 사용하는 척도인 BLEU[1]값을 최대화 시키는 파 라미터 최적화 방식 MERT[2]를 사용하여 그 값이 결 정된다. 따라서 전통적인 방식의 SMT는 결국 좋은 feature 함수를 발굴하는 것이 가장 중요하다. 이에 따라, 번역 모델, 언어 모델 외에 다양한 feature 함수를 만 들어내고 기존 모델에 추가하여 실험을 통해 번역 품 질 높이는 많은 연구들이 진행되었다. 그림 1 SMT 기본 구조 그림 2 SMT 기본 수식 특집원고
  • 2. 2015. 10 정보과학회지 49 그림 3은 전통적인 방식의 SMT 기술 발전 과정을 보여준다. 처음에는 단어(word) 단위로 번역을 수행하 다가 2003년 여러 개의 단어들의 묶음인 구(phrase) 라는 단위의 번역 방식이 제안되었다[3]. 단어 단위 보다 구 단위가 번역의 모호성(ambiguity)이 낮기 때 문에 더 좋은 번역 품질을 얻을 수 있다. 구(phrase) 내에 단어뿐만 아니라 변수 개념을 도입한 것이 계층 적 구(hierarchical phrase) 기반의 번역 방식인데, 2005 년 David Chiang에 의해서 제안되었다[4]. 기존의 구 기반 방식에서는 ‘eat an apple’ → ‘사과를 먹다’, ‘eat a tomato’ → ‘토마토를 먹다’, ‘eat a hamburger’ → ‘햄버거를 먹다’와 같이 대역 관계를 표현했다면, 계층 적 구 방식에서는 ‘eat X’ → ‘X를 먹다’와 같이 대역 관계를 표현할 수 있어서 기존의 구(phrase) 방식에 비 해서 훨씬 더 많은 대역 관계를 표현할 수 있다. 그러 나 계층적 구 기반 번역은 변수 때문에 디코딩 방식이 복잡해지고 번역 속도가 느려지는 문제점이 존재한다. 한국어-영어와 같이 어순 차이가 큰 언어 쌍에서는 단순한 구 기반 모델로는 번역에 어려움이 있다. 대역 어 간의 정렬(alignment)을 찾는 과정도 어렵고, 그 결과 에도 많은 오류들이 포함되어 있다. 또한 원거리 의존 (long distance dependency) 관계를 표현하기도 쉽지 않 다. 그래서 번역을 하기 전에 입력 문장을 출력 언어의 어순과 비슷하게 바꾼 후에 번역을 시도하는 많은 연구 들이 있었고[5, 6], 번역을 하기 전에 어순을 바꾼다고 하여 사전 순서 변경(pre-reordering) 이라고 부른다. 예 를 들어 영어를 한국어로 번역을 한다고 했을 때, 영어 문장을 구문분석(parsing)을 하고 그 결과와 어순 변형 규칙을 이용해서 영어 문장을 한국어와 비슷하게 변형 을 한 다음에 구 기반 번역을 수행하면 번역 품질이 높 아진다. 그러나 이 방법들은 구문분석 결과에 의존적이 라서 구문분석 결과가 틀리면 어순 변경도 틀려져서 결 국 전혀 다른 의미로 번역되는 문제점을 가진다. 입력 문장의 구문분석 결과를 번역에 사용하는 방법을 구문 기반의 번역(Syntax-based SMT)이라고 하며[7,8], 계층 적 구 기반의 번역에서 변수 X 대신에 구문 카테고리 정보가 들어간다. 예를 들면, ‘eat X’가 아니고 ‘eat NP’ 가 된다. 이때 NP는 명사구이고, ‘eat’ 다음에 모든 구가 가능한 것이 아니라 명사구만 올 수 있다고 한정하는 것이다. 이를 통해 불필요한 번역 후보 생성을 막아서 더 욱 정확한 번역을 할 수 있다. 하지만 이 방법 역시 구문 분석기의 정확률이 번역 품질에 영향을 준다. 다양한 번역 방식들 중에서 어떤 방식이 적합한지는 언어 쌍에 따라서 달라지고 결국 많은 실험을 통해 가 장 좋은 품질을 가지는 번역 방식을 찾아야 한다. 그림 3 SMT 기술 발전 과정 3. NMT NMT는 Recurrent Neural Network(RNN)등의 신경 망을 이용하여 P(y|x)를 직접 최적화한다(x는 입력 언 어 문장, y는 출력 언어 문장). 그림4는 가장 기본적 인 NMT 모델중에 하나인 RNN encoder-decoder 모델 을 나타낸다[13]. 첫 번째 RNN(encoder)은 입력 언어 문장을 다음과 같이 continuous-space representation (c) 으로 인코딩(encoding)한다:     두 번째 RNN(decoder)은 이로부터 P(y|x)를 최대화 하는 출력 언어 문장을 생성한다. RNN에서는 long term dependency를 학습하기 위해서 Long Short-Term Memory (LSTM)나 Gated Recurrent Unit(GRU)를 사 용하며, 전체 시스템은 한번에(end-to-end) 학습된다. 학습이 끝난 후, 실제 번역을 수행할 때는 주어진 입 력 언어 문장으로부터 beam search 등을 이용하여 P(y|x)이 가장 높은 출력 언어 문장을 찾는다. 그림 4 RNN encoder-decoder model [13]
  • 3. 50 특집원고 Neural Machine Translation 기반의 영어-일본어 자동번역 RNN encoder-decoder 모델은 입력 언어의 문장을 길 이에 상관없이 항상 고정된 차원의 단일 벡터로 인코 딩하는데, 이로 인해 입력 문장이 길어질 경우 번역의 성능이 떨어진다는 문제가 있다. 또한 입력 언어 문장 으로부터 고정된 길이의 벡터만을 생성하고, 이로부터 출력 언어 문장을 생성하기 때문에 번역이 잘못되었을 경우에 원인을 분석하기 어렵다는 문제가 있다. RNN search 모델에서는 인코더(encoder)와 디코더 (decoder)사이에 attention mechanism을 두어 이러한 문제들을 해결하였다[14]. 그림5는 RNN search모 델을 나타낸다. 인코더에서는 Bidirectional RNN을 사용하여 forward network에서는 hidden state vector set {  ⋯ }를 생성하고 backward network에서는 hidden state vector set {  ⋯ }를 생성하여, 각 시간 별로 두 벡터들을 합하여 context vector set {  ⋯ } (    )를 생성한다. Attention mechanism은 인코더 가 생성한 각각의 context vector  와 디코더가 현재까지 생성한 출력 언어 문장(  ⋯   )의 정보를 포함 하고 있는 hidden state vector   을 입력으로 받아 서 다음 출력 언어 단어  를 예측하기 위해서 주의해 서 봐야 할 context vector 의 attention weight     를 결정한다. 이러한 attention weight를 결정하기 위해 서 Feed-Forward Neural Network(FFNN)와 같은 신경 망(fATT)이 내부적으로 사용되고, attention weight를 이 용하여 context vector set의 가중치 합(weighted sum) 을 구하여 새로운 context vector  를 아래와 같이 구한다:             ∑    exp   exp            그림 5 Attention-based neural machine translation [14] 디코더는 새로 구한 context vector  와 디코더의 이 전 hidden state vector   와 이전 출력 단어   을 입 력으로 받아서 hidden state vector  를 갱신하고 이를 이 용하여 새로운 출력 단어  를 beam search 등을 이용하여 결정한다. RNN search 모델은 attention mechanism을 도 입하여 출력 언어의 각 단어별로 context vector  를 새로 계산하기 때문에 RNN encoder-decoder 모델에 비해서 긴 입력 언어 문장이 들어오더라도 성능 하락이 적으며, attention weight를 단어 정렬(word alignment)로 사용할 수 있어 잘못된 번역의 원인 분석이 좀더 쉽다 지금까지 살펴본 NMT가 전통적인 방식의 SMT에 비해서 가지는 장점은 다음의 세 가지이다. 첫 번째는 전통적인 방식의 SMT는 많은 feature engineering이 필요한데, 번역에 도움이 되는 feature들을 발굴하는 데는 전문적인 지식이 필요하고 시간도 많이 소 요된다. 그러나 NMT는 이런 feature의 발굴 작업이 필요 없이 학습할 네트웍의 구조만 결정해 주면 학습되는 파라 미터들에 번역에 필요한 모든 정보들이 포함되게 된다. 두 번째는 전통적인 방식의 SMT는 단어 정렬(word alignment)을 최적화 시키기 위한 기계학습, 언어 모 델을 최적화시키기 위한 기계학습, 디코더에서 각 feature들의 가중치(weight)를 최적화시키기 위한 기계 학습을 각자 수행하는 문제점이 있다. NMT의 경우 입력 언어 문장을 input으로 했을 때, 출력 언어 문장 이 output으로 나오게 학습한다. 즉, 번역 결과가 최적 이 되도록 직접적으로 학습을 하는 장점을 가진다. 세 번째로 번역 시스템의 단순함이다. 전통적인 방 식의 SMT는 번역 모델, 언어 모델 등 리소스가 필요 하고 번역 방식에 따라서 다양한 형태의 디코더가 필 요하다. 또한 경우에 따라서는 구문분석기가 필요해 지고 어순의 변경도 필요하다. 하지만 NMT의 경우 전통적인 방식의 SMT에 비해서 상대적으로 간단한 구조의 디코더만 있으면 된다. NMT의 단점은 다음과 같다. 첫 번째는 학습 시간이 오래 걸린다는 점이다. 데 이터가 많아지고 학습을 위한 네트웍이 복잡해질 수 록 학습 시간이 오래 걸린다. 그래서 학습을 빠르게 하기 위한 병렬 처리가 필수적이다. 두 번째는 번역 결과가 틀렸을 때, 원인을 분석하기가 어렵다는 점이다. 디버깅을 하고, 틀린 원인을 찾고, 수정하 는 과정은 기계번역기를 서비스하는데 꼭 필요한 과정이다. 4. 실험 및 평가 본 논문에서는 SMT와 NMT의 성능을 비교 평가하 → → → ← ← ← → ←
  • 4. 2015. 10 정보과학회지 51 기 위해서, ASPEC(Asian Scientific Paper Excerpt Corpus) 영어-일본어 병렬 코퍼스2)를 이용하여 영-일 기계번역 시스템을 학습 및 평가하였다. ASPEC 코퍼 스는 과학 기술 분야의 논문에서 수집된 문장으로 구 성되어 있다. 표 1은 ASPEC 코퍼스의 학습/개발/테스 트 데이터 통계를 보여준다. 표 1 ASPEC 코퍼스 통계 문장 수 영어 단어 수 일본어 단어 수 학습 3,008,500 79,186,067 93,156,187 개발 1,790 44,046 51,321 테스트 1,812 44,305 51,124 본 논문에서는 SMT 시스템과 NMT 시스템을 각각 구현하였으며, 학습 데이터는 동일하게 번역 품질 상위 100만 문장만을 이용하였다. SMT 시스템은 오픈소스 엔진인 Moses[9]을 이용하여 구현되었으며, 구문 기반 (Syntax-based) 모델 중 하나인 Tree-to-string 모델[8]을 학습하였다. 또한 MERT 알고리즘[2]을 이용하여 파라 미터 튜닝을 수행하였고, Chart 파싱 디코딩[4]을 통해 번역문을 생성하였다. Tree-to-string 모델에서는 소스 언어의 구문 분석 정보를 필요로 하기 때문에 영어 구 문 분석을 위해서 Berkeley 파서[10]를 이용하였다. NMT 시스템은 RNN search 모델[14]과 유사하게 Theano[15]를 이용하여 자체적으로 구현하였으며, 디코더 부분에서 학습 속도를 위해 Maxout network 대신 ReLU를 사용하였다. 학습은 Stochastic Gradient Decent(SGD)를 사 용하였으며, 입력/출력 언어 모두 200차원의 word embedding을 projection layer에 사용했고, hidden layer unit 수는 1000을 사용했으며, Dropout은 사용하지 않았다. 번역 결과의 성능 평가를 위해 테스트 데이터에서 의 BLEU[1]와 RIBES[11]를 측정하였다. BLEU는 번 역 평가에서 가장 널리 사용되고 있는 척도이며, RIBES는 BLEU에 비해 영어-일본어와 같이 어순 차 이가 큰 언어쌍에서 더 정확한 평가가 가능하다고 알 려진 척도이다. 표 2는 NMT와 구 기반SMT, 계층적 구 기반 SMT, 구문 기반 SMT의 비교 평가 결과를 보여준다. SMT의 기본 모델인 구 기반 모델과 계층적 구 기반 모델의 결 과는 동일한 코퍼스로 학습하고 평가되어 WAT 2014[12]에서 보고된 결과를 참조하였다. 구문 기반 모 델은 구 기반 모델이나 계층적 구 기반 모델에 비해 확 연히 좋은 성능을 보여주었다. 실험 언어 쌍이 어순 차 2) http://lotus.kuee.kyoto-u.ac.jp/ASPEC/ 이가 큰 영어-일본어이기 때문에 입력 언어 문장의 구 문 분석 정보가 활용되는 구문 기반 모델이 더 좋은 번 역문을 만들어 내었다. 반면, NMT는 명시적인 구문 분 석을 수행하지 않음에도 불구하고 SMT의 구 기반 모델 과 계층적 구 기반 모델을 능가하였고, 구문 기반 모델 과 BLEU에서는 거의 대등하였으며, RIBES에서는 오 히려 더 높은 성능을 보여주었다. 이는 NMT의 RNN 모델이 단순히 단어 번역에서뿐만 아니라 문장 내의 원 거리 의존성을 잘 학습하고 있기 때문으로 분석된다. 추가적으로 번역 예제 분석을 수행하였다. 표3은 SMT 번역문과 NMT 번역문을 비교하여 보여준다. 1번 예문에서 SMT 번역문은 전치사구로 수식되는 부분의 해석에 오류를 보인 반면, NMT는 수식 구조를 정확 히 해석하여 더욱 정확한 번역문을 만들었다. 2번 예 문에서는 SMT 번역문은 콤마로 연결된 대등 관계 부 분에서의 재배열 오류로 인해 원문의 의미를 정확히 전달하지 못한 반면, NMT 번역문은 정확한 배열을 보 이고 있다. SMT에서는 비교적 길고 복잡한 문장에서 구문 분석의 오류 전파가 자주 발생하는 것으로 보인다. 표 2 영-일 번역 성능 평가 시스템 BLEU (Juman) RIBES (Juman) Phrase-based SMT 27.48 0.6837 Hierarchical Phrase-based SMT 30.19 0.7347 Syntax-based SMT 32.63 0.7833 NMT 32.05 0.8012 표 3 영-일 번역 예문 예문 1 입력문 Three towns and eight villages in Kiso District in Nagano Prefecture were investigated as an object area for the investigation. SMT 번역문 3町と長野県木曽郡における8集落を調 査の対象地域として調べた。 NMT 번역문 調査の対象地域として長野県の木曽地区 の3つの町と8つの村を調査対象地域と して 調査した。 예문 2 입력문 The results showed that the friction coefficient of poly(2) brush was remarkably smaller than that of poly(1) brush in water, but reversely larger in air. SMT 번역문 その結果,ポリ(2)ブラシの摩擦係数 は空気中で顕著にポリ(1)水における ブラ シより小さいが,逆に大きいことを 示した。 NMT 번역문 その結果,ポリ(2)ブラシの摩擦係数 はポリ(1)ブラシのそれより著しく 小さい が,空気中では大きくなった。
  • 5. 52 특집원고 Neural Machine Translation 기반의 영어-일본어 자동번역 그러나 NMT는 이러한 오류 전파에서 자유롭고 원거 리 단어 재배열에서 좀더 좋은 결과를 보여준다. 5. 결 론 본 논문에서는 전통적인 방식의 SMT 방식인 구 기반 모델과 계층적 구 기반 모델과 구문 기반 모델을 소개 하고, 최근에 각광받고 있는 Neural Machine Translation (NMT) 모델에 설명하고 이를 영어-일본어 기계번역에 적용하였다. 실험 결과, Attention mechanism을 사용하 는 NMT 모델이 기존의 구 기반 모델과 계층적 구 기반 모델보다 성능이 우수하였으며, 구문분석을 사용하는 구문 기반 모델과 유사한 성능을 보였다. 향후 연구로는 NMT 모델의 성능을 개선하고, 한 국어나 일본어, 중국어와 같은 언어에 알맞은 NMT 모델을 개발할 계획이다. 참고문헌 [ 1 ] Papineni, K, et al., "BLEU: a method for automatic evaluation of machine translation," Proceedings of ACL ’02, 2002. [ 2 ] Och, F. J., "Minimum error rate training in statistical machine translation." Proceedings of ACL ’03, 2003. [ 3 ] Koehn, P. et al., "Statistical phrase-based translation," Proceedings of NAACL-HLT ’03, 2003. [ 4 ] Chiang, D., "A hierarchical phrase-based model for statistical machine translation," Proceedings of ACL ’05, 2005. [ 5 ] Xu, P., et al., "Using a dependency parser to improve SMT for subject-object-verb languages." Proceedings of NAACL-HLT ’09., 2009. [ 6 ] Goto, I., et al., "Post-ordering by parsing for Japanese-English statistical machine translation," Proceedings of ACL ’12, 2012. [ 7 ] Ahmed, A. and Hanneman, G., "Syntax-based statistical machine translation: Areview," Computational Linguistics, 2005. [ 8 ] Liu, Y., et al., “Tree-to-string alignment template for statistical machine translation,” Proceedings of Coling-ACL ’06, 2006. [ 9 ] Koehn, P., et al., “Moses: Open source toolkit for statistical machine translation,” Proceedings of ACL ’07, 2007. [10] Petrov, S. et al., "Learning Accurate, Compact, and Interpretable Tree Annotation," Proceedings of Coling-ACL ’06, 2006. [11] Isozaki, H. et al., “Automatic Evaluation of Translation Quality for Distant Language Pairs,” Proceedings of EMNLP ’10, 2010. [12] Nakazawa, T. et al., “Overview of the 1st workshop on Asian translation,” Proceedings of WAT ’14, 2014. [13] Cho, K. et al., “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” Proceedings of EMNLP ’14, 2014. [14] Bahdanau, D. et al., “Neural machine translation by jointly learning to align and translate,” Proceedings of ICLR’15, arXiv:1409.0473, 2015. [15] Bastien, F. et al. “Theano: new features and speed improvements,” Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop. 2012. 이 창 기 1999 KAIST 학사. 2001 POSTECH 석사. 2004 POSTECH 박사. 2004~2012 ETRI 선임연구원. 2012~현재 강원대 IT대학 컴퓨터과학과 조교수. 관심분야: 자연언어처리, 기계학습, 딥러닝. Email: leeck@kangwon.ac.kr 김 준 석 1999 경북대학교 컴퓨터공학과 졸업 (학사) 2001 포항공과대학교 컴퓨터공학과 졸업 (석사) 2001~2007 LG전자기술원 선임연구원 2007~현재 NAVER LABS 관심분야: 기계번역, 음성인식, 검색모델링, 자연 언어처리, 대화모델링 Email: jun.seok@navercorp.com 이 형 규 2005 고려대학교 컴퓨터학과 졸업 (학사) 2014 고려대학교 컴퓨터학과 졸업 (박사) 2005~2007 LG전자 MC연구소 연구원 2014~현재 NAVER LABS 관심분야: 자연언어처리, 정보추출, 기계번역 Email: hg.lee@navercorp.com 이 재 송 2010 한국과학기술원 전산학과 졸업 (학사) 2012 한국과학기술원 전산학과 졸업 (석사) 2015~현재 NAVER LABS 관심분야: 기계번역, 자연언어처리, 기계학습 Email: jaesong.lee@navercorp.com