訓練データ 開発データ 試験データ
翻訳知識/ ルール
フレーズテーブル
素性の重み
言語
モデル
最終
翻訳結果
チューニング
リランキング/
リライティング
デコーダー / 翻訳エンジン
一般的な統計翻訳(SMT)の枠組み
単語/句
アライメント
N-best
翻訳結果
N-best
翻訳結果
正解翻訳
GIZA++
MGIZA
FastAlign
Nile
SRILM
KenLM
RNNLM
Moses, Joshua
Travatar, KyotoEBMT
MERT
MIRA
PRO
7
8.
フレーズベースSMTのデコーディング
新たな 翻訳 手法を 提案 する
new
novel
translation method
a method the
propose is
do
we propose
a
an approach
approach
suggestdecode
we proposetranslation algorithm
a new translation method
of the
novel translation
フレーズ
テーブル
we propose a novel translation method
8
Byte Pair Encodingのアルゴリズム
31
[Sennrichet al., 2016b]
頻度
5
2
6
3
単語
l o w
l o w e r
n e w e s t
w i d e s t
コーパス
l, o, w, e, r, n, w, s, t, i, d
語彙 (サイズ = 15)
初期語彙 = 文字 (11個)
es (頻度 = 9)
est (頻度 = 9)
lo (頻度 = 7)
low (頻度 = 7)
単語
l o w
l o w e r
n e w es t
w i d es t
単語
l o w
l o w e r
n e w est
w i d est
単語
lo w
lo w e r
n e w est
w i d est
単語
low
low e r
n e w est
w i d est
その他のNMTモデル (2/3)
• AttentionIs All You Need
– https://arxiv.org/abs/1706.03762
– RNNもCNNもいらない!Feed-forwardのみの
Transformerを提案
– Self-attentionにより代名詞の実体も考慮できる
51https://research.googleblog.com/2017/08/transformer-novel-neural-network.html