[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models

Achieving Open Vocabulary Neural
Machine Translation with Hybrid Word-
Character Models
Minh-Thang Luong and Christopher D. Manning
ACL2016
B4 山岸駿秀
1

Introduction
• NMTには語彙制限の問題がある
• “distinct”は高頻度語でも、”distinctiveness”は低頻度語扱い
• ソースからのコピー[Luong+ 2015b]にも問題がある
• “Christopher” (English) → “Krystof” (Czech) (翻字)
• 単語単位の翻訳+未知語処理用の文字単位翻訳
• end-to-endな学習ができる
• ただの文字ベースより速く、かつ文脈情報が使える
˘
2

Attentionを使ったNMT
• 生成確率の対数尤度の最大化
• 隠れ層のsoftmaxをとる
• クロスエントロピーを最小化
• Attentionでは、htを以下で代用
3

Hybrid NMT
• 単語レベルのencoder側で未知語になったら、
文字レベルのencoderを動かす
• 文字レベルのencoderの出力を単語レベルの
分散表現として利用
• クロスエントロピーを以下の式に変える
• Jwは、単語単位のNMTのロス
• Jcは、文字単位のdecoderのロス
• αは、今回は1.0
• ミニバッチごとに文字レベルの出力を計算
4

separate-path
文字レベルdecoderの隠れ層初期化を2パターン用意
• same-path
• 隠れ層の初期化にを用いる
• separate-path
• の代わりに以下を使う
5

Experiments
• WMT’15のEnglish-Czech翻訳タスク
• チェコ語は、英語に比べて語彙数が多い
• train set: 1580万文
• dev set: newstest2013 (3000文)
• test set: newstest2015 (2656文)
• 単語ベース、文字ベース、Hybridの3
つを比較
• BLEUとchrF3で評価
6

Settings
• Deep LSTM (4層、1024次元)
• [-0.1, 0.1]で初期化
• SGD、6 epoch (学習率は4 epochまでは1.0、それ以降は0.5)
• ミニバッチ: 128 (shuffled)
• 確率0.2でドロップアウト
• 単語単位のみ: 50単語以上の文は削除、|V|はいくつか実験
• 文字単位のみ: 150文字以上の文は削除
• 学習に単語単位は21日、文字単位は3か月、Hybridは25日
7

Analysis (1/2)
• 語彙数が少ないときにBLEUの大きな向上 (+11.4)
• 文字レベルencoderが出力した表現間の単語類似度も、最高精
度のものと戦える水準にある
9

Analysis (2/2)
以下のことが改善
• ソースからのコピーではできなかった例 (単語ベース)
• “11-year-old” → “11-year-old” (本来は“jedenáctiletá”になるはず)
• 固有名詞を訳してしまった例 (文字ベース)
• “Martin Luther King” → “Martin Luther král”
• 複合語の出力
課題
• 高頻度語の情報を文字decoderの学習に取り込めていない
12

Conclusion
• 単語ベースのモデルへ、未知語処理用に文字ベースのモデルを
追加
• English-Czech翻訳で最高性能 (20.7 BLEU)
• 語彙数の少ない条件下では、最大で +11.4 BLEU
• 英語側の分散表現も、よいものが得られている
13

[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (6)

More from Hayahide Yamagishi

More from Hayahide Yamagishi (15)

[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models

Editor's Notes