Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models

228 views

Published on

Author: Minh-Thang Luong and Christopher D. Manning
ACL読み会@小町研究室

Published in: Data & Analytics
  • Be the first to comment

[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models

  1. 1. Achieving Open Vocabulary Neural Machine Translation with Hybrid Word- Character Models Minh-Thang Luong and Christopher D. Manning ACL2016 B4 山岸駿秀 1
  2. 2. Introduction • NMTには語彙制限の問題がある • “distinct”は高頻度語でも、”distinctiveness”は低頻度語扱い • ソースからのコピー[Luong+ 2015b]にも問題がある • “Christopher” (English) → “Krystof” (Czech) (翻字) • 単語単位の翻訳+未知語処理用の文字単位翻訳 • end-to-endな学習ができる • ただの文字ベースより速く、かつ文脈情報が使える ˘ 2
  3. 3. Attentionを使ったNMT • 生成確率の対数尤度の最大化 • 隠れ層のsoftmaxをとる • クロスエントロピーを最小化 • Attentionでは、htを以下で代用 3
  4. 4. Hybrid NMT • 単語レベルのencoder側で未知語になったら、 文字レベルのencoderを動かす • 文字レベルのencoderの出力を単語レベルの 分散表現として利用 • クロスエントロピーを以下の式に変える • Jwは、単語単位のNMTのロス • Jcは、文字単位のdecoderのロス • αは、今回は1.0 • ミニバッチごとに文字レベルの出力を計算 4
  5. 5. separate-path 文字レベルdecoderの隠れ層初期化を2パターン用意 • same-path • 隠れ層の初期化に を用いる • separate-path • の代わりに以下を使う 5
  6. 6. Experiments • WMT’15のEnglish-Czech翻訳タスク • チェコ語は、英語に比べて語彙数が多い • train set: 1580万文 • dev set: newstest2013 (3000文) • test set: newstest2015 (2656文) • 単語ベース、文字ベース、Hybridの3 つを比較 • BLEUとchrF3で評価 6
  7. 7. Settings • Deep LSTM (4層、1024次元) • [-0.1, 0.1]で初期化 • SGD、6 epoch (学習率は4 epochまでは1.0、それ以降は0.5) • ミニバッチ: 128 (shuffled) • 確率0.2でドロップアウト • 単語単位のみ: 50単語以上の文は削除、|V|はいくつか実験 • 文字単位のみ: 150文字以上の文は削除 • 学習に単語単位は21日、文字単位は3か月、Hybridは25日 7
  8. 8. Result 8
  9. 9. Analysis (1/2) • 語彙数が少ないときにBLEUの大きな向上 (+11.4) • 文字レベルencoderが出力した表現間の単語類似度も、最高精 度のものと戦える水準にある 9
  10. 10. Examples 1 10
  11. 11. Examples 2 11
  12. 12. Analysis (2/2) 以下のことが改善 • ソースからのコピーではできなかった例 (単語ベース) • “11-year-old” → “11-year-old” (本来は“jedenáctiletá”になるはず) • 固有名詞を訳してしまった例 (文字ベース) • “Martin Luther King” → “Martin Luther král” • 複合語の出力 課題 • 高頻度語の情報を文字decoderの学習に取り込めていない 12
  13. 13. Conclusion • 単語ベースのモデルへ、未知語処理用に文字ベースのモデルを 追加 • English-Czech翻訳で最高性能 (20.7 BLEU) • 語彙数の少ない条件下では、最大で +11.4 BLEU • 英語側の分散表現も、よいものが得られている 13

×