Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上

1,047 views

Published on

本論文は、翻訳対象となる言語対に十分な量の対訳データが得られない場合に、第三の言語を中間言語として利用するピボット翻訳手法の新しい実装法を提案し、翻訳精度を大きく改善できることを示した。本論文は、今後、英語を介した日本語とアジア言語の翻訳のような語順が大きく異なる言語対への適用が期待できるなど、ピボット翻訳に関する新しい研究の方向性と発展の可能性を示している。

Published in: Science
  • Be the first to comment

  • Be the first to like this

中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上

  1. 1. 中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 1 第3回 AAMT⻑尾賞学⽣激励賞 研究発表 奈良先端科学技術⼤学院⼤学 知能コミュニケーション研究室 三浦 明波 (Akiva Miura)
  2. 2. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 2Akiva Miura AHC-Lab, IS, NAIST
  3. 3. ⽬次 1.  研究背景(ピボット翻訳の必要性) 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 3Akiva Miura AHC-Lab, IS, NAIST
  4. 4. ü  ⼈⼿によるルール記述が不要 統計的機械翻訳 l  統計的機械翻訳(Statistical Machine Translation ; SMT) :                     [Brown et al., 1993] 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 4 対訳コーパス ⽬的⾔語 コーパス 翻訳モデル ⾔語モデル デコーダ (翻訳機) 学習データ ⼊⼒⽂ 出⼒⽂ 翻訳システム ü  学習データの⽂量が増えるほど訳出の精度が向上
  5. 5. 多⾔語翻訳における課題 16/06/20 5 l  ⾔語対によって対訳コーパスの取得性が⼤きく異なる (例) •  ⼗分な⽂量の対訳コーパスが得られない場合は…? Akiva Miura AHC-Lab, IS, NAIST OKü  ⽇本語 ⇔ 英語: Web上で1000万⽂以上の⼤規模データが取得可能 NG✗  ⽇本語 ⇔ イタリア語:  ? (⽂単位で対訳になっているデータは多くない)
  6. 6. ピボット翻訳 翻訳したいが⼗分な対訳コーパスが無い… 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 6 ⽇本語 イタリア語✗ ピボット⾔語(中間⾔語)を導⼊! ⽇本語 イタリア語英語 ピボット⾔語を介して翻訳が可能に!! ⽇本語 イタリア語英語 ✔ Source Pivot Target
  7. 7. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 7Akiva Miura AHC-Lab, IS, NAIST
  8. 8. ü  実現が容易、機械翻訳⽅式に依らず組合せ可能 ✗  翻訳誤りが伝播される、システム全体の最適化困難 15/03/15 Akiva Miura AHC-Lab, IS, NAIST 8 SMT S → P SMT P → T S⽂ P⽂ T⽂ l  パイプライン処理によって中間⾔語⽂を介して翻訳              [De Gispert et al.,2006] 逐次的ピボット翻訳 (Cascade) S: 原⾔語 P: 中間⾔語 T: ⽬的⾔語
  9. 9. ü  独⽴したモデルを⽣成、最適化が容易 ü  逐次的ピボット翻訳よりも⾼精度 •  翻訳確率の推定⽅法に精度が依存 テーブル合成⽅式 (Triangulation) 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 9 SMT S → P SMT P → T S⽂ T⽂ SMT S → T l  2つの翻訳モデルを1つに合成 [Cohn et al., 2007] S: 原⾔語 P: 中間⾔語 T: ⽬的⾔語
  10. 10. テーブル合成⼿法の例 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 10 approach近似 アプローチ approximation access接近 approccio accesso ravvicinamento Source(⽇) Pivot(英) Target(伊) l  学習済みのSource-Pivot、Pivot-Targetのフレーズ対応 Ø  Source-Targetのフレーズ対応を推定(翻訳確率の推定も必要) 近似 approccio 近似 accesso ・ ・ ・ 近似 ravvicinamento アプローチ approccio ✗ 多義語・⽤語法の差異により適切なフレーズ対応の推定は困難
  11. 11. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 11Akiva Miura AHC-Lab, IS, NAIST
  12. 12. 着想 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 12 ü  翻訳時に⽬的⾔語と中間⾔語の⽂を同時に⽣成 ü  中間⾔語では、豊富な単⾔語資源を取得可能 Ø  中間⾔語⽂の⾃然性を考慮することで適切な語彙選択に貢献? 近似 approccio (via: approach) 近似 ravvicinamento (via: approach, approximation) ・・・ l  従来法:テーブル合成後には、関連していたピボットの情報が消失 近似 〈approccio, approach〉 近似 〈ravvicinamento, approach〉 近似 〈ravvicinamento, approximation〉 l  提案法:テーブル合成時に、関連するピボットフレーズも記憶 ・・・
  13. 13. 提案⼿法: 複数同期ルール合成 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 13 X → 〈 src1, pvt1 〉 X → 〈 src2, pvt1 〉 X → 〈 src3, pvt2 〉 . . . X → 〈 pvt1, trg1〉 X → 〈 pvt2, trg2〉 X → 〈 pvt2, trg3〉 . . . l  Source-Pivot、Pivot-Targetの同期ルール(Chiang 2007)を個別に学習 Ø  共通するピボットフレーズ毎にSource-Target-Pivotの 複数同期ルール(Neubig et al., 2015)を合成 X → 〈 src1, trg1, pvt1 〉 X → 〈 src2, trg1, pvt1 〉 X → 〈 src3, trg2, pvt2 〉 X → 〈 src3, trg2, pvt3 〉 . . . 同時翻訳確率 を推定 φ(trg,pvt | src) φ(src | pvt,trg) 翻訳確率 φ(pvt | src) φ(src | pvt) φ(trg | pvt) φ(pvt | trg)
  14. 14. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 14Akiva Miura AHC-Lab, IS, NAIST
  15. 15. 翻訳タスク 16/06/20 15 直接: SMT S → T S T SMT S → P S P SMT P → T T 逐次: 無記憶合成 (ベースライン): SMT S → P SMT P → T SMT S → T S T 記憶合成 (提案法): SMT S → P SMT P → T SMT (Multi) S → T, P S T P Akiva Miura AHC-Lab, IS, NAIST
  16. 16. 実験設定 使⽤ツール 単語アラインメント推定: GIZA++ [Och et al., 2003] ⾔語モデル学習: KenLM (5-gram) [Heafield, 2011] 翻訳モデル学習、翻訳機: Travatar (SCFG, MSCFG) [Neubig, 2013] ⾃動評価尺度: BLEU-4 [Papineni et al., 2002] 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 16 データセット 欧州議会議事録多⾔語コーパス(Europarl)              [Koehn, 2003] 対訳学習: 100k,最適化: 1.5k,評価: 1.5k Target⾔語モデル: 100k Pivot⾔語モデル: 2M Pivot : 英語 (en) Source, Pivot (全組み合わせ):   ドイツ語 (de)   スペイン語 (es)   フランス語 (fr)   イタリア語 (it)
  17. 17. 実験結果 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 17 Src Trg BLEU-4 スコア [%] 直接 逐次 無記憶合成 記憶合成 +PivotLM 2M de es 27.10 25.05 25.31 25.75 * fr 25.65 23.86 24.12 24.58 * it 23.04 20.76 21.27 22.29 ** es de 20.11 18.52 18.77 19.40 * fr 33.48 27.00 29.54 29.95 * it 27.82 22.57 25.11 25.64 ** fr de 19.69 18.01 18.73 19.19 * es 34.36 27.26 30.31 31.00 ** it 28.48 22.73 25.31 26.22 ** it de 19.09 14.03 17.35 18.52 ** es 31.99 25.64 28.85 29.31 * fr 31.39 25.87 28.48 29.02 * * : p < 0.05  ** : p < 0.01 全ての組合せで、 逐次 < 無記憶合成 無記憶合成 < 記憶合成 (0.4〜1.2 %の精度向上)
  18. 18. 中間⾔語モデル規模の影響 16/06/20 18 21.2 21.4 21.6 21.8 22 22.2 22.4 22.6 22.8 23 23.2 0 500000 1x10 6 1.5x10 6 2x10 6 BLEUScore[%] Pivot-LM Size [sent.] Direct Tri. SCFG Tri. MSCFG l  中間⾔語(英語)モデルサイズが翻訳精度に与える影響 (例:独伊ピボット翻訳) ✔ 中間⾔語モデル規模の増加に伴い、⽬的⾔語でも精度向上 Akiva Miura AHC-Lab, IS, NAIST ↑直接翻訳 ↑記憶合成 ↓無記憶合成
  19. 19. 曖昧性が解消された例   ⼊⼒⽂ (ドイツ語): Ich bedaure , daß es keine gemeinsame Annäherung gegeben hat .   正解訳 (イタリア語): Sono spiacente del mancato approccio comune .   無記憶合成 (ベースライン): Mi rammarico per il fatto che non si ravvicinamento comune . (BLEU+1: 13.84)   記憶合成 (提案法): Mi dispiace che non esiste un approccio comune . (BLEU+1: 25.10) I regret that there is no common approach . (同時⽣成された英⽂) 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 19 ✔ ピボットフレーズの情報と中間⾔語モデルが曖昧性解消に寄与 ↑✗ ◯↓
  20. 20. 曖昧性を解消できなかった例   ⼊⼒⽂ (フランス語): Vous avez tout à fait raison et je vous remercie dʼavoir attire´ lʼattention sur ce point .   正解訳 (スペイン語): Tiene usted toda la razón y le agradezco que nos llame la atención sobre este punto .   直接翻訳 (上限): Tiene usted razón y le agradezco que haya llamado la atención sobre este punto . (BLEU+1: 56.00)   記憶合成 (提案法): Tiene usted mucha razón y gracias por haber conseguido la atención sobre este punto . (BLEU+1: 38.91) You have quite right and I thank you for having courageously brought the attention on this point . (同時⽣成された英⽂) 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 20 ✗ 多品詞語「thank」の影響で訳が変わってしまっている
  21. 21. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 21Akiva Miura AHC-Lab, IS, NAIST
  22. 22. まとめ l  提案: 中間⾔語情報を記憶するテーブル合成⼿法 16/06/20 22 近似 〈approccio, approach〉 近似 〈ravvicinamento, approach〉 近似 〈ravvicinamento, approximation〉 ・・・ Ø  結果: 従来のテーブル合成⼿法より有意に精度向上 21.2 21.4 21.6 21.8 22 22.2 22.4 22.6 22.8 23 23.2 0 500000 1x106 1.5x106 2x106 BLEUScore[%] Pivot-LM Size [sent.] Direct Tri. SCFG Tri. MSCFG Akiva Miura AHC-Lab, IS, NAIST Ø  課題: 多品詞語の問題や統語情報の⽋如などは未解決
  23. 23. 今後の計画 l  表層的な単語列(語順)の扱いのみでは限界 Ø 統語情報を取り⼊れることで更なる曖昧性の解消を狙う Ø 構⽂部分⽊を中間表現に⽤いるピボット翻訳⼿法 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 23 NP NN X1:DT book [X1] 本 [X1] 書 ( b ) 部分構⽂⽊が中間表現 (多品詞語に対応可) [X1] 本 ( a ) 記号列が中間表現 (多品詞語による問題) [X1] book [X1] 預訂✗ ✔
  24. 24. ご清聴ありがとうございました l  本会の受賞および発表のきっかけを作って下りました⻑尾真先⽣、 選考に携わって下さった皆様やAAMT役員の皆様 に⼼より感謝申し上げます l  本発表の元となりました修⼠論⽂の執筆にあたって、 様々な指導をして下さりました中村哲先⽣ 指導および本賞へ推薦して下さりましたGraham Neubig先⽣ に⼼より感謝申し上げます 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 24

×