Advertisement
Advertisement

More Related Content

More from 奈良先端大 情報科学研究科(20)

Advertisement

Recently uploaded(20)

中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上

  1. 中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 1 第3回 AAMT⻑尾賞学⽣激励賞 研究発表 奈良先端科学技術⼤学院⼤学 知能コミュニケーション研究室 三浦 明波 (Akiva Miura)
  2. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 2Akiva Miura AHC-Lab, IS, NAIST
  3. ⽬次 1.  研究背景(ピボット翻訳の必要性) 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 3Akiva Miura AHC-Lab, IS, NAIST
  4. ü  ⼈⼿によるルール記述が不要 統計的機械翻訳 l  統計的機械翻訳(Statistical Machine Translation ; SMT) :                     [Brown et al., 1993] 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 4 対訳コーパス ⽬的⾔語 コーパス 翻訳モデル ⾔語モデル デコーダ (翻訳機) 学習データ ⼊⼒⽂ 出⼒⽂ 翻訳システム ü  学習データの⽂量が増えるほど訳出の精度が向上
  5. 多⾔語翻訳における課題 16/06/20 5 l  ⾔語対によって対訳コーパスの取得性が⼤きく異なる (例) •  ⼗分な⽂量の対訳コーパスが得られない場合は…? Akiva Miura AHC-Lab, IS, NAIST OKü  ⽇本語 ⇔ 英語: Web上で1000万⽂以上の⼤規模データが取得可能 NG✗  ⽇本語 ⇔ イタリア語:  ? (⽂単位で対訳になっているデータは多くない)
  6. ピボット翻訳 翻訳したいが⼗分な対訳コーパスが無い… 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 6 ⽇本語 イタリア語✗ ピボット⾔語(中間⾔語)を導⼊! ⽇本語 イタリア語英語 ピボット⾔語を介して翻訳が可能に!! ⽇本語 イタリア語英語 ✔ Source Pivot Target
  7. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 7Akiva Miura AHC-Lab, IS, NAIST
  8. ü  実現が容易、機械翻訳⽅式に依らず組合せ可能 ✗  翻訳誤りが伝播される、システム全体の最適化困難 15/03/15 Akiva Miura AHC-Lab, IS, NAIST 8 SMT S → P SMT P → T S⽂ P⽂ T⽂ l  パイプライン処理によって中間⾔語⽂を介して翻訳              [De Gispert et al.,2006] 逐次的ピボット翻訳 (Cascade) S: 原⾔語 P: 中間⾔語 T: ⽬的⾔語
  9. ü  独⽴したモデルを⽣成、最適化が容易 ü  逐次的ピボット翻訳よりも⾼精度 •  翻訳確率の推定⽅法に精度が依存 テーブル合成⽅式 (Triangulation) 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 9 SMT S → P SMT P → T S⽂ T⽂ SMT S → T l  2つの翻訳モデルを1つに合成 [Cohn et al., 2007] S: 原⾔語 P: 中間⾔語 T: ⽬的⾔語
  10. テーブル合成⼿法の例 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 10 approach近似 アプローチ approximation access接近 approccio accesso ravvicinamento Source(⽇) Pivot(英) Target(伊) l  学習済みのSource-Pivot、Pivot-Targetのフレーズ対応 Ø  Source-Targetのフレーズ対応を推定(翻訳確率の推定も必要) 近似 approccio 近似 accesso ・ ・ ・ 近似 ravvicinamento アプローチ approccio ✗ 多義語・⽤語法の差異により適切なフレーズ対応の推定は困難
  11. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 11Akiva Miura AHC-Lab, IS, NAIST
  12. 着想 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 12 ü  翻訳時に⽬的⾔語と中間⾔語の⽂を同時に⽣成 ü  中間⾔語では、豊富な単⾔語資源を取得可能 Ø  中間⾔語⽂の⾃然性を考慮することで適切な語彙選択に貢献? 近似 approccio (via: approach) 近似 ravvicinamento (via: approach, approximation) ・・・ l  従来法:テーブル合成後には、関連していたピボットの情報が消失 近似 〈approccio, approach〉 近似 〈ravvicinamento, approach〉 近似 〈ravvicinamento, approximation〉 l  提案法:テーブル合成時に、関連するピボットフレーズも記憶 ・・・
  13. 提案⼿法: 複数同期ルール合成 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 13 X → 〈 src1, pvt1 〉 X → 〈 src2, pvt1 〉 X → 〈 src3, pvt2 〉 . . . X → 〈 pvt1, trg1〉 X → 〈 pvt2, trg2〉 X → 〈 pvt2, trg3〉 . . . l  Source-Pivot、Pivot-Targetの同期ルール(Chiang 2007)を個別に学習 Ø  共通するピボットフレーズ毎にSource-Target-Pivotの 複数同期ルール(Neubig et al., 2015)を合成 X → 〈 src1, trg1, pvt1 〉 X → 〈 src2, trg1, pvt1 〉 X → 〈 src3, trg2, pvt2 〉 X → 〈 src3, trg2, pvt3 〉 . . . 同時翻訳確率 を推定 φ(trg,pvt | src) φ(src | pvt,trg) 翻訳確率 φ(pvt | src) φ(src | pvt) φ(trg | pvt) φ(pvt | trg)
  14. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 14Akiva Miura AHC-Lab, IS, NAIST
  15. 翻訳タスク 16/06/20 15 直接: SMT S → T S T SMT S → P S P SMT P → T T 逐次: 無記憶合成 (ベースライン): SMT S → P SMT P → T SMT S → T S T 記憶合成 (提案法): SMT S → P SMT P → T SMT (Multi) S → T, P S T P Akiva Miura AHC-Lab, IS, NAIST
  16. 実験設定 使⽤ツール 単語アラインメント推定: GIZA++ [Och et al., 2003] ⾔語モデル学習: KenLM (5-gram) [Heafield, 2011] 翻訳モデル学習、翻訳機: Travatar (SCFG, MSCFG) [Neubig, 2013] ⾃動評価尺度: BLEU-4 [Papineni et al., 2002] 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 16 データセット 欧州議会議事録多⾔語コーパス(Europarl)              [Koehn, 2003] 対訳学習: 100k,最適化: 1.5k,評価: 1.5k Target⾔語モデル: 100k Pivot⾔語モデル: 2M Pivot : 英語 (en) Source, Pivot (全組み合わせ):   ドイツ語 (de)   スペイン語 (es)   フランス語 (fr)   イタリア語 (it)
  17. 実験結果 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 17 Src Trg BLEU-4 スコア [%] 直接 逐次 無記憶合成 記憶合成 +PivotLM 2M de es 27.10 25.05 25.31 25.75 * fr 25.65 23.86 24.12 24.58 * it 23.04 20.76 21.27 22.29 ** es de 20.11 18.52 18.77 19.40 * fr 33.48 27.00 29.54 29.95 * it 27.82 22.57 25.11 25.64 ** fr de 19.69 18.01 18.73 19.19 * es 34.36 27.26 30.31 31.00 ** it 28.48 22.73 25.31 26.22 ** it de 19.09 14.03 17.35 18.52 ** es 31.99 25.64 28.85 29.31 * fr 31.39 25.87 28.48 29.02 * * : p < 0.05  ** : p < 0.01 全ての組合せで、 逐次 < 無記憶合成 無記憶合成 < 記憶合成 (0.4〜1.2 %の精度向上)
  18. 中間⾔語モデル規模の影響 16/06/20 18 21.2 21.4 21.6 21.8 22 22.2 22.4 22.6 22.8 23 23.2 0 500000 1x10 6 1.5x10 6 2x10 6 BLEUScore[%] Pivot-LM Size [sent.] Direct Tri. SCFG Tri. MSCFG l  中間⾔語(英語)モデルサイズが翻訳精度に与える影響 (例:独伊ピボット翻訳) ✔ 中間⾔語モデル規模の増加に伴い、⽬的⾔語でも精度向上 Akiva Miura AHC-Lab, IS, NAIST ↑直接翻訳 ↑記憶合成 ↓無記憶合成
  19. 曖昧性が解消された例   ⼊⼒⽂ (ドイツ語): Ich bedaure , daß es keine gemeinsame Annäherung gegeben hat .   正解訳 (イタリア語): Sono spiacente del mancato approccio comune .   無記憶合成 (ベースライン): Mi rammarico per il fatto che non si ravvicinamento comune . (BLEU+1: 13.84)   記憶合成 (提案法): Mi dispiace che non esiste un approccio comune . (BLEU+1: 25.10) I regret that there is no common approach . (同時⽣成された英⽂) 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 19 ✔ ピボットフレーズの情報と中間⾔語モデルが曖昧性解消に寄与 ↑✗ ◯↓
  20. 曖昧性を解消できなかった例   ⼊⼒⽂ (フランス語): Vous avez tout à fait raison et je vous remercie dʼavoir attire´ lʼattention sur ce point .   正解訳 (スペイン語): Tiene usted toda la razón y le agradezco que nos llame la atención sobre este punto .   直接翻訳 (上限): Tiene usted razón y le agradezco que haya llamado la atención sobre este punto . (BLEU+1: 56.00)   記憶合成 (提案法): Tiene usted mucha razón y gracias por haber conseguido la atención sobre este punto . (BLEU+1: 38.91) You have quite right and I thank you for having courageously brought the attention on this point . (同時⽣成された英⽂) 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 20 ✗ 多品詞語「thank」の影響で訳が変わってしまっている
  21. ⽬次 1.  研究背景 2.  従来のピボット翻訳⼿法 3.  提案⼿法 4.  実験的評価 5.  まとめ・今後の課題 6.  Appendix 16/06/20 21Akiva Miura AHC-Lab, IS, NAIST
  22. まとめ l  提案: 中間⾔語情報を記憶するテーブル合成⼿法 16/06/20 22 近似 〈approccio, approach〉 近似 〈ravvicinamento, approach〉 近似 〈ravvicinamento, approximation〉 ・・・ Ø  結果: 従来のテーブル合成⼿法より有意に精度向上 21.2 21.4 21.6 21.8 22 22.2 22.4 22.6 22.8 23 23.2 0 500000 1x106 1.5x106 2x106 BLEUScore[%] Pivot-LM Size [sent.] Direct Tri. SCFG Tri. MSCFG Akiva Miura AHC-Lab, IS, NAIST Ø  課題: 多品詞語の問題や統語情報の⽋如などは未解決
  23. 今後の計画 l  表層的な単語列(語順)の扱いのみでは限界 Ø 統語情報を取り⼊れることで更なる曖昧性の解消を狙う Ø 構⽂部分⽊を中間表現に⽤いるピボット翻訳⼿法 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 23 NP NN X1:DT book [X1] 本 [X1] 書 ( b ) 部分構⽂⽊が中間表現 (多品詞語に対応可) [X1] 本 ( a ) 記号列が中間表現 (多品詞語による問題) [X1] book [X1] 預訂✗ ✔
  24. ご清聴ありがとうございました l  本会の受賞および発表のきっかけを作って下りました⻑尾真先⽣、 選考に携わって下さった皆様やAAMT役員の皆様 に⼼より感謝申し上げます l  本発表の元となりました修⼠論⽂の執筆にあたって、 様々な指導をして下さりました中村哲先⽣ 指導および本賞へ推薦して下さりましたGraham Neubig先⽣ に⼼より感謝申し上げます 16/06/20 Akiva Miura AHC-Lab, IS, NAIST 24
Advertisement