Successfully reported this slideshow.
Your SlideShare is downloading. ×

Kansai MT Pivot Arekore

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 46 Ad

More Related Content

Similar to Kansai MT Pivot Arekore (17)

Recently uploaded (20)

Advertisement

Kansai MT Pivot Arekore

  1. 1. ピボット翻訳あれこれ 奈奈良良先端科学技術⼤大学院⼤大学 知能コミュニケーション研究室  三浦  明波 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 1 第11回  関⻄西MT勉強会  合宿
  2. 2. 自己紹介   l  氏名:    三浦 明波 (ミウラ アキバ)           l  経歴:    神戸高専(3年修了中退)    →  テクニオン  –  イスラエル工大  (B.Sc)    →  NAIST  (M1)   l  関心事:   •  多言語翻訳(建前)   •  日本語 ↔ ヘブライ語 翻訳(本命)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 2 ‫מיאורה‬ ‫עקיבא‬ ‫ָה‬‫ר‬ּ‫ו‬‫ִיא‬‫מ‬ ‫ָא‬‫ב‬‫ִי‬‫ק‬ֲ‫ע‬
  3. 3. Overview   0.  ⾃自⼰己紹介 1.  研究背景 2.  背景技術  -‐‑‒  機械翻訳⽅方式 3.  背景技術  -‐‑‒  ピボット翻訳 4.  研究概要 5.  実験内容、結果と考察 6.  まとめ、今後の課題 7.  Appendix 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 3
  4. 4. 1.  研究背景 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 4
  5. 5. 統計的機械翻訳   l  統計的機械翻訳(StaHsHcal  Machine  TranslaHon  ;  SMT)  :              [Brown  et  al.,  1993]   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 5 ü  ⼈人⼿手によるルール記述が不不要 ü  対訳コーパスの⽂文量量が増えるほど訳出の精度度が向上 対訳コーパス 単⾔言語 コーパス 翻訳モデル ⾔言語モデル デコーダ (翻訳機) 学習データ ⼊入⼒力力⽂文 出⼒力力⽂文 翻訳システム
  6. 6. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 6 言語対(代表例) 対訳   コーパス 英語 ↔ フランス語   ◯ 英語 ↔ 日本語 ◯ 英語 ↔ カタルーニャ語   (?)   ✗ 日本語 ↔ フランス語   (?)   ✗ l  特定の⾔言語対において、 ⼤大規模な対訳コーパスを短期間で取得することは困難
  7. 7. ピボット翻訳   翻訳したいが対訳コーパスが無い… 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 7 フランス語 ⽇日本語✗ ピボット⾔言語(中間⾔言語)を導⼊入! フランス語 ⽇日本語英語 ピボット⾔言語を介して翻訳が可能に!! フランス語 ⽇日本語英語 ✓
  8. 8. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 8 言語対(代表例) 対訳   コーパス 英語 ↔ フランス語   ◯ 英語 ↔ 日本語 ◯ 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ 日本語 ↔ フランス語   (via  英語)   ✗ l  ピボット翻訳によって学習データの取得困難性を緩和
  9. 9. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 9 言語対(代表例) 対訳   コーパス 言語構造   の類似度 手法 (代表例) 英語 ↔ フランス語   ◯ ◯ ? 英語 ↔ 日本語 ◯ ✗ ? 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ ◯ ? 日本語 ↔ フランス語   (via  英語?)   ✗ ✗ ? l  機械翻訳には単語の並べ替え問題がつきまとう
  10. 10. 2.  背景技術  –  機械翻訳⽅方式 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 10
  11. 11. フレーズベース翻訳   l  フレーズベース翻訳(Phrase-­‐Based  Machine  TranslaHon  ;  PBMT)  :              [Koehn  et  al.,  2003]   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 11 ü   シンプル、実装・運⽤用が容易易、⾼高速 ✗  ⾔言語間の⾼高度度な並び替えは困難 natuerlich hat john spass  am spiel of  course john has fun  with  the game ドイツ語: 英語:
  12. 12. 階層的フレーズベース翻訳   l  階層的フレーズベース翻訳   (Hierarchical  Phrase-­‐Based  Machine  TranslaHon  ;  Hiero)  :                    [Chiang,  2007]   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 12     ルール対応の例 (英日翻訳):      [X0]  of  [X1]  →  [X1]  の  [X0]   ルールの適用例 :        friends  of  Taro  →  太郎 の 友人      the  parents  of  Taro  and  Hanako  → 太郎 と 花子 の 両親     ü   ⾼高度度な並び替えに対応可 ✗  モデルサイズの肥⼤大化、計算時間の増⼤大、フレーズ⻑⾧長の制限
  13. 13. 統語ベース翻訳   l  Tree-­‐to-­‐String翻訳 (T2S)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 13 ü   構⽂文情報を⾼高精度度に捉えて翻訳が可能 ✗       構⽂文解析器が必要、解析精度度に⼤大きく依存 X1:NP S VP X2:VBD X3:NP X1 X3 X2 (SVO → SOV)
  14. 14. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 14 言語対(代表例) 対訳   コーパス 言語構造   の類似度 手法 (代表例) 英語 ↔ フランス語   ◯ ◯ PBMT 英語 ↔ 日本語 ◯ ✗ Hiero   T2S,  F2S 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ ◯ ? 日本語 ↔ フランス語   (via  英語)   ✗ ✗ ? l  ⾔言語対によって翻訳⼿手法の向き不不向きがある
  15. 15. 3.  背景技術  –  ピボット翻訳 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 15
  16. 16. 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 16 SMT   fr  →  en SMT   en  →  zh input.fr translated.en translated.zh train.fr-­‐en.fr train.fr-­‐en.en train.en-­‐zh.en train.en-­‐zh.zh パイプライン処理によってピボット言語文を介して翻訳 [De Gispert et al.,2006] ü   実現が容易易、機械翻訳⽅方式に依らず組合せ可能 ✗  翻訳誤りが伝播される、システム全体の最適化困難 逐次的ピボット翻訳  (Cascade)  
  17. 17. テーブル合成方式  (TriangulaHon)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 17 Phrase   Table   fr  →  en Phrase   Table   en  →  zh input.fr translated.zh train.fr-­‐en.fr train.fr-­‐en.en train.en-­‐zh.en train.en-­‐zh.zh SMT   fr  →  zh 2つの翻訳モデルを1つに合成 [Cohn et al., 2007] ü  独⽴立立したモデルを⽣生成 •  翻訳確率率率の推定⽅方法に精度度が依存
  18. 18. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 18 言語対(代表例) 対訳   コーパス 言語構造   の類似度 手法 (代表例) 英語 ↔ フランス語   ◯ ◯ PBMT 英語 ↔ 日本語 ◯ ✗ Hiero   T2S,  F2S 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ ◯ PBMT  × 合成 日本語 ↔ フランス語   (via  英語?)   ✗ ✗ Hiero  × 合成?   T2S/F2S  ×  合成?
  19. 19. 4.  研究概要 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 19
  20. 20. 研究概要   l 調査したいこと: ①  Triangulation(テーブル合成⼿手法)は、 Hieroにおいても有効に機能するかどうか  (昨年年12⽉月のNL研で発表) ②  Triangulationの精度度向上は可能かどうか ③  既存の⾔言語資源をどう有効に⽤用いるか l  ⽤用いたデータセット: •  国連⽂文書多⾔言語コーパスのうち、 仏英、英⻄西、英中の対訳コーパス10万⽂文ずつ 15/03/15 20 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  21. 21. 5.  実験内容、結果と考察 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 21
  22. 22. 実験①   Triangulationは、 Hieroにおいても有効に機能するかどうか Ø  PBMTで有⽤用性が知られているテーブル合成⼿手法を、 Hieroにおいても適⽤用 Ø  Direct(ピボットを介さない直接翻訳モデル)や、   Cascade(逐次的ピボット翻訳)と合わせて比較評価   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 22
  23. 23. 従来手法:  MarginalizaHon   テーブル合成時に翻訳確率推定方法で比較     l  従来法1:  MarginalizaHon(確率周辺化)[UHyama  et  al.,  2007]             Φ  –  フレーズ翻訳確率   pω  –  語彙重み     ※ 逆方向の翻訳確率も同様に推定   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 23 φ(trg | src) = φ(trg | pvt)φ(pvt | src) pvt∈T1∩T2 ∑ pω (trg | src) = pω (trg | pvt)pω (pvt | src) pvt∈T1∩T2 ∑
  24. 24. ルール対応の推定例   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 24 日英翻訳ルール:    [X1]  を出る  →  leave  [X1] (日英翻訳確率 =  0.6)    [X1]  を残す  →  leave  [X1] (日英翻訳確率 =  0.7)     英中翻訳ルール:    leave  [X1]  →  離開  [X1] (英中翻訳確率 =  0.5)    leave  [X1]  →  留  [X1]   (英中翻訳確率 =  0.3)     合成された日中翻訳ルールの例:    [X1]を出る →離開  [X1] (日中翻訳確率 = 0.6  ×  0.5  =  0.3)    [X1]を出る →  留  [X1]  (日中翻訳確率 = 0.6  ×  0.3  =  0.18)    [X1] を残す→離開  [X1] (日中翻訳確率 = 0.7  ×  0.5  =  0.35)    [X1] を残す→  留 [X1]  (日中翻訳確率 =  0.7  ×  0.3  =  0.21)  
  25. 25. 実験結果①  –  Fr  →  Es  (via  En)   15/03/15 25 Method BLUE PBMT   Hiero Direct 40.15 40.19 Cascade 36.20 36.30 TriangulaHon   (MarginalizaHon) 39.13 38.75 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST ü   Direct  >  Triangulation  >  Cascade
  26. 26. 実験結果①  –  Fr  →  Zh  (via  En)   15/03/15 26 Method BLUE PBMT   Hiero Direct 14.31 16.33 Cascade 14.  05 16.23 TriangulaHon   (MarginalizaHon) 14.3 16.66 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST ü   Direct  >  Triangulation  >  Cascade
  27. 27. 実験②   Triangulationの精度度を上げられるかどうか Ø  昨年発表された新しい翻訳確率の推定方法で追実験   Ø  もう一つ自分の提案方を導入   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 27
  28. 28. 従来手法2:  MarginalizaHon   l  従来法2:  CountMin(最小共起回数)    [Zhu  et  al,  2014]     15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 28 c(src,trg) = min(c(src, pvt),c(pvt,trg)) pvt ∑ φ(trg | src) = c(src,trg) c(src,trg') trg' ∑ c – 共起回数
  29. 29. ルール対応の推定例  (CountMin)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 29 日英翻訳ルール:    [X1]  を出る  →  leave  [X1] (共起回数 =  60,  日英翻訳確率 =  0.6)    [X1]  を残す  →  leave  [X1] (共起回数 =  70,日英翻訳確率 =  0.7)     英中翻訳ルール:    leave  [X1]  →  離開  [X1] (共起回数 =  100,英中翻訳確率 =  0.5)    leave  [X1]  →  留  [X1]   (共起回数 =  75,    英中翻訳確率 =  0.3)     合成された日中翻訳ルールの例:    [X1]を出る →離開  [X1] (共起回数 =  60,  日中翻訳確率 =  0.5↓)    [X1]を出る →  留  [X1]  (共起回数 = 60,  日中翻訳確率 =  0.5↓)    [X1] を残す→離開  [X1] (共起回数 = 70,  日中翻訳確率 =  0.5↓)    [X1] を残す→  留 [X1]  (共起回数 = 70,  日中翻訳確率 =  0.5↓)  
  30. 30. 提案法:  BidirecHonal   l  手法3:  BidirecHonal   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 30 c(src, pvt,trg) = min(c(src, pvt)φ(trg | pvt),c(pvt,trg)φ(src | pvt)) = c(src, pvt)c(pvt,trg) max c1(pvt),c2 (pvt)( ) c(src,trg) = c(src, pvt,trg) pvt ∑
  31. 31. ルール対応の推定例  (BidirecHonal)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 31 日英翻訳ルール:    [X1]  を出る  →  leave  [X1] (共起回数 =  60,  日英翻訳確率 =  0.6)    [X1]  を残す  →  leave  [X1] (共起回数 =  70,日英翻訳確率 =  0.7)     英中翻訳ルール:    leave  [X1]  →  離開  [X1] (共起回数 =  100,英中翻訳確率 =  0.5)    leave  [X1]  →  留  [X1]   (共起回数 =  75,    英中翻訳確率 =  0.3)     合成された日中翻訳ルールの例:    [X1]を出る →離開  [X1] (共起回数 =  min(60  ×  0.5,  100  ×  0.6)  = 30)    [X1]を出る →  留  [X1]  (共起回数 =  min(60  ×  0.3,  75      ×  0.6)  = 18)    [X1] を残す→離開  [X1] (共起回数 =  min(70  ×  0.5,  100  ×  0.7)  = 35)    [X1] を残す→  留 [X1]  (共起回数 = min(70  ×  0.3,  75      ×  0.7)  = 21)  
  32. 32. 実験結果②  –  Fr  →  Es  (via  En)   15/03/15 32 Method BLUE PBMT Hiero Direct 40.15 40.19 Cascade 36.20 36.30 MarginalizaHon 39.13 38.75 CountMin 38.25 37.89 CountMin   +Lex  MarginalizaHon 38.77 37.92 BidirecHon 38.52 38.28 BidirecHon   +Lex  MarginalizaHon 39.16 38.82 CountMinやBidirectionで共起回数の推定を行うのみだと精度出ず 翻訳確率推定にBidirection、語彙重み推定にMarginalizationで最も高い精度 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  33. 33. 実験結果②  –  Fr  →  Zh  (via  En)   15/03/15 33 Method BLUE PBMT Hiero Direct 14.31 16.33   Cascade 14.  05 16.23 MarginalizaHon 14.3 16.66 CountMin 13.69 15.89 CountMin   +Lex  MarginalizaHon 14.43 16.40 BidirecHon 14.26 14.61 BidirecHon   +Lex  MarginalizaHon 14.45 16.63 Fr -> Es (via En)と同様の結果 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  34. 34. 実験③  –  Merging   直接学習した(小規模)モデルと合成されたモデルを合成   l  結合手法1:  InterpolaHon      [Zhu  et  al,  2014]        α  –  補完係数、慣例的に0.9を用いた     l  結合手法2:  SumCount  [Zhu  et  al,  2014]     15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 34 φ(trg | src) = αφ1(trg | src)+ (1−α)φ2 (trg | src) pω (trg | src) = α pω (trg | src)+ (1−α)pω (trg | src) c(src,trg) = c1(src,trg)+ c2 (src,trg)
  35. 35. 実験結果③  –  Fr  →  Es   15/03/15 35 Method BLUE  score   Direct  →  Direct  w/  TriangulaHon PBMT Hiero 10k  Direct 40.15 40.19 MarginalizaHon 39.13 38.75 Direct  1k   +  MarginalizaHon  100k   (interpolaHon)  26.94  →  39.13 26.57  →  38.82 Direct  1k   +  BidirecHon  100k   (integraHon) 26.94  →  39.11  26.57  →  38.72 Direct  10k   +  MarginalizaHon   100k  (interpolaHon) 36.23  →  39.25 37.67  →  38.89 Direct  10k   +  BidirecHon  100k   (InterpolaHon 36.23    →  39.15 37.67  →  38.82 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  36. 36. 実験結果③  –  Fr  →  Zh   15/03/15 36 Method BLUE  score   Direct  →  Direct  w/  TriangulaHon PBMT Hiero 10k  Direct 14.31 16.33 MarginalizaHon 14.43 16.63 Direct  1k   +  MarginalizaHon  100k   (interpolaHon) 4.30  →  14.48 4.18  →  16.40 Direct  1k   +  BidirecHon  100k   (integraHon) 4.30  →  14.45 4.18  →  16.43 Direct  10k   +  MarginalizaHon   100k  (interpolaHon) 13.28  →  14.47  16.78  →  16.67 Direct  10k   +  BidirecHon  100k   (InterpolaHon 13.28  →  14.44 16.78  →  16.59 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  37. 37. 6.  まとめ、今後の計画 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 37
  38. 38. まとめ、今後の計画   まとめ   l  共起回数の推定のみでは従来法のMarginalizaHonよりも精 度が出なかったが、語彙重み推定のみMarginalizaHonの手 法を採用することで従来法と同等か、それ以上の精度が出 せた   l  直接学習したモデルと組み合わせることによる精度向上、   カバレッジ向上の期待を持てる     今後の計画:   l  ヒューリスティックに頼らない機械学習による翻訳確率推定 手法の提案   l  T2S翻訳モデルのテーブル合成によるピボット翻訳の実装   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 38
  39. 39. Overview   1.  研究背景 2.  背景技術  -‐‑‒  機械翻訳⽅方式 3.  背景技術  -‐‑‒  ピボット翻訳 4.  研究概要 5.  実験内容、結果と考察 6.  まとめ、今後の課題 7.  Appendix 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 39
  40. 40. 7.  Appendix 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 40
  41. 41. マルチセンテンス方式   15/03/15 41 SMT   fr  →  en SMT   en  →  zh input.fr translated.zh train.fr-­‐en.fr train.fr-­‐en.en train.en-­‐zh.en train.en-­‐zh.zh 1 2 n prepared corpus trained task translated text ( ) 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST ü  O(n) ✗  逐次的ピボット翻訳と比して有意差なし
  42. 42. コーパス翻訳方式   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 42 SMT   en  →  zh SMT   fr  →  zh train.fr-­‐en.en translated.zh   as   train.fr-­‐zh.zh translated.zh train.en-­‐zh.en train.en-­‐zh.zh train.fr-­‐en.fr   as   train.fr-­‐zh.fr input.fr コーパス翻訳方式 ( Synthetic ) : 事前にコーパスを翻訳することで擬似的な対訳コーパスを生成 (De Gispert et al.,2006) ü  擬似的な対訳コーパス生成による、言語資源獲得の恩恵 ✗  学習データそのものに翻訳誤りが含まれる
  43. 43. ルール対応の推定法   •  仏英と英日から仏日翻訳モデルを推定:   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 43 selon  leurs  [X0] according  to  their  [X0] aper  their  [X0] に したが っ て  [X0] その  [X0]  に し たがい 0.2 0.6 0.4 1 0.6
  44. 44. ルール対応の推定法   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 44 selon  leurs  [X0] according  to  their  [X0] aper  their  [X0] に したが っ て  [X0] その  [X0]  に し たがい 0.2 0.6 0.4 1 0.6 0.2  ×  0.4  =  0.08 •  仏英と英日から仏日翻訳モデルを推定:  
  45. 45. ルール対応の推定法   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 45 selon  leurs  [X0] according  to  their  [X0] aper  their  [X0] に したが っ て  [X0] その  [X0]  に し たがい 0.2 0.6 0.4 1 0.6 0.2  ×  0.4  =  0.08 0.2  ×  0.6  +  0.4  ×  1  =  0.52 •  仏英と英日から仏日翻訳モデルを推定:  
  46. 46. CountMin  (FULL)   l  手法2:  CountMin(最小共起回数)    [Zhu  et  al,  2014]     15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 46 c(src,trg) = min(c(src, pvt),c(pvt,trg)) pvt ∑ φ(trg | src) = c(src,trg) c(src,trg') trg' ∑ ω(trg | src) = c(src,trg) c(src,trg') trg' ∑ a = {(t,s)| ∃p :(s, p) ∈a1 ∧(p,t) ∈a2} pω (trg | src,a) = 1 {j |(i, j) ∈a}i=1 n ∏ ω(trgi | srcj (i,j)∈a ∑ )

×