Successfully reported this slideshow.
Your SlideShare is downloading. ×

構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 41 Ad

More Related Content

Similar to 構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価 (20)

Recently uploaded (20)

Advertisement

構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価

  1. 1. 構⽂情報に基づく 機械翻訳のための能動学習⼿法と ⼈⼿翻訳による評価 三浦 明波*1 Graham Neubig*1 Michael Paul*2 中村 哲*1        *1 奈良先端科学技術⼤学院⼤学        *2 株式会社ATR-Trek 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 1 ⾔語処理学会 第22回年次⼤会
  2. 2. ⽬次 1.  研究背景・概要 2.  翻訳対象データ選択⼿法 3.  ⼈⼿翻訳実験 4.  実験結果・分析 5.  まとめ 6.  Appendix 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 2
  3. 3. 1. 研究背景・概要 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 3
  4. 4. •  対訳コーパスの質と量が不可⽋ •  学習データの分野外の翻訳は苦⼿ 統計的機械翻訳 l  統計的機械翻訳(Statistical Machine Translation ; SMT)                      [Brown et al., 1993] 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 4 対訳コーパス ⽬的⾔語 コーパス 翻訳モデル ⾔語モデル デコーダ (翻訳機) 学習データ ⼊⼒⽂ 翻訳結果 翻訳システム
  5. 5. 能動学習による対訳データの作成 l  能動学習を⽤いて対訳データを効率的に作成 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 5 翻訳済み 未翻訳 翻訳済み 原⾔語データ ⽬的⾔語データ 対訳 ⼈⼿翻訳 ü  ⼈⼿翻訳のコスト(〜単語数)を⼤幅削減 ü  既存の対訳データを元に効率的に分野適応が可能 翻訳候補 翻訳結果 追加追加 翻訳精度向上に役⽴てられそうな 部分を逐次的に選択
  6. 6. 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 6 l  研究⽬的: •  能動学習⼿法を⽤いることで翻訳モデル構築の 費⽤対効果を向上 l  既知の事項: •  対訳データを⼈⼿で作るには時間と費⽤の⾯でコスト⼤ •  外部委託の場合、通常は単語数に応じた費⽤がかかる l  研究概要: •  能動学習を⽤いた対訳データ構築における、 既存の⼿法を調査し、問題点を解消することで、 機械翻訳の精度向上効率を改善させる 研究概要
  7. 7. 2. 翻訳対象データ選択⼿法 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 7
  8. 8. 研究概要 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 8 l  従来法1: n-gram頻度に基づく⽂選択 [Bloodgood et al., 2010] A housewrap made from any one of the preceding claims . (⾼頻度) l  従来法2: n-gram頻度に基づくフレーズ選択 [Bloodgood et al., 2010] A housewrap made from any one of the preceding claims . (⾼頻度) l  提案法: 構⽂情報に基づくフレーズ選択 [三浦 他, 2015] any one of the preceding claims DT CD IN DT NNS JJ NP PP NP NP ・・・ ・・・ ・・・ l  より少ない追加単語数で カバレッジ向上と ⾼品質な対訳取得を期待 (⾼頻度)
  9. 9. シミュレーション実験結果 (英→仏) 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 9 ü  提案⼿法により 精度向上効率を⼤幅に改善 ← 4-gramに基づく⽂選択 ← 4-gramに基づくフレーズ選択 ← 構⽂⽊に基づくフレーズ選択 ← (重複フレーズを事前に削減) l  ⼈⼿翻訳の代わりにSMTでフレーズの対訳を得る能動学習実験を実施                      (2015年12⽉ NL研で発表) 翻訳精度→ 提案⼿法
  10. 10. 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 10 l  シミュレーション実験による翻訳精度への影響 Ø  提案法で、追加単語数に対する精度向上幅を改善 l  選択されるフレーズの傾向、カバレッジへの影響 Ø  提案法は⾼頻度の専⾨⽤語を優先して選択する傾向 新規の調査内容 調査済み 新規の調査項⽬ l  本当に⼈⼿翻訳を⾏う際に有効か? l  得られる対訳の質、翻訳のしやすさは? l  翻訳作業に要する時間は?
  11. 11. 3. ⼈⼿翻訳実験 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 11
  12. 12. ⽐較するデータ選択⼿法 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 12 データ選択⼿法 選択順 対象 sent-by-4gram-freq (ベースライン1) 4-gram頻度順 ⽂ 4gram-freq (ベースライン2) 頻度順 4-gramフレーズ reduced-struct-freq (提案法) 部分⽊フレーズ (重複を統合)
  13. 13. 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 13 Phrase to be translated: 3: sure about the translation Translation input form: ⾛査型電⼦顕微鏡 (SEM) Confidence level: 2: not so sure about the translation 1: not sure at all The morphologies using scanning electron microscopy ( SEM ) were studied . ⼈⼿翻訳データの収集 l  Web UIを作成し、プロの翻訳者に翻訳作業を依頼 l  翻訳に対する確信度も併せて評価
  14. 14. 実験設定 使⽤ツール 単語アラインメント推定 inc-giza-pp (GIZA++の逐次学習対応版) ⾔語モデル学習 KenLM (5-gram) 翻訳モデル学習 Moses-MMSAPT (接尾辞配列を⽤いたフレーズテーブルの動的⽣成) デコーダ Moses (PBMT) 句構造解析 Ckylark ⾃動評価尺度 BLEU-4 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 14 データセット 英語 → ⽇本語 ベース (⼀般分野): 英辞郎例⽂データ (414k ⽂) 追加 (科学論⽂): ASPEC (1.87M ⽂) 評価: ASPEC (1,790 ⽂)
  15. 15. 4. 実験結果・分析 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 15
  16. 16. 追加単語数あたりのBLEUスコア推移 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 16 ü  構⽂⽊を⽤いる提案⼿法で最⾼精度
  17. 17. 累計作業時間あたりのBLEUスコア推移 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 17 ✗  構⽂⽊に基づくフレーズ選択⼿法で従来より⻑い作業時間 Ø  専⾨⽤語を優先的に選択する傾向を確認済み
  18. 18. 合計実作業時間と平均信頼度 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 18 ü  reduced-struct-freq で最⾼平均信頼度 ⼿法 合計作業時間 [時間] 平均信頼度 [3段階] sent-by-4gram-freq 25.22 2.689 4gram-freq 32.70 2.601 reduced-struct-freq 59.97 2.771
  19. 19. フレーズの翻訳に要する平均時間 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 19 l  1単語の翻訳時間が2〜4単語の翻訳時間を上回る ⼿法 平均作業時間 [秒] 1単語 2単語 3単語 4単語 5単語+ sent-by-4gram-freq - - - - 160.64 4gram-freq 30.14 24.76 21.77 21.12 - reduced-struct-freq 35.61 25.23 21.72 28.13 22.82
  20. 20. 信頼度帯による翻訳精度 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 20 ü  構⽂⽊を利⽤かつ信頼度2以上の時に最⾼精度 ⼿法 BLEUスコア (丸括弧は収集データの利⽤率) 信頼度 ≧ 1 信頼度 ≧ 2 信頼度 = 3 sent-by-4gram-freq 9.88 (100%) 9.92 (99.6%) 9.85 (67.1%) 4gram-freq 10.48 (100%) 10.54 (97.5%) 10.36 (55.0%) reduced-struct-freq 10.70 (100%) 10.72 (98.5%) 10.67 (78.8%) ※ ベースシステムのBLEUスコアは 9.37 [%]
  21. 21. 5. まとめ、今後の計画 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 21
  22. 22. まとめ、今後の計画 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 22 Ø 今後の計画: 翻訳作業時間を短縮しつつ有効にモデルを⾼度化する⼿法を考案 調査結果 l  本当に⼈⼿翻訳を⾏う際に有効か? ü  従来⼿法よりも効率的に精度向上 l  得られる対訳の質、翻訳のしやすさは? ü  作業者が最も⾃信をもって翻訳を実施 l  翻訳作業に要する時間は? ✗  作業時間あたりの効率は改善せず l  構⽂情報を⽤いて翻訳対象を選択するデータ選択⼿法を提案 Ø ⼈⼿翻訳によって能動学習の効率を⽐較
  23. 23. ご清聴ありがとうございました 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 23 謝辞 l 本研究は、 (株)ATRーTrekの助成を受けて実施されました l ⼈⼿翻訳実験のための翻訳作業は、 (株)バオバブに⽀援して頂きました
  24. 24. ⽬次 1.  研究背景・概要 2.  翻訳対象データ選択⼿法 3.  ⼈⼿翻訳実験 4.  実験結果・分析 5.  まとめ 6.  Appendix 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 24
  25. 25. 6. Appendix 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 25
  26. 26. 能動学習 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 26 ü  少ないアノテーションコストによってモデルの性能を向上 •  オンライン学習との相性が良い l  能動学習(Active Learning) 能動学習アルゴリズム プールデータ (ラベルなし) データ点を1つ選択 データ点にラベルを付与 モデルを 更新 正解ラベル を要求 学習データ (ラベル付き) モデル オラクル (教師) データ選択基準 が特に重要
  27. 27. n-gram頻度に基づく⽂選択⼿法 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 27 ü  少ない⽂数で原⾔語データの全n-gramフレーズをカバー可能 ✗ 翻訳済みフレーズも多く再選択されるために無駄が多い l  最⾼頻度の未カバーn-gramフレーズを含む⽂を選択                   [Bloodgood et al., 2010] 350,000 (times) 200,000 100,000 (times) A housewrap made from any one of the preceding claims . any one of the preceding claims
  28. 28. n-gram頻度に基づくフレーズ選択⼿法 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 28 ü  ⽂選択⼿法よりも少ない単語数でn-gramカバレッジを向上 ✗ 選択されるフレーズどうしの重複多数 ✗ フレーズの断⽚化が発⽣し、⼈⼿翻訳が困難 ✗ 単語数 n > 4 のフレーズ対応を学習できない l  最⾼頻度の未カバーn-gramフレーズそのものを選択                   [Bloodgood et al., 2010] sorting 350,000 200,000 100,000 (times) any one of the preceding claims •  any one of the        350,000 •  one of the preceding    200,000 •  of the preceding claims  100,000 翻訳が困難 提案手法で解決
  29. 29. 構⽂⽊に基づくフレーズ選択 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 29 l 構⽂解析結果から部分⽊をなすフレーズを頻度順に追加                     [三浦 他, 2015] are proposed and discussed VBZ VBN CC VBN VP VP VP VP two methods are proposed CD NNS VBP VP NP S VBN VP ü  構⽂解析結果を⽤いることで、断⽚化の問題を解消 ü  包含関係にあるフレーズを⼀定条件で統合して重複を削除 Ø  ⼈⼿翻訳時の品質にも好影響?(本研究で調査) カウントする カウントしない ✔
  30. 30. 対訳データの内訳 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 30 トされる トされない ズカウント条件 層的な単語列を数え 言語対 分野 データセット 文数/単語数 414k 文 一般 (ベース) Train En: 6.72M 単語 Ja: 9.69M 単語 En-Ja 1.87M 文 Train En: 46.4M 単語 科学論文 (追加) Ja: 57.6M 単語 Test 1790 文 Dev 1790 文 1.89M 文 一般 (ベース) Train En: 47.6M 単語 Fr: 49.4M 単語 En-Fr 15.5M 文 Train En: 393M 単語 医療 (追加) Fr: 418M 単語 Test 1000 文 Dev 500 文 表 1 対訳コーパスのデータ内訳 (有効数字 3 桁)
  31. 31. ⼿法ごとに選択されるデータ内訳 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 31 報処理学会研究報告 SJ SIG Technical Report 全フレーズ追加 1 万単語追加 言語対 データ選択手法 フレーズ数 単語数 平均フレーズ長 フレーズ数 平均フレーズ長 sent-by-4gram-freq 1.28M 33.6M 26.3 560 17.8 4gram-freq 8.48M 26.0M 3.07 4.70k 2.13 En-Ja maxsubst-freq 7.29M 25.8M 3.54 4.51k 2.22 reduced-maxsubst-freq 6.06M 21.7M 3.58 4.76k 2.10 struct-freq 1.45M 4.85M 3.34 6.64k 1.51 reduced-struct-freq 1.10M 3.33M 3.03 6.73k 1.49 sent-by-4gram-freq 10.6M 269M 25.4 310 32.1 4gram-freq 40.1M 134M 3.34 3.62k 2.76 En-Fr maxsubst-freq 62.4M 331M 5.30 2.39k 4.17 reduced-maxsubst-freq 45.9M 246M 5.36 2.95k 3.39 struct-freq 14.1M 94.2M 6.68 4.01k 2.49 reduced-struct-freq 7.33M 41.3M 5.63 4.55k 2.20 表 2 手法ごとに選択されるデータ内訳 (有効数字 3 桁) 1-gram / 4-gram カバレッジ [%] 言語対 データ選択手法 追加なし 1 万単語 10 万単語 100 万単語 sent-rand 94.81 / 5.63 95.99 / 6.59 97.54 / 10.06
  32. 32. 機械翻訳のための能動学習⼿法 l  機械翻訳のための能動学習アルゴリズム 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 32 •  どのように次の翻訳候補を選択するかが重要 Ø  SrcPool を効率的にカバーする⼿法を考案 ととする.翻訳対象の候補となるデータを含む原言語コー パスから,逐次的に新しい原言語フレーズを選択し翻訳, 正解データとして対訳コーパスに加える手順をまとめると 下表のように一般化できる. Algorithm 1 能動学習手法 1: Init: 2: SrcPool ← 翻訳候補の原言語コーパス 3: Translated ← 翻訳済みの対訳コーパス 4: Oracle ← 入力フレーズの正解訳を与えるオラクル 5: Loop Until 停止条件: 6: TM ← TrainTranslationModel(Translated) 7: NewSrc ← SelectNextPhrase(SrcPool, Translated, TM) 8: NewTrg ← GetTranslation(Oracle, NewSrc) 9: Translated ← Translated {⟨NewSrc, NewTrg⟩} 1 行目から 4 行目でデータの定義,初期化を行う. SrcPool は原言語コーパスの各行を要素とする集合で ある.Translated は翻訳済みの原言語フレーズと目的言 ものを含む文を 訳済みのデータ カバーした時点 最頻出の n-gr 翻訳コストを抑 らは,n = 4 の 能動学習のシミ 全てを翻訳す BLEU スコア しかし,文全 にカバーされて の単語数だけ余 のため,文全体 手法を 3.2 節か 3.2 n-gram n-gram 頻度
  33. 33. 極⼤性の導⼊ 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 33 l 極⼤部分⽂字列 [Okanohara et al, 2009] •  半順序関係を定義: 「s1がs2の部分文字列」かつ「occ(s1) = occ(s2) 」 ⇔ s1 ≼ s2 •  極大元が存在: s1について、s1 ≼ s2 となるような s2 は s1 自身のみ ⇔ s1 を極大部分文字列と定義 l 部分フレーズ(単語列)に適⽤、α による⼀般化 •  半順序関係を定義: 「s1がs2の部分単語列」かつ「α・occ (s1) ≦ occ (s2) 」 ⇔ s1 ≼ s2 •  極大元が存在: α = 1 の場合の極大元: 極大フレーズ α = 0.5 の場合の極大元: 半極大フレーズ
  34. 34. フレーズの極⼤性に基づくデータ選択 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 34 l 極⼤性を持つ未カバーのフレーズを抽出し、頻度順に選択 •  極大フレーズの選択: p2とp3が極大性を持つ(p1 ≼ p2) any one of the preceding claims any one of the preceding claims •  半極大フレーズの選択: p3が極大性を持つ(p1 ≼ p2 ≼ p3) ü  フレーズの重複部分を効果的に統合 △ すべての重複を統合できるわけではない ✗ 統語情報を⽤いていないので、断⽚化の問題が残る p1 = “one of the preceding”, occ(p1) = 200,000 p2 = “one of the preceding claims”, occ(p2) = 200,000 p3 = “any one of the preceding claims”, occ(p3) = 190,000
  35. 35. シミュレーションタスク 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 35 タスク名 選択順 対象 備考 sent-rand ランダム 文 4gram-rand 4-gramフレーズ sent-by-4gram-freq 4-gram頻度順 文 ベースライン1 4gram-freq 頻度順 4-gramフレーズ ベースライン2 maxsubst-freq 極大フレーズ 提案法 reduced-maxsubst-freq 半極大フレーズ struct-freq 部分木フレーズ reduced-struct-freq 半極大・部分木フレーズ
  36. 36. シミュレーション結果 En→Fr (〜10万単語) 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 36 reduced-struct-freq > struct-freq > 他の⼿法
  37. 37. シミュレーション結果 En→Fr (〜100万単語) 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 37 reduced-struct-freq > struct-freq > 他の⼿法
  38. 38. シミュレーション結果 En→Ja (〜10万単語) 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 38 ⼤部分で提案法とベースラインで⼤差なし 途中から僅差だが、reduced-struct-freq > 他の⼿法
  39. 39. シミュレーション結果 En→Ja (〜100万単語) 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 39 途中からは *struct-freq > 他の⼿法
  40. 40. カバレッジへの影響 (En→Fr) 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 40 reduced-struct-freq で 1-gramカバレッジ最⼤ sent-by-4gram-freq で 4-gramカバレッジ最⼤ ⾔語対 データ選択⼿法 1-gram / 4-gram カバレッジ [%] 追加なし 1万単語 10万単語 100万単語 En-Fr sent-rand 92.72 / 10.60 92.93 / 10.60 93.73 / 10.71 95.94 / 11.30 4gram-rand 92.95 / 10.60 93.99 / 10.60 96.42 / 10.64 sent-by-4gram-freq 92.95 / 10.60 93.96 / 10.72 96.25 / 11.55 4gram-freq 92.92 / 10.60 94.46 / 10.66 96.60 / 11.16 maxsubst-freq 92.79 / 10.60 93.61 / 10.62 95.99 / 10.92 reduced-maxsubst-freq 92.92 / 10.60 94.38 / 10.66 96.55 / 11.13 struct-freq 93.63 / 10.60 96.15 / 10.65 97.84 / 11.28 reduced-struct-freq 94.02 / 10.60 96.38 / 10.69 98.00 / 11.38
  41. 41. カバレッジへの影響 (En→Ja) 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 41 reduced-struct-freq で 1-gramカバレッジ最⼤ sent-by-4gram-freq で 4-gramカバレッジ最⼤ ⾔語対 データ選択⼿法 1-gram / 4-gram カバレッジ [%] 追加なし 1万単語 10万単語 100万単語 En-Ja sent-rand 94.36 / 5.38 94.81 / 5.63 95.99 / 6.59 97.54 / 10.06 4gram-rand 94.80 / 5.38 96.10 / 5.46 97.67 / 5.98 sent-by-4gram-freq 95.10 / 5.84 96.28 / 7.23 97.64 / 11.39 4gram-freq 95.64 / 5.97 96.87 / 7.14 97.97 / 10.43 maxsubst-freq 95.59 / 5.96 96.83 / 7.07 97.91 / 10.20 reduced-maxsubst-freq 95.73 / 6.00 96.97 / 7.19 98.00 / 10.57 struct-freq 96.60 / 5.44 97.80 / 5.79 98.58 / 7.02 reduced-struct-freq 96.64 / 5.44 97.84 / 5.80 98.61 / 7.14

×