PFI seminar 2010/05/27 統計的機械翻訳

統計的機械翻訳サーベイ岡野原　大輔 hillbig@preferred.jp 2010/05/27 PFIセミナー

参考資料 [NLP] “統計的機械翻訳ことはじめ”, 渡辺太郎言語処理学会チュートリアル NLP2004 日本語で読める [SMT] “Statistical Machine Translation”, P. Koehn2010 統計的機械翻訳の歴史・グループ・手法など最新手法までではないが基本は押さえられる [免責事項]SMTは専門ではないので誤りなどありましたら教えてください

対象者自然言語処理な人ではない EM法ももちろん知らないアルゴリズム/データ構造/数学の基礎知識有機械翻訳を知っているが失望している

機械翻訳の現状 [SMT] 2007年時点では一日あたり5億単語が機械翻訳されている一日あたり5000万ウェブページが翻訳される主な利用用途は Gisting（主旨・要点の理解）内容をなんとなく理解するので十分完璧な翻訳は限定されたドメインで天気予報・時間情報・ニュース・マニュアル c.f. Microsoftのマニュアル

Gistingしてみよう！今日17:00時点でのアルジャジーラのトップニュース http://www.aljazeera.net

Gistingしてみよう！英語読めるなら英語への翻訳がいい英語⇔アラビア語英語⇔中国語の精度はかなり良い

統計的機械翻訳(SMT: Statistical Machine translation) パラレルコーパスを用いて翻訳ルールを獲得 c.f. ロゼッタストーン言語の専門家がいなくてもよい（国家的な理由も）高品質・大量のパラレルコーパスは国連・EUの国際会議の議事録などで大量に入手可 LDC, Acquis, OPUS, Communautaire, … 例：Europarlの場合 11言語毎に4000万単語言語のスケーラビリティが高いコーパスさえあれば良い c.f .Google 50言語間

統計的機械翻訳の歴史 (1/2) ～1980 用例ベース機械翻訳 1989 IBMResearchによる著名な論文 NLP業界での引用数第2位 (約1000件）翻訳システムのパラメータをパラレルコーパスから自動推定する簡単な手法から順に IBMモデル1 - 5がある提案者自身らは金融業界へと去っていった 1998 ワークショップで開発祭り IBMモデルを実装

統計的機械翻訳の歴史 (2/2) 2000年以降 DARPAによる強力な資金援助米国としてはアラブ/中国の文章を保安上読みたい NIST workshopで毎年翻訳精度競争 Language Waver, Google, Yahoo,MSの台頭現在、研究グループは50以上 [SMT]に詳細がのっています

基本的なアイディア (1/3)[Broun+ 1993] 翻訳元：J翻訳先：E モデル：P(E|J ; θ) θはモデルを特徴付けるパラメータパラレルコーパスからθを学習 θ = 単語対の翻訳スコアなど ,[object Object],翻訳 = 確率が最大となる翻訳先を求める

基本的なアイディア（2/3） argmaxEP(E|J; θ)= argmaxEP(J|E; θ’) P(E; θ’’) P(J|E; θ’) 翻訳モデル翻訳元の意図を正しく伝えているか？ P(E; θ’’)言語モデル翻訳した結果が言語として正しいか？単言語コーパスから推定可能

基本的なアイディア（3/3) p(J|E) = ∑Ap(J,A|E) A: アライメント E中の単語とJ中の単語の対応付け A[i] = i番目の翻訳先の翻訳元番号 0 1 2 3 4 5 6 NULL ichgehejanichtzumhaus I do not go to the house A = [ 1 , 0, 4, 2, 5, 5, 6 ]

翻訳モデルの学習 P(J|E; θ’)の θ’を求める Model-1の時は p(e | j ) for all e, j ある単語 j が eに翻訳される確率使えるのはパラレルコーパスのみアライメントAの情報はついていないもしわかったら単にペアの回数を数えるだけp(e| j ) = (eとjが翻訳ペアだった回数) / (j の回数) Aは観測できない隠れ変数 ⇒ EMアルゴリズムを使う

Expectation Maximizationアルゴリズム (EM法) 教師無学習の基礎中の基礎 Aはわからないが、Aが無いと回数が数えられず、θを求められない 1. Aの確率分布 p(A)を適当に決める 2. p(A)に基づいて回数の期待値を求める 3. θを元にp(A)を再推定する 4. 2へ戻る　　動的計画法によってO(文長2) で解ける

デコーディング「ねんがんの　p(J|E) をてにいれたぞ！」後は argmaxE P(J|E) P(E)を求めれば良いしかし、この問題はNP完全問題であることが知られている探索問題各状態は(翻訳済の元単語, 翻訳された単語）遷移は未翻訳の単語を翻訳したスコア全ての翻訳元が空になれば終了状態

理想と現実 (1/2) さきほどまできれいな話だったが・・ P(J|E) P(E) だけでなくP(E|J)も使っちゃうだけでなく他の情報も全部使っちゃうきれいな確率モデルでは、もはやない fi = log P(J|E) など(J, E)から得られる情報を全て特徴ベクトル Φ(J, E)∈Rmに入れる [Chiang+ 09] 線形モデルで学習・推定する wTΦ(J, E) 学習にはMIRAなどが利用される BLEU(翻訳精度・後述）を最大化するよう学習

理想と現実 (2/2) P(E) : 翻訳先Eを出力する確率文法的・用法的に正しい文Eに対し高い確率を与える P(“ipadがまだ届きません”) > P(“届きipadがませんまだ”) 利用される言語モデルはまだ非常に粗い N-gram モデル N-1単語前にのみ条件付 P(w1w2w3w4) = Πi P(wi|wi-N+1wi-N+2 .. wi-1) 非文に対しても高い確率を与えうる

話せなかった最近の話題フレーズモデルが今は普通翻訳元・翻訳先が複数単語などフレーズは非連続でも良い [Galley+ 10] Synchronous CFGで構文情報も利用可能遅い. が高速化が進む [C. Dyer+ 10] アライメントの精緻化・高速化 p(E|J) P(J|E)を両方使う [Liang+ 06] etc. SAなどの利用 [Lopez 07] etc. 単言語コーパスから取得 [Haghighi+ 08] etc.

翻訳精度の評価プロ翻訳家の間でも正解は大きく異なる翻訳結果の評価もばらつきが大きい人手による評価は非常にコストが高いシステムをつくり直すたびに評価は大変 BLEU: 複数の正解例とのN-gramマッチ自動で評価できる.　人の評価と相関が高い今の翻訳システムはBLUEを最大化するようにパラメータ学習をするようにしている

オープンソース Moses http://www.statmt.org/moses/ 基本的な機能は一通り cdec http://cdec-decoder.org/index.php C++ と様々な高速化により最速最新の手法が一通り入っている機能は不足 joshua SCFG baseで grammer抽出とかもサポート

機械翻訳の今後日本語  多言語について Googleは人材募集 + 何でもやる [NLP2010 個人談] 今のSMTモデルは日本語に不向きと言われるがSCFGがあっているかも微妙.　別のモデル？世界的な流れ翻訳のベンチャー + サービス会社が牽引市場は拡大ビジネスモデルはB2B　サービス英西翻訳など　ヒスパニック系人材向け音声認識, 検索など他のサービスと結合

出展 [Broun+ 93] “The Mathematics of Machine Translation: Parameter Estimation”, P. F. Brown and et. al. Computational Linguistics 1993 [Chiang+ 09]“11,001 new features for statistical machine translation”, D. Chaingand et. al. NAACL 2009 [Galley+ 10] “Accurate Non-Hierarchical Phrase-Based Translation”, M. Galley and C. D. Manning NAACL 2010 [Dyer+ 10] “Two monolingual parses are better than one (synchronous parse)” C. Dyer NAACL 2010 [Liang+ 06] “Alignment by agreement”, P. Laing and et. al. NAACL 2006 [Lopez 07] “Hierarchical Phrase-Based Translation with Suffix Arrays”, A. Lopez, EMNLP 2007 [Haghighi+ 08] “Learning Bilingual Lexicons from Monolingual Corpora”, A. Haghighi+ ACL 2008

PFI seminar 2010/05/27 統計的機械翻訳

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Preferred Networks

More from Preferred Networks (20)

PFI seminar 2010/05/27 統計的機械翻訳