More Related Content Similar to Statistical Machine Translation Overview (20) Statistical Machine Translation Overview1. 統計的機械翻訳の理論と実装
2010年12月13日
20周年記念JTF翻訳祭D-3セッション
河野弘毅
かわの・ひろき
メール hiroki@kawano.net
ツイッター @kawano_hiroki
ホームページ http://smallmedia.jp
5. 機械翻訳の歴史1
1947年 ウィーバーが書簡で機械翻訳(MT)を提案
MTの基本的特性のいくつかを洞察
1948年 シャノンが通信の数学的理論を発表
言語をマルコフ過程とみなすモデルを提唱
翻訳を暗号問題の延長として定義
1949年 MITなどで自動翻訳の研究を開始
ジョージタウン大学とIBMのMT共同プロジェクト開始
1952年 MITにて検討会>ロンドンで国際言語学会議
1957年 スプートニク・ショック>ロシア語MT研究に予算
6. 機械翻訳の歴史2
1957年 チョムスキーが変形生成文法を提案
文法を句構造規則と変形規則で構成するモデルを提案
言語学界と関連領域に領域に大きな影響を与える
1960年から1985年にかけてMTの基本モデルとして機能
1963年 SYSTRAN、Euratomに納入
1965年 ニューヨーク万博にIBMの露英翻訳システム展示
同年に第1回のCOLING開催、現在まで続く
1966年 ALPACレポートの発表
米国はMTの成果に見切りをつけて研究費の投入を中止
代わりに計算言語学に研究費を投入するよう進言
11. 直接翻訳方式
Direct Machine Translation
元言語の単語や句を直接に先言語の表現に移す
MT研究のごく初期に採用されていた方式。チョムスキーの変形
生成文法の影響を受けた構文変換方式の登場以降は使われな
い
PAHOが英語スペイン語間のMTをこの方式で実用化
SPANUM 1980
ENGSPAN 1985
12. 構文解析方式
Syntactic Machine Translation
analysis - transfer - generation
1. 元言語の文を構文解析して句構造表現を得る
2. 変形規則を使って元言語の句構造を先言語の句構造に移す
3. 先言語の句構造から先言語の文を生成する
特徴
ある文が複数の句構造で表現できる場合がある
辞書を充実させることで性能が改善される
13. 用例翻訳方式
Sample-base Machine Translation
1981年に長尾真氏が提案。構文翻訳方式では結果が良くない
ときに文法、変換、生成のどこに原因があるのか特定するのが
困難
文法規則が数百を超えるとどの規則をどう変更すればよいかを
判断するのはほとんど不可能
人間が言語を修得する場合はむしろ多数の例文とその翻訳を
記憶し、類似の文の翻訳に役立てている>その方法を機械翻
訳にもとりいれる考え方
現在翻訳業界で普及している「翻訳メモリ」の考え方と原理的に
近い(原文側での検索)
14. 統計翻訳方式
Statistical Machine Translation
翻訳と言語の確率モデルをもとに翻訳を行なう
翻訳モデル
原文と訳文のペア(パラレルコーパス)を大量に集めて、対応し
て登場する確率が高い単語(または句)のペアを集計し、確率分
布を計算する。
新しい原文に遭遇したときに、翻訳モデルに基づいて順次決定
した訳語(句)を並べて訳文を生成する。
言語モデル
文において次の語(句)が直前の語(句)からある程度推測でき
る性質を利用する。
訳文言語の文を確率過程とみなして単語(句)の並びを集計して
確率分布を計算する。
18. 形態素解析(品詞タグ付け)
形態素morphemeとは>文における意味の最小単位
形態素解析とは>形態素を確定し品詞を付与する処理
⇒英語の場合は品詞タグ付けpart-of-speech tagging
確率的言語モデルを使うと高い精度で自動処理可能
日本語形態素解析のツール:
JUMAN, ChaSen, MeCab が有名
英語品詞タグ付けのツール:
TnT, TreeTagger, Stanford POS Tagger, Acopost
23. 翻訳モデルとは何か
対訳の確率を利用する=「翻訳モデル」
数式で書くと p(the|der)=0.3
実装データでは der ||| the ||| 0.3
意味「独語の der を英語の the へと翻訳する確率が 0.3」
対訳確率を並べた表が「翻訳テーブル」
翻訳テーブルは翻訳メモリ=対訳コーパスから作る
対訳の単位は語でなく句でもOK
32. 現在の機械翻訳の課題
どこまで対言語コーパスを収集すれば十分な翻訳品質になるの
かよくわからない
一説によると数百万センテンスの対訳コーパスを持つと、一見して
流暢にみえる訳文が生成されるらしい。
コーパスが形成されない分野では性能がでない
グーグルは一般的な翻訳を指向している...業界別にカスタマイズし
た対訳コーパスはLanguage Weaver などの専門企業が対応していく
住み分けになる?
37. BLEUスコア
もっともよく使われる自動評価指標
MTの訳文を人間の「模範訳」と比較して評価
nグラム単位で一致した部分を積算していく
複数の「模範訳」を与えられることで不確定性に対処
長い訳文が有利になる問題を克服するための工夫
42. Moses
オープンソースの統計的機械翻訳システム
もっともよく知られたオープンソースのSMTシステム
http://www.statmt.org/moses/
句ベースとツリーベースの翻訳モデルに対応
ていねいなドキュメントとともに公開
著名な入門書の著者が開発・管理して提供
44. Mosesのトレーニングプロセス
1. Prepare data (45 minutes)
2. Run GIZA++ (16 hours) GIZA++はIBMモデルの実装。
3. Align words (2:30 hours)
4. Get lexical translation table (30 minutes)
5. Extract phrases (10 minutes)
6. Score phrases (1:15 hours)
7. Build lexicalized reordering model (1 hour)
8. Build generation models
9. Create configuration file (1 second)
Condition:
751’000 sentence, 16 million word German-English Europarl corpus, on a 3GHz Linux machine
(出典:Moses - User Manual and Code Guide p.75)
45. TAUS
翻訳メモリのオープン化を指向するムーブメント
TDA(TAUS Data Association)
翻訳メモリを業界全体で共有するしくみ。
2008年7月に40社が参加して設立。
企業規模に応じて出資、個人翻訳者も利用できる
翻訳メモリを提供した企業がダウンロードできる
http://www.tausdata.org/
47. "Statistical Machine Translation"
Philipp Koehn
Content
Chapter 1: Introduction
Chapter 2: Words, Sentences, Corpora
Chapter 3: Probability Theory
Chapter 4: Word-Based Models
Chapter 5: Phrase-Based Models
Chapter 6: Decoding
Chapter 7: Language Models
Chapter 8: Evaluation
Chapter 9: Discriminative Training
Chapter 10: Integrating Linguistic Information
Chapter 11: Tree-Based Models
Hardcover, 488 pages
Publisher: Cambridge University Press
ISBN-10: 0521874157
48. 『入門自然言語処理』
Steven Bird、Ewan Klein、Edward Loper
Steven Bird、Ewan Klein、Edward Loper 著
萩原 正人、中山 敬広、水野 貴明 訳
2010年11月 発行
592ページ
定価3,990円
ISBN978-4-87311-470-5
原書: Natural Language Processing with Python
49. ご清聴ありがとうございました。
2010年12月13日
20周年記念JTF翻訳祭D-3セッション
河野弘毅
かわの・ひろき
メール hiroki@kawano.net
ツイッター @kawano_hiroki
ホームページ http://smallmedia.jp