Statistical Machine Translation Overview

統計的機械翻訳の理論と実装

2010年12月13日
20周年記念JTF翻訳祭D-3セッション
河野弘毅
かわの・ひろき

メール hiroki@kawano.net
ツイッター @kawano_hiroki
ホームページ http://smallmedia.jp

機械翻訳の現状

出典：（2010年11月30日）

機械翻訳の歴史１

1947年　ウィーバーが書簡で機械翻訳（MT）を提案
MTの基本的特性のいくつかを洞察

1948年　シャノンが通信の数学的理論を発表
言語をマルコフ過程とみなすモデルを提唱
翻訳を暗号問題の延長として定義

1949年　MITなどで自動翻訳の研究を開始
ジョージタウン大学とIBMのMT共同プロジェクト開始

1952年　MITにて検討会＞ロンドンで国際言語学会議
1957年　スプートニク・ショック＞ロシア語MT研究に予算

機械翻訳の歴史２

1957年　チョムスキーが変形生成文法を提案
文法を句構造規則と変形規則で構成するモデルを提案
言語学界と関連領域に領域に大きな影響を与える
1960年から1985年にかけてMTの基本モデルとして機能

1963年　SYSTRAN、Euratomに納入
1965年　ニューヨーク万博にIBMの露英翻訳システム展示
同年に第1回のCOLING開催、現在まで続く

1966年　ALPACレポートの発表
米国はMTの成果に見切りをつけて研究費の投入を中止
代わりに計算言語学に研究費を投入するよう進言

機械翻訳の歴史３

1978年　東芝がかな漢字変換方式の日本語入力装置を商品化

1982年　論文抄録の日英英日MT（Muシステム）開発
日本では独自に開発を継続して1980年代に商品化

日本電気PIVOT、富士通ATLAS、東芝PC-TRANSAC、
日立HICATS、三菱MELTRAN、シャープDUET-E/J、
沖PENSEE、日本IBM SHALT、リコーRMT/EJ

その後廉価版ソフトが発売され今日まで続く

機械翻訳の歴史４

1993年　IBMのブラウン他が統計的MT手法の論文を発表
⇒この頃から計算機の処理能力が飛躍的に向上・低価格化
⇒90年代に南カリフォルニア大学で現在のSMT技術の基礎確立

1998年　Ochらが句ベースの統計的MT手法を発表
⇒この頃からインターネット上で膨大な言語資源が利用可能に

2002年　Language Weaver 創業（Arabic英語間の統計的MT）
2006年　Google、統計的機械翻訳提供開始（中、ア、露）
⇒最近の研究は統計的手法と構文的手法の複合化を模索

2010年　SDLがLanguage Weaverを買収（MTの活用が本格化）

機械翻訳の趨勢

1947年に提唱された当初は確率的モデルを想定
1957年チョムスキー以降80年代までは構文翻訳が主流
90年代以降、世界では統計的手法が主流に

学界：
構文翻訳が主流なのは今や日本だけ？

業界：
翻訳メモリツール（例文的手法）と組合せる試行錯誤

直接翻訳方式
Direct Machine Translation

元言語の単語や句を直接に先言語の表現に移す

MT研究のごく初期に採用されていた方式。チョムスキーの変形
生成文法の影響を受けた構文変換方式の登場以降は使われな
い

PAHOが英語スペイン語間のMTをこの方式で実用化
SPANUM 1980
ENGSPAN 1985

構文解析方式
Syntactic Machine Translation

analysis - transfer - generation

1. 元言語の文を構文解析して句構造表現を得る
2. 変形規則を使って元言語の句構造を先言語の句構造に移す
3. 先言語の句構造から先言語の文を生成する

特徴
ある文が複数の句構造で表現できる場合がある
辞書を充実させることで性能が改善される

用例翻訳方式
Sample-base Machine Translation

1981年に長尾真氏が提案。構文翻訳方式では結果が良くない
ときに文法、変換、生成のどこに原因があるのか特定するのが
困難

文法規則が数百を超えるとどの規則をどう変更すればよいかを
判断するのはほとんど不可能

人間が言語を修得する場合はむしろ多数の例文とその翻訳を
記憶し、類似の文の翻訳に役立てている＞その方法を機械翻
訳にもとりいれる考え方

現在翻訳業界で普及している「翻訳メモリ」の考え方と原理的に
近い（原文側での検索）

統計翻訳方式
Statistical Machine Translation

翻訳と言語の確率モデルをもとに翻訳を行なう
翻訳モデル
原文と訳文のペア（パラレルコーパス）を大量に集めて、対応し
て登場する確率が高い単語（または句）のペアを集計し、確率分
布を計算する。
新しい原文に遭遇したときに、翻訳モデルに基づいて順次決定
した訳語（句）を並べて訳文を生成する。
言語モデル
文において次の語（句）が直前の語（句）からある程度推測でき
る性質を利用する。
訳文言語の文を確率過程とみなして単語（句）の並びを集計して
確率分布を計算する。

制限言語アプローチ

自然言語の語彙や文法を制限して何らかの効用（修得期間
短縮、曖昧さ抑制など）を得ようとする試みは以前からある
Basic English（1930, Ogden）850語
Simplified English（1980年代、航空産業）

機械翻訳の精度をあげるために制限言語を利用する試み
は昔も今もある
制限日本語（1976、九州大学）
MAL言語（1983、京都大学）
産業日本語（2010、Japio他）
Acrolinx IQ（2010年に日本法人設立）

自然言語処理の
基礎技術

自然言語処理の基礎技術

形態素解析
句構造同定
構文解析

形態素解析（品詞タグ付け）

形態素morphemeとは＞文における意味の最小単位

形態素解析とは＞形態素を確定し品詞を付与する処理
　　⇒英語の場合は品詞タグ付けpart-of-speech tagging

確率的言語モデルを使うと高い精度で自動処理可能

日本語形態素解析のツール：
JUMAN, ChaSen, MeCab が有名

英語品詞タグ付けのツール：
　TnT, TreeTagger, Stanford POS Tagger, Acopost

句構造同定（文節区切り）

文節区切りの例
ここではきものをぬいでください
ここで／はきものを／ぬいでください
ここでは／きものを／ぬいでください

基本句構造同定は処理上は「系列タギング問題」

系列タギングのツール
YamCha, CRF++

構文解析

いくつもの手法がある
依存構造解析
句構造解析
述語項構造解析

構文解析のツール
Collins Parser
Stanford Parser
MSTParser

統計的機械翻訳
の原理

統計的機械翻訳とは何か

ある原文が与えられたときにその訳文を語（または句）の単位で
順番に生成していく。そのときに、ある語（または句）の次に並ぶ
語（または句）として最も確率が高いものを、膨大な対訳と語順
のデータベースから確率の計算により求めようとする。

構文ベースのMTは言語を構造的・記号的にとらえて数学的にモ
デル化していた。
統計ベースのMTは言語を確率過程ととらえて数学的にモデル
化する。

翻訳モデルとは何か

対訳の確率を利用する＝「翻訳モデル」
数式で書くと p(the|der)=0.3
実装データでは der ||| the ||| 0.3
意味「独語の der を英語の the へと翻訳する確率が 0.3」

対訳確率を並べた表が「翻訳テーブル」
翻訳テーブルは翻訳メモリ＝対訳コーパスから作る
対訳の単位は語でなく句でもOK

言語モデルとは何か

通信システムにおける記号の選択は、過程の中のどの状態にあっても先行
する選択に依存する。

直前に選ばれた単語がtheの場合、その後にtheや動詞が続けて選ば
れる確率は小さい。

復数の単語でも同様の確率的影響がある。たとえば "in the event" の
後には "that" が来る確率が高く、"elephant" が来る確率はとても小さ
い。

⇒言語の中にはある程度の制御力を振るう確率が存在する
⇒単独の言語では語順に基づいて確率を計算＝「言語モデル」
これを実装したものが「言語テーブル」

デコーダーとは何か

翻訳テーブルと言語テーブルに列挙された訳語（句）の候補から
ひとつを選択するのが「デコーダー」

選択肢の組み合わせを単純にかけ算していくとすぐに膨大な計
算量が必要になり処理が終わらない＞いかにして計算量を節約
する経験則（ヒューリスティック）を活用するかがアルゴリズムの
職人芸の見せどころ。

デコーダーにとっては翻訳テーブルと言語テーブルが
「知識」に相当する

トレーニングとは何か

はじめに巨大な翻訳データベース（対訳コーパス）ありき。

前半の処理で対訳コーパスから翻訳テーブルを自動生成する。（こ
の処理をトレーニングと呼ぶ）

後半の処理で翻訳テーブルを参照してデコーダーが翻訳対象文を
翻訳していく。（この処理をデコーディングと呼ぶ）

トレーニング＞デコーディングの繰り返しが統計的機械翻訳。

統計的機械翻訳の処理フロー

統計的機械翻訳エンジンの構成例
（出典：Moses - User Manual and Code Guide p.12）

統計的機械翻訳の特徴

統計的手法の急速な発展

翻訳モデルの発展（1993〜）
自動評価手法の発達（BLEU）2002〜
フリーのツールの普及（GIZA++, Moses...）2003〜
チューニング法の発達（誤り最小化学習）2003〜
対訳データの拡充（Europarl、日英特許コーパス）2008〜

現在の機械翻訳の特徴

言語の文法構造がわからなくてもパラレル（対言語）コーパ
スがあれば翻訳できる

推定の根拠となるパラレルコーパスが良質かつ大量にあれ
ばあるほど翻訳精度があがる

言語構造の近さがプラスに作用する（他の条件が同じなら
日韓のほうが日英より品質がよい）

現在の機械翻訳の課題

どこまで対言語コーパスを収集すれば十分な翻訳品質になるの
かよくわからない

一説によると数百万センテンスの対訳コーパスを持つと、一見して
流暢にみえる訳文が生成されるらしい。

コーパスが形成されない分野では性能がでない

グーグルは一般的な翻訳を指向している...業界別にカスタマイズし
た対訳コーパスはLanguage Weaver などの専門企業が対応していく
住み分けになる？

ローカリゼーション翻訳業界、今ここにある言語資産

研究機関はどこもパラレルコーパスがなくて困っている

Googleといえどもパラレルコーパスが少ないと翻訳品質上がら
ず＞Google Translation Toolkit 提供の目的はパラレルコーパス
の収集

しかし！

ローカリゼーション業界には「言語資源」がすでにある。
　　⇒翻訳メモリをパラレルコーパスに転用すればよい。
　　⇒CMSに蓄積された文書は言語モデルに使えばよい。

翻訳対象中心から言語資源中心へ

言語資源と機械翻訳を組み合わせることで翻訳の期間が短縮
されコストも下がる

翻訳プロセスの中心が翻訳対象から言語資源にシフトすること
で翻訳のプロセスも大幅に変更される

高品質かつ大量の言語資源にアクセスできるかどうかが翻訳会
社（翻訳者）の業績を直接左右するようになる

人間による評価と自動評価

機械翻訳の評価の難しさ（翻訳の不確定性）

評価コストと評価時間の問題（特に開発中の簡易的評価）

評価基準の曖昧性（翻訳品質がよいことの定義とは？）

評価結果の一貫性 consistency の追求

BLEUスコア
もっともよく使われる自動評価指標

MTの訳文を人間の「模範訳」と比較して評価

nグラム単位で一致した部分を積算していく

複数の「模範訳」を与えられることで不確定性に対処

長い訳文が有利になる問題を克服するための工夫

統計的機械翻訳の
市販製品

統計的機械翻訳を提供している企業

SYSTRAN
構文的機械翻訳の老舗（40年の伝統あり）
最近統計的手法に対応した

Language Weaver
2002年創業の大学発ベンチャー（アラビア語英語間）
2010年にSDLに買収

Asia Online
東南アジアで母語による検索エンジンをMTで提供

pangea.com.mt
独立系の統計的機械翻訳会社、スペイン語

統計的機械翻訳の技術的特性とベンダー選択

次世代の翻訳支援システムは“言語資源”が中心になる

LSP各社は顧客の言語資源の「囲い込み」を目指す

顧客はその点をよく考えてベンダーを選択すべき

統計的機械翻訳のオープン化

Moses
オープンソースの統計的機械翻訳システム

もっともよく知られたオープンソースのSMTシステム

http://www.statmt.org/moses/

句ベースとツリーベースの翻訳モデルに対応

ていねいなドキュメントとともに公開

著名な入門書の著者が開発・管理して提供

【再掲】Mosesのモジュール構成

Mosesのトレーニングプロセス

1. Prepare data (45 minutes)
2. Run GIZA++ (16 hours) GIZA++はIBMモデルの実装。
3. Align words (2:30 hours)
4. Get lexical translation table (30 minutes)
5. Extract phrases (10 minutes)
6. Score phrases (1:15 hours)
7. Build lexicalized reordering model (1 hour)
8. Build generation models
9. Create configuration file (1 second)
Condition:
751’000 sentence, 16 million word German-English Europarl corpus, on a 3GHz Linux machine


TAUS
翻訳メモリのオープン化を指向するムーブメント

TDA（TAUS Data Association）

翻訳メモリを業界全体で共有するしくみ。

2008年7月に40社が参加して設立。

企業規模に応じて出資、個人翻訳者も利用できる

翻訳メモリを提供した企業がダウンロードできる

http://www.tausdata.org/

TDAの創設メンバー（の一部）

"Statistical Machine Translation"
Philipp Koehn
Content

Chapter 1: Introduction
Chapter 2: Words, Sentences, Corpora
Chapter 3: Probability Theory
Chapter 4: Word-Based Models
Chapter 5: Phrase-Based Models
Chapter 6: Decoding
Chapter 7: Language Models
Chapter 8: Evaluation
Chapter 9: Discriminative Training
Chapter 10: Integrating Linguistic Information
Chapter 11: Tree-Based Models

Hardcover, 488 pages
Publisher: Cambridge University Press
ISBN-10: 0521874157

『入門自然言語処理』
Steven Bird、Ewan Klein、Edward Loper

Steven Bird、Ewan Klein、Edward Loper　著
萩原正人、中山敬広、水野貴明　訳
2010年11月発行
592ページ
定価3,990円
ISBN978-4-87311-470-5
原書: Natural Language Processing with Python

ご清聴ありがとうございました。

2010年12月13日
20周年記念JTF翻訳祭D-3セッション
河野弘毅
かわの・ひろき

メール hiroki@kawano.net
ツイッター @kawano_hiroki
ホームページ http://smallmedia.jp

Statistical Machine Translation Overview

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Similar to Statistical Machine Translation Overview

Similar to Statistical Machine Translation Overview (20)

Recently uploaded

Recently uploaded (12)

Statistical Machine Translation Overview