複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳

16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1
複数の事前並べ替え候補を用いた
句に基づく統計的機械翻訳
小田　悠介 (NAIST)
工藤　拓 (Google)
中川　哲治 (Google)
渡辺　太郎 (Google)
2016/03/09 言語処理学会第22回全国大会

機械翻訳における語順の違い (1)
は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
It weather today .
English
niceis
Reordering
●
2言語間の語順の違い (reordering) →　　機械翻訳が対処すべき問題

は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
Pre-reordering
It weather today .
English
niceis
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
は
(PT)
●
●
事前並べ替え
(pre-reordering)
– デコード開始前に
原言語の単語並びを
目的言語に近づける
– 原言語の大域的な情報・
構文情報を利用可能
– 並べ替え誤りを
デコード時に取り扱うのが
難しい
– 手法によっては
複数の並べ替え候補と
その信頼度を計算可能

は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
It weather today .
English
niceis
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
は
(PT)
Distortion
Pre-reordering
●
●
並べ替えモデル
(distortion/reordering model)
– デコード中に
原言語の単語が
目的言語のどこに
挿入されるか推定
– あらゆる局所的な並べ替えを
考慮可能
– 統語的に妥当性の低い
並べ替えになる可能性
– 事前並べ替えと併用した場合
どのような効果があるのかが
明確でない

複数の事前並べ替え候補を用いた翻訳
It is nice weather quuz .It is nice weather tquz .It is nice weather tbaz .It is nice weather tbar .It is nice weather t foo .It is nice weather tnice .It is nice weather today .
今日
0
は
1
いい
2
天気
3
です
4
ね
5
。
6
5-4-3-2-1-0-65-0-3-4-2-1-65-4-2-3-1-3-65-4-2-3-1-2-65-4-2-3-1-1-65-4-2-3-1-2-65-4-2-3-1-0-6
Decoding
Pre-reordering
It is nice weather today .
Select the Best
●
提案手法: 複数の事前並べ替え候補を同時に使用して翻訳
– 複数の並べ替え候補が得られる場合
これらを組み合わせることで
より良い翻訳が可能
– 並べ替えの頑健性を
事前並べ替え側で担保
●
手法への要求
– デコード処理の簡素化
– 事前並べ替え手法とは
独立した処理

提案手法の概要
並べ替えグラフの
構築
並べ替えグラフ上の
デコード
複数の事前並べ替え候補を
コンパクトに表現
並べ替えグラフの特徴に基づいて
高速に処理

並べ替えグラフの構築 (1)
● 並べ替えグラフ …　　事前並べ替え候補の情報を表現した有向非巡回グラフ
● 構築方法
1. 各事前並べ替え候補から1本のパスを生成
2. 同じ情報のノードを統合
• ノードの情報　＝　読んだ単語の位置の集合
0123456
(1-best)
ね
です
いい
天気
は
今日
。
1. 5-4-2-3-1-0-6 = ねですいい天気は今日。

● 構築方法
● ノードの情報　＝　読んだ単語の集合
0123456
(1-best)
ね
です
いい
天気
は
今日
。
Integrate
(same word coverage)
Integrate
(same word coverage)
1. 5-4-2-3-1-0-6 = ねですいい天気は今日。
2. 5-0-3-4-2-1-6 = ね今日天気ですいいは。

● 構築方法
● ノードの情報　＝　読んだ単語の集合
– 事前並べ替えの手法に関わらず
並べ替え候補が分かれば構築可能
0123456
(1-best)
ね
です
いい
天気
は
今日
。
1. 5-4-2-3-1-0-6 = ねですいい天気は今日。
2. 5-0-3-4-2-1-6 = ね今日天気ですいいは。
3. 5-4-3-2-1-0-6 = ねです天気いいは今日。
4. 5-1-3-4-2-0-6 = ねは天気ですいい今日。
5. 5-4-1-3-2-0-6 = ねですは天気いい今日。

並べ替えグラフの例
● 26単語の日本語文　＋　128個の事前並べ替え候補を統合
Highly
integrated
Highly
integrated
Variation
Variation

並べ替え信頼度によるスコア
● 並べ替えグラフ上のパスにスコアを付与
– デコード時に素性として使用
– 様々なスコアが考えられるが、本研究では事前実験で最も性能が良かった
事前並べ替え候補の信頼度の最大値を使用
Confidence of 1st reordering
Confidence of 2nd reordering
3rd
4th
5th

デコード (1)
● 並べ替えグラフ上のデコード
– 左のノードから順に翻訳結果を確定
– グラフ自体が並べ替えに関する情報を持っているため、
デコード時の並べ替えは行わない
– 単純な動的計画法
1 2 3 4 5 6 70Decoding
order

デコード (2)
● 並べ替えグラフ上のデコード
– 左のノードから順に翻訳結果を確定
– グラフ自体が並べ替えに関する情報を持っているため、
デコード時の並べ替えは行わない
– 単純な動的計画法
Decoding
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
翻訳結果の
確定したノード
次に翻訳結果を
確定するノード
ノード間の単語の差分に
対応するフレーズ

実験
● 実験設定
● 比較対象
※再ランキング
● 並べ替え信頼度とデコーダのスコアを単純に線形補間　（PBMTを複数回実行）
原言語 Ar, Zh, Fr, De, It, Ja, Ru, Es
目的言語 En
コーパス
Train Webから無作為に収集
Dev Webから無作為に収集後、人手翻訳　3000文
Test Webから無作為に収集後、人手翻訳　5000文
事前並べ替え Bracketing Transduction Grammar [*] ＋ビームサーチ
[*] Tetsuji Nakagawa. Efficient Top-down BTG Parsing for Machine Translation Preordering. In Proc. ACL-IJCNLP, pp. 208-218, 2015.
手法事前並べ替え数並べ替えモデル評価
PBMT 1-best あり BLEU＋主観（400文・7段階）
提案手法 1,2,4,8,16,32,64 なし BLEU＋主観（400文・7段階）
再ランキング※ 2,4,8,16,32,64 あり＋なし BLEU

実験結果 (1) BLEU %
言語対 PBMT 提案手法
再ランキング
並べ替えあり
再ランキング
並べ替えなし
Ar-En 36.47 36.99 (+0.52) 37.26 (+0.79) 36.88 (+0.41)
Zh-En 29.93 31.14 (+1.21) 30.96 (+1.03) 31.35 (+1.42)
Fr-En 33.19 34.03 (+0.84) 33.87 (+0.68) 33.93 (+0.74)
De-En 30.45 31.05 (+0.60) 31.53 (+1.08) 31.27 (+0.82)
It-En 37.59 38.22 (+0.63) 38.62 (+1.03) 38.31 (+0.72)
Ja-En 15.66 16.68 (+1.02) 17.00 (+1.34) 16.53 (+0.87)
Ru-En 25.58 25.79 (+0.21) 26.12 (+0.54) 25.54 (-0.04)
Es-En 34.41 36.11 (+1.70) 36.06 (+1.65) 36.36 (+1.95)
● 提案手法は全ての言語対で一定のBLEU向上
● 提案手法と再ランキング法は概ね同様の傾向
– アルゴリズムが簡単である分、提案法の方が優秀
● 再ランキング法＋並べ替えでBLEUが向上しない場合もある
– 事前並べ替えと並べ替えモデルの関係が明確でない

実験結果 (2) 主観評価
言語対
提案手法による
平均評価値の上昇
p (両側t検定)
翻訳結果の
異なり率 %
Ar-En +0.066 0.063 64.55
Zh-En +0.096 0.070 78.44
Fr-En +0.157 < 0.001 27.56
De-En +0.111 < 0.001 30.10
It-En +0.074 0.001 25.66
Ja-En +0.238 < 0.001 73.35
Ru-En +0.057 0.017 29.74
Es-En +0.133 < 0.001 40.44
● Ar, Zh 以外の言語対で有意性 (p < 0.05)
– Ar, Zh, Ja →は翻訳結果の大半が提案手法により変化　　ばらつきが大きい
● Ja は翻訳の変化が大きいにも関わらず強い有意性 (p < 0.001)
– 入力の語順が曖昧な言語ほど提案手法が有効である可能性

実験結果 (3) 事前並べ替え候補数とBLEU (1)
● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上

実験結果 (3) 事前並べ替え候補数とBLEU (2)
● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上
● 並べ替えの信頼度を考慮しない場合はBLEUが低下
– 並べ替えの信頼度を考慮することで翻訳精度を担保

実験結果 (4) デコード時間とBLEU (Ja-En)
● 提案手法は従来のPBMTよりも高速かつ高精度
– 固定された探索空間
– 並べ替えモデルによる複雑な計算が発生しない
事前並べ替え
候補数
並べ替え制限長

翻訳例
● 成功例1
– 原文：では, この問題をどうやって解決するつもりですか.
– PBMT： So, are you going to solve how this problem.
– 提案手法： So, how do you intend to solve this problem.
● 成功例2
– 原文：私の車は, 私を含む全員がシートベルトを着用するまで駆動しません.
– PBMT： My car, everyone including the I does not drive up to wear a seat belt.
– 提案手法： My car does not drive until everyone, including me to wear a seat belt.
● 失敗例
– 原文：技術革新により, 情報と画像をカードの表面に印刷できます.
– PBMT： By technological innovation, you can print the information and images
on the card surface.
– 提案手法： By technological innovation, you can print the image information on
the surface of the card.

まとめ
● 提案手法
– 複数の事前並べ替え候補を用いた高速・高精度なPBMT
– 事前並べ替え候補をグラフ化、一度に処理が可能
– 事前並べ替え手法から独立したグラフ構築法
● 実験結果
– 8言語対（Ar/Zh/Fr/De/It/Ja/Ru/Es → En）で翻訳精度向上　（BLEU・主観評価）
– 既存のPBMTよりも高速
● 今後の課題
– 他の事前並べ替え手法による検証
– 複数の事前並べ替え手法の組み合わせ
– グラフ構造に適用しにくい素性（NNJMなど）を適用する方法の考案

複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳

More Related Content

Similar to 複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳

More from 奈良先端大 情報科学研究科

複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳

More from 奈良先端大情報科学研究科