16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1
複数の事前並べ替え候補を用いた
句に基づく統計的機械翻訳
小田 悠介 (NAIST)
工藤 拓 (Google)
中川 哲治 (Google)
渡辺 太郎 (Google)
2016/03/09 言語処理学会 第22回全国大会
2.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2
機械翻訳における語順の違い (1)
は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
It weather today .
English
niceis
Reordering
●
2言語間の語順の違い (reordering) → 機械翻訳が対処すべき問題
3.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3
機械翻訳における語順の違い (2)
は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
Pre-reordering
It weather today .
English
niceis
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
は
(PT)
●
2言語間の語順の違い (reordering) → 機械翻訳が対処すべき問題
●
事前並べ替え
(pre-reordering)
– デコード開始前に
原言語の単語並びを
目的言語に近づける
– 原言語の大域的な情報・
構文情報を利用可能
– 並べ替え誤りを
デコード時に取り扱うのが
難しい
– 手法によっては
複数の並べ替え候補と
その信頼度を計算可能
4.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4
機械翻訳における語順の違い (3)
は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
It weather today .
English
niceis
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
は
(PT)
Distortion
Pre-reordering
●
2言語間の語順の違い (reordering) → 機械翻訳が対処すべき問題
●
並べ替えモデル
(distortion/reordering model)
– デコード中に
原言語の単語が
目的言語のどこに
挿入されるか推定
– あらゆる局所的な並べ替えを
考慮可能
– 統語的に妥当性の低い
並べ替えになる可能性
– 事前並べ替えと併用した場合
どのような効果があるのかが
明確でない
5.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5
複数の事前並べ替え候補を用いた翻訳
It is nice weather quuz .It is nice weather tquz .It is nice weather tbaz .It is nice weather tbar .It is nice weather t foo .It is nice weather tnice .It is nice weather today .
今日
0
は
1
いい
2
天気
3
です
4
ね
5
。
6
5-4-3-2-1-0-65-0-3-4-2-1-65-4-2-3-1-3-65-4-2-3-1-2-65-4-2-3-1-1-65-4-2-3-1-2-65-4-2-3-1-0-6
Decoding
Pre-reordering
It is nice weather today .
Select the Best
●
提案手法: 複数の事前並べ替え候補を同時に使用して翻訳
– 複数の並べ替え候補が得られる場合
これらを組み合わせることで
より良い翻訳が可能
– 並べ替えの頑健性を
事前並べ替え側で担保
●
手法への要求
– デコード処理の簡素化
– 事前並べ替え手法とは
独立した処理
6.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6
提案手法の概要
並べ替えグラフの
構築
並べ替えグラフ上の
デコード
複数の事前並べ替え候補を
コンパクトに表現
並べ替えグラフの特徴に基づいて
高速に処理
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17
実験結果 (3) 事前並べ替え候補数とBLEU (1)
● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上
18.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18
実験結果 (3) 事前並べ替え候補数とBLEU (2)
● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上
● 並べ替えの信頼度を考慮しない場合はBLEUが低下
– 並べ替えの信頼度を考慮することで翻訳精度を担保
19.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19
実験結果 (4) デコード時間とBLEU (Ja-En)
● 提案手法は従来のPBMTよりも高速かつ高精度
– 固定された探索空間
– 並べ替えモデルによる複雑な計算が発生しない
事前並べ替え
候補数
並べ替え制限長
20.
16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20
翻訳例
● 成功例1
– 原文: では, この問題をどうやって解決するつもりですか.
– PBMT: So, are you going to solve how this problem.
– 提案手法: So, how do you intend to solve this problem.
● 成功例2
– 原文: 私の車は, 私を含む全員がシートベルトを着用するまで駆動しません.
– PBMT: My car, everyone including the I does not drive up to wear a seat belt.
– 提案手法: My car does not drive until everyone, including me to wear a seat belt.
● 失敗例
– 原文: 技術革新により, 情報と画像をカードの表面に印刷できます.
– PBMT: By technological innovation, you can print the information and images
on the card surface.
– 提案手法: By technological innovation, you can print the image information on
the surface of the card.