16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1
複数の事前並べ替え候補を用いた
句に基づく統計的機械翻訳
小田 悠介 (NAIST)
工藤 拓 (Google)
中川 哲治 (Google)
渡辺 太郎 (Google)
2016/03/09 言語処理学会 第22回全国大会
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2
機械翻訳における語順の違い (1)
は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
It weather today .
English
niceis
Reordering
●
2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3
機械翻訳における語順の違い (2)
は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
Pre-reordering
It weather today .
English
niceis
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
は
(PT)
●
2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題
●
事前並べ替え
(pre-reordering)
– デコード開始前に
原言語の単語並びを
目的言語に近づける
– 原言語の大域的な情報・
構文情報を利用可能
– 並べ替え誤りを
デコード時に取り扱うのが
難しい
– 手法によっては
複数の並べ替え候補と
その信頼度を計算可能
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4
機械翻訳における語順の違い (3)
は
(PT)
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
Japanese
It weather today .
English
niceis
いい
good
ね
(PT)
。
.
天気
weather
です
is
今日
today
は
(PT)
Distortion
Pre-reordering
●
2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題
●
並べ替えモデル
(distortion/reordering model)
– デコード中に
原言語の単語が
目的言語のどこに
挿入されるか推定
– あらゆる局所的な並べ替えを
考慮可能
– 統語的に妥当性の低い
並べ替えになる可能性
– 事前並べ替えと併用した場合
どのような効果があるのかが
明確でない
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5
複数の事前並べ替え候補を用いた翻訳
It is nice weather quuz .It is nice weather tquz .It is nice weather tbaz .It is nice weather tbar .It is nice weather t foo .It is nice weather tnice .It is nice weather today .
今日
0
は
1
いい
2
天気
3
です
4
ね
5
。
6
5-4-3-2-1-0-65-0-3-4-2-1-65-4-2-3-1-3-65-4-2-3-1-2-65-4-2-3-1-1-65-4-2-3-1-2-65-4-2-3-1-0-6
Decoding
Pre-reordering
It is nice weather today .
Select the Best
●
提案手法: 複数の事前並べ替え候補を同時に使用して翻訳
– 複数の並べ替え候補が得られる場合
これらを組み合わせることで
より良い翻訳が可能
– 並べ替えの頑健性を
事前並べ替え側で担保
●
手法への要求
– デコード処理の簡素化
– 事前並べ替え手法とは
独立した処理
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6
提案手法の概要
並べ替えグラフの
構築
並べ替えグラフ上の
デコード
複数の事前並べ替え候補を
コンパクトに表現
並べ替えグラフの特徴に基づいて
高速に処理
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7
並べ替えグラフの構築 (1)
● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ
● 構築方法
1. 各事前並べ替え候補から1本のパスを生成
2. 同じ情報のノードを統合
• ノードの情報 = 読んだ単語の位置の集合
0123456
(1-best)
ね
です
いい
天気
は
今日
。
1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8
並べ替えグラフの構築 (2)
● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ
● 構築方法
1. 各事前並べ替え候補から1本のパスを生成
2. 同じ情報のノードを統合
● ノードの情報 = 読んだ単語の集合
0123456
(1-best)
ね
です
いい
天気
は
今日
。
Integrate
(same word coverage)
Integrate
(same word coverage)
1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。
2. 5-0-3-4-2-1-6 = ね 今日 天気 です いい は 。
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9
並べ替えグラフの構築 (3)
● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ
● 構築方法
1. 各事前並べ替え候補から1本のパスを生成
2. 同じ情報のノードを統合
● ノードの情報 = 読んだ単語の集合
– 事前並べ替えの手法に関わらず
並べ替え候補が分かれば構築可能
0123456
(1-best)
ね
です
いい
天気
は
今日
。
1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。
2. 5-0-3-4-2-1-6 = ね 今日 天気 です いい は 。
3. 5-4-3-2-1-0-6 = ね です 天気 いい は 今日 。
4. 5-1-3-4-2-0-6 = ね は 天気 です いい 今日 。
5. 5-4-1-3-2-0-6 = ね です は 天気 いい 今日 。
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10
並べ替えグラフの例
● 26単語の日本語文 + 128個の事前並べ替え候補を統合
Highly
integrated
Highly
integrated
Variation
Variation
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 11
並べ替え信頼度によるスコア
● 並べ替えグラフ上のパスにスコアを付与
– デコード時に素性として使用
– 様々なスコアが考えられるが、本研究では事前実験で最も性能が良かった
事前並べ替え候補の信頼度の最大値を使用
Confidence of 1st reordering
Confidence of 2nd reordering
3rd
4th
5th
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12
デコード (1)
● 並べ替えグラフ上のデコード
– 左のノードから順に翻訳結果を確定
– グラフ自体が並べ替えに関する情報を持っているため、
デコード時の並べ替えは行わない
– 単純な動的計画法
1 2 3 4 5 6 70Decoding
order
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13
デコード (2)
● 並べ替えグラフ上のデコード
– 左のノードから順に翻訳結果を確定
– グラフ自体が並べ替えに関する情報を持っているため、
デコード時の並べ替えは行わない
– 単純な動的計画法
Decoding
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
phrase
翻訳結果の
確定したノード
次に翻訳結果を
確定するノード
ノード間の単語の差分に
対応するフレーズ
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14
実験
● 実験設定
● 比較対象
※再ランキング
● 並べ替え信頼度とデコーダのスコアを単純に線形補間 (PBMTを複数回実行)
原言語 Ar, Zh, Fr, De, It, Ja, Ru, Es
目的言語 En
コーパス
Train Webから無作為に収集
Dev Webから無作為に収集後、人手翻訳 3000文
Test Webから無作為に収集後、人手翻訳 5000文
事前並べ替え Bracketing Transduction Grammar [*] + ビームサーチ
[*] Tetsuji Nakagawa. Efficient Top-down BTG Parsing for Machine Translation Preordering. In Proc. ACL-IJCNLP, pp. 208-218, 2015.
手法 事前並べ替え数 並べ替えモデル 評価
PBMT 1-best あり BLEU+主観(400文・7段階)
提案手法 1,2,4,8,16,32,64 なし BLEU+主観(400文・7段階)
再ランキング※ 2,4,8,16,32,64 あり+なし BLEU
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15
実験結果 (1) BLEU %
言語対 PBMT 提案手法
再ランキング
並べ替えあり
再ランキング
並べ替えなし
Ar-En 36.47 36.99 (+0.52) 37.26 (+0.79) 36.88 (+0.41)
Zh-En 29.93 31.14 (+1.21) 30.96 (+1.03) 31.35 (+1.42)
Fr-En 33.19 34.03 (+0.84) 33.87 (+0.68) 33.93 (+0.74)
De-En 30.45 31.05 (+0.60) 31.53 (+1.08) 31.27 (+0.82)
It-En 37.59 38.22 (+0.63) 38.62 (+1.03) 38.31 (+0.72)
Ja-En 15.66 16.68 (+1.02) 17.00 (+1.34) 16.53 (+0.87)
Ru-En 25.58 25.79 (+0.21) 26.12 (+0.54) 25.54 (-0.04)
Es-En 34.41 36.11 (+1.70) 36.06 (+1.65) 36.36 (+1.95)
● 提案手法は全ての言語対で一定のBLEU向上
● 提案手法と再ランキング法は概ね同様の傾向
– アルゴリズムが簡単である分、提案法の方が優秀
● 再ランキング法+並べ替えでBLEUが向上しない場合もある
– 事前並べ替えと並べ替えモデルの関係が明確でない
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16
実験結果 (2) 主観評価
言語対
提案手法による
平均評価値の上昇
p (両側t検定)
翻訳結果の
異なり率 %
Ar-En +0.066 0.063 64.55
Zh-En +0.096 0.070 78.44
Fr-En +0.157 < 0.001 27.56
De-En +0.111 < 0.001 30.10
It-En +0.074 0.001 25.66
Ja-En +0.238 < 0.001 73.35
Ru-En +0.057 0.017 29.74
Es-En +0.133 < 0.001 40.44
● Ar, Zh 以外の言語対で有意性 (p < 0.05)
– Ar, Zh, Ja →は翻訳結果の大半が提案手法により変化   ばらつきが大きい
● Ja は翻訳の変化が大きいにも関わらず強い有意性 (p < 0.001)
– 入力の語順が曖昧な言語ほど提案手法が有効である可能性
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17
実験結果 (3) 事前並べ替え候補数とBLEU (1)
● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18
実験結果 (3) 事前並べ替え候補数とBLEU (2)
● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上
● 並べ替えの信頼度を考慮しない場合はBLEUが低下
– 並べ替えの信頼度を考慮することで翻訳精度を担保
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19
実験結果 (4) デコード時間とBLEU (Ja-En)
● 提案手法は従来のPBMTよりも高速かつ高精度
– 固定された探索空間
– 並べ替えモデルによる複雑な計算が発生しない
事前並べ替え
候補数
並べ替え制限長
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20
翻訳例
● 成功例1
– 原文: では, この問題をどうやって解決するつもりですか.
– PBMT: So, are you going to solve how this problem.
– 提案手法: So, how do you intend to solve this problem.
● 成功例2
– 原文: 私の車は, 私を含む全員がシートベルトを着用するまで駆動しません.
– PBMT: My car, everyone including the I does not drive up to wear a seat belt.
– 提案手法: My car does not drive until everyone, including me to wear a seat belt.
● 失敗例
– 原文: 技術革新により, 情報と画像をカードの表面に印刷できます.
– PBMT: By technological innovation, you can print the information and images
on the card surface.
– 提案手法: By technological innovation, you can print the image information on
the surface of the card.
16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21
まとめ
● 提案手法
– 複数の事前並べ替え候補を用いた高速・高精度なPBMT
– 事前並べ替え候補をグラフ化、一度に処理が可能
– 事前並べ替え手法から独立したグラフ構築法
● 実験結果
– 8言語対(Ar/Zh/Fr/De/It/Ja/Ru/Es → En)で翻訳精度向上 (BLEU・主観評価)
– 既存のPBMTよりも高速
● 今後の課題
– 他の事前並べ替え手法による検証
– 複数の事前並べ替え手法の組み合わせ
– グラフ構造に適用しにくい素性(NNJMなど)を適用する方法の考案

複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳

  • 1.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1 複数の事前並べ替え候補を用いた 句に基づく統計的機械翻訳 小田 悠介 (NAIST) 工藤 拓 (Google) 中川 哲治 (Google) 渡辺 太郎 (Google) 2016/03/09 言語処理学会 第22回全国大会
  • 2.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2 機械翻訳における語順の違い (1) は (PT) いい good ね (PT) 。 . 天気 weather です is 今日 today Japanese It weather today . English niceis Reordering ● 2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題
  • 3.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3 機械翻訳における語順の違い (2) は (PT) いい good ね (PT) 。 . 天気 weather です is 今日 today Japanese Pre-reordering It weather today . English niceis いい good ね (PT) 。 . 天気 weather です is 今日 today は (PT) ● 2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題 ● 事前並べ替え (pre-reordering) – デコード開始前に 原言語の単語並びを 目的言語に近づける – 原言語の大域的な情報・ 構文情報を利用可能 – 並べ替え誤りを デコード時に取り扱うのが 難しい – 手法によっては 複数の並べ替え候補と その信頼度を計算可能
  • 4.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4 機械翻訳における語順の違い (3) は (PT) いい good ね (PT) 。 . 天気 weather です is 今日 today Japanese It weather today . English niceis いい good ね (PT) 。 . 天気 weather です is 今日 today は (PT) Distortion Pre-reordering ● 2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題 ● 並べ替えモデル (distortion/reordering model) – デコード中に 原言語の単語が 目的言語のどこに 挿入されるか推定 – あらゆる局所的な並べ替えを 考慮可能 – 統語的に妥当性の低い 並べ替えになる可能性 – 事前並べ替えと併用した場合 どのような効果があるのかが 明確でない
  • 5.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5 複数の事前並べ替え候補を用いた翻訳 It is nice weather quuz .It is nice weather tquz .It is nice weather tbaz .It is nice weather tbar .It is nice weather t foo .It is nice weather tnice .It is nice weather today . 今日 0 は 1 いい 2 天気 3 です 4 ね 5 。 6 5-4-3-2-1-0-65-0-3-4-2-1-65-4-2-3-1-3-65-4-2-3-1-2-65-4-2-3-1-1-65-4-2-3-1-2-65-4-2-3-1-0-6 Decoding Pre-reordering It is nice weather today . Select the Best ● 提案手法: 複数の事前並べ替え候補を同時に使用して翻訳 – 複数の並べ替え候補が得られる場合 これらを組み合わせることで より良い翻訳が可能 – 並べ替えの頑健性を 事前並べ替え側で担保 ● 手法への要求 – デコード処理の簡素化 – 事前並べ替え手法とは 独立した処理
  • 6.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6 提案手法の概要 並べ替えグラフの 構築 並べ替えグラフ上の デコード 複数の事前並べ替え候補を コンパクトに表現 並べ替えグラフの特徴に基づいて 高速に処理
  • 7.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7 並べ替えグラフの構築 (1) ● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ ● 構築方法 1. 各事前並べ替え候補から1本のパスを生成 2. 同じ情報のノードを統合 • ノードの情報 = 読んだ単語の位置の集合 0123456 (1-best) ね です いい 天気 は 今日 。 1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。
  • 8.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8 並べ替えグラフの構築 (2) ● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ ● 構築方法 1. 各事前並べ替え候補から1本のパスを生成 2. 同じ情報のノードを統合 ● ノードの情報 = 読んだ単語の集合 0123456 (1-best) ね です いい 天気 は 今日 。 Integrate (same word coverage) Integrate (same word coverage) 1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。 2. 5-0-3-4-2-1-6 = ね 今日 天気 です いい は 。
  • 9.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9 並べ替えグラフの構築 (3) ● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ ● 構築方法 1. 各事前並べ替え候補から1本のパスを生成 2. 同じ情報のノードを統合 ● ノードの情報 = 読んだ単語の集合 – 事前並べ替えの手法に関わらず 並べ替え候補が分かれば構築可能 0123456 (1-best) ね です いい 天気 は 今日 。 1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。 2. 5-0-3-4-2-1-6 = ね 今日 天気 です いい は 。 3. 5-4-3-2-1-0-6 = ね です 天気 いい は 今日 。 4. 5-1-3-4-2-0-6 = ね は 天気 です いい 今日 。 5. 5-4-1-3-2-0-6 = ね です は 天気 いい 今日 。
  • 10.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10 並べ替えグラフの例 ● 26単語の日本語文 + 128個の事前並べ替え候補を統合 Highly integrated Highly integrated Variation Variation
  • 11.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 11 並べ替え信頼度によるスコア ● 並べ替えグラフ上のパスにスコアを付与 – デコード時に素性として使用 – 様々なスコアが考えられるが、本研究では事前実験で最も性能が良かった 事前並べ替え候補の信頼度の最大値を使用 Confidence of 1st reordering Confidence of 2nd reordering 3rd 4th 5th
  • 12.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12 デコード (1) ● 並べ替えグラフ上のデコード – 左のノードから順に翻訳結果を確定 – グラフ自体が並べ替えに関する情報を持っているため、 デコード時の並べ替えは行わない – 単純な動的計画法 1 2 3 4 5 6 70Decoding order
  • 13.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13 デコード (2) ● 並べ替えグラフ上のデコード – 左のノードから順に翻訳結果を確定 – グラフ自体が並べ替えに関する情報を持っているため、 デコード時の並べ替えは行わない – 単純な動的計画法 Decoding phrase phrase phrase phrase phrase phrase phrase phrase phrase phrase phrase phrase 翻訳結果の 確定したノード 次に翻訳結果を 確定するノード ノード間の単語の差分に 対応するフレーズ
  • 14.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14 実験 ● 実験設定 ● 比較対象 ※再ランキング ● 並べ替え信頼度とデコーダのスコアを単純に線形補間 (PBMTを複数回実行) 原言語 Ar, Zh, Fr, De, It, Ja, Ru, Es 目的言語 En コーパス Train Webから無作為に収集 Dev Webから無作為に収集後、人手翻訳 3000文 Test Webから無作為に収集後、人手翻訳 5000文 事前並べ替え Bracketing Transduction Grammar [*] + ビームサーチ [*] Tetsuji Nakagawa. Efficient Top-down BTG Parsing for Machine Translation Preordering. In Proc. ACL-IJCNLP, pp. 208-218, 2015. 手法 事前並べ替え数 並べ替えモデル 評価 PBMT 1-best あり BLEU+主観(400文・7段階) 提案手法 1,2,4,8,16,32,64 なし BLEU+主観(400文・7段階) 再ランキング※ 2,4,8,16,32,64 あり+なし BLEU
  • 15.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15 実験結果 (1) BLEU % 言語対 PBMT 提案手法 再ランキング 並べ替えあり 再ランキング 並べ替えなし Ar-En 36.47 36.99 (+0.52) 37.26 (+0.79) 36.88 (+0.41) Zh-En 29.93 31.14 (+1.21) 30.96 (+1.03) 31.35 (+1.42) Fr-En 33.19 34.03 (+0.84) 33.87 (+0.68) 33.93 (+0.74) De-En 30.45 31.05 (+0.60) 31.53 (+1.08) 31.27 (+0.82) It-En 37.59 38.22 (+0.63) 38.62 (+1.03) 38.31 (+0.72) Ja-En 15.66 16.68 (+1.02) 17.00 (+1.34) 16.53 (+0.87) Ru-En 25.58 25.79 (+0.21) 26.12 (+0.54) 25.54 (-0.04) Es-En 34.41 36.11 (+1.70) 36.06 (+1.65) 36.36 (+1.95) ● 提案手法は全ての言語対で一定のBLEU向上 ● 提案手法と再ランキング法は概ね同様の傾向 – アルゴリズムが簡単である分、提案法の方が優秀 ● 再ランキング法+並べ替えでBLEUが向上しない場合もある – 事前並べ替えと並べ替えモデルの関係が明確でない
  • 16.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16 実験結果 (2) 主観評価 言語対 提案手法による 平均評価値の上昇 p (両側t検定) 翻訳結果の 異なり率 % Ar-En +0.066 0.063 64.55 Zh-En +0.096 0.070 78.44 Fr-En +0.157 < 0.001 27.56 De-En +0.111 < 0.001 30.10 It-En +0.074 0.001 25.66 Ja-En +0.238 < 0.001 73.35 Ru-En +0.057 0.017 29.74 Es-En +0.133 < 0.001 40.44 ● Ar, Zh 以外の言語対で有意性 (p < 0.05) – Ar, Zh, Ja →は翻訳結果の大半が提案手法により変化   ばらつきが大きい ● Ja は翻訳の変化が大きいにも関わらず強い有意性 (p < 0.001) – 入力の語順が曖昧な言語ほど提案手法が有効である可能性
  • 17.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17 実験結果 (3) 事前並べ替え候補数とBLEU (1) ● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上
  • 18.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18 実験結果 (3) 事前並べ替え候補数とBLEU (2) ● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上 ● 並べ替えの信頼度を考慮しない場合はBLEUが低下 – 並べ替えの信頼度を考慮することで翻訳精度を担保
  • 19.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19 実験結果 (4) デコード時間とBLEU (Ja-En) ● 提案手法は従来のPBMTよりも高速かつ高精度 – 固定された探索空間 – 並べ替えモデルによる複雑な計算が発生しない 事前並べ替え 候補数 並べ替え制限長
  • 20.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20 翻訳例 ● 成功例1 – 原文: では, この問題をどうやって解決するつもりですか. – PBMT: So, are you going to solve how this problem. – 提案手法: So, how do you intend to solve this problem. ● 成功例2 – 原文: 私の車は, 私を含む全員がシートベルトを着用するまで駆動しません. – PBMT: My car, everyone including the I does not drive up to wear a seat belt. – 提案手法: My car does not drive until everyone, including me to wear a seat belt. ● 失敗例 – 原文: 技術革新により, 情報と画像をカードの表面に印刷できます. – PBMT: By technological innovation, you can print the information and images on the card surface. – 提案手法: By technological innovation, you can print the image information on the surface of the card.
  • 21.
    16/03/21 Copyright (C)2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21 まとめ ● 提案手法 – 複数の事前並べ替え候補を用いた高速・高精度なPBMT – 事前並べ替え候補をグラフ化、一度に処理が可能 – 事前並べ替え手法から独立したグラフ構築法 ● 実験結果 – 8言語対(Ar/Zh/Fr/De/It/Ja/Ru/Es → En)で翻訳精度向上 (BLEU・主観評価) – 既存のPBMTよりも高速 ● 今後の課題 – 他の事前並べ替え手法による検証 – 複数の事前並べ替え手法の組み合わせ – グラフ構造に適用しにくい素性(NNJMなど)を適用する方法の考案