特徴語考慮によるモダリティを保存した統計的機械翻訳

特徴語考慮による
モダリティを保存した
統計的機械翻訳
長岡技術科学大学, 独立行政法人情報通信研究機構
井手上雅迪, 内山将夫, 隅田英一郎, 山本和英

目的
特徴語を用いて入力文のモダリティを保存
した翻訳を目指す
彼はもう何年も本を書いていない。
出力：He is writing a book for years.
正解 : He hasn't written a new book in years.
疑問の特徴語が含まれていないと
意味が大きく異なる
1

関連研究
• Class-Dependent Modeling for Dialog
Translation [Finch et al., 2009]
• 入力からモダリティ（疑問）を推測
• 複数の翻訳モデルを用意し、入力のモダリティを考慮した翻訳
• Discriminative Reranking for SMT using Various
Global Features [Goh et al., 2010]
• N-best リランキングのために否定文や疑問文の情報を使用
否定・疑問の特徴語を考慮することで、
モダリティを保存した翻訳ができるか。

手法
フレーズベース統計的機械翻訳において
否定と疑問の特徴語を考慮した素性関数を考える
日英翻訳の英語側の特徴語を抽出
2

人手による特徴語
not t
don Don
haven isn
No won
wasn doesn
didn cannot
hadn
? Why
Will What
Could Is
How Does
Can Do
Are Which
When Where
Have Does
Did Was
May
疑問否定
語の位置情報を保存するため、大文字と小文字は区別しない
3

入力側の特徴語
日本語側の特徴語も考慮
否定の特徴語を両言語に含む
フレーズ数
疑問の特徴語を両言語に含む
フレーズ数
ないません
否定
人手抽出による特徴語
? か。
疑問
4

特徴語の自動抽出
• 特徴語の人手抽出はコストが掛かる
➡ 旅行会話では「いくら」というような語も特徴語
LLR (Log-likelihood ratio) による自動抽出
(1)対訳コーパスの英文側を否定・疑問・肯定に分割
• 英語の人手特徴語を用いる（e.g. Why が含まれていれば疑問)
(2)「否定-肯定」「疑問-肯定」で単語ｗのLLRを計算
• LLR で並べた（降順）リストを作成
• 上位N語を特徴語として抽出
日本語側特徴語は(1)で分割された英文に対応する日本語文を利用
5

LLRによる特徴語の自動抽出
否定肯定
W=1 a b a+b
W=0 c d c+d
a+c b+d n

LLRによる特徴語例
can yet
any but
know worry
I anything
it so
afraid understand
what enough
do any
there have
this don
long it
isn did
your much
how time
疑問否定
6

LLRによる特徴語例
ませない
んは
なかっあまり
まだあり
できじゃ
いいえそんなに
そんなたく
かどこ
何どう
いくらは
いただけどの
何時あり
でしょもらえ
いかがどんな
疑問否定
7

評価実験
翻訳: Moses
チューニング: MERT
旅行会話対訳コーパス: BTEC 70万対
評価データ１５００対(否定・疑問・肯定のそれぞれ５００)
開発データ(dev1) ランダムに1500対
開発データ(dev2) テストデータと同様に１５００対
学習データ残り
•素性を追加した場合の変化
•人手特徴語とLLRによる特徴語
人手評価
8

実験結果(翻訳品質)
S A B C D
素性なし(div2) 60 57 34 26 93
人手（英語） 66 40 38 29 97
人手（両言語） 55 54 44 29 88
LLR（両言語） 60 56 38 28 88
素性関数を追加しても翻訳精度は変化しない
• S→D の５段階評価
• 数値は文数

モダリティの精度
肯定否定疑問
素性なし(div2) 86.67 39.22 90.48
人手（英語） 71.11 80.39 95.24
人手（両言語） 87.41 64.71 90.48
LLR（両言語） 87.41 62.75 95.24
入力文のモダリティと出力結果の
モダリティの一致率
• 否定のモダリティの一致率が向上
• 英語のみの特徴語で肯定文の一致率が低下
9

翻訳例
入力サーカスと動物園、どっちに行こうか。
ベースライン Let s go to the circus and, the zoo? (☓)
日英人手
Which one shall we go to the circus and
zoo? (○)
๏ 正しく翻訳できた例
入力年に一度昇給を得る資格があります。
LLR30
Do you have any qualiﬁcations do you
get a raise once a year. (☓)
๏ 特徴語の抽出失敗による翻訳失敗
10

翻訳例
入力やさしく打ってくださいね。
人手（英語） Please go easy, isn t it? (☓)
人手（両方） Please go easy. (○)
๏ 英語のみの特徴語で翻訳に失敗した例
両言語の特徴語により選択するフレーズを制限している
๏ 英語のみの特徴語で翻訳に失敗した例
入力キャンセルしてもかまいませんか。
ベースライン May I cancel? (○)
人手（両方） I don t mind if you cancel it? (☓)
人手特徴語でも常に否定、疑問のモダリティを表すとは限らない。
11

まとめ
๏ 肯定, 否定, 疑問のモダリティを保存するため、特
徴語を用いた素性関数を提案
➡ モダリティの一致率が向上
๏ 両言語の特徴語を用いた素性
➡ 肯定文の入力に対して適切でない語の使用を抑え
た。
๏ 人手による特徴語と自動抽出による特徴語を比較
➡LLR による特徴語では全てのモダリティにおいて
一致率が向上
12

特徴語考慮によるモダリティを保存した統計的機械翻訳

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (15)

More from 長岡技術科学大学　自然言語処理研究室

More from 長岡技術科学大学　自然言語処理研究室 (20)

Recently uploaded

Recently uploaded (9)