文レベルの機械翻訳評価尺度に関する調査

文レベルの 
機械翻訳評価尺度 
に関する調査
Graham Neubig
情報処理学会第212回自然言語処理研究会, NL-212, 2013.
1
プレゼンテーション：小平知範

概要
• 機械翻訳の自動評価尺度を翻訳文の品質の判定能力の観点から調査
• 日英、英日、仏英、の計４タスクにおいて、４システム出力に対して 
人手評価を行い５種類の自動評価尺度を分析する
• １：自動評価尺度を用いて謝り文を特定する可能性について分析する 
２：複数システムによる翻訳候補の優劣判定能力を調査
• 結果： 
すべての評価尺度は、別の評価者による人手評価から得られるアノテー
タ間一致を下回っており文レベルの自動評価に大きな課題が残る 
しかし、複数の参照文を用いることにより翻訳品質判定能力が 
文レベルでも向上する結果も見られた。
2

評価尺度：人手評価
• 自動評価尺度が、人間の評価にどの程度一致するか調査
• 各タスクに対して構築された４つの異なる翻訳システム
を用いて、翻訳候補を生成 
(ここから、1-30語, 200文を用いる)
• 意味的妥当性と流暢性を同時に考慮した、５段階評価
• 評価者２名(A:Grahamさん、B:企業に発注) 
Bを正解、Aをアノテータ間の一致率を図るために用いる
3

自動評価：BLEU＋１
• システム出力と参照文を比較し、n-gram適合率に
基づいて翻訳の精度を評価
• 高次のNgramが一致しないので、文ごとの評価に
は向かない。以下の定義をして、BLEU＋１を提案
4

• 単語誤り率（WER）は、 
挿入(I)＋削除(D)＋置換(S) ／参照文の長さ(R)
• WERは、参照文と出力文の語順の違いに非常に厳
しい評価尺度になっている。
• 翻訳編集率（TER)は、 
WERに並べ替えの操作を加えたもの
• WERより、すこし罰則がゆるくなっている5
自動評価：単語誤り率（WER) 
翻訳編集率（TER)

• BLEUとは違い、 
語順の誤りに対して、そぶんれほど敏感ではない
• 単語並び順に対してケンダルの順位相関係数を用いる
• 参照文とシステム間で一致する単語のみに対し、順位相関と、unigram
適合率と、簡潔ペナルティを用いたものが、RIBESの評価値となる
6
自動評価：RIBES

METEOR
• 表現の微妙な違いを吸収する評価尺度
• 厳密に単語が一致しなくても、単語のマッチと判定
する仕組み 
様々な言語で類義語集を用意する 
語幹だけのマッチを許す
• 他の評価方法と違い、類義語集を用意する必要があ
る。
7

実験設定：データとタスク
• 評価の題材として、３通りのデータ4通りの翻訳タスク 
IWSLT：IWSLT2012ワークショップとして配布された
データを仏英翻訳システムの構築とその評価に利用 
KFTT：情報通信研究機構により構築された日英京都関係
Wikipedia記事をフリー翻訳タスクで指定された学習・開発・
テストセットを利用する 
MED：医療に関する文書の日英・英日翻訳タスク学習
データに著者が収集した医療関係の文章に加え、英辞郎辞書と
例文、KFTT学習データ、BTECを利用
8

実験設定：翻訳システム
• 翻訳システム： 
Mosesのフレーズベースか、階層的フレーズベース 
Travatarのtree-to-stringとforest-to-string
• トークン化： 
英、仏→Moses内のスクリプト、日本語→KyTea
• 構文解析： 
英→Egret、日本語→EdaとTravater内のもの
9

人間評価の特定精度
許容性の推定精度
• 書く自動評価尺度が誤った翻訳結果や良質な翻訳結
果を文レベルで特定できるかどうかについて調査
• 許容性の１∼５段階において、各自動評価尺度の中
央値と0.25と0.75の信頼区間を調べる
11

人間評価価値における自動評価尺度の中央値と 
0.25, 0.75の信頼区間
12

• 誤り分析のために誤訳を特定する評価尺度としての利用可
能性の観点から見た統計を次ページで示す。
• 「評価の悪い順にシステムを見て行った際、許容性１の誤
訳を７５％特定するまでに全文の何％見る必要があるか」
を表した数字である。
• IWSLTとKFTTにおいて誤り文を特定する効率はBLEUが、
MEDにおいては、RIBESが最もよかったが、 
Grahamさんが評価したものは自動評価より大きく上回る
13
誤り文の特定効率

14
誤り文の特定効率

システム間の文選択性能
• 各評価尺度が、同一の入力文に対する複数の翻訳候
補の優劣を判定できるかを調査
• 方法として、各入力文に対して、４つの翻訳の中か
らその評価尺度が最もいいと判定した候補を選択
• 評価尺度と人間の評価と比較して、三択した文の許
容性の平均値を計算
15

16
システム間の文選択性能

参照文数の影響
• 参照文の追加が誤り文特定能力やシステム間の翻訳
結果優劣判定能力に与える影響を調べる
• RefAは元々の文、RefBは著者らが作った文
17
今回は、一番自動評価と 
人間評価の差が大きかった 
MEDen-jaを用いた

終わりに
• 機械翻訳の自動評価尺度を文レベルの評価に適用し、
２つの観点でその性能力を検証した 
１：誤り文の特定性能 
２：システム間の文選択性能
• 調査対象とした５つの評価尺度のうち、すべての評
価尺度は人間の評価を大幅に下回っていた
• 課題として、文レベルでも正確に翻訳結果の質を 
評価できる自動評価尺度の提案など
18

文レベルの機械翻訳評価尺度に関する調査

Recommended

Recommended

More Related Content

More from Kodaira Tomonori

More from Kodaira Tomonori (16)

文レベルの機械翻訳評価尺度に関する調査