SlideShare a Scribd company logo
1 of 18
Download to read offline
文レベルの

機械翻訳評価尺度

に関する調査
Graham Neubig
情報処理学会第212回自然言語処理研究会, NL-212, 2013.
1
プレゼンテーション:小平 知範
概要
• 機械翻訳の自動評価尺度を翻訳文の品質の判定能力の観点から調査
• 日英、英日、仏英、の計4タスクにおいて、4システム出力に対して

人手評価を行い5種類の自動評価尺度を分析する
• 1:自動評価尺度を用いて謝り文を特定する可能性について分析する

2:複数システムによる翻訳候補の優劣判定能力を調査
• 結果:

 すべての評価尺度は、別の評価者による人手評価から得られるアノテー
タ間一致を下回っており文レベルの自動評価に大きな課題が残る

 しかし、複数の参照文を用いることにより翻訳品質判定能力が

文レベルでも向上する結果も見られた。
2
評価尺度:人手評価
• 自動評価尺度が、人間の評価にどの程度一致するか調査
• 各タスクに対して構築された4つの異なる翻訳システム
を用いて、翻訳候補を生成

(ここから、1-30語, 200文を用いる)
• 意味的妥当性と流暢性を同時に考慮した、5段階評価
• 評価者2名(A:Grahamさん、B:企業に発注)

Bを正解、Aをアノテータ間の一致率を図るために用いる
3
自動評価:BLEU+1
• システム出力と参照文を比較し、n-gram適合率に
基づいて翻訳の精度を評価
• 高次のNgramが一致しないので、文ごとの評価に
は向かない。以下の定義をして、BLEU+1を提案
4
• 単語誤り率(WER)は、

挿入(I)+削除(D)+置換(S) / 参照文の長さ(R)
• WERは、参照文と出力文の語順の違いに非常に厳
しい評価尺度になっている。
• 翻訳編集率(TER)は、

WERに並べ替えの操作を加えたもの
• WERより、すこし罰則がゆるくなっている5
自動評価:単語誤り率(WER)

    翻訳編集率(TER)
• BLEUとは違い、

語順の誤りに対して、そぶんれほど敏感ではない
• 単語並び順に対してケンダルの順位相関係数を用いる
• 参照文とシステム間で一致する単語のみに対し、順位相関と、unigram
適合率と、簡潔ペナルティを用いたものが、RIBESの評価値となる
6
自動評価:RIBES
METEOR
• 表現の微妙な違いを吸収する評価尺度
• 厳密に単語が一致しなくても、単語のマッチと判定
する仕組み

 様々な言語で類義語集を用意する

 語幹だけのマッチを許す
• 他の評価方法と違い、類義語集を用意する必要があ
る。
7
実験設定:データとタスク
• 評価の題材として、3通りのデータ4通りの翻訳タスク

 IWSLT:IWSLT2012ワークショップとして配布された
データを仏英翻訳システムの構築とその評価に利用

 KFTT:情報通信研究機構により構築された日英京都関係
Wikipedia記事をフリー翻訳タスクで指定された学習・開発・
テストセットを利用する

 MED:医療に関する文書の日英・英日翻訳タスク 学習
データに著者が収集した医療関係の文章に加え、英辞郎辞書と
例文、KFTT学習データ、BTECを利用
8
実験設定:翻訳システム
• 翻訳システム:

Mosesのフレーズベースか、階層的フレーズベース

Travatarのtree-to-stringとforest-to-string
• トークン化:

 英、仏→Moses内のスクリプト、日本語→KyTea
• 構文解析:

 英→Egret、日本語→EdaとTravater内のもの
9
評価
10
人間評価の特定精度
許容性の推定精度
• 書く自動評価尺度が誤った翻訳結果や良質な翻訳結
果を文レベルで特定できるかどうかについて調査
• 許容性の1∼5段階において、各自動評価尺度の中
央値と0.25と0.75の信頼区間を調べる
11
人間評価価値における自動評価尺度の中央値と

0.25, 0.75の信頼区間
12
• 誤り分析のために誤訳を特定する評価尺度としての利用可
能性の観点から見た統計を次ページで示す。
• 「評価の悪い順にシステムを見て行った際、許容性1の誤
訳を75%特定するまでに全文の何%見る必要があるか」
を表した数字である。
• IWSLTとKFTTにおいて誤り文を特定する効率はBLEUが、
MEDにおいては、RIBESが最もよかったが、

Grahamさんが評価したものは自動評価より大きく上回る
13
人間評価の特定精度
誤り文の特定効率
14
人間評価の特定精度
誤り文の特定効率
システム間の文選択性能
• 各評価尺度が、同一の入力文に対する複数の翻訳候
補の優劣を判定できるかを調査
• 方法として、各入力文に対して、4つの翻訳の中か
らその評価尺度が最もいいと判定した候補を選択
• 評価尺度と人間の評価と比較して、三択した文の許
容性の平均値を計算
15
16
システム間の文選択性能
参照文数の影響
• 参照文の追加が誤り文特定能力やシステム間の翻訳
結果優劣判定能力に与える影響を調べる
• RefAは元々の文、RefBは著者らが作った文
17
今回は、一番自動評価と

人間評価の差が大きかった

MEDen-jaを用いた
終わりに
• 機械翻訳の自動評価尺度を文レベルの評価に適用し、
2つの観点でその性能力を検証した

 1:誤り文の特定性能

 2:システム間の文選択性能
• 調査対象とした5つの評価尺度のうち、すべての評
価尺度は人間の評価を大幅に下回っていた
• 課題として、文レベルでも正確に翻訳結果の質を

評価できる自動評価尺度の提案など
18

More Related Content

More from Kodaira Tomonori

Neural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and WordsNeural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and WordsKodaira Tomonori
 
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationPoster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationKodaira Tomonori
 
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...Kodaira Tomonori
 
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築Kodaira Tomonori
 
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...Kodaira Tomonori
 
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]Kodaira Tomonori
 
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]Kodaira Tomonori
 
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...Kodaira Tomonori
 
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentWordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentKodaira Tomonori
 
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresSimp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresKodaira Tomonori
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築Kodaira Tomonori
 
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataImproving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataKodaira Tomonori
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価Kodaira Tomonori
 
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果についてKodaira Tomonori
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori
 

More from Kodaira Tomonori (16)

Neural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and WordsNeural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and Words
 
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationPoster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
 
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
 
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
 
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...
 
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]
 
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
 
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
 
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentWordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of Document
 
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresSimp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic features
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataImproving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text data
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
 
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 

文レベルの機械翻訳評価尺度に関する調査