Submit Search
Upload
文レベルの機械翻訳評価尺度に関する調査
•
0 likes
•
946 views
Kodaira Tomonori
Follow
論文紹介: Graham Neubig. 文レベルの機械翻訳評価尺度に関する調査. 情報処理学会第212回自然言語処理研究会, NL-212, 2013.
Read less
Read more
Science
Report
Share
Report
Share
1 of 18
Download now
Download to read offline
Recommended
Improving translation via targeted paraphrasing
Improving translation via targeted paraphrasing
Hiroshi Matsumoto
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
Tom Hakamata
音声認識と深層学習
音声認識と深層学習
Preferred Networks
Deep recurrent generative decoder for abstractive text summarization
Deep recurrent generative decoder for abstractive text summarization
Kodaira Tomonori
Selective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarization
Kodaira Tomonori
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
Kodaira Tomonori
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
Kodaira Tomonori
障害情報レポートに対する同時関連文章圧縮
障害情報レポートに対する同時関連文章圧縮
Kodaira Tomonori
Recommended
Improving translation via targeted paraphrasing
Improving translation via targeted paraphrasing
Hiroshi Matsumoto
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
Tom Hakamata
音声認識と深層学習
音声認識と深層学習
Preferred Networks
Deep recurrent generative decoder for abstractive text summarization
Deep recurrent generative decoder for abstractive text summarization
Kodaira Tomonori
Selective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarization
Kodaira Tomonori
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
Kodaira Tomonori
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
Kodaira Tomonori
障害情報レポートに対する同時関連文章圧縮
障害情報レポートに対する同時関連文章圧縮
Kodaira Tomonori
Neural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and Words
Kodaira Tomonori
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Kodaira Tomonori
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
Kodaira Tomonori
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
Kodaira Tomonori
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...
Kodaira Tomonori
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]
Kodaira Tomonori
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
Kodaira Tomonori
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word...
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word...
Kodaira Tomonori
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of Document
Kodaira Tomonori
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic features
Kodaira Tomonori
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
Kodaira Tomonori
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
Kodaira Tomonori
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text data
Kodaira Tomonori
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
Kodaira Tomonori
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について
Kodaira Tomonori
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
Kodaira Tomonori
More Related Content
More from Kodaira Tomonori
Neural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and Words
Kodaira Tomonori
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Kodaira Tomonori
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
Kodaira Tomonori
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
Kodaira Tomonori
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...
Kodaira Tomonori
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]
Kodaira Tomonori
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
Kodaira Tomonori
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word...
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word...
Kodaira Tomonori
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of Document
Kodaira Tomonori
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic features
Kodaira Tomonori
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
Kodaira Tomonori
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
Kodaira Tomonori
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text data
Kodaira Tomonori
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
Kodaira Tomonori
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について
Kodaira Tomonori
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
Kodaira Tomonori
More from Kodaira Tomonori
(16)
Neural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and Words
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word...
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word...
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of Document
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic features
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text data
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
文レベルの機械翻訳評価尺度に関する調査
1.
文レベルの 機械翻訳評価尺度 に関する調査 Graham Neubig 情報処理学会第212回自然言語処理研究会, NL-212, 2013. 1 プレゼンテーション:小平 知範
2.
概要 • 機械翻訳の自動評価尺度を翻訳文の品質の判定能力の観点から調査 • 日英、英日、仏英、の計4タスクにおいて、4システム出力に対して 人手評価を行い5種類の自動評価尺度を分析する •
1:自動評価尺度を用いて謝り文を特定する可能性について分析する 2:複数システムによる翻訳候補の優劣判定能力を調査 • 結果: すべての評価尺度は、別の評価者による人手評価から得られるアノテー タ間一致を下回っており文レベルの自動評価に大きな課題が残る しかし、複数の参照文を用いることにより翻訳品質判定能力が 文レベルでも向上する結果も見られた。 2
3.
評価尺度:人手評価 • 自動評価尺度が、人間の評価にどの程度一致するか調査 • 各タスクに対して構築された4つの異なる翻訳システム を用いて、翻訳候補を生成 (ここから、1-30語,
200文を用いる) • 意味的妥当性と流暢性を同時に考慮した、5段階評価 • 評価者2名(A:Grahamさん、B:企業に発注) Bを正解、Aをアノテータ間の一致率を図るために用いる 3
4.
自動評価:BLEU+1 • システム出力と参照文を比較し、n-gram適合率に 基づいて翻訳の精度を評価 • 高次のNgramが一致しないので、文ごとの評価に は向かない。以下の定義をして、BLEU+1を提案 4
5.
• 単語誤り率(WER)は、 挿入(I)+削除(D)+置換(S) / 参照文の長さ(R) • WERは、参照文と出力文の語順の違いに非常に厳 しい評価尺度になっている。 •
翻訳編集率(TER)は、 WERに並べ替えの操作を加えたもの • WERより、すこし罰則がゆるくなっている5 自動評価:単語誤り率(WER) 翻訳編集率(TER)
6.
• BLEUとは違い、 語順の誤りに対して、そぶんれほど敏感ではない • 単語並び順に対してケンダルの順位相関係数を用いる •
参照文とシステム間で一致する単語のみに対し、順位相関と、unigram 適合率と、簡潔ペナルティを用いたものが、RIBESの評価値となる 6 自動評価:RIBES
7.
METEOR • 表現の微妙な違いを吸収する評価尺度 • 厳密に単語が一致しなくても、単語のマッチと判定 する仕組み 様々な言語で類義語集を用意する 語幹だけのマッチを許す •
他の評価方法と違い、類義語集を用意する必要があ る。 7
8.
実験設定:データとタスク • 評価の題材として、3通りのデータ4通りの翻訳タスク IWSLT:IWSLT2012ワークショップとして配布された データを仏英翻訳システムの構築とその評価に利用 KFTT:情報通信研究機構により構築された日英京都関係 Wikipedia記事をフリー翻訳タスクで指定された学習・開発・ テストセットを利用する MED:医療に関する文書の日英・英日翻訳タスク 学習 データに著者が収集した医療関係の文章に加え、英辞郎辞書と 例文、KFTT学習データ、BTECを利用 8
9.
実験設定:翻訳システム • 翻訳システム: Mosesのフレーズベースか、階層的フレーズベース Travatarのtree-to-stringとforest-to-string • トークン化: 英、仏→Moses内のスクリプト、日本語→KyTea •
構文解析: 英→Egret、日本語→EdaとTravater内のもの 9
10.
評価 10
11.
人間評価の特定精度 許容性の推定精度 • 書く自動評価尺度が誤った翻訳結果や良質な翻訳結 果を文レベルで特定できるかどうかについて調査 • 許容性の1∼5段階において、各自動評価尺度の中 央値と0.25と0.75の信頼区間を調べる 11
12.
人間評価価値における自動評価尺度の中央値と 0.25, 0.75の信頼区間 12
13.
• 誤り分析のために誤訳を特定する評価尺度としての利用可 能性の観点から見た統計を次ページで示す。 • 「評価の悪い順にシステムを見て行った際、許容性1の誤 訳を75%特定するまでに全文の何%見る必要があるか」 を表した数字である。 •
IWSLTとKFTTにおいて誤り文を特定する効率はBLEUが、 MEDにおいては、RIBESが最もよかったが、 Grahamさんが評価したものは自動評価より大きく上回る 13 人間評価の特定精度 誤り文の特定効率
14.
14 人間評価の特定精度 誤り文の特定効率
15.
システム間の文選択性能 • 各評価尺度が、同一の入力文に対する複数の翻訳候 補の優劣を判定できるかを調査 • 方法として、各入力文に対して、4つの翻訳の中か らその評価尺度が最もいいと判定した候補を選択 •
評価尺度と人間の評価と比較して、三択した文の許 容性の平均値を計算 15
16.
16 システム間の文選択性能
17.
参照文数の影響 • 参照文の追加が誤り文特定能力やシステム間の翻訳 結果優劣判定能力に与える影響を調べる • RefAは元々の文、RefBは著者らが作った文 17 今回は、一番自動評価と 人間評価の差が大きかった MEDen-jaを用いた
18.
終わりに • 機械翻訳の自動評価尺度を文レベルの評価に適用し、 2つの観点でその性能力を検証した 1:誤り文の特定性能 2:システム間の文選択性能 • 調査対象とした5つの評価尺度のうち、すべての評 価尺度は人間の評価を大幅に下回っていた •
課題として、文レベルでも正確に翻訳結果の質を 評価できる自動評価尺度の提案など 18
Download now