Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Paraphrasing rules for automatic evaluation of translation into japanese

227 views

Published on

Hiroshi Kanayama. Paraphrasing rules for automatic evaluation of translation into japanese. In Proceedings of the Second International Workshop on Paraphrasing, pp.88–93, 2003.

Published in: Science
  • Be the first to comment

  • Be the first to like this

Paraphrasing rules for automatic evaluation of translation into japanese

  1. 1. Paraphrasing  Rules  for    Automa4c  Evalua4on  of    Transla4on  into  Japanese Hiroshi  Kanayama.      In  Proceedings  of  the  Second  Interna4onal   Workshop  on  Paraphrasing,  pp.88–93,  2003.     プレゼンテーション:野口真人 1  
  2. 2. Paraphrasing  Rules  for  Automa4c  Evalua4on  of   Transla4on  into  Japanese •  どのような問題を解いたのか   • 目的言語が日本語のときの自動翻訳評価方法(BLEU)の改善   •  どうやって解いたのか   • 言い換え規則を適用することで日本語の表記の揺れを吸収 する   •  どのような結果を達成したか • 人手で行った評価との相関係数が0.80(従来手法)から 0.93(提案手法)となった 2  
  3. 3. 自動評価BLEU:pn • 翻訳の自動評価方法   • 英語への翻訳で人手の評価との高い相関関係がある (Papineni  et  al  2002a)   • 原言語と目的言語のパラレルコーパスを使用   • 以下のような式に基づく     cand:候補文(生成された文) s:文 ngr:n-­‐gram   C:候補文でのカウント数    Cr:参照文(パラレルコーパスの目的言語側)でのカウント数   3  
  4. 4. pnの計算の例 •  以下のような参照文と候補文があるとする   • 参照文1:I  had  my  watch  repaired  by  an  office  worker.   • 参照文2:A  person  in  the  office  repaired  my  watch.   • 候補文1:I  had  a  man  in  the  office  repair  a  watch.   • 候補文2:I  had  the  person  of  an  office  correct  a  clock.   •  候補文1の中には11のunigramがある   • そのうち参照文(1    or  2)に出現するunigramは8つ→ 8/11 •  ‘I’,  ‘had’  ,  ‘a’  ,  ‘in’  ,  ‘the’  ,  ‘office’  ,  ‘watch’,  ‘.’   •  同じように,bigramが  4/10,  trygramが  1/9となる   •  候補文2も同じように見ると,unigramが  8/11,  bigramが 2/10,  trygramが  0/9となる→英訳の良さ候補文1>候補文2 4  
  5. 5. 罰則 • n-­‐gram精度には弱点がある   • 頻繁に使用される単語だけからなる短い候補文で高い精度 を出してしまう   • 例)候補文が”the”  だけで参照文に’the’という単語が入ってる 場合,精度は1.0になってしまう   • BLEUは短い文への罰則によりこの弱点を克服    BP:罰則 c:候補文の総単語数 r:参照文の総単語数   • 候補文が参照文より短いときに点数が減る 5  
  6. 6. BLEUの計算 • BLEUスコアは以下のように求められる   • BLEU得点は0から1の間となる   • Nを大きくすると,文の正しさより流暢さを重視すること になる   • 目的言語が英語の場合,N  =  4のとき人の評価との相 関関係が高くなる(Papineni  et  al  2002b)   6  
  7. 7. 日本語でのBLEU計算のために • 日本語を目的言語とする場合にBLEU評価をするため には以下のことが必要   1.  形態的な解析の利用   2.  異なる品詞の区別   3.  規則を用いた言い換え(提案手法)   1.  形態的な解析の利用   • 日本語には単語間の隙間がないので,形態素解析で切り離 す必要がある   彼が本を読みました。     彼 が 本 を 読 み まし た 。 7  
  8. 8. 日本語でのBLEU計算のために 2.  異なる品詞の区別   •  同じ表層でも意味の違う単語がある   •  例)接続詞の「が」と格助詞の「が」   •  形態素解析で品詞情報を得られるのでそれを利用   3.  規則を用いた言い換え(提案手法)   •  日本語では,同じ内容を表すのにも様々な表現方法がある •  彼が本を読みました。   •  彼が本を読んだ.   •  これらの表記の揺れを吸収する必要がある   8  
  9. 9. •  以下の場合,同じ内容の文なのにBLEU値は低くなってしまう   •  参照文1:彼 が 本 を 読 み まし た 。   •  候補文1:彼 が 本 を 読 ん だ 。   •  Pnはunigram:6/8,  bigram:4/7,  trigram:3/6,  4gram:2/5     (本来ならすべてほぼ 1  になるはず)   •  参照文に以下のような言い換え規則を適用する   •  新たな文を言い換えで生成して参照文に追加          →正当なBLEU値が算出される •  参照文2:彼 が 本 を 読 ん だ 。 規則を用いた言い換え 9   A $1(verb-c) : ん : だ ↔ $1: み : まし : た   B ない(adj) : 。 ↔ あり : ませ : ん : 。   C $1(noun) : だ ↔ $1 : である   D に : よ : っ : て ↔ に : よ : り  
  10. 10. 実験 • 日英の対訳コーパス6,871文からランダムに100文を 抜き出し翻訳を行い評価   • 自動翻訳システムS1〜S5と人手の翻訳H1を評価する   • 評価システムは以下の5つ(B1〜B4はBLEUで評価)   • B1:「1. 形態的な解析の利用」のみを行う   • B2:B1に加え,「2.  異なる品詞の区別」を行う   • B3:B2に加え,51種類言い換えルールを用いた言い換えを 行ったもの(前の表のA・Bのようにより上品な表現にする)   • B4:B3に加え,他の言い換えを行ったもの(C・Dのような)   • M1:人手による評価(1〜5で評価) 10  
  11. 11. 結果 • 結果は以下の通り   • B1とB2から,品詞情報は評価を改善することがわかる   • 言い換え規則を用いた言い換えを行うことで人の評価との相 関度が0.803→0.931に改善した 言い換えにより評価が改善することがわかる   11   B1   B2   B3   B4   M1   S1   0.115   0.114   0.132   0.135   2.38   S2   0.130   0.129   0.149   0.151   2.74   S3   0.134   0.132   0.148   0.152   2.77   S4   0.137   0.135   0.148   0.158   3.16   S5   0.183   0.177   0.179   0.180   3.38   H1   0.170   0.166   0.179   0.187   4.40   correl     0.797   0.803   0.865   0.931   (1.0)  
  12. 12. 終わりに • 言い換え規則を適用したBLEU評価によって,日本語を 目的言語としたときの評価が改善した   • 人手の評価との相関関係が0.80から0.93に   • これにより今まで難しかった翻訳の品質の客観的な 評価が可能となる   • 課題:他の言い換え規則の開発   • 言い換え規則の自動取得をすることがこれからの研究方針 12  

×