Successfully reported this slideshow.
Your SlideShare is downloading. ×

Beyond bleu training neural machine translation with semantic similarity

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 18 Ad
Advertisement

More Related Content

Recently uploaded (20)

Advertisement

Beyond bleu training neural machine translation with semantic similarity

  1. 1. Beyond BLEU: Training Neural Machine Translation with Semantic Similarity John Wieting, Taylor Berg-Kirkpatrick, Kevin Gimpel, Graham Neubig ACL2019 2019/10/28 ACL論文読み会 紹介者: 吉村
  2. 2. Abstract ● Minimum risk training の BLEU に代わる 新しい報酬 SIMILEを提案 ● (cs, de, ru, tr) to English の MT で実験 ● 自動評価と人手評価で BLEU が報酬の場合より良かった ● BLEUが報酬の場合よりスコアの粒度が細かくなるため収 束が早くなることが示唆される
  3. 3. Introduction ● 多くのNMTでは最尤推定を用いた学習 ● 最近は BLEU などを直接最適化するように学習させるこ とで翻訳精度が向上することが示されている ● BLEU を使用することの問題点 ○ 出力と参照訳の意味が同じでも表層が違うとペナルティが科される ○ スコアの粒度が細かくない → 最適化が難しい ● SIMILE という新しい報酬関数を提案 ○ STS の embedding ベースの手法
  4. 4. SIM ● Wieting and Gimpel (2018) をベースにしたもの ○ STSの unsupervised で SOTAの手法、ドメインに依存しない ● Model ○ LSTM の hidden state の平均 ○ 300次元の subword embeddings の平均で文を encode する ○ 出力と参照訳をそれぞれ encode して cos類似度で類似度を計算 ● Training ○ <s, s’> の言い換えペアに対して以下を学習 <s. s’> : 16.77M pairs of ParaNMT g : model δ : マージン t: 負例(ミニバッチで最も類似した文)
  5. 5. SIMILE Length Penalty ● BLEUの BP と似ていて、rとhの長さが全く異なる場合に ペナルティをかける ● LP の影響をわずかに下げることで精度が向上 ○ α = 0.25に設定
  6. 6. BLEU, METEORとの比較 ● METEOR と SIMの違いは流暢性にあるとの予測 ● 流暢性をとらえるために MRT に MLE loss を追加するこ とで改善(Edunov et al. 2018)
  7. 7. MT - Model Architecture ● encoder-decoder with soft attention ● gated convolutional encoders and decoders ● encoder 4 layer, decoder 3 layer ● hidden size 256 ● bpe 40,000 ● embedding size 256
  8. 8. MT - Objective Functions ● 最初に で学習させてから で fine-tuning ● サンプルする n-best size は 8 ● で 200 エポック、 で 10エポック学習 ● γ は {0.2, 0.3, 0.4} から チューニングして決める U(x): set of candidate hypotheses t: reference cost(t, u): 1 - BLEU(t, h) or 1 - SIMILE(t, h) (Pereyra et al., 2017)
  9. 9. Experiments ● DATA ○ cs-en, de-en, ru-en: ■ train: News Commentary v13 (WMT18) ■ valid: validation set of WMT16, 17 ■ test: test set of WMT18 ○ tr-en: ■ train: SETIMES2 (WMT18) ■ valid: validation set of WMT16, validation and test set of WMT17 ■ test: test set of WMT18 ● Evaluation ○ Automatic Evaluation ■ BLEU, SIM (not SIMILE) 意味を重視 ○ Human Evaluation ■ 200文を人手評価(情報をどれだけ伝えたかの観点)
  10. 10. Result (Automatic Evaluation) ● MLE: Maximum likelihood with label smoothing ● BLEU: Minimum risk training with 1-BLEU as the cost ● SIMILE: Minimum risk training with 1-SIMILE as the cost ● Half: Minimum risk training with a new cost that is 1-(BLEU + SIM)/2 ● SIMの自動評価では SIMILE が全言語でベスト ● SIMILEは BLEU を最適化するモデルよりも BLEU が上がっている ● BLEUを最適化すると SIM でも大きく上がる
  11. 11. Result (Human Evaluation) ● tr-en が SIMILE で低くなっている ○ warm up の段階である程度良くなっていないといけないという仮説 ● de-en, ru-en がBLEUに対してSIMILEで最も改善し、MLEでのBLEUが最も高 い (Table 4)ので仮説の信頼性が高まる ← warm up時のスコアをみるべきで は? Annotation Instructions
  12. 12. Quantitative Analysis - Partial Credit ● BLEU は高いコストにたくさん集まっている → 学習時の情報が少ない ● beam size 8の28ペアで ○ スコアの差が0以上の割合 BLEU: 85.1% SIMILE: 99.0%, ○ 平均差 BLEU: 4.3 SIMILE: 4.8
  13. 13. Quantitative Analysis - Validation loss ● SIMILE のほうが早く loss が減少 ● 最終的な loss も SIMILE が低い ● 1 epoch 直後のスコア ○ BLUE でのモデル ■ SIM/BLEU = 86.71/27.63 ○ SIM でのモデル ■ SIM/BLEU = 87.14/28.10
  14. 14. Quantitative Analysis - Effect of n-best list size ● SIMILE は n-bset size を増や すにつれて BLEU と SIM が 大幅に改善されている ● BLEU は n-best を増やすと SIMILEとのギャップが縮まる と仮説 → 縮まってない ○ metric に関係なく小さい n-best ではそもそも精度 がでないから
  15. 15. Quantitative Analysis - Lexical F1 ● compare-mt を使用して単語タイプの BLEU と SIMILE のF1値の差を計算 ○ 出現頻度と品詞を分析 ● 程頻度語をより正確に生成してる ● 文の意味に特徴的な品詞のスコア差が 高くなっている ● DETのようなあまり意味をもたない品 詞はスコア差が小さい
  16. 16. Qualitative Analysis ● SIMILE では他の2つでは省略されている重要な単語を生成できている ● 失敗例でも、元の文の重要な単語を生成している
  17. 17. Metric Comparison ● SIMスコア差が大きい場合、文の意味に違いがあることがわかる ○ BLEUスコア差が小さい場合は当てはまらない(1番上の例) ● BLEUスコアの差が大きくても意味を保持している ○ BLEUスコアの問題点
  18. 18. Conclusion ● MRTの報酬として BLEUに代わる SIMILE を提案 ● BLEUの場合より自動評価でも人手評価でもよかった。 ● 最適化が容易になり、意味的に重要な単語を翻訳する傾 向にあることがわかった。

×