【論文紹介】Understanding Back-Translation at Scale

Understanding Back-
Translation at Scale
Sergey Edunov Myle Ott Michael Auli David Grangier
arXiv:1808.09381v2
Facebook AI Research, Menlo Park, CA & New York, NY.
Google Brain, Mountain View, CA.

機械翻訳の国際会議 THIRD CONFERENCE ON MACHINE
TRANSLATION (WMT2018) で⼈⼿評価1位を獲得し、
WMTが提供するデータセット：Shared Taskによる
BLEUスコアで過去最⾼性能を出した
Back-Translation（逆翻訳）
1
EMNLP 2018

2
26.3 26.4
28.4 28.9 29.2 29.3 29.8
31.8
35
Wu et al.
(2016)
Gehring
et al.
(2017)
Vaswani
et al.
(2017)
Ahmed
et al.
(2017)
Shaw et
al. (2018)
Ott et al.
(2018)
Ott et al.
(2018)
Schwenk
et al.
(2018)
This
paper
BLEU
機械翻訳におけるベンチマークの⽐較
逆翻訳は⾶び抜けて⾼性能

3Q: What’s something that deep learning can’t do?
※ ref: Andrew Ng, chief scientist at Baidu and associate
professor at Stanford, stands in front of a diagram he
drew on “deep learning.” (Nhat V. Meyer/TNS)
Most of the value of
deep learning today is
in narrow domains
where you can get a
lot of data.
深層学習ではShared Taskなどの⼤規模な
データが得られる狭い領域で真価を発揮する

深層学習は個⼈が持つ⼩さなデータでは失敗するが…
⼤規模データを持つ領域では…
Google翻訳の性能を超えた機械翻訳サービス
DeepL Translator
Lingueeという⼤規模データセットから訓練している
4
⼤規模データからの学習例
⼤規模・⾼品質な巨⼤辞書
Dataset

機械翻訳では⼤規模・⾼品質なデータからの学習が
翻訳性能を向上させる
5
⼤規模・⾼品質なデータの学習

DeepL Translatorのような⼤規模データ
がない場合はどうすればいい…?
どうすれば…？
6
⼤規模データなんてないよ

擬似データ作ってデータ量を
⽔増ししよう！
7
⼤規模なデータがない時は

データ拡張としての逆翻訳
データ拡張は既存のデータから擬似データを作成し,
データ量を⽔増しする⼿法
主に画像認識で使われ，近年では画像の移動・反転・回転など
を探索することで CIFAR と ImageNet の最⾼記録を更新
逆翻訳とは…
順翻訳モデルで⽣成したターゲット⽂を逆翻訳モデルで
ソース⽂に戻す⼿法
逆翻訳は,機械翻訳のデータ拡張として使える！
8
データ拡張

対訳データに⽐べて単⾔語データは容易に⽤意できる
ターゲット⾔語に単⾔語データを⽤意し，対訳データから学習した
逆翻訳モデルを⽤いてソース⾔語を⽣成する
・擬似的な対訳データを簡単に作成できる
・⽔増しした対訳データで順翻訳モデルを学習する
9
データ拡張

しかし…
従来の探索⼿法では逆翻訳によるデータ拡張はうまくいかない原因があった
ニューラルネットによる機械翻訳ではターゲット⽂の⽣成時に
Greedyサーチやビームサーチが使⽤されていた
Greedyサーチは各ステップで最⼤確率の単語を探索し⽣成する
例：“最尤推定量”という⼊⼒に対し、ステップ1で”最⼤”と誤った訳を⽣成
その後も誤った訳が続く
10
データ拡張の問題
最尤推定量

ビームサーチは各ステップで今までの同時確率が⾼い候補⽂を上位k⽂探索
して記憶する（kはビームサイズ）
最終的に⽂全体の同時確率が最⼤の候補⽂を⽣成
各ステップで常に2個の候補⽂を記憶
(k=2)
最終的に”最尤”⇨”推定”⇨”量”の同時確率が
最⼤となるので”最尤推定量”を⽣成
⽂全体の同時確率を考慮することで、
Greedyサーチよりも正確な⽂⽣成が可能！
11
最尤推定量

このように従来、順翻訳では機能していた探索⼿法だが…
※Greedyサーチやビームサーチは事後確率が最⼤となる単語や⽂を
出⼒するためMAP推定である
MAP推定はモデル分布 (逆翻訳モデルが⽣成する確率分布) の頂点付近のみ
を探索し出⼒する
真の分布をカバーしない規則的かつ多様性が低いソース⽂を出⼒する
MAP推定で作られた擬似対訳⽂は
順翻訳モデルにとって学習が容易かつ、
⼗分な訓練信号を提供できない
12

なんとか逆翻訳でデータ拡張したい…！！！
モデル分布から出⼒単語を確率的にサンプリング、
あるいはビームサーチにノイズを添加する⼿法を提案
不規則的かつ多様性が⾼い擬似ソース⽂が⽣成
Top10:
上位10単語からサンプリング
MAP推定とサンプリングの良いとこどり
Sampling:
モデルの確率分布によりサンプリング
多様性は極めて⾼い⼀⽅、不安定
Beam+noise:
3種類のノイズを添加
1) 0.1の確率で単語を削除
2) 0.1の確率でマスク単語に置き換え
3) ⼀様分布の確率で単語をランダム交換
順翻訳モデルはノイズ除去オートエンコーダ？
13
逆翻訳によるデータ拡張

500万⽂の対訳データと2400万⽂の単⾔語データ
を⽤いた実験では、サンプリングやノイズ付加は
MAP推定に⽐べて⾶躍的に順翻訳モデルを向上させた
14

なぜサンプリングやノイズ付加はMAP推定を超えたか
実際の擬似ソース⽂の⽐較では，サンプリングやノイズ付加は
MAP推定に⽐べて適切な⽂ではない
しかし,サンプリングやノイズ付加はMAP推定より予測困難な
ソース⽂を⽣成することで順翻訳モデルの学習を難しくする
擬似ソース⽂の多様性をPerplexityという指標で評価
15

実験ではPerplexityが⾼いほどスコアが⾼いという結果になった
この結果はサンプリングやノイズ付加は順翻訳モデルの学習を困難にし，
またノイズに対して頑健にし，豊富な訓練信号を提供していると考えられる
16

18
現在までのState-of-the-Art

【論文紹介】Understanding Back-Translation at Scale

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Tomoyuki Hioki

More from Tomoyuki Hioki (18)

【論文紹介】Understanding Back-Translation at Scale