SlideShare a Scribd company logo
1 of 19
Download to read offline
Understanding Back-
Translation at Scale
Sergey Edunov Myle Ott Michael Auli David Grangier
arXiv:1808.09381v2
Facebook AI Research, Menlo Park, CA & New York, NY.
Google Brain, Mountain View, CA.
機械翻訳の国際会議 THIRD CONFERENCE ON MACHINE
TRANSLATION (WMT2018) で⼈⼿評価1位を獲得し、
WMTが提供するデータセット:Shared Taskによる
BLEUスコアで過去最⾼性能を出した
Back-Translation(逆翻訳)
1
EMNLP	2018
2
26.3 26.4
28.4 28.9 29.2 29.3 29.8
31.8
35
Wu	et	al.	
(2016)
Gehring	
et	al.	
(2017)
Vaswani	
et	al.	
(2017)
Ahmed	
et	al.	
(2017)
Shaw	et	
al.	(2018)
Ott	et	al.	
(2018)
Ott	et	al.	
(2018)
Schwenk	
et	al.	
(2018)
This	
paper
BLEU
機械翻訳におけるベンチマークの⽐較
逆翻訳は⾶び抜けて⾼性能
3Q: What’s	something	that	deep	learning	can’t	do?
※ ref:	Andrew	Ng,	chief	scientist	at	Baidu	and	associate	
professor	at	Stanford,	stands	in	front	of	a	diagram	he	
drew	on	“deep	learning.”	(Nhat V.	Meyer/TNS)
Most	of	the	value	of	
deep	learning	today	is	
in	narrow	domains	
where	you	can	get	a	
lot	of	data.
深層学習ではShared Taskなどの⼤規模な
データが得られる狭い領域で真価を発揮する
深層学習は個⼈が持つ⼩さなデータでは失敗するが…
⼤規模データを持つ領域では…
Google翻訳の性能を超えた機械翻訳サービス
DeepL Translator
Lingueeという⼤規模データセットから訓練している
4
⼤規模データからの学習例
⼤規模・⾼品質な巨⼤辞書
Dataset
機械翻訳では⼤規模・⾼品質なデータからの学習が
翻訳性能を向上させる
5
⼤規模・⾼品質なデータの学習
DeepL Translatorのような⼤規模データ
がない場合はどうすればいい…?
どうすれば…?
どうすれば…?
どうすれば…?
どうすれば…?
どうすれば…?
どうすれば…?
どうすれば…?
どうすれば…?
6
⼤規模データなんてないよ
擬似データ作ってデータ量を
⽔増ししよう!
7
⼤規模なデータがない時は
データ拡張としての逆翻訳
データ拡張は既存のデータから擬似データを作成し,
データ量を⽔増しする⼿法
主に画像認識で使われ,近年では画像の移動・反転・回転など
を探索することで CIFAR と ImageNet の最⾼記録を更新
逆翻訳とは…
順翻訳モデルで⽣成したターゲット⽂を逆翻訳モデルで
ソース⽂に戻す⼿法
逆翻訳は,機械翻訳のデータ拡張として使える!
8
データ拡張
対訳データに⽐べて単⾔語データは容易に⽤意できる
ターゲット⾔語に単⾔語データを⽤意し,対訳データから学習した
逆翻訳モデルを⽤いてソース⾔語を⽣成する
・擬似的な対訳データを簡単に作成できる
・⽔増しした対訳データで順翻訳モデルを学習する
9
データ拡張
しかし…
従来の探索⼿法では逆翻訳によるデータ拡張はうまくいかない原因があった
ニューラルネットによる機械翻訳ではターゲット⽂の⽣成時に
Greedyサーチやビームサーチが使⽤されていた
Greedyサーチは各ステップで最⼤確率の単語を探索し⽣成する
例:“最尤推定量”という⼊⼒に対し、ステップ1で”最⼤”と誤った訳を⽣成
その後も誤った訳が続く
10
データ拡張の問題
最尤推定量
ビームサーチは各ステップで今までの同時確率が⾼い候補⽂を上位k⽂探索
して記憶する(kはビームサイズ)
最終的に⽂全体の同時確率が最⼤の候補⽂を⽣成
各ステップで常に2個の候補⽂を記憶
(k=2)
最終的に”最尤”⇨”推定”⇨”量”の同時確率が
最⼤となるので”最尤推定量”を⽣成
⽂全体の同時確率を考慮することで、
Greedyサーチよりも正確な⽂⽣成が可能!
11
データ拡張の問題
最尤推定量
このように従来、順翻訳では機能していた探索⼿法だが…
※Greedyサーチやビームサーチは事後確率が最⼤となる単語や⽂を
出⼒するためMAP推定である
MAP推定はモデル分布 (逆翻訳モデルが⽣成する確率分布) の頂点付近のみ
を探索し出⼒する
真の分布をカバーしない規則的かつ多様性が低いソース⽂を出⼒する
MAP推定で作られた擬似対訳⽂は
順翻訳モデルにとって学習が容易かつ、
⼗分な訓練信号を提供できない
12
データ拡張の問題
なんとか逆翻訳でデータ拡張したい…!!!
モデル分布から出⼒単語を確率的にサンプリング、
あるいはビームサーチにノイズを添加する⼿法を提案
不規則的かつ多様性が⾼い擬似ソース⽂が⽣成
Top10:
上位10単語からサンプリング
MAP推定とサンプリングの良いとこどり
Sampling:
モデルの確率分布によりサンプリング
多様性は極めて⾼い⼀⽅、不安定
Beam+noise:
3種類のノイズを添加
1) 0.1の確率で単語を削除
2) 0.1の確率でマスク単語に置き換え
3) ⼀様分布の確率で単語をランダム交換
順翻訳モデルはノイズ除去オートエンコーダ?
13
逆翻訳によるデータ拡張
500万⽂の対訳データと2400万⽂の単⾔語データ
を⽤いた実験では、サンプリングやノイズ付加は
MAP推定に⽐べて⾶躍的に順翻訳モデルを向上させた
14
逆翻訳によるデータ拡張
なぜサンプリングやノイズ付加はMAP推定を超えたか
実際の擬似ソース⽂の⽐較では,サンプリングやノイズ付加は
MAP推定に⽐べて適切な⽂ではない
しかし,サンプリングやノイズ付加はMAP推定より予測困難な
ソース⽂を⽣成することで順翻訳モデルの学習を難しくする
擬似ソース⽂の多様性をPerplexityという指標で評価
15
逆翻訳によるデータ拡張
実験ではPerplexityが⾼いほどスコアが⾼いという結果になった
この結果はサンプリングやノイズ付加は順翻訳モデルの学習を困難にし,
またノイズに対して頑健にし,豊富な訓練信号を提供していると考えられる
16
逆翻訳によるデータ拡張
17
まとめ
18
現在までのState-of-the-Art

More Related Content

What's hot

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~Hideki Tsunashima
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...Deep Learning JP
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeTakami Sato
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with TransformersDeep Learning JP
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にRyosuke Tachibana
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 

What's hot (20)

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 

More from Tomoyuki Hioki

Analysis of cancer by structural equation
Analysis of cancer by structural equationAnalysis of cancer by structural equation
Analysis of cancer by structural equationTomoyuki Hioki
 
Analysis of cancer and health in each prefecture
 Analysis of cancer and health in each prefecture Analysis of cancer and health in each prefecture
Analysis of cancer and health in each prefectureTomoyuki Hioki
 
Marketing Strategy by American Express
Marketing Strategy by American ExpressMarketing Strategy by American Express
Marketing Strategy by American ExpressTomoyuki Hioki
 
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーションTomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Tomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Tomoyuki Hioki
 
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Tomoyuki Hioki
 
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...Tomoyuki Hioki
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)Tomoyuki Hioki
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)Tomoyuki Hioki
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
Tomoyuki Hioki
 

More from Tomoyuki Hioki (18)

Analysis of cancer by structural equation
Analysis of cancer by structural equationAnalysis of cancer by structural equation
Analysis of cancer by structural equation
 
Analysis of cancer and health in each prefecture
 Analysis of cancer and health in each prefecture Analysis of cancer and health in each prefecture
Analysis of cancer and health in each prefecture
 
Marketing Strategy by American Express
Marketing Strategy by American ExpressMarketing Strategy by American Express
Marketing Strategy by American Express
 
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
 
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
 
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

 
Prml1.2.5~1.2.6
Prml1.2.5~1.2.6Prml1.2.5~1.2.6
Prml1.2.5~1.2.6
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
Prml1.2.3
Prml1.2.3Prml1.2.3
Prml1.2.3
 
Prml1.2.1~1.2.2
Prml1.2.1~1.2.2Prml1.2.1~1.2.2
Prml1.2.1~1.2.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 
PRML1.2
PRML1.2PRML1.2
PRML1.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 

【論文紹介】Understanding Back-Translation at Scale