SlideShare a Scribd company logo
1 of 36
Download to read offline
マスター タイトルの書式設定
1
Parallel Iterative Edit Models for
Local Sequence Transduction
A b h i j e e t A w a s t h i , S u n i t a S a r a w a g i , R a s n a G o ya l ,
S a b ya s a c h i G h o s h , V i h a r i P i r a t l a
I n t r o d u c e r : H i r o k i H o m m a , i n K o m a c h i ’s l a b .
A u g u s t 6 t h , 2 0 2 0
マスター タイトルの書式設定
2
キ ー ワ ー ド
2
Keyword
マスター タイトルの書式設定
3
Keyword
3
• Non-autoregressive NMT
• Multi-modality error
マスター タイトルの書式設定
4
Keyword
4
• 非自己回帰ニューラル機械翻訳 (NAT model)
• 2018年、Guら
• 推論時 に、各トークンを同時に出力
• 精度は下がるが、高速
Non-Autoregressive NMT
Encoder AT DecoderEncoder NAT Decoder
NAT model AT model
マスター タイトルの書式設定
5
Keyword
5
• マルチモダリティエラー
• NMTの出力には複数の可能性
• NATは各トークンを独立して出力
 別々の可能性に対する出力がさ
れてしまうことで、文全体としてお
かしなことに
 トークンの反復(Trans. 1)
 トークンの欠落(Trans. 2)
 この問題はNATの翻訳品質に悪
影響を与える
Multi-Modality Error
問題例
マスター タイトルの書式設定
6
Abstract
概 要
6
マスター タイトルの書式設定
7
Abstract
7
• 問題 : NAT におけるマルチモダリティ問題
• 解決策 : 半自己回帰モデルである RecoverSAT を提案
• 翻訳を複数のセグメントとして生成
• 「セグメントにおけるトークンごとの予測」を全セグメントで同時に行う
• セグメント長を動的に決定
• 反復セグメントを削除
• 結果 : AT モデルと同等の性能を維持しつつ、4倍以上の高速化
マスター タイトルの書式設定
8
Method
提 案 手 法
8
マスター タイトルの書式設定
9
Method
9
• Transformer を拡張
• デコーダーの文生成時
• 局所的に自己回帰
• 全域的に非自己回帰
RecoverSAT - Overview
マスター タイトルの書式設定
10
Method
10
RecoverSAT - Overview
𝑡𝑡 = 1𝑡𝑡 = 1𝑡𝑡 = 2𝑡𝑡 = 2𝑡𝑡 = 3𝑡𝑡 = 3𝑡𝑡 = 4𝑡𝑡 = 4
マスター タイトルの書式設定
11
Method
11
• 𝐾𝐾 個のセグメント(部分系列)により生成されると仮定
• 問題点
• セグメントの長さをどうやって決定するか
• セグメントを削除すべきかをどうやって決定するか
RecoverSAT - Overview
タイムステップごとに 𝑉𝑉 ∪ EOS, DEL の要素を出力
• ∈ 𝑉𝑉 : セグメントの出力を続行
• = EOS :セグメントの出力を終了
• = DEL :セグメントの出力を終了、セグメントを削除
𝑉𝑉 : 語彙集合
マスター タイトルの書式設定
12
Method
12
• モデル出力初期の段階は、情報が少なく、マルチモダリティ問題が発生する
• これを回避するため、2つの学習機構を提案
1. Dynamic Termination Mechanism
• 目的側の文脈によるセグメント長の決定を学習
2. Segment Deletion Mechanism
• 繰り返しセグメントの削除を学習
Learning to Recover from Errors
マスター タイトルの書式設定
13
Method
13
• EOS を出力することで、セグメント長を動的に決定する
• この戦略は2つの理由でマルチモダリティ関連エラーから回復するのに役立つ
1. 柔軟なトークンの選択
2. 目的側の情報が豊富
Dynamic Termination Mechanism
マスター タイトルの書式設定
14
Method
14
1. 柔軟なトークンの選択
• 矢印部分のトークンが of を出力した場合
• 左のセグメントが lots までを出力することで、
 トークンの欠落を回避
• 矢印部分のトークンが are を出力した場合
• 左のセグメントが EOS を出力することで、
 トークンの繰り返しを回避
Dynamic Termination Mechanism
マスター タイトルの書式設定
15
Method
15
2. 目的側の情報が豊富
• 全セグメントの以前に生成されたトークンを条件として生成されるため、エラーを検出して回復するのに役立つ
Dynamic Termination Mechanism
マスター タイトルの書式設定
16
混合焼きなまし分割戦略 を提案
Method
16
• しかしながら、妥当な高速化を維持しながら、前述の動作をするようにモデルを学習するのは簡単でない
• 一方では、RecoverSAT モデルのデコード時間はセグメントの最大長に比例するため、学習事例の目的文を同じ長
さのセグメントに分割し、モデルが同じ長さのセグメントを生成するようにすべき (高速にデコードしたい)
• 他方では、モデルはマルチモダリティ関連エラーから回復する能力を高めるために、このエラーにさらされる必要がある
(エラー回復能力を備えたい)
Dynamic Termination Mechanism
マスター タイトルの書式設定
17
Method
17
混合焼きなまし分割戦略
• 「ランダムに分割する」か、「均等に分割するか」をランダムに決定
• 徐々に均等に分割するほうへ変えていく
Dynamic Termination Mechanism
エラー回復能力 高速化
セグメント単位の
削除戦略 を提案
𝑝𝑝 = 1.0 𝑝𝑝 = 0.0
マスター タイトルの書式設定
18
Method
18
• 前述の方法でトークンの欠落から回復し、トークンの反復を減らすことはできるが、すでに発生しているトークン
の反復からは回復できない
• 主に各セグメントの最初のトークン生成時に発生
• これは以前の出力や以降の出力を確認できないため
Segment Deletion Mechanism
セグメント単位の削除戦略 を提案
マスター タイトルの書式設定
19
Method
19
• 疑似反復セグメントを挿入
• 目的文を 𝐾𝐾 分割させたい場合
1. 𝐾𝐾 − 1 セグメントに分割
2. ランダムにセグメントを選択
3. セグメントの最初の 𝑚𝑚 トークンと DEL を右側に複製 (𝑚𝑚 は一様にランダム)
• すべての文に疑似反復セグメントを入れると、モデルが「必ず反復セグメントを出力し、削除する」ことを学習し
てしまうので、確率 𝑞𝑞 で挿入
• 𝑞𝑞 は 0.5 のとき BLEU が最大だったため、実験時は 0.5
Segment Deletion Mechanism
マスター タイトルの書式設定
20
実 験
20
Experiments
マスター タイトルの書式設定
21
Experiments
21
• IWSLT16 En-De (196k pairs)
• WMT14 En-De (4.5M pairs)
• WMT16 En-Ro (610k pairs)
• 公平な比較のため Leeら (2018) の前処理済みデータセットを使用
• トークン化
• BPE(共有、40k)
• validation/test sets (IWSLT16, WMT14, WMT16)
• newstest-2013/newstest-2014, newsdev-2016/newstest-2016, test2013
Datasets
マスター タイトルの書式設定
22
Experiments
22
• モデルのハイパラは先行研究に従う
• 蒸留
• 学習データセットの目的文を自己回帰モデルによって生成された文に置き換え
• 対応する自己回帰モデルのエンコーダを使用してRecoverSATのエンコーダを初期化
• ソースとターゲットのパラメタ共有
• embedding layers
• pre-softmax linear layer
• バッチサイズ1にして、NVIDIA P40 GPU 1枚で推論速度を計測
Experimental Settings
マスター タイトルの書式設定
23
Experiments
23
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD
マスター タイトルの書式設定
24
Experiments
24
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD
1. Transformer に比べて、大幅なスピードアップを維持しながら同等の性能
マスター タイトルの書式設定
25
Experiments
25
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD2. 他のNATモデルよりも高性能。CMLMよりは若干劣るが、速度は高速
マスター タイトルの書式設定
26
Experiments
26
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD
3. 一般化可能性がある
小  𝐾𝐾  大
向 上  B L E U  低 下
低 下  速 度  向 上
マスター タイトルの書式設定
27
Experiments
27
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD4. この2手法はこの提案手法を補完するものなので、組み合わせるのは面白いフューチャーワーク
マスター タイトルの書式設定
28
Experiments
28
1. Dynamic Termination Mechanism
・ トークンの反復・欠落エラー ↓
・ BLEU ↑ <機構が有用>
2. p→大:最長のセグメント長が長くなる
デコードの平均ステップ数 ↑↑
p→小:Multi-Modality 問題からの
回復を学習できない
BLEUスコア ↓↓
3. 焼きなまし分割戦略
・ デコード速度と翻訳品質のバランス◯
Effect of Dynamic Termination Mechanism
• Rep, Mis: 反復トークン、欠落トークンの比率の相対増分 (%)
• 𝑝𝑝 = 1: ランダムな文区切りのみで学習
• 𝑝𝑝 = 0: 均等な文区切りのみで学習
IWSLT16 En-De validation set
マスター タイトルの書式設定
29
Experiments
29
1. 使用しない場合(𝑞𝑞 = 0)、BLEUが大きく下がり、
Rep は増える
→ この機構はトークンの反復の回復に効果的
2. 𝑞𝑞 を大きくすると、ステップ数が徐々に上がっていく
∵ 反復するセグメントを生成して削除しやすくなる
→ 𝑞𝑞 は大きすぎてはいけない
3. 𝑞𝑞 > 0.7 の場合、Rep が大幅に増加
∵ 疑似反復セグメントがランダムに構築され、基礎
の変換を学習するのが困難になる
4. 𝑞𝑞 = 0.5 で最高性能 → 実験設定は 𝑞𝑞 = 0.5
Effect of Segment Deletion Mechanism
𝑞𝑞: 各学習インスタンス時に擬似反復セグメントを
挿入する確率
IWSLT16 En-De validation set
マスター タイトルの書式設定
30
Experiments
30
• RecoverSAT が NAT を大幅に上回り、すべて
の長さの範囲で、Transformerに匹敵する性能
Performance over Sentence Lengths
IWSLT16 En-De validation set
マスター タイトルの書式設定
31
Experiments
31
forced
強制的にトークンを
挿入したもの
repeat
反復的なトークン
drop
欠落しているトークン
DEL segment
削除するセグメント
[N]
各セグメントの開始
Case Study
WMT14 De-En validation set
マスター タイトルの書式設定
32
Experiments
32
forced
強制的にトークンを
挿入したもの
repeat
反復的なトークン
drop
欠落しているトークン
DEL segment
削除するセグメント
[N]
各セグメントの開始
Case Study
WMT14 De-En validation set
1. NAT ではトークンの反復と欠落というマルチモダリティ問題が発生しているが
RecoverSAT では効果的に緩和
マスター タイトルの書式設定
33
Experiments
33
forced
強制的にトークンを
挿入したもの
repeat
反復的なトークン
drop
欠落しているトークン
DEL segment
削除するセグメント
[N]
各セグメントの開始
Case Study
WMT14 De-En validation set
2. 目的側の文脈を利用して動的にセグメント長を決定し、
トークンが繰り返し発生するエラーから回復している
マスター タイトルの書式設定
34
Experiments
34
forced
強制的にトークンを
挿入したもの
repeat
反復的なトークン
drop
欠落しているトークン
DEL segment
削除するセグメント
[N]
各セグメントの開始
Case Study
WMT14 De-En validation set
2. 目的側の文脈を利用して動的にセグメント長を決定し、
トークンが欠落するエラーから回復している
マスター タイトルの書式設定
35
Conclusion
結 論
35
マスター タイトルの書式設定
36
Conclusion
36
• Multi-modality 問題を軽減するための新しい半自己回帰モデル RecoverSAT を提案
• セグメントを非自己回帰的に生成して変換を実行
• セグメント内のトークンを自己回帰的に予測
• セグメントの長さを動的に決定することにより、トークンの欠落エラーから回復し、トークンの反復エラーを減少
• 反復的なセグメントを明示的に検出して削除することにより、トークンの反復エラーから回復
• 3つの広く使用されているベンチマークデータセットでの実験では、ATモデルと比較して、4倍以上のデコード速
度で同等のパフォーマンスを維持

More Related Content

Similar to 2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation

分散メモリ環境におけるシェルスクリプトの高速化手法の提案
分散メモリ環境におけるシェルスクリプトの高速化手法の提案分散メモリ環境におけるシェルスクリプトの高速化手法の提案
分散メモリ環境におけるシェルスクリプトの高速化手法の提案
Keisuke Umeno
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crf
Shuyo Nakatani
 

Similar to 2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation (20)

C# 7.2 with .NET Core 2.1
C# 7.2 with .NET Core 2.1C# 7.2 with .NET Core 2.1
C# 7.2 with .NET Core 2.1
 
分散メモリ環境におけるシェルスクリプトの高速化手法の提案
分散メモリ環境におけるシェルスクリプトの高速化手法の提案分散メモリ環境におけるシェルスクリプトの高速化手法の提案
分散メモリ環境におけるシェルスクリプトの高速化手法の提案
 
最近の単体テスト
最近の単体テスト最近の単体テスト
最近の単体テスト
 
study on safety and security ccoding standards
study on safety and security ccoding standardsstudy on safety and security ccoding standards
study on safety and security ccoding standards
 
Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...
 
serverspecでサーバ環境のテストを書いてみよう
serverspecでサーバ環境のテストを書いてみようserverspecでサーバ環境のテストを書いてみよう
serverspecでサーバ環境のテストを書いてみよう
 
C# design note sep 2014
C# design note sep 2014C# design note sep 2014
C# design note sep 2014
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
中3女子が狂える本当に気持ちのいい constexpr
中3女子が狂える本当に気持ちのいい constexpr中3女子が狂える本当に気持ちのいい constexpr
中3女子が狂える本当に気持ちのいい constexpr
 
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
 
CPUの同時実行機能
CPUの同時実行機能CPUの同時実行機能
CPUの同時実行機能
 
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crf
 
Powershell基礎_20180521用
Powershell基礎_20180521用Powershell基礎_20180521用
Powershell基礎_20180521用
 
JMeter小話
JMeter小話JMeter小話
JMeter小話
 
NLP2012
NLP2012NLP2012
NLP2012
 
第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
Reusing weights in subword aware neural language models
Reusing weights in subword aware neural language modelsReusing weights in subword aware neural language models
Reusing weights in subword aware neural language models
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 

More from 広樹 本間

Unsupervised multilingual word embeddings
Unsupervised multilingual word embeddingsUnsupervised multilingual word embeddings
Unsupervised multilingual word embeddings
広樹 本間
 

More from 広樹 本間 (11)

論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...
 
Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...
 
EMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transductionEMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transduction
 
2019 Levenshtein Transformer
2019 Levenshtein Transformer2019 Levenshtein Transformer
2019 Levenshtein Transformer
 
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
Unsupervised multilingual word embeddings
Unsupervised multilingual word embeddingsUnsupervised multilingual word embeddings
Unsupervised multilingual word embeddings
 
A deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filteringA deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filtering
 
最終発表
最終発表最終発表
最終発表
 
企画書 VirtualDarts v2
企画書 VirtualDarts v2企画書 VirtualDarts v2
企画書 VirtualDarts v2
 

2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation