2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation

マスタータイトルの書式設定
1
Parallel Iterative Edit Models for
Local Sequence Transduction
A b h i j e e t A w a s t h i , S u n i t a S a r a w a g i , R a s n a G o ya l ,
S a b ya s a c h i G h o s h , V i h a r i P i r a t l a
I n t r o d u c e r : H i r o k i H o m m a , i n K o m a c h i ’s l a b .
A u g u s t 6 t h , 2 0 2 0

2
キーワード
2
Keyword

3
Keyword
3
• Non-autoregressive NMT
• Multi-modality error

4
Keyword
4
• 非自己回帰ニューラル機械翻訳（NAT model）
• 2018年、Guら
• 推論時に、各トークンを同時に出力
• 精度は下がるが、高速
Non-Autoregressive NMT
Encoder AT DecoderEncoder NAT Decoder
NAT model AT model

5
Keyword
5
• マルチモダリティエラー
• NMTの出力には複数の可能性
• NATは各トークンを独立して出力
 別々の可能性に対する出力がさ
れてしまうことで、文全体としてお
かしなことに
 トークンの反復（Trans. 1）
 トークンの欠落（Trans. 2）
 この問題はNATの翻訳品質に悪
影響を与える
Multi-Modality Error
問題例

6
Abstract
概要
6

7
Abstract
7
• 問題： NAT におけるマルチモダリティ問題
• 解決策：半自己回帰モデルである RecoverSAT を提案
• 翻訳を複数のセグメントとして生成
• 「セグメントにおけるトークンごとの予測」を全セグメントで同時に行う
• セグメント長を動的に決定
• 反復セグメントを削除
• 結果： AT モデルと同等の性能を維持しつつ、4倍以上の高速化

8
Method
提案手法
8

9
Method
9
• Transformer を拡張
• デコーダーの文生成時
• 局所的に自己回帰
• 全域的に非自己回帰
RecoverSAT - Overview

10
Method
10
𝑡𝑡 = 1𝑡𝑡 = 1𝑡𝑡 = 2𝑡𝑡 = 2𝑡𝑡 = 3𝑡𝑡 = 3𝑡𝑡 = 4𝑡𝑡 = 4

11
Method
11
• 𝐾𝐾 個のセグメント（部分系列）により生成されると仮定
• 問題点
• セグメントの長さをどうやって決定するか
• セグメントを削除すべきかをどうやって決定するか
タイムステップごとに 𝑉𝑉 ∪ EOS, DEL の要素を出力
• ∈ 𝑉𝑉 : セグメントの出力を続行
• = EOS ：セグメントの出力を終了
• = DEL ：セグメントの出力を終了、セグメントを削除
𝑉𝑉 : 語彙集合

12
Method
12
• モデル出力初期の段階は、情報が少なく、マルチモダリティ問題が発生する
• これを回避するため、2つの学習機構を提案
1. Dynamic Termination Mechanism
• 目的側の文脈によるセグメント長の決定を学習
2. Segment Deletion Mechanism
• 繰り返しセグメントの削除を学習
Learning to Recover from Errors

13
Method
13
• EOS を出力することで、セグメント長を動的に決定する
• この戦略は2つの理由でマルチモダリティ関連エラーから回復するのに役立つ
1. 柔軟なトークンの選択
2. 目的側の情報が豊富
Dynamic Termination Mechanism

14
Method
14
1. 柔軟なトークンの選択
• 矢印部分のトークンが of を出力した場合
• 左のセグメントが lots までを出力することで、
 トークンの欠落を回避
• 矢印部分のトークンが are を出力した場合
• 左のセグメントが EOS を出力することで、
 トークンの繰り返しを回避

15
Method
15
2. 目的側の情報が豊富
• 全セグメントの以前に生成されたトークンを条件として生成されるため、エラーを検出して回復するのに役立つ

16
混合焼きなまし分割戦略を提案
Method
16
• しかしながら、妥当な高速化を維持しながら、前述の動作をするようにモデルを学習するのは簡単でない
• 一方では、RecoverSAT モデルのデコード時間はセグメントの最大長に比例するため、学習事例の目的文を同じ長
さのセグメントに分割し、モデルが同じ長さのセグメントを生成するようにすべき（高速にデコードしたい）
• 他方では、モデルはマルチモダリティ関連エラーから回復する能力を高めるために、このエラーにさらされる必要がある
（エラー回復能力を備えたい）

17
Method
17
混合焼きなまし分割戦略
• 「ランダムに分割する」か、「均等に分割するか」をランダムに決定
• 徐々に均等に分割するほうへ変えていく
エラー回復能力高速化
セグメント単位の
削除戦略を提案
𝑝𝑝 = 1.0 𝑝𝑝 = 0.0

18
Method
18
• 前述の方法でトークンの欠落から回復し、トークンの反復を減らすことはできるが、すでに発生しているトークン
の反復からは回復できない
• 主に各セグメントの最初のトークン生成時に発生
• これは以前の出力や以降の出力を確認できないため
Segment Deletion Mechanism
セグメント単位の削除戦略を提案

19
Method
19
• 疑似反復セグメントを挿入
• 目的文を 𝐾𝐾 分割させたい場合
1. 𝐾𝐾 − 1 セグメントに分割
2. ランダムにセグメントを選択
3. セグメントの最初の 𝑚𝑚 トークンと DEL を右側に複製（𝑚𝑚 は一様にランダム）
• すべての文に疑似反復セグメントを入れると、モデルが「必ず反復セグメントを出力し、削除する」ことを学習し
てしまうので、確率 𝑞𝑞 で挿入
• 𝑞𝑞 は 0.5 のとき BLEU が最大だったため、実験時は 0.5
Segment Deletion Mechanism

20
実験
20
Experiments

21
Experiments
21
• IWSLT16 En-De (196k pairs)
• WMT14 En-De (4.5M pairs)
• WMT16 En-Ro (610k pairs)
• 公平な比較のため Leeら (2018) の前処理済みデータセットを使用
• トークン化
• BPE（共有、40k）
• validation/test sets (IWSLT16, WMT14, WMT16)
• newstest-2013/newstest-2014, newsdev-2016/newstest-2016, test2013
Datasets

22
Experiments
22
• モデルのハイパラは先行研究に従う
• 蒸留
• 学習データセットの目的文を自己回帰モデルによって生成された文に置き換え
• 対応する自己回帰モデルのエンコーダを使用してRecoverSATのエンコーダを初期化
• ソースとターゲットのパラメタ共有
• embedding layers
• pre-softmax linear layer
• バッチサイズ1にして、NVIDIA P40 GPU 1枚で推論速度を計測
Experimental Settings

23
Experiments
23
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD

24
Experiments
24
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD
1. Transformer に比べて、大幅なスピードアップを維持しながら同等の性能

25
Experiments
25
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD2. 他のNATモデルよりも高性能。CMLMよりは若干劣るが、速度は高速

26
Experiments
26
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD
3. 一般化可能性がある
小  𝐾𝐾  大
向上  B L E U  低下
低下  速度  向上

27
Experiments
27
Overall Results
BLEU
NPD:
noisy
parallel
decoding
technique
LPD:
length
parallel
decoding
technique
𝑛𝑛: sample
size of
NPD/LPD4. この2手法はこの提案手法を補完するものなので、組み合わせるのは面白いフューチャーワーク

28
Experiments
28
1. Dynamic Termination Mechanism
・トークンの反復・欠落エラー ↓
・ BLEU ↑ ＜機構が有用＞
2. p→大：最長のセグメント長が長くなる
デコードの平均ステップ数 ↑↑
p→小：Multi-Modality 問題からの
回復を学習できない
BLEUスコア ↓↓
3. 焼きなまし分割戦略
・デコード速度と翻訳品質のバランス◯
Effect of Dynamic Termination Mechanism
• Rep, Mis: 反復トークン、欠落トークンの比率の相対増分 (%)
• 𝑝𝑝 = 1: ランダムな文区切りのみで学習
• 𝑝𝑝 = 0: 均等な文区切りのみで学習
IWSLT16 En-De validation set

29
Experiments
29
1. 使用しない場合（𝑞𝑞 = 0）、BLEUが大きく下がり、
Rep は増える
→ この機構はトークンの反復の回復に効果的
2. 𝑞𝑞 を大きくすると、ステップ数が徐々に上がっていく
∵ 反復するセグメントを生成して削除しやすくなる
→ 𝑞𝑞 は大きすぎてはいけない
3. 𝑞𝑞 > 0.7 の場合、Rep が大幅に増加
∵ 疑似反復セグメントがランダムに構築され、基礎
の変換を学習するのが困難になる
4. 𝑞𝑞 = 0.5 で最高性能 → 実験設定は 𝑞𝑞 = 0.5
Effect of Segment Deletion Mechanism
𝑞𝑞: 各学習インスタンス時に擬似反復セグメントを
挿入する確率

30
Experiments
30
• RecoverSAT が NAT を大幅に上回り、すべて
の長さの範囲で、Transformerに匹敵する性能
Performance over Sentence Lengths

31
Experiments
31
forced
強制的にトークンを
挿入したもの
repeat
反復的なトークン
drop
欠落しているトークン
DEL segment
削除するセグメント
[N]
各セグメントの開始
Case Study
WMT14 De-En validation set

32
Experiments
32
forced
挿入したもの
repeat
drop
DEL segment
[N]
Case Study
1. NAT ではトークンの反復と欠落というマルチモダリティ問題が発生しているが
RecoverSAT では効果的に緩和

33
Experiments
33
forced
挿入したもの
repeat
drop
DEL segment
[N]
Case Study
2. 目的側の文脈を利用して動的にセグメント長を決定し、
トークンが繰り返し発生するエラーから回復している

34
Experiments
34
forced
挿入したもの
repeat
drop
DEL segment
[N]
Case Study
2. 目的側の文脈を利用して動的にセグメント長を決定し、
トークンが欠落するエラーから回復している

35
Conclusion
結論
35

36
Conclusion
36
• Multi-modality 問題を軽減するための新しい半自己回帰モデル RecoverSAT を提案
• セグメントを非自己回帰的に生成して変換を実行
• セグメント内のトークンを自己回帰的に予測
• セグメントの長さを動的に決定することにより、トークンの欠落エラーから回復し、トークンの反復エラーを減少
• 反復的なセグメントを明示的に検出して削除することにより、トークンの反復エラーから回復
• 3つの広く使用されているベンチマークデータセットでの実験では、ATモデルと比較して、4倍以上のデコード速
度で同等のパフォーマンスを維持

2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation

Recommended

Recommended

More Related Content

Similar to 2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation

Similar to 2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation (20)

More from 広樹本間

More from 広樹本間 (11)