More Related Content Similar to 2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation (20) 2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressive_neural_machine_translation1. マスター タイトルの書式設定
1
Parallel Iterative Edit Models for
Local Sequence Transduction
A b h i j e e t A w a s t h i , S u n i t a S a r a w a g i , R a s n a G o ya l ,
S a b ya s a c h i G h o s h , V i h a r i P i r a t l a
I n t r o d u c e r : H i r o k i H o m m a , i n K o m a c h i ’s l a b .
A u g u s t 6 t h , 2 0 2 0
5. マスター タイトルの書式設定
5
Keyword
5
• マルチモダリティエラー
• NMTの出力には複数の可能性
• NATは各トークンを独立して出力
別々の可能性に対する出力がさ
れてしまうことで、文全体としてお
かしなことに
トークンの反復(Trans. 1)
トークンの欠落(Trans. 2)
この問題はNATの翻訳品質に悪
影響を与える
Multi-Modality Error
問題例
7. マスター タイトルの書式設定
7
Abstract
7
• 問題 : NAT におけるマルチモダリティ問題
• 解決策 : 半自己回帰モデルである RecoverSAT を提案
• 翻訳を複数のセグメントとして生成
• 「セグメントにおけるトークンごとの予測」を全セグメントで同時に行う
• セグメント長を動的に決定
• 反復セグメントを削除
• 結果 : AT モデルと同等の性能を維持しつつ、4倍以上の高速化
11. マスター タイトルの書式設定
11
Method
11
• 𝐾𝐾 個のセグメント(部分系列)により生成されると仮定
• 問題点
• セグメントの長さをどうやって決定するか
• セグメントを削除すべきかをどうやって決定するか
RecoverSAT - Overview
タイムステップごとに 𝑉𝑉 ∪ EOS, DEL の要素を出力
• ∈ 𝑉𝑉 : セグメントの出力を続行
• = EOS :セグメントの出力を終了
• = DEL :セグメントの出力を終了、セグメントを削除
𝑉𝑉 : 語彙集合
16. マスター タイトルの書式設定
16
混合焼きなまし分割戦略 を提案
Method
16
• しかしながら、妥当な高速化を維持しながら、前述の動作をするようにモデルを学習するのは簡単でない
• 一方では、RecoverSAT モデルのデコード時間はセグメントの最大長に比例するため、学習事例の目的文を同じ長
さのセグメントに分割し、モデルが同じ長さのセグメントを生成するようにすべき (高速にデコードしたい)
• 他方では、モデルはマルチモダリティ関連エラーから回復する能力を高めるために、このエラーにさらされる必要がある
(エラー回復能力を備えたい)
Dynamic Termination Mechanism
19. マスター タイトルの書式設定
19
Method
19
• 疑似反復セグメントを挿入
• 目的文を 𝐾𝐾 分割させたい場合
1. 𝐾𝐾 − 1 セグメントに分割
2. ランダムにセグメントを選択
3. セグメントの最初の 𝑚𝑚 トークンと DEL を右側に複製 (𝑚𝑚 は一様にランダム)
• すべての文に疑似反復セグメントを入れると、モデルが「必ず反復セグメントを出力し、削除する」ことを学習し
てしまうので、確率 𝑞𝑞 で挿入
• 𝑞𝑞 は 0.5 のとき BLEU が最大だったため、実験時は 0.5
Segment Deletion Mechanism
21. マスター タイトルの書式設定
21
Experiments
21
• IWSLT16 En-De (196k pairs)
• WMT14 En-De (4.5M pairs)
• WMT16 En-Ro (610k pairs)
• 公平な比較のため Leeら (2018) の前処理済みデータセットを使用
• トークン化
• BPE(共有、40k)
• validation/test sets (IWSLT16, WMT14, WMT16)
• newstest-2013/newstest-2014, newsdev-2016/newstest-2016, test2013
Datasets
22. マスター タイトルの書式設定
22
Experiments
22
• モデルのハイパラは先行研究に従う
• 蒸留
• 学習データセットの目的文を自己回帰モデルによって生成された文に置き換え
• 対応する自己回帰モデルのエンコーダを使用してRecoverSATのエンコーダを初期化
• ソースとターゲットのパラメタ共有
• embedding layers
• pre-softmax linear layer
• バッチサイズ1にして、NVIDIA P40 GPU 1枚で推論速度を計測
Experimental Settings
28. マスター タイトルの書式設定
28
Experiments
28
1. Dynamic Termination Mechanism
・ トークンの反復・欠落エラー ↓
・ BLEU ↑ <機構が有用>
2. p→大:最長のセグメント長が長くなる
デコードの平均ステップ数 ↑↑
p→小:Multi-Modality 問題からの
回復を学習できない
BLEUスコア ↓↓
3. 焼きなまし分割戦略
・ デコード速度と翻訳品質のバランス◯
Effect of Dynamic Termination Mechanism
• Rep, Mis: 反復トークン、欠落トークンの比率の相対増分 (%)
• 𝑝𝑝 = 1: ランダムな文区切りのみで学習
• 𝑝𝑝 = 0: 均等な文区切りのみで学習
IWSLT16 En-De validation set
29. マスター タイトルの書式設定
29
Experiments
29
1. 使用しない場合(𝑞𝑞 = 0)、BLEUが大きく下がり、
Rep は増える
→ この機構はトークンの反復の回復に効果的
2. 𝑞𝑞 を大きくすると、ステップ数が徐々に上がっていく
∵ 反復するセグメントを生成して削除しやすくなる
→ 𝑞𝑞 は大きすぎてはいけない
3. 𝑞𝑞 > 0.7 の場合、Rep が大幅に増加
∵ 疑似反復セグメントがランダムに構築され、基礎
の変換を学習するのが困難になる
4. 𝑞𝑞 = 0.5 で最高性能 → 実験設定は 𝑞𝑞 = 0.5
Effect of Segment Deletion Mechanism
𝑞𝑞: 各学習インスタンス時に擬似反復セグメントを
挿入する確率
IWSLT16 En-De validation set
36. マスター タイトルの書式設定
36
Conclusion
36
• Multi-modality 問題を軽減するための新しい半自己回帰モデル RecoverSAT を提案
• セグメントを非自己回帰的に生成して変換を実行
• セグメント内のトークンを自己回帰的に予測
• セグメントの長さを動的に決定することにより、トークンの欠落エラーから回復し、トークンの反復エラーを減少
• 反復的なセグメントを明示的に検出して削除することにより、トークンの反復エラーから回復
• 3つの広く使用されているベンチマークデータセットでの実験では、ATモデルと比較して、4倍以上のデコード速
度で同等のパフォーマンスを維持