東京大学 大学院情報理工学系研究科
創造情報学専攻 准教授
中山 英樹
 テキスト生成のアプローチ:自己回帰型と非自己回帰型
 非自己回帰型モデルの研究例
 ICLR 2020 関連論文紹介
 まとめ
2
Acknowledgment: Some materials in this slide are adapted from Raphael Shu’s slides
 機械翻訳
 質問応答
 対話応答
 要約生成
 画像/動画像キャプショニング
3
https://headline.okazakilab.org/
https://support.apple.com
/ja-jp/HT204389
https://www.amazon.co.jp
/dp/B00X4WHP5E https://robo.meicom.jp/use/first.html
[Vinyals et al., 2015]
吾輩は猫である I am a cat
MT Model
𝑝𝑝 𝑌𝑌|𝑋𝑋
sample
4
𝑌𝑌 = 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇𝑋𝑋 = 𝑥𝑥1, 𝑥𝑥2, ⋯ , 𝑥𝑥𝑇𝑇′
 入力系列から出力系列を予測する問題(sequence to sequence)
 条件付き確率を表す確率モデルの学習(多くは教師付き学習)
𝑝𝑝 𝑌𝑌|𝑋𝑋 = 𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
 条件付き同時確率を左から右方向にかけて分解(ベイズルール)
5
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑝𝑝𝜃𝜃 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
= �
𝑡𝑡
𝑇𝑇
𝑝𝑝𝜃𝜃 𝑦𝑦𝑡𝑡|𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
(𝑝𝑝 𝑦𝑦1|𝑋𝑋 for 𝑡𝑡 = 1)
𝑋𝑋 =“吾輩は猫である”
𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1 = “I am a”
𝑦𝑦𝑡𝑡 = ?
Neural MT
 条件付き同時確率を左から右方向にかけて分解(ベイズルール)
6
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑝𝑝𝜃𝜃 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
= �
𝑡𝑡
𝑇𝑇
𝑝𝑝𝜃𝜃 𝑦𝑦𝑡𝑡|𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
(𝑝𝑝 𝑦𝑦1|𝑋𝑋 for 𝑡𝑡 = 1)
𝑋𝑋 =“吾輩は猫である”
𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1 = “I am a”
word
apple
burger
cat
dog
frog
rice
pen
horse
…
0.05
0.02
0.80
0.03
0.01
0.06
0.09
0.01
…
𝑝𝑝 𝑦𝑦𝑡𝑡|𝑦𝑦1,⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
 深層学習の発展により、非常に優れた性能を発揮するように
7Transformer
RNN (LSTM)
[Vaswani+, 2017]
[Sutskever+, 2014]
 厳密な最適解の探索は不可能(NP困難)
 頭から一つずつ単語を予測し、各ステップで事後確率を
最大とする答をとっていく(greedy search)
◦ 実用的には、beam searchにより動的に各ステップで複数の候
補を残しながら探索
8
 問題:並列化が困難
◦ 各ステップの処理が、前のステップの結果に依存するため
◦ GPUの恩恵を生かせない
◦ なお、Transformerなどのfeedfowardモデルであれば学習時は並列化で
きるが、テスト時はやはり不可能。また、学習時とテスト時のドメインシ
フトという別の問題も生じる
9
 自己回帰型モデル
10
 非自己回帰型モデル
◦ 全ての単語を一斉に(並列に)出力
することは可能か?
𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
?
 自己回帰型モデル(AR)
11
𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋 ≅ �
𝑡𝑡
𝑇𝑇
𝑝𝑝 𝑦𝑦𝑡𝑡|𝑋𝑋
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
= �
𝑡𝑡
𝑇𝑇
𝑝𝑝 𝑦𝑦𝑡𝑡|𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
 非自己回帰型モデル(NAR)
◦ 並列な単語予測が可能
◦ 一般に、性能はARモデルより劣る
◦ 同じ単語の繰り返しが起きやすい
◦ 複数のモードの混在が起きやすい
 モード: 文の代表的な「型」
 非自己回帰型のモデルでうまくいっている?
 低解像度の特徴マップからの
アップサンプリング
◦ 階層的な潜在表現になっている
◦ 全体のラフな構造を先に決定し、
徐々にローカルな部分を決めていく
12
生成ネットワーク識別ネットワーク
PGGAN [Karras et al., ICLR 2018]
生成された画像の例 (PGGAN)
 何を潜在変数にとるか?
◦ 文の大域的構造をうまく捉えた表現が必要
◦ テキストは可変長なのも厄介
 周辺化計算の近似(特に推論時)
◦ あまり時間がかかっては意味がない
13
𝑝𝑝 𝑌𝑌|𝑋𝑋 = � 𝑝𝑝 𝑌𝑌|𝑋𝑋, 𝑍𝑍 𝑝𝑝(𝑍𝑍|𝑋𝑋)
≥ 𝑝𝑝 𝑌𝑌|𝑋𝑋, ̂𝑍𝑍 𝑝𝑝( ̂𝑍𝑍|𝑋𝑋)
どうやって求める?(推論アルゴリズム)
𝑋𝑋
𝑌𝑌
𝑍𝑍
 テキスト生成のアプローチ:自己回帰型と非自己回帰型
 非自己回帰型モデルの研究例
 ICLR 2020 関連論文紹介
 まとめ
14
 Transformer ベース
 ソースの各単語の生産性(fertility)を潜在変数と考える
◦ デコーダへの入力にコピーする回数
 出力文長を推定しつつ、ラフなアラインメントをとる
15Gu et al., NON-AUTOREGRESSIVE NEURAL MACHINE TRANSLATION, ICLR 2018.
普通の (non-causal)
self-attention
𝑋𝑋
𝑌𝑌
𝑍𝑍
𝑍𝑍で条件づけられた𝑋𝑋
 出力を再帰的に入力し、結果をrefinementしていく
◦ 潜在変数を出力の空間に定義していると解釈できる(初回以外)
◦ EMアルゴリズムの要領
16
Lee, Mansimov, and Cho, “Deterministic Non-Autoregressive Neural Sequence Modeling
By Iterative Refinement”, EMNLP 2018.
二回目以降の
デコード
一回目の
デコード
出力長予測
予測した長さに合わ
せて入力をコピー
 穴埋め [Ghazvininejad et al., EMNLP 2019][Lawrence et al., EMNLP 2019]
◦ 自信のない部分にマスクをかけ、繰り返しながら埋めていく
17
Mask-Predict [Ghazvininejad et al., EMNLP 2019]
 編集操作(挿入・削除など)[Stern et al., ICML 2019][Welleck et al.,
ICML 2019] [Gu et al., TACL 2019][Gu et al., NeurIPS 2019]
◦ 動的に出力文のサイズを調整しつつ編集
Insertion Transformer [Stern et al., ICML 2019]
 よりデータドリブンで低次元な潜在表現の導出
 期待される効果
◦ 出力文のスケッチとして優れた表現が得られる
◦ 推論時における入力からの予測や、refinementが容易
18
log 𝑝𝑝 𝑦𝑦|𝑥𝑥
≥ 𝔼𝔼𝑞𝑞 𝜙𝜙 𝑧𝑧|𝑦𝑦,𝑥𝑥 log 𝑝𝑝𝜃𝜃 𝑦𝑦|𝑧𝑧, 𝑥𝑥 − KL 𝑞𝑞𝜙𝜙 𝑧𝑧|𝑦𝑦, 𝑥𝑥 || 𝑝𝑝𝜃𝜃 𝑧𝑧|𝑥𝑥
変分下限(ELBO)
approximate
posterior
priordecoder
𝜃𝜃𝜙𝜙
refinementに活用
 [Kaiser et al., 2018][Roy et al., 2018]
◦ posterior: VQ-VAEにより𝑥𝑥, 𝑦𝑦から離散潜在変数𝑧𝑧の系列を生成 (訓練時のみ)
◦ prior: Transformerにより𝑥𝑥から𝑧𝑧を予測
◦ decoder: Transformerにより𝑥𝑥, 𝑧𝑧から𝑦𝑦を予測
◦ 各関数は独立に学習(すなわち、全体の尤度最大化には直接結びつかない)
 FlowSeq [Ma et al., 2019]
◦ Generative flowを使った変分学習
◦ 潜在変数のrefinementはしていない(やろうと思えばできるはず)
19
Roy et al., Theory and Experiments on Vector Quantized Autoencoders, arXiv preprint
arXiv:1805.11063, 2018.
Kaiser et al., Fast Decoding in Sequence Models using Discrete Latent Variables, ICML 2018.
Ma et al., FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow,
EMNLP 2019.
 連続潜在変数によりターゲットの情報を表現
 ELBOを最大化するend-to-endな学習
20
入力文の単語数と同数からなる
連続潜在変数の系列を生成
approximate
posterior
priordecoder length
predictor
Shu et al., Latent-Variable Non-Autoregressive Neural Machine Translation with Deterministic
Inference Using a Delta Posterior, AAAI 2020.
decoder
length predictor
approximate posteriorprior
 Transformerで各関数を構築
(length predictor以外)
21
デコード時に潜在変数の
系列長を変換
Gaussian
(reparameterization
trickを適用)
Shu et al., Latent-Variable Non-Autoregressive Neural Machine Translation with Deterministic
Inference Using a Delta Posterior, AAAI 2020.
 潜在変数の系列長 𝑧𝑧 は入力の単語数 𝑥𝑥 に等しい
→ 必ずしもターゲットの単語数 𝑦𝑦 とは一致しない!
 デコード時に、位置に基づくアテンションによ
り潜在変数の系列を長さ 𝑦𝑦 へ変換する
◦ テスト時は予測された系列長𝑙𝑙𝑦𝑦を用いる
22
 推論は厳密にはモンテカルロ積分が必要
× 計算コストが大きい、毎回結果が変わる
 Priorの平均のみで代替
◦ 分布の代表として(直感的には)妥当、決定的に計算可能
23
𝑝𝑝 𝑦𝑦|𝑥𝑥 = � 𝑝𝑝 𝑦𝑦|𝑥𝑥, 𝑧𝑧 𝑝𝑝(𝑧𝑧|𝑥𝑥)
≥ 𝑝𝑝 𝑦𝑦|𝑥𝑥, ̂𝑧𝑧 𝑝𝑝( ̂𝑧𝑧|𝑥𝑥)
𝑧𝑧0 = 𝜇𝜇prior
𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧0
decoder
 問題:priorの平均が予測に有用な点とは限らない
 探索が必要だが、計算回数は増やしたくない
24
decoder
𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧0
𝑧𝑧0 = 𝜇𝜇prior
 q関数(posterior)に出力結果を再帰的に入力してzの代表点を更新
◦ q関数の平均を利用(=q関数としてデルタ関数を代替利用)
◦ 近似の下で、ELBOを単調増加させることを保証
25
𝑧𝑧0 = 𝜇𝜇prior
𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧0
𝑦𝑦0
𝑞𝑞𝜙𝜙 𝑧𝑧|𝑥𝑥, 𝑦𝑦0𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧1𝑦𝑦1
𝑞𝑞𝜙𝜙 𝑧𝑧|𝑥𝑥, 𝑦𝑦1
argmax
mean
mean
argmax
 データセット
◦ ASPEC Japanese-English translation (3M pairs)
◦ WMT’14 English-German translation (4.5M pairs)
 自己回帰型モデルには劣るが、潜在変数のrefinementにより
顕著な性能向上
26
ARモデル
(ベースライン)
潜在変数の
refinementを
行う場合
p(z|x)から複数の
z(シード)をサンプ
リングした場合
 それぞれの研究における、ベースラインARモデルに対する相対的
な性能変化・速度向上を比較
27
 RefinementによりELBO、BLEU値ともに向上
 多くの場合、BLEU値は一回の更新で頭打ちに
28
BLEU Ja-En
BLEU En-De
ELBO En-De
ELBO Ja-En
 Refinementはどんな場合でもpriorが与える z よりも精度 (BLEU)
を向上させるのだろうか?
 Reference (答)の y を入れた q(z|x,y) から得られるオラクルと線形
補完した初期値でrefinementの効果を経験的に評価
29
オラクルprior
右に行くほどより良い潜在変数
refinement なし
refinement あり
 長さに変更なしの例
 単語を除去した例
 単語を挿入した例
30
 特定のソース単語に対応する潜在変数をランダムにサンプリング
してみる
 潜在変数は、対応する単語や語句の翻訳結果を捉えている
◦ バリエーションを分布として表現
 多少entangleはしている
31
 テキスト生成のアプローチ:自己回帰型と非自己回帰型
 非自己回帰型モデルの研究例
 ICLR 2020 関連論文紹介
 まとめ
32
 自己回帰型モデルからのknowledge distillationが必須
◦ ターゲットを自己回帰型モデルの出力に置き換えた新しいデータ
セットで非自己回帰型モデルを訓練
 仮説
◦ 自己回帰型モデルによる出力がターゲットのmodeを減らし、デー
タセットの複雑度を下げているのではないか?
◦ 結果として、NARモデルが苦手とするmultimodality問題を緩和?
33
 人工データ(多言語機械翻訳)を使った検証
◦ 各言語を一つのmodeと解釈し、翻訳文の各modeらしさを単語ベースに算出
◦ ATモデルの出力はmodeの多様性を低減させている
 通常のMTでも、大きなARモデルほど、変換後のデータセットの複雑度
(conditional entropy) が増す
34
Zhou et al., UNDERSTANDING KNOWLEDGE DISTILLATION IN NON-AUTOREGRESSIVE MACHINE
TRANSLATION, ICLR 2020.
 キャパシティの大きなNARモデルほど、大きなARモデルから知識
蒸留した方が性能がでる
◦ つまり、複雑度の大きいデータセットから学習したほうがよい
35
Capacity of
NAR models
Zhou et al., UNDERSTANDING KNOWLEDGE DISTILLATION IN NON-AUTOREGRESSIVE MACHINE
TRANSLATION, ICLR 2020.
 非自己回帰型(NAR)テキスト生成モデル
◦ 速度を重視した近似的なアプローチ
◦ 今のところ精度はARモデルに劣る
◦ 潜在変数(表現)をどのように設計するかが大事
 実用的には潜在変数のrefinementが重要
◦ 出力結果を再帰的に入力(この点は結局ARモデルに似ている)
◦ 出力全体を入力し、全体を一度に更新
 ARモデルからの知識蒸留が現在は必須
◦ データセットのmodeを減らし、NARモデルで学習しやすくさせる
◦ モデルに応じたデータのcomplexityを考えるのが重要
 今後の(個人的な)展望
◦ いずれNARモデルがARモデルを上回るのではないか?
◦ 単にキャパシティの大きなモデルを使えばよいというオチになるかも?
36

Non-autoregressive text generation