SlideShare a Scribd company logo
1 of 36
東京大学 大学院情報理工学系研究科
創造情報学専攻 准教授
中山 英樹
 テキスト生成のアプローチ:自己回帰型と非自己回帰型
 非自己回帰型モデルの研究例
 ICLR 2020 関連論文紹介
 まとめ
2
Acknowledgment: Some materials in this slide are adapted from Raphael Shu’s slides
 機械翻訳
 質問応答
 対話応答
 要約生成
 画像/動画像キャプショニング
3
https://headline.okazakilab.org/
https://support.apple.com
/ja-jp/HT204389
https://www.amazon.co.jp
/dp/B00X4WHP5E https://robo.meicom.jp/use/first.html
[Vinyals et al., 2015]
吾輩は猫である I am a cat
MT Model
𝑝𝑝 𝑌𝑌|𝑋𝑋
sample
4
𝑌𝑌 = 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇𝑋𝑋 = 𝑥𝑥1, 𝑥𝑥2, ⋯ , 𝑥𝑥𝑇𝑇′
 入力系列から出力系列を予測する問題(sequence to sequence)
 条件付き確率を表す確率モデルの学習(多くは教師付き学習)
𝑝𝑝 𝑌𝑌|𝑋𝑋 = 𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
 条件付き同時確率を左から右方向にかけて分解(ベイズルール)
5
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑝𝑝𝜃𝜃 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
= �
𝑡𝑡
𝑇𝑇
𝑝𝑝𝜃𝜃 𝑦𝑦𝑡𝑡|𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
(𝑝𝑝 𝑦𝑦1|𝑋𝑋 for 𝑡𝑡 = 1)
𝑋𝑋 =“吾輩は猫である”
𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1 = “I am a”
𝑦𝑦𝑡𝑡 = ?
Neural MT
 条件付き同時確率を左から右方向にかけて分解(ベイズルール)
6
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑝𝑝𝜃𝜃 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
= �
𝑡𝑡
𝑇𝑇
𝑝𝑝𝜃𝜃 𝑦𝑦𝑡𝑡|𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
(𝑝𝑝 𝑦𝑦1|𝑋𝑋 for 𝑡𝑡 = 1)
𝑋𝑋 =“吾輩は猫である”
𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1 = “I am a”
word
apple
burger
cat
dog
frog
rice
pen
horse
…
0.05
0.02
0.80
0.03
0.01
0.06
0.09
0.01
…
𝑝𝑝 𝑦𝑦𝑡𝑡|𝑦𝑦1,⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
 深層学習の発展により、非常に優れた性能を発揮するように
7Transformer
RNN (LSTM)
[Vaswani+, 2017]
[Sutskever+, 2014]
 厳密な最適解の探索は不可能(NP困難)
 頭から一つずつ単語を予測し、各ステップで事後確率を
最大とする答をとっていく(greedy search)
◦ 実用的には、beam searchにより動的に各ステップで複数の候
補を残しながら探索
8
 問題:並列化が困難
◦ 各ステップの処理が、前のステップの結果に依存するため
◦ GPUの恩恵を生かせない
◦ なお、Transformerなどのfeedfowardモデルであれば学習時は並列化で
きるが、テスト時はやはり不可能。また、学習時とテスト時のドメインシ
フトという別の問題も生じる
9
 自己回帰型モデル
10
 非自己回帰型モデル
◦ 全ての単語を一斉に(並列に)出力
することは可能か?
𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
?
 自己回帰型モデル(AR)
11
𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋 ≅ �
𝑡𝑡
𝑇𝑇
𝑝𝑝 𝑦𝑦𝑡𝑡|𝑋𝑋
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑦𝑦2𝑦𝑦1 𝑦𝑦3 𝑦𝑦4
𝑋𝑋
𝑝𝑝 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇|𝑋𝑋
= �
𝑡𝑡
𝑇𝑇
𝑝𝑝 𝑦𝑦𝑡𝑡|𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1, 𝑋𝑋
 非自己回帰型モデル(NAR)
◦ 並列な単語予測が可能
◦ 一般に、性能はARモデルより劣る
◦ 同じ単語の繰り返しが起きやすい
◦ 複数のモードの混在が起きやすい
 モード: 文の代表的な「型」
 非自己回帰型のモデルでうまくいっている?
 低解像度の特徴マップからの
アップサンプリング
◦ 階層的な潜在表現になっている
◦ 全体のラフな構造を先に決定し、
徐々にローカルな部分を決めていく
12
生成ネットワーク識別ネットワーク
PGGAN [Karras et al., ICLR 2018]
生成された画像の例 (PGGAN)
 何を潜在変数にとるか?
◦ 文の大域的構造をうまく捉えた表現が必要
◦ テキストは可変長なのも厄介
 周辺化計算の近似(特に推論時)
◦ あまり時間がかかっては意味がない
13
𝑝𝑝 𝑌𝑌|𝑋𝑋 = � 𝑝𝑝 𝑌𝑌|𝑋𝑋, 𝑍𝑍 𝑝𝑝(𝑍𝑍|𝑋𝑋)
≥ 𝑝𝑝 𝑌𝑌|𝑋𝑋, ̂𝑍𝑍 𝑝𝑝( ̂𝑍𝑍|𝑋𝑋)
どうやって求める?(推論アルゴリズム)
𝑋𝑋
𝑌𝑌
𝑍𝑍
 テキスト生成のアプローチ:自己回帰型と非自己回帰型
 非自己回帰型モデルの研究例
 ICLR 2020 関連論文紹介
 まとめ
14
 Transformer ベース
 ソースの各単語の生産性(fertility)を潜在変数と考える
◦ デコーダへの入力にコピーする回数
 出力文長を推定しつつ、ラフなアラインメントをとる
15Gu et al., NON-AUTOREGRESSIVE NEURAL MACHINE TRANSLATION, ICLR 2018.
普通の (non-causal)
self-attention
𝑋𝑋
𝑌𝑌
𝑍𝑍
𝑍𝑍で条件づけられた𝑋𝑋
 出力を再帰的に入力し、結果をrefinementしていく
◦ 潜在変数を出力の空間に定義していると解釈できる(初回以外)
◦ EMアルゴリズムの要領
16
Lee, Mansimov, and Cho, “Deterministic Non-Autoregressive Neural Sequence Modeling
By Iterative Refinement”, EMNLP 2018.
二回目以降の
デコード
一回目の
デコード
出力長予測
予測した長さに合わ
せて入力をコピー
 穴埋め [Ghazvininejad et al., EMNLP 2019][Lawrence et al., EMNLP 2019]
◦ 自信のない部分にマスクをかけ、繰り返しながら埋めていく
17
Mask-Predict [Ghazvininejad et al., EMNLP 2019]
 編集操作(挿入・削除など)[Stern et al., ICML 2019][Welleck et al.,
ICML 2019] [Gu et al., TACL 2019][Gu et al., NeurIPS 2019]
◦ 動的に出力文のサイズを調整しつつ編集
Insertion Transformer [Stern et al., ICML 2019]
 よりデータドリブンで低次元な潜在表現の導出
 期待される効果
◦ 出力文のスケッチとして優れた表現が得られる
◦ 推論時における入力からの予測や、refinementが容易
18
log 𝑝𝑝 𝑦𝑦|𝑥𝑥
≥ 𝔼𝔼𝑞𝑞 𝜙𝜙 𝑧𝑧|𝑦𝑦,𝑥𝑥 log 𝑝𝑝𝜃𝜃 𝑦𝑦|𝑧𝑧, 𝑥𝑥 − KL 𝑞𝑞𝜙𝜙 𝑧𝑧|𝑦𝑦, 𝑥𝑥 || 𝑝𝑝𝜃𝜃 𝑧𝑧|𝑥𝑥
変分下限(ELBO)
approximate
posterior
priordecoder
𝜃𝜃𝜙𝜙
refinementに活用
 [Kaiser et al., 2018][Roy et al., 2018]
◦ posterior: VQ-VAEにより𝑥𝑥, 𝑦𝑦から離散潜在変数𝑧𝑧の系列を生成 (訓練時のみ)
◦ prior: Transformerにより𝑥𝑥から𝑧𝑧を予測
◦ decoder: Transformerにより𝑥𝑥, 𝑧𝑧から𝑦𝑦を予測
◦ 各関数は独立に学習(すなわち、全体の尤度最大化には直接結びつかない)
 FlowSeq [Ma et al., 2019]
◦ Generative flowを使った変分学習
◦ 潜在変数のrefinementはしていない(やろうと思えばできるはず)
19
Roy et al., Theory and Experiments on Vector Quantized Autoencoders, arXiv preprint
arXiv:1805.11063, 2018.
Kaiser et al., Fast Decoding in Sequence Models using Discrete Latent Variables, ICML 2018.
Ma et al., FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow,
EMNLP 2019.
 連続潜在変数によりターゲットの情報を表現
 ELBOを最大化するend-to-endな学習
20
入力文の単語数と同数からなる
連続潜在変数の系列を生成
approximate
posterior
priordecoder length
predictor
Shu et al., Latent-Variable Non-Autoregressive Neural Machine Translation with Deterministic
Inference Using a Delta Posterior, AAAI 2020.
decoder
length predictor
approximate posteriorprior
 Transformerで各関数を構築
(length predictor以外)
21
デコード時に潜在変数の
系列長を変換
Gaussian
(reparameterization
trickを適用)
Shu et al., Latent-Variable Non-Autoregressive Neural Machine Translation with Deterministic
Inference Using a Delta Posterior, AAAI 2020.
 潜在変数の系列長 𝑧𝑧 は入力の単語数 𝑥𝑥 に等しい
→ 必ずしもターゲットの単語数 𝑦𝑦 とは一致しない!
 デコード時に、位置に基づくアテンションによ
り潜在変数の系列を長さ 𝑦𝑦 へ変換する
◦ テスト時は予測された系列長𝑙𝑙𝑦𝑦を用いる
22
 推論は厳密にはモンテカルロ積分が必要
× 計算コストが大きい、毎回結果が変わる
 Priorの平均のみで代替
◦ 分布の代表として(直感的には)妥当、決定的に計算可能
23
𝑝𝑝 𝑦𝑦|𝑥𝑥 = � 𝑝𝑝 𝑦𝑦|𝑥𝑥, 𝑧𝑧 𝑝𝑝(𝑧𝑧|𝑥𝑥)
≥ 𝑝𝑝 𝑦𝑦|𝑥𝑥, ̂𝑧𝑧 𝑝𝑝( ̂𝑧𝑧|𝑥𝑥)
𝑧𝑧0 = 𝜇𝜇prior
𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧0
decoder
 問題:priorの平均が予測に有用な点とは限らない
 探索が必要だが、計算回数は増やしたくない
24
decoder
𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧0
𝑧𝑧0 = 𝜇𝜇prior
 q関数(posterior)に出力結果を再帰的に入力してzの代表点を更新
◦ q関数の平均を利用(=q関数としてデルタ関数を代替利用)
◦ 近似の下で、ELBOを単調増加させることを保証
25
𝑧𝑧0 = 𝜇𝜇prior
𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧0
𝑦𝑦0
𝑞𝑞𝜙𝜙 𝑧𝑧|𝑥𝑥, 𝑦𝑦0𝑝𝑝𝜃𝜃 𝑦𝑦|𝑥𝑥, 𝑧𝑧1𝑦𝑦1
𝑞𝑞𝜙𝜙 𝑧𝑧|𝑥𝑥, 𝑦𝑦1
argmax
mean
mean
argmax
 データセット
◦ ASPEC Japanese-English translation (3M pairs)
◦ WMT’14 English-German translation (4.5M pairs)
 自己回帰型モデルには劣るが、潜在変数のrefinementにより
顕著な性能向上
26
ARモデル
(ベースライン)
潜在変数の
refinementを
行う場合
p(z|x)から複数の
z(シード)をサンプ
リングした場合
 それぞれの研究における、ベースラインARモデルに対する相対的
な性能変化・速度向上を比較
27
 RefinementによりELBO、BLEU値ともに向上
 多くの場合、BLEU値は一回の更新で頭打ちに
28
BLEU Ja-En
BLEU En-De
ELBO En-De
ELBO Ja-En
 Refinementはどんな場合でもpriorが与える z よりも精度 (BLEU)
を向上させるのだろうか?
 Reference (答)の y を入れた q(z|x,y) から得られるオラクルと線形
補完した初期値でrefinementの効果を経験的に評価
29
オラクルprior
右に行くほどより良い潜在変数
refinement なし
refinement あり
 長さに変更なしの例
 単語を除去した例
 単語を挿入した例
30
 特定のソース単語に対応する潜在変数をランダムにサンプリング
してみる
 潜在変数は、対応する単語や語句の翻訳結果を捉えている
◦ バリエーションを分布として表現
 多少entangleはしている
31
 テキスト生成のアプローチ:自己回帰型と非自己回帰型
 非自己回帰型モデルの研究例
 ICLR 2020 関連論文紹介
 まとめ
32
 自己回帰型モデルからのknowledge distillationが必須
◦ ターゲットを自己回帰型モデルの出力に置き換えた新しいデータ
セットで非自己回帰型モデルを訓練
 仮説
◦ 自己回帰型モデルによる出力がターゲットのmodeを減らし、デー
タセットの複雑度を下げているのではないか?
◦ 結果として、NARモデルが苦手とするmultimodality問題を緩和?
33
 人工データ(多言語機械翻訳)を使った検証
◦ 各言語を一つのmodeと解釈し、翻訳文の各modeらしさを単語ベースに算出
◦ ATモデルの出力はmodeの多様性を低減させている
 通常のMTでも、大きなARモデルほど、変換後のデータセットの複雑度
(conditional entropy) が増す
34
Zhou et al., UNDERSTANDING KNOWLEDGE DISTILLATION IN NON-AUTOREGRESSIVE MACHINE
TRANSLATION, ICLR 2020.
 キャパシティの大きなNARモデルほど、大きなARモデルから知識
蒸留した方が性能がでる
◦ つまり、複雑度の大きいデータセットから学習したほうがよい
35
Capacity of
NAR models
Zhou et al., UNDERSTANDING KNOWLEDGE DISTILLATION IN NON-AUTOREGRESSIVE MACHINE
TRANSLATION, ICLR 2020.
 非自己回帰型(NAR)テキスト生成モデル
◦ 速度を重視した近似的なアプローチ
◦ 今のところ精度はARモデルに劣る
◦ 潜在変数(表現)をどのように設計するかが大事
 実用的には潜在変数のrefinementが重要
◦ 出力結果を再帰的に入力(この点は結局ARモデルに似ている)
◦ 出力全体を入力し、全体を一度に更新
 ARモデルからの知識蒸留が現在は必須
◦ データセットのmodeを減らし、NARモデルで学習しやすくさせる
◦ モデルに応じたデータのcomplexityを考えるのが重要
 今後の(個人的な)展望
◦ いずれNARモデルがARモデルを上回るのではないか?
◦ 単にキャパシティの大きなモデルを使えばよいというオチになるかも?
36

More Related Content

What's hot

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 

What's hot (20)

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Similar to Non-autoregressive text generation

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27Kensuke Mitsuzawa
 
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性Takahiro Katagiri
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Yuto Takei
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化Akisato Kimura
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704RCCSRENKEI
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 

Similar to Non-autoregressive text generation (20)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
Interop2017
Interop2017Interop2017
Interop2017
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 

More from nlab_utokyo

画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向nlab_utokyo
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 
2020年度 東京大学中山研 研究室紹介
2020年度 東京大学中山研 研究室紹介2020年度 東京大学中山研 研究室紹介
2020年度 東京大学中山研 研究室紹介nlab_utokyo
 
マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例nlab_utokyo
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会nlab_utokyo
 
Machine Translation Introduction
Machine Translation IntroductionMachine Translation Introduction
Machine Translation Introductionnlab_utokyo
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介nlab_utokyo
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
Lab introduction 2014
Lab introduction 2014Lab introduction 2014
Lab introduction 2014nlab_utokyo
 
SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2nlab_utokyo
 

More from nlab_utokyo (18)

画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 
2020年度 東京大学中山研 研究室紹介
2020年度 東京大学中山研 研究室紹介2020年度 東京大学中山研 研究室紹介
2020年度 東京大学中山研 研究室紹介
 
マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
Machine Translation Introduction
Machine Translation IntroductionMachine Translation Introduction
Machine Translation Introduction
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
ISM2014
ISM2014ISM2014
ISM2014
 
RecSysTV2014
RecSysTV2014RecSysTV2014
RecSysTV2014
 
20150930
2015093020150930
20150930
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
MIRU2014 SLAC
MIRU2014 SLACMIRU2014 SLAC
MIRU2014 SLAC
 
Lab introduction 2014
Lab introduction 2014Lab introduction 2014
Lab introduction 2014
 
SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2
 
ICME 2013
ICME 2013ICME 2013
ICME 2013
 
Seminar
SeminarSeminar
Seminar
 

Recently uploaded

20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 

Recently uploaded (8)

20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 

Non-autoregressive text generation