Autoregressive Diffusion
Models
CAD DTU 技統支援T
奥井 恒
2022/07/15
©2022 ARISE analytics Reserved.
ICLR2022論文読み会
Introduction
©2022 ARISE analytics Reserved
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 2
自己回帰モデルと拡散モデルを一般化したモデル。
性能を大幅に低下させることなく、同時に複数のトークンを生成するために
並列化することができる。
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 3
今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ
ルを同時に生成できる。
ARDMによる生成プロ
セス
この論文の位置づけ
©2022 ARISE analytics Reserved. 4
※正確には、OA-ARM, Discrete Diffusion model を一般化
ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※
Autoregressive Diffusion Model
• Autoregressive Model を改善
• 順序に依存しない
• Diffusion Model を効率化
• 少ないステップで同程度の精度を担保
Generative Model
Deep Generative Model
VAE
GAN
Flow
Autoregressive Model
Diffusion Model
生成モデル (Generative models)
©2022 ARISE analytics Reserved. 5
※ 参考(A.L.Yullie et.al, 2006)
生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ
を生成することができるモデル
学習データの背後にある確率分布を推定し獲得する。
学習対象のデータ分
布
生成モデルの確率分布
近づける
:学習データ
使い道の例
生成モデル
対象ドメインのデータを生成
• 画像、音声、化合物を生成する
• シミュレーターを作る
対象ドメインのデータを生成
• 生成された候補が正しいか評価できる
• 異常検知に利用する
データを詳細に解析
• Analysis by Synthesis(生成による解析)※
• 認識モデルの汎化性能を向上
深層生成モデル (Deep generative models)
©2022 ARISE analytics Reserved. 6
表は「ディープラーニングを支える技術2」から引用
ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が
高く、複雑な生成対象を扱うことができる。
①抽象化表
現が得られ
る
②尤度が評
価できる
③学習が安
定している
④高忠実な
生成ができ
る
⑤高速に
生成できる
VAE 〇 △(下限) 〇 △ 〇
GAN △ × × 〇 〇
Flow △ 〇 △ △ 〇
ARM × 〇 〇 〇 ×
DM △ 〇 〇 〇 ×
①抽象化表現が得られる
データを要約したような表現ができるか
②尤度が評価できる
尤度(もしくは下限)を表現できるか
③学習が安定している
学習が常に成功するか、ハイパーパラメー
タの調整が難しくないか
④高忠実な生成ができる
元のデータに高忠実な生成できるか
⑤高速に生成できる
対象ドメインのデータを高速に生成できる
か
VAE, GAN, Flow
©2022 ARISE analytics Reserved. 7
VAE、GAN、Flowモデルは以下のような構造。
詳細はそのほかの資料をご参考ください。
日本語の記事もある。
Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
自己回帰モデル (Autoregressive models)
©2022 ARISE analytics Reserved. 8
※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい
る。
推論の並列化を行う研究もある (参考)
自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを
次々と出力するようなモデル
𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑
= 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1
=
𝑖=1
𝑑
𝑝(𝑥𝑖|𝑥<𝑖)
複雑な同時確立を条件付き確率として
表し、各条件付き確率をモデル化する
例
• GPT3(自然言語)
• WaveNet(音声合成)
メリッ
ト
デメ
リット
• 精度が良い(VAEや正規化フ
ローと比較して、尤度が高く出
ている)
• データを生成する順番を事前に
指定する必要がある。
• 生成が遅い※ (各次元を一つずつ
逐次的に生成するため)
• 解釈性が低い(潜在因子を見つ
けることはできない:VAE,GAN
では可能)
特徴
概要
拡散モデル (Diffusion models)
©2022 ARISE analytics Reserved. 9
自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。
(拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の
ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する
モデル
• 生成品質が高く、多様なデータ
を生成できる
• 最尤推定で安定して学習できる
(参考)
• 生成に時間がかかる
J.Ho, et.al.(2020) より引用
逆拡散過程
→
←
拡散過程
各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から
𝑥𝑡 へのノイズが加えられたデータが、逆拡
散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる
ようにしていく。
メリッ
ト
デメ
リット
特徴
概要
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 10
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
ARM
DM
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
• データを生成する順番を事前に
指定する必要がある
• 生成が遅い※ (各次元を一つず
つ逐次的に生成するため)
• 生成に時間がかかる
特徴
改善したポイント
ARDMについて
©2022 ARISE analytics Reserved
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 12
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
特徴
ARDMの概要
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
前のページの改善イメージ
©2022 ARISE analytics Reserved. 13
変数の生成
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
ARDMの特徴
ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。
tに関する総和を適切に再重み
付けされた期待値で置き換え
る
Lt項はステップtの尤度成分を表す。
データポイントの全てのLt項を同時に最適化
する必要はない
ランダム順序での変数生成アルゴリズム
©2022 ARISE analytics Reserved. 14
参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube
生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。
サンプルのベクトル
通常は順序に従っ
decode このモデルで
は最初は空
最初の予測機
同時にあらゆ
る変数につい
て分布を予測
その中から
デコードし
たいものを
選ぶ
一つを除いて同じサンプル
(一つはデコード、その他は
空)
同時に全体の
イメージを予
測
その中からデ
コードしたいも
のを選ぶ
第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー
クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
ランダム順序での変数生成の学習アルゴリズム
©2022 ARISE analytics Reserved. 15
ARDM学習ステップを示す。
このステップでは、σ(1)=3を満たすすべての可能な並べ換
えσについて、同時にステップt=2で最適化する。
サンプリングでは、1ステップにつき1つの出力しか使用されてい
ないのに対し、学習ステップではマスクされたすべての次元が同
時に予測される
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 16
Watson et.al. 2021 のアイデアを基にしている
複数変数の分布が同時に生成され、並列化が可能
ARDMの概要
基本的には、xσ(<t)のみを条件としなが
ら、正のkに対するxσ(t+k)に対する分布
が欲しい。
将来の変数の予測と尤度の項との
関係
モデルがどのステップt + kを予測するかは問題
ではなく、期待的にはこれらはすべて同じ関連
尤度を持つ
その結果、順序にとらわれず、t番目の変数から始め
てk個のトークンを独立に生成すると、1ステップで
k・Ltの対数確率の寄与が得られる
(従来のアプローチではk回のステップを要する。)
並列化
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
並列化
©2022 ARISE analytics Reserved. 17
動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを
求めることができる。
動的計画法から抽出された並列化された
方針。同じ高さの成分は同時にモデル化
されるため、並行して推論・生成される。
20ステップの問題に対して、5ステップで並列化ARDMの損失成分
各ステップの個別損失
成分
実験結果
©2022 ARISE analytics Reserved
実験
©2022 ARISE analytics Reserved. 19
少ないステップで同程度の性能が得られている。
NLL : negative-log-likelihood
bpc : bit per character
実験
©2022 ARISE analytics Reserved. 20
画像圧縮で良い性能をだし、音声・画像の性能も確認している。
bpd : bit per dimension
ARDMの限界
©2022 ARISE analytics Reserved. 21
ARDMの限界がいくつか紹介されている。
• めちゃくちゃ精度が良いとは言えない。
• 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ
スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。
• 連続分布はまだ。
• ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定
義可能
• 異なるアーキテクチャがいい場合もある。
• 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の
最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す
る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
まとめ
©2022 ARISE analytics Reserved
まとめ
©2022 ARISE analytics Reserved. 23
自己回帰モデルと拡散モデルを一般化したARDMを紹介した。
• メリット
• ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。
• 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな
く、同時に複数のトークンを生成するために並列化することができる。
• ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が
高い。
• 限界
• 限界もある。
• めちゃくちゃ精度が良いとは言えない。
• 連続分布はまだ。
• 異なるアーキテクチャがいい場合もある
Best Partner for innovation, Best Creator for the future.
References
©2022 ARISE analytics Reserved. 25
• 論文
• Autoregressive Diffusion Models | OpenReview
• コード
• https://openreview.net/pdf?id=Lm8T39vLDTE
• 参考書籍
• ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
関連論文
©2022 ARISE analytics Reserved. 26
• Autoregressive model
• 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011)
• 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.)
• 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.)
• テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.)
• 順序に依存しない
• (Uria et al., 2014)
• Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021)
• 尤度に基づくタスクで限られた成功しか残していない。
• マスク予測法(Ghazvininejad et al., 2019)
• グラフ(Jain et al.,2020)。Liu et al., 2018)
• Diffusion model
• Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020)
• マッチングスコア
• 画像(Dhariwal & Nichol,2021)
• 音声(Chen et al. ,2020; Kong et al. ,2021)
• 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021)
• 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021)
• 離散拡散モデル
• バイナリデータ(Sohl Dickstein ,2015)
• カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021)
• その他の離散拡散過程(Johnson et al. ,2021)

【論文読み会】Autoregressive Diffusion Models.pptx

  • 1.
    Autoregressive Diffusion Models CAD DTU技統支援T 奥井 恒 2022/07/15 ©2022 ARISE analytics Reserved. ICLR2022論文読み会
  • 2.
  • 3.
    Autoregressive Diffusion Model(ARDM) ©2022 ARISE analytics Reserved. 2 自己回帰モデルと拡散モデルを一般化したモデル。 性能を大幅に低下させることなく、同時に複数のトークンを生成するために 並列化することができる。
  • 4.
    Autoregressive Diffusion Model(ARDM) ©2022 ARISE analytics Reserved. 3 今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ ルを同時に生成できる。 ARDMによる生成プロ セス
  • 5.
    この論文の位置づけ ©2022 ARISE analyticsReserved. 4 ※正確には、OA-ARM, Discrete Diffusion model を一般化 ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※ Autoregressive Diffusion Model • Autoregressive Model を改善 • 順序に依存しない • Diffusion Model を効率化 • 少ないステップで同程度の精度を担保 Generative Model Deep Generative Model VAE GAN Flow Autoregressive Model Diffusion Model
  • 6.
    生成モデル (Generative models) ©2022ARISE analytics Reserved. 5 ※ 参考(A.L.Yullie et.al, 2006) 生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ を生成することができるモデル 学習データの背後にある確率分布を推定し獲得する。 学習対象のデータ分 布 生成モデルの確率分布 近づける :学習データ 使い道の例 生成モデル 対象ドメインのデータを生成 • 画像、音声、化合物を生成する • シミュレーターを作る 対象ドメインのデータを生成 • 生成された候補が正しいか評価できる • 異常検知に利用する データを詳細に解析 • Analysis by Synthesis(生成による解析)※ • 認識モデルの汎化性能を向上
  • 7.
    深層生成モデル (Deep generativemodels) ©2022 ARISE analytics Reserved. 6 表は「ディープラーニングを支える技術2」から引用 ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が 高く、複雑な生成対象を扱うことができる。 ①抽象化表 現が得られ る ②尤度が評 価できる ③学習が安 定している ④高忠実な 生成ができ る ⑤高速に 生成できる VAE 〇 △(下限) 〇 △ 〇 GAN △ × × 〇 〇 Flow △ 〇 △ △ 〇 ARM × 〇 〇 〇 × DM △ 〇 〇 〇 × ①抽象化表現が得られる データを要約したような表現ができるか ②尤度が評価できる 尤度(もしくは下限)を表現できるか ③学習が安定している 学習が常に成功するか、ハイパーパラメー タの調整が難しくないか ④高忠実な生成ができる 元のデータに高忠実な生成できるか ⑤高速に生成できる 対象ドメインのデータを高速に生成できる か
  • 8.
    VAE, GAN, Flow ©2022ARISE analytics Reserved. 7 VAE、GAN、Flowモデルは以下のような構造。 詳細はそのほかの資料をご参考ください。 日本語の記事もある。 Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
  • 9.
    自己回帰モデル (Autoregressive models) ©2022ARISE analytics Reserved. 8 ※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい る。 推論の並列化を行う研究もある (参考) 自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを 次々と出力するようなモデル 𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1 = 𝑖=1 𝑑 𝑝(𝑥𝑖|𝑥<𝑖) 複雑な同時確立を条件付き確率として 表し、各条件付き確率をモデル化する 例 • GPT3(自然言語) • WaveNet(音声合成) メリッ ト デメ リット • 精度が良い(VAEや正規化フ ローと比較して、尤度が高く出 ている) • データを生成する順番を事前に 指定する必要がある。 • 生成が遅い※ (各次元を一つずつ 逐次的に生成するため) • 解釈性が低い(潜在因子を見つ けることはできない:VAE,GAN では可能) 特徴 概要
  • 10.
    拡散モデル (Diffusion models) ©2022ARISE analytics Reserved. 9 自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。 (拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する モデル • 生成品質が高く、多様なデータ を生成できる • 最尤推定で安定して学習できる (参考) • 生成に時間がかかる J.Ho, et.al.(2020) より引用 逆拡散過程 → ← 拡散過程 各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から 𝑥𝑡 へのノイズが加えられたデータが、逆拡 散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる ようにしていく。 メリッ ト デメ リット 特徴 概要
  • 11.
    ARDMs (Autoregressive DiffusionModels) ©2022 ARISE analytics Reserved. 10 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル ARM DM • 順序に依存しない • 少ないステップで実行、並列処理も可能 • データを生成する順番を事前に 指定する必要がある • 生成が遅い※ (各次元を一つず つ逐次的に生成するため) • 生成に時間がかかる 特徴 改善したポイント
  • 12.
  • 13.
    ARDMs (Autoregressive DiffusionModels) ©2022 ARISE analytics Reserved. 12 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル 特徴 ARDMの概要 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) • 順序に依存しない • 少ないステップで実行、並列処理も可能
  • 14.
    前のページの改善イメージ ©2022 ARISE analyticsReserved. 13 変数の生成 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) ARDMの特徴 ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。 tに関する総和を適切に再重み 付けされた期待値で置き換え る Lt項はステップtの尤度成分を表す。 データポイントの全てのLt項を同時に最適化 する必要はない
  • 15.
    ランダム順序での変数生成アルゴリズム ©2022 ARISE analyticsReserved. 14 参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube 生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。 サンプルのベクトル 通常は順序に従っ decode このモデルで は最初は空 最初の予測機 同時にあらゆ る変数につい て分布を予測 その中から デコードし たいものを 選ぶ 一つを除いて同じサンプル (一つはデコード、その他は 空) 同時に全体の イメージを予 測 その中からデ コードしたいも のを選ぶ 第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
  • 16.
    ランダム順序での変数生成の学習アルゴリズム ©2022 ARISE analyticsReserved. 15 ARDM学習ステップを示す。 このステップでは、σ(1)=3を満たすすべての可能な並べ換 えσについて、同時にステップt=2で最適化する。 サンプリングでは、1ステップにつき1つの出力しか使用されてい ないのに対し、学習ステップではマスクされたすべての次元が同 時に予測される
  • 17.
    ARDMs (Autoregressive DiffusionModels) ©2022 ARISE analytics Reserved. 16 Watson et.al. 2021 のアイデアを基にしている 複数変数の分布が同時に生成され、並列化が可能 ARDMの概要 基本的には、xσ(<t)のみを条件としなが ら、正のkに対するxσ(t+k)に対する分布 が欲しい。 将来の変数の予測と尤度の項との 関係 モデルがどのステップt + kを予測するかは問題 ではなく、期待的にはこれらはすべて同じ関連 尤度を持つ その結果、順序にとらわれず、t番目の変数から始め てk個のトークンを独立に生成すると、1ステップで k・Ltの対数確率の寄与が得られる (従来のアプローチではk回のステップを要する。) 並列化 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う)
  • 18.
    並列化 ©2022 ARISE analyticsReserved. 17 動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを 求めることができる。 動的計画法から抽出された並列化された 方針。同じ高さの成分は同時にモデル化 されるため、並行して推論・生成される。 20ステップの問題に対して、5ステップで並列化ARDMの損失成分 各ステップの個別損失 成分
  • 19.
  • 20.
    実験 ©2022 ARISE analyticsReserved. 19 少ないステップで同程度の性能が得られている。 NLL : negative-log-likelihood bpc : bit per character
  • 21.
    実験 ©2022 ARISE analyticsReserved. 20 画像圧縮で良い性能をだし、音声・画像の性能も確認している。 bpd : bit per dimension
  • 22.
    ARDMの限界 ©2022 ARISE analyticsReserved. 21 ARDMの限界がいくつか紹介されている。 • めちゃくちゃ精度が良いとは言えない。 • 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。 • 連続分布はまだ。 • ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定 義可能 • 異なるアーキテクチャがいい場合もある。 • 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の 最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
  • 23.
  • 24.
    まとめ ©2022 ARISE analyticsReserved. 23 自己回帰モデルと拡散モデルを一般化したARDMを紹介した。 • メリット • ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。 • 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな く、同時に複数のトークンを生成するために並列化することができる。 • ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が 高い。 • 限界 • 限界もある。 • めちゃくちゃ精度が良いとは言えない。 • 連続分布はまだ。 • 異なるアーキテクチャがいい場合もある
  • 25.
    Best Partner forinnovation, Best Creator for the future.
  • 26.
    References ©2022 ARISE analyticsReserved. 25 • 論文 • Autoregressive Diffusion Models | OpenReview • コード • https://openreview.net/pdf?id=Lm8T39vLDTE • 参考書籍 • ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
  • 27.
    関連論文 ©2022 ARISE analyticsReserved. 26 • Autoregressive model • 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011) • 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.) • 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.) • テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.) • 順序に依存しない • (Uria et al., 2014) • Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021) • 尤度に基づくタスクで限られた成功しか残していない。 • マスク予測法(Ghazvininejad et al., 2019) • グラフ(Jain et al.,2020)。Liu et al., 2018) • Diffusion model • Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020) • マッチングスコア • 画像(Dhariwal & Nichol,2021) • 音声(Chen et al. ,2020; Kong et al. ,2021) • 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021) • 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021) • 離散拡散モデル • バイナリデータ(Sohl Dickstein ,2015) • カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021) • その他の離散拡散過程(Johnson et al. ,2021)