【論文読み会】Autoregressive Diffusion Models.pptx

Autoregressive Diffusion
Models
CAD DTU 技統支援T
奥井恒
2022/07/15
©2022 ARISE analytics Reserved.
ICLR2022論文読み会

Introduction
©2022 ARISE analytics Reserved

Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 2
自己回帰モデルと拡散モデルを一般化したモデル。
性能を大幅に低下させることなく、同時に複数のトークンを生成するために
並列化することができる。

Autoregressive Diffusion Model (ARDM)
今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ
ルを同時に生成できる。
ARDMによる生成プロ
セス

この論文の位置づけ
※正確には、OA-ARM, Discrete Diffusion model を一般化
ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※
Autoregressive Diffusion Model
• Autoregressive Model を改善
• 順序に依存しない
• Diffusion Model を効率化
• 少ないステップで同程度の精度を担保
Generative Model
Deep Generative Model
VAE
GAN
Flow
Autoregressive Model
Diffusion Model

生成モデル (Generative models)
※ 参考(A.L.Yullie et.al, 2006)
生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ
を生成することができるモデル
学習データの背後にある確率分布を推定し獲得する。
学習対象のデータ分
布
生成モデルの確率分布
近づける
：学習データ
使い道の例
生成モデル
対象ドメインのデータを生成
• 画像、音声、化合物を生成する
• シミュレーターを作る
対象ドメインのデータを生成
• 生成された候補が正しいか評価できる
• 異常検知に利用する
データを詳細に解析
• Analysis by Synthesis(生成による解析)※
• 認識モデルの汎化性能を向上

深層生成モデル (Deep generative models)
表は「ディープラーニングを支える技術２」から引用
ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が
高く、複雑な生成対象を扱うことができる。
①抽象化表
現が得られ
る
②尤度が評
価できる
③学習が安
定している
④高忠実な
生成ができ
る
⑤高速に
生成できる
VAE 〇 △(下限) 〇 △ 〇
GAN △ × × 〇〇
Flow △ 〇 △ △ 〇
ARM × 〇〇〇 ×
DM △ 〇〇〇 ×
①抽象化表現が得られる
データを要約したような表現ができるか
②尤度が評価できる
尤度(もしくは下限)を表現できるか
③学習が安定している
学習が常に成功するか、ハイパーパラメー
タの調整が難しくないか
④高忠実な生成ができる
元のデータに高忠実な生成できるか
⑤高速に生成できる
対象ドメインのデータを高速に生成できる
か

VAE, GAN, Flow
VAE、GAN、Flowモデルは以下のような構造。
詳細はそのほかの資料をご参考ください。
日本語の記事もある。
Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より

自己回帰モデル (Autoregressive models)
※ 高速化の方法として、Causal CNN（マスク付きCNN）やDilated Convolutionなども提案されてい
る。
推論の並列化を行う研究もある (参考)
自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを
次々と出力するようなモデル
𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑
= 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1
=
𝑖=1
𝑑
𝑝(𝑥𝑖|𝑥<𝑖)
複雑な同時確立を条件付き確率として
表し、各条件付き確率をモデル化する
例
• GPT３(自然言語)
• WaveNet(音声合成)
メリッ
ト
デメ
リット
• 精度が良い（VAEや正規化フ
ローと比較して、尤度が高く出
ている）
• データを生成する順番を事前に
指定する必要がある。
• 生成が遅い※ （各次元を一つずつ
逐次的に生成するため）
• 解釈性が低い（潜在因子を見つ
けることはできない：VAE,GAN
では可能）
特徴
概要

拡散モデル (Diffusion models)
自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。
(拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の
ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する
モデル
• 生成品質が高く、多様なデータ
を生成できる
• 最尤推定で安定して学習できる
(参考)
• 生成に時間がかかる
J.Ho, et.al.(2020) より引用
逆拡散過程
→
←
拡散過程
各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から
𝑥𝑡 へのノイズが加えられたデータが、逆拡
散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる
ようにしていく。
メリッ
ト
デメ
リット
特徴
概要

ARDMs (Autoregressive Diffusion Models)
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
ARM
DM
• 少ないステップで実行、並列処理も可能
• データを生成する順番を事前に
指定する必要がある
• 生成が遅い※ （各次元を一つず
つ逐次的に生成するため）
• 生成に時間がかかる
特徴
改善したポイント

ARDMについて

ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
特徴
ARDMの概要
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
• 少ないステップで実行、並列処理も可能

前のページの改善イメージ
変数の生成
ARDMの特徴
ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。
tに関する総和を適切に再重み
付けされた期待値で置き換え
る
Lt項はステップtの尤度成分を表す。
データポイントの全てのLt項を同時に最適化
する必要はない

ランダム順序での変数生成アルゴリズム
参考：Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube
生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。
サンプルのベクトル
通常は順序に従っ
decode このモデルで
は最初は空
最初の予測機
同時にあらゆ
る変数につい
て分布を予測
その中から
デコードし
たいものを
選ぶ
一つを除いて同じサンプル
（一つはデコード、その他は
空）
同時に全体の
イメージを予
測
その中からデ
コードしたいも
のを選ぶ
第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー
クの内部活性化を表す。中間層はネットワークの内部活性化を表す。

ランダム順序での変数生成の学習アルゴリズム
ARDM学習ステップを示す。
このステップでは、σ(1)=3を満たすすべての可能な並べ換
えσについて、同時にステップt=2で最適化する。
サンプリングでは、1ステップにつき1つの出力しか使用されてい
ないのに対し、学習ステップではマスクされたすべての次元が同
時に予測される

Watson et.al. 2021 のアイデアを基にしている
複数変数の分布が同時に生成され、並列化が可能
ARDMの概要
基本的には、xσ(<t)のみを条件としなが
ら、正のkに対するxσ(t+k)に対する分布
が欲しい。
将来の変数の予測と尤度の項との
関係
モデルがどのステップt + kを予測するかは問題
ではなく、期待的にはこれらはすべて同じ関連
尤度を持つ
その結果、順序にとらわれず、t番目の変数から始め
てk個のトークンを独立に生成すると、1ステップで
k・Ltの対数確率の寄与が得られる
（従来のアプローチではk回のステップを要する。）
並列化

並列化
動的計画法アルゴリズムを利用することで，どのステップを並列化すべきかを
求めることができる。
動的計画法から抽出された並列化された
方針。同じ高さの成分は同時にモデル化
されるため、並行して推論・生成される。
20ステップの問題に対して、5ステップで並列化ARDMの損失成分
各ステップの個別損失
成分

実験結果

実験
少ないステップで同程度の性能が得られている。
NLL : negative-log-likelihood
bpc : bit per character

実験
画像圧縮で良い性能をだし、音声・画像の性能も確認している。
bpd : bit per dimension

ARDMの限界
ARDMの限界がいくつか紹介されている。
• めちゃくちゃ精度が良いとは言えない。
• 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ
スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。
• 連続分布はまだ。
• ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定
義可能
• 異なるアーキテクチャがいい場合もある。
• 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の
最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す
る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。

まとめ

まとめ
自己回帰モデルと拡散モデルを一般化したARDMを紹介した。
• メリット
• ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。
• 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな
く、同時に複数のトークンを生成するために並列化することができる。
• ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が
高い。
• 限界
• 限界もある。
• めちゃくちゃ精度が良いとは言えない。
• 連続分布はまだ。
• 異なるアーキテクチャがいい場合もある

Best Partner for innovation, Best Creator for the future.

References
• 論文
• Autoregressive Diffusion Models | OpenReview
• コード
• https://openreview.net/pdf?id=Lm8T39vLDTE
• 参考書籍
• ディープラーニングを支える技術２ニューラルネットワーク最大の謎

関連論文
• Autoregressive model
• 定式化（Bengio & Bengio, 2000; Larochelle & Murray, 2011）
• 画像（van den Oord et al., 2016b; Child et al., 2019, i.a.）
• 音声（van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.）
• テキスト（Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.）
• (Uria et al., 2014）
• Transformers（Yang et al., 2019; Alcorn & Nguyen, 2021）
• 尤度に基づくタスクで限られた成功しか残していない。
• マスク予測法（Ghazvininejad et al., 2019）
• グラフ（Jain et al.，2020）。Liu et al., 2018）
• Diffusion model
• Denoizing（Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020）
• マッチングスコア
• 画像（Dhariwal & Nichol,2021）
• 音声（Chen et al. ,2020; Kong et al. ,2021）
• 変分解釈による尤度の改善（Kingma et al. ,2021; Huang et al. ,2021）
• 連続拡散モデルへの高速化（Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021）
• 離散拡散モデル
• バイナリデータ（Sohl Dickstein ,2015）
• カテゴリデータ（Hoogeboom et al. ,2021; Austin,2021）
• その他の離散拡散過程（Johnson et al. ,2021）

【論文読み会】Autoregressive Diffusion Models.pptx

More Related Content

What's hot

Similar to 【論文読み会】Autoregressive Diffusion Models.pptx

More from ARISE analytics

【論文読み会】Autoregressive Diffusion Models.pptx