SlideShare a Scribd company logo
1 of 27
Download to read offline
Autoregressive Diffusion
Models
CAD DTU 技統支援T
奥井 恒
2022/07/15
©2022 ARISE analytics Reserved.
ICLR2022論文読み会
Introduction
©2022 ARISE analytics Reserved
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 2
自己回帰モデルと拡散モデルを一般化したモデル。
性能を大幅に低下させることなく、同時に複数のトークンを生成するために
並列化することができる。
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 3
今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ
ルを同時に生成できる。
ARDMによる生成プロ
セス
この論文の位置づけ
©2022 ARISE analytics Reserved. 4
※正確には、OA-ARM, Discrete Diffusion model を一般化
ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※
Autoregressive Diffusion Model
• Autoregressive Model を改善
• 順序に依存しない
• Diffusion Model を効率化
• 少ないステップで同程度の精度を担保
Generative Model
Deep Generative Model
VAE
GAN
Flow
Autoregressive Model
Diffusion Model
生成モデル (Generative models)
©2022 ARISE analytics Reserved. 5
※ 参考(A.L.Yullie et.al, 2006)
生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ
を生成することができるモデル
学習データの背後にある確率分布を推定し獲得する。
学習対象のデータ分
布
生成モデルの確率分布
近づける
:学習データ
使い道の例
生成モデル
対象ドメインのデータを生成
• 画像、音声、化合物を生成する
• シミュレーターを作る
対象ドメインのデータを生成
• 生成された候補が正しいか評価できる
• 異常検知に利用する
データを詳細に解析
• Analysis by Synthesis(生成による解析)※
• 認識モデルの汎化性能を向上
深層生成モデル (Deep generative models)
©2022 ARISE analytics Reserved. 6
表は「ディープラーニングを支える技術2」から引用
ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が
高く、複雑な生成対象を扱うことができる。
①抽象化表
現が得られ
る
②尤度が評
価できる
③学習が安
定している
④高忠実な
生成ができ
る
⑤高速に
生成できる
VAE 〇 △(下限) 〇 △ 〇
GAN △ × × 〇 〇
Flow △ 〇 △ △ 〇
ARM × 〇 〇 〇 ×
DM △ 〇 〇 〇 ×
①抽象化表現が得られる
データを要約したような表現ができるか
②尤度が評価できる
尤度(もしくは下限)を表現できるか
③学習が安定している
学習が常に成功するか、ハイパーパラメー
タの調整が難しくないか
④高忠実な生成ができる
元のデータに高忠実な生成できるか
⑤高速に生成できる
対象ドメインのデータを高速に生成できる
か
VAE, GAN, Flow
©2022 ARISE analytics Reserved. 7
VAE、GAN、Flowモデルは以下のような構造。
詳細はそのほかの資料をご参考ください。
日本語の記事もある。
Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
自己回帰モデル (Autoregressive models)
©2022 ARISE analytics Reserved. 8
※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい
る。
推論の並列化を行う研究もある (参考)
自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを
次々と出力するようなモデル
𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑
= 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1
=
𝑖=1
𝑑
𝑝(𝑥𝑖|𝑥<𝑖)
複雑な同時確立を条件付き確率として
表し、各条件付き確率をモデル化する
例
• GPT3(自然言語)
• WaveNet(音声合成)
メリッ
ト
デメ
リット
• 精度が良い(VAEや正規化フ
ローと比較して、尤度が高く出
ている)
• データを生成する順番を事前に
指定する必要がある。
• 生成が遅い※ (各次元を一つずつ
逐次的に生成するため)
• 解釈性が低い(潜在因子を見つ
けることはできない:VAE,GAN
では可能)
特徴
概要
拡散モデル (Diffusion models)
©2022 ARISE analytics Reserved. 9
自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。
(拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の
ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する
モデル
• 生成品質が高く、多様なデータ
を生成できる
• 最尤推定で安定して学習できる
(参考)
• 生成に時間がかかる
J.Ho, et.al.(2020) より引用
逆拡散過程
→
←
拡散過程
各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から
𝑥𝑡 へのノイズが加えられたデータが、逆拡
散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる
ようにしていく。
メリッ
ト
デメ
リット
特徴
概要
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 10
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
ARM
DM
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
• データを生成する順番を事前に
指定する必要がある
• 生成が遅い※ (各次元を一つず
つ逐次的に生成するため)
• 生成に時間がかかる
特徴
改善したポイント
ARDMについて
©2022 ARISE analytics Reserved
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 12
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
特徴
ARDMの概要
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
前のページの改善イメージ
©2022 ARISE analytics Reserved. 13
変数の生成
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
ARDMの特徴
ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。
tに関する総和を適切に再重み
付けされた期待値で置き換え
る
Lt項はステップtの尤度成分を表す。
データポイントの全てのLt項を同時に最適化
する必要はない
ランダム順序での変数生成アルゴリズム
©2022 ARISE analytics Reserved. 14
参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube
生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。
サンプルのベクトル
通常は順序に従っ
decode このモデルで
は最初は空
最初の予測機
同時にあらゆ
る変数につい
て分布を予測
その中から
デコードし
たいものを
選ぶ
一つを除いて同じサンプル
(一つはデコード、その他は
空)
同時に全体の
イメージを予
測
その中からデ
コードしたいも
のを選ぶ
第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー
クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
ランダム順序での変数生成の学習アルゴリズム
©2022 ARISE analytics Reserved. 15
ARDM学習ステップを示す。
このステップでは、σ(1)=3を満たすすべての可能な並べ換
えσについて、同時にステップt=2で最適化する。
サンプリングでは、1ステップにつき1つの出力しか使用されてい
ないのに対し、学習ステップではマスクされたすべての次元が同
時に予測される
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 16
Watson et.al. 2021 のアイデアを基にしている
複数変数の分布が同時に生成され、並列化が可能
ARDMの概要
基本的には、xσ(<t)のみを条件としなが
ら、正のkに対するxσ(t+k)に対する分布
が欲しい。
将来の変数の予測と尤度の項との
関係
モデルがどのステップt + kを予測するかは問題
ではなく、期待的にはこれらはすべて同じ関連
尤度を持つ
その結果、順序にとらわれず、t番目の変数から始め
てk個のトークンを独立に生成すると、1ステップで
k・Ltの対数確率の寄与が得られる
(従来のアプローチではk回のステップを要する。)
並列化
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
並列化
©2022 ARISE analytics Reserved. 17
動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを
求めることができる。
動的計画法から抽出された並列化された
方針。同じ高さの成分は同時にモデル化
されるため、並行して推論・生成される。
20ステップの問題に対して、5ステップで並列化ARDMの損失成分
各ステップの個別損失
成分
実験結果
©2022 ARISE analytics Reserved
実験
©2022 ARISE analytics Reserved. 19
少ないステップで同程度の性能が得られている。
NLL : negative-log-likelihood
bpc : bit per character
実験
©2022 ARISE analytics Reserved. 20
画像圧縮で良い性能をだし、音声・画像の性能も確認している。
bpd : bit per dimension
ARDMの限界
©2022 ARISE analytics Reserved. 21
ARDMの限界がいくつか紹介されている。
• めちゃくちゃ精度が良いとは言えない。
• 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ
スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。
• 連続分布はまだ。
• ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定
義可能
• 異なるアーキテクチャがいい場合もある。
• 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の
最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す
る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
まとめ
©2022 ARISE analytics Reserved
まとめ
©2022 ARISE analytics Reserved. 23
自己回帰モデルと拡散モデルを一般化したARDMを紹介した。
• メリット
• ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。
• 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな
く、同時に複数のトークンを生成するために並列化することができる。
• ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が
高い。
• 限界
• 限界もある。
• めちゃくちゃ精度が良いとは言えない。
• 連続分布はまだ。
• 異なるアーキテクチャがいい場合もある
Best Partner for innovation, Best Creator for the future.
References
©2022 ARISE analytics Reserved. 25
• 論文
• Autoregressive Diffusion Models | OpenReview
• コード
• https://openreview.net/pdf?id=Lm8T39vLDTE
• 参考書籍
• ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
関連論文
©2022 ARISE analytics Reserved. 26
• Autoregressive model
• 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011)
• 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.)
• 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.)
• テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.)
• 順序に依存しない
• (Uria et al., 2014)
• Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021)
• 尤度に基づくタスクで限られた成功しか残していない。
• マスク予測法(Ghazvininejad et al., 2019)
• グラフ(Jain et al.,2020)。Liu et al., 2018)
• Diffusion model
• Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020)
• マッチングスコア
• 画像(Dhariwal & Nichol,2021)
• 音声(Chen et al. ,2020; Kong et al. ,2021)
• 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021)
• 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021)
• 離散拡散モデル
• バイナリデータ(Sohl Dickstein ,2015)
• カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021)
• その他の離散拡散過程(Johnson et al. ,2021)

More Related Content

What's hot

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World ModelsDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...Deep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...Deep Learning JP
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 

What's hot (20)

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 

More from ARISE analytics

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptxARISE analytics
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptxARISE analytics
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方ARISE analytics
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...ARISE analytics
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptxARISE analytics
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical PrecipiceARISE analytics
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)ARISE analytics
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov RewardARISE analytics
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...ARISE analytics
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイARISE analytics
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 

More from ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 

Recently uploaded

20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」
OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」
OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」Tetsuya Nihonmatsu
 

Recently uploaded (7)

U-22プログラミング・コンテスト2024 作品説明動画を制作するポイントを紹介
U-22プログラミング・コンテスト2024 作品説明動画を制作するポイントを紹介U-22プログラミング・コンテスト2024 作品説明動画を制作するポイントを紹介
U-22プログラミング・コンテスト2024 作品説明動画を制作するポイントを紹介
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」
OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」
OWASP Hardning Privacy セッション 「セキュリティの守るべきものとは情報とプライバシーへ」
 

【論文読み会】Autoregressive Diffusion Models.pptx

  • 1. Autoregressive Diffusion Models CAD DTU 技統支援T 奥井 恒 2022/07/15 ©2022 ARISE analytics Reserved. ICLR2022論文読み会
  • 3. Autoregressive Diffusion Model (ARDM) ©2022 ARISE analytics Reserved. 2 自己回帰モデルと拡散モデルを一般化したモデル。 性能を大幅に低下させることなく、同時に複数のトークンを生成するために 並列化することができる。
  • 4. Autoregressive Diffusion Model (ARDM) ©2022 ARISE analytics Reserved. 3 今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ ルを同時に生成できる。 ARDMによる生成プロ セス
  • 5. この論文の位置づけ ©2022 ARISE analytics Reserved. 4 ※正確には、OA-ARM, Discrete Diffusion model を一般化 ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※ Autoregressive Diffusion Model • Autoregressive Model を改善 • 順序に依存しない • Diffusion Model を効率化 • 少ないステップで同程度の精度を担保 Generative Model Deep Generative Model VAE GAN Flow Autoregressive Model Diffusion Model
  • 6. 生成モデル (Generative models) ©2022 ARISE analytics Reserved. 5 ※ 参考(A.L.Yullie et.al, 2006) 生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ を生成することができるモデル 学習データの背後にある確率分布を推定し獲得する。 学習対象のデータ分 布 生成モデルの確率分布 近づける :学習データ 使い道の例 生成モデル 対象ドメインのデータを生成 • 画像、音声、化合物を生成する • シミュレーターを作る 対象ドメインのデータを生成 • 生成された候補が正しいか評価できる • 異常検知に利用する データを詳細に解析 • Analysis by Synthesis(生成による解析)※ • 認識モデルの汎化性能を向上
  • 7. 深層生成モデル (Deep generative models) ©2022 ARISE analytics Reserved. 6 表は「ディープラーニングを支える技術2」から引用 ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が 高く、複雑な生成対象を扱うことができる。 ①抽象化表 現が得られ る ②尤度が評 価できる ③学習が安 定している ④高忠実な 生成ができ る ⑤高速に 生成できる VAE 〇 △(下限) 〇 △ 〇 GAN △ × × 〇 〇 Flow △ 〇 △ △ 〇 ARM × 〇 〇 〇 × DM △ 〇 〇 〇 × ①抽象化表現が得られる データを要約したような表現ができるか ②尤度が評価できる 尤度(もしくは下限)を表現できるか ③学習が安定している 学習が常に成功するか、ハイパーパラメー タの調整が難しくないか ④高忠実な生成ができる 元のデータに高忠実な生成できるか ⑤高速に生成できる 対象ドメインのデータを高速に生成できる か
  • 8. VAE, GAN, Flow ©2022 ARISE analytics Reserved. 7 VAE、GAN、Flowモデルは以下のような構造。 詳細はそのほかの資料をご参考ください。 日本語の記事もある。 Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
  • 9. 自己回帰モデル (Autoregressive models) ©2022 ARISE analytics Reserved. 8 ※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい る。 推論の並列化を行う研究もある (参考) 自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを 次々と出力するようなモデル 𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1 = 𝑖=1 𝑑 𝑝(𝑥𝑖|𝑥<𝑖) 複雑な同時確立を条件付き確率として 表し、各条件付き確率をモデル化する 例 • GPT3(自然言語) • WaveNet(音声合成) メリッ ト デメ リット • 精度が良い(VAEや正規化フ ローと比較して、尤度が高く出 ている) • データを生成する順番を事前に 指定する必要がある。 • 生成が遅い※ (各次元を一つずつ 逐次的に生成するため) • 解釈性が低い(潜在因子を見つ けることはできない:VAE,GAN では可能) 特徴 概要
  • 10. 拡散モデル (Diffusion models) ©2022 ARISE analytics Reserved. 9 自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。 (拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する モデル • 生成品質が高く、多様なデータ を生成できる • 最尤推定で安定して学習できる (参考) • 生成に時間がかかる J.Ho, et.al.(2020) より引用 逆拡散過程 → ← 拡散過程 各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から 𝑥𝑡 へのノイズが加えられたデータが、逆拡 散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる ようにしていく。 メリッ ト デメ リット 特徴 概要
  • 11. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 10 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル ARM DM • 順序に依存しない • 少ないステップで実行、並列処理も可能 • データを生成する順番を事前に 指定する必要がある • 生成が遅い※ (各次元を一つず つ逐次的に生成するため) • 生成に時間がかかる 特徴 改善したポイント
  • 13. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 12 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル 特徴 ARDMの概要 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) • 順序に依存しない • 少ないステップで実行、並列処理も可能
  • 14. 前のページの改善イメージ ©2022 ARISE analytics Reserved. 13 変数の生成 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) ARDMの特徴 ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。 tに関する総和を適切に再重み 付けされた期待値で置き換え る Lt項はステップtの尤度成分を表す。 データポイントの全てのLt項を同時に最適化 する必要はない
  • 15. ランダム順序での変数生成アルゴリズム ©2022 ARISE analytics Reserved. 14 参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube 生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。 サンプルのベクトル 通常は順序に従っ decode このモデルで は最初は空 最初の予測機 同時にあらゆ る変数につい て分布を予測 その中から デコードし たいものを 選ぶ 一つを除いて同じサンプル (一つはデコード、その他は 空) 同時に全体の イメージを予 測 その中からデ コードしたいも のを選ぶ 第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
  • 16. ランダム順序での変数生成の学習アルゴリズム ©2022 ARISE analytics Reserved. 15 ARDM学習ステップを示す。 このステップでは、σ(1)=3を満たすすべての可能な並べ換 えσについて、同時にステップt=2で最適化する。 サンプリングでは、1ステップにつき1つの出力しか使用されてい ないのに対し、学習ステップではマスクされたすべての次元が同 時に予測される
  • 17. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 16 Watson et.al. 2021 のアイデアを基にしている 複数変数の分布が同時に生成され、並列化が可能 ARDMの概要 基本的には、xσ(<t)のみを条件としなが ら、正のkに対するxσ(t+k)に対する分布 が欲しい。 将来の変数の予測と尤度の項との 関係 モデルがどのステップt + kを予測するかは問題 ではなく、期待的にはこれらはすべて同じ関連 尤度を持つ その結果、順序にとらわれず、t番目の変数から始め てk個のトークンを独立に生成すると、1ステップで k・Ltの対数確率の寄与が得られる (従来のアプローチではk回のステップを要する。) 並列化 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う)
  • 18. 並列化 ©2022 ARISE analytics Reserved. 17 動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを 求めることができる。 動的計画法から抽出された並列化された 方針。同じ高さの成分は同時にモデル化 されるため、並行して推論・生成される。 20ステップの問題に対して、5ステップで並列化ARDMの損失成分 各ステップの個別損失 成分
  • 20. 実験 ©2022 ARISE analytics Reserved. 19 少ないステップで同程度の性能が得られている。 NLL : negative-log-likelihood bpc : bit per character
  • 21. 実験 ©2022 ARISE analytics Reserved. 20 画像圧縮で良い性能をだし、音声・画像の性能も確認している。 bpd : bit per dimension
  • 22. ARDMの限界 ©2022 ARISE analytics Reserved. 21 ARDMの限界がいくつか紹介されている。 • めちゃくちゃ精度が良いとは言えない。 • 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。 • 連続分布はまだ。 • ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定 義可能 • 異なるアーキテクチャがいい場合もある。 • 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の 最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
  • 24. まとめ ©2022 ARISE analytics Reserved. 23 自己回帰モデルと拡散モデルを一般化したARDMを紹介した。 • メリット • ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。 • 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな く、同時に複数のトークンを生成するために並列化することができる。 • ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が 高い。 • 限界 • 限界もある。 • めちゃくちゃ精度が良いとは言えない。 • 連続分布はまだ。 • 異なるアーキテクチャがいい場合もある
  • 25. Best Partner for innovation, Best Creator for the future.
  • 26. References ©2022 ARISE analytics Reserved. 25 • 論文 • Autoregressive Diffusion Models | OpenReview • コード • https://openreview.net/pdf?id=Lm8T39vLDTE • 参考書籍 • ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
  • 27. 関連論文 ©2022 ARISE analytics Reserved. 26 • Autoregressive model • 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011) • 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.) • 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.) • テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.) • 順序に依存しない • (Uria et al., 2014) • Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021) • 尤度に基づくタスクで限られた成功しか残していない。 • マスク予測法(Ghazvininejad et al., 2019) • グラフ(Jain et al.,2020)。Liu et al., 2018) • Diffusion model • Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020) • マッチングスコア • 画像(Dhariwal & Nichol,2021) • 音声(Chen et al. ,2020; Kong et al. ,2021) • 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021) • 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021) • 離散拡散モデル • バイナリデータ(Sohl Dickstein ,2015) • カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021) • その他の離散拡散過程(Johnson et al. ,2021)