SlideShare a Scribd company logo
1 of 17
[公開情報]
Analytic-DPM
An Analytic Estimate of
The Optimal Reverse Variance
in Diffusion Probabilistic Models
株式会社ARISE analytics
Marketing Solution Div. OMO Marketing Unit. 伊藤光祐
2022/07/07
©2022 ARISE analytics Reserved.
[公開情報]
どんな論文?
©2022 ARISE analytics Reserved. 1
画像生成などで注目されているDiffusion Probabilistic Modelに2つの工夫を組み込
むことで、精度を向上させつつ20~80倍高速化することができた
概要
1
2
各計算ステップで推定する正規分布の分散をモデルの出力か
ら解析的に計算
サンプリング時の計算ステップの省略方法を最適化
上記の工夫は既存手法に簡単に組み込むことが可能
[公開情報]
アジェンダ
©2022 ARISE analytics Reserved. 2
1 Diffusion Probabilistic Model(DPM)とは
2 各計算ステップでの分散の推定
3 サンプリング方法の最適化
4 実験結果
[公開情報]
アジェンダ
©2022 ARISE analytics Reserved. 3
1 Diffusion Probabilistic Model(DPM)とは
2 各計算ステップでの分散の推定
3 サンプリング方法の最適化
4 実験結果
[公開情報]
Diffusion Probabilistic Model(DPM)とは
©2022 ARISE analytics Reserved.
データにノイズをかけていく処理を逆向きにして、ノイズからデータを作成す
るモデル。画像生成分野で注目されている手法の一つ。
4
?
?
ノイズ付与
(順過程)
ノイズ除去
(逆過程)
 元データに順番に少しずつガウスノイズをかけていく
 最終的にはデータがただのガウスノイズになる
 ただのノイズから少しずつガウスノイズを除去していくことでデータを生成
 この過程をニューラルネットなどで学習する
データ 処理の途中 ノイズ
今回はAnalytic-DPMの説明にフォーカスするため、基本的な学習方法などの詳細は他の資料を参考にしてくだ
さい
[公開情報]
DPMの課題
©2022 ARISE analytics Reserved. 5
課
題
1
課
題
2
分散の推定が難しい
 分散は固定パラメータとするのが一般的
 分散を学習パラメータとすると精度が上がる可能性があるが
学習が不安定になることもある
サンプリング時の反復計算に時間がかかる
 ノイズを除去するステップが数千になることもありとても時
間がかかる
 ノイズ除去のステップをいくつか省略することで解決する方
法が提案されているが、省略する場所をうまく調整する必要
がある
[公開情報]
アジェンダ
©2022 ARISE analytics Reserved. 6
1 Diffusion Probabilistic Model(DPM)とは
2 各計算ステップでの分散の推定
3 サンプリング方法の最適化
4 実験結果
[公開情報]
各ステップで推定する分布の分散の最適解
©2022 ARISE analytics Reserved.
※数式は論文の式から変形して掲載
この論文において、各ステップで最適となる正規分布の平均と分散がモデルの
出力から解析的に求められるということが証明された。(証明は省略)
7
ステップ𝒏で
の最適な平
均※
ステップ𝒏で
の最適な分
散
𝜇𝑛
∗
𝑥𝑛 =
𝛼𝑛−1
𝛼𝑛
𝑥𝑛 +
𝛽𝑛 𝛼𝑛−1
𝛼𝑛
+ 𝛽𝑛−1 − 𝜆𝑛
2
∙ 𝛽𝑛 ∇𝑥𝑛
log 𝑞𝑛(𝑥𝑛)
𝜎𝑛
∗
= 𝜆𝑛
2
+
𝛽𝑛
𝛼𝑛
− 𝛽𝑛−1 − 𝜆𝑛
2
2
1 − 𝛽𝑛𝔼𝑞𝑛 𝑥𝑛
∇𝑥𝑛
log 𝑞𝑛 𝑥𝑛
2
𝑑
補足
 ∇𝑥𝑛
log 𝑞𝑛(𝑥𝑛)はデータの周辺分布の
スコア関数
 ニューラルネットなどで学習す
る
 𝛼𝑛は各ステップごとのハイパーパラ
メータ
 𝛼𝑛 = Π𝑖=1
𝑛
𝛼𝑖
 𝛽𝑛 = 1 − 𝛼𝑛
 𝜆𝑛
2
=
𝛽𝑛−1
𝛽𝑛
𝛽𝑛
 𝑑はデータの次元数
[公開情報]
実際の分散の算出方法
©2022 ARISE analytics Reserved.
最適な分散を計算するにはモデル出力の2乗ノルムの平均が必要となる。実際
に計算するときには、モンテカルロ法で2乗ノルムを計算することで分散を導
出することができる。
8
実際の分散
モデル出力
の2乗ノルム
の平均
Γ𝑛 =
1
𝑀
𝑚=1
𝑀
𝑠𝑛(𝑥𝑛,𝑚)
2
𝑑
𝜎𝑛
∗
= 𝜆𝑛
2
+
𝛽𝑛
𝛼𝑛
− 𝛽𝑛−1 − 𝜆𝑛
2
2
1 − 𝛽𝑛Γ𝑛
補足
 𝑠𝑛(𝑥𝑛,𝑚)はモデルの出力
 𝑀はモンテカルロ法のサンプル数
 10~100回ほどで十分
 一度そのステップの分散を計算したら、あとの同じステップの計算では結果
を使いまわすことができる
[公開情報]
分散の下限と上限
©2022 ARISE analytics Reserved.
モデルの近似誤差によっては分散に大きなバイアスがかかる。解析的に求まる
分散の上限値・下限値でクリッピングすることでDPMの精度が向上する。(証
明は省略)
9
分散の上限
と下限
元データの
値の範囲が
𝒂, 𝒃 の場合
𝜆𝑛
2
≤ 𝜎𝑛
∗
≤ 𝜆𝑛
2
+
𝛽𝑛
𝛼𝑛
− 𝛽𝑛−1 − 𝜆𝑛
2
2
𝜎𝑛
∗
≤ 𝜆𝑛
2
+ 𝛼𝑛−1 − 𝛽𝑛−1 − 𝜆𝑛
2
∙
𝛼𝑛
𝛽𝑛
2
𝑏 − 𝑎
2
2
[公開情報]
アジェンダ
©2022 ARISE analytics Reserved. 10
1 Diffusion Probabilistic Model(DPM)とは
2 各計算ステップでの分散の推定
3 サンプリング方法の最適化
4 実験結果
[公開情報]
推論過程の最適化
©2022 ARISE analytics Reserved.
学習時のステップ数から推論時のステップ数を適切に減らすことで精度を保ち
つつ計算を高速化できる。適切なステップは動的計画法で求めることができる。
11
ステップ数を減らし
た時の逆過程
適切なステップを選
択する際に最小化す
る式
𝒩 𝑥𝜏𝐾
Πk=1
𝐾
𝒩(𝑥𝜏𝑘−1
|𝜇𝜏𝑘−1|𝜏𝑘
(𝑥𝜏𝐾
), 𝜎𝜏𝑘−1|𝜏𝑘
2
𝐼)
min
𝜏1,…,𝜏𝐾
𝑑
2
𝑘=2
𝐾
log 𝜎∗
𝜏𝑘−1|𝜏𝑘
2
/𝜆𝜏𝑘−1|𝜏𝑘
2
+ 𝑐
 𝜏𝑘は元のステップのうちどれか(ただし、𝜏1 = 1)
 𝜇𝜏𝑘−1|𝜏𝑘
(𝑥𝜏𝐾
)、 𝜎𝜏𝑘−1|𝜏𝑘
2
はP7の𝑥𝑛を𝑥𝜏𝐾
にしたもの
 最小化は動的計画法の一種で解ける(ここでは解き方は省略)
ステップ数を𝑵から𝑲にする場合
補足
[公開情報]
アジェンダ
©2022 ARISE analytics Reserved. 12
1 Diffusion Probabilistic Model(DPM)とは
2 各計算ステップでの分散の推定
3 サンプリング方法の最適化
4 実験結果
[公開情報]
指標の比較結果
©2022 ARISE analytics Reserved.
既存手法とAnalytic-DPMを様々なシチュエーションで評価。ほとんどの場合
においてAnalytic-DPMが最も優れた結果に。
13
②FIDでの評価
①負の対数尤度での評価
サンプリングの方法が確率的
(DDPM)・決定的(DDIM)どち
らの場合でも、基本的に
Analytic-DPMの方が優れてい
た。
既存手法で(ET)と本論文の手
法(OT)でステップを減らした
場合の両方においてAnalytic-
DPMの性能が最も高かった。
1
2
[公開情報]
生成した画像の例(もう少し大きい画像が欲しかっ
た。。。)
©2022 ARISE analytics Reserved. 14
[公開情報]
実験用コード(GitHubで公開中)
©2022 ARISE analytics Reserved. 15
https://github.com/baofff/Analytic-DPM
[公開情報]
Best Partner for innovation, Best Creator for the future.

More Related Content

What's hot

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Kuninobu SaSaki
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習Yusuke Uchida
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image DenoisingDeep Learning JP
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 

What's hot (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 

More from ARISE analytics

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptxARISE analytics
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptxARISE analytics
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方ARISE analytics
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptxARISE analytics
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptxARISE analytics
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical PrecipiceARISE analytics
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)ARISE analytics
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov RewardARISE analytics
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...ARISE analytics
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイARISE analytics
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 

More from ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models.pptx

  • 1. [公開情報] Analytic-DPM An Analytic Estimate of The Optimal Reverse Variance in Diffusion Probabilistic Models 株式会社ARISE analytics Marketing Solution Div. OMO Marketing Unit. 伊藤光祐 2022/07/07 ©2022 ARISE analytics Reserved.
  • 2. [公開情報] どんな論文? ©2022 ARISE analytics Reserved. 1 画像生成などで注目されているDiffusion Probabilistic Modelに2つの工夫を組み込 むことで、精度を向上させつつ20~80倍高速化することができた 概要 1 2 各計算ステップで推定する正規分布の分散をモデルの出力か ら解析的に計算 サンプリング時の計算ステップの省略方法を最適化 上記の工夫は既存手法に簡単に組み込むことが可能
  • 3. [公開情報] アジェンダ ©2022 ARISE analytics Reserved. 2 1 Diffusion Probabilistic Model(DPM)とは 2 各計算ステップでの分散の推定 3 サンプリング方法の最適化 4 実験結果
  • 4. [公開情報] アジェンダ ©2022 ARISE analytics Reserved. 3 1 Diffusion Probabilistic Model(DPM)とは 2 各計算ステップでの分散の推定 3 サンプリング方法の最適化 4 実験結果
  • 5. [公開情報] Diffusion Probabilistic Model(DPM)とは ©2022 ARISE analytics Reserved. データにノイズをかけていく処理を逆向きにして、ノイズからデータを作成す るモデル。画像生成分野で注目されている手法の一つ。 4 ? ? ノイズ付与 (順過程) ノイズ除去 (逆過程)  元データに順番に少しずつガウスノイズをかけていく  最終的にはデータがただのガウスノイズになる  ただのノイズから少しずつガウスノイズを除去していくことでデータを生成  この過程をニューラルネットなどで学習する データ 処理の途中 ノイズ 今回はAnalytic-DPMの説明にフォーカスするため、基本的な学習方法などの詳細は他の資料を参考にしてくだ さい
  • 6. [公開情報] DPMの課題 ©2022 ARISE analytics Reserved. 5 課 題 1 課 題 2 分散の推定が難しい  分散は固定パラメータとするのが一般的  分散を学習パラメータとすると精度が上がる可能性があるが 学習が不安定になることもある サンプリング時の反復計算に時間がかかる  ノイズを除去するステップが数千になることもありとても時 間がかかる  ノイズ除去のステップをいくつか省略することで解決する方 法が提案されているが、省略する場所をうまく調整する必要 がある
  • 7. [公開情報] アジェンダ ©2022 ARISE analytics Reserved. 6 1 Diffusion Probabilistic Model(DPM)とは 2 各計算ステップでの分散の推定 3 サンプリング方法の最適化 4 実験結果
  • 8. [公開情報] 各ステップで推定する分布の分散の最適解 ©2022 ARISE analytics Reserved. ※数式は論文の式から変形して掲載 この論文において、各ステップで最適となる正規分布の平均と分散がモデルの 出力から解析的に求められるということが証明された。(証明は省略) 7 ステップ𝒏で の最適な平 均※ ステップ𝒏で の最適な分 散 𝜇𝑛 ∗ 𝑥𝑛 = 𝛼𝑛−1 𝛼𝑛 𝑥𝑛 + 𝛽𝑛 𝛼𝑛−1 𝛼𝑛 + 𝛽𝑛−1 − 𝜆𝑛 2 ∙ 𝛽𝑛 ∇𝑥𝑛 log 𝑞𝑛(𝑥𝑛) 𝜎𝑛 ∗ = 𝜆𝑛 2 + 𝛽𝑛 𝛼𝑛 − 𝛽𝑛−1 − 𝜆𝑛 2 2 1 − 𝛽𝑛𝔼𝑞𝑛 𝑥𝑛 ∇𝑥𝑛 log 𝑞𝑛 𝑥𝑛 2 𝑑 補足  ∇𝑥𝑛 log 𝑞𝑛(𝑥𝑛)はデータの周辺分布の スコア関数  ニューラルネットなどで学習す る  𝛼𝑛は各ステップごとのハイパーパラ メータ  𝛼𝑛 = Π𝑖=1 𝑛 𝛼𝑖  𝛽𝑛 = 1 − 𝛼𝑛  𝜆𝑛 2 = 𝛽𝑛−1 𝛽𝑛 𝛽𝑛  𝑑はデータの次元数
  • 9. [公開情報] 実際の分散の算出方法 ©2022 ARISE analytics Reserved. 最適な分散を計算するにはモデル出力の2乗ノルムの平均が必要となる。実際 に計算するときには、モンテカルロ法で2乗ノルムを計算することで分散を導 出することができる。 8 実際の分散 モデル出力 の2乗ノルム の平均 Γ𝑛 = 1 𝑀 𝑚=1 𝑀 𝑠𝑛(𝑥𝑛,𝑚) 2 𝑑 𝜎𝑛 ∗ = 𝜆𝑛 2 + 𝛽𝑛 𝛼𝑛 − 𝛽𝑛−1 − 𝜆𝑛 2 2 1 − 𝛽𝑛Γ𝑛 補足  𝑠𝑛(𝑥𝑛,𝑚)はモデルの出力  𝑀はモンテカルロ法のサンプル数  10~100回ほどで十分  一度そのステップの分散を計算したら、あとの同じステップの計算では結果 を使いまわすことができる
  • 10. [公開情報] 分散の下限と上限 ©2022 ARISE analytics Reserved. モデルの近似誤差によっては分散に大きなバイアスがかかる。解析的に求まる 分散の上限値・下限値でクリッピングすることでDPMの精度が向上する。(証 明は省略) 9 分散の上限 と下限 元データの 値の範囲が 𝒂, 𝒃 の場合 𝜆𝑛 2 ≤ 𝜎𝑛 ∗ ≤ 𝜆𝑛 2 + 𝛽𝑛 𝛼𝑛 − 𝛽𝑛−1 − 𝜆𝑛 2 2 𝜎𝑛 ∗ ≤ 𝜆𝑛 2 + 𝛼𝑛−1 − 𝛽𝑛−1 − 𝜆𝑛 2 ∙ 𝛼𝑛 𝛽𝑛 2 𝑏 − 𝑎 2 2
  • 11. [公開情報] アジェンダ ©2022 ARISE analytics Reserved. 10 1 Diffusion Probabilistic Model(DPM)とは 2 各計算ステップでの分散の推定 3 サンプリング方法の最適化 4 実験結果
  • 12. [公開情報] 推論過程の最適化 ©2022 ARISE analytics Reserved. 学習時のステップ数から推論時のステップ数を適切に減らすことで精度を保ち つつ計算を高速化できる。適切なステップは動的計画法で求めることができる。 11 ステップ数を減らし た時の逆過程 適切なステップを選 択する際に最小化す る式 𝒩 𝑥𝜏𝐾 Πk=1 𝐾 𝒩(𝑥𝜏𝑘−1 |𝜇𝜏𝑘−1|𝜏𝑘 (𝑥𝜏𝐾 ), 𝜎𝜏𝑘−1|𝜏𝑘 2 𝐼) min 𝜏1,…,𝜏𝐾 𝑑 2 𝑘=2 𝐾 log 𝜎∗ 𝜏𝑘−1|𝜏𝑘 2 /𝜆𝜏𝑘−1|𝜏𝑘 2 + 𝑐  𝜏𝑘は元のステップのうちどれか(ただし、𝜏1 = 1)  𝜇𝜏𝑘−1|𝜏𝑘 (𝑥𝜏𝐾 )、 𝜎𝜏𝑘−1|𝜏𝑘 2 はP7の𝑥𝑛を𝑥𝜏𝐾 にしたもの  最小化は動的計画法の一種で解ける(ここでは解き方は省略) ステップ数を𝑵から𝑲にする場合 補足
  • 13. [公開情報] アジェンダ ©2022 ARISE analytics Reserved. 12 1 Diffusion Probabilistic Model(DPM)とは 2 各計算ステップでの分散の推定 3 サンプリング方法の最適化 4 実験結果
  • 14. [公開情報] 指標の比較結果 ©2022 ARISE analytics Reserved. 既存手法とAnalytic-DPMを様々なシチュエーションで評価。ほとんどの場合 においてAnalytic-DPMが最も優れた結果に。 13 ②FIDでの評価 ①負の対数尤度での評価 サンプリングの方法が確率的 (DDPM)・決定的(DDIM)どち らの場合でも、基本的に Analytic-DPMの方が優れてい た。 既存手法で(ET)と本論文の手 法(OT)でステップを減らした 場合の両方においてAnalytic- DPMの性能が最も高かった。 1 2
  • 16. [公開情報] 実験用コード(GitHubで公開中) ©2022 ARISE analytics Reserved. 15 https://github.com/baofff/Analytic-DPM
  • 17. [公開情報] Best Partner for innovation, Best Creator for the future.