DEEP LEARNING JP
[DL Papers]
“DreamFusion: Text-to-3D using 2D Diffusion”
Presenter: Takahiro Maeda D2
(Toyota Technological Institute)
http://deeplearning.jp/
目次
1. 書誌情報
2. 概要
3. 研究背景
4. 提案手法
5. 実験結果
6. 考察・所感
2
1. 書誌情報
紹介論文
タイトル: DreamFusion: Text-to-3D using 2D Diffusion
出典: ArXiv (2022.9)
著者: Ben Poole et. al.
所属: Google Research, UC Berkeley
選書理由
3Dメッシュを生成するDiffusion modelに興味があった
※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引
用
3
2. 概要
4
DreamFusion
• 3Dモデル(NeRF)
を
生成するDiffusionを
提案
• 3Dモデルのデータ
セットは必要なし
3. 研究背景
5
• ビデオゲームやCG映画は,大量の高精細な3Dモデルが必要
• これまでは,モデリングソフトなどを用いて人手で3Dモデルを作成
• 機械学習により生成する試みはあったが,データセットが少量のため
困難
• 発展が著しい Diffusionによる画像生成 + NeRFによる3次元形状
推定を組み合わせれば,大量の3Dモデルを生成できるのでは?
Stable Diffusion [1] NeRF[2]
サメ
4. 提案手法
6
学習済みImagen (txt2img) を用いて,NeRFのパラメータを更新
細かな3次元形状を学習するためのポイント
• 様々なカメラや光源を用いてレンダリングした画像を使用(structure from
X)
• 光源を変更するために,NeRFがalbedo(表面の色)を推定
手法概要
4. 提案手法
7
• 学習時の工夫のablation
(ⅰ) 視点変更
(ⅱ) プロンプトに視点情報追加
(ⅲ) 光源変更
(ⅳ) テクスチャ(albedo)を消した画像も入力
4. 提案手法
• Classifier-free diffusion guidance[4] (CFG)
– テキストへの忠実性をコントロールする手法
– Stable Diffusion, GLIDE, Imagenなどの有名な手法で採用されている
– Diffusionの損失関数
ℒdiff 𝜙, 𝒙 = 𝔼[𝜔𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 ]
– classifier diffusion guidance[3]
𝝐𝜙(𝒛𝑡; 𝑦, 𝑡) = 𝝐𝜙 𝒛𝑡; 𝑡 − 𝜔𝑡𝜎𝑡𝛻𝒛𝑡log 𝑝(𝑦|𝒛𝑡)
– classifier-free diffusion guidance[4]
𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 = 1 + 𝜔 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝜔𝝐𝜙 𝒛𝑡; ∅, 𝑡
テキストへの画像の忠実度を測るclassifierの勾
配
変更する推定ノイ
ズ
テキストを条件付け
した推定ノイズ
テキストを条件付けし
ない推定ノイズ
stable diffusion
𝜔 = 7.5
DreamFusion
𝝎 = 𝟏𝟎𝟎
4. 提案手法
9
guidance weight 𝜔 が低い
→プロンプト忠実度が低い
→視点ごとに多様な画像を生
成
→3次元形状が学習難
4. 提案手法
10
• Score Distillation Sampling (SDS)
– Diffusion + NeRFの高計算負荷を緩和する高速化手法
– 色飽和した画像が出力されるため,画像生成には不向き
– Diffusionの損失関数の微分
𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′
𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐
𝜕𝝐𝜙 𝒛𝑡; 𝑦, 𝑡
𝜕𝒛𝑡
𝜕𝒙
𝜕𝜃
]
ただし,
𝜕𝒛𝑡
𝜕𝒙
=
𝜕(𝛼𝑡𝒙+𝜎𝑡𝝐)
𝜕𝒙
= 𝛼𝑡𝑰は省略,𝒙 = 𝑔(𝜃) (NeRF)
– Score Distillation Sampling
𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′
𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐
𝜕𝒙
𝜕𝜃
]
推定ノイズ誤
差 ノイズ推定器
の勾配
NeRFの勾配
削除
11
• Score Distillation Sampling (続き)
𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′
𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐
𝜕𝒙
𝜕𝜃
]
– ノイズ推定器の勾配の無視により高速化し,現実的な計算コストに
– かなり場当たり的な手法では?
• 著者らはProbability Density Distillation Loss[5]と同等だと証明した
• 後付け感はぬぐえていない
• 話題性に乗ったスピード感のある論文なためしょうがない
– 勾配無視により色飽和した画像が生成されやすいらしい
– 色飽和した単調な背景が生成されやすいため,NeRFの学習が安定化するのでは?
色飽和の例
5. 実験結果
12
6. 考察・所感
13
• Limitation
– 計算負荷の都合上,64×64の生成画像を用いており,形状は細かくない
– 平面に絵が描いてあるような形状が学習されることがある
– 提案する手法によって生成される形状は,Seedによってあまり変化がない
• 所感
– Stable Diffusion版実装が存在
– Imagenから半年で3Dモデルへの拡張が提案されており,スピード感がある
– NeRFには複数視点の画像が必要なため,Diffusionの多様性を狭めなければ学習が
成功しない印象.(もったいない!)
– 背景を固定するなどの詳細なプロンプトを与えることができれば解消可能?
引用
14
[1] Rombach, Robin, et al. "High-resolution image synthesis with latent
diffusion models." Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. 2022.
[2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance
fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106.
[3] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on
image synthesis." Advances in Neural Information Processing Systems 34
(2021): 8780-8794.
引用
15
• [4] Ho, Jonathan, and Tim Salimans. "Classifier-free diffusion
guidance." arXiv preprint arXiv:2207.12598 (2022).
• [5] Oord, Aaron, et al. "Parallel wavenet: Fast high-fidelity speech
synthesis." International conference on machine learning. PMLR, 2018.

【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion

  • 1.
    DEEP LEARNING JP [DLPapers] “DreamFusion: Text-to-3D using 2D Diffusion” Presenter: Takahiro Maeda D2 (Toyota Technological Institute) http://deeplearning.jp/
  • 2.
    目次 1. 書誌情報 2. 概要 3.研究背景 4. 提案手法 5. 実験結果 6. 考察・所感 2
  • 3.
    1. 書誌情報 紹介論文 タイトル: DreamFusion:Text-to-3D using 2D Diffusion 出典: ArXiv (2022.9) 著者: Ben Poole et. al. 所属: Google Research, UC Berkeley 選書理由 3Dメッシュを生成するDiffusion modelに興味があった ※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引 用 3
  • 4.
  • 5.
    3. 研究背景 5 • ビデオゲームやCG映画は,大量の高精細な3Dモデルが必要 •これまでは,モデリングソフトなどを用いて人手で3Dモデルを作成 • 機械学習により生成する試みはあったが,データセットが少量のため 困難 • 発展が著しい Diffusionによる画像生成 + NeRFによる3次元形状 推定を組み合わせれば,大量の3Dモデルを生成できるのでは? Stable Diffusion [1] NeRF[2] サメ
  • 6.
    4. 提案手法 6 学習済みImagen (txt2img)を用いて,NeRFのパラメータを更新 細かな3次元形状を学習するためのポイント • 様々なカメラや光源を用いてレンダリングした画像を使用(structure from X) • 光源を変更するために,NeRFがalbedo(表面の色)を推定 手法概要
  • 7.
    4. 提案手法 7 • 学習時の工夫のablation (ⅰ)視点変更 (ⅱ) プロンプトに視点情報追加 (ⅲ) 光源変更 (ⅳ) テクスチャ(albedo)を消した画像も入力
  • 8.
    4. 提案手法 • Classifier-freediffusion guidance[4] (CFG) – テキストへの忠実性をコントロールする手法 – Stable Diffusion, GLIDE, Imagenなどの有名な手法で採用されている – Diffusionの損失関数 ℒdiff 𝜙, 𝒙 = 𝔼[𝜔𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 ] – classifier diffusion guidance[3] 𝝐𝜙(𝒛𝑡; 𝑦, 𝑡) = 𝝐𝜙 𝒛𝑡; 𝑡 − 𝜔𝑡𝜎𝑡𝛻𝒛𝑡log 𝑝(𝑦|𝒛𝑡) – classifier-free diffusion guidance[4] 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 = 1 + 𝜔 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝜔𝝐𝜙 𝒛𝑡; ∅, 𝑡 テキストへの画像の忠実度を測るclassifierの勾 配 変更する推定ノイ ズ テキストを条件付け した推定ノイズ テキストを条件付けし ない推定ノイズ stable diffusion 𝜔 = 7.5 DreamFusion 𝝎 = 𝟏𝟎𝟎
  • 9.
    4. 提案手法 9 guidance weight𝜔 が低い →プロンプト忠実度が低い →視点ごとに多様な画像を生 成 →3次元形状が学習難
  • 10.
    4. 提案手法 10 • ScoreDistillation Sampling (SDS) – Diffusion + NeRFの高計算負荷を緩和する高速化手法 – 色飽和した画像が出力されるため,画像生成には不向き – Diffusionの損失関数の微分 𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′ 𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 𝜕𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 𝜕𝒛𝑡 𝜕𝒙 𝜕𝜃 ] ただし, 𝜕𝒛𝑡 𝜕𝒙 = 𝜕(𝛼𝑡𝒙+𝜎𝑡𝝐) 𝜕𝒙 = 𝛼𝑡𝑰は省略,𝒙 = 𝑔(𝜃) (NeRF) – Score Distillation Sampling 𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′ 𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 𝜕𝒙 𝜕𝜃 ] 推定ノイズ誤 差 ノイズ推定器 の勾配 NeRFの勾配 削除
  • 11.
    11 • Score DistillationSampling (続き) 𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′ 𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 𝜕𝒙 𝜕𝜃 ] – ノイズ推定器の勾配の無視により高速化し,現実的な計算コストに – かなり場当たり的な手法では? • 著者らはProbability Density Distillation Loss[5]と同等だと証明した • 後付け感はぬぐえていない • 話題性に乗ったスピード感のある論文なためしょうがない – 勾配無視により色飽和した画像が生成されやすいらしい – 色飽和した単調な背景が生成されやすいため,NeRFの学習が安定化するのでは? 色飽和の例
  • 12.
  • 13.
    6. 考察・所感 13 • Limitation –計算負荷の都合上,64×64の生成画像を用いており,形状は細かくない – 平面に絵が描いてあるような形状が学習されることがある – 提案する手法によって生成される形状は,Seedによってあまり変化がない • 所感 – Stable Diffusion版実装が存在 – Imagenから半年で3Dモデルへの拡張が提案されており,スピード感がある – NeRFには複数視点の画像が必要なため,Diffusionの多様性を狭めなければ学習が 成功しない印象.(もったいない!) – 背景を固定するなどの詳細なプロンプトを与えることができれば解消可能?
  • 14.
    引用 14 [1] Rombach, Robin,et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. [2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106. [3] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.
  • 15.
    引用 15 • [4] Ho,Jonathan, and Tim Salimans. "Classifier-free diffusion guidance." arXiv preprint arXiv:2207.12598 (2022). • [5] Oord, Aaron, et al. "Parallel wavenet: Fast high-fidelity speech synthesis." International conference on machine learning. PMLR, 2018.

Editor's Notes

  • #2 という論文を紹介します.
  • #4 まず,書誌情報です.