SlideShare a Scribd company logo
1 of 15
DEEP LEARNING JP
[DL Papers]
“DreamFusion: Text-to-3D using 2D Diffusion”
Presenter: Takahiro Maeda D2
(Toyota Technological Institute)
http://deeplearning.jp/
目次
1. 書誌情報
2. 概要
3. 研究背景
4. 提案手法
5. 実験結果
6. 考察・所感
2
1. 書誌情報
紹介論文
タイトル: DreamFusion: Text-to-3D using 2D Diffusion
出典: ArXiv (2022.9)
著者: Ben Poole et. al.
所属: Google Research, UC Berkeley
選書理由
3Dメッシュを生成するDiffusion modelに興味があった
※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引
用
3
2. 概要
4
DreamFusion
• 3Dモデル(NeRF)
を
生成するDiffusionを
提案
• 3Dモデルのデータ
セットは必要なし
3. 研究背景
5
• ビデオゲームやCG映画は,大量の高精細な3Dモデルが必要
• これまでは,モデリングソフトなどを用いて人手で3Dモデルを作成
• 機械学習により生成する試みはあったが,データセットが少量のため
困難
• 発展が著しい Diffusionによる画像生成 + NeRFによる3次元形状
推定を組み合わせれば,大量の3Dモデルを生成できるのでは?
Stable Diffusion [1] NeRF[2]
サメ
4. 提案手法
6
学習済みImagen (txt2img) を用いて,NeRFのパラメータを更新
細かな3次元形状を学習するためのポイント
• 様々なカメラや光源を用いてレンダリングした画像を使用(structure from
X)
• 光源を変更するために,NeRFがalbedo(表面の色)を推定
手法概要
4. 提案手法
7
• 学習時の工夫のablation
(ⅰ) 視点変更
(ⅱ) プロンプトに視点情報追加
(ⅲ) 光源変更
(ⅳ) テクスチャ(albedo)を消した画像も入力
4. 提案手法
• Classifier-free diffusion guidance[4] (CFG)
– テキストへの忠実性をコントロールする手法
– Stable Diffusion, GLIDE, Imagenなどの有名な手法で採用されている
– Diffusionの損失関数
ℒdiff 𝜙, 𝒙 = 𝔼[𝜔𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 ]
– classifier diffusion guidance[3]
𝝐𝜙(𝒛𝑡; 𝑦, 𝑡) = 𝝐𝜙 𝒛𝑡; 𝑡 − 𝜔𝑡𝜎𝑡𝛻𝒛𝑡log 𝑝(𝑦|𝒛𝑡)
– classifier-free diffusion guidance[4]
𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 = 1 + 𝜔 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝜔𝝐𝜙 𝒛𝑡; ∅, 𝑡
テキストへの画像の忠実度を測るclassifierの勾
配
変更する推定ノイ
ズ
テキストを条件付け
した推定ノイズ
テキストを条件付けし
ない推定ノイズ
stable diffusion
𝜔 = 7.5
DreamFusion
𝝎 = 𝟏𝟎𝟎
4. 提案手法
9
guidance weight 𝜔 が低い
→プロンプト忠実度が低い
→視点ごとに多様な画像を生
成
→3次元形状が学習難
4. 提案手法
10
• Score Distillation Sampling (SDS)
– Diffusion + NeRFの高計算負荷を緩和する高速化手法
– 色飽和した画像が出力されるため,画像生成には不向き
– Diffusionの損失関数の微分
𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′
𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐
𝜕𝝐𝜙 𝒛𝑡; 𝑦, 𝑡
𝜕𝒛𝑡
𝜕𝒙
𝜕𝜃
]
ただし,
𝜕𝒛𝑡
𝜕𝒙
=
𝜕(𝛼𝑡𝒙+𝜎𝑡𝝐)
𝜕𝒙
= 𝛼𝑡𝑰は省略,𝒙 = 𝑔(𝜃) (NeRF)
– Score Distillation Sampling
𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′
𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐
𝜕𝒙
𝜕𝜃
]
推定ノイズ誤
差 ノイズ推定器
の勾配
NeRFの勾配
削除
11
• Score Distillation Sampling (続き)
𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′
𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐
𝜕𝒙
𝜕𝜃
]
– ノイズ推定器の勾配の無視により高速化し,現実的な計算コストに
– かなり場当たり的な手法では?
• 著者らはProbability Density Distillation Loss[5]と同等だと証明した
• 後付け感はぬぐえていない
• 話題性に乗ったスピード感のある論文なためしょうがない
– 勾配無視により色飽和した画像が生成されやすいらしい
– 色飽和した単調な背景が生成されやすいため,NeRFの学習が安定化するのでは?
色飽和の例
5. 実験結果
12
6. 考察・所感
13
• Limitation
– 計算負荷の都合上,64×64の生成画像を用いており,形状は細かくない
– 平面に絵が描いてあるような形状が学習されることがある
– 提案する手法によって生成される形状は,Seedによってあまり変化がない
• 所感
– Stable Diffusion版実装が存在
– Imagenから半年で3Dモデルへの拡張が提案されており,スピード感がある
– NeRFには複数視点の画像が必要なため,Diffusionの多様性を狭めなければ学習が
成功しない印象.(もったいない!)
– 背景を固定するなどの詳細なプロンプトを与えることができれば解消可能?
引用
14
[1] Rombach, Robin, et al. "High-resolution image synthesis with latent
diffusion models." Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. 2022.
[2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance
fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106.
[3] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on
image synthesis." Advances in Neural Information Processing Systems 34
(2021): 8780-8794.
引用
15
• [4] Ho, Jonathan, and Tim Salimans. "Classifier-free diffusion
guidance." arXiv preprint arXiv:2207.12598 (2022).
• [5] Oord, Aaron, et al. "Parallel wavenet: Fast high-fidelity speech
synthesis." International conference on machine learning. PMLR, 2018.

More Related Content

Similar to 【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion

文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
Java 9 and Future #jjug
Java 9 and Future #jjugJava 9 and Future #jjug
Java 9 and Future #jjugYuji Kubota
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Tatsuya Tojima
 
GDC2013 Visual Art系セッション報告
GDC2013 Visual Art系セッション報告GDC2013 Visual Art系セッション報告
GDC2013 Visual Art系セッション報告Takashi Iwade
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video PriorDeep Learning JP
 
Copy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpaintingCopy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpainting邦洋 長谷川
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAHiroki Nakahara
 

Similar to 【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion (20)

文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Java 9 and Future #jjug
Java 9 and Future #jjugJava 9 and Future #jjug
Java 9 and Future #jjug
 
Deep Learning
Deep LearningDeep Learning
Deep Learning
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
GDC2013 Visual Art系セッション報告
GDC2013 Visual Art系セッション報告GDC2013 Visual Art系セッション報告
GDC2013 Visual Art系セッション報告
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
SeRanet
SeRanetSeRanet
SeRanet
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
 
KDD2014 勉強会
KDD2014 勉強会KDD2014 勉強会
KDD2014 勉強会
 
Copy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpaintingCopy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpainting
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion

  • 1. DEEP LEARNING JP [DL Papers] “DreamFusion: Text-to-3D using 2D Diffusion” Presenter: Takahiro Maeda D2 (Toyota Technological Institute) http://deeplearning.jp/
  • 2. 目次 1. 書誌情報 2. 概要 3. 研究背景 4. 提案手法 5. 実験結果 6. 考察・所感 2
  • 3. 1. 書誌情報 紹介論文 タイトル: DreamFusion: Text-to-3D using 2D Diffusion 出典: ArXiv (2022.9) 著者: Ben Poole et. al. 所属: Google Research, UC Berkeley 選書理由 3Dメッシュを生成するDiffusion modelに興味があった ※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引 用 3
  • 5. 3. 研究背景 5 • ビデオゲームやCG映画は,大量の高精細な3Dモデルが必要 • これまでは,モデリングソフトなどを用いて人手で3Dモデルを作成 • 機械学習により生成する試みはあったが,データセットが少量のため 困難 • 発展が著しい Diffusionによる画像生成 + NeRFによる3次元形状 推定を組み合わせれば,大量の3Dモデルを生成できるのでは? Stable Diffusion [1] NeRF[2] サメ
  • 6. 4. 提案手法 6 学習済みImagen (txt2img) を用いて,NeRFのパラメータを更新 細かな3次元形状を学習するためのポイント • 様々なカメラや光源を用いてレンダリングした画像を使用(structure from X) • 光源を変更するために,NeRFがalbedo(表面の色)を推定 手法概要
  • 7. 4. 提案手法 7 • 学習時の工夫のablation (ⅰ) 視点変更 (ⅱ) プロンプトに視点情報追加 (ⅲ) 光源変更 (ⅳ) テクスチャ(albedo)を消した画像も入力
  • 8. 4. 提案手法 • Classifier-free diffusion guidance[4] (CFG) – テキストへの忠実性をコントロールする手法 – Stable Diffusion, GLIDE, Imagenなどの有名な手法で採用されている – Diffusionの損失関数 ℒdiff 𝜙, 𝒙 = 𝔼[𝜔𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 ] – classifier diffusion guidance[3] 𝝐𝜙(𝒛𝑡; 𝑦, 𝑡) = 𝝐𝜙 𝒛𝑡; 𝑡 − 𝜔𝑡𝜎𝑡𝛻𝒛𝑡log 𝑝(𝑦|𝒛𝑡) – classifier-free diffusion guidance[4] 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 = 1 + 𝜔 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝜔𝝐𝜙 𝒛𝑡; ∅, 𝑡 テキストへの画像の忠実度を測るclassifierの勾 配 変更する推定ノイ ズ テキストを条件付け した推定ノイズ テキストを条件付けし ない推定ノイズ stable diffusion 𝜔 = 7.5 DreamFusion 𝝎 = 𝟏𝟎𝟎
  • 9. 4. 提案手法 9 guidance weight 𝜔 が低い →プロンプト忠実度が低い →視点ごとに多様な画像を生 成 →3次元形状が学習難
  • 10. 4. 提案手法 10 • Score Distillation Sampling (SDS) – Diffusion + NeRFの高計算負荷を緩和する高速化手法 – 色飽和した画像が出力されるため,画像生成には不向き – Diffusionの損失関数の微分 𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′ 𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 𝜕𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 𝜕𝒛𝑡 𝜕𝒙 𝜕𝜃 ] ただし, 𝜕𝒛𝑡 𝜕𝒙 = 𝜕(𝛼𝑡𝒙+𝜎𝑡𝝐) 𝜕𝒙 = 𝛼𝑡𝑰は省略,𝒙 = 𝑔(𝜃) (NeRF) – Score Distillation Sampling 𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′ 𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 𝜕𝒙 𝜕𝜃 ] 推定ノイズ誤 差 ノイズ推定器 の勾配 NeRFの勾配 削除
  • 11. 11 • Score Distillation Sampling (続き) 𝛻𝜃ℒdiff 𝜙, 𝒙 = 𝔼[𝜔′ 𝑡 𝝐𝜙 𝒛𝑡; 𝑦, 𝑡 − 𝝐 𝜕𝒙 𝜕𝜃 ] – ノイズ推定器の勾配の無視により高速化し,現実的な計算コストに – かなり場当たり的な手法では? • 著者らはProbability Density Distillation Loss[5]と同等だと証明した • 後付け感はぬぐえていない • 話題性に乗ったスピード感のある論文なためしょうがない – 勾配無視により色飽和した画像が生成されやすいらしい – 色飽和した単調な背景が生成されやすいため,NeRFの学習が安定化するのでは? 色飽和の例
  • 13. 6. 考察・所感 13 • Limitation – 計算負荷の都合上,64×64の生成画像を用いており,形状は細かくない – 平面に絵が描いてあるような形状が学習されることがある – 提案する手法によって生成される形状は,Seedによってあまり変化がない • 所感 – Stable Diffusion版実装が存在 – Imagenから半年で3Dモデルへの拡張が提案されており,スピード感がある – NeRFには複数視点の画像が必要なため,Diffusionの多様性を狭めなければ学習が 成功しない印象.(もったいない!) – 背景を固定するなどの詳細なプロンプトを与えることができれば解消可能?
  • 14. 引用 14 [1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. [2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106. [3] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.
  • 15. 引用 15 • [4] Ho, Jonathan, and Tim Salimans. "Classifier-free diffusion guidance." arXiv preprint arXiv:2207.12598 (2022). • [5] Oord, Aaron, et al. "Parallel wavenet: Fast high-fidelity speech synthesis." International conference on machine learning. PMLR, 2018.

Editor's Notes

  1. という論文を紹介します.
  2. まず,書誌情報です.