More Related Content Similar to 拡散する画像生成.pdf(20) 拡散する画像生成.pdf2. 発表者の紹介
◆ 川波 稜
株式会社NTTドコモ サービスイノベーション部 先進技術推進担当 RaTチーム所属。2020
年度に画像認識チーム配属後、「AI-OCRにおける文字検出エンジン開発」「少数画像におけ
るデータオーグメンテーションを用いた精度向上」「画像生成AIを用いたサービス開発」など
の業務や技術情報を発信するためのNTTドコモR&Dアドベントカレンダー2021年・2022
年運営を担当。
全日本コンピュータビジョン勉強会、Deep Learning連絡会、Data Science Cafeなどの勉
強会で登壇発表。東京大学大学院 学際情報学府 先端表現情報学コース 修了。福岡県出身。
2
◆ 中村 圭佑
株式会社NTTドコモ サービスイノベーション部 第二メディアAI担当 画像認識チーム所属。
2022年度に画像認識チーム配属後、「農業ドローンAIの研究開発」「画像生成AIを用いた
サービス開発」などの業務に従事。
NTTドコモR&Dアドベントカレンダー2022年運営を担当。
早稲田大学大学院 創造理工学研究科 地球・環境資源理工学専攻 修了。東京都出身。
3. 3
00 | はじめに
01 | Diffusionへの歩み
02 | Diffusionの広がりとユースケース
03 | Diffusionの罠
04 | Diffusionの理論
05 | まとめ
6. 読むと分かること
本稿では以下のような疑問に答えたいと思います。
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み
§ Stable Diffusionって何? → 01 | Diffusionへの歩み
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース
§ 使う時に注意することはある? → 03 | Diffusionの罠
§ 数式も理解したい → 04 | Diffusionの理論
6
8. 画像生成AIの変遷 ~Stable Diffusionに至るまで~
§ 画像生成の技術変遷
VAE・ GANからStable Diffusion登場までの時系列
8
Stable Diffusion
Rombach and
Blattmann@(※)
LDM論文の手法が
github上でOSSとし
て公開された。コ
ミュニティのサポー
トを受け今後更なる
発展が予想される
Midjourney
David Holz
@Leap Motion
デザイン性の高
い絵に特化した
画像を生成可能
なサービスとし
てDiscordなど
で提供
DALL-E2
Nichol
@OpenAI
大量データを
学習させた
大規模モデル
LDM
Rombach and
Blattmann@(※)
VAEによる潜在空
間への次元圧縮に
よりさらに高速化
したStable
Difusionの元論文
2022.8
2022.7
Imagen
Saharia
@Google
テキストエ
ンコーダー
を改良し
CLIPを使
わず生成可
能になった
2022.5
2022.4
2021.12
2021.12
GLIDE
Nichol
@OpenAI
画像生成に
CLIPを適用
ADM
Dhariwal and
Nichol @OpenAI
高解像度化の
キモとなった
手法でここで
GANを凌駕した
2021.3
2020.10
DDIM
Song
@Stanford Univ.
品質を保ったまま
のステップ数の削
減を行う高速化に
関する手法
2014.6
GAN
Goodfellow
@Montreal Univ.
敵対的学習を用いた
高品質画像生成の
パイオニア
VAE
Kingma
@Amsterdam Univ.
エンコーダで潜在
空間へ変換した画
像からデコーダで
似た画像を生成す
るモデル
2013.12 2020.6
DDPM
Ho
@UC Berkley
Diffusion model
の基礎が提案され
た
Diederik P Kingma
VAEの生みの親
@OpenAI創業メンバ
→DeepMind/Google Brain
(写真引用元)
Ian J. Goodfellow
GANの生みの親
@Google Brain
→Apple
(写真引用元)
Jiaming Song
DDIMの理論提唱者
Research Scientist
@Stanford Uni.→NVIDIA
(写真引用元)
Alex Nichol
DDIMの理論提唱者
/GLIDE・DALL-E2
発明者@OpenAI
(写真引用元)
§ 画像生成に携わった重要人物
2021.2
CLIP
Alec Radford
@OpenAI
テキストと画像の
類似度を推定する
モデル。現在はテ
キストと画像の紐
付けが可能とする
テキストエンコー
ダーとして利用
Jonathan Ho
DDPMの理論提唱者
PhD@UC Berkeley
(写真引用元)
(※) Ludwig Maximilian University of Munich & IWR, Heidelberg University, Germany
Robin Rombach
LDM/Stable
Diffusionの発明者
@Stability AI
(写真引用元)
Andreas Blattmann
LDM/Stable Diffusion
の発明者
@Stability AI
(写真引用元)
9. Diffusionによる画像生成の仕組み
§ Diffusionの仕組み
デノイジング拡散確率モデル(DDPM:Denoising Diffusion Probablistic Model)の論文で提唱された。
従来のGAN等ではランダムノイズから画像を生成していく過程を学習させていたが、Dffusionモデルでは時間tごとに学習画像に徐々にランダムノイズを入れていき、その逆変換を学習。
生成時は逆変換(逆拡散過程)を学習したモデルで画像中のノイズを推論するのを繰り返すことでデノイジングを行う。
このランダムノイズの分布をseedとして生成を行うため、seedの値を変更することで生成する画像も変わる。
9
ノイズ付与=拡散(Diffusion)
綺麗な画像が徐々にノイズとなって消えていく
ノイズ除去=拡散の逆
ノイズが徐々に綺麗な画像になっていく => 画像生成
拡散過程
逆拡散過程
(論文: Denoising Diffusion Probabilistic Models より引用)
https://arxiv.org/abs/2006.11239?ref=ja.stateofaiguides.com
参照・引用した論文や著書を右上部に記載
Denoising Diffusion Probabilistic Models [Ho et al., 2020]
マルコフ連鎖を繰り返す
10. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与し、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
10
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
11. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
11
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
13. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内でおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
13
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
14. 流行りのStable Diffusionを超ざっくり説明
② U-Net:画像中のノイズを推論する部分。
§ 左からノイズ画像の潜在ベクトルを入力し、右で推定ノイズを出力する
§ 時刻情報による条件付けをResBlock(いくつかのconvolution layerをskip connectionがあるブロック)で行う。
※拡散過程は時間による変化のため、時刻情報を組み込むことで時刻によるノイズの変化を考慮できる
§ テキストによる条件付け(後ほど説明するCLIP特徴を用いる)をAttnBlock(attention layerが含まれているブロック)で行う。
14
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
15. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
15
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
16. 流行りのStable Diffusionを超ざっくり説明
③ Text Encoder:CLIP
§ 元々は画像とテキストの類似度を推定するモデル
§ 学習時はテキストと画像で対照学習(※)を行いテキストと画像の特徴を同じ空間上に埋め込む、マルチモーダルモデル
§ Stable diffusionではテキストを入力して類似度が高い画像のCLIP特徴を得る
§ CLIP特徴をUnetに差し込むことでテキストによる条件付けが可能
※対照学習: ラベル付けを行うことなく、データ同士を比較する仕組みを用いて
学習できる自己教師あり学習の一つ
16
https://openai.com/research/clip
( CLIP: Connecting text and imagesより引用)
17. ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース
§ 使う時に注意することはある? → 03 | Diffusionの使用方法と罠
§ 数式も理解したい → 04 | Diffusionの理論
17
21. Stable Diffusionの広がり
Stable DiffusionはOSSで公開されていることから、多くのユーザが画像生成に使用するモ
デルを公開している。使用するモデルは用途に応じて差し替えが可能。(人物特化・アニメ特
化のモデルなど)
§ 公開されているモデルの代表例
・Stable Diffusion:Stability AI社が公開する本家モデル
https://huggingface.co/stabilityai/stable-diffusion-2-1
・Waifu Diffusion:2次元絵の生成が得意
https://huggingface.co/hakurei/waifu-diffusion-v1-4/tree/main
・Realism Engine:リアル系・写真系が得意なモデル
https://civitai.com/models/6424/chilloutmix
21
centred, full body 8k unity render, mechanized man, destroyed spaceship
corridor background, very dark, clutter and mess everywhere, realistic,
kodachrome, cinematic, (highly detailed:1.4),(ultra realistic:1.2)
Negative prompt: 3d, digital art, lowres, bad anatomy, bad hands, text, error,
missing fingers, extra digit, fewer digits, cropped, worst quality, low quality,
normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name
Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 3333, Size: 512x512, Model hash:
6ce0161689, Model: v1-5-pruned-emaonly, Version: v1.2.1
〜 Stable Diffusion 1.5を用いた生成例 〜
〜 生成に用いたプロンプトとパラメータ 〜
※後述する「03 | Diffusionの使用方法と罠」を
よく読んだ上でお使いください。
http://blogcake.net/stable-diffusion-models
22. Stable Diffusionの広がり
§ Stable Diffusionから生成される画像を制御する手法の数々
詳細で複雑なテキストプロンプト研究が蓄積されてもなお、生成画像の制御性は十分とは言い難いものであったが、さまざ
まなガイダンス手法やfine-tuning手法によって制御性が担保されつつある。
・ControlNet:参照画像の姿勢・輪郭特徴などを参考に画像生成できるようにする手法(プロンプトとの併用可能)
・LoRA:少数画像かつ少ない計算資源でも生成させたい画像を学習させるfine-tuningを可能とする手法
22
〜 ControlNetを用いた生成例(ポーズ特徴) 〜
24. ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠
§ 数式も理解したい → 04 | Diffusionの理論
24
26. 各画像生成サービスの利用条件
§ Stable Diffusionの利用条件
コンテンツ利用条件:商用利用可、著作権表示不要
Stable Diffusionは、その生成画像について、利用規約において、
「ライセンサーは、モデルを使用して生成された生成物について何ら
権利を行使しない」としており、生成画像の利用条件やクレジットに
ついて、第三者の権利を侵害することとなる場合等(その他の制限事
項は利用規約をご参照ください)を除いて、利用規約上、特に制限を
設けてはおりません。
https://huggingface.co/spaces/stabilityai/stable-diffusion
26
https://note.com/mel_legaloffice/n/nb9b187b51a00
31. ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
§ 数式も理解したい → 04 | Diffusionの理論
31
35. ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
§ 数式も理解したい → 04 | Diffusionの理論(著書:拡散モデル -データ生成技術の数理- [岡野原大輔, 2023]を参照) ✅
35
37. 本稿を通して以下の疑問が解消できていれば嬉しいです!
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
§ 数式も理解したい → 04 | Diffusionの理論(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
同じ生成系のLLMと比較して考慮することの多い画像生成ですが、本稿が様々なユースケースを共に探索してくださるきっか
けになれば幸いです。
37