SlideShare a Scribd company logo
1 of 38
Download to read offline
拡散する画像生成
川波 稜 / 中村 圭佑
最終更新日:2023年8月3日
初稿作成日:2023年5月9日
発表者の紹介
◆ 川波 稜
株式会社NTTドコモ サービスイノベーション部 先進技術推進担当 RaTチーム所属。2020
年度に画像認識チーム配属後、「AI-OCRにおける文字検出エンジン開発」「少数画像におけ
るデータオーグメンテーションを用いた精度向上」「画像生成AIを用いたサービス開発」など
の業務や技術情報を発信するためのNTTドコモR&Dアドベントカレンダー2021年・2022
年運営を担当。
全日本コンピュータビジョン勉強会、Deep Learning連絡会、Data Science Cafeなどの勉
強会で登壇発表。東京大学大学院 学際情報学府 先端表現情報学コース 修了。福岡県出身。
2
◆ 中村 圭佑
株式会社NTTドコモ サービスイノベーション部 第二メディアAI担当 画像認識チーム所属。
2022年度に画像認識チーム配属後、「農業ドローンAIの研究開発」「画像生成AIを用いた
サービス開発」などの業務に従事。
NTTドコモR&Dアドベントカレンダー2022年運営を担当。
早稲田大学大学院 創造理工学研究科 地球・環境資源理工学専攻 修了。東京都出身。
3
00 | はじめに
01 | Diffusionへの歩み
02 | Diffusionの広がりとユースケース
03 | Diffusionの罠
04 | Diffusionの理論
05 | まとめ
4
00 | はじめに
読むと分かること
本稿では以下のような疑問に答えたいと思います。
§ 難しい数式は置いておいて知っておくべき概要を理解したい
§ Stable Diffusionって何?
§ Diffusionはなぜテキストから画像が生成できるの?
§ 画像生成でどんな画像が生成できるの?
§ 画像生成でお金儲けできるの?
§ 使う時に注意することはある?
§ 数式も理解したい
5
読むと分かること
本稿では以下のような疑問に答えたいと思います。
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み
§ Stable Diffusionって何? → 01 | Diffusionへの歩み
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース
§ 使う時に注意することはある? → 03 | Diffusionの罠
§ 数式も理解したい → 04 | Diffusionの理論
6
7
01 | Diffusionへの歩み
画像生成AIの変遷 ~Stable Diffusionに至るまで~
§ 画像生成の技術変遷
VAE・ GANからStable Diffusion登場までの時系列
8
Stable Diffusion
Rombach and
Blattmann@(※)
LDM論文の手法が
github上でOSSとし
て公開された。コ
ミュニティのサポー
トを受け今後更なる
発展が予想される
Midjourney
David Holz
@Leap Motion
デザイン性の高
い絵に特化した
画像を生成可能
なサービスとし
てDiscordなど
で提供
DALL-E2
Nichol
@OpenAI
大量データを
学習させた
大規模モデル
LDM
Rombach and
Blattmann@(※)
VAEによる潜在空
間への次元圧縮に
よりさらに高速化
したStable
Difusionの元論文
2022.8
2022.7
Imagen
Saharia
@Google
テキストエ
ンコーダー
を改良し
CLIPを使
わず生成可
能になった
2022.5
2022.4
2021.12
2021.12
GLIDE
Nichol
@OpenAI
画像生成に
CLIPを適用
ADM
Dhariwal and
Nichol @OpenAI
高解像度化の
キモとなった
手法でここで
GANを凌駕した
2021.3
2020.10
DDIM
Song
@Stanford Univ.
品質を保ったまま
のステップ数の削
減を行う高速化に
関する手法
2014.6
GAN
Goodfellow
@Montreal Univ.
敵対的学習を用いた
高品質画像生成の
パイオニア
VAE
Kingma
@Amsterdam Univ.
エンコーダで潜在
空間へ変換した画
像からデコーダで
似た画像を生成す
るモデル
2013.12 2020.6
DDPM
Ho
@UC Berkley
Diffusion model
の基礎が提案され
た
Diederik P Kingma
VAEの生みの親
@OpenAI創業メンバ
→DeepMind/Google Brain
(写真引用元)
Ian J. Goodfellow
GANの生みの親
@Google Brain
→Apple
(写真引用元)
Jiaming Song
DDIMの理論提唱者
Research Scientist
@Stanford Uni.→NVIDIA
(写真引用元)
Alex Nichol
DDIMの理論提唱者
/GLIDE・DALL-E2
発明者@OpenAI
(写真引用元)
§ 画像生成に携わった重要人物
2021.2
CLIP
Alec Radford
@OpenAI
テキストと画像の
類似度を推定する
モデル。現在はテ
キストと画像の紐
付けが可能とする
テキストエンコー
ダーとして利用
Jonathan Ho
DDPMの理論提唱者
PhD@UC Berkeley
(写真引用元)
(※) Ludwig Maximilian University of Munich & IWR, Heidelberg University, Germany
Robin Rombach
LDM/Stable
Diffusionの発明者
@Stability AI
(写真引用元)
Andreas Blattmann
LDM/Stable Diffusion
の発明者
@Stability AI
(写真引用元)
Diffusionによる画像生成の仕組み
§ Diffusionの仕組み
デノイジング拡散確率モデル(DDPM:Denoising Diffusion Probablistic Model)の論文で提唱された。
従来のGAN等ではランダムノイズから画像を生成していく過程を学習させていたが、Dffusionモデルでは時間tごとに学習画像に徐々にランダムノイズを入れていき、その逆変換を学習。
生成時は逆変換(逆拡散過程)を学習したモデルで画像中のノイズを推論するのを繰り返すことでデノイジングを行う。
このランダムノイズの分布をseedとして生成を行うため、seedの値を変更することで生成する画像も変わる。
9
ノイズ付与=拡散(Diffusion)
綺麗な画像が徐々にノイズとなって消えていく
ノイズ除去=拡散の逆
ノイズが徐々に綺麗な画像になっていく => 画像生成
拡散過程
逆拡散過程
(論文: Denoising Diffusion Probabilistic Models より引用)
https://arxiv.org/abs/2006.11239?ref=ja.stateofaiguides.com
参照・引用した論文や著書を右上部に記載
Denoising Diffusion Probabilistic Models [Ho et al., 2020]
マルコフ連鎖を繰り返す
流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与し、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
10
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
11
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
流行りのStable Diffusionを超ざっくり説明
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能
§ エンコーダデコーダモデル
§ 元々はエンコーダで潜在ベクトルに落とし込みデコーダで似た画像を出力するモデル
§ 潜在ベクトルにすることで次元削減(行列を圧縮することができる)を行うことができ、計算速度が向上する
§ Stable diffusionでは潜在(latent)空間で学習と推論を行っている
12
https://blog.deepblue-ts.co.jp/image-generation/variational-autoencoder-part1/
(Variational Autoencoder(VAE)を学ぼう(1/2) - deepblueより引用)
流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内でおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
13
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
流行りのStable Diffusionを超ざっくり説明
② U-Net:画像中のノイズを推論する部分。
§ 左からノイズ画像の潜在ベクトルを入力し、右で推定ノイズを出力する
§ 時刻情報による条件付けをResBlock(いくつかのconvolution layerをskip connectionがあるブロック)で行う。
※拡散過程は時間による変化のため、時刻情報を組み込むことで時刻によるノイズの変化を考慮できる
§ テキストによる条件付け(後ほど説明するCLIP特徴を用いる)をAttnBlock(attention layerが含まれているブロック)で行う。
14
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
15
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
流行りのStable Diffusionを超ざっくり説明
③ Text Encoder:CLIP
§ 元々は画像とテキストの類似度を推定するモデル
§ 学習時はテキストと画像で対照学習(※)を行いテキストと画像の特徴を同じ空間上に埋め込む、マルチモーダルモデル
§ Stable diffusionではテキストを入力して類似度が高い画像のCLIP特徴を得る
§ CLIP特徴をUnetに差し込むことでテキストによる条件付けが可能
※対照学習: ラベル付けを行うことなく、データ同士を比較する仕組みを用いて
学習できる自己教師あり学習の一つ
16
https://openai.com/research/clip
( CLIP: Connecting text and imagesより引用)
ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース
§ 使う時に注意することはある? → 03 | Diffusionの使用方法と罠
§ 数式も理解したい → 04 | Diffusionの理論
17
18
02 | Diffusionの広がりとユースケース
Stable Diffusionでできること
ランダムノイズの与え方で応用が可能
19
元画像 元画像
img2img
(元に重ねる)
inpainting
(部分的な変更)
outpainting
(領域の拡張)
元画像
“red cloth”
“japanese”
txt2img
(テキストから生成)
真珠の耳飾りの少女
Stable Diffusionの広がり
Stable DiffusionはOSSで公開されていることから、多くのユーザが画像生成に使用する
モデルを公開している。使用するモデルは用途に応じて差し替えが可能。(人物特化・アニ
メ特化のモデルなど)
§ モデル公開サイト
・Hugging Face:自然言語処理に関連したライブラリを中心に開発している米国が公開してい
るサイトで、昨今ではStable Diffusionをはじめとする画像生成モデルも多く公開されている。
同サイト内でデモページも公開されていることがある。
・CivitAI: Stable Diffusionをはじめとする画像生成モデルが多く公開されているサイトで、
モデルから生成した画像が同サイト内で投稿・公開されているためモデルの選定が行いやすい。
20
〜 CivitAIにおける投稿画像 〜
〜 Hugging Faceにおけるデモページ 〜
Stable Diffusionの広がり
Stable DiffusionはOSSで公開されていることから、多くのユーザが画像生成に使用するモ
デルを公開している。使用するモデルは用途に応じて差し替えが可能。(人物特化・アニメ特
化のモデルなど)
§ 公開されているモデルの代表例
・Stable Diffusion:Stability AI社が公開する本家モデル
https://huggingface.co/stabilityai/stable-diffusion-2-1
・Waifu Diffusion:2次元絵の生成が得意
https://huggingface.co/hakurei/waifu-diffusion-v1-4/tree/main
・Realism Engine:リアル系・写真系が得意なモデル
https://civitai.com/models/6424/chilloutmix
21
centred, full body 8k unity render, mechanized man, destroyed spaceship
corridor background, very dark, clutter and mess everywhere, realistic,
kodachrome, cinematic, (highly detailed:1.4),(ultra realistic:1.2)
Negative prompt: 3d, digital art, lowres, bad anatomy, bad hands, text, error,
missing fingers, extra digit, fewer digits, cropped, worst quality, low quality,
normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name
Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 3333, Size: 512x512, Model hash:
6ce0161689, Model: v1-5-pruned-emaonly, Version: v1.2.1
〜 Stable Diffusion 1.5を用いた生成例 〜
〜 生成に用いたプロンプトとパラメータ 〜
※後述する「03 | Diffusionの使用方法と罠」を
よく読んだ上でお使いください。
http://blogcake.net/stable-diffusion-models
Stable Diffusionの広がり
§ Stable Diffusionから生成される画像を制御する手法の数々
詳細で複雑なテキストプロンプト研究が蓄積されてもなお、生成画像の制御性は十分とは言い難いものであったが、さまざ
まなガイダンス手法やfine-tuning手法によって制御性が担保されつつある。
・ControlNet:参照画像の姿勢・輪郭特徴などを参考に画像生成できるようにする手法(プロンプトとの併用可能)
・LoRA:少数画像かつ少ない計算資源でも生成させたい画像を学習させるfine-tuningを可能とする手法
22
〜 ControlNetを用いた生成例(ポーズ特徴) 〜
画像生成のユースケース
§ 各分野でのデザイン制作支援に活用
広告バナー生成し利用:Otakoi
建築デザイン支援ツール: studiffuse
服のデザイン支援ツール:CALA
§ 画像生成サービス自体を提供
著作権問題をクリアにした画像生成モデルで画像編集: Adobe Firefly
23
ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠
§ 数式も理解したい → 04 | Diffusionの理論
24
25
03 | Diffusionの罠
各画像生成サービスの利用条件
§ Stable Diffusionの利用条件
コンテンツ利用条件:商用利用可、著作権表示不要
Stable Diffusionは、その生成画像について、利用規約において、
「ライセンサーは、モデルを使用して生成された生成物について何ら
権利を行使しない」としており、生成画像の利用条件やクレジットに
ついて、第三者の権利を侵害することとなる場合等(その他の制限事
項は利用規約をご参照ください)を除いて、利用規約上、特に制限を
設けてはおりません。
https://huggingface.co/spaces/stabilityai/stable-diffusion
26
https://note.com/mel_legaloffice/n/nb9b187b51a00
使用するモデルの安全性・正当性
§ 悪意のあるモデルがセキュリティホールとなり得る可能性
・ckpt: Pythonで作成したモデルを保存する際の一般的な拡張子だが同時に
任意コード実行のセキュリティリスクがあるため使用する際には注意が必要
・safetensors:柔軟性はないがリスクは低い
§ 悪意のあるモデルかどうかの確認方法
ダウンロードしたアプリやモデルデータのハッシュ値の確認
公式と値が違う=改ざんの可能性があるため細心の注意が必要
27
CIVITAIなどのモデル公開サイトには基本的にハッシュ値が書かれている
著作権について
§ 学習画像の著作権
著作権法の改正によって、著作権の範囲においては、ディープラーニングの学習においてあらゆる画像の「情報解析」用途と
して学習に使用可能という解釈が一般的になされている。
ただし、「情報解析」のためであれば無限定に他人の著作物の利用を認めているわけではなく、「当該著作物の種類及び用途
並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合」には著作物を利用することはできない。(日
本著作権法30条の4但書)。
また、著作権の範囲で問題なくても、画像提供元(ex. Youtube)の利用規約などでサービス外でのダウンロード・機械的に
収集することが禁じられているにも関わらず学習データとして利用した場合は訴訟リスクが存在するので注意。
§ 生成画像の著作権
1. 自動生成画像には著作権が発生しないのが原則:
著作権法2条1項1号において、「著作物」は以下のように定義されている。
(定義)第二条 この法律において、次の各号に掲げる用語の意義は、当該各号に定めるところによる。一 著作物 思想又
は感情を創作的に表現したものであつて、文芸、学術、美術又は音楽の範囲に属するものをいう。
AIが自動で画像を生成する場合、そこに「思想または感情」は介在しないので、原則として著作権が発生しないと解されてい
る。
2. 自動生成画像の著作権が問題になる場合の例:
・人手の修正などでAIと人が協働して画像を生成(作成)した場合
・別の著作物の複製(全く同じもの=トレパク)・翻案(よく似ているもの)である場合
28
https://dime.jp/genre/1593166/ https://storialaw.jp/blog/8820
生成画像による肖像権侵害について
§ 生成画像が特定の人物に似ていた場合の肖像権侵害の有無(※法的整理はまだ十分に
なされておらず、判例も出揃っていないため以下はあくまで1つの解釈)
AI自動生成肖像の利用についてはAIの特殊性を考慮したうえで、以下を総合的に考慮
して肖像権侵害の判断がなされる。(中でも①④は必須要素)
① 実在の人物の容ぼうと生成された人物肖像の同一性
実在する人物と生成画像に含まれる人物がどれだけ似ているか
④ 侵害者の主観的要素
故意又は過失があるかという観点が特に重要となる
・故意の成立:実在している特定の人物の肖像を生成する意図を持って同一肖像を自
動生成しその肖像を利用する場合 /自動生成した結果、実在している特定の人物と同
一肖像であることを認識して当該肖像を利用した場合に故意が成立する
・過失の成立:①データセットに含まれているデータの数が少数の場合、又は ②仮に
データセットに含まれているデータの数が大量であっても、肖像権侵害の危険性が高い利
用態様(アダルト目的など)の場合には、肖像権侵害が生じないか調査義務を行為者に課
すべきとして過失が成立し肖像権侵害成立の可能性あり。逆に③データセットが大量に
ある場合、「世の中に存在するあらゆる人物肖像と、自動生成された人物肖像の一致
度を比較照合する義務」は履行が不可能と考えられるため、過失がなく故意が肯定さ
れない限り肖像権侵害は成立しない可能性が高い。
29
https://storialaw.jp/blog/8424
学習データに関する倫理的な問題
§ 著作権・肖像権をクリアしてもなお残る倫理的な壁
以下のように画像生成の学習データとして自らの画像・著作物を使用されていることに対して苦言
を呈する団体や個人がいるため、企業としてサービス活用する際には炎上リスクを含めた細心の注
意が必要。
・日本俳優連合が生成系AI技術に俳優・声優自らの「表現の模倣・盗用を安易に促し、職域を侵害
する恐れがある」として提言をHP上に公開。
・元画像とほぼ同じ画像を生成してしまうことがあり、絵師の権利を侵害しているとして問題と
なった。
30
https://www.nippairen.com/about/post-14576.html
日本俳優連合の生成系AIに関する提言
ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
§ 数式も理解したい → 04 | Diffusionの理論
31
32
04 | Diffusionの理論
Diffusionを数式で理解したい
§ DDPMの理論を数式で理解したい
33
ノイズ付与=拡散(Diffusion)
綺麗な画像が徐々にノイズとなって消えていく
ノイズ除去=拡散の逆
ノイズが徐々に綺麗な画像になっていく => 画像生成
拡散過程
逆拡散過程
(論文: Denoising Diffusion Probabilistic Models より引用)
Diffusionを数式で理解したい
著書:拡散モデル -データ生成技術の数理- [岡野原大輔, 2023]
に説明を任せることとする。
34
ここまでの進捗
これらの疑問点は解消されていますか?
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
§ 数式も理解したい → 04 | Diffusionの理論(著書:拡散モデル -データ生成技術の数理- [岡野原大輔, 2023]を参照) ✅
35
36
05 | まとめ
本稿を通して以下の疑問が解消できていれば嬉しいです!
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み(Diffusionはノイズ付与の逆で画像を生成している) ✅
§ Stable Diffusionって何? → 01 | Diffusionへの歩み(Stable DiffusionはU-NetとVAEとText Encoderから構成される) ✅
§ Diffusionはなぜテキストから画像が生成できるの? → 01 | Diffusionへの歩み(CLIPで学習されているText Encoderを使用しているから) ✅
§ 画像生成でどんな画像が生成できるの? → 02 | Diffusionの広がりとユースケース(公開サイトのモデルで2次元・リアル特化などの画像が生成可能) ✅
§ 画像生成でお金儲けできるの? → 02 | Diffusionの広がりとユースケース(各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている)
✅
§ 使う時に注意することはある? → 03 | Diffusionの罠(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
§ 数式も理解したい → 04 | Diffusionの理論(モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意) ✅
同じ生成系のLLMと比較して考慮することの多い画像生成ですが、本稿が様々なユースケースを共に探索してくださるきっか
けになれば幸いです。
37
最後に
本稿はさまざまな出典を引用・参照させていただき作成するに至りました。
素晴らしい解説記事・解説資料・解説動画を作成いただいている皆様へ深く感謝の意を表します。
38

More Related Content

What's hot

次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
sesejun
 

What's hot (20)

Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Tensorflow Liteの量子化アーキテクチャ
Tensorflow Liteの量子化アーキテクチャTensorflow Liteの量子化アーキテクチャ
Tensorflow Liteの量子化アーキテクチャ
 
機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望
 
One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
立花氏とのスライドメモ.pptx
立花氏とのスライドメモ.pptx立花氏とのスライドメモ.pptx
立花氏とのスライドメモ.pptx
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づける
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
 
ナレッジグラフとオントロジー
ナレッジグラフとオントロジーナレッジグラフとオントロジー
ナレッジグラフとオントロジー
 
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
 
はじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタはじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタ
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 

Similar to 拡散する画像生成.pdf

Similar to 拡散する画像生成.pdf (20)

ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
ノーコーディングでAIサービスを使ってみた話
ノーコーディングでAIサービスを使ってみた話ノーコーディングでAIサービスを使ってみた話
ノーコーディングでAIサービスを使ってみた話
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
JAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdfJAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdf
 
Custom Vision
Custom VisionCustom Vision
Custom Vision
 
.NET の今と今後に思うこと (Tokyo Ver.)
.NET の今と今後に思うこと (Tokyo Ver.).NET の今と今後に思うこと (Tokyo Ver.)
.NET の今と今後に思うこと (Tokyo Ver.)
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
Arduino で組み込み開発 - 京都TECH オープンキャンパス2021
Arduino で組み込み開発 - 京都TECH オープンキャンパス2021Arduino で組み込み開発 - 京都TECH オープンキャンパス2021
Arduino で組み込み開発 - 京都TECH オープンキャンパス2021
 
AIの見方、AIとの付き合い方
AIの見方、AIとの付き合い方AIの見方、AIとの付き合い方
AIの見方、AIとの付き合い方
 
05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料
 
講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」
講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」
講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」
 
.NET 最新ロードマップと今押さえておきたい技術要素
.NET 最新ロードマップと今押さえておきたい技術要素.NET 最新ロードマップと今押さえておきたい技術要素
.NET 最新ロードマップと今押さえておきたい技術要素
 
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみたタクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
 
Jazug Cognitive Services Overview_20170824
Jazug Cognitive Services Overview_20170824Jazug Cognitive Services Overview_20170824
Jazug Cognitive Services Overview_20170824
 
UnityとAmazon Web Servicesで生み出す新しい価値
UnityとAmazon Web Servicesで生み出す新しい価値UnityとAmazon Web Servicesで生み出す新しい価値
UnityとAmazon Web Servicesで生み出す新しい価値
 

Recently uploaded

Recently uploaded (10)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

拡散する画像生成.pdf