拡散する画像生成.pdf

拡散する画像生成
川波稜 / 中村圭佑
最終更新日：2023年8月3日
初稿作成日：2023年5月9日

発表者の紹介
◆ 川波稜
株式会社NTTドコモサービスイノベーション部先進技術推進担当 RaTチーム所属。2020
年度に画像認識チーム配属後、「AI-OCRにおける文字検出エンジン開発」「少数画像におけ
るデータオーグメンテーションを用いた精度向上」「画像生成AIを用いたサービス開発」など
の業務や技術情報を発信するためのNTTドコモR&Dアドベントカレンダー2021年・2022
年運営を担当。
全日本コンピュータビジョン勉強会、Deep Learning連絡会、Data Science Cafeなどの勉
強会で登壇発表。東京大学大学院学際情報学府先端表現情報学コース修了。福岡県出身。
2
◆ 中村圭佑
株式会社NTTドコモサービスイノベーション部第二メディアAI担当画像認識チーム所属。
2022年度に画像認識チーム配属後、「農業ドローンAIの研究開発」「画像生成AIを用いた
サービス開発」などの業務に従事。
NTTドコモR&Dアドベントカレンダー2022年運営を担当。
早稲田大学大学院創造理工学研究科地球・環境資源理工学専攻修了。東京都出身。

読むと分かること
本稿では以下のような疑問に答えたいと思います。
§ 難しい数式は置いておいて知っておくべき概要を理解したい
§ Stable Diffusionって何？
§ Diffusionはなぜテキストから画像が生成できるの？
§ 画像生成でどんな画像が生成できるの？
§ 画像生成でお金儲けできるの？
§ 使う時に注意することはある？
§ 数式も理解したい
5

画像生成AIの変遷 ~Stable Diffusionに至るまで~
§ 画像生成の技術変遷
VAE・ GANからStable Diffusion登場までの時系列
8
Stable Diffusion
Rombach and
Blattmann@(※)
LDM論文の手法が
github上でOSSとし
て公開された。コ
ミュニティのサポー
トを受け今後更なる
発展が予想される
Midjourney
David Holz
@Leap Motion
デザイン性の高
い絵に特化した
画像を生成可能
なサービスとし
てDiscordなど
で提供
DALL-E2
Nichol
@OpenAI
大量データを
学習させた
大規模モデル
LDM
Rombach and
Blattmann@(※)
VAEによる潜在空
間への次元圧縮に
よりさらに高速化
したStable
Difusionの元論文
2022.8
2022.7
Imagen
Saharia
@Google
テキストエ
ンコーダー
を改良し
CLIPを使
わず生成可
能になった
2022.5
2022.4
2021.12
2021.12
GLIDE
Nichol
@OpenAI
画像生成に
CLIPを適用
ADM
Dhariwal and
Nichol @OpenAI
高解像度化の
キモとなった
手法でここで
GANを凌駕した
2021.3
2020.10
DDIM
Song
＠Stanford Univ.
品質を保ったまま
のステップ数の削
減を行う高速化に
関する手法
2014.6
GAN
Goodfellow
@Montreal Univ.
敵対的学習を用いた
高品質画像生成の
パイオニア
VAE
Kingma
@Amsterdam Univ.
エンコーダで潜在
空間へ変換した画
像からデコーダで
似た画像を生成す
るモデル
2013.12 2020.6
DDPM
Ho
@UC Berkley
Diffusion model
の基礎が提案され
た
Diederik P Kingma
VAEの生みの親
@OpenAI創業メンバ
→DeepMind/Google Brain
（写真引用元）
Ian J. Goodfellow
GANの生みの親
@Google Brain
→Apple
Jiaming Song
DDIMの理論提唱者
Research Scientist
@Stanford Uni.→NVIDIA
Alex Nichol
DDIMの理論提唱者
/GLIDE・DALL-E2
発明者＠OpenAI
§ 画像生成に携わった重要人物
2021.2
CLIP
Alec Radford
@OpenAI
テキストと画像の
類似度を推定する
モデル。現在はテ
キストと画像の紐
付けが可能とする
テキストエンコー
ダーとして利用
Jonathan Ho
DDPMの理論提唱者
PhD@UC Berkeley
(※) Ludwig Maximilian University of Munich & IWR, Heidelberg University, Germany
Robin Rombach
LDM/Stable
Diffusionの発明者
＠Stability AI
Andreas Blattmann
LDM/Stable Diffusion
の発明者
＠Stability AI

Diffusionによる画像生成の仕組み
§ Diffusionの仕組み
デノイジング拡散確率モデル（DDPM：Denoising Diffusion Probablistic Model）の論文で提唱された。
従来のGAN等ではランダムノイズから画像を生成していく過程を学習させていたが、Dffusionモデルでは時間tごとに学習画像に徐々にランダムノイズを入れていき、その逆変換を学習。
生成時は逆変換(逆拡散過程)を学習したモデルで画像中のノイズを推論するのを繰り返すことでデノイジングを行う。
このランダムノイズの分布をseedとして生成を行うため、seedの値を変更することで生成する画像も変わる。
9
ノイズ付与=拡散（Diffusion）
綺麗な画像が徐々にノイズとなって消えていく
ノイズ除去=拡散の逆
ノイズが徐々に綺麗な画像になっていく => 画像生成
拡散過程
逆拡散過程
（論文： Denoising Diffusion Probabilistic Models より引用）
https://arxiv.org/abs/2006.11239?ref=ja.stateofaiguides.com
参照・引用した論文や著書を右上部に記載
Denoising Diffusion Probabilistic Models [Ho et al., 2020]
マルコフ連鎖を繰り返す

流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与し、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE：VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net：画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder：CLIPというモデルでテキストから特徴量を取得
10
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
（Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！@omiita より引用）
③
① ①
②

§ Stable Diffusion
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
11
③
① ①
②

①VAE：VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能
§ エンコーダデコーダモデル
§ 元々はエンコーダで潜在ベクトルに落とし込みデコーダで似た画像を出力するモデル
§ 潜在ベクトルにすることで次元削減(行列を圧縮することができる)を行うことができ、計算速度が向上する
§ Stable diffusionでは潜在(latent)空間で学習と推論を行っている
12
https://blog.deepblue-ts.co.jp/image-generation/variational-autoencoder-part1/
（Variational Autoencoder(VAE)を学ぼう（1/2） - deepblueより引用）

§ Stable Diffusion
② U-Net：画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内でおこなっている。
13
③
① ①
②

② U-Net：画像中のノイズを推論する部分。
§ 左からノイズ画像の潜在ベクトルを入力し、右で推定ノイズを出力する
§ 時刻情報による条件付けをResBlock(いくつかのconvolution layerをskip connectionがあるブロック)で行う。
※拡散過程は時間による変化のため、時刻情報を組み込むことで時刻によるノイズの変化を考慮できる
§ テキストによる条件付け(後ほど説明するCLIP特徴を用いる)をAttnBlock(attention layerが含まれているブロック)で行う。
14

§ Stable Diffusion
15
③
① ①
②

③ Text Encoder：CLIP
§ 元々は画像とテキストの類似度を推定するモデル
§ 学習時はテキストと画像で対照学習(※)を行いテキストと画像の特徴を同じ空間上に埋め込む、マルチモーダルモデル
§ Stable diffusionではテキストを入力して類似度が高い画像のCLIP特徴を得る
§ CLIP特徴をUnetに差し込むことでテキストによる条件付けが可能
※対照学習: ラベル付けを行うことなく、データ同士を比較する仕組みを用いて
学習できる自己教師あり学習の一つ
16
https://openai.com/research/clip
（ CLIP: Connecting text and imagesより引用）

ここまでの進捗
これらの疑問点は解消されていますか？
§ 難しい数式は置いておいて知っておくべき概要を理解したい → 01 | Diffusionへの歩み（Diffusionはノイズ付与の逆で画像を生成している） ✅
§ Stable Diffusionって何？ → 01 | Diffusionへの歩み（Stable DiffusionはU-NetとVAEとText Encoderから構成される） ✅
§ Diffusionはなぜテキストから画像が生成できるの？ → 01 | Diffusionへの歩み（CLIPで学習されているText Encoderを使用しているから） ✅
§ 画像生成でどんな画像が生成できるの？ → 02 | Diffusionの広がりとユースケース
§ 画像生成でお金儲けできるの？ → 02 | Diffusionの広がりとユースケース
§ 使う時に注意することはある？ → 03 | Diffusionの使用方法と罠
17

18
02 | Diffusionの広がりとユースケース

Stable Diffusionでできること
ランダムノイズの与え方で応用が可能
19
元画像元画像
img2img
（元に重ねる）
inpainting
（部分的な変更）
outpainting
（領域の拡張）
元画像
“red cloth”
“japanese”
txt2img
（テキストから生成)
真珠の耳飾りの少女

Stable Diffusionの広がり
Stable DiffusionはOSSで公開されていることから、多くのユーザが画像生成に使用する
モデルを公開している。使用するモデルは用途に応じて差し替えが可能。（人物特化・アニ
メ特化のモデルなど）
§ モデル公開サイト
・Hugging Face：自然言語処理に関連したライブラリを中心に開発している米国が公開してい
るサイトで、昨今ではStable Diffusionをはじめとする画像生成モデルも多く公開されている。
同サイト内でデモページも公開されていることがある。
・CivitAI： Stable Diffusionをはじめとする画像生成モデルが多く公開されているサイトで、
モデルから生成した画像が同サイト内で投稿・公開されているためモデルの選定が行いやすい。
20
〜 CivitAIにおける投稿画像〜
〜 Hugging Faceにおけるデモページ〜

Stable DiffusionはOSSで公開されていることから、多くのユーザが画像生成に使用するモ
デルを公開している。使用するモデルは用途に応じて差し替えが可能。（人物特化・アニメ特
化のモデルなど）
§ 公開されているモデルの代表例
・Stable Diffusion：Stability AI社が公開する本家モデル
https://huggingface.co/stabilityai/stable-diffusion-2-1
・Waifu Diffusion：2次元絵の生成が得意
https://huggingface.co/hakurei/waifu-diffusion-v1-4/tree/main
・Realism Engine：リアル系・写真系が得意なモデル
https://civitai.com/models/6424/chilloutmix
21
centred, full body 8k unity render, mechanized man, destroyed spaceship
corridor background, very dark, clutter and mess everywhere, realistic,
kodachrome, cinematic, (highly detailed:1.4),(ultra realistic:1.2)
Negative prompt: 3d, digital art, lowres, bad anatomy, bad hands, text, error,
missing fingers, extra digit, fewer digits, cropped, worst quality, low quality,
normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name
Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 3333, Size: 512x512, Model hash:
6ce0161689, Model: v1-5-pruned-emaonly, Version: v1.2.1
〜 Stable Diffusion 1.5を用いた生成例〜
〜生成に用いたプロンプトとパラメータ〜
※後述する「03 | Diffusionの使用方法と罠」を
よく読んだ上でお使いください。
http://blogcake.net/stable-diffusion-models

§ Stable Diffusionから生成される画像を制御する手法の数々
詳細で複雑なテキストプロンプト研究が蓄積されてもなお、生成画像の制御性は十分とは言い難いものであったが、さまざ
まなガイダンス手法やfine-tuning手法によって制御性が担保されつつある。
・ControlNet：参照画像の姿勢・輪郭特徴などを参考に画像生成できるようにする手法（プロンプトとの併用可能）
・LoRA：少数画像かつ少ない計算資源でも生成させたい画像を学習させるfine-tuningを可能とする手法
22
〜 ControlNetを用いた生成例（ポーズ特徴）〜

画像生成のユースケース
§ 各分野でのデザイン制作支援に活用
広告バナー生成し利用：Otakoi
建築デザイン支援ツール： studiffuse
服のデザイン支援ツール：CALA
§ 画像生成サービス自体を提供
著作権問題をクリアにした画像生成モデルで画像編集： Adobe Firefly
23

§ 画像生成でどんな画像が生成できるの？ → 02 | Diffusionの広がりとユースケース（公開サイトのモデルで2次元・リアル特化などの画像が生成可能） ✅
§ 画像生成でお金儲けできるの？ → 02 | Diffusionの広がりとユースケース（各分野でのデザイン制作支援や画像生成サービス自体を展開しお金儲けしている）
✅
§ 使う時に注意することはある？ → 03 | Diffusionの罠
24

各画像生成サービスの利用条件
§ Stable Diffusionの利用条件
コンテンツ利用条件：商用利用可、著作権表示不要
Stable Diffusionは、その生成画像について、利用規約において、
「ライセンサーは、モデルを使用して生成された生成物について何ら
権利を行使しない」としており、生成画像の利用条件やクレジットに
ついて、第三者の権利を侵害することとなる場合等（その他の制限事
項は利用規約をご参照ください）を除いて、利用規約上、特に制限を
設けてはおりません。
https://huggingface.co/spaces/stabilityai/stable-diffusion
26
https://note.com/mel_legaloffice/n/nb9b187b51a00

使用するモデルの安全性・正当性
§ 悪意のあるモデルがセキュリティホールとなり得る可能性
・ckpt： Pythonで作成したモデルを保存する際の一般的な拡張子だが同時に
任意コード実行のセキュリティリスクがあるため使用する際には注意が必要
・safetensors：柔軟性はないがリスクは低い
§ 悪意のあるモデルかどうかの確認方法
ダウンロードしたアプリやモデルデータのハッシュ値の確認
公式と値が違う＝改ざんの可能性があるため細心の注意が必要
27
CIVITAIなどのモデル公開サイトには基本的にハッシュ値が書かれている

著作権について
§ 学習画像の著作権
著作権法の改正によって、著作権の範囲においては、ディープラーニングの学習においてあらゆる画像の「情報解析」用途と
して学習に使用可能という解釈が一般的になされている。
ただし、「情報解析」のためであれば無限定に他人の著作物の利用を認めているわけではなく、「当該著作物の種類及び用途
並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合」には著作物を利用することはできない。（日
本著作権法30条の4但書）。
また、著作権の範囲で問題なくても、画像提供元（ex. Youtube）の利用規約などでサービス外でのダウンロード・機械的に
収集することが禁じられているにも関わらず学習データとして利用した場合は訴訟リスクが存在するので注意。
§ 生成画像の著作権
1. 自動生成画像には著作権が発生しないのが原則：
著作権法2条1項1号において、「著作物」は以下のように定義されている。
（定義）第二条この法律において、次の各号に掲げる用語の意義は、当該各号に定めるところによる。一著作物思想又
は感情を創作的に表現したものであつて、文芸、学術、美術又は音楽の範囲に属するものをいう。
AIが自動で画像を生成する場合、そこに「思想または感情」は介在しないので、原則として著作権が発生しないと解されてい
る。
2. 自動生成画像の著作権が問題になる場合の例：
・人手の修正などでAIと人が協働して画像を生成（作成）した場合
・別の著作物の複製（全く同じもの=トレパク）・翻案（よく似ているもの）である場合
28
https://dime.jp/genre/1593166/ https://storialaw.jp/blog/8820

生成画像による肖像権侵害について
§ 生成画像が特定の人物に似ていた場合の肖像権侵害の有無（※法的整理はまだ十分に
なされておらず、判例も出揃っていないため以下はあくまで１つの解釈）
AI自動生成肖像の利用についてはAIの特殊性を考慮したうえで、以下を総合的に考慮
して肖像権侵害の判断がなされる。（中でも①④は必須要素）
① 実在の人物の容ぼうと生成された人物肖像の同一性
実在する人物と生成画像に含まれる人物がどれだけ似ているか
④ 侵害者の主観的要素
故意又は過失があるかという観点が特に重要となる
・故意の成立：実在している特定の人物の肖像を生成する意図を持って同一肖像を自
動生成しその肖像を利用する場合 /自動生成した結果、実在している特定の人物と同
一肖像であることを認識して当該肖像を利用した場合に故意が成立する
・過失の成立：①データセットに含まれているデータの数が少数の場合、又は ②仮に
データセットに含まれているデータの数が大量であっても、肖像権侵害の危険性が高い利
用態様（アダルト目的など）の場合には、肖像権侵害が生じないか調査義務を行為者に課
すべきとして過失が成立し肖像権侵害成立の可能性あり。逆に③データセットが大量に
ある場合、「世の中に存在するあらゆる人物肖像と、自動生成された人物肖像の一致
度を比較照合する義務」は履行が不可能と考えられるため、過失がなく故意が肯定さ
れない限り肖像権侵害は成立しない可能性が高い。
29
https://storialaw.jp/blog/8424

学習データに関する倫理的な問題
§ 著作権・肖像権をクリアしてもなお残る倫理的な壁
以下のように画像生成の学習データとして自らの画像・著作物を使用されていることに対して苦言
を呈する団体や個人がいるため、企業としてサービス活用する際には炎上リスクを含めた細心の注
意が必要。
・日本俳優連合が生成系AI技術に俳優・声優自らの「表現の模倣・盗用を安易に促し、職域を侵害
する恐れがある」として提言をHP上に公開。
・元画像とほぼ同じ画像を生成してしまうことがあり、絵師の権利を侵害しているとして問題と
なった。
30
https://www.nippairen.com/about/post-14576.html
日本俳優連合の生成系AIに関する提言

✅
§ 使う時に注意することはある？ → 03 | Diffusionの罠（モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意） ✅
31

Diffusionを数式で理解したい
§ DDPMの理論を数式で理解したい
33
ノイズ付与=拡散（Diffusion）
綺麗な画像が徐々にノイズとなって消えていく
ノイズ除去=拡散の逆
ノイズが徐々に綺麗な画像になっていく => 画像生成
拡散過程
逆拡散過程
（論文： Denoising Diffusion Probabilistic Models より引用）

Diffusionを数式で理解したい
著書：拡散モデル -データ生成技術の数理- [岡野原大輔, 2023]
に説明を任せることとする。
34

✅
§ 数式も理解したい → 04 | Diffusionの理論（著書：拡散モデル -データ生成技術の数理- [岡野原大輔, 2023]を参照） ✅
35

本稿を通して以下の疑問が解消できていれば嬉しいです！
✅
§ 数式も理解したい → 04 | Diffusionの理論（モデル・拡張機能のセキュリティリスク・著作権・肖像権・倫理上のリスクに注意） ✅
同じ生成系のLLMと比較して考慮することの多い画像生成ですが、本稿が様々なユースケースを共に探索してくださるきっか
けになれば幸いです。
37

最後に
本稿はさまざまな出典を引用・参照させていただき作成するに至りました。
素晴らしい解説記事・解説資料・解説動画を作成いただいている皆様へ深く感謝の意を表します。
38

拡散する画像生成.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 拡散する画像生成.pdf

Similar to 拡散する画像生成.pdf (20)

Recently uploaded

Recently uploaded (10)

拡散する画像生成.pdf