makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf

Makoto Shing @ Stability AI
@mk1stats
Stable Diffusionにおける追加学習
Textual Inversion / DreamBooth / LoRA etc.

Makoto Shing
• 大学では応用数理を専攻
• rinna株式会社を経て、
Stability AI Japanにジョイン
• Japanese CLIPやJapanese
Stable Di
ff
usionを研究開発
• 「犬と少年」
自己紹介

Stable Diffusion
もはや知らない人はいないText-to-imageモデル
https://clipdrop.co/stable-di
ff
usion で最新のSDXLをお試しいただけます！

Stable Diffusion
どんな構造？
3つの部分からなるText-to-imageモデル
1. Text Encoder テキストを解釈
2. Di
ff
usion Model（DM）テキストを考慮しながら小さい画像を生成する
3. Autoencoder 小さい画像を大きい画像にする
※もうちょっと直感的な説明は、日経から出した画像生成AI 見分けられる？クイズ&ビジュアル解説

汎用事前学習モデルの課題
追加学習の重要性
• 事前学習データセットの性質に起因した画像生成
（例：出力が西洋風になりがち）
• テキストプロンプトのみによるコントロールに限度
• 追加情報によるコントロール（例：線画、セグメンテーション）
• 特定の対象物（ターゲット）の画像生成（例：自分のペット）

汎用事前学習モデルの課題
追加学習の重要性
• 事前学習データセットの性質に起因した画像生成
（例：出力が西洋風になりがち）
• テキストプロンプトのみによるコントロールに限度
• 追加情報によるコントロール（例：線画、セグメンテーション）
• 特定の対象物（ターゲット）の画像生成（例：自分のペット）
本日のトピック

本日の流れ
追加学習の中でも、Personalizationタスクについて話します
• Personalizationタスク（問題設定）
• 代表的なPer-object optimization手法
• 代表的なPer-object optimization free手法
• まとめ
• 最近の流れ
• 課題点

Personalizationタスク
問題設定
”バケツに入った[この犬]”
ターゲット画像
任意のテキストプロンプト
プロンプトに沿っていて、
ターゲットが描かれた画像

評価規準
• Image alignment
…ターゲット画像に沿った生成か
• Text alignment
…テキストプロンプトに沿っているか
• 汎用性
…様々なテキストプロンプトに対応可能か
• コスト
…学習時間や必要なマシン
https://dreambooth.github.io/

手法の全体像
Per-object optimization (POO)
ターゲットごとに学習
POO-free
大規模クラスデータで学習された追加エンコーダーを用いて、
低コストでPersonalization
• E4T
• Taming Encoder
• InstantBooth
• Perfusion
• FastComposer
• …
• Textual Inversion
• DreamBooth
• LoRA
• Custom Di
ff
usion
• SVDi
ff
• Di
ff
Fit
• …
Image Editing
1枚の画像の一部を修正
• SDEdit
• Imagic
• Prompt-to-Prompt
• InstructPix2Pix

代表的な Per-object
optimization手法

[手法名]
Citation
• 手法の説明
• メリット
• デメリット
• 追加のコメント
こんなテンプレートで
手法を紹介していきます

Textual Inversion
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (Rinon Gal et al., 2022)
• ターゲット画像を学習対象のsoft prompt(s)に押し
込める i.e. Prompt-tuning T2I版
• 低コスト（一番学習対象パラメータ数少ない）
• DMを一切学習しないためOODデータには非対応
• 他の手法より、Text/Image alignmentが低い
• 拡張手法によりスコアが向上
• P+ (Andrey Voynov et al.) … UNetの各レイヤ
ごとに異なるsoft promptsを挿入
• Quick Embedding … まずCLIPのcos simに対
して最適化してから、Textual Inversion
Textual Inversion P+

DreamBooth
DreamBooth: Fine Tuning Text-to-Image Di
ff
usion Models for Subject-Driven Generation (Nataniel Ruiz et al., 2022)
• DMを単にFine-tuning
• テクニックとして、
• Unique identi
fi
er tokenの導入
• Over
fi
tting抑制のための、
Prior Preservation lossの提案
• OODデータにも対応し、Image alignmentスコアが高
い
• DM全体をFine-tuningするため、高コスト
• Mixed precisionや8-bit Adamなどの導入により、より低コスト
• Unique identi
fi
er tokenのembedとAttention層のKey/
Valueの重みのみ学習するCustom Di
ff
usionはより効
率的に学習が可能

LoRA
LoRA: Low-Rank Adaptation of Large Language Models (Edward J. Hu et al., 2021)
• NLPにて提案されたPEFT手法の一つLoRAをT2Iに適用*
• DMのAttention層の各重みにrank decomposition行列
を加え、その追加された部分のみ学習
• Personalizationモデルの重みが次のように表されることを仮定
, （は事前学習モデルの重み）
• DreamBoothより低コストにも関わらず、Image
alignmentスコアは同等
• Under
fi
ttingの可能性が報告されている**
• Attention層以外にも適用可能であるため、拡張が簡単
W′

W′

= W0 + ΔW = W0 + BA W0
*LoRAの論文は古いが、T2Iに適用されたのは2023年2月。https://github.com/cloneofsimo/lora
**SVDi
ff
: Compact Parameter Space for Di
ff
usion Fine-Tuning (Ligong Han et al., 2023)

SVDiff
SVDi
ff
ff
usion Fine-Tuning (Ligong Han et al., 2023)
• DMのすべての重みに対してSVDを行い、特異値の差
分部分（以下、）のみを学習
• 事前学習DMにおける任意の重みに対して、SVDにより:
• このとき、対応するPersonalizationモデルの重みを以下で
定義する:
• 複数の重みを混ぜ合わせるStyle Mixingや、複数の
ターゲットに対するMulti-subjectにも対応
• LoRAより少ない追加パラメータにも関わらず、
DreamBooth（DB）やLoRAに匹敵
• Image AlignmentがDBやLoRAよりやや低い
• mkshing/svdi
ff
-pytorchにて試すことが可能
δ
W
W = UΣV⊤
, Σ = diag(σ)
W′

W′

= UΣ′

V⊤
, Σ′

:= diag(ReLU(σ + δ))
W = U
Σ
V⊤
× ×
0
0
σ1
σ2
σr
δ1
δ2
δr
🔥

DiffFit
Di
ff
Fit: Unlocking Transferability of Large Di
ff
usion Models via Simple Parameter-E
ffi
cient Fine-Tuning (Enze Xie et al., 2023)
• モデルのバイアス項のみを学習するBitFitのDMへ
の拡張手法
• バイアス項に加え、LNとscale factor項を学習対
象とする
• 論文ではDMがDiTに適用しているが、拡張可能
• LoRAより少ない追加パラメータ
• BitFitでDBに匹敵する性能が出たとの報告あり*
• まだ自分の実験では良い精度が確認できず
• mkshing/Di
ff
Fit-pytorchにて試すことが可能
*https://twitter.com/okarisman/status/1647291808261480450

比較（学習パラメータ数とtext/image alignment）
# of trainable params
Texual Inversion 768
DreamBooth 859.52 M
Custom Di
ff
usion 1.17 M
LoRA (rank=16) 3.19 M
LoRA (rank=4) 0.80 M
SVDi
f
0.28 M
BitFit 0.34 M
Di
ff
Fit 0.58 M
図1はSVDi
ff
ff
usion Fine-Tuning (Ligong Han et al., 2023)より引用
表1: 手法と学習パラメータ数
図1: 各手法のtext/image alignment score

代表的なPer-object
optimization free手法

E4T
Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models (Rinon Gal et al., 2023)
• ターゲット画像とDi
ff
usion Processのノイズ化し
た画像を考慮したembedを出力するInversion
Encoderを導入
• よりチューニング性能をあげるために、Attention
層の重みを、Prior Networkにより更新
• まず大規模クラスデータで事前学習することで、
学習を効率化
• 5-15ステップでチューニング完了
• チューニングフェーズでは、すべての重みを更新
するため、学習コストがかなり高い
• クラスごとに学習をしなければならない
• mkshing/e4t-di
ff
usionにて試すことが可能
Inversion Encoder:
生成モデル，とターゲット画像に対して、Inversion
Encoder とは
G Ic
E
G (E(Ic)) ∼ Ic
Prior Network (Weight O
ff
sets):
事前学習モデルの重みからの”シフト”を推定

Taming Encoder
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Di
ff
usion Models (Xuhui Jia et al., 2023)
• ターゲット画像の情報を抜き取る、Object
Encoderを導入
• DMに得たObject情報を考慮するCross-attn層を追
加し、DM全体を学習する
• 事前学習段階で、クラスデータに加え、一般的なT2I
データを混ぜることで、パフォーマンス向上
• E4Tとは異なり、完全なper-object optimization
free
• 1枚のターゲット画像のみ入力可能
• これにより、詳細な情報が生成されないケースが
あると報告している
• Implementationは近日公開予定
Cross-attention
Self-attention
Cross-attention
Object Text Visual

InstantBooth
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning (Jing Shi et al., 2023)
• ターゲット画像の情報を抜き取る、Object
Encoderを導入
• Taming Encoderと異なり、textual inversion
情報としても使う
• DMに得たObject情報を考慮するAdapter層を追加
し、Object EncoderとAdapterのみ学習
• 完全なper-object optimization free
• PEFTを導入したことで、学習が低コスト
• Implementationは近日公開予定
Cross-attention
Self-attention
Adapter (Gated Self-attn)
Object Text Visual

FastComposer
FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention (Guangxuan Xiao et al., 2023)
• ターゲット画像とそのクラストークンどちらも考
慮したembedを出力するInversion Encoderを導入
• 推論時には、途中のステップからターゲット画
像を条件付けする手法を提案
• Identity Blending*の解決策として、各ターゲット
のMaskとCross-Attn Mapsの差を測るロスを導
入
• Identity Blendingを解決した複数ターゲット生成
に加え、単一ターゲット生成も可能
• Mask画像などのデータセット準備が大変
• コード（現在推論のみ）が公開されており、試す
こと可能（mit-han-lab/fastcomposer）
推論時は、ある時点まではテキストだけで、
それ以降か画像を条件付けする
各SubjectのSegmentation maskとCross-
Attention Mapsの差を最小にするように学習
*複数ターゲットの場合、AがBに寄った生成になったりする現象

ProFusion
Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach (Yufan Zhou et al., 2023)
• ターゲット画像とDi
ff
usion Processのノイズ化し
た画像を考慮したembedを出力するInversion
Encoder（PromptNet）を導入
• ターゲット画像らしさを保持しつつ、promptに
沿った画像生成が可能な新たなサンプリング手法
（Fusion Sampling）を提案
• 30秒でチューニング完了（バッチサイズ8、50ステップ）
• チューニングフェーズでは、PromptNetとDMの
Attention層を更新するため、学習コストが高い
• コード（学習含む）が公開されており、試すこと
可能（drboog/ProFusion）
ターゲット画像とDi
ff
usion Processの各時点の
ノイズ画像を考慮したinversion embed
🚨Released yesterday!!

最近の流れ
Personalization手法の方向性
• Per-object optimization
• DreamBoothはコストが高いため、少ないパラメータでチューニング
• Per-object optimization free
• 画像を解釈するEncoderを追加し、その情報を考慮した構造の提案
• クラスごとに学習し、クラスに特化したPersonalizationモデルを構築
• 複数のターゲットを考慮

課題点
まだまだ研究の余地がある
• Personalizationタスクにおける、正確な指標がなく、比較が難しい
• Per-object optimizationは、ターゲットごとに学習が必要で高コスト
• Per-object optimization freeは、ターゲットごとの学習がいらない代わり
に、クラスごとに大規模な事前学習が必要
• コードやモデルをリリースしている論文が少なく、実験が容易でない
• オープンソース化の重要性💪

AI for all
（日本語）@StabilityAI_JP
（global） @StabilityAI
https://discord.com/invite/uCXFcuyfQx

makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf

Similar to makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf (20)

More from Akira Shibata

More from Akira Shibata (20)

makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf