SlideShare a Scribd company logo
1 of 29
Download to read offline
Makoto Shing @ Stability AI
@mk1stats
Stable Diffusionにおける追加学習
Textual Inversion / DreamBooth / LoRA etc.
Makoto Shing
• 大学では応用数理を専攻
• rinna株式会社を経て、
Stability AI Japanにジョイン
• Japanese CLIPやJapanese
Stable Di
ff
usionを研究開発
• 「犬と少年」
自己紹介
Stable Diffusion
もはや知らない人はいないText-to-imageモデル
https://clipdrop.co/stable-di
ff
usion で最新のSDXLをお試しいただけます!
Stable Diffusion
どんな構造?
3つの部分からなるText-to-imageモデル
1. Text Encoder テキストを解釈
2. Di
ff
usion Model(DM) テキストを考慮しながら小さい画像を生成する
3. Autoencoder 小さい画像を大きい画像にする
※もうちょっと直感的な説明は、日経から出した画像生成AI 見分けられる? クイズ&ビジュアル解説
汎用事前学習モデルの課題
追加学習の重要性
• 事前学習データセットの性質に起因した画像生成
(例:出力が西洋風になりがち)
• テキストプロンプトのみによるコントロールに限度
• 追加情報によるコントロール(例:線画、セグメンテーション)
• 特定の対象物(ターゲット)の画像生成(例:自分のペット)
汎用事前学習モデルの課題
追加学習の重要性
• 事前学習データセットの性質に起因した画像生成
(例:出力が西洋風になりがち)
• テキストプロンプトのみによるコントロールに限度
• 追加情報によるコントロール(例:線画、セグメンテーション)
• 特定の対象物(ターゲット)の画像生成(例:自分のペット)
本日のトピック
本日の流れ
追加学習の中でも、Personalizationタスクについて話します
• Personalizationタスク(問題設定)
• 代表的なPer-object optimization手法
• 代表的なPer-object optimization free手法
• まとめ
• 最近の流れ
• 課題点
Personalizationタスク
Personalizationタスク
問題設定
”バケツに入った[この犬]”
ターゲット画像
任意のテキストプロンプト
プロンプトに沿っていて、
ターゲットが描かれた画像
Personalizationタスク
評価規準
• Image alignment
…ターゲット画像に沿った生成か
• Text alignment
…テキストプロンプトに沿っているか
• 汎用性
…様々なテキストプロンプトに対応可能か
• コスト
…学習時間や必要なマシン
https://dreambooth.github.io/
Personalizationタスク
手法の全体像
Per-object optimization (POO)
ターゲットごとに学習
POO-free
大規模クラスデータで学習された追加エンコーダーを用いて、
低コストでPersonalization
• E4T
• Taming Encoder
• InstantBooth
• Perfusion
• FastComposer
• …
• Textual Inversion
• DreamBooth
• LoRA
• Custom Di
ff
usion
• SVDi
ff
• Di
ff
Fit
• …
Image Editing
1枚の画像の一部を修正
• SDEdit
• Imagic
• Prompt-to-Prompt
• InstructPix2Pix
代表的な Per-object
optimization手法
[手法名]
Citation
• 手法の説明
• メリット
• デメリット
• 追加のコメント
こんなテンプレートで
手法を紹介していきます
Textual Inversion
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (Rinon Gal et al., 2022)
• ターゲット画像を学習対象のsoft prompt(s)に押し
込める i.e. Prompt-tuning T2I版
• 低コスト(一番学習対象パラメータ数少ない)
• DMを一切学習しないためOODデータには非対応
• 他の手法より、Text/Image alignmentが低い
• 拡張手法によりスコアが向上
• P+ (Andrey Voynov et al.) … UNetの各レイヤ
ごとに異なるsoft promptsを挿入
• Quick Embedding … まずCLIPのcos simに対
して最適化してから、Textual Inversion
Textual Inversion P+
DreamBooth
DreamBooth: Fine Tuning Text-to-Image Di
ff
usion Models for Subject-Driven Generation (Nataniel Ruiz et al., 2022)
• DMを単にFine-tuning
• テクニックとして、
• Unique identi
fi
er tokenの導入
• Over
fi
tting抑制のための、
Prior Preservation lossの提案
• OODデータにも対応し、Image alignmentスコアが高
い
• DM全体をFine-tuningするため、高コスト
• Mixed precisionや8-bit Adamなどの導入により、より低コスト
• Unique identi
fi
er tokenのembedとAttention層のKey/
Valueの重みのみ学習するCustom Di
ff
usionはより効
率的に学習が可能
LoRA
LoRA: Low-Rank Adaptation of Large Language Models (Edward J. Hu et al., 2021)
• NLPにて提案されたPEFT手法の一つLoRAをT2Iに適用*
• DMのAttention層の各重みにrank decomposition行列
を加え、その追加された部分のみ学習
• Personalizationモデルの重み が次のように表されることを仮定
, ( は事前学習モデルの重み)
• DreamBoothより低コストにも関わらず、Image
alignmentスコアは同等
• Under
fi
ttingの可能性が報告されている**
• Attention層以外にも適用可能であるため、拡張が簡単
W′

W′

= W0 + ΔW = W0 + BA W0
*LoRAの論文は古いが、T2Iに適用されたのは2023年2月。https://github.com/cloneofsimo/lora
**SVDi
ff
: Compact Parameter Space for Di
ff
usion Fine-Tuning (Ligong Han et al., 2023)
SVDiff
SVDi
ff
: Compact Parameter Space for Di
ff
usion Fine-Tuning (Ligong Han et al., 2023)
• DMのすべての重みに対してSVDを行い、特異値の差
分部分(以下、 )のみを学習
• 事前学習DMにおける任意の重み に対して、SVDにより:
• このとき、対応するPersonalizationモデルの重み を以下で
定義する:
• 複数の重みを混ぜ合わせるStyle Mixingや、複数の
ターゲットに対するMulti-subjectにも対応
• LoRAより少ない追加パラメータにも関わらず、
DreamBooth(DB)やLoRAに匹敵
• Image AlignmentがDBやLoRAよりやや低い
• mkshing/svdi
ff
-pytorchにて試すことが可能
δ
W
W = UΣV⊤
, Σ = diag(σ)
W′

W′

= UΣ′

V⊤
, Σ′

:= diag(ReLU(σ + δ))
W = U
Σ
V⊤
× ×
0
0
σ1
σ2
σr
δ1
δ2
δr
🔥
DiffFit
Di
ff
Fit: Unlocking Transferability of Large Di
ff
usion Models via Simple Parameter-E
ffi
cient Fine-Tuning (Enze Xie et al., 2023)
• モデルのバイアス項のみを学習するBitFitのDMへ
の拡張手法
• バイアス項に加え、LNとscale factor項を学習対
象とする
• 論文ではDMがDiTに適用しているが、拡張可能
• LoRAより少ない追加パラメータ
• BitFitでDBに匹敵する性能が出たとの報告あり*
• まだ自分の実験では良い精度が確認できず
• mkshing/Di
ff
Fit-pytorchにて試すことが可能
*https://twitter.com/okarisman/status/1647291808261480450
比較(学習パラメータ数とtext/image alignment)
# of trainable params
Texual Inversion 768
DreamBooth 859.52 M
Custom Di
ff
usion 1.17 M
LoRA (rank=16) 3.19 M
LoRA (rank=4) 0.80 M
SVDi
f
0.28 M
BitFit 0.34 M
Di
ff
Fit 0.58 M
図1はSVDi
ff
: Compact Parameter Space for Di
ff
usion Fine-Tuning (Ligong Han et al., 2023)より引用
表1: 手法と学習パラメータ数
図1: 各手法のtext/image alignment score
代表的なPer-object
optimization free手法
E4T
Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models (Rinon Gal et al., 2023)
• ターゲット画像とDi
ff
usion Processのノイズ化し
た画像を考慮したembedを出力するInversion
Encoderを導入
• よりチューニング性能をあげるために、Attention
層の重みを、Prior Networkにより更新
• まず大規模クラスデータで事前学習することで、
学習を効率化
• 5-15ステップでチューニング完了
• チューニングフェーズでは、すべての重みを更新
するため、学習コストがかなり高い
• クラスごとに学習をしなければならない
• mkshing/e4t-di
ff
usionにて試すことが可能
Inversion Encoder:
生成モデル ,とターゲット画像 に対して、Inversion
Encoder とは
G Ic
E
G (E(Ic)) ∼ Ic
Prior Network (Weight O
ff
sets):
事前学習モデルの重みからの”シフト”を推定
Taming Encoder
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Di
ff
usion Models (Xuhui Jia et al., 2023)
• ターゲット画像の情報を抜き取る、Object
Encoderを導入
• DMに得たObject情報を考慮するCross-attn層を追
加し、DM全体を学習する
• 事前学習段階で、クラスデータに加え、一般的なT2I
データを混ぜることで、パフォーマンス向上
• E4Tとは異なり、完全なper-object optimization
free
• 1枚のターゲット画像のみ入力可能
• これにより、詳細な情報が生成されないケースが
あると報告している
• クラスごとに学習をしなければならない
• Implementationは近日公開予定
Cross-attention
Self-attention
Cross-attention
Object Text Visual
InstantBooth
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning (Jing Shi et al., 2023)
• ターゲット画像の情報を抜き取る、Object
Encoderを導入
• Taming Encoderと異なり、textual inversion
情報としても使う
• DMに得たObject情報を考慮するAdapter層を追加
し、Object EncoderとAdapterのみ学習
• 完全なper-object optimization free
• PEFTを導入したことで、学習が低コスト
• クラスごとに学習をしなければならない
• Implementationは近日公開予定
Cross-attention
Self-attention
Adapter (Gated Self-attn)
Object Text Visual
FastComposer
FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention (Guangxuan Xiao et al., 2023)
• ターゲット画像とそのクラストークンどちらも考
慮したembedを出力するInversion Encoderを導入
• 推論時には、途中のステップからターゲット画
像を条件付けする手法を提案
• Identity Blending*の解決策として、各ターゲット
のMaskとCross-Attn Mapsの差を測るロスを導
入
• Identity Blendingを解決した複数ターゲット生成
に加え、単一ターゲット生成も可能
• Mask画像などのデータセット準備が大変
• クラスごとに学習をしなければならない
• コード(現在推論のみ)が公開されており、試す
こと可能(mit-han-lab/fastcomposer)
推論時は、ある時点まではテキストだけで、
それ以降か画像を条件付けする
各SubjectのSegmentation maskとCross-
Attention Mapsの差を最小にするように学習
*複数ターゲットの場合、AがBに寄った生成になったりする現象
ProFusion
Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach (Yufan Zhou et al., 2023)
• ターゲット画像とDi
ff
usion Processのノイズ化し
た画像を考慮したembedを出力するInversion
Encoder(PromptNet)を導入
• ターゲット画像らしさを保持しつつ、promptに
沿った画像生成が可能な新たなサンプリング手法
(Fusion Sampling)を提案
• 30秒でチューニング完了(バッチサイズ8、50ステップ)
• チューニングフェーズでは、PromptNetとDMの
Attention層を更新するため、学習コストが高い
• クラスごとに学習をしなければならない
• コード(学習含む)が公開されており、試すこと
可能(drboog/ProFusion)
ターゲット画像とDi
ff
usion Processの各時点の
ノイズ画像を考慮したinversion embed
🚨Released yesterday!!
まとめ
最近の流れ
Personalization手法の方向性
• Per-object optimization
• DreamBoothはコストが高いため、少ないパラメータでチューニング
• Per-object optimization free
• 画像を解釈するEncoderを追加し、その情報を考慮した構造の提案
• クラスごとに学習し、クラスに特化したPersonalizationモデルを構築
• 複数のターゲットを考慮
課題点
まだまだ研究の余地がある
• Personalizationタスクにおける、正確な指標がなく、比較が難しい
• Per-object optimizationは、ターゲットごとに学習が必要で高コスト
• Per-object optimization freeは、ターゲットごとの学習がいらない代わり
に、クラスごとに大規模な事前学習が必要
• コードやモデルをリリースしている論文が少なく、実験が容易でない
• オープンソース化の重要性💪
AI for all
(日本語)@StabilityAI_JP
(global) @StabilityAI
https://discord.com/invite/uCXFcuyfQx

More Related Content

What's hot

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Yusuke Fujimoto
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使うKazuhiro Suga
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 

What's hot (20)

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使う
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 

Similar to makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf

[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with StylesDeep Learning JP
 
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門Daiyu Hatakeyama
 
LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側Takuro Hanawa
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さんAkira Shibata
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)Deep Learning JP
 
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用de:code 2017
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Azure Object Anchors Recap
Azure Object Anchors RecapAzure Object Anchors Recap
Azure Object Anchors RecapTakahiro Miyaura
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
20180109 titech lecture_ishizaki_public
20180109 titech lecture_ishizaki_public20180109 titech lecture_ishizaki_public
20180109 titech lecture_ishizaki_publicKazuaki Ishizaki
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational AutoencodersDeep Learning JP
 
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜griddb
 
Machine learning microservice_management
Machine learning microservice_managementMachine learning microservice_management
Machine learning microservice_managementyusuke shibui
 
C#メタプログラミング概略 in 2021
C#メタプログラミング概略 in 2021C#メタプログラミング概略 in 2021
C#メタプログラミング概略 in 2021Atsushi Nakamura
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)NTT DATA Technology & Innovation
 

Similar to makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf (20)

[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
 
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
 
拡散する画像生成.pdf
拡散する画像生成.pdf拡散する画像生成.pdf
拡散する画像生成.pdf
 
LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
 
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Azure Object Anchors Recap
Azure Object Anchors RecapAzure Object Anchors Recap
Azure Object Anchors Recap
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
20180109 titech lecture_ishizaki_public
20180109 titech lecture_ishizaki_public20180109 titech lecture_ishizaki_public
20180109 titech lecture_ishizaki_public
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
 
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
 
Machine learning microservice_management
Machine learning microservice_managementMachine learning microservice_management
Machine learning microservice_management
 
C#メタプログラミング概略 in 2021
C#メタプログラミング概略 in 2021C#メタプログラミング概略 in 2021
C#メタプログラミング概略 in 2021
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)
 

More from Akira Shibata

W&B monthly meetup#7 Intro.pdf
W&B monthly meetup#7 Intro.pdfW&B monthly meetup#7 Intro.pdf
W&B monthly meetup#7 Intro.pdfAkira Shibata
 
20230705 - Optuna Integration (to share).pdf
20230705 - Optuna Integration (to share).pdf20230705 - Optuna Integration (to share).pdf
20230705 - Optuna Integration (to share).pdfAkira Shibata
 
W&B Seminar #5(to share).pdf
W&B Seminar #5(to share).pdfW&B Seminar #5(to share).pdf
W&B Seminar #5(to share).pdfAkira Shibata
 
LLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfAkira Shibata
 
Kaggle and data science
Kaggle and data scienceKaggle and data science
Kaggle and data scienceAkira Shibata
 
Akira shibata at developer summit 2016
Akira shibata at developer summit 2016Akira shibata at developer summit 2016
Akira shibata at developer summit 2016Akira Shibata
 
PyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlowPyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlowAkira Shibata
 
20150421 日経ビッグデータカンファレンス
20150421 日経ビッグデータカンファレンス20150421 日経ビッグデータカンファレンス
20150421 日経ビッグデータカンファレンスAkira Shibata
 
人工知能をビジネスに活かす
人工知能をビジネスに活かす人工知能をビジネスに活かす
人工知能をビジネスに活かすAkira Shibata
 
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)Akira Shibata
 
PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1Akira Shibata
 
PyData NYC by Akira Shibata
PyData NYC by Akira ShibataPyData NYC by Akira Shibata
PyData NYC by Akira ShibataAkira Shibata
 
20141127 py datatokyomeetup2
20141127 py datatokyomeetup220141127 py datatokyomeetup2
20141127 py datatokyomeetup2Akira Shibata
 
The LHC Explained by CNN
The LHC Explained by CNNThe LHC Explained by CNN
The LHC Explained by CNNAkira Shibata
 
Analysis Software Development
Analysis Software DevelopmentAnalysis Software Development
Analysis Software DevelopmentAkira Shibata
 
Top Cross Section Measurement
Top Cross Section MeasurementTop Cross Section Measurement
Top Cross Section MeasurementAkira Shibata
 

More from Akira Shibata (20)

W&B monthly meetup#7 Intro.pdf
W&B monthly meetup#7 Intro.pdfW&B monthly meetup#7 Intro.pdf
W&B monthly meetup#7 Intro.pdf
 
20230705 - Optuna Integration (to share).pdf
20230705 - Optuna Integration (to share).pdf20230705 - Optuna Integration (to share).pdf
20230705 - Optuna Integration (to share).pdf
 
W&B Seminar #5(to share).pdf
W&B Seminar #5(to share).pdfW&B Seminar #5(to share).pdf
W&B Seminar #5(to share).pdf
 
LLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdf
 
W&B Seminar #4.pdf
W&B Seminar #4.pdfW&B Seminar #4.pdf
W&B Seminar #4.pdf
 
Kaggle and data science
Kaggle and data scienceKaggle and data science
Kaggle and data science
 
Data x
Data xData x
Data x
 
Akira shibata at developer summit 2016
Akira shibata at developer summit 2016Akira shibata at developer summit 2016
Akira shibata at developer summit 2016
 
PyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlowPyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlow
 
20150421 日経ビッグデータカンファレンス
20150421 日経ビッグデータカンファレンス20150421 日経ビッグデータカンファレンス
20150421 日経ビッグデータカンファレンス
 
人工知能をビジネスに活かす
人工知能をビジネスに活かす人工知能をビジネスに活かす
人工知能をビジネスに活かす
 
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
 
PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1
 
20150128 cross2015
20150128 cross201520150128 cross2015
20150128 cross2015
 
PyData NYC by Akira Shibata
PyData NYC by Akira ShibataPyData NYC by Akira Shibata
PyData NYC by Akira Shibata
 
20141127 py datatokyomeetup2
20141127 py datatokyomeetup220141127 py datatokyomeetup2
20141127 py datatokyomeetup2
 
The LHC Explained by CNN
The LHC Explained by CNNThe LHC Explained by CNN
The LHC Explained by CNN
 
LHC for Students
LHC for StudentsLHC for Students
LHC for Students
 
Analysis Software Development
Analysis Software DevelopmentAnalysis Software Development
Analysis Software Development
 
Top Cross Section Measurement
Top Cross Section MeasurementTop Cross Section Measurement
Top Cross Section Measurement
 

makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf

  • 1. Makoto Shing @ Stability AI @mk1stats Stable Diffusionにおける追加学習 Textual Inversion / DreamBooth / LoRA etc.
  • 2. Makoto Shing • 大学では応用数理を専攻 • rinna株式会社を経て、 Stability AI Japanにジョイン • Japanese CLIPやJapanese Stable Di ff usionを研究開発 • 「犬と少年」 自己紹介
  • 4. Stable Diffusion どんな構造? 3つの部分からなるText-to-imageモデル 1. Text Encoder テキストを解釈 2. Di ff usion Model(DM) テキストを考慮しながら小さい画像を生成する 3. Autoencoder 小さい画像を大きい画像にする ※もうちょっと直感的な説明は、日経から出した画像生成AI 見分けられる? クイズ&ビジュアル解説
  • 5. 汎用事前学習モデルの課題 追加学習の重要性 • 事前学習データセットの性質に起因した画像生成 (例:出力が西洋風になりがち) • テキストプロンプトのみによるコントロールに限度 • 追加情報によるコントロール(例:線画、セグメンテーション) • 特定の対象物(ターゲット)の画像生成(例:自分のペット)
  • 6. 汎用事前学習モデルの課題 追加学習の重要性 • 事前学習データセットの性質に起因した画像生成 (例:出力が西洋風になりがち) • テキストプロンプトのみによるコントロールに限度 • 追加情報によるコントロール(例:線画、セグメンテーション) • 特定の対象物(ターゲット)の画像生成(例:自分のペット) 本日のトピック
  • 7. 本日の流れ 追加学習の中でも、Personalizationタスクについて話します • Personalizationタスク(問題設定) • 代表的なPer-object optimization手法 • 代表的なPer-object optimization free手法 • まとめ • 最近の流れ • 課題点
  • 10. Personalizationタスク 評価規準 • Image alignment …ターゲット画像に沿った生成か • Text alignment …テキストプロンプトに沿っているか • 汎用性 …様々なテキストプロンプトに対応可能か • コスト …学習時間や必要なマシン https://dreambooth.github.io/
  • 11. Personalizationタスク 手法の全体像 Per-object optimization (POO) ターゲットごとに学習 POO-free 大規模クラスデータで学習された追加エンコーダーを用いて、 低コストでPersonalization • E4T • Taming Encoder • InstantBooth • Perfusion • FastComposer • … • Textual Inversion • DreamBooth • LoRA • Custom Di ff usion • SVDi ff • Di ff Fit • … Image Editing 1枚の画像の一部を修正 • SDEdit • Imagic • Prompt-to-Prompt • InstructPix2Pix
  • 13. [手法名] Citation • 手法の説明 • メリット • デメリット • 追加のコメント こんなテンプレートで 手法を紹介していきます
  • 14. Textual Inversion An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (Rinon Gal et al., 2022) • ターゲット画像を学習対象のsoft prompt(s)に押し 込める i.e. Prompt-tuning T2I版 • 低コスト(一番学習対象パラメータ数少ない) • DMを一切学習しないためOODデータには非対応 • 他の手法より、Text/Image alignmentが低い • 拡張手法によりスコアが向上 • P+ (Andrey Voynov et al.) … UNetの各レイヤ ごとに異なるsoft promptsを挿入 • Quick Embedding … まずCLIPのcos simに対 して最適化してから、Textual Inversion Textual Inversion P+
  • 15. DreamBooth DreamBooth: Fine Tuning Text-to-Image Di ff usion Models for Subject-Driven Generation (Nataniel Ruiz et al., 2022) • DMを単にFine-tuning • テクニックとして、 • Unique identi fi er tokenの導入 • Over fi tting抑制のための、 Prior Preservation lossの提案 • OODデータにも対応し、Image alignmentスコアが高 い • DM全体をFine-tuningするため、高コスト • Mixed precisionや8-bit Adamなどの導入により、より低コスト • Unique identi fi er tokenのembedとAttention層のKey/ Valueの重みのみ学習するCustom Di ff usionはより効 率的に学習が可能
  • 16. LoRA LoRA: Low-Rank Adaptation of Large Language Models (Edward J. Hu et al., 2021) • NLPにて提案されたPEFT手法の一つLoRAをT2Iに適用* • DMのAttention層の各重みにrank decomposition行列 を加え、その追加された部分のみ学習 • Personalizationモデルの重み が次のように表されることを仮定 , ( は事前学習モデルの重み) • DreamBoothより低コストにも関わらず、Image alignmentスコアは同等 • Under fi ttingの可能性が報告されている** • Attention層以外にも適用可能であるため、拡張が簡単 W′  W′  = W0 + ΔW = W0 + BA W0 *LoRAの論文は古いが、T2Iに適用されたのは2023年2月。https://github.com/cloneofsimo/lora **SVDi ff : Compact Parameter Space for Di ff usion Fine-Tuning (Ligong Han et al., 2023)
  • 17. SVDiff SVDi ff : Compact Parameter Space for Di ff usion Fine-Tuning (Ligong Han et al., 2023) • DMのすべての重みに対してSVDを行い、特異値の差 分部分(以下、 )のみを学習 • 事前学習DMにおける任意の重み に対して、SVDにより: • このとき、対応するPersonalizationモデルの重み を以下で 定義する: • 複数の重みを混ぜ合わせるStyle Mixingや、複数の ターゲットに対するMulti-subjectにも対応 • LoRAより少ない追加パラメータにも関わらず、 DreamBooth(DB)やLoRAに匹敵 • Image AlignmentがDBやLoRAよりやや低い • mkshing/svdi ff -pytorchにて試すことが可能 δ W W = UΣV⊤ , Σ = diag(σ) W′  W′  = UΣ′  V⊤ , Σ′  := diag(ReLU(σ + δ)) W = U Σ V⊤ × × 0 0 σ1 σ2 σr δ1 δ2 δr 🔥
  • 18. DiffFit Di ff Fit: Unlocking Transferability of Large Di ff usion Models via Simple Parameter-E ffi cient Fine-Tuning (Enze Xie et al., 2023) • モデルのバイアス項のみを学習するBitFitのDMへ の拡張手法 • バイアス項に加え、LNとscale factor項を学習対 象とする • 論文ではDMがDiTに適用しているが、拡張可能 • LoRAより少ない追加パラメータ • BitFitでDBに匹敵する性能が出たとの報告あり* • まだ自分の実験では良い精度が確認できず • mkshing/Di ff Fit-pytorchにて試すことが可能 *https://twitter.com/okarisman/status/1647291808261480450
  • 19. 比較(学習パラメータ数とtext/image alignment) # of trainable params Texual Inversion 768 DreamBooth 859.52 M Custom Di ff usion 1.17 M LoRA (rank=16) 3.19 M LoRA (rank=4) 0.80 M SVDi f 0.28 M BitFit 0.34 M Di ff Fit 0.58 M 図1はSVDi ff : Compact Parameter Space for Di ff usion Fine-Tuning (Ligong Han et al., 2023)より引用 表1: 手法と学習パラメータ数 図1: 各手法のtext/image alignment score
  • 21. E4T Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models (Rinon Gal et al., 2023) • ターゲット画像とDi ff usion Processのノイズ化し た画像を考慮したembedを出力するInversion Encoderを導入 • よりチューニング性能をあげるために、Attention 層の重みを、Prior Networkにより更新 • まず大規模クラスデータで事前学習することで、 学習を効率化 • 5-15ステップでチューニング完了 • チューニングフェーズでは、すべての重みを更新 するため、学習コストがかなり高い • クラスごとに学習をしなければならない • mkshing/e4t-di ff usionにて試すことが可能 Inversion Encoder: 生成モデル ,とターゲット画像 に対して、Inversion Encoder とは G Ic E G (E(Ic)) ∼ Ic Prior Network (Weight O ff sets): 事前学習モデルの重みからの”シフト”を推定
  • 22. Taming Encoder Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Di ff usion Models (Xuhui Jia et al., 2023) • ターゲット画像の情報を抜き取る、Object Encoderを導入 • DMに得たObject情報を考慮するCross-attn層を追 加し、DM全体を学習する • 事前学習段階で、クラスデータに加え、一般的なT2I データを混ぜることで、パフォーマンス向上 • E4Tとは異なり、完全なper-object optimization free • 1枚のターゲット画像のみ入力可能 • これにより、詳細な情報が生成されないケースが あると報告している • クラスごとに学習をしなければならない • Implementationは近日公開予定 Cross-attention Self-attention Cross-attention Object Text Visual
  • 23. InstantBooth InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning (Jing Shi et al., 2023) • ターゲット画像の情報を抜き取る、Object Encoderを導入 • Taming Encoderと異なり、textual inversion 情報としても使う • DMに得たObject情報を考慮するAdapter層を追加 し、Object EncoderとAdapterのみ学習 • 完全なper-object optimization free • PEFTを導入したことで、学習が低コスト • クラスごとに学習をしなければならない • Implementationは近日公開予定 Cross-attention Self-attention Adapter (Gated Self-attn) Object Text Visual
  • 24. FastComposer FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention (Guangxuan Xiao et al., 2023) • ターゲット画像とそのクラストークンどちらも考 慮したembedを出力するInversion Encoderを導入 • 推論時には、途中のステップからターゲット画 像を条件付けする手法を提案 • Identity Blending*の解決策として、各ターゲット のMaskとCross-Attn Mapsの差を測るロスを導 入 • Identity Blendingを解決した複数ターゲット生成 に加え、単一ターゲット生成も可能 • Mask画像などのデータセット準備が大変 • クラスごとに学習をしなければならない • コード(現在推論のみ)が公開されており、試す こと可能(mit-han-lab/fastcomposer) 推論時は、ある時点まではテキストだけで、 それ以降か画像を条件付けする 各SubjectのSegmentation maskとCross- Attention Mapsの差を最小にするように学習 *複数ターゲットの場合、AがBに寄った生成になったりする現象
  • 25. ProFusion Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach (Yufan Zhou et al., 2023) • ターゲット画像とDi ff usion Processのノイズ化し た画像を考慮したembedを出力するInversion Encoder(PromptNet)を導入 • ターゲット画像らしさを保持しつつ、promptに 沿った画像生成が可能な新たなサンプリング手法 (Fusion Sampling)を提案 • 30秒でチューニング完了(バッチサイズ8、50ステップ) • チューニングフェーズでは、PromptNetとDMの Attention層を更新するため、学習コストが高い • クラスごとに学習をしなければならない • コード(学習含む)が公開されており、試すこと 可能(drboog/ProFusion) ターゲット画像とDi ff usion Processの各時点の ノイズ画像を考慮したinversion embed 🚨Released yesterday!!
  • 27. 最近の流れ Personalization手法の方向性 • Per-object optimization • DreamBoothはコストが高いため、少ないパラメータでチューニング • Per-object optimization free • 画像を解釈するEncoderを追加し、その情報を考慮した構造の提案 • クラスごとに学習し、クラスに特化したPersonalizationモデルを構築 • 複数のターゲットを考慮
  • 28. 課題点 まだまだ研究の余地がある • Personalizationタスクにおける、正確な指標がなく、比較が難しい • Per-object optimizationは、ターゲットごとに学習が必要で高コスト • Per-object optimization freeは、ターゲットごとの学習がいらない代わり に、クラスごとに大規模な事前学習が必要 • コードやモデルをリリースしている論文が少なく、実験が容易でない • オープンソース化の重要性💪
  • 29. AI for all (日本語)@StabilityAI_JP (global) @StabilityAI https://discord.com/invite/uCXFcuyfQx