【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“An Image is Worth One Word: Personalizing Text-to-
Image Generation usingTextual Inversion”
University ofTsukuba M1,Yuki Sato

書誌情報
An Image is Worth One Word: Personalizing Text-to-Image Generation
using Textual Inversion
• Rinon Gal1, 2, Yuval Alaluf1, Yuval Atzmon2, Or Patashnik1, Amit H.
Bermano1, Gal Chechik2, Daniel Cohen-Or1 - 1Tel-Aviv
University, 2NVIDIA
• 投稿先: arXiv(2022/08/02)
• プロジェクトページ: https://textual-inversion.github.io/
• 選定理由:
近年盛んなText-to-Imageにおいて生成画像の多様性だけではなくユーザの意図
を汲んだ画像生成を実現しており需要が高いと考えられる.
シンプルな手法で応用の幅が広いと考えられる.
※出典が明記されていない限り図表は論文・プロジェクトページより引用
2

• 3-5枚の画像を入力として、この画像群を表現する単語１語の埋め込み表
現を学習済みLatent Diffusion Model(LDM)を用いて最適化し、この表現を
用いて文章を同じLDMに入力することでユーザの意図した画像の生成を可
能にした.
3
コンセプト画像
𝑣∗
𝑆∗を表す
埋め込み表現
“A photo of 𝑆∗”
コンセプト画像を表
すテキストデータ
概要
LDMを用いた𝑆∗の
埋め込みベクトル
の最適化
𝑆∗の埋め込みベ
クトルを𝑣∗とし
てLDMに入力

Diffusion Model
• 入力𝑥0に対してガウシアンノイズを段階的に付与してガウス分布𝑥𝑇に変換
する過程𝑞(𝑥𝑡|𝑥𝑡−1)を考え、これの逆変換である段階的なノイズ除去
𝑝𝜃(𝑥𝑡−1|𝑥𝑡)をDNNで学習する.
• DNNはノイズの含まれる画像𝑥𝑡を入力として𝑥𝑡−1に対して付与されたガウ
シアンノイズを予測しデノイズして次のステップに移る.
4
Jonathan Ho et al. “Denoising Diffusion Probabilistic Model”, NeurIPS, 2020.

Latent Diffusion Model
• AutoEncoderの潜在変数に対してDiffusion modelを適用するモデル.
• 入力画像からEncoderℰを用いて中間表現を抽出し、中間表現に対して
Diffusion modelを適用、再構成された中間表現をDecoder 𝒟に入力して画
像を出力する.
• ℰ, 𝒟は事前に学習されており、U-Net𝜖𝜃と条件付けのEncoder 𝜏𝜃の学習時
には固定する.
5
Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Model”, CVPR, 2022.
𝑥 ∈ ℝ𝐻×𝑊×3
𝑧 ∈ ℝℎ×𝑤×𝑐

Latent Diffusion Model
• LDMのでは中間表現に対してノイズを付与しU-Net 𝜖𝜃でデノイズする.この
時、デノイズ過程においてクラスラベル等をEncoder 𝜏𝜃を用いて中間表現
に変換し𝜖𝜃のcross-attentionで用いる.
• 𝜖𝜃と𝜏𝜃は以下の損失関数で同時に最適化される.
6
Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Model”, CVPR, 2022.
条件付ける特徴量: 𝜏𝜃 𝑦 ∈ ℝ𝑀×𝑑𝑟
U-Netの中間特徴量: 𝜑𝑖 𝑧𝑡 ∈ ℝ𝑁×𝑑𝜖
𝑖
Attention 𝑄, 𝐾, 𝑉 = softmax
𝑄𝐾𝑇
𝑑
∙ 𝑉
𝑄 = 𝑊
𝑄
(𝑖)
∙ 𝜑𝑖 𝑧𝑡 , 𝑊
𝑄
𝑖
∈ ℝ𝑑×𝑑𝑟
K = 𝑊
𝐾
(𝑖)
∙ 𝜏𝜃 𝑦 , 𝑊
𝐾
𝑖
∈ ℝ𝑑×𝑑𝑟
V = 𝑊
𝑉
(𝑖)
∙ 𝜏𝜃 𝑦 , 𝑊
𝑉
(𝑖)
∈ ℝ𝑑×𝑑𝜖
𝑖

学習の流れ
• 文章により条件付けを行う学習済みLDMを用い、入力する文章に含まれる
学習対象の単語’S*’の畳み込みベクトル𝑣∗を最適化する.
• 𝑣∗の初期値は大まかなクラスを表す単語(cat, clockなど)の埋め込みベクト
ルで初期化.
7
条件付けのEncoder Latent space
Encoder
Decoder

実験設定
• LAION-400Mで事前学習されたLDMモデル(1.4B params)を使用.text
encoderにはBERTが用いられている.
• V100x2で5000epoch学習を行った.
• 学習時に入力する文章はCLIP ImageNet templates[1]にある以下の文章か
らランダムにサンプリング.
8
[1] https://github.com/openai/CLIP/blob/main/notebooks/Prompt_Engineering_for_ImageNet.ipynb

実験結果: 生成画像の多様性
9
Input
Samples
Personalized
LDM
LDM
(Short
Caption)
DALLE-2
(Image
Inputs)
DALLE-2
(Long
Captions)
LDM
(Long
Captions)

実験結果: 文章による生成画像のコントロール
10

実験結果: 文章による生成画像のコントロール
• PARAVRAを用いた結果は自然な画像が生成できておらず、用いない手法
はより自然な画像が生成できているが学習データに強く影響を受けており
未知の単語に汎化できていない.
11

実験結果: スタイル変換
• 入力するテキストを”A painting in the style of S*”として学習.
12

実験結果: ２つの異なる埋め込み表現の組み合わせ
• 画像の内容とスタイルの２つを異なる埋め込み表現を用いて生成.
13
input

実験結果: バイアスの除去
• ベースモデルであるDALLE-2では白人男性の出力頻度が高い傾向にある
が、著者らの提案手法ではこの偏りが軽減されている.
14

実験結果: 画像の部分的な編集
15

実験結果: 埋め込み表現の学習手法の比較
• Extended latent space: 埋め込み表現を学習する単語数を2,3個に拡張.
• Progressive extensions: 2000stepごとに埋め込み表現を追加.
• Regularization: 大まかなクラスを表す埋め込み表現による正則化.
• Pre-image token: 学習データセット全体を表現する“S*”と個別の特徴を表
現する{𝑆𝑖
𝑛
}𝑖−1を定義して”A photo of S* with Si”というテキストを入力して
最適化を行う.
• Human captions: “S*”を人間のキャプションに置き換える.
• Reference: 学習データセットのデータと“S*”を用いないテキストを入力して
得られる生成データを使用.
• Textual-Inversion: モデルの学習率を2e-2,1e-4で実験.
• Additional setup: Bipartite inversionとpivotal inversionを追加.
16

実験結果: 埋め込み表現の評価指標
• “A photo of S*”のテキストと埋め込み表現を用いて生成された64枚の画像
と埋め込み表現の学習に用いたデータセットのペアごとのCLIP特徴量のコ
サイン類似度の平均で再構成の精度を算出する.(Image Similarity)
• 背景の変更、スタイルの変更など様々な難易度のテキスト(ex “A photo of
S* on the moon”)を用いて、各テキストを入力として50回のDDIMステップで
64枚の画像を生成し、生成画像のCLIP特徴量の平均を算出、” S*”を含ま
ないテキスト(ex “A photo of on the moon”)のCLIP特徴量とのコサイン類
似度を算出する.(Text Similarity)
17

実験結果: 埋め込み表現の評価
• 多くの手法の再構成の精
度は学習用データセットか
らランダムに抽出した場合
と同様である.
• 1単語の場合が最もtext
similarityが高い.
18

実験結果: 人による評価
• ２つのアンケートを各600件、計1200件収集した.
1. ４つの学習データの画像に対してモデルが生成した５つ目の画像がどの程度類似
しているかランク付けしてもらう.
2. 画像の文脈を表すテキストと生成された画像の類似度をランク付けしてもらう.
19

実験結果: 人による評価
• CLIPベースの評価指標とお
およそ一致する.
20

Limitationとsocial impact
• Limitation
再構成の精度がまだ低く、１つの埋め込み表現の学習に２時間かかる.
• Social impact
T2Iモデルは悪用される可能性が指摘されており、パーソナライズすることでより真偽
が見極めにくくなるように思えるがこのモデルはそこまで強力でない.
多くのT2Iモデルでは生成結果よって偏りが生じるが実験結果よりこのモデルはこれ
を軽減できるだろう.
ユーザがアーティストの画像を無断で学習に用いて類似画像を生成できるが、将来
的にはアーティストがT2Iモデルによる独自のスタイルの獲得や迅速な初期プロット
の作成といった恩恵で相殺されることを期待する.
21

所感
• 生成結果を見ても言語化が難しい画像の特徴を入力された文章の意味に
即して適切に生成結果に反映しており、モデルが学習した単語のニュアン
スを理解せずとも意図した画像が生成できる意義は大きい.
• 著者らの提案手法は既存のLDMを用いて埋め込み表現を探索するという
シンプルな手法であり、LDMに限らず他の学習済みのT2Iモデルにも応用
が可能と考えられる.
• 1単語で未知の画像を説明できる埋め込み表現が学習できており、
DALLE-2で指摘されているモデル独自の言語[1]の解析にも利用でき、モデ
ルの解釈性や安全性の研究にも応用できると考えている.
22
1. Giannis Daras, Alexandros G. Dimakis. “Discovering the HiddenVocabulary of DALLE-2”.
arXiv preprint arXiv:2206.00169, 2022.

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion