【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“An Image is Worth One Word: Personalizing Text-to-
Image Generation usingTextual Inversion”
University ofTsukuba M1,Yuki Sato
2. 書誌情報
An Image is Worth One Word: Personalizing Text-to-Image Generation
using Textual Inversion
• Rinon Gal1, 2, Yuval Alaluf1, Yuval Atzmon2, Or Patashnik1, Amit H.
Bermano1, Gal Chechik2, Daniel Cohen-Or1 - 1Tel-Aviv
University, 2NVIDIA
• 投稿先: arXiv(2022/08/02)
• プロジェクトページ: https://textual-inversion.github.io/
• 選定理由:
近年盛んなText-to-Imageにおいて生成画像の多様性だけではなくユーザの意図
を汲んだ画像生成を実現しており需要が高いと考えられる.
シンプルな手法で応用の幅が広いと考えられる.
※出典が明記されていない限り図表は論文・プロジェクトページより引用
2
17. 実験結果: 埋め込み表現の評価指標
• “A photo of S*”のテキストと埋め込み表現を用いて生成された64枚の画像
と埋め込み表現の学習に用いたデータセットのペアごとのCLIP特徴量のコ
サイン類似度の平均で再構成の精度を算出する.(Image Similarity)
• 背景の変更、スタイルの変更など様々な難易度のテキスト(ex “A photo of
S* on the moon”)を用いて、各テキストを入力として50回のDDIMステップで
64枚の画像を生成し、生成画像のCLIP特徴量の平均を算出、” S*”を含ま
ないテキスト(ex “A photo of on the moon”)のCLIP特徴量とのコサイン類
似度を算出する.(Text Similarity)
17