文献紹介：Text-to-Image Generation Grounded by Fine-Grained User Attention

!"#$%$&%'()*"+,"-".)$/&-
,.&0-1"1+23+4/-"%,.)/-"1
56".+7$$"-$/&-
!"#$%&'%()*+%!,-)#%.,/01"0$2+%3)#$/,4%522+%&"#62"%&,#$%
789:;<;=
仁田智也（名工大玉木研）

要旨
nTag-Retrieve-Compose-Synthesize (TReCS)を提案
• Localized Narratives (Pont-Tuest+, ECCV2020)から画像の生成
nLocalized Narrativesデータセット
• アノテーターによる説明
• マウスポインタ
• キャプション
軌跡の色とキャプションが一致する

手法
=> 各単語にタグ付け
;> マスク検索
?> マスクの配置
@> マスクから画像生成
• 99ABCDE%F5"'G+%HICD;<=JK
=
;
?
@

タグ付け
n.ELM%FN2O/"#G+%H8895;<=JK
n学習
• データ
• 9P9PADQ'66%F9,2-,1G+%9:CL;<=RK
• マウスポインタの軌道
• キャプション
• 不適切なタグの学習がある
nファインチューニング
• 単語とラベルのQ6A"06スコアの計算
• Q6A"06スコアから3SSの構築
• 3SSの出力でファインチューニング

タグ付け：学習
nP#%Q*2%Q,T/2%Q*212%,12%U,Q%V
P#
Q,T/2
U,Q
タグ付けされたキャプション
P#W)Q*21%V%Q,T/2WQ,T/2%V%U,QWU,Q%V
.ELM
学習
比率の大きいマスク
P#W)Q*21
U,QWU,Q
Q,T/2WQ,T/2
キャプションから軌道を分割セグメンテーションマスクと対応

マスク検索
nクロスモーダル検索
• クロスモーダルデュアルエンコーダ
• キャプションとマッチする上位4個の画像検索
• 9P9PADQ'66
nマスク抽出
• 画像と対応するインスタンスのXIPYを計算
• 𝑚! = argmin
"!",$ ∀$∈ &…,)
mIOU(𝑀*",$, 𝑆!)
• 𝑆!："番目のインスタンスに対応したマウスの軌跡の凸包
• 𝑀*",$：Z個目の画像の抽出したい"番目のインスタンスのマスク

マスクの配置
n物体クラス
• 対応するマウスの軌道の中央
n背景クラス
• マスク抽出した画像と同じ位置
nマスクのないピクセル
• 最も近い背景のラベルが割り振られる
検索したマスク
背景物体
同じ位置
そのまま適用

評価方法
nデータセット
• 既存のデータセットを5)U,/"[20%H,11,Q"O2-に適用
• P2#IX,$2-%F('[2#Q-)O,G+%I#Q21#,Q")#,/%!)'1#,/%)6%9)X'Q21%:"-")#%;<;<K
• 9P9P%F5"#G+%E99:;<=]K
• ML29D以外のモデルは入力がキャプションのみ
n画像の質
• 人間による評価
• I#U2Q")#%DU)12%FD,/"X,#-G+%HICD;<=^K
• B12U*2Q%I#U2Q")#%N"-Q,#U2%F32'-2/G+%HICD;<=_K
nキャプションとの一致
• 人間による評価
• 定量的な比較が難しい

実験結果：画像の質
人間による評価
どちらもML29Dが優れている
• 5HAP2#IX,$2-
• 8QQ#`8Hが優れている
• 人間の評価と違う結果
• 5HA9P9P
• ML29Dが優れている
ID，BINによる評価

実験結果：キャプションとの一致
nどちらもML29Dが良い結果
n5)U,/"[20%H,11,Q"O2-
• 自由形式の音声を書き起こし
• 文章が長い
• 日常的な言葉
n従来のデータセット
• 簡潔
• きれいなキャプション

まとめ
nQ2aQAQ)A"X,$2のモデルML29Dを提案
• 5)U,/"[20%H,11,Q"O2-データセットを用いる
• 既存のQ2aQAQ)A"X,$2よりも良い性能
n新しいインターフェースへの一歩
• ユーザの制御によるシーン描写
• 配置
• サイズ
• インタラクティブなシーン描写
• 意図した記述よりリアルな描写の生成

タグ付け：ファインチューニング
nQ6A"06スコア
• キャプション：𝛼+
• マスクのラベル：𝛼*
nI.S%8/"$#X2#Q%S)02/
• 翻訳確率：𝑃 𝑤 𝑐
n3SS
• 出力分布：𝑒 𝑤 𝑐 ∝ 𝛼+𝑃 𝑤 𝑐
• 遷移確率：𝑡 𝑐, 𝑐 ∝ 𝛼*Conut 𝑐 → 𝑐,

!"#$
nIPYbMCWF`MGLCAMCK
• `M：正しい領域（赤）
• LC：推定した領域（黒）
• MC：正しく推定された領域（赤と黒の共通部分）
• 各クラスごとにIPYの値がある
nXIPY
• 画像の全クラスのIPYの平均
!" #$
"$

クロスモーダル検索
nモデルFC,124*G+%,1c"O;<;<K
• 画像とテキストのデュアルエンコーダ
• テキスト
• .ELM
• 事前学習
• パラメータ固定
• 画像
• I#U2Q")#%O?
• 事前学習
• ファインチューニング
n学習
• 事前学習
• 5HA9P9Pによる学習

マスク抽出
検索された上位k枚
人
木
雪人、雪、木のセグメンテーションのXIPY

マスクから画像生成
nDC8NE%FC,14G+%9:CL;<=JK
n99ABCDE%F5"'G+%HICD;<=JK
• 提案手法に適している
n学習
• 学習済みモデル
• 整ったセマンティックセグメンテーションで学習
• ファインチューニング
• ノイズに対応するため
(Liu+, NIPS2019)

実験結果：ランダムに取り出した画像

実験結果：タグ付け
nタグ付けモデル
• .ELM（ファインチューニングなし）
• 3SS
• .ELMF3SSでファインチューニングK
nジェネレーター
• 99ABCDE
• DC8NE
n結果
• .ELM（3SSでファインチューニング）が良い結果
• 99ABCDEが提案手法に適している

実験結果：マスク検索
• 検索
• 上位=<<クラスの方が確率が高い
• 生成画像
• 上位]クラスの方が良い性能
検索された画像
`M以外の関連性の高い画像も検索

文献紹介：Text-to-Image Generation Grounded by Fine-Grained User Attention

Recommended

Recommended

More Related Content

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (8)

文献紹介：Text-to-Image Generation Grounded by Fine-Grained User Attention