ICML2016読み会　Generative AdversarialText to Image Synthesis

Genera&ve Adversarial
Text to Image Synthesis
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016).
ICML2016読み会
廣芝和之
1

自己紹介
•  廣芝和之
•  ドワンゴ新卒
•  大阪大学：大澤研究室
–  ネコの脳の視覚野を研究
•  奈良先端大学院：塩坂研究室
–  マウスの脳の海馬を研究
@hiho_karuta
2

紹介する論文
Genera&ve Adversarial Text to Image Synthesis
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016).

GANのアーキテクチャを応用して
文章から画像を生成するアーキテクチャを考案した
3

背景：文章から画像生成する過去手法
•  文章から、鮮明な画像を生成す
ることは難しい
•  GANは鮮明な画像を生成できる
•  GANを応用して文章からより鮮
明な画像を生成する
4
Elman Mansimov et al., ICLR 2016.

背景：Genera&ve Adversarial Networks（GAN）
判別器が本物の画像と判断するような
画像を乱数列から生成する
生成された画像と本物の画像を
正しく判別する
本物のような画像を生成できるようになる
学習が進行すると･･･
判別器
生成画像
本物画像
本物 or NOT
5
入力ベクトル生成器生成画像
VS

背景：GANを用いた画像生成例
使用例（顔イラスト画像）　@maTya1089, 2015 使用例（寝室）　Alec Radford et al., 2015
入力する入力ベクトルを変えれば
生成される画像が変わる
6
入力ベクトル生成器生成画像

紹介する論文の貢献
•  文章から鮮明な画像を生成する手法を提案
•  文章以外の情報の表現を吸収する手法を提案
•  性能を向上する手法を2種類提案
•  文章以外の情報を転写する手法を提案
7

提案手法：
テキストから画像を生成するアーキテクチャ
8
入力ベクトル生成器生成画像判別器
生成画像
本物画像
本物 or NOT

提案手法：
テキストから画像を生成するアーキテクチャ
φ：text encoder、char-CNN-RNN（Reed et al., CVPR 2016）
↑本論文の著者
画像にはテキスト情報と非テキスト情報がある。
テキストembeddingsにベクトルｚを結合して、テキストに含まれない画像の表現も獲得する
9

課題：文章に無関係な画像が生成される？
•  従来のGANの判別器
画像が本物か生成されたものか判別する
–  Ｄ（本物画像）　→　○
–  Ｄ（生成画像）　→　×
–  生成器は本物に近い画像を生成するように学習する
•  今回のGANに従来の判別器を用いた場合･･･
–  文章の情報を用いない
–  生成器は文章内容に関係のない画像を生成するように学習する
10

提案手法：マッチング判別器
•  マッチング判別器を提案
画像とテキストの組み合わせが正しいかを判別する
–  Ｄ（本物画像、正しい文章）　→　○
–  Ｄ（生成画像、正しい文章）　→　×
–  Ｄ（本物画像、間違った文章）　→　×
–  生成器は文章にマッチする画像の生成を学習する

11

課題：入力データセット数を増やしたい
•  （課題というよりも、試してみた？）
•  既存のデータセットから
新しいデータセットを作ることはできるか
12

提案手法：補間データも学習に使用
•  embeddingsの補間データの表象はデータ多様体に近い傾向
がある（Bengio et al., 2013; Reed et al., 2014）
•  訓練テキストデータembeddingsの補間データも訓練に利用
–  Gの目的関数を下式に変更
Gに入力する
テキストembedding
（β=0.5で十分な成果）
テキストembedding
13

実験手法
•  テキストと画像のデータセットを用いて提案した
ネットワークをトレーニング
•  テキストを入力して画像を生成する
•  ２種類の学習テクニックを組み合わせて性能を比較
–  マッチング判別器
–  補間データ使用
14

実験：パラメータなど
•  画像：64×64×3次元
•  テキストエンコーダ
–  char-CNN-RNN：出力は1024次元
–  全結合+Leaky ReLU、出力は128次元
•  ノイズz：100次元
•  normal deconvolu&onal network
•  stride-2 convolu&on+バッチ正規化
15

実験：画像とテキストのデータセット
•  CUB
–  200種類のカテゴリ
–  11788の鳥画像

•  Oxford-102
–  102のカテゴリ
–  8189の花画像

各画像に対して5つの説明テキスト
（著者らが付けた？）
this bird has wings
that are black and
has a yellow crown
013.Bobolink
16

実験：学習テクニックの効果の比較
提案手法
マッチング判別器
補間データ使用
入力テキスト：
an all black bird with a dis&nct thick, rounded bill
（真っ黒で太くて丸いくちばしを持つ鳥）
考察
•  上２つは色の情報は正しかったが
画像がリアルではない

•  補間データを用いると
テキストに合う
もっともらしい画像が得られた
17

実験：テキストembeddingを補間して画像生成
•  ２つのテキストから
２つのembeddingを得る
•  テキストembedding（右図青）の
補間を入力して画像を生成する
•  なめらかに画像が変化した
•  つまりテキストembeddingは連続
した空間に埋め込まれている
18

課題：文章に含まれない画像情報（スタイル）
•  文章に含まれる画像情報
–  黒い羽で黄色い頭頂の鳥
•  文章に含まれない画像情報
–  背景が緑、左を向いている、など
–  著者らはスタイルと呼んでいる
•  入力ベクトルのうち、
–  文章情報はテキストembedding
–  スタイル情報はｚが獲得する
this bird has wings
that are black and
has a yellow crown
19

課題：スタイルは転写可能か
この画像の
スタイル
（背景が青色）
「白い腹で頭は赤の鳥」　＋
20
生
成
器
「白い腹で頭は赤の鳥」
（背景が青色）

提案手法：画像からスタイルを抽出
•  スタイルｚと画像のデータセットが必要
–  ランダムなスタイルｚとテキストφ(t)から画像を生成してデータセットを用意
•  生成した画像からｚに写像するスタイルエンコーダＳを学習（損失関数は下式）
•  Ｓは2層の全結合ネットワーク
スタイルｚテキストφ(t) 画像生成器Ｇ
スタイルエンコーダＳ
21

提案手法、実験：スタイルの転写
スタイルエンコーダＳスタイルｚ
生
成
器
Ｇ
22

スタイルを補間して画像生成
•  ２つのスタイルを選ぶ
•  テキストは固定、スタイルの
補間を入力して画像を生成する
•  なめらかにスタイルが変化した
•  つまりスタイルは連続した空間に
埋め込まれている
23

触ってみた
•  著者らの実装がGithubにある
–  hTps://github.com/reedscot/icml2016
–  言語：Lua
–  機械学習フレームワーク：Torch
–  トレーニング済みネットワークが配布されている
24

データセットにないテキストを入力した時
•  目的
–  生成される画像が構造を持つのか確認したい
•  方法、結果
–  テキスト：the completely red cat

•  考察
–  猫は鳥だった？
–  猫は知らない単語として、似たテキストの学習時の画像を参考に出力された？
25

実際にいない鳥を入力した時
•  目的
–  論文の入力テキストは該当する鳥がデータセットにある
–  実在する鳥のパーツを組み合わせることはできるか確認したい
•  方法、結果
–  テキスト：the blue bird with green wings

•  考察
–  パーツを組み合わせる能力は無い？
26
green wings

発表のまとめ
•  GANのアーキテクチャから発展させ、
文章から画像を生成するアーキテクチャを考案した
–  性能を向上する手法も2種類提案
•  補間テキストembedingsも用いると性能が向上
–  文章以外の情報（スタイル）を転写する手法も提案
•  追試を行った
–  パーツごとに指定すると想定した画像は生成されなかった
27

CUBでの画像生成例
28
提案手法

Oxfordでの画像生成例
29
提案手法

背景：生成画像をなめらかに変化させる
乱数列A 乱数列B (A+B)/2 ・・・・・・
生成器
入力する乱数列を徐々に変化させると、
生成される画像も徐々に変化する
30

テキストエンコード
this bird has wings
that are black and
has a yellow crown
013.Bobolink
N : データセットの組数
y : ラベル
v : 画像
t : テキスト
Δ : 損失関数
f : 分類関数

φ : 画像エンコーダ
　 : テキストエンコーダ
T(y) : yのテキスト
V(y) : yの画像
Reed, ScoT, et al. "Learning Deep Representa&ons of
Fine-Grained Visual Descrip&ons. " (CVPR 2016).
31

char-CNN-RNN
Reed, ScoT, et al. "Learning Deep Representa&ons of Fine-Grained Visual Descrip&ons." (CVPR 2016).
32

実験：スタイルエンコーダＳの性能評価
•  目的：スタイルエンコーダＳで抽出したスタイルが筆者らの想定したスタイル（背
景など）と相関があるか調べたい
•  全画像N枚の背景画素値を求める
–  画像内のピクセル値の平均RGB
•  求めた背景画素値でk-meansを用いて全画像を100クラスに分類
•  全画像N枚からスタイルエンコーダを用いてスタイルｚを抽出
•  各画像のスタイルのコサイン類似度を計算
•  ROC曲線を描いて評価
33

実験：スタイルエンコーダＳの性能評価
34

ICML2016読み会　Generative AdversarialText to Image Synthesis

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (8)