SlideShare a Scribd company logo
1 of 34
Download to read offline
Genera&ve	Adversarial	
Text	to	Image	Synthesis	
Reed,	S.,	Akata,	Z.,	Yan,	X.,	Logeswaran,	L.,	Schiele,	B.,	&	Lee,	H.	(2016).	
ICML2016読み会	
廣芝	和之	
1
自己紹介	
•  廣芝和之	
•  ドワンゴ新卒	
•  大阪大学:大澤研究室	
–  ネコの脳の視覚野を研究	
•  奈良先端大学院:塩坂研究室	
–  マウスの脳の海馬を研究	
@hiho_karuta	
2
紹介する論文	
Genera&ve	Adversarial	Text	to	Image	Synthesis	
Reed,	S.,	Akata,	Z.,	Yan,	X.,	Logeswaran,	L.,	Schiele,	B.,	&	Lee,	H.	(2016).	
	
GANのアーキテクチャを応用して	
文章から画像を生成するアーキテクチャを考案した	
3
背景:文章から画像生成する過去手法	
•  文章から、鮮明な画像を生成す
ることは難しい	
•  GANは鮮明な画像を生成できる	
•  GANを応用して文章からより鮮
明な画像を生成する	
4	
Elman	Mansimov	et	al.,	ICLR	2016.
背景:Genera&ve	Adversarial	Networks(GAN)	
判別器が本物の画像と判断するような	
画像を乱数列から生成する	
生成された画像と本物の画像を	
正しく判別する	
本物のような画像を生成できるようになる	
学習が進行すると・・・	
判別器	
生成画像	
本物画像	
本物	or	NOT	
5	
入力ベクトル	 生成器	 生成画像	
VS
背景:GANを用いた画像生成例	
使用例(顔イラスト画像) @maTya1089,	2015	使用例(寝室) Alec	Radford	et	al.,	2015	
入力する入力ベクトルを変えれば	
生成される画像が変わる	
6	
入力ベクトル	 生成器	 生成画像
紹介する論文の貢献	
•  文章から鮮明な画像を生成する手法を提案	
•  文章以外の情報の表現を吸収する手法を提案	
•  性能を向上する手法を2種類提案	
•  文章以外の情報を転写する手法を提案	
7
提案手法:	
テキストから画像を生成するアーキテクチャ	
8	
入力ベクトル	 生成器	 生成画像	 判別器	
生成画像	
本物画像	
本物	or	NOT
提案手法:	
テキストから画像を生成するアーキテクチャ	
φ:text	encoder、char-CNN-RNN(Reed	et	al.,	CVPR	2016)	
↑本論文の著者	
画像にはテキスト情報と非テキスト情報がある。	
テキストembeddingsにベクトルzを結合して、テキストに含まれない画像の表現も獲得する	
9
課題:文章に無関係な画像が生成される?	
•  従来のGANの判別器	
画像が本物か生成されたものか判別する	
–  D(本物画像) → ○	
–  D(生成画像) → ×	
–  生成器は本物に近い画像を生成するように学習する	
•  今回のGANに従来の判別器を用いた場合・・・	
–  文章の情報を用いない	
–  生成器は文章内容に関係のない画像を生成するように学習する	
10
提案手法:マッチング判別器	
•  マッチング判別器を提案	
画像とテキストの組み合わせが正しいかを判別する	
–  D(本物画像、正しい文章) → ○	
–  D(生成画像、正しい文章) → ×	
–  D(本物画像、間違った文章) → ×	
–  生成器は文章にマッチする画像の生成を学習する	
	
11
課題:入力データセット数を増やしたい	
•  (課題というよりも、試してみた?)	
•  既存のデータセットから	
新しいデータセットを作ることはできるか	
12
提案手法:補間データも学習に使用	
•  embeddingsの補間データの表象はデータ多様体に近い傾向
がある(Bengio	et	al.,	2013;	Reed	et	al.,	2014)	
•  訓練テキストデータembeddingsの補間データも訓練に利用	
–  Gの目的関数を下式に変更	
Gに入力する	
テキストembedding	
(β=0.5で十分な成果)	
テキストembedding	
13
実験手法	
•  テキストと画像のデータセットを用いて提案した	
ネットワークをトレーニング	
•  テキストを入力して画像を生成する	
•  2種類の学習テクニックを組み合わせて性能を比較	
–  マッチング判別器	
–  補間データ使用	
14
実験:パラメータなど	
•  画像:64×64×3次元	
•  テキストエンコーダ	
–  char-CNN-RNN:出力は1024次元	
–  全結合+Leaky	ReLU、出力は128次元	
•  ノイズz:100次元	
•  normal	deconvolu&onal	network	
•  stride-2	convolu&on+バッチ正規化	
15
実験:画像とテキストのデータセット	
•  CUB	
–  200種類のカテゴリ	
–  11788の鳥画像	
	
•  Oxford-102	
–  102のカテゴリ	
–  8189の花画像	
	
各画像に対して5つの説明テキスト	
(著者らが付けた?)	
this	bird	has	wings	
that	are	black	and	
has	a	yellow	crown	
013.Bobolink	
16
実験:学習テクニックの効果の比較	
提案手法	
マッチング判別器	
補間データ使用	
マッチング判別器	
補間データ使用	
入力テキスト:	
an	all	black	bird	with	a	dis&nct	thick,	rounded	bill	
(真っ黒で太くて丸いくちばしを持つ鳥)	
考察	
•  上2つは色の情報は正しかったが	
画像がリアルではない	
	
•  補間データを用いると	
テキストに合う	
もっともらしい画像が得られた	
17
実験:テキストembeddingを補間して画像生成	
•  2つのテキストから	
2つのembeddingを得る	
•  テキストembedding(右図青)の	
補間を入力して画像を生成する	
•  なめらかに画像が変化した	
•  つまりテキストembeddingは連続
した空間に埋め込まれている	
18
課題:文章に含まれない画像情報(スタイル)	
•  文章に含まれる画像情報	
–  黒い羽で黄色い頭頂の鳥	
•  文章に含まれない画像情報	
–  背景が緑、左を向いている、など	
–  著者らはスタイルと呼んでいる	
•  入力ベクトルのうち、	
–  文章情報はテキストembedding	
–  スタイル情報はzが獲得する	
this	bird	has	wings	
that	are	black	and	
has	a	yellow	crown	
19
課題:スタイルは転写可能か	
この画像の	
スタイル	
(背景が青色)	
「白い腹で頭は赤の鳥」 +	
20	
生
成
器	
「白い腹で頭は赤の鳥」	
(背景が青色)
提案手法:画像からスタイルを抽出	
•  スタイルzと画像のデータセットが必要	
–  ランダムなスタイルzとテキストφ(t)から画像を生成してデータセットを用意	
•  生成した画像からzに写像するスタイルエンコーダSを学習(損失関数は下式)	
•  Sは2層の全結合ネットワーク	
スタイルz	 テキストφ(t)	 画像	生成器G	
スタイルエンコーダS	
21
提案手法、実験:スタイルの転写	
スタイルエンコーダS	スタイルz	
生
成
器
G	
22
スタイルを補間して画像生成	
•  2つのスタイルを選ぶ	
•  テキストは固定、スタイルの	
補間を入力して画像を生成する	
•  なめらかにスタイルが変化した	
•  つまりスタイルは連続した空間に
埋め込まれている	
23
触ってみた	
•  著者らの実装がGithubにある	
–  hTps://github.com/reedscot/icml2016	
–  言語:Lua	
–  機械学習フレームワーク:Torch	
–  トレーニング済みネットワークが配布されている	
24
データセットにないテキストを入力した時	
•  目的	
–  生成される画像が構造を持つのか確認したい	
•  方法、結果	
–  テキスト:the	completely	red	cat	
	
•  考察	
–  猫は鳥だった?	
–  猫は知らない単語として、似たテキストの学習時の画像を参考に出力された?	
25
実際にいない鳥を入力した時	
•  目的	
–  論文の入力テキストは該当する鳥がデータセットにある	
–  実在する鳥のパーツを組み合わせることはできるか確認したい	
•  方法、結果	
–  テキスト:the	blue	bird	with	green	wings	
	
•  考察	
–  パーツを組み合わせる能力は無い?	
26	
green	wings
発表のまとめ	
•  GANのアーキテクチャから発展させ、	
文章から画像を生成するアーキテクチャを考案した	
–  性能を向上する手法も2種類提案	
•  補間テキストembedingsも用いると性能が向上	
–  文章以外の情報(スタイル)を転写する手法も提案	
•  追試を行った	
–  パーツごとに指定すると想定した画像は生成されなかった	
27
CUBでの画像生成例	
28	
提案手法	
マッチング判別器	
補間データ使用	
マッチング判別器	
補間データ使用
Oxfordでの画像生成例	
29	
提案手法	
マッチング判別器	
補間データ使用	
マッチング判別器	
補間データ使用
背景:生成画像をなめらかに変化させる	
乱数列A	 乱数列B	(A+B)/2	・・・	 ・・・	
生成器	
入力する乱数列を徐々に変化させると、	
生成される画像も徐々に変化する	
30
テキストエンコード	
this	bird	has	wings	
that	are	black	and	
has	a	yellow	crown	
013.Bobolink	
N	:	データセットの組数	
y	:	ラベル	
v	:	画像	
t	:	テキスト	
Δ	:	損失関数	
f	:	分類関数	
	
φ	:	画像エンコーダ	
 	:	テキストエンコーダ	
T(y)	:	yのテキスト	
V(y)	:	yの画像	
Reed,	ScoT,	et	al.	"Learning	Deep	Representa&ons	of	
Fine-Grained	Visual	Descrip&ons.	"	(CVPR	2016).	
31
char-CNN-RNN	
Reed,	ScoT,	et	al.	"Learning	Deep	Representa&ons	of	Fine-Grained	Visual	Descrip&ons."	(CVPR	2016).	
32
実験:スタイルエンコーダSの性能評価	
•  目的:スタイルエンコーダSで抽出したスタイルが筆者らの想定したスタイル(背
景など)と相関があるか調べたい	
•  全画像N枚の背景画素値を求める	
–  画像内のピクセル値の平均RGB	
•  求めた背景画素値でk-meansを用いて全画像を100クラスに分類	
•  全画像N枚からスタイルエンコーダを用いてスタイルzを抽出	
•  各画像のスタイルのコサイン類似度を計算	
•  ROC曲線を描いて評価	
33
実験:スタイルエンコーダSの性能評価	
34

More Related Content

What's hot

What's hot (20)

[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
 
「C言語規格&MISRA-C:みんなで楽しいCプログラミング」NGK2013B名古屋合同懇親会2013忘年会昼の部
「C言語規格&MISRA-C:みんなで楽しいCプログラミング」NGK2013B名古屋合同懇親会2013忘年会昼の部「C言語規格&MISRA-C:みんなで楽しいCプログラミング」NGK2013B名古屋合同懇親会2013忘年会昼の部
「C言語規格&MISRA-C:みんなで楽しいCプログラミング」NGK2013B名古屋合同懇親会2013忘年会昼の部
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
Person Re-Identification におけるRe-ranking のための K reciprocal-encoding
Person Re-Identification におけるRe-ranking のための K reciprocal-encodingPerson Re-Identification におけるRe-ranking のための K reciprocal-encoding
Person Re-Identification におけるRe-ranking のための K reciprocal-encoding
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
 
GPT解説
GPT解説GPT解説
GPT解説
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
[DL輪読会]Unsupervised Cross-Domain Image Generation
[DL輪読会]Unsupervised Cross-Domain Image Generation[DL輪読会]Unsupervised Cross-Domain Image Generation
[DL輪読会]Unsupervised Cross-Domain Image Generation
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
 

Recently uploaded

Recently uploaded (8)

LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイント
 
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
 

ICML2016読み会 Generative Adversarial Text to Image Synthesis