Generating	videos
with	scene	Dynamics
M1 桶智輝 2017/11/17
1
論⽂情報
• タイトル
• Generating	videos	with	scene	Dynamics
• 発表学会
• NIPS	2016
• 被参照数(2017/11/16現在)
• 90件
• 著者
• Carl	Vondrick,	Hamed Pirsiavash,	Antonio	Torralba
(MIT,	University	of	Maryland	Baltimore	Country)
2
概要
• 3D	GANを⽤いて動画を学習
3
⽣成動画の特徴
4
⽣成動画の特徴
• ある部分は静⽌し、
ある部分だけ動いている
5
学習ネットワーク構成 - Generator
• ForegroundとBackgroundを分離
6
学習ネットワーク構成 - Discriminator
• ⼊⼒はサイズ64x64で32フレームの動画
7
学習パラメータ
• Adam	(	Learning	rate	:		0.0002	)
• Momentum		:		0.5
• Batch	size		:		64
• w		← N(	σ2 =	0.01,		μ =	0	)
8
実験
• データ
• Flickrから集めた5000時間overの動画
• アノテーションはなし
• 1つの動画は64x64で32フレーム分
• 実験
• 動画⽣成タスク
• 動画認識タスク
• 未来動画⽣成タスク
9
動画⽣成タスク - 詳細
• 評価⼿法
• 異なる3つのネットワークから⽣成される動画を
雇った150⼈にどの動画が好きかをアンケート
• ネットワーク種類
• VGAN	two	stream
• 基本型
• VGAN	one	stream
• 基本形のGeneratorでBackgroundブランチのない型
• Autoencoder
• Encoder部分はDiscriminatorの最終層が100次元
Decoder部分はVGAN	two	streamのGenaratorと同じ構成
10
動画⽣成タスク - 結果
• VGAN two	streamの動画⽣成結果
11
動画⽣成タスク - 結果
• GeneratorのMaskブランチ第3層を可視化
• オブジェクトの位置を認識している
12
動画⽣成タスク - 結果
• 定量的評価
• VGAN	two	streamの動画を好む⼈が
他⼿法の動画を好む⼈と⽐較して多かった
• 現実世界の動画と⽐較した追加実験でも
他⼿法よりVGAN	two	streamを好む⼈が多かった
13
動画認識タスク - 詳細
• ⾏動分類
• 動画データセットUCF101の分類タスク
• 他の教師なし学習の⼿法と⽐較
• VGAN	two	streamで前タスクと同様に学習した後、
UCF101でFine	tuningしたもの
• 重みをランダムに初期化した後、
UCF101でFine	tuningしたもの
14
動画認識タスク - 詳細
• VGAN	two	streamを
動画⽣成タスクと同様に学習
What	
category?
15
動画認識タスク - 詳細
• VGAN	two	streamを
動画⽣成タスクと同様に学習
• 最終層をn-class	softmax層に置き換え
• UCF101を⽤いてカテゴリ分類問題として
Fine	tuning
1x1x1	(n)
What	
category?
16
動画認識タスク - 結果
• 他の教師なし⼿法と⽐較するとAccuracyが⾼い
• 教師あり学習には⼤きく離されている
• Fine	tuningする際のデータが少なくても有効
⻘:ランダムに初期化した重みにFine	tuning
⾚:VGANで学習した重みにFine	tuning
17
• Generatorへの⼊⼒を
100次元ベクトルではなく
画像を4回畳み込んだベクトルに
• ⼊⼒画像から32フレームの動画を⽣成
未来動画⽣成ネットワーク構成 - Genarator
18
• ⾚⽮印は特に動いてる部分
• 背景と物体の分離が少し⾒て取れる
未来動画⽣成ネットワーク構成 - Genarator
19
未来動画⽣成ネットワーク構成 - Genarator
• Maskを可視化した結果
• オブジェクトを認識できている
20
まとめ
• 3D	GANを⽤いて動画を学習
• 背景とオブジェクトを分離するVGAN	two	stream	
• 精度はまだ不⼗分だが動画⽣成に成功
• 動画⽣成だけでなく動画認識の事前学習にも有効
21

Generating Videos with Scene Dynamics