SlideShare a Scribd company logo
1 of 21
Download to read offline
Generating	videos
with	scene	Dynamics
M1 桶智輝 2017/11/17
1
論⽂情報
• タイトル
• Generating	videos	with	scene	Dynamics
• 発表学会
• NIPS	2016
• 被参照数(2017/11/16現在)
• 90件
• 著者
• Carl	Vondrick,	Hamed Pirsiavash,	Antonio	Torralba
(MIT,	University	of	Maryland	Baltimore	Country)
2
概要
• 3D	GANを⽤いて動画を学習
3
⽣成動画の特徴
4
⽣成動画の特徴
• ある部分は静⽌し、
ある部分だけ動いている
5
学習ネットワーク構成 - Generator
• ForegroundとBackgroundを分離
6
学習ネットワーク構成 - Discriminator
• ⼊⼒はサイズ64x64で32フレームの動画
7
学習パラメータ
• Adam	(	Learning	rate	:		0.0002	)
• Momentum		:		0.5
• Batch	size		:		64
• w		← N(	σ2 =	0.01,		μ =	0	)
8
実験
• データ
• Flickrから集めた5000時間overの動画
• アノテーションはなし
• 1つの動画は64x64で32フレーム分
• 実験
• 動画⽣成タスク
• 動画認識タスク
• 未来動画⽣成タスク
9
動画⽣成タスク - 詳細
• 評価⼿法
• 異なる3つのネットワークから⽣成される動画を
雇った150⼈にどの動画が好きかをアンケート
• ネットワーク種類
• VGAN	two	stream
• 基本型
• VGAN	one	stream
• 基本形のGeneratorでBackgroundブランチのない型
• Autoencoder
• Encoder部分はDiscriminatorの最終層が100次元
Decoder部分はVGAN	two	streamのGenaratorと同じ構成
10
動画⽣成タスク - 結果
• VGAN two	streamの動画⽣成結果
11
動画⽣成タスク - 結果
• GeneratorのMaskブランチ第3層を可視化
• オブジェクトの位置を認識している
12
動画⽣成タスク - 結果
• 定量的評価
• VGAN	two	streamの動画を好む⼈が
他⼿法の動画を好む⼈と⽐較して多かった
• 現実世界の動画と⽐較した追加実験でも
他⼿法よりVGAN	two	streamを好む⼈が多かった
13
動画認識タスク - 詳細
• ⾏動分類
• 動画データセットUCF101の分類タスク
• 他の教師なし学習の⼿法と⽐較
• VGAN	two	streamで前タスクと同様に学習した後、
UCF101でFine	tuningしたもの
• 重みをランダムに初期化した後、
UCF101でFine	tuningしたもの
14
動画認識タスク - 詳細
• VGAN	two	streamを
動画⽣成タスクと同様に学習
What	
category?
15
動画認識タスク - 詳細
• VGAN	two	streamを
動画⽣成タスクと同様に学習
• 最終層をn-class	softmax層に置き換え
• UCF101を⽤いてカテゴリ分類問題として
Fine	tuning
1x1x1	(n)
What	
category?
16
動画認識タスク - 結果
• 他の教師なし⼿法と⽐較するとAccuracyが⾼い
• 教師あり学習には⼤きく離されている
• Fine	tuningする際のデータが少なくても有効
⻘:ランダムに初期化した重みにFine	tuning
⾚:VGANで学習した重みにFine	tuning
17
• Generatorへの⼊⼒を
100次元ベクトルではなく
画像を4回畳み込んだベクトルに
• ⼊⼒画像から32フレームの動画を⽣成
未来動画⽣成ネットワーク構成 - Genarator
18
• ⾚⽮印は特に動いてる部分
• 背景と物体の分離が少し⾒て取れる
未来動画⽣成ネットワーク構成 - Genarator
19
未来動画⽣成ネットワーク構成 - Genarator
• Maskを可視化した結果
• オブジェクトを認識できている
20
まとめ
• 3D	GANを⽤いて動画を学習
• 背景とオブジェクトを分離するVGAN	two	stream	
• 精度はまだ不⼗分だが動画⽣成に成功
• 動画⽣成だけでなく動画認識の事前学習にも有効
21

More Related Content

Viewers also liked

勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライドharmonylab
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127harmonylab
 
7月10日(月)dl
7月10日(月)dl7月10日(月)dl
7月10日(月)dlharmonylab
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningharmonylab
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networksharmonylab
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016cvpaper. challenge
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016cvpaper. challenge
 

Viewers also liked (18)

Mobilenet
MobilenetMobilenet
Mobilenet
 
Deep voice
Deep voiceDeep voice
Deep voice
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
 
DeepLoco
DeepLocoDeepLoco
DeepLoco
 
7月10日(月)dl
7月10日(月)dl7月10日(月)dl
7月10日(月)dl
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
 
A3C解説
A3C解説A3C解説
A3C解説
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
ECCV 2016 速報
ECCV 2016 速報ECCV 2016 速報
ECCV 2016 速報
 
ICCV 2017 速報
ICCV 2017 速報 ICCV 2017 速報
ICCV 2017 速報
 

Similar to Generating Videos with Scene Dynamics

[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with StylesDeep Learning JP
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?Daiki Tsuchiya
 
女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2
女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2
女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2Satoru Tokuhisa
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )cvpaper. challenge
 
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析ニコニコ動画のコメント解析
ニコニコ動画のコメント解析Keisuke Ogaki
 

Similar to Generating Videos with Scene Dynamics (7)

[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
 
touya m
touya mtouya m
touya m
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2
女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2
女子美術大学メディアアート演習ⅡB 2012 Spring 第10回 2/2
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Generating Videos with Scene Dynamics