Submit Search
Upload
【DL輪読会】Generating Long Videos of Dynamic Scenes
•
Download as PPTX, PDF
•
1 like
•
201 views
Deep Learning JP
Follow
2022/06/24 Deep Learning JP http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 23
Download now
Recommended
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
cvpaper. challenge
Dependency injection
Dependency injection
Yuki Matsumura
2021/6/29 Azure Hybrid and Multicloud Digital Event の内容を日本語でお届け!
2021/6/29 Azure Hybrid and Multicloud Digital Event の内容を日本語でお届け!
Masahiko Ebisuda
インタラクティブコンテンツにおけるHTML5とFlash
インタラクティブコンテンツにおけるHTML5とFlash
Yasunobu Ikeda
RUM と STM で実現する動画視聴における信頼性エンジニアリング
RUM と STM で実現する動画視聴における信頼性エンジニアリング
Yusuke Goto
AWS Lookout For Vision
AWS Lookout For Vision
ssuser862174
誰にでもできるパフォーマンスチューニング
誰にでもできるパフォーマンスチューニング
Kiyokazu Kaba
Cvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publish
tomoaki0705
Recommended
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
cvpaper. challenge
Dependency injection
Dependency injection
Yuki Matsumura
2021/6/29 Azure Hybrid and Multicloud Digital Event の内容を日本語でお届け!
2021/6/29 Azure Hybrid and Multicloud Digital Event の内容を日本語でお届け!
Masahiko Ebisuda
インタラクティブコンテンツにおけるHTML5とFlash
インタラクティブコンテンツにおけるHTML5とFlash
Yasunobu Ikeda
RUM と STM で実現する動画視聴における信頼性エンジニアリング
RUM と STM で実現する動画視聴における信頼性エンジニアリング
Yusuke Goto
AWS Lookout For Vision
AWS Lookout For Vision
ssuser862174
誰にでもできるパフォーマンスチューニング
誰にでもできるパフォーマンスチューニング
Kiyokazu Kaba
Cvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publish
tomoaki0705
あなたはどのタイプがお好き? イケメンHtml5系男子 ゲットのしかた
あなたはどのタイプがお好き? イケメンHtml5系男子 ゲットのしかた
Masakazu Muraoka
F-site発表資料「Flashユーザーが今覚えておきたいHTML5」
F-site発表資料「Flashユーザーが今覚えておきたいHTML5」
Yasunobu Ikeda
Microsoft DevOps Hackathon (Sep 2015) Team 4 Presentation
Microsoft DevOps Hackathon (Sep 2015) Team 4 Presentation
Yuichiro Saito
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
Toshiki Sakai
Windows Azure Media Serviceで作成する割と普通な動画サイト
Windows Azure Media Serviceで作成する割と普通な動画サイト
normalian
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
Keisuke Ogaki
3.Java EE7 徹底入門 CDI&EJB
3.Java EE7 徹底入門 CDI&EJB
Tsunenaga Hanyuda
VAddy - CI勉強会 fukuoka
VAddy - CI勉強会 fukuoka
ichikaway
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
Yusuke Suzuki
animation1.0
animation1.0
sleipnir002
sit-tokyo2022_sap-data-intelligence
sit-tokyo2022_sap-data-intelligence
tkimura2
Heroku Inside
Heroku Inside
Ayumu Aizawa
Agile Japan 2010 「変化を受け入れるアジャイルなプロジェクトマネジメントと現場 <ツール・環境篇>」
Agile Japan 2010 「変化を受け入れるアジャイルなプロジェクトマネジメントと現場 <ツール・環境篇>」
Yusuke Suzuki
Decode2017を振り返りアップデート情報チョット見せ
Decode2017を振り返りアップデート情報チョット見せ
Tsukasa Kato
iOS WKWebViewの魔改造 - iOSDC 2018
iOS WKWebViewの魔改造 - iOSDC 2018
Shingo Fukuyama
ビルドプロセスとCI #STAC2014
ビルドプロセスとCI #STAC2014
Koji Hasegawa
Play2実践tips集
Play2実践tips集
takezoe
Azure MediaServices 最新情報160924
Azure MediaServices 最新情報160924
Takanori Tsuruta
Ignite UI 2012 最新情報 jQuery Mobile 編
Ignite UI 2012 最新情報 jQuery Mobile 編
インフラジスティックス・ジャパン株式会社
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
More Related Content
Similar to 【DL輪読会】Generating Long Videos of Dynamic Scenes
あなたはどのタイプがお好き? イケメンHtml5系男子 ゲットのしかた
あなたはどのタイプがお好き? イケメンHtml5系男子 ゲットのしかた
Masakazu Muraoka
F-site発表資料「Flashユーザーが今覚えておきたいHTML5」
F-site発表資料「Flashユーザーが今覚えておきたいHTML5」
Yasunobu Ikeda
Microsoft DevOps Hackathon (Sep 2015) Team 4 Presentation
Microsoft DevOps Hackathon (Sep 2015) Team 4 Presentation
Yuichiro Saito
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
Toshiki Sakai
Windows Azure Media Serviceで作成する割と普通な動画サイト
Windows Azure Media Serviceで作成する割と普通な動画サイト
normalian
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
Keisuke Ogaki
3.Java EE7 徹底入門 CDI&EJB
3.Java EE7 徹底入門 CDI&EJB
Tsunenaga Hanyuda
VAddy - CI勉強会 fukuoka
VAddy - CI勉強会 fukuoka
ichikaway
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
Yusuke Suzuki
animation1.0
animation1.0
sleipnir002
sit-tokyo2022_sap-data-intelligence
sit-tokyo2022_sap-data-intelligence
tkimura2
Heroku Inside
Heroku Inside
Ayumu Aizawa
Agile Japan 2010 「変化を受け入れるアジャイルなプロジェクトマネジメントと現場 <ツール・環境篇>」
Agile Japan 2010 「変化を受け入れるアジャイルなプロジェクトマネジメントと現場 <ツール・環境篇>」
Yusuke Suzuki
Decode2017を振り返りアップデート情報チョット見せ
Decode2017を振り返りアップデート情報チョット見せ
Tsukasa Kato
iOS WKWebViewの魔改造 - iOSDC 2018
iOS WKWebViewの魔改造 - iOSDC 2018
Shingo Fukuyama
ビルドプロセスとCI #STAC2014
ビルドプロセスとCI #STAC2014
Koji Hasegawa
Play2実践tips集
Play2実践tips集
takezoe
Azure MediaServices 最新情報160924
Azure MediaServices 最新情報160924
Takanori Tsuruta
Ignite UI 2012 最新情報 jQuery Mobile 編
Ignite UI 2012 最新情報 jQuery Mobile 編
インフラジスティックス・ジャパン株式会社
Similar to 【DL輪読会】Generating Long Videos of Dynamic Scenes
(20)
あなたはどのタイプがお好き? イケメンHtml5系男子 ゲットのしかた
あなたはどのタイプがお好き? イケメンHtml5系男子 ゲットのしかた
F-site発表資料「Flashユーザーが今覚えておきたいHTML5」
F-site発表資料「Flashユーザーが今覚えておきたいHTML5」
Microsoft DevOps Hackathon (Sep 2015) Team 4 Presentation
Microsoft DevOps Hackathon (Sep 2015) Team 4 Presentation
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
Windows Azure Media Serviceで作成する割と普通な動画サイト
Windows Azure Media Serviceで作成する割と普通な動画サイト
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
3.Java EE7 徹底入門 CDI&EJB
3.Java EE7 徹底入門 CDI&EJB
VAddy - CI勉強会 fukuoka
VAddy - CI勉強会 fukuoka
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
animation1.0
animation1.0
sit-tokyo2022_sap-data-intelligence
sit-tokyo2022_sap-data-intelligence
Heroku Inside
Heroku Inside
Agile Japan 2010 「変化を受け入れるアジャイルなプロジェクトマネジメントと現場 <ツール・環境篇>」
Agile Japan 2010 「変化を受け入れるアジャイルなプロジェクトマネジメントと現場 <ツール・環境篇>」
Decode2017を振り返りアップデート情報チョット見せ
Decode2017を振り返りアップデート情報チョット見せ
iOS WKWebViewの魔改造 - iOSDC 2018
iOS WKWebViewの魔改造 - iOSDC 2018
ビルドプロセスとCI #STAC2014
ビルドプロセスとCI #STAC2014
Play2実践tips集
Play2実践tips集
Azure MediaServices 最新情報160924
Azure MediaServices 最新情報160924
Ignite UI 2012 最新情報 jQuery Mobile 編
Ignite UI 2012 最新情報 jQuery Mobile 編
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Recently uploaded
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Recently uploaded
(9)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
【DL輪読会】Generating Long Videos of Dynamic Scenes
1.
Generating Long Videos
of Dynamic Scenes 岡田 領 / Ryo Okada
2.
アウトライン 1. 書籍情報 2. 関連研究 3.
提案手法 4. 評価 5. まとめ
3.
書誌情報 • 2022/6/7 Arxiv投稿 •
長尺の動画生成で風景やオブジェクトの変化もリアルに表現. • https://www.timothybrooks.com/tech/long-videos/ • コード,データセット,学習済みモデルを公開予定とのこと
4.
生成動画
5.
生成動画
6.
7.
関連研究 • Unconditional video
generation(今回) • 暗黙的な動画生成(画像生成するStyleGANの動画版のイメージ • GANベースとTransformerベース • Conditional video prediction • 映像フレームやアクションを条件して,将来を予測する
8.
StyleGAN-V • GANベース • SOTA •
StyleGAN2を動画に拡張 • 潜在変数を動画全体のコンテンツを 制御するグローバルな潜在変数と動 きの成分に分解 • CVPR 2022
9.
TATS • transformerベース • 動画の情報をトークンの連続とした 自己回帰transformer •
VideoGPTを改善し,VQGANの Paddingの改善+2段階の transformer • 動画の時間経過とともに誤差が蓄積 されるため,急な変化が見られる • 時間と空間に自己回帰するので学習 コストが大きい • 2022/4 Arxiv
10.
モチベーション • 既存の動画生成では時間経過で新しい物体や描写がない.(時間受容野が小 さいのでコンテンツが偏る • 長期の一貫性を持ち,複雑な時間変化を再現できるように時間方向に強い潜 在表現を得るような手法を提案.
11.
12.
全体像 • 2つの生成器で2段階に処理 • 低解像度生成器 •
動きやシーン構成のモデル化(64 x 64) • ノイズから128フレーム生成(1イテレーション • 超解像ネットワーク • 低解像度生成器の結果を超解像に(256 x 256) • フレーム単位で処理 • 独立で学習
13.
低解像度生成器 • 時間を重視した設計で長い時間受 容野(5kフレーム) • StyleGANベースの構造 •
8スカラー値の入力ノイズに128個 のローパスフィルタ(サイズが 1000~5000frames分)を掛け合わ せ,多様な時間周波数を持たせる. マッピングネットワークに入力し ,各層の潜在変数にマップ • メインの経路ではWtの時間成分を 32倍にダウンサンプリングし,定 数と連結,時間次元(ST)→空間 次元(S)の順で徐々に解像度を増 やしていく.
14.
低解像度生成器の学習 • 訓練データの実動画と生成器の生成動画で識別器を訓練 • 長い動画での訓練の場合識別器の過学習が問題になったため ,学習の安定化のため,データ拡張を適用
15.
超解像ネットワーク • 動画の前後4つの低解像度フレーム(計9フレ ーム)をチャネル次元にconcatし,入力し,単 一のフレームを出力(256x256) • 学習時は実画像を低解像度化したものを利用し ,推論時は低解像度生成器からの生成動画を入 力. •
識別器の前にデータ拡張を適用 • アーキテクチャはほぼStyleGAN3そのまま
16.
17.
データセット • 既存データセットでは新しい物体やシーンが少ない • マウンテンバイクと乗馬の1人称動画のデータセットを作成 •
風景やオブジェクトが複雑に変化 • マウンテンバイク:1202動画, 30fps 30frame • 乗馬:66動画, 30fps 6504frame
18.
定性評価 • 提案手法は時間経過とともに風景が時間と共に変化. • StyleGAN-Vは同様のコンテンツの繰り返し(時間受容野が狭いため
19.
定性評価 • Mechanical Turkでどちらがリアルかアンケート •
80%以上が提案手法
20.
色の変化の分析 • RGBカラーヒストグラムの交差をフレームプロット(コンテンツの推移の確認) • 実動画と提案手法は同じカーブを描いている
21.
FVD • FVDによる実映像と生成された映像の分布の類似性の評価 • Biking,
HorsebackでStyleGAN-Vを上回っているが,ACID, Skyでは下回る結果(左表) • FVDは長期的なリアルさを見ず,短期的な細かい動きを評価しているため,StyleGAN- Vの数値が大きくなったと主張(実際ユーザ評価と食い違う)
22.
Ablation • 長い動画での訓練が必要 • ローパスフィルタが大きく影響
23.
まとめ • 広い時間スケールの潜在表現やアーキテクチャの採用によって,従来の動画 生成に比べて,長尺の複雑で別のオブジェクトが登場するような動画生成を 実現 • 結構早い速度で動画系の性能が向上してきている印象 •
動画生成における今後の課題 • 映像上一度いなくなって,再び登場するような物体を一貫性のあるものと して表現するにはどのような設計が必要か? • 評価の難しさ(FVDでは不十分)など
Download now