【DL輪読会】Generating Long Videos of Dynamic Scenes

Generating Long Videos of Dynamic Scenes
岡田領 / Ryo Okada

アウトライン
1. 書籍情報
2. 関連研究
3. 提案手法
4. 評価
5. まとめ

書誌情報
• 2022/6/7 Arxiv投稿
• 長尺の動画生成で風景やオブジェクトの変化もリアルに表現．
• https://www.timothybrooks.com/tech/long-videos/
• コード，データセット，学習済みモデルを公開予定とのこと

関連研究
• Unconditional video generation（今回）
• 暗黙的な動画生成（画像生成するStyleGANの動画版のイメージ
• GANベースとTransformerベース
• Conditional video prediction
• 映像フレームやアクションを条件して，将来を予測する

StyleGAN-V
• GANベース
• SOTA
• StyleGAN2を動画に拡張
• 潜在変数を動画全体のコンテンツを
制御するグローバルな潜在変数と動
きの成分に分解
• CVPR 2022

TATS
• transformerベース
• 動画の情報をトークンの連続とした
自己回帰transformer
• VideoGPTを改善し，VQGANの
Paddingの改善＋２段階の
transformer
• 動画の時間経過とともに誤差が蓄積
されるため，急な変化が見られる
• 時間と空間に自己回帰するので学習
コストが大きい
• 2022/4 Arxiv

モチベーション
• 既存の動画生成では時間経過で新しい物体や描写がない．（時間受容野が小
さいのでコンテンツが偏る
• 長期の一貫性を持ち，複雑な時間変化を再現できるように時間方向に強い潜
在表現を得るような手法を提案．

全体像
• ２つの生成器で２段階に処理
• 低解像度生成器
• 動きやシーン構成のモデル化（64 x 64）
• ノイズから128フレーム生成（１イテレーション
• 超解像ネットワーク
• 低解像度生成器の結果を超解像に（256 x 256）
• フレーム単位で処理
• 独立で学習

低解像度生成器
• 時間を重視した設計で長い時間受
容野（5kフレーム）
• StyleGANベースの構造
• 8スカラー値の入力ノイズに128個
のローパスフィルタ（サイズが
1000~5000frames分）を掛け合わ
せ，多様な時間周波数を持たせる.
マッピングネットワークに入力し
，各層の潜在変数にマップ
• メインの経路ではWtの時間成分を
32倍にダウンサンプリングし，定
数と連結，時間次元（ST）→空間
次元（S）の順で徐々に解像度を増
やしていく．

低解像度生成器の学習
• 訓練データの実動画と生成器の生成動画で識別器を訓練
• 長い動画での訓練の場合識別器の過学習が問題になったため
，学習の安定化のため，データ拡張を適用

超解像ネットワーク
• 動画の前後４つの低解像度フレーム（計９フレ
ーム）をチャネル次元にconcatし，入力し，単
一のフレームを出力（256x256）
• 学習時は実画像を低解像度化したものを利用し
，推論時は低解像度生成器からの生成動画を入
力．
• 識別器の前にデータ拡張を適用
• アーキテクチャはほぼStyleGAN3そのまま

データセット
• 既存データセットでは新しい物体やシーンが少ない
• マウンテンバイクと乗馬の１人称動画のデータセットを作成
• 風景やオブジェクトが複雑に変化
• マウンテンバイク：1202動画, 30fps 30frame
• 乗馬：66動画, 30fps 6504frame

定性評価
• 提案手法は時間経過とともに風景が時間と共に変化．
• StyleGAN-Vは同様のコンテンツの繰り返し（時間受容野が狭いため

定性評価
• Mechanical Turkでどちらがリアルかアンケート
• 80%以上が提案手法

色の変化の分析
• RGBカラーヒストグラムの交差をフレームプロット（コンテンツの推移の確認）
• 実動画と提案手法は同じカーブを描いている

FVD
• FVDによる実映像と生成された映像の分布の類似性の評価
• Biking, HorsebackでStyleGAN-Vを上回っているが，ACID, Skyでは下回る結果（左表）
• FVDは長期的なリアルさを見ず，短期的な細かい動きを評価しているため，StyleGAN-
Vの数値が大きくなったと主張（実際ユーザ評価と食い違う）

Ablation
• 長い動画での訓練が必要
• ローパスフィルタが大きく影響

まとめ
• 広い時間スケールの潜在表現やアーキテクチャの採用によって，従来の動画
生成に比べて，長尺の複雑で別のオブジェクトが登場するような動画生成を
実現
• 結構早い速度で動画系の性能が向上してきている印象
• 動画生成における今後の課題
• 映像上一度いなくなって，再び登場するような物体を一貫性のあるものと
して表現するにはどのような設計が必要か？
• 評価の難しさ(FVDでは不十分)など

【DL輪読会】Generating Long Videos of Dynamic Scenes

Recommended

Recommended

More Related Content

Similar to 【DL輪読会】Generating Long Videos of Dynamic Scenes

Similar to 【DL輪読会】Generating Long Videos of Dynamic Scenes (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】Generating Long Videos of Dynamic Scenes