論文紹介：Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Text2Video-Zero: Text-to-Image
Diffusion Models are Zero-Shot
Video Generators
名工大玉木研 B4 小林優斗
2023/4/18
Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel,
Zhangyang Wang, Shant Navasardyan, Humphrey Shi
ICCV2023

テキストによる動画のゼロショット生成
生成プロンプト

関連研究：テキストから動画生成
nCogVideo [Hong+, arXiv2022]
• マルチフレームレート階層的学習
によってT2Iモデルを拡張
nTune-A-Video [Wu+, arXiv2022]
• Stable Diffusion (SD) を1つの動画上
でチューニング
• テキストによる動画編集に近い
どちらも追加で訓練が必要

n応用性の確認
• SDの拡張機能を本手法の拡張SDに
適用する
• ControlNet
• Instruct-Pix2Pix
研究の概要
nT2IモデルからT2Vモデルへの拡
張手法を提案
• Stable Diffusion (SD) を追加訓練な
しで拡張
• 潜在変数に動き情報を追加
Øグローバルシーン（構図）
• クロスフレームアテンション導入
Ø前景オブジェクト
• 背景平滑化処理（オプション）
Ø背景
“山で踊る女性”
背景
前景
山
女
性
構図

Stable Diffusion [Rombach+, CVPR2022]
n全体像
潜在空間
ガウスノイズ
からスタート
z0 zT
[引用：https://qiita.com/omiita/items/ecf8d60466c50ae8295b]
潜在変数 zt (t = 0, …, T)
テキストに従って
ノイズを除去

Text2Video-Zeroの全体像
n動画の各フレームを拡張SDによって生成
1. 潜在変数に「動き情報」を導入
Øグローバルシーンの時間的一貫性
2. 「クロスフレームアテンション」を導入
Ø前景オブジェクトの時間的一貫性
3. 背景を平滑化
U-Net
1
2
3

潜在変数に動き情報を導入
n動き情報
• グローバルシーン（構図）と前景オブジェクトの動き
• ワープ関数による平行移動
• SD (DDPMモデル)を使用
n最初のフレームの潜在変数のワープによって他フレームを作成
• １フレーム目の構図が受け継がれる
→グローバルシーン（構図）に一貫性
“A dog walking on a street.” の４フレーム動画
構図（犬と背景の位置関係）
がバラバラなし
あり
犬の配置とサイズが
最初のフレームに揃った

クロスフレームアテンションの導入
n目的
• 前景オブジェクトの一貫性
nクロスフレームアテンションに変更
• 最初のフレームと各フレーム間での関係
最初の前景オブジェクトの外観が
引き継がれる
U-Net
Self Attention
“A dog walking on a street.” の4フレーム動画
なし
あり
“dog” が同じ犬になった

背景平滑化（オプション）
生成した動画
前景マスク
を取得
凸結合
各ステップでU-Net入力前に以下を行う
動き情報をもとにワープ
各フレーム目で凸結合：
• 前景は特に何もしない
• 背景は１フレーム目との加重平均
を意味する

定性的結果：ゼロショット動画生成
n構図，前景オブジェクト，背景に時間的一貫性を持つ

SDの拡張機能への応用性の確認
nControlNet [Zhang+, arXiv2023]
• ポーズやエッジの条件を付けて生成
nInstruct-Pix2Pix [Brooks+, arXiv2022]
• 入力画像と指示テキストから画像を
編集する

定性的結果： ControlNetに適用
nエッジ，ポーズ制御による条件付き生成
• 制御に一致する高品質な動画が生成
• 優れた時間的一貫性と同一性の保持
ポーズ制御エッジ制御

定性的結果： Instruct-Pix2Pix
• 編集テキスト指示に忠実な動画編集
• 時間的一貫性も保持

実験設定
nビデオの設定
• 解像度 512 × 512
• フレーム数 𝑚 = 8
n動画生成実験
• 拡散モデルのノイズ除去ステップ数 𝑇 = 941
• DDIM，DDPMのステップ数 ∆𝑡 = 60
n条件付き生成，テキストガイド付き動画編集
• 𝑇 = 1000
• ∆𝑡 = 0

大規模動画学習を行うモデルに
追加学習なしで上回る
n定量的比較
• CogVideoと本手法で同じテキスト
によるビデオ生成
• CLIPスコア[Hessel+, arXiv2021]を比較
• テキストと動画の類似度指標
• 本手法：31.19
• CogVideo：29.63
動画生成での比較（vs CogVideo）
n定性的比較
• 本手法のほうがテキストと
ビデオの整合性が優れている

動画編集性能の定性的比較
n本手法 vs Instruct-Pix2Pix vs Tune-A-Video
• Instruct-Pix2Pixは編集性能は高いが，時間的一貫性に欠ける
• Tune-A-Videoは時間的一貫性はあるが，編集性能に欠ける

Ablation Study
n動き情報,クロスフレームアテンションの重要性
• 動き情報により動画の時間的一貫性が保たれる
• クロスフレームアテンションによりオブジェクトの同一性の保持が改善

Ablation Study
n背景平滑化
• 背景はより一貫性を持つ

まとめ
nText2Video-Zeroを提案
• テキストからのゼロショット動画生成を可能にするモデル
• Stable Diffusionを拡張
• 最適化・追加訓練なし
Øだれでも手軽に使用できるという利点
n他の手法と比較
• 定性・定量的に本手法が優れている
nその他の応用例の有効性を確認
• 条件付き動画生成
• ガイド付き動画編集

n手順
1. 最初のフレームをランダムサンプリング
2. SDによりΔt ステップ分ノイズ除去
3. ワープ関数にかけて平行移動
4. ３にノイズを乗せ潜在変数を得る
5. フレーム数分３, ４を繰り返す
潜在変数に動き情報を導入（補足）
ｍ：フレーム数
Wk()：ワープ関数
（ハイパーパラメータでどれだけ
平行移動するか設定）
U-Netへ
最初のフレームの潜在変数を徐々に
平行に移動したものの集まりが出来た
最初のフレーム
k枚目のフレーム
U-Net によるノイズを除去へ

補足：DDPM, DDIM
nDDPM (Denoising Diffusion Probabilistic Models)[Ho+, arXiv2020]
• 拡散モデル
• ノイズを乗せる関数をT回適用
• 徐々に（1000ステップくらい）
nDDIM (Denoising Diffusion Implicit Models)[Song+, arXiv2020]
• DDPMの問題を解決したい
• 1000ステップは長い
• DDPM を一般化したモデルを考え，その中からDDIM という特殊な場合を考える
• ランダム性を排除して生成を決定的にし、同じノイズから同じ画像が生成
• 品質を保ったままステップ数の削減（一気にノイズのせる）

補足：動き情報１
n Δt = 0 ，つまりDDIM, DDPMステップなし
l ワープによるグローバルシーンの平行
移動のみ
l 前景オブジェクトの “動き” がない
n DDIM, DDPMステップを行うのは前景オブ
ジェクトに “動き” をつけるため

補足：動き情報２
n「背景・シーンの一貫性」と
「前景オブジェクトの動き」は
トレードオフ
n経験的に Δt = 60 を採択

クロスフレームアテンションの導入
n目的
• 前景オブジェクトの一貫性
nクロスフレームアテンション
に変更
• 最初のフレームと各フレーム間
最初の前景オブジェクトの外観が引き継
がれる
引用：https://qiita.com/omiita/items/ecf8d60466c50ae8295b

条件付き動画生成
nControlNet [Zhang+, arXiv]
• 拡散モデルを制御するための
ニューラルネットワークアーキテクチャ
• ControlNetでSDを制御することで，
条件入力が可能
nDreamBooth [Ruiz+, arXiv]
• 数枚の被写体の画像を学習することで拡散モデルに被写体を生成させる
• 条件付き動画生成でこのモデルの重みを採用し，時間整合性を強化．
[Zhang+, arXiv]
[Ruiz+, arXiv]

論文紹介：Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Recommended

Recommended

More Related Content

Similar to 論文紹介：Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Similar to 論文紹介：Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators (9)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (8)

論文紹介：Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators