DiffusionRet:
Generative Text-Video Retrieval
with Diffusion Model
Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Xiangyang Ji, Chang Liu,
Li Yuan, Jie Chen
ICCV2023
佐伯晃(名工大玉木研)
2025/11/25
概要
◼テキスト・ビデオ検索タスク (Text-Video Retrieval)
• Text-to-video retrieval & Video-to-text retrieval
• テキストからビデオ,ビデオからテキストへの検索を行うタスク
◼拡散モデル(Diffusion Model)を用いてテキスト・ビデオ検索を行う
• 拡散モデルを検索のランク付けに利用する
• 従来の拡散モデル:画像を生成
• 本研究:検索に使う確率分布を生成
• ガウスノイズからノイズ除去を再帰的に行ってランク付けして
ビデオ候補の確率分布を得る
関連研究:テキスト・ビデオ検索タスク
◼ CLIP4Clip [Luo+, Neurocomputing 2022]
• テキスト・画像の事前学習モデル
CLIP [Radford+, ICML2021]のビデオへの拡張
◼ EMCL-Net [Jin+, NeurIPS2022]
• テキストとビデオの間の差を縮めて向上
• Expectation-Maximization Contrastive Learning (EMCL)
◼ HBI [Jin+, CVPR2023]
• 同著者.テキスト・ビデオ間の関連度の学習を
多変数 協力ゲーム理論によってモデル化.
すべて識別的モデル
従来手法:識別的モデルとの比較
◼従来手法:識別的モデル
(Discriminant Modeling)
• 条件付き確率 𝑝 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠 𝑞𝑢𝑒𝑟𝑦)
• データの基礎となる分布 𝑝(𝑞𝑢𝑒𝑟𝑦)
を
学習できない
→ 未学習のデータに対して
良好な汎化を達成するのが難しい
◼提案手法:生成的モデル
(Generation Modeling)
• 同時確率 𝑝(𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠, 𝑞𝑢𝑒𝑟𝑦) を推論
• 拡散モデルを導入
• ノイズの拡散過程を遡り (ノイズ除去)
検索のランク付けに利用する
→ 未学習のデータに対しても
良好な汎化を達成する
テキスト・ビデオ検索
• Text-to-video
• Query: テキスト𝑡
• Candidates: ビデオ𝑣
• Video-to-text
• Query: ビデオ𝑣
• Candidates: テキスト𝑡
識
別
的
モ
デ
ル
- Wikipedia
観測されていない変数(ターゲット)𝑥 を、
観測された変数(訓練サンプル)に基づくクラスラベル 𝑦 に
対応付ける条件付き確率分布 𝑃(𝑦|𝑥) に焦点を当てた研究
この点において、同時確率分布 𝑃(𝑥, 𝑦) を研究する生成的モデルとは異なる
引用元:識別的モデル - Wikipedia
DiffusionRetのフレームワーク
◼ 確率分布の初期値
• ガウスノイズ𝒩(0, I)から分布𝑥1:𝑁
の合成
𝑓𝜙: モデル, 𝑣: ビデオ, 𝑡: テキスト, 𝛷: パラメータ
◼ Denoising Networkを再帰的に
実行することでランク付けを行う
• ノイズから再帰的にノイズ除去(Denoising)
• ランク付けしてビデオ候補の順位を上げる
◼ 入力: Query, Candidates (図ではテキスト, ビデオ)
◼ 出力:候補の順位 (Retrieval result)
𝑁: 検索候補(Candidates)の個数
Denoising Network:結果の概念
◼拡散プロセスの確率分布
Denoising Network:結果の概念
◼拡散プロセスの確率分布
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model|ComputerVisionFoundation Videos YouTube https://www.youtube.com/watch?v=SGFoFRvCiOU
Denoising Network
◼ノイズ除去によって
候補の順位を上げる
• 検索に使う確率分布を生成
• 再帰的に実行される
◼Denoising Network
• Text-Frame Attention Encoder
• Query-Candidate Attention
Denoising Network
Text-Frame Attention Encoder
CLIP [Radford+, ICML2021]
ViT [Dosovitskiy+, ICLR2021]
◼ テキストと動画情報を混ぜ合わせる
◼ テキスト:Text representation 𝐶𝑡
• CLIP [Radford+, ICML2021] (ViT-B/32)の
[CLS]トークン
◼ ビデオ:Video representation 𝐶𝑣
1. 動画から均等に1フレームを抽出
2. ViT [Dosovitskiy+, ICLR2021]でエンコード
• フレームシークエンスをエンコード
• フレームと[CLS]トークンを適応
• フレーム埋め込みを得る
3. 4層Transformerで集約
• 全フレームの特徴量を集約
• Frame representation 𝐹 を得る
4. Attention (QKVモデル) へ入力
• Query: Text representation 𝐶𝑡
• Key/Value: Frame representation 𝐹
𝜏: ハイパーパラメーター
小さいほど、視覚的特徴が集約されるときに
より多くのテキスト情報を入れ込むことができる.
𝐶𝑣 = Softmax 𝐶𝑡𝐹𝑇
/τ′ 𝐹
𝐶𝑣
𝐶𝑡
Text-Frame Attention Map
◼ビデオ中のどこに注目しているのか
Query-Candidate Attention Denoising Network
◼クエリと候補の対応関係を得る
• ノイズ除去によって
検索に使う確率分布を生成
1. QKVモデル
• 関連性が高い候補に対する重み付け
• 入力
• Query: Text + Noise
• Key, Value: Video + Noise
• 前のステップの候補の確率分布𝑥𝑘
Attention weightに加算
• Attention (QKVモデル) の出力
• テキストクエリ情報を含む
意味情報埋め込み
(high semantic level embedding)
• 𝑊𝑄𝑡
, 𝑊𝐾𝑣
, 𝑊𝑉𝑣
: 射影行列
• 𝐶𝑡: テキスト, 𝐶𝑣: ビデオ, 𝑘: Noise level, Proj 𝑘 : Noise
𝐸𝑡
𝐶𝑣
𝐶𝑡
Query-Candidate Attention Denoising Network
◼クエリと候補の対応関係を得る
2. ノイズ除去 (Denoising) MLP
• 出力分布を計算するための
Relu活性化関数の線形層を含む
• 入力:[𝐶𝑣, 𝐸𝑡] ∈ 𝑅𝑁×2𝐷
• 出力:確率分布
3. Skip connection
• 前ステップの確率分布の情報を
保持するためと考えられる
QKVモデルに対して
テキストとビデオを入れ替える
• Text-to-video retrieval
• Video-to-text retrieval
𝐶𝑣
𝐶𝑡
𝐸𝑡
𝐶𝑣
学習方法と損失関数
◼生成と識別の両側面からの最適化を行う (学習最適化順:識別側→生成側)
◼生成側の観点:Probabilistic Diffusion (確率的拡散)
• KL divergenceにて正解データと生成モデルの差を評価
• 真の分布𝑥0と予測された分布ො
𝑥0の距離を最小化
◼識別側の観点:Contrastive Learning (対照学習)
• 合計類似度
• テキストからビデオへの類似度
• ビデオからテキストへの類似度
• Contrastive Loss
• 𝑠𝑡,𝑣: テキストとビデオの類似度
• 𝜏: temperature
実験設定
◼データセット
• MSRVTT [Jun+, CVPR2016]
• YouTube動画のそれぞれに20個のテキストが1万本.
• 9,000本の動画を訓練用に、1,000本をテスト用.
• LSMDC [Anna+, CVPR2015]
• 映画202本からビデオクリップ約12万本.
• テスト用に1,000本の動画を使用.
• MSVD [Lin+, ACL2011]
• 1,970本のビデオ.
• 訓練用1,200本,テスト用670本.
• ActivityNet Caption [Krishna+, ICCV2017]
• YouTube動画2万本が収録
• 訓練用約1万本,テスト用約5,000本.
• DiDeMo [Hendricks+, ICCV2017]
• 約1万本の動画.
ワード長32
フレーム数12
ワード長64
フレーム数64
実験設定
Adam [P. Kingma, arXiv2017]
CLIP [Radford+, ICML2021]
QB-Norm [Bogolin+, CVPR2022]
◼ Batch size: 128
◼ Adam [P. Kingma, arXiv2017] optimizer
◼ 事前学習済みモデル
• CLIP [Radford+, ICML2021] (ViT-B/32), 512次元の特徴量
◼ Initial learning rate
• Text encoder & video encoder: 1e-7
• 他: 1e-3
◼ Temperature: 𝜏 = 0.01, 𝜏′
= 1
◼ QB-Norm [Bogolin+, CVPR2022]: Querybank Normalisation
◼ 評価指標
• R@K↑
• Recall at k : 上位k個に含まれる正解の数 / 正解データの総数
• Rsum↑
• R@1, R@5, R@10の合計
• MdR↓, MnR↓
• Median Rank, Mean Rank:正解カテゴリの予測スコア順位の中央値, 平均
Text-Videoの相互結果
◼MSRVTTデータセット
◼Text-to-Video: 各テキストにおいて,あるビデオが正答するか
◼Video-to-Text: 各ビデオにおいて,あるテキストを正答するか
◼SoTA手法と比べて良好な結果を示す
Text-to-video 検索
◼他データセット (MSRVTT以外)
◼ほぼすべてのタスクで良好
Video-to-text 検索
◼他データセット (MSRVTT以外)
◼ほぼすべてのタスクで良好
In-domain / Out-domain 検索
◼従来のテキスト・ビデオ検索タスクは,同データセットの評価が主流
◼In-domain 検索
• ドメイン内での検索
◼Out-domain 検索
• ドメイン外での検索
• ソースデータセットでモデルを事前学習
未知のターゲットデータセットで性能評価をする
• ソースドメイン->ターゲットドメイン
• MSRVTT->DiDeMoであれば,
MSRVTTデータセット上で事前に訓練されたモデルを用いた
未訓練なDiDeMoデータセットへのテストによる汎化結果
Out-domainのパフォーマンス
◼In/out-domainともに良好な結果を示す
Out-domainな学習
In/out-domain検索の正解不正解の類似度分布
◼ In/out-domainともに良好な結果を示す
• 横軸:類似度, Positive Paris: 正解ペア, Negative Pairs: 不正解ペア
Out-domainな学習
ソース−>ターゲット
Ablation Study
a. 損失関数の種類による影響
• MSE: 平均二乗誤差, KL: KLダイバージェンス
• KLダイバージェンスが良好
• KLはMSEよりも確率間の距離を測定できる
b. サンプリング戦略
• DDPM: マルコフ連鎖 Denoising diffusion probabilistic models
• DDIM: 非マルコフ連鎖 Denoising diffusion implicit models
• DDIMを使用
c. βのスケジュール:ステップサイズの増加方法
• コサインスケジュールが良好
d. 学習方法
• 組み合わせるのが良好
e. ステップ数
• 50ステップで最良.画像生成タスクの標準ステップ数
1000より少ない.自然画像の画素分布より単純なため
f. βのスケール:拡散におけるS/N比
• 1.0が最良 (画像生成タスクのデフォルト値と同じ)
GPU計算量
◼ GPU: RTX3090
◼ Steps: 拡散モデルのステップ数
◼ 他手法と同程度の効率
• 軽量なノイズ除去ネットワーク
• VanillaなTransformerによる特徴抽出器
• 拡散モデルのステップ数によるスケーラビリティ
まとめ
◼拡散モデルを用いたテキスト・ビデオ検索の提案手法
• 通常は画像生成に利用するところを,検索のランク付けに利用.
• ガウスノイズからノイズ除去を再帰的に行ってランク付けして
ビデオ候補の確率分布を得る
◼In-domain / out-domainのどちらにも良好な結果を示す

論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model