4. InternVideo
n2つの事前学習タスクフレームワーク
• Masked Video Reconstruction, Multimodal Contrastive Learning
n広範な下流タスクに対応
Pretraining
Data Masked Video
Reconstruction
Multimodal
Contrastive
Learning
Video Text Encoder
Masked Video Encoder
Downstream Tasks
Action Understanding Video-Language Alignment Video Open Understanding
Kinetics, ActivityNet,
Something-Something…
MSR-VTT, DiDeMo,
MSVD, TGIF, LSMDC…
UFC101-HMDB51,
Ego4d, VLN-CE…
Multimodal Video Encoder
Cross Model Attention
Image
Video
Text
11. 2つのエンコーダの統合: InternVideo
n事前学習済みエンコーダは固定
nクロスアテンションで情報を注入
Figure 3: The overall framework of masked learning and multimodal learning in the pretrained stage.
@MNOFPGD>N EFDCG HIJGDCK
@>ABCD EFDCG HIJGDCK
MHCA + FFN
VN>AA WGBCI
FC
FC
MHCA FFN MHSA FFN
⋯ ⋯
MHSA FFN
⋯ ⋯
YNGL>N
ZGGNFIY
[NN WGBCIA
E
]
E
Figure 4: The illustration of the model interaction using cross-model attention.
12. InternVideoの学習設定
nエポック数:6
• コサインアニーリング:5,warmup : 1
n学習率:5e-5
n重み減衰:1e-3
nバッチサイズ:64
nドロップアウト率:0.9
nEMA率:0.9999
Figure 3: The overall framework of masked learning and multimodal learning in the pretrained stage.
@MNOFPGD>N EFDCG HIJGDCK
@>ABCD EFDCG HIJGDCK
MHCA + FFN
VN>AA WGBCI
FC
FC
MHCA FFN MHSA FFN
⋯ ⋯
MHSA FFN
⋯ ⋯
YNGL>N
ZGGNFIY
[NN WGBCIA
E
]
E
Figure 4: The illustration of the model interaction using cross-model attention.
13. 実験
n10のタスクと39のデータセット
n3つに分類
• Action Understanding
• 行動理解
• Video-Language Alignment
• ビデオとテキストの一致
• Video Open Understanding
• Zero-shotやOpen-set
nInternVideoは3つの分類で高い性能
• Masked Video ModelingとMutlimodal Contrastive Learning事前学習に依る
14. Action Understanding
n Action Recognition
n Temporal Action Localization
• 動作の開始地点と終了地点を求める
n Spatiotemporal
Action Localization
• 時空間的な動作の位置を求める
16. Video-Language Alignment
n Video Retrieval
• T2V: テキストからビデオの検索
• V2T: ビデオからテキストの検索
n Video Question Answering
• ビデオに対する質問文が与えられ,
自然言語で回答するタスク
n Visual Language Navigation
• 3D環境で,自然言語の指示に
従ってエージェントを
ナビゲーションするタスク
18. Video Open Understanding
n Zero-shot Action Recognition
n Zero-shot Video Retrieval
n Zero-shot Multiple Choice
• 与えられたテキストの選択肢から
ビデオに最も適したものを選ぶ
n Open-set Action Recognition
• 既知のカテゴリは識別し,
未知のカテゴリ入力は未知と識別する