論文紹介：InternVideo: General Video Foundation Models via Generative and Discriminative Learning

InternVideo: General Video
Foundation Models via Generative
and Discriminative Learning
Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hongjie
Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan, Jiashuo Yu,
Yali Wang, Limin Wang, Yu Qiao, arXiv2022
福沢匠（名工大玉木研）
2023/9/27

概要
n基盤モデル
• 大規模なデータで学習，少ないデータで下流タスクの学習
n既存の視覚基盤モデルの問題点
• 画像の事前学習に集中
• 動画像タスクには不十分
• 特定の動画像下流タスクに特化
• 行動理解タスク，動画像-言語アライメントタスク
nInternVideo
• ２つの事前学習タスク
• Masked Video Reconstraction, Video-Language Contrastive Learning
• 保管的な動画像表現を取得して合成
• 広範な動画像タスクで高い性能

関連研究
n画像基盤モデル
• 特定のタスク，ドメインに特化
• CLIP [Radford+, ICML2021], ALIGN[Jia+, ICML2021]
• Web上の大規模な画像-テキストペアで対照学習
• 高いゼロショット性能
n動画像基盤モデル
• ビデオ認識（特にKinetics上）においてのみ有望な性能
• VIOLET[Fu+, arXiv2021], All-in-one[Wang+, arXiv2022],
LAVENDER[ Li+, arXiv2022 ]
• V-Lマルチモーダルタスクで高い性能
• 行動認識など動画像のみのタスクが弱い

InternVideo
n2つの事前学習タスクフレームワーク
• Masked Video Reconstruction, Multimodal Contrastive Learning
n広範な下流タスクに対応
Pretraining
Data Masked Video
Reconstruction
Multimodal
Contrastive
Learning
Video Text Encoder
Masked Video Encoder
Downstream Tasks
Action Understanding Video-Language Alignment Video Open Understanding
Kinetics, ActivityNet,
Something-Something…
MSR-VTT, DiDeMo,
MSVD, TGIF, LSMDC…
UFC101-HMDB51,
Ego4d, VLN-CE…
Multimodal Video Encoder
Cross Model Attention
Image
Video
Text

学習ステップ
n自己教師あり学習
• 個別に２つのエンコーダを学習
• Masked Video Encoder：動画像をマスクし再構成するタスク
• 行動理解に特化
• Multimodal Video Encoder：動画像・画像とテキストのマッチングタスク
• 複雑な意味情報を視覚表現に埋め込む
n教師あり学習
• 上記エンコーダを個別にアクション分類タスクで調整
n２つのエンコーダの統合
• 両エンコーダは固定，エンコーダ間でクロスアテンション
• 統一的な動画像表現を学習

Masked Video Encoderの学習
nVideoMAE [Tong+, NeurIPS2022]
• Encoder, Decoder
• ViT [Dosovitskiy+, ICLR 2021]
• 非対称なエンコーダ・デコーダ
• デコーダ
• チャネル数半分
• ブロック数4
• チューブマスキング
• 高比率（90%等）
• ビデオの再構成

Masked Video Encoderの学習設定
nデータセット
• UnlabeledHybrid
• Kinetics-710
• UniformerV2[Li+, arXiv2022]で定義
• Kinetics-400 [Kay+, arXiv2017]
• Kinetics-600 [Carreira+, arXiv2018]
• Kinetics-700 [Carreira+, arXiv2019]
• SSv2 [Goyal+, ICCV2017]
• AVA [Gu+, CVP2018]
• WebVid2M [Bain+, ICCV2021]
• その他収集したデータ
n1200エポック
n学習率：2.5e-4
• コサインアニーリング

Multimodal Video Encoderの学習
nCLIP + キャプションデコーダ
• 対照学習とキャプション生成
• ロバスト性の向上
n視覚エンコーダ
• UniFormerV2 [Li+, arXiv2022]
n1エポックごとに
VideoとImage切り替え

Multimodal Video Encoderの学習設定
nデータセット
• Video
• WebVid2M/10M [Bain+, ICCV2021]
• HowTo100M [Miech+, ICCV2019]
• Image
• LAION-400M [Schuhmann+, arXiv2021]
• Videoのみだとデータ数少ないため
nバッチサイズ
• video-text : 14,336
• Image-text : 86,016
• 400kステップ
• 学習率 : 8e-5

教師あり学習
nMasked Video Encoder
• 学習率
• 0.001 バッチサイズ/256
• ドロップパス率: 20%
• エポック数: 40
nMultimodal Video Encoder
• 学習率: 1e-5
• バッチサイズ: 512
• エポック数: 40
n2つのエンコーダを個別にアクション分類学習
nデータセット: Kinetics-710

２つのエンコーダの統合: InternVideo
n事前学習済みエンコーダは固定
nクロスアテンションで情報を注入
Figure 3: The overall framework of masked learning and multimodal learning in the pretrained stage.
@MNOFPGD>N EFDCG HIJGDCK
@>ABCD EFDCG HIJGDCK
MHCA + FFN
VN>AA WGBCI
FC
FC
MHCA FFN MHSA FFN
⋯ ⋯
MHSA FFN
⋯ ⋯
YNGL>N
ZGGNFIY
[NN WGBCIA
E
]
E
Figure 4: The illustration of the model interaction using cross-model attention.

InternVideoの学習設定
nエポック数：6
• コサインアニーリング：5，warmup : 1
n学習率：5e-5
n重み減衰：1e-3
nバッチサイズ：64
nドロップアウト率：0.9
nEMA率：0.9999
Figure 3: The overall framework of masked learning and multimodal learning in the pretrained stage.
@MNOFPGD>N EFDCG HIJGDCK
@>ABCD EFDCG HIJGDCK
MHCA + FFN
VN>AA WGBCI
FC
FC
MHCA FFN MHSA FFN
⋯ ⋯
MHSA FFN
⋯ ⋯
YNGL>N
ZGGNFIY
[NN WGBCIA
E
]
E
Figure 4: The illustration of the model interaction using cross-model attention.

実験
n10のタスクと39のデータセット
n3つに分類
• Action Understanding
• 行動理解
• Video-Language Alignment
• ビデオとテキストの一致
• Video Open Understanding
• Zero-shotやOpen-set
nInternVideoは3つの分類で高い性能
• Masked Video ModelingとMutlimodal Contrastive Learning事前学習に依る

Action Understanding
n Action Recognition
n Temporal Action Localization
• 動作の開始地点と終了地点を求める
n Spatiotemporal
Action Localization
• 時空間的な動作の位置を求める

Video-Language Alignment
n Video Retrieval
• T2V: テキストからビデオの検索
• V2T: ビデオからテキストの検索
n Video Question Answering
• ビデオに対する質問文が与えられ，
自然言語で回答するタスク
n Visual Language Navigation
• 3D環境で，自然言語の指示に
従ってエージェントを
ナビゲーションするタスク

Video Open Understanding
n Zero-shot Action Recognition
n Zero-shot Video Retrieval
n Zero-shot Multiple Choice
• 与えられたテキストの選択肢から
ビデオに最も適したものを選ぶ
n Open-set Action Recognition
• 既知のカテゴリは識別し，
未知のカテゴリ入力は未知と識別する

まとめ
n２つの相補的な自己教師あり事前学習
n約40のデータセットで最先端の性能
n課題
• 長時間ビデオタスクを処理できない
• 異なるモダリティ，事前学習タスク，アーキテクチャから
学習されたモデルのより良い調整方法

論文紹介：InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 論文紹介：InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Similar to 論文紹介：InternVideo: General Video Foundation Models via Generative and Discriminative Learning (20)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (11)

論文紹介：InternVideo: General Video Foundation Models via Generative and Discriminative Learning