論文紹介：MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition

MoLo: Motion-augmented
Long-short Contrastive Learning
for Few-shot Action Recognition
Xiang Wang, Shiwei Zhang, Zhiwu Qing, Changxin Gao, Yingya Zhang,
Deli Zhao, Nong Sang
CVPR2023
杉本拓也（名工大玉木研）
2024/3/25

概要
n少数ショット動作認識の
新しいアプローチの提案
• 長時間の時間コンテキストとモー
ションキューを同時に学習
→包括的な少数ショットの
マッチングを実現
n5つの標準的な評価方法
（後述）で有効性を確認
n本研究の目的
•右の画像のような誤分類を減
らす

従来の少数ショット行動認識
n従来手法
• ローカルフレームレベル的にマッ
チング
n提案手法
• マッチング時にグローバルなフレーム
特徴も考慮
ARN [Zhang+, ECCV2020]
MoLo [Wang+, CVPR2023]

関連研究
n少数ショット画像分類
• 拡張ベースに基づく手法
• 勾配最適化手法
• メトリックに基づく手法
オプティカルフロー
[Simonyan&Zisserman, NeurlIPS2014]
nモーション学習
• オプティカルフローやフレーム差分
• 動画のモーションキューを明示的に
注入
• 動作認識のため
• 多大な計算オーバーヘッド
• raw flameのみで特徴抽出
メトリックに基づく手法
[Snell+, NeurlIPS2017]

MoLo：提案手法
nMotion-augmented Long-short Contrastive Learning (MoLo)
• Long-short contrastive objective（後述）
• ローカルマッチング処理にグローバルコンテキストを統合
• Motion autodecoder（後述）
• 更なるMotion informationの取得を目標

MoLo：Feature extractor
nビデオを特徴量ベクトルにエンコード
• ResNet-50 [He+, CVPR2016]を使用
• サポート特徴𝐹𝑠 = {𝒇𝒔𝟏, 𝒇𝒔𝟐, … , 𝒇𝒔𝑵} 𝒇𝒊 = {𝑓𝑖1, 𝑓𝑖2, … , 𝑓𝑖
𝑇}
• クエリ特徴𝑓 𝑞
nSpatial GAPを適用してそれぞれBase headに入力
N-way 1-shotタスクの場合

MoLo：Long-short contrastive objective
nクラストークンをビデオ特徴列に付加
n特徴列をTemporal Transformerへ入力
• 出力特徴量
• ：動画間で共有されるクラストークン
• ：positional embedding

nAlignment metricsでクエリ映像サンプルを分類
• 𝑀：frame level metric
n損失関数ℒ!"
#$%&
を計算
• フレーム特徴のグローバルコンテキスト認識を改善
MoLo：Frame-level-matching

MoLo：Motion autodecoder
nMotion informationをさらに組み込むために導入
• ３次元畳み込みを行い，隣接フレーム間の特徴差分を計算
• 部分的な情報損失を回避
n計算された特徴量をMotion headに入力
• 同様にSpatial GAPを適用
nBase headと同様に計算を行う
• 距離と損失関数ℒ!"
#$%&$'
を計算

MoLo：Query classification
nBase headとMotion headを統合
• 最終的なサポート動き特徴とクエリ動き特徴間の距離（𝛼：バランス係数）
• 最終的な損失関数
• ℒ = ℒ() + 𝜆*(ℒ!"
+,-.
+ ℒ!"
#$%&$'
) + 𝜆/ ℒ0.1$'-
• ℒ!" :真値に基づくサポート-クエリ距離に対するクロスエントロピー損失
• ℒ!"#$%& :フレーム差分を再構成するL2損失
n これらを最終的なクエリ動画の分類に活用

実験設定：実装の詳細
nFeature Extractor
• ResNet-50 [He+, CVPR2016]
• ImageNet [Deng+, CVPR2009]で
事前学習
• GAP層を削除
n最適化
• end-to-end
• Adam [Kingma&Ba, arXiv2014]
を使用
nサンプリング
• 一様に8フレーム
• ビデオ全体の表現を得るため
nデータセット
• SSv2-Full [Goyal+, ICCV2017]
• SSv2-Small [Goyal+, ICCV2017]
• Kinetics
[Carreira&Zisserman, CVPR2017]
• UCF101 [Soomro+, arXiv2012]
• HMDB51 [Kuehne+, ICCV2011]
nエピソード構築
• テストセットからランダムサンプリ
ング
• 10,000エピソード

データセット
SSv2 [Goyal+, ICCV2017] Kinetics [Carreira&Zisserman, CVPR2017]
UCF101 [Soomro+, arXiv2012] HMDB51 [Kuehne+, ICCV2011]

実験：最先端手法との比較
nSSv2-FullとKineticsを用いて比較
• 5-way K-shot設定（K：1~5，各エピソード5クラスを抽出）
• Alignment metrics：OTAM [Cao+, CVPR2020], Bi-MHM [Wang+, CVPR2022]

実験：最先端手法との比較
nUCF101, HMDB51, SSv2-Small（全クラス）を用いて比較
• MoLo:異なる設定に対応する一般的なフレームワーク
• ５-shotの最近の高度な手法には遅れ
• TRX [Prrette+, CVPR2021], STRM [Thatipelli+, CVPR2022]

n各コンポーネントの
有無を比較
• Long-short contrastive
• Motion autodecoder
• Base head, Motion head
n条件
• ベースライン
• Bi-MHM [Wang+, CVPR2022]
• 以降のAblation Studyでも使用
• データセット
• SSv2-Full [Goyal+, ICCV2017]
• Way数：5
• ショット数：1 または 5
Ablation Study：Network components（1）

nMotion informationの再構成をフレーム間差分からRAFTフロー
[Teed&Deng, ECCV2020]に変更
nTRX [Prrette+, CVPR2021]にモーションオートデコーダを挿入
Ablation Study：Network components（2）

Ablation Study：バックボーンの深さ
n条件
• バックボーン：ResNet-18，ResNet-34
• ショット数：1~5で変化
• Way数：5
• データセット：SSv2-Full
n結論
• いずれの条件でも他の
手法よりも高い性能
• ショット数が大きい
ほど高性能

結論
nLong-Short contractive objective
• ローカルマッチング処理にグローバルコンテキストを統合
nMotion autodecoder
• 更なるMotion informationの取得を目標
nロバストで包括的な少数ショットマッチングを可能にした
n実験によりMoLoが最先端の性能を達成していることが実証

論文紹介：MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition

Recommended

Recommended

More Related Content

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (11)

論文紹介：MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition