論文紹介：MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

MeMViT:
Memory-Augmented Multiscale Vision
Transformer for Efficient Long-Term
Video Recognition
Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong,
Jitendra Malik, Christoph Feichtenhofer
CVPR2022
加藤樹（名工大玉木研）
2023/11/30

研究概要
n現在のビデオ認識システム
• 短いクリップを正確に解析可能
• 長時間動画の推論は苦手
nオンライン方式で動画を処理
• 1度に多くのフレームを処理しない
• 各反復でメモリをキャッシュ
nMeMViT（Memory-augmented Multiscale Vision Transformer）を提案
• MViT [Fan+, ICCV2021]を改良
• 既存手法の30倍時間的サポートを提供
計算時間と計算量のトレードオフ

提案手法：MeMViT
nキャッシュした記憶を維持して呼び出す
• キーと値をメモリとして使用
• クエリは過去と現在のキーとメモリに関与
• 時間的な受容野拡大
nメモリ圧縮モジュールを学習
• メモリフットプリントを軽減
• 重要な情報を学習
• 保持する記憶を厳選
MeMViTの概要図

関連研究
nVision Transformer（ViT）
• MViT [Fan+, ICCV2021]
• MViTv2 [Li+, CVPR2022]
• MeMViTのアーキテクチャの基礎
nTransformer designs in NLP
• Compressive Transformer [Rae+, ICLR2019]
• メモリ圧縮モジュール学習
• BPTTが必要で困難
• 本研究
• BPTT不使用
• E2Eで下流タスクに最適化可能
• パイプライン型メモリ圧縮方法

ViTの事前知識
nViT
• 画像を𝑁個の非重複パッチに埋込み
• 入力テンソル𝑋! ∈ ℝ"×$にパック
• 入力された𝑋を線形変換
• 自己注意操作で出力テンソル獲得
• 出力テンソル：𝑍 ∈ ℝ"×$!"#
nMViT [Fan+, ICCV2021]
• 画像の解像度固定
• 複数段階でマルチスケール表現を学習
• プーリングアテンション（𝒫）
• 注意層の計算コストを大幅削減
• 本研究の改良点
• 線形変換とプーリングを入れ替え
• 小さなテンソルで動作し，計算コスト削減

メモリアテンションとキャッシュ
nKeyとValueをメモリの形態として扱う
• クエリは現在𝑡の情報だけでなく𝑀ステップ前の情報もアテンション可能
• stop gradient（sg）で過去への依存性遮断
nKeyとValueのテンソルを全てキャッシュ
• 無駄な情報を含む可能性あり
• そのためにメモリ圧縮
トークン次元に沿った連結

ナイーブなメモリ圧縮
nNaïve Compression
• 圧縮モジュール（𝑓%や𝑓& ）を共同で学習
• 𝐾と𝑉のテンソル時空間サイズ縮小
• メモリフットプリントと計算コスト削減
• メモリとテンソルで共同学習
• メモリコスト大 '
𝑉(")についても同様

パイプラインメモリ圧縮
nPipelined Memory Compression
• 圧縮モジュール（𝑓%や𝑓& ）は非圧縮メモリ上で実行
• 1度に1ステップのみでメモリ圧縮
• 直前のステップのメモリのみ非圧縮
• メモリコスト小非圧縮キャッシュ
キャッシュされた反復メモリ

実装の詳細
nデータの読み込み方法
• クリップを逐次的に読み込み，オンライン形式で処理
• ビデオの区切りでメモリをリセット
n圧縮モジュールの設計
• トークン数を減らす任意の関数で適用可能
• 本研究ではPoolingを採用
n位置埋め込み
• 相対位置埋め込み
• MViTv2 [Li+, CVPR2022]で採用
• 異なる時点のメモリがクエリに対して異なる相対距離

実験設定
nMeMViTモデル
• MViTv2 [Li+, CVPR2022]がベース
• 層数：16
• ストライド：4
• 事前学習
• Kinetics-400 [Kay+, arXiv2017]
n学習方法
• バッチサイズ：128
• 最適化手法：SGD
• エポック：30
• 学習率：0.6
• 重み減衰：1.0×10)*
nデータセット
• AVA Actions [Gu+, CVPR2018]
• 15分間を299本

ベースライン比較
nメモリ圧縮によりスケールアップ
• 訓練と推論でより長い時間的サポート
• 計算コスト低下
• 同じ計算コストで優れた精度
n圧縮によるメモリベースの設計が有効
訓練GPUメモリ推論GPUメモリ訓練実行時間推論実行時間 FLOPs mAP

アブレーション実験 1
n各層のメモリ長による変化
• メモリ有で高性能
• メモリ長による影響は小
• メモリ長2で高性能
nAttention層でのメモリ拡張
• 全ての層でメモリにattentionする必要なし
• 50%強化で高性能
• 自己注意とメモリ注意を交互

アブレーション実験 2
nメモリ圧縮の倍率
• 圧縮したほうが高性能
• 無関係なノイズを抑制
• 何を記憶しておくかを学習
n圧縮方法
• パイプライン圧縮が優秀
• 簡単なPooling圧縮モジュールで性能発揮

下流タスクへの応用
nデータセット：EPIC-KITCHENS-100 [Damen+, IJCV2021]
• 分類タスク
• 名詞認識を2.4%向上（難易度：名詞認識 > 動詞認識）
• 予測タスク
• 動詞予想を3.5%向上（難易度：動詞予想 > 名詞予想）
n長期時間サポートが物体の曖昧さ解決に

最新手法との比較
n高い性能を発揮
• 精度向上
• 計算量削減
• メモリ削減
n精度
• Fine-tune+312+の高解像度抽出で最大
n他長時間動画学習モデルより高性能
• ACAR [Pan+, CVPR2021]

まとめ
nMViT [Fan+, ICCV2021]を効率的に拡張
• 各イテレーションでメモリキャッシュ
• 入力フレーム数の拡張は決定的ではない
n他のViTベースの手法に適用可能
n今後の長距離動画学習モデルに役立つ

EPIC-Kitchens-100 行動分類タスク
n高速+小メモリで高性能

EPIC-Kitchens-100 行動予測タスク
nAVT [Girdhar&Grauman, ICCV2021]より高性能
• 大会優勝モデル

論文紹介：MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

Recommended

Recommended

More Related Content

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (11)

論文紹介：MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition