Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【CVPR 2019】Learning spatio temporal representation with local and global diffusion

98 views

Published on

cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文読破・まとめ・アイディア考案・議論・実装・論文投稿に取り組み、あらゆる知識を共有しています。
http://xpaperchallenge.org/cv/

本資料は、CVPR 2019 網羅的サーベイの成果の一部で、1論文を精読してプレゼンテーション形式でまとめております。論文サマリは下記からご確認頂けます。
http://xpaperchallenge.org/cv/survey/cvpr2019_summaries/listall/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

【CVPR 2019】Learning spatio temporal representation with local and global diffusion

  1. 1. Learning Spatio-Temporal Representation with Local and Global Diffusion Zhaofan Qiu, Ting Yao, Chong-Wah Ngo, Xinmei Tian, and Tao Mei 資料作成︓後藤啓太 1 http://xpaperchallenge.org/cv/
  2. 2. 概要 2 • ⽬的 – 動画の「動き」をうまくエンコードすることで、 ⾏動認識の精度を向上させたい • 提案 – 3D ResNet に Global Path を導⼊、動画全体を⾒て特徴を抽出 – 逐次的に Global な特徴と Local な特徴を混ぜ合わせる • 結果 – ⾏動認識やセグメンテーションに おいて SOTA を実現した
  3. 3. 背景(1) 3 • ⾏動認識 ( Action Recognition ) – 動画に対して Action Class を付与 • データセット – HMDB51 – UCF101 – Sports-1M – Kinetics 400 → 600 → 700 • 年々⼤規模化︕ https://www.crcv.ucf.edu/data/UCF101.php
  4. 4. 背景(2) 4 • データセットの⼤規模化によって、 • 深い 3D CNN でも学習が安定するようになった – 2D CNN から 3D CNN へ – C3D → I3D → 3D ResNet と代表的なモデルが登場 • 3D CNN は動き (= フレーム間の変化) を⾒ていないという批判 • [Huang+, CVPR 2018] – どれも結局は Optical Flow とアンサンブルしている こういった批判から、ネットワークの再考 が⾏われ始めている
  5. 5. 提案⼿法 (1) 5 • Local Global Diffusion (LGD): Global Path を追加 – Global Path が動画全体の特徴を保持 – Upsampling と Global Average Pooling により Diffusion Global → Local → ℱ がエンコードするための関数 (ResNet なら Residual Block) に相当
  6. 6. 提案⼿法 (2) 6 • LGD Block を積んでネットワークを構成 – Global 情報を段階的にエンコード – Local 情報にアテンションをかけるイメージに近い
  7. 7. 実験 7 1. 2D Conv と 3D Conv の⽐較 2. Ablation Study – ResNet-50 vs ResNet-101 – ImageNet 事前学習の有無 – Classification に Global 特徴の使⽤ – フレーム数(16 frames vs 64 frames per clip) 3. 従来の SOTA ⼿法と⽐較 – Kinetics-{400, 600}, UCF101, HMDB51, UCF101D, J-HMDB
  8. 8. 結果 (1) 8 • 2Dよりも3Dの⽅がいい︕ • → 3D CNN の弱点をカバーすることで真の性能を引き出している
  9. 9. 結果 (2) 9 • ResNet-101 • + ImageNet 事前学習 • + グローバル特徴 • + 多フレーム 精度向上に寄与 提案⼿法は時間⽅向の変化を うまくエンコードできてる
  10. 10. 結果 (3) 10 • 様々なデータセットで SOTA を実現 Kinetics-600 の validation set による比較(*は test set での結果) • Recognition – HMDB51 – UCF101 – Kinetics-{400, 600} • Spatio-Temporal Detection – J-HMDB – UCF101D で SOTA を実現
  11. 11. 考察 11 •Global Path の追加で精度が向上 – フレーム間の変化を⾒れている (?) – が、Two-Streamの⽅が精度が⾼いのには変わらない •ResNet-101 程度のパラメータ数でも学習できている – Kinetics-600が⼗分に⼤きいデータセット •ネットワーク内でDiffusion – ネットワーク構造としては Two-Stream 的な雰囲気 – Diffusion や Progressive など、ネットワーク複雑化の傾向

×