This document summarizes recent developments in action recognition using deep learning techniques. It discusses early approaches using improved dense trajectories and two-stream convolutional neural networks. It then focuses on advances using 3D convolutional networks, enabled by large video datasets like Kinetics. State-of-the-art results are achieved using inflated 3D convolutional networks and temporal aggregation methods like temporal linear encoding. The document provides an overview of popular datasets and challenges and concludes with tips on training models at scale.
This document summarizes recent developments in action recognition using deep learning techniques. It discusses early approaches using improved dense trajectories and two-stream convolutional neural networks. It then focuses on advances using 3D convolutional networks, enabled by large video datasets like Kinetics. State-of-the-art results are achieved using inflated 3D convolutional networks and temporal aggregation methods like temporal linear encoding. The document provides an overview of popular datasets and challenges and concludes with tips on training models at scale.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
Chunhui Liu, Xinyu Li, Hao Chen, Davide Modolo, Joseph Tighe; Selective Feature Compression for Efficient Activity Recognition Inference, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 13628-13637
https://openaccess.thecvf.com/content/ICCV2021/html/Liu_Selective_Feature_Compression_for_Efficient_Activity_Recognition_Inference_ICCV_2021_paper.html
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
1. Can Spatiotemporal 3D CNNs Retrace
the History of 2D CNNs and ImageNet?
CVPR 2018
Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh
National Institute of Advanced Industrial Science and Technology (AIST)
Tsukuba, Ibaraki, Japan
{kensho.hara, hirokatsu.kataoka, yu.satou}@aist.go.jp
10. 2.1 Related work -Video datasets
・HMDB-51 [17]、UCF-101 [21] :
学習に成功している一般タスク、十分な大きさとは言えない。
・ActivityNet [5] :
849時間の動画、28,000のanction instances.
・Kinetics dataset[16]:
400のカテゴリをカバー。30万以上のトリミングされた動画を含む
最新のデータセットを用いて多数の実験を行った。
11. 2.1 Related work -Video datasets
更に大きなデータセットについて
Sports-1M [15]
YouTube-8M [1]
アノテーションノイズが比較的大きく、ビデオレベルのみのラベルがつけられて
いるため良い訓練ができない。
10TBを超えるので大きすぎて簡単に利用できない。
⇒本論文では議論を控える。
12. 2.2 Related work -Action Recognition approaches
一般的なアプローチ
・Two-stream convolutional networks[20]
2Dの畳み込みカーネルを使用。RGBとoptical flow特徴量を別々のstreamで扱い、
結合する。⇒他の手法に比べて大幅に精度向上。
上記手法を基にした手法がいくつも考案される。[6,7,8,27,28,29]
13. 2.2 Related work -Action Recognition approaches
3D CNN:動画から時空間特徴を抽出するために3D畳み込みを適用。
C3D: Sports-1M dataset[15]を使っている。⇒3DCNNのde facto standard
・C3Dを拡張してRGBとoptical flowを入力としたものが3D CNNで最高精度を
出す。
・Kineticsを用いて3DCNNを訓練したものがImageNetでPretrainした2DCNNと
同じくらいの精度を出す。(UCF101,HMDB51では2Dに負けていた。)
14. 2.2 Related work -Action Recognition approaches
I3D[22]: inceptionを基にした3D CNNモデル。
⇒State of the art performanceを達成
最近の研究ではResNet構造を取り込んだ3D CNNが多く提案[9,24]
⇒しかし
比較的浅い層のものしか調べられていない。