Towards Performant Video Recognition
若宮 天雅、笠井 誠斗、石川 裕地、片岡 裕雄
1
http://xpaperchallenge.org/cv
自己紹介
2
● 若宮 天雅
東京電機大 M2・産総研RA
● 石川 裕地
慶應義塾大 M2・産総研RA
● 笠井 誠斗
慶應義塾大 M2・産総研RA
CVPR 2019@ロングビーチにて


導入
3
● 動画認識
○ 理解に繋がる情報を動画から抽出すること
画像同様に深層学習による解析手法が主流
画像よりも不要な部分が多いため難しい
担当:若宮

入力
video ● ラベル
throwing, basketball, …
● 時間区間
● キャプション
A man is throwing a ball.
  etc…
出力
導入
4
● CNNによる動画解析手法
○ 主に3種類の手法
• 下記の通り,何れの手法も出力の確率分布は時間的に積分
• 2D CNN: 空間畳み込み
• 3D CNN: 固定長の時空間畳み込み
• (2+1)D CNN: 時間と空間の畳み込みを分離,順次処理
担当:若宮

導入
5
● CNNによる動画解析手法
●
●
●
●
●
○ 画像認識と同様の手法
○ 時系列拡張されていないため RNN 等やオプ
ティカルフロー画像などの工夫が必要
担当:若宮

導入
6
● CNNによる動画解析手法
●
●
●
●
●
○ 時系列方向にカーネルサイズを拡張をすること
により動きの特徴表現を獲得
○ (2 + 1)D CNNよりも先に登場
担当:若宮

導入
7
● CNNによる動画解析手法
●
●
●
●
●
○ 空間方向に 2D Conv,時間方向に 1D Conv を
もつカーネルによる時系列拡張
○ 認識精度的にSoTAな手法

担当:若宮

導入
8
時系列拡張した CNN について
● 2017年くらいまで 2D CNN が主流
○ オプティカルフローを用いた two-stream
○ 時系列拡張した CNN の認識精度が低い
○ データ不足による過学習
● 大規模動画データセットによるの認識の発展
○ YouTube の登場
○ Kinetics-400 データセット
2017年のI3D + Kinetics-400がGame Changer
担当:若宮

導入
9
2004年

KTH 2391 動画

2008年

Holywood

430 動画

2011年

HMDB

6894 動画

2012年

UCF-101

13320 動画

2015年

ActivityNet

19994 動画

2016年

Youtube-8M

5.6M+ 動画

2017年

Kinetics-400

300K+ 動画

2018年

Moments in Time

1M+ 動画

2004年

2020年現在

急速な
データ量の増加

・・・

・・・

担当:若宮

102
- 104
order; Learning by hand-crafted features 

104
- 105
order; Learning by 2D CNNs 

105
- 106
order; Learning by 3D CNNs 

2019/2020年

Kinetics-600/700

500K+/650K+ 動画

2020年

HVU

550K+動画

動画あたり複数ラベル 

導入
10
● Kinetics: The Kinetics Human Action Video
Dataset [Key+, arXiv]
○ 行動クラス → 400 クラス!!
○ 動画数 → 300K+ 動画!!
圧倒的なデータ量!
→ 2D CNNと比較してパラメータ数が
膨大な3Dの学習を成功!!
担当:若宮

https://arxiv.org/abs/1705.06950
導入
11
● Can Spatiotemporal 3D CNNs Retrace the
History of 2D CNNs and ImageNet? [Hara+ ,
CVPR 2018]
○ 3D CNNが Kinetics を過学習せずに学習可能
○ Kinetics の学習済みモデルを使えば
UCF-101/HMDB-51やActivityNet も学習が可
能
事実上の 動画 × 3D CNN が可能となり、
動画認識の時代の開幕
担当:若宮

https://arxiv.org/abs/1711.09577
導入
12
● 深層学習やデータセットの拡大・拡張
○ 様々な動画認識のコンペが登場
■ ActivityNet Challenge(CVPR WS)
■ Kaggle (e.g. YouTube-8M Challenge)
■ Moments in Time Challenge
■ etc…
○ 動画認識の手法×コンペのノウハウの調査
■ 対象ドメインに対して最高の性能を持つため
の方法
■ 手法などのサーベイだけでは勝てない??
担当:若宮

Agenda
13
● 論文紹介
○ 以下のタスクに関する論文を参照
■ ActivityNet Challenge
■ (Kaggle) YouTube-8M Large-Scale Video
Understanding Challenge
■ Moments in Time Challenge etc...
● メタ部分
○ ActivityNet Challengeで勝利するための秘訣を
模索する
○ 動画認識分野の傾向・展望
担当:若宮

論文紹介

ActivityNet Challenge 

ActivityNet Challenge
16
● どんなコンペ?
○ 動画認識界では最大規模
■ proposal(イベント時間推定)
■ localization(指定した行動の時間推定)
■ captioning(イベント時間を推定・文章生成)
■ Kinetics-X00(X=4, 6, 7; 行動クラスの識別)
■ etc...
○ 対象動画データセット
■ ActivityNet
■ Kinetics-X00(X=4, 6, 7)
■ AVA dataset
■ etc...
担当:若宮

ActivityNet Challenge

Kinetics-X00 

ActivityNet
18
● Kinetics-X00(X = 4, 6, 7)
○ 与えられたフレーム(10 秒)に対して行動ラベルを推測する
タスク
○ 学習するデータの詳細
■ ラベル数: X00(X=4, 6, 7)
■ 動画数 : 300k動画, 500K 動画, 650K動画
■ フレーム数 : 300枚
○ 予測する行動ラベル例
■ abseiling
■ air drumming
■ answering questions
■ applauding
■ etc...
担当:若宮

A Short Note on the Kinetics-700 Human Action Dataset
[Carreira+, arXiv]
19
● ActivityNet 2019 Kinetics-700 Challengeのタスク・データセットの
提案論文
● 手法
○ RGB のみを用いた I3D(ベースの手法として提案)
● 結果
○ Top-1 acc : 57.3%(ベースライン)

担当:若宮

https://arxiv.org/abs/1907.06987
Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for
Human Action Recognition [He+, arXiv]

20
● 学会・順位
○ ActivityNet 2018 Kinetics-600 Challenge の1位論文
● 手法
○ 従来の手法よりも空間方向と時間方向から総合的に動画を認識できる
spatial-temporal network (StNet) の提案
○ RGB・TVL1 Flow・Farneback Flow・Audio を結合する improved
temporal Xception network (iTXN) を提案
● 結果
○ Top-1 acc : 82.4%
○ モデルのアンサンブルにより Top-1 acc : 85.0%

担当:若宮

https://arxiv.org/abs/1806.10319
YH Technologies at ActivityNet Challenge 2018 [Yao+, ICCV 2018]
21
● 学会・順位
○ ActivityNet 2018 Kinetics-600 Challenge の2位論文(Ting Yao はすべ
てのコンペに参加した強者)
● 手法
○ 2D 空間畳み込みと 1D 時間方向を組み合わせた Pseudo-3D Residual
Network (P3D) を使用
○ Audio は MFCC に変換, RGB と Optical Flow では Compact Bilinear
Pooling (CBP) を使用
● 結果
○ Top-1 acc : 83.75%
担当:若宮

https://arxiv.org/abs/1807.00686
Qiniu Submission to ActivityNet Challenge 2018 [Zhang+, arXiv]
22
● 学会・順位
○ ActivityNet 2018 Kinetics-600 Challenge の3位論文 (MiT も3位)
● 手法
○ 動画から一定数のフレームをクリップする手法である temporal segment
network (TSN) とある注目点の値を特徴マップ中全てに重み付き和とし
て与えることでグローバルな特徴を学習する non-local neural network
を構成し,マルチモーダルな動画認識の方法を提案
● 結果
○ Top-1 acc : 83.5%
担当:若宮

https://arxiv.org/abs/1806.04391
Learning Spatio-Temporal Representation with Local and Global
Diffusion [Qiu+, CVPR2019]
23
● 学会・順位
○ ActivityNet 2019 Kinetics-700 Challenge の1位論文
● 手法
○ 時空間特徴学習を促進するために Local 表現と Global 表現を平行に
学習するニューラルネットワークアーキテクチャである Local and Global
Diffusion (LGD) を提案
● 結果
○ Kinetics-400 Top-1 acc : 81.2%
○ Kinetics-600 Top-1 acc : 82.7%
担当:若宮

https://arxiv.org/abs/1906.05571
Action Recognition の傾向
24
● 基本的にはマルチモーダルが強い
○ 情報量は多ければ精度も上がる
● モデルのアンサンブルが精度追求の上では有効
● 優勝チームの精度の遷移
○ 概ねできるようになってきた
■ ActivityNet Challenge 2020 では action recognition のタスクが廃止
(spatio-temporal) action localization のタスクが増える
Kinetics Team Average Error
2017 400 Tsinghua and Baidu 12.4
2018 600 Baidu Vis 10.99
2019 700 JD AI Research 17.88
担当:若宮

Action Proposal Generation

Action Proposal Generation
26
● どんなタスク?
○ CVPR workshop ActivityNet Challenge にて開催
○ 動画中の action が起こっていそうな時間区間 (Action Proposal) を予
測
○ action localization や dense-captioning のタスクにも使われる
● データセット
○ ActivityNet
■ 動画数 : 20k動画
■ 計 648 時間
● 評価指標
○ The area under the Average Recall vs Average Number of
Proposals per Video (AR-AN) with tIoU thresholds
担当:石川

Action Proposal Generation の主な手法 (1/2)
27
Anchor-based Approaches
● マルチスケールな anchor を用いて proposal を生成
● 主な手法
○ SSAD[1]
, CBR[2]
, TURN TAP[3]
● 長所
○ マルチスケールの proposal を効果的に生成できる
○ 全ての anchor の情報を同時に捉えるため,
○ confidence score が信頼できることが多い
● 短所
○ anchor の設計が難しい
○ 正確でないことが多い
○ 様々な時系列区間を捉えるのが難しい

担当:石川

[1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017 

[2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017 

[3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017 

Action Proposal Generation の主な手法 (2/2)
28
Anchor-free Approaches
● action boundary や actioness を評価して,proposal を生成
● 主な手法
○ TAG[1]
, BSN[2]
, BMN[3]
● 長所
○ 時系列方向の区間を柔軟に,かつ正確に proposal を生成可能
○ BSP (Boundary Sensitive Proposal) features を用いれば,
○ confidence score の信頼性が上がる
● 短所
○ feature の設計と confidence score の評価が別々で
行われるため,非効率的である
○ 特徴量が単純になりがちで,時系列方向のコンテキストを捉えるには不
十分である場合がある
○ multi-stage で,end2end なフレームワークではない
担当:石川

[1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017 

[2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018 

[3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019 

SSAD
29
担当:石川

Single Shot Temporal Action Detection
Tianwei Lin, Xu Zhao, Zheng Shou, in ACM Multimedia 2017
● Anchor-based の手法
● 物体検出で用いられる SSD を action detection に拡張
● default anchor に対する時系列方向の offset を予測
BSN (Boundary Sensitive Network)
30
担当:石川

BSN: Boundary Sensitive Network for Temporal Action Proposal Generation
Tianwei Lin, Xu Zhao, Haisheng Su, Chongjing Wang, Ming Yang in ECCV 2018
● ActivityNet Challenge 2018 winner
● 動画特徴量から の starting point, ending point, actioness を推定
● starting point と ending point の起こりうる組み合わせを
action proposal と見なして,その区間での actioness で評価
● Soft-NMS を使用して,proposal の重複を抑える
BMN (Boundary Matching Network)
31
担当:石川

BMN: Boundary-Matching Network for Temporal Action Proposal Generation
Tianwei Lin, Xiao Liu, Xin Li, Errui Ding, Shilei Wen in ICCV 2019
● ActivityNet Challenge 2019 winner
● 動画特徴量から action boundary を予測した後,全ての proposal の信頼度を
評価するための Boundary- Matching Confidence Map を作成し,
proposal を決定する
Action Proposal Generation の傾向
32
● Anchor-free approach が主流
● Baidu Visが二年連続優勝
○ 中でも Tianwei Lin が action proposal の分野をリード
● action proposal が強いチームは他タスクでも好成績
○ action localization: (2019) Baidu Vis 優勝, (2018) Baidu Vis 3位
○ dense-captioning 2019: Baidu Vis 2位
● 優勝チームの精度
○ 精度の向上もゆるやかになってきた
■ この結果を受け,ActivityNet Challenge 2020 では
action proposalのタスクが廃止され,action localization にシフト
Team AUC
2017 SJTU and Columbia 64.80
2018 Baidu Vis 71.00
2019 Baidu Vis 72.98
担当:石川

ActivityNet Challenge

Dense Captioning 

Dense Captioning Events in Videos
34
● どんなタスク?
○ 与えられた動画に対して複数イベントのタイムスタンプ・キャプションを出
力するタスク
○ 動画理解に深くアプローチする!
● データセット: ActivityNet Captions [Krishna+, ICCV 2017]
● 評価方法:tIoU 閾値ごとの METEOR の平均
担当:笠井

Dense Captioning Events in Videos [Krishna+, ICCV 2017]
35
● タスク・データセットの提案論文
● 手法
○ 行動候補領域の表現に、他のイベントの表現を付加した過去・未来の情
報を追加してキャプショニングを行う
● 結果
○ METEOR : 4.82 (この数値がベースラインとなる)
担当:笠井

https://arxiv.org/abs/1705.00754
RUC+CMU: System Report for Dense Captioning Events in Videos
[Shizhe+, CVPR WS 2018]
36
● 学会・順位
○ 2018 Challenge にて優勝手法となった論文
● 手法
○ クリップ分割ののち特徴抽出・スライディングウィンドウで候補領域取得・
尤度 s_p 算出
○ キャプションモデルのアンサンブルで尤度 s_c 算出、SCST 使用
○ 最後にキャプション・候補領域を s = s_p * s_c を用いてリランキングを行
い最終的な予測結果を得る
● 結果
○ METEOR : 8.524
担当:笠井

https://arxiv.org/abs/1806.08854
End-to-End Dense Video Captioning with Masked Transformer [Zhou+,
CVPR 2018]
37
担当:笠井

● 学会・順位
○ CVPR 2018 (Challenge には載っていない?)
● 手法
○ Transformer を用いて End-to-end Dense Captioning を達成
○ Action Proposal を微分可能にしてキャプションの情報をフィードバックし
ている
● 結果
○ (val METEOR : 9.56)
https://arxiv.org/abs/1804.00819
Streamlined Dense Video Captioning [Mun+, CVPR 2019]
38
● 学会・順位
○ CVPR 2019
● 手法
○ Action Proposal, Event Sequence Detection, Captioning のフロー
○ Event Sequence Generation Network が Pointer Networks を使用
● 結果
○ (val METEOR : 13.07)
担当:笠井

https://arxiv.org/abs/1904.03870
Exploring Contexts for Dense Captioning Events in Videos
[Shizhe+, CVPR WS 2019]
39
● 学会・順位
○ CVPR 2019 Challenge 優勝手法
● 手法
○ Intra-event や Inter-event のキャプショニングモデルを採用して イベント
間の関係をモデリング
○ 特徴量としては時間情報や物体情報・マルチモーダル情報を活用
● 結果
○ METEOR : 9.90
担当:笠井

https://arxiv.org/abs/1907.05092
Dense Captioning の手法の傾向
40
● 一般的には proposal, event sequence generation, captioning
の順番で行われる
○ 単純なキャプショニングではなく、キャプション間にも関係は
ある (代名詞、接続詞)
○ Event Sequence Generation (多くのプロポーザルから必要
十分なイベントの順番を決定する) が特有のタスク
○ 基本的にほぼフレームレベルの特徴を使用している
● End-to-end の手法でひときわ目立っている Masked
Transformer
○ 一気通貫で Dense Captioning を行うスゴい手法
○ 考えてみれば可変長の動画 → 可変長のキャプションならば
seq2seq の手法が良いのでは?
The 2nd YouTube-8M Large-Scale
Video Understanding Challenge 

The 2nd YouTube-8M Large-Scale Video Understanding Challenge
42
● どんなコンペ?
○ 与えられたフレームに対して行動ラベルを予測するタスク
○ 学習する動画
■ Youtube-8M
– ラベル数 : 3862
– 動画数 : 5.6M 動画
○ 条件
■ 1G 以下のモデルサイズ
担当:若宮

Building a Size Constrained Predictive Model for Video Classification
[Skalic+, ECCV 2018 WS]
43
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの1位
● 手法
○ NetVLAD, Deep Bag of Frames, FVNet, RNNのモデルとモデルの蒸
留によって親と子を最小化するように学習
● 結果
○ GAP(評価方法) : 0.89053
担当:若宮

http://openaccess.thecvf.com/content_eccv_2018_workshops/w22/html/Skalic_Buildin
g_a_Size_Constrained_Predictive_Model_for_Video_Classification_ECCVW_2018_pa
per.html
Label Denoising with Large Ensembles of Heterogeneous Neural
Networks [Ostyakov+, ECCV 2018 WS]
44
● 学会・順位
○ The 2nd YouTube-8M
Large-Scale Video
Understanding Challengeの動
画認識コンペの2位
● 手法
○ 様々なモデルのアンサンブルし
た結果をLGBM勾配加速モデ
ルに入れて蒸留ラベルの生成
後に蒸留することで高い精度を
算出
● 結果
○ GAP : 0.88729
担当:若宮

https://arxiv.org/abs/1809.04403
NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for
Large-scale Video Classification [Lin+, ECCV 2018 WS]
45
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの3位
● 手法
○ 高速かつ効率的な NeXtVLAD を提案
● 結果
○ GAP : 0.8798 (val)
担当:若宮

https://arxiv.org/abs/1811.05014
Youtube-8M challengeの傾向
46
● 知識蒸留
○ モデルサイズに制限がある場合必須
● ResNetなどのDeepな手法はサイズが大きいため使用不可
● Kinetics-X00のコンペ同様にモデルのアンサンブルは本コンペ
でも有効
担当:若宮

Moments in Time challenge

Moments in Time Challenge
48
● どんなコンペ?
○ 与えられたフレーム (3秒) に対して行動ラベルを認識するタ
スク
○ 対象動画
■ Moments in Time Challenge (2018, 2019)
– ラベル : 339, 313 (マルチラベル)
– 動画数 : 1M 動画
– 補足 : ラベルを動詞に統一
担当:若宮

Moments in Time Dataset: one million videos for event understanding
[Monfort+, IEEE 2019]
49
● 学会・順位
○ Moments in Time Challenge 2018 のタスク・データセットの提案論文
● 手法
○ 様々な手法を実験(右図)
● 結果
○ Top-1 acc : 0.3116

担当:若宮

https://arxiv.org/abs/1801.03150
Team DEEP-HRI Moments in Time Challenge 2018 Technical Report
[Li+, CVPR 2018 WS]
50
● 学会・順位
○ Moments in Time Challenge 2018の動画認識コンペの1位
● 手法
○ 提案するMV-CNNと2018年にSoTAであった手法のモデルアンサンブル
○ モデルアンサンブル時にはオプティカルフローは未使用
○ AudioはResNetを用いて認識
● 結果
○ Top-1 acc : 0.3864
担当:若宮

http://moments.csail.mit.edu/challenge2018/DEEP_HRI.pdf
Submission to Moments in Time Challenge 2018
[Li+, CVPR 2018 WS]
51
● 学会・順位
○ Moments in Time Challenge 2018の動画認識コンペの2位
● 手法
○ RGB情報をI3D ResNet50, Xception, SENetで認識, 動き情報をTV-L1
で Optical Flow を取得してから BN-Inception で認識, 音情報を
VGG16 で認識してそれぞれ5つのモデルをアンサンブルにすることで高
い認識精度を出力
● 結果
○ Top-1 acc : 0.3750
担当:若宮

http://moments.csail.mit.edu/challenge2018/Megvii.pdf
Multi-Moments in Time: Learning and Interpreting Models for
Multi-Action Video Understanding [M. Monfort+, arXiv]
52
● 学会・順位
○ Moments in Time Challenge
2019 のタスク・データセットの
提案論文
● 手法
○ I3D を軸に様々な手法を実験
(右図)
● 結果
○ Top-1 acc : 0.593

担当:若宮

https://arxiv.org/abs/1911.00232
Alibaba-Venus at ActivityNet Challenge 2018 - Task C Trimmed Event
Recognition (Moments in Time) [Chen+, CVPR 2018 WS]
53
● 学会・順位
○ Moments in Time Challenge
2018 の動画認識コンペの4位
● 手法
○ 様々なモデルを実験し、TRN
(下図)に時間方向のアテンショ
ン機構を追加
● 結果
○ Top-1 acc : 0.3551
担当:若宮

http://moments.csail.mit.edu/challenge2018/Alibaba_Venus.pdf
Team Efficient Multi-Moments in Time Challenge 2019 Technical Report
[Zhang+, ICCV 2019 WS]
54
● 学会・順位
○ Moments in Time Challenge 2019 の動画認識コンペの1位
● 手法
○ TSN, TRN以外にも新たにシフト距離と特定の入力データとの関係を学
習するネットワークである Temporal Interlacing Network (TIN) を提案
○ SlowFast やその改良型も実験
● 結果
○ mAP : 0.6077
担当:若宮

http://moments.csail.mit.edu/challenge2019/efficient_challenge_report.pdf
Alibaba-AIC: Submission to Multi-Moments in Time Challenge 2019
[Li+, ICCV 2019 WS]
55
● 学会・順位
○ Moments in Time Challenge 2019 の動画認識コンペの2位
● 手法
○ マルチラベルタスクのラベルに着目したことから焦点損失関数とラベル相
関関数を結合した損失関数を使用
● 結果
○ mAP : 0.6051
担当:若宮

http://moments.csail.mit.edu/challenge2019/Alibaba-AIC_challenge_report.pdf
Team SPEEDY Multi Moments in Time Challenge 2019 Technical Report [Liu+,
ICCV 2019 WS]
56
● 学会・順位
○ Moments in Time Challenge 2019 の動画認識コンペの3位
● 手法
○ 各モダリティ情報の集合からコンテキスト情報を抽出して最大限に動画認
識に使う speed expert を新たに提案
● 結果
○ mAP : 0.5810
担当:若宮

http://moments.csail.mit.edu/challenge2019/speedy_challenge_report.pdf
Continuous Tracks CNN and Non-local Gating for Multi-class Video
Understanding [Yu+, ICCV 2019 WS]
57
● 学会・順位
○ Moments in Time Challenge
2019 の動画認識コンペの4位
● 手法
○ SlowFast を改良した新たなモデ
ルである CT-CNN と短時間の動
画から複数の行動ラベルを出力
するためのNon-Local Gating モ
デルを提案
● 結果
○ mAP : 0.4858
担当:若宮

http://moments.csail.mit.edu/challenge2019/SNUVL-RIPPLE_challenge_report.pdf
メタサーベイ

ActivityNet Challenge のタスクの変遷・歴史
59
担当:全員

2016 2017 2018 2019 2020
ActivityNet
Classification
ActivityNet
Localization
Kinetics
Classification
ActivityNet
Proposal
ActivityNet
Dense-Captioning
AVA
Spatiotemporal
EPIC Challenges
(Egocentric)
ActEV
Spatiotemporal
ActivityNet Challenge のタスクの変遷・歴史
60
担当:全員

2016 2017 2018 2019 2020
ActivityNet
Classification
ActivityNet
Localization
Kinetics
Classification
ActivityNet
Proposal
ActivityNet
Dense-Captioning
AVA
Spatiotemporal
EPIC Challenges
(Egocentric)
ActEV
Spatiotemporal
動画ならではの時間に着目した
タスク・複雑なタスクが残った

共通の知見
61
● Global 特徴& Local 特徴
○ 単純な GAP よりもさらなる追求が必要...?
● 背景特徴&動き特徴
○ 背景バイアスが大きい
○ Optical Flow が必要な理由?
○ SlowFast Network の Fast 特徴?
●
担当:全員

複数のGAPを使用

共通の知見
62
● 複数のモーダルを使うことで精度が上がる
○ RGB は必須だが Optical Flow や Audio は?
 → コンペにおいては必要不可欠
担当:全員

singing(CDのパッケージか何か?) 
singing(おじさんが歌っている) 

ActivityNet Challenge Kinetics-600 一位論文から
Kinetics-600 においては

RGB > Optical Flow >> Audio 

の順で重要だと考えられる

共通の知見
63
● 動画のRGBやAudioなどのモーダルのアンサンブルや
コンカットの手法の検討
● (2+1)D CNNよりも3D CNNの方が多い
○ コンペにおいては単純に性能が良い? or 扱いやすい?
● 様々なコンペのBaseline ≒ I3D
担当:全員

複雑化すればいいというわけではない? 

何らかのノウハウをトップランカーは知っている? 

● ActivityNet Recognition Challenge (Kinetics) ランキングの変
動
   Dongliang HeとTing Yaoの2強
 
      ※Dongliang Heはランキング内にはいるが投稿が2019/11/21と締切には間に合っていない
強者たち
64
2018
 2019

担当:全員

強者たち
65
● Ting Yao(ActivityNet)
○ 中国北京 JD AI Research
○ 様々なコンペでトップ


Rank 1 in Multi-Source Domain Adaptation Track and Rank 2 in Semi-Supervised Domain Adaptation Track of Visual Domain
Adaptation Challenge at ICCV 2019.
Rank 1 in Trimmed Activity Recognition (Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2019.
Rank 1 in both Open-set Classification Track and Detection Track of Visual Domain Adaptation Challenge at ECCV 2018.
Rank 2 in three tasks of Dense-Captioning Events in Videos, Temporal Action Localization, and Trimmed Activity Recognition
(Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2018.
Rank 1 in Segmentation Track of Visual Domain Adaptation Challenge at ICCV 2017.
Rank 1 in Dense-Captioning Events in Videos and Rank 2 in Temporal Action Proposals of ActivityNet Large Scale Activity
Recognition Challenge at CVPR 2017.
Rank 1 in COCO Image Captioning.






担当:全員



● JD AI Researchとは?
○ JD.COM が支持する研究団体
○ 特に最先端の AI を研究して実用化を図
るための団体
○ すでに実績はいくつか存在
強者たち
66
● Dongliang He (ActivityNet)
○ 中国北京 Baidu, Inc.
○ 2018年のActivityNet Recognition Challenge (Kinetics) に
おいて1位
担当:全員

強者たち
67
● Limin Wang, Xiong Yuanjun (ActivityNet 初代優勝者)
○ 元CUHK(香港中文大学)
○ 現在も行動認識に関しての研究中(e.g. TSN)
担当:全員

強者たち
68
● Tianwei Lin
○ Baidu Vis.
○ ActivityNet Challenge action proposalで2年連続優勝
担当:全員

強者たち
69
● Shizhe Chen
○ Renmin University of China
○ ACM MM, AAAI Reviewer と CV 以外の分野でも活躍
○ Dense Captioning Challenge 2連覇
担当:全員

生まれた問い・まとめ
70
● 結局、空間と時間はどう扱うべき?
○ 一緒にするべきではない (SlowFast, Two Stream)
○ 結局同じように扱ってもよい (3D CNN)
● どういうタスクがこれからの動画認識でホットか
○ 高次タスク (Spatiotemporal Action Localization)
○ マルチモーダル(Audio, Video & Language)
● 強い研究者は?
○ 企業:資金力と実験力が強い、コンペ人間を生み出す力があ
る、協力している人数が多い
○ アカデミア:コンペより研究向き?
担当:全員


Towards Performant Video Recognition

  • 1.
    Towards Performant VideoRecognition 若宮 天雅、笠井 誠斗、石川 裕地、片岡 裕雄 1 http://xpaperchallenge.org/cv
  • 2.
    自己紹介 2 ● 若宮 天雅 東京電機大M2・産総研RA ● 石川 裕地 慶應義塾大 M2・産総研RA ● 笠井 誠斗 慶應義塾大 M2・産総研RA CVPR 2019@ロングビーチにて 

  • 3.
  • 4.
    導入 4 ● CNNによる動画解析手法 ○ 主に3種類の手法 •下記の通り,何れの手法も出力の確率分布は時間的に積分 • 2D CNN: 空間畳み込み • 3D CNN: 固定長の時空間畳み込み • (2+1)D CNN: 時間と空間の畳み込みを分離,順次処理 担当:若宮

  • 5.
    導入 5 ● CNNによる動画解析手法 ● ● ● ● ● ○ 画像認識と同様の手法 ○時系列拡張されていないため RNN 等やオプ ティカルフロー画像などの工夫が必要 担当:若宮

  • 6.
  • 7.
    導入 7 ● CNNによる動画解析手法 ● ● ● ● ● ○ 空間方向に2D Conv,時間方向に 1D Conv を もつカーネルによる時系列拡張 ○ 認識精度的にSoTAな手法
 担当:若宮

  • 8.
    導入 8 時系列拡張した CNN について ●2017年くらいまで 2D CNN が主流 ○ オプティカルフローを用いた two-stream ○ 時系列拡張した CNN の認識精度が低い ○ データ不足による過学習 ● 大規模動画データセットによるの認識の発展 ○ YouTube の登場 ○ Kinetics-400 データセット 2017年のI3D + Kinetics-400がGame Changer 担当:若宮

  • 9.
    導入 9 2004年
 KTH 2391 動画
 2008年
 Holywood
 430動画
 2011年
 HMDB
 6894 動画
 2012年
 UCF-101
 13320 動画
 2015年
 ActivityNet
 19994 動画
 2016年
 Youtube-8M
 5.6M+ 動画
 2017年
 Kinetics-400
 300K+ 動画
 2018年
 Moments in Time
 1M+ 動画
 2004年
 2020年現在
 急速な
データ量の増加
 ・・・
 ・・・
 担当:若宮
 102 - 104 order; Learning by hand-crafted features 
 104 - 105 order; Learning by 2D CNNs 
 105 - 106 order; Learning by 3D CNNs 
 2019/2020年
 Kinetics-600/700
 500K+/650K+ 動画
 2020年
 HVU
 550K+動画
 動画あたり複数ラベル 

  • 10.
    導入 10 ● Kinetics: TheKinetics Human Action Video Dataset [Key+, arXiv] ○ 行動クラス → 400 クラス!! ○ 動画数 → 300K+ 動画!! 圧倒的なデータ量! → 2D CNNと比較してパラメータ数が 膨大な3Dの学習を成功!! 担当:若宮
 https://arxiv.org/abs/1705.06950
  • 11.
    導入 11 ● Can Spatiotemporal3D CNNs Retrace the History of 2D CNNs and ImageNet? [Hara+ , CVPR 2018] ○ 3D CNNが Kinetics を過学習せずに学習可能 ○ Kinetics の学習済みモデルを使えば UCF-101/HMDB-51やActivityNet も学習が可 能 事実上の 動画 × 3D CNN が可能となり、 動画認識の時代の開幕 担当:若宮
 https://arxiv.org/abs/1711.09577
  • 12.
    導入 12 ● 深層学習やデータセットの拡大・拡張 ○ 様々な動画認識のコンペが登場 ■ActivityNet Challenge(CVPR WS) ■ Kaggle (e.g. YouTube-8M Challenge) ■ Moments in Time Challenge ■ etc… ○ 動画認識の手法×コンペのノウハウの調査 ■ 対象ドメインに対して最高の性能を持つため の方法 ■ 手法などのサーベイだけでは勝てない?? 担当:若宮

  • 13.
    Agenda 13 ● 論文紹介 ○ 以下のタスクに関する論文を参照 ■ActivityNet Challenge ■ (Kaggle) YouTube-8M Large-Scale Video Understanding Challenge ■ Moments in Time Challenge etc... ● メタ部分 ○ ActivityNet Challengeで勝利するための秘訣を 模索する ○ 動画認識分野の傾向・展望 担当:若宮

  • 14.
  • 15.
  • 16.
    ActivityNet Challenge 16 ● どんなコンペ? ○動画認識界では最大規模 ■ proposal(イベント時間推定) ■ localization(指定した行動の時間推定) ■ captioning(イベント時間を推定・文章生成) ■ Kinetics-X00(X=4, 6, 7; 行動クラスの識別) ■ etc... ○ 対象動画データセット ■ ActivityNet ■ Kinetics-X00(X=4, 6, 7) ■ AVA dataset ■ etc... 担当:若宮

  • 17.
  • 18.
    ActivityNet 18 ● Kinetics-X00(X =4, 6, 7) ○ 与えられたフレーム(10 秒)に対して行動ラベルを推測する タスク ○ 学習するデータの詳細 ■ ラベル数: X00(X=4, 6, 7) ■ 動画数 : 300k動画, 500K 動画, 650K動画 ■ フレーム数 : 300枚 ○ 予測する行動ラベル例 ■ abseiling ■ air drumming ■ answering questions ■ applauding ■ etc... 担当:若宮

  • 19.
    A Short Noteon the Kinetics-700 Human Action Dataset [Carreira+, arXiv] 19 ● ActivityNet 2019 Kinetics-700 Challengeのタスク・データセットの 提案論文 ● 手法 ○ RGB のみを用いた I3D(ベースの手法として提案) ● 結果 ○ Top-1 acc : 57.3%(ベースライン)
 担当:若宮
 https://arxiv.org/abs/1907.06987
  • 20.
    Exploiting Spatial-Temporal Modellingand Multi-Modal Fusion for Human Action Recognition [He+, arXiv]
 20 ● 学会・順位 ○ ActivityNet 2018 Kinetics-600 Challenge の1位論文 ● 手法 ○ 従来の手法よりも空間方向と時間方向から総合的に動画を認識できる spatial-temporal network (StNet) の提案 ○ RGB・TVL1 Flow・Farneback Flow・Audio を結合する improved temporal Xception network (iTXN) を提案 ● 結果 ○ Top-1 acc : 82.4% ○ モデルのアンサンブルにより Top-1 acc : 85.0%
 担当:若宮
 https://arxiv.org/abs/1806.10319
  • 21.
    YH Technologies atActivityNet Challenge 2018 [Yao+, ICCV 2018] 21 ● 学会・順位 ○ ActivityNet 2018 Kinetics-600 Challenge の2位論文(Ting Yao はすべ てのコンペに参加した強者) ● 手法 ○ 2D 空間畳み込みと 1D 時間方向を組み合わせた Pseudo-3D Residual Network (P3D) を使用 ○ Audio は MFCC に変換, RGB と Optical Flow では Compact Bilinear Pooling (CBP) を使用 ● 結果 ○ Top-1 acc : 83.75% 担当:若宮
 https://arxiv.org/abs/1807.00686
  • 22.
    Qiniu Submission toActivityNet Challenge 2018 [Zhang+, arXiv] 22 ● 学会・順位 ○ ActivityNet 2018 Kinetics-600 Challenge の3位論文 (MiT も3位) ● 手法 ○ 動画から一定数のフレームをクリップする手法である temporal segment network (TSN) とある注目点の値を特徴マップ中全てに重み付き和とし て与えることでグローバルな特徴を学習する non-local neural network を構成し,マルチモーダルな動画認識の方法を提案 ● 結果 ○ Top-1 acc : 83.5% 担当:若宮
 https://arxiv.org/abs/1806.04391
  • 23.
    Learning Spatio-Temporal Representationwith Local and Global Diffusion [Qiu+, CVPR2019] 23 ● 学会・順位 ○ ActivityNet 2019 Kinetics-700 Challenge の1位論文 ● 手法 ○ 時空間特徴学習を促進するために Local 表現と Global 表現を平行に 学習するニューラルネットワークアーキテクチャである Local and Global Diffusion (LGD) を提案 ● 結果 ○ Kinetics-400 Top-1 acc : 81.2% ○ Kinetics-600 Top-1 acc : 82.7% 担当:若宮
 https://arxiv.org/abs/1906.05571
  • 24.
    Action Recognition の傾向 24 ●基本的にはマルチモーダルが強い ○ 情報量は多ければ精度も上がる ● モデルのアンサンブルが精度追求の上では有効 ● 優勝チームの精度の遷移 ○ 概ねできるようになってきた ■ ActivityNet Challenge 2020 では action recognition のタスクが廃止 (spatio-temporal) action localization のタスクが増える Kinetics Team Average Error 2017 400 Tsinghua and Baidu 12.4 2018 600 Baidu Vis 10.99 2019 700 JD AI Research 17.88 担当:若宮

  • 25.
  • 26.
    Action Proposal Generation 26 ●どんなタスク? ○ CVPR workshop ActivityNet Challenge にて開催 ○ 動画中の action が起こっていそうな時間区間 (Action Proposal) を予 測 ○ action localization や dense-captioning のタスクにも使われる ● データセット ○ ActivityNet ■ 動画数 : 20k動画 ■ 計 648 時間 ● 評価指標 ○ The area under the Average Recall vs Average Number of Proposals per Video (AR-AN) with tIoU thresholds 担当:石川

  • 27.
    Action Proposal Generationの主な手法 (1/2) 27 Anchor-based Approaches ● マルチスケールな anchor を用いて proposal を生成 ● 主な手法 ○ SSAD[1] , CBR[2] , TURN TAP[3] ● 長所 ○ マルチスケールの proposal を効果的に生成できる ○ 全ての anchor の情報を同時に捉えるため, ○ confidence score が信頼できることが多い ● 短所 ○ anchor の設計が難しい ○ 正確でないことが多い ○ 様々な時系列区間を捉えるのが難しい
 担当:石川
 [1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017 
 [2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017 
 [3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017 

  • 28.
    Action Proposal Generationの主な手法 (2/2) 28 Anchor-free Approaches ● action boundary や actioness を評価して,proposal を生成 ● 主な手法 ○ TAG[1] , BSN[2] , BMN[3] ● 長所 ○ 時系列方向の区間を柔軟に,かつ正確に proposal を生成可能 ○ BSP (Boundary Sensitive Proposal) features を用いれば, ○ confidence score の信頼性が上がる ● 短所 ○ feature の設計と confidence score の評価が別々で 行われるため,非効率的である ○ 特徴量が単純になりがちで,時系列方向のコンテキストを捉えるには不 十分である場合がある ○ multi-stage で,end2end なフレームワークではない 担当:石川
 [1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017 
 [2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018 
 [3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019 

  • 29.
    SSAD 29 担当:石川
 Single Shot TemporalAction Detection Tianwei Lin, Xu Zhao, Zheng Shou, in ACM Multimedia 2017 ● Anchor-based の手法 ● 物体検出で用いられる SSD を action detection に拡張 ● default anchor に対する時系列方向の offset を予測
  • 30.
    BSN (Boundary SensitiveNetwork) 30 担当:石川
 BSN: Boundary Sensitive Network for Temporal Action Proposal Generation Tianwei Lin, Xu Zhao, Haisheng Su, Chongjing Wang, Ming Yang in ECCV 2018 ● ActivityNet Challenge 2018 winner ● 動画特徴量から の starting point, ending point, actioness を推定 ● starting point と ending point の起こりうる組み合わせを action proposal と見なして,その区間での actioness で評価 ● Soft-NMS を使用して,proposal の重複を抑える
  • 31.
    BMN (Boundary MatchingNetwork) 31 担当:石川
 BMN: Boundary-Matching Network for Temporal Action Proposal Generation Tianwei Lin, Xiao Liu, Xin Li, Errui Ding, Shilei Wen in ICCV 2019 ● ActivityNet Challenge 2019 winner ● 動画特徴量から action boundary を予測した後,全ての proposal の信頼度を 評価するための Boundary- Matching Confidence Map を作成し, proposal を決定する
  • 32.
    Action Proposal Generationの傾向 32 ● Anchor-free approach が主流 ● Baidu Visが二年連続優勝 ○ 中でも Tianwei Lin が action proposal の分野をリード ● action proposal が強いチームは他タスクでも好成績 ○ action localization: (2019) Baidu Vis 優勝, (2018) Baidu Vis 3位 ○ dense-captioning 2019: Baidu Vis 2位 ● 優勝チームの精度 ○ 精度の向上もゆるやかになってきた ■ この結果を受け,ActivityNet Challenge 2020 では action proposalのタスクが廃止され,action localization にシフト Team AUC 2017 SJTU and Columbia 64.80 2018 Baidu Vis 71.00 2019 Baidu Vis 72.98 担当:石川

  • 33.
  • 34.
    Dense Captioning Eventsin Videos 34 ● どんなタスク? ○ 与えられた動画に対して複数イベントのタイムスタンプ・キャプションを出 力するタスク ○ 動画理解に深くアプローチする! ● データセット: ActivityNet Captions [Krishna+, ICCV 2017] ● 評価方法:tIoU 閾値ごとの METEOR の平均 担当:笠井

  • 35.
    Dense Captioning Eventsin Videos [Krishna+, ICCV 2017] 35 ● タスク・データセットの提案論文 ● 手法 ○ 行動候補領域の表現に、他のイベントの表現を付加した過去・未来の情 報を追加してキャプショニングを行う ● 結果 ○ METEOR : 4.82 (この数値がベースラインとなる) 担当:笠井
 https://arxiv.org/abs/1705.00754
  • 36.
    RUC+CMU: System Reportfor Dense Captioning Events in Videos [Shizhe+, CVPR WS 2018] 36 ● 学会・順位 ○ 2018 Challenge にて優勝手法となった論文 ● 手法 ○ クリップ分割ののち特徴抽出・スライディングウィンドウで候補領域取得・ 尤度 s_p 算出 ○ キャプションモデルのアンサンブルで尤度 s_c 算出、SCST 使用 ○ 最後にキャプション・候補領域を s = s_p * s_c を用いてリランキングを行 い最終的な予測結果を得る ● 結果 ○ METEOR : 8.524 担当:笠井
 https://arxiv.org/abs/1806.08854
  • 37.
    End-to-End Dense VideoCaptioning with Masked Transformer [Zhou+, CVPR 2018] 37 担当:笠井
 ● 学会・順位 ○ CVPR 2018 (Challenge には載っていない?) ● 手法 ○ Transformer を用いて End-to-end Dense Captioning を達成 ○ Action Proposal を微分可能にしてキャプションの情報をフィードバックし ている ● 結果 ○ (val METEOR : 9.56) https://arxiv.org/abs/1804.00819
  • 38.
    Streamlined Dense VideoCaptioning [Mun+, CVPR 2019] 38 ● 学会・順位 ○ CVPR 2019 ● 手法 ○ Action Proposal, Event Sequence Detection, Captioning のフロー ○ Event Sequence Generation Network が Pointer Networks を使用 ● 結果 ○ (val METEOR : 13.07) 担当:笠井
 https://arxiv.org/abs/1904.03870
  • 39.
    Exploring Contexts forDense Captioning Events in Videos [Shizhe+, CVPR WS 2019] 39 ● 学会・順位 ○ CVPR 2019 Challenge 優勝手法 ● 手法 ○ Intra-event や Inter-event のキャプショニングモデルを採用して イベント 間の関係をモデリング ○ 特徴量としては時間情報や物体情報・マルチモーダル情報を活用 ● 結果 ○ METEOR : 9.90 担当:笠井
 https://arxiv.org/abs/1907.05092
  • 40.
    Dense Captioning の手法の傾向 40 ●一般的には proposal, event sequence generation, captioning の順番で行われる ○ 単純なキャプショニングではなく、キャプション間にも関係は ある (代名詞、接続詞) ○ Event Sequence Generation (多くのプロポーザルから必要 十分なイベントの順番を決定する) が特有のタスク ○ 基本的にほぼフレームレベルの特徴を使用している ● End-to-end の手法でひときわ目立っている Masked Transformer ○ 一気通貫で Dense Captioning を行うスゴい手法 ○ 考えてみれば可変長の動画 → 可変長のキャプションならば seq2seq の手法が良いのでは?
  • 41.
    The 2nd YouTube-8MLarge-Scale Video Understanding Challenge 

  • 42.
    The 2nd YouTube-8MLarge-Scale Video Understanding Challenge 42 ● どんなコンペ? ○ 与えられたフレームに対して行動ラベルを予測するタスク ○ 学習する動画 ■ Youtube-8M – ラベル数 : 3862 – 動画数 : 5.6M 動画 ○ 条件 ■ 1G 以下のモデルサイズ 担当:若宮

  • 43.
    Building a SizeConstrained Predictive Model for Video Classification [Skalic+, ECCV 2018 WS] 43 ● 学会・順位 ○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge の動画認識コンペの1位 ● 手法 ○ NetVLAD, Deep Bag of Frames, FVNet, RNNのモデルとモデルの蒸 留によって親と子を最小化するように学習 ● 結果 ○ GAP(評価方法) : 0.89053 担当:若宮
 http://openaccess.thecvf.com/content_eccv_2018_workshops/w22/html/Skalic_Buildin g_a_Size_Constrained_Predictive_Model_for_Video_Classification_ECCVW_2018_pa per.html
  • 44.
    Label Denoising withLarge Ensembles of Heterogeneous Neural Networks [Ostyakov+, ECCV 2018 WS] 44 ● 学会・順位 ○ The 2nd YouTube-8M Large-Scale Video Understanding Challengeの動 画認識コンペの2位 ● 手法 ○ 様々なモデルのアンサンブルし た結果をLGBM勾配加速モデ ルに入れて蒸留ラベルの生成 後に蒸留することで高い精度を 算出 ● 結果 ○ GAP : 0.88729 担当:若宮
 https://arxiv.org/abs/1809.04403
  • 45.
    NeXtVLAD: An EfficientNeural Network to Aggregate Frame-level Features for Large-scale Video Classification [Lin+, ECCV 2018 WS] 45 ● 学会・順位 ○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge の動画認識コンペの3位 ● 手法 ○ 高速かつ効率的な NeXtVLAD を提案 ● 結果 ○ GAP : 0.8798 (val) 担当:若宮
 https://arxiv.org/abs/1811.05014
  • 46.
    Youtube-8M challengeの傾向 46 ● 知識蒸留 ○モデルサイズに制限がある場合必須 ● ResNetなどのDeepな手法はサイズが大きいため使用不可 ● Kinetics-X00のコンペ同様にモデルのアンサンブルは本コンペ でも有効 担当:若宮

  • 47.
    Moments in Timechallenge

  • 48.
    Moments in TimeChallenge 48 ● どんなコンペ? ○ 与えられたフレーム (3秒) に対して行動ラベルを認識するタ スク ○ 対象動画 ■ Moments in Time Challenge (2018, 2019) – ラベル : 339, 313 (マルチラベル) – 動画数 : 1M 動画 – 補足 : ラベルを動詞に統一 担当:若宮

  • 49.
    Moments in TimeDataset: one million videos for event understanding [Monfort+, IEEE 2019] 49 ● 学会・順位 ○ Moments in Time Challenge 2018 のタスク・データセットの提案論文 ● 手法 ○ 様々な手法を実験(右図) ● 結果 ○ Top-1 acc : 0.3116
 担当:若宮
 https://arxiv.org/abs/1801.03150
  • 50.
    Team DEEP-HRI Momentsin Time Challenge 2018 Technical Report [Li+, CVPR 2018 WS] 50 ● 学会・順位 ○ Moments in Time Challenge 2018の動画認識コンペの1位 ● 手法 ○ 提案するMV-CNNと2018年にSoTAであった手法のモデルアンサンブル ○ モデルアンサンブル時にはオプティカルフローは未使用 ○ AudioはResNetを用いて認識 ● 結果 ○ Top-1 acc : 0.3864 担当:若宮
 http://moments.csail.mit.edu/challenge2018/DEEP_HRI.pdf
  • 51.
    Submission to Momentsin Time Challenge 2018 [Li+, CVPR 2018 WS] 51 ● 学会・順位 ○ Moments in Time Challenge 2018の動画認識コンペの2位 ● 手法 ○ RGB情報をI3D ResNet50, Xception, SENetで認識, 動き情報をTV-L1 で Optical Flow を取得してから BN-Inception で認識, 音情報を VGG16 で認識してそれぞれ5つのモデルをアンサンブルにすることで高 い認識精度を出力 ● 結果 ○ Top-1 acc : 0.3750 担当:若宮
 http://moments.csail.mit.edu/challenge2018/Megvii.pdf
  • 52.
    Multi-Moments in Time:Learning and Interpreting Models for Multi-Action Video Understanding [M. Monfort+, arXiv] 52 ● 学会・順位 ○ Moments in Time Challenge 2019 のタスク・データセットの 提案論文 ● 手法 ○ I3D を軸に様々な手法を実験 (右図) ● 結果 ○ Top-1 acc : 0.593
 担当:若宮
 https://arxiv.org/abs/1911.00232
  • 53.
    Alibaba-Venus at ActivityNetChallenge 2018 - Task C Trimmed Event Recognition (Moments in Time) [Chen+, CVPR 2018 WS] 53 ● 学会・順位 ○ Moments in Time Challenge 2018 の動画認識コンペの4位 ● 手法 ○ 様々なモデルを実験し、TRN (下図)に時間方向のアテンショ ン機構を追加 ● 結果 ○ Top-1 acc : 0.3551 担当:若宮
 http://moments.csail.mit.edu/challenge2018/Alibaba_Venus.pdf
  • 54.
    Team Efficient Multi-Momentsin Time Challenge 2019 Technical Report [Zhang+, ICCV 2019 WS] 54 ● 学会・順位 ○ Moments in Time Challenge 2019 の動画認識コンペの1位 ● 手法 ○ TSN, TRN以外にも新たにシフト距離と特定の入力データとの関係を学 習するネットワークである Temporal Interlacing Network (TIN) を提案 ○ SlowFast やその改良型も実験 ● 結果 ○ mAP : 0.6077 担当:若宮
 http://moments.csail.mit.edu/challenge2019/efficient_challenge_report.pdf
  • 55.
    Alibaba-AIC: Submission toMulti-Moments in Time Challenge 2019 [Li+, ICCV 2019 WS] 55 ● 学会・順位 ○ Moments in Time Challenge 2019 の動画認識コンペの2位 ● 手法 ○ マルチラベルタスクのラベルに着目したことから焦点損失関数とラベル相 関関数を結合した損失関数を使用 ● 結果 ○ mAP : 0.6051 担当:若宮
 http://moments.csail.mit.edu/challenge2019/Alibaba-AIC_challenge_report.pdf
  • 56.
    Team SPEEDY MultiMoments in Time Challenge 2019 Technical Report [Liu+, ICCV 2019 WS] 56 ● 学会・順位 ○ Moments in Time Challenge 2019 の動画認識コンペの3位 ● 手法 ○ 各モダリティ情報の集合からコンテキスト情報を抽出して最大限に動画認 識に使う speed expert を新たに提案 ● 結果 ○ mAP : 0.5810 担当:若宮
 http://moments.csail.mit.edu/challenge2019/speedy_challenge_report.pdf
  • 57.
    Continuous Tracks CNNand Non-local Gating for Multi-class Video Understanding [Yu+, ICCV 2019 WS] 57 ● 学会・順位 ○ Moments in Time Challenge 2019 の動画認識コンペの4位 ● 手法 ○ SlowFast を改良した新たなモデ ルである CT-CNN と短時間の動 画から複数の行動ラベルを出力 するためのNon-Local Gating モ デルを提案 ● 結果 ○ mAP : 0.4858 担当:若宮
 http://moments.csail.mit.edu/challenge2019/SNUVL-RIPPLE_challenge_report.pdf
  • 58.
  • 59.
    ActivityNet Challenge のタスクの変遷・歴史 59 担当:全員
 20162017 2018 2019 2020 ActivityNet Classification ActivityNet Localization Kinetics Classification ActivityNet Proposal ActivityNet Dense-Captioning AVA Spatiotemporal EPIC Challenges (Egocentric) ActEV Spatiotemporal
  • 60.
    ActivityNet Challenge のタスクの変遷・歴史 60 担当:全員
 20162017 2018 2019 2020 ActivityNet Classification ActivityNet Localization Kinetics Classification ActivityNet Proposal ActivityNet Dense-Captioning AVA Spatiotemporal EPIC Challenges (Egocentric) ActEV Spatiotemporal 動画ならではの時間に着目した タスク・複雑なタスクが残った

  • 61.
    共通の知見 61 ● Global 特徴&Local 特徴 ○ 単純な GAP よりもさらなる追求が必要...? ● 背景特徴&動き特徴 ○ 背景バイアスが大きい ○ Optical Flow が必要な理由? ○ SlowFast Network の Fast 特徴? ● 担当:全員
 複数のGAPを使用

  • 62.
    共通の知見 62 ● 複数のモーダルを使うことで精度が上がる ○ RGBは必須だが Optical Flow や Audio は?  → コンペにおいては必要不可欠 担当:全員
 singing(CDのパッケージか何か?) 
singing(おじさんが歌っている) 
 ActivityNet Challenge Kinetics-600 一位論文から Kinetics-600 においては
 RGB > Optical Flow >> Audio 
 の順で重要だと考えられる

  • 63.
    共通の知見 63 ● 動画のRGBやAudioなどのモーダルのアンサンブルや コンカットの手法の検討 ● (2+1)DCNNよりも3D CNNの方が多い ○ コンペにおいては単純に性能が良い? or 扱いやすい? ● 様々なコンペのBaseline ≒ I3D 担当:全員
 複雑化すればいいというわけではない? 
 何らかのノウハウをトップランカーは知っている? 

  • 64.
    ● ActivityNet RecognitionChallenge (Kinetics) ランキングの変 動    Dongliang HeとTing Yaoの2強         ※Dongliang Heはランキング内にはいるが投稿が2019/11/21と締切には間に合っていない 強者たち 64 2018
 2019
 担当:全員

  • 65.
    強者たち 65 ● Ting Yao(ActivityNet) ○中国北京 JD AI Research ○ 様々なコンペでトップ 
 Rank 1 in Multi-Source Domain Adaptation Track and Rank 2 in Semi-Supervised Domain Adaptation Track of Visual Domain Adaptation Challenge at ICCV 2019. Rank 1 in Trimmed Activity Recognition (Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2019. Rank 1 in both Open-set Classification Track and Detection Track of Visual Domain Adaptation Challenge at ECCV 2018. Rank 2 in three tasks of Dense-Captioning Events in Videos, Temporal Action Localization, and Trimmed Activity Recognition (Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2018. Rank 1 in Segmentation Track of Visual Domain Adaptation Challenge at ICCV 2017. Rank 1 in Dense-Captioning Events in Videos and Rank 2 in Temporal Action Proposals of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2017. Rank 1 in COCO Image Captioning. 
 
 
 担当:全員
 
 ● JD AI Researchとは? ○ JD.COM が支持する研究団体 ○ 特に最先端の AI を研究して実用化を図 るための団体 ○ すでに実績はいくつか存在
  • 66.
    強者たち 66 ● Dongliang He(ActivityNet) ○ 中国北京 Baidu, Inc. ○ 2018年のActivityNet Recognition Challenge (Kinetics) に おいて1位 担当:全員

  • 67.
    強者たち 67 ● Limin Wang,Xiong Yuanjun (ActivityNet 初代優勝者) ○ 元CUHK(香港中文大学) ○ 現在も行動認識に関しての研究中(e.g. TSN) 担当:全員

  • 68.
    強者たち 68 ● Tianwei Lin ○Baidu Vis. ○ ActivityNet Challenge action proposalで2年連続優勝 担当:全員

  • 69.
    強者たち 69 ● Shizhe Chen ○Renmin University of China ○ ACM MM, AAAI Reviewer と CV 以外の分野でも活躍 ○ Dense Captioning Challenge 2連覇 担当:全員

  • 70.
    生まれた問い・まとめ 70 ● 結局、空間と時間はどう扱うべき? ○ 一緒にするべきではない(SlowFast, Two Stream) ○ 結局同じように扱ってもよい (3D CNN) ● どういうタスクがこれからの動画認識でホットか ○ 高次タスク (Spatiotemporal Action Localization) ○ マルチモーダル(Audio, Video & Language) ● 強い研究者は? ○ 企業:資金力と実験力が強い、コンペ人間を生み出す力があ る、協力している人数が多い ○ アカデミア:コンペより研究向き? 担当:全員