【チュートリアル】コンピュータビジョンによる動画認識 v2

コンピュータビジョンによる動画認識
@STAIRラボ
⽚岡裕雄, Ph.D.
http://hirokatsukataoka.net/
ver.2

⽚岡裕雄（かたおかひろかつ）
産業技術総合研究所 CV研究グループ/AL連携研究室/AIセンター研究員
東京電機⼤学客員研究員
2014年慶應義塾⼤学⼤学院理⼯学研究科修了，博⼠（⼯学）．2013，2014年ミュンヘン⼯科⼤学
Visiting Scientist，2014年東京⼤学博⼠研究員，2015年産総研特別研究員．2016年4⽉より現職．画
像認識，動画解析，⼈物⾏動解析に興味を持つ．cvpaper.challenge主宰．2011年ViEW⼩⽥原賞，
2013年電気学会誌論⽂奨励賞，2014年藤原賞，2016年ECCV WS Brave New Idea Award．
mypage: http://www.hirokatsukataoka.net/
cvpaper.challenge: http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html

⽚岡の主宰するcvpaper.challenge
• 論⽂読破・まとめ・発想・議論・実装・論⽂執筆・（社会実
装）に⾄るまで取り組むCVの今を映す挑戦
– ⼈員：産総研/筑波⼤/電機⼤/慶應⼤/早⼤/東⼤による30名弱
– BraveNewなアイディアをトップ国際会議*に投稿
年間1,000本以上，累計2,500本以上のスライドを作成
本取り組みの結果10本以上の論⽂（含CVPRx2, ICRA, BMVC, ICPRx2, CVPRWx6, ECCVWx2, ICCVW）が採択
8件の招待講演，3件の国内外での受賞
* Google Scholar Top-20にリストアップされている国際会議や論⽂誌
SSII2018での招待インタラクティブ発表（6/13話します！）
HP, Twitter, SlideShareもご覧ください
HP: http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
Twitter: @CVpaperChalleng
SlideShare: @cvpaperchallenge

On-going works…
• トップ国際会議/論⽂誌に20本以上投稿（2018/01/01〜）
– 5/12現在60%達成（12 / 20）
– 採択論⽂：CVPR/ICRA/ICPR/CVPRW等
• CVPR 2018 完全読破チャレンジ（2018/05/01〜）
– CVPR2018に採択された1,000本弱の論⽂をcvpaper.challengeのメンバー
およびコラボレータで読破し，まとめ資料を全て共有するチャレンジ
– 5/12現在14.4%達成（141 / 979）
CV分野のトップ国際会議において⽇本のビジビリティを向上させたい
まとめスライドの例

動画認識は難しい！
• 何を認識する？
– 物体？領域？⾏動？シーン？解説⽂？
– 「動き」を⾼度に捉えること⾃体がまだ未解決

同データセットの問題：１動画１ラベル
• 問題設定を簡単にする
– 動画⼊⼒ => モーション表現 => 動画ラベル推定
– 本発表においては動画-ラベルが１対１
Tennis Swing
Motion Descriptor

本講演の⽬的
• 動画認識
– （本講演においては）動画を⼊⼒としてカテゴリが出⼒
– ⼊⼒〜モーション表現〜ラベルを推定
• 講演で学習すること
– 動画認識/データベースの流れについて把握
– 重要技術（主に３種）の理解を深める
– 最新技術動向（2016〜2018）を把握する

動画認識の流れ – Sparse, Dense and Deep
1) Laptev, I. and Lindeberg, T. “Space-Time Interest Points,” International Conference on Computer Vision (ICCV), pp.432–439, 2003.
2) Laptev, I., Marszalek, M., Schmid, C. and Rozenfeld, B. “Learning realistic human actions from movies,” IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), pp.1–8, 2008.
3) Klaser, A., Marszalek, M., and Schmid, C. “A Spatio-Temporal Descriptor Based on 3D-Gradients,” British Machine Vision Conference
(BMVC), 2008.
4) Wang, H., Klaser, A., Schmid, C. and Liu, C.-L. “Action recognition by dense trajectories,” IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pp.3169–3176, 2011.
5) Wang, H. and Schmid, C. “Action Recognition with Improved Trajectories,” International Conference on Computer Vision (ICCV), pp.3551–
3558, 2013.
6) Simonyan, K. and Zisserman, A. “Two-Stream Convolutional Networks for Action Recognition in Videos,” Neural Information Processing
Systems (NIPS), 2014.
7) Wang, L., Qiao, Y. and Tang, X. “Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors,” IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2015.
8) D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, “Learning Spatiotemporal Features with 3D Convolutional Networks“, ICCV 2015.
9) Wang, L., Xiong, Y., Wang, Z. Qiao, Y., Lin, D., Tang, X. and Gool, L. C. “Temporal Segment Networks: Towards Good Practices for Deep
Action Recognition,“ in ECCV 2016.
10) J. Carreira, A. Zisserman, “Quo Vadis, Action Recognition?”, in CVPR 2017.
11) K. Hara, H. Kataoka, Y. Satoh, “Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?”, in CVPR 2018.
Sparse Space-Time feature Dense Space-Time feature Deeply-Learned Representation

⼿法を概観（1/3）
• Sparse Space-Time Feature
– STIP（Space-Time Interest Points）
• 時系列特徴点の概念を提案という意味でEpoch-make
• 3次元特徴点：直感的にはフレーム間差分から特徴点検出

• Dense Space-Time Feature
– DT（Dense Trajectories）/ IDT（Improved Dense Trajectories）
– 超過密に画像特徴を捉えるのがポイント！
– 後述
STIP（Sparse） DT （Dense）

• Deeply-Learned Representation
– Two-stream ConvNets
– C3D（3D Convolutional Networks）
– やはりCNNにより特徴抽出を⾏うのがベター！
– 後述
Two-Stream ConvNets C3D

⼈物⾏動/動画認識データベース
ʼ04/6カテゴリ/2,391動画
KTH Weizmann
ʼ05/10カテゴリ/90動画
Hollywood
HMDB51 UCF101
ʼ11/51カテゴリ/6,766動画 ʼ12/101カテゴリ/13,220動画 ʼ15/200カテゴリ/28,108動画
ActivityNet
Kinetics Moments in Time
ʼ17/400カテゴリ/306,245動画 ʼ18/339カテゴリ/1,000,000+動画 ʼ16/4,716カテゴリ/7,000,000+動画
YouTube-8M

動画認識⼿法 × 動画DB
Sparse Space-Time feature Dense Space-Time feature Deeply-Learned Representation
ʼ04/6カテゴリ/2,391動画
KTH
Weizmann
Hollywood
HMDB51
UCF101
ʼ11/51カテゴリ/6,766動画
ʼ12/101カテゴリ/13,220動画
ʼ15/200カテゴリ/28,108動画
ActivityNet
Kinetics
Moments in Time
ʼ17/400,600カテゴリ/306,245動画
ʼ18/339カテゴリ/1,000,000+動画
ʼ16/4716カテゴリ/7,000,000+動画
YouTube-8M

Dense Trajectories (DT)
Improved Dense Trajectories (IDT)

密(Dense)な動線(Trajectories)抽出
• サンプリングを密にするのが精度が良いと判明
– STIPと⽐較すると，より「デンス」に
– 特徴点検出のみでなく，連結して「トラジェクトリ」に
圧倒的な特徴記述量！

Dense Trajectoriesの基本的な情報
• 考案者
– Heng Wang (発表当時INRIA所属、現Facebook)
– CVPR2011 (Journal: IJCV2013)
• ⼿法
– STIPと⽐較して時間的にも空間的にも密な特徴点検出&追跡
– 特徴点検出・局所特徴抽出・コードワード化・識別の４ステップ
Wang, H., Klaser, A., Schmid, C. and Liu, C.-L. “Action recognition by dense trajectories,” IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), pp.3169–3176, 2011.

3D姿勢ベースの認識よりもロバスト
M. Rohrbach, et al., “A Database for Fine Grained Activity Detection of Cooking Activities”, in CVPR2012.
Pose-based approach
Holistic appraoch
詳細⾏動認識 (Fine-grained recognition)にて
– 詳細⾏動認識では微⼩な違いによるクラスの違いを⾒分ける課題
– 姿勢特徴 34.6%に対してアピアランス特徴(=Dense Traj.)は59.2%を記録

アルゴリズム
• (i)特徴点追跡
– ピラミッド画像と特徴点サンプリング
– Farneback Optical Flowによるフロー抽出
– Median Filteringによるフローの対応付け
• (ii)特徴記述
– HOG, HOF, MBH, Trajectory特徴の記述
– Bag-of-wordsによる特徴ベクトル化

ピラミッド画像と特徴点サンプリング
• スケール対応(ピラミッド構造)と密な記述(サンプリング)
– ピラミッド構造(多段階スケーリング)によりスケールの違いに対応
• スケールは1/√2 ずつ⼩さくする
– 特徴点は各スケールにおいてサンプリング
• 格⼦幅は実験的に5x5[pxls]と設定
• コーナー検出 T: 閾値, λ: 固有値
拡⼤・縮⼩に対応
詳細なサンプリング

Farneback Optical Flowによるフロー抽出
• 密なオプティカルフロー
– Farneback Optical FlowはOpenCVにも実装済
– KLT法(上), SIFT(中)と⽐較
ノイズを多数含む
未追跡を含む

Median Filterによるフロー対応付け
• フレーム t と t+1 のフロー対応付け
– Bilinear補間では物体と背景の境界にブラーが発⽣するため，フローの
対応付けに失敗する場⾯も多く存在する
– Median FilterではBilinear補間よりも境界が鮮明になり，失敗回数が少な
いことが明らかにされた
– (x,y): 画像上の座標 M: medianのカーネル ω: オプティカルフロー

特徴記述
• 動線を中⼼とした局所領域から特徴記述
– 追跡された動線 (Tフレーム連結)の周辺領域を抽出
– 周辺領域から局所特徴量HOG, HOF, MBHと，フロー形状を取得
– 下図のように2(x⽅向)x2(y⽅向)x3(t⽅向)の領域から取得した特徴を連結
– Bag-of-words(BoW)により特徴ベクトルを算出する
フローの中⼼から局所領域を取得
複数の局所特徴量を抽出

HOG特徴量
• Histograms of Oriented Gradients (HOG)
– 物体のおおまかな形状を表現可能
– 局所領域をブロック分割して特徴取得
– エッジ勾配(下式g(x,y))により量⼦化ヒストグラム作成
– 勾配毎のエッジ強度(下式m(x,y))を累積
歩⾏者画像から取得した形状
背景から取得した形状

HOF特徴量
• Histograms of Optical Flow (HOF)
– 局所領域をブロック毎に分割
– 前後フレーム(tとt+1)のフローをブロックごとに記述
– フロー⽅向と強度(⻑さ)
前後2フレームからフローを算出
動作ベースの特徴ベクトルを取得

MBH特徴量
• Motion Boundary Histograms (MBH)
– フレームt, t+1から取得したフローをエッジとみなして特徴記述
– 基本的に記述⽅法はHOGと同じ (Dense Trajectoriesでも同じ次元数を取得)
– MBHはフロー空間をx,y⽅向に微分した画像から特徴取得
=>x⽅向微分のMBHx, y⽅向微分のMBHyが取得される
(a)(b) t, t+1の元画像 (c) フロー空間 (d) フローの強度 (e)(f) x,y方向の勾配
(g)(h) x,y方向のMBH特徴

Trajectory特徴量
• 動線の形状を特徴量として扱う
– フレーム間のフローを算出
– 全体のフローの⼤きさで正規化
Pt = (Pt+1 − Pt) = (xt+1 − xt, yt+1 − yt)

Improved Dense Trajectories
• 考案者
– Heng Wang (発表当時INRIA所属、現Facebook)
– ICCV2013 (Journal: IJCV2015)
• ⼿法
– Dense Trajectoriesの改良
– 背景フローの除去、コードワード改良、⼈物検出を追加
Wang, H. and Schmid, C. “Action Recognition with Improved Trajectories,” International Conference on Computer Vision (ICCV),
pp.3551–3558, 2013.

Improved Dense Trajectories [H. Wang, ICCV2013]
• Dense Trajectoriesから3点の追加
– SURF + RANSACを⽤いたカメラ動作推定
– ⼈物検出枠によるROI(Region of interest)指定
– Fisher Vector (FV)の導⼊
カメラ動作以外が前景動作⾏動認識では⼈物領域に限定

DTの派⽣技術：共起特徴量の導⼊
• [H. Kataoka, ACCV2014]
– 共起特徴量をDense Trajectoriesに適⽤
– 「エッジペアカウント」や「エッジ強度ペア累積」により特徴表現
Kataoka, H., et al., “Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity Recognition”, in ACCV2014.

Two-stream ConvNets
• 深層学習(Deep Learning)時代の動画認識⼿法
– 空間情報と時間情報の畳み込みにより精度を向上

Two-stream ConvNetsの基本的な情報
• 考案者
– Karen Simonyan (発表当時Oxford所属、現Deep Mind)
– NIPS2014
• ⼿法
– RGBのみでなく、時間情報を画像に投影したフロー画像に対してCNN
Simonyan, K. and Zisserman, A. “Two-Stream Convolutional Networks for Action Recognition in Videos,” Neural Information
Processing Systems (NIPS), 2014.

Two-stream ConvNets [Simonyan+, NIPS14]
• 空間的・時間的な畳み込みの結果を統合
– 空間 (Spatial-stream)：RGBの⼊⼒から識別結果を出⼒
– 時間 (Temporal-stream)：Flow蓄積画像の⼊⼒から識別結果を出⼒、時間
情報を予め２次元画像に投影
– 統合：カテゴリごとの確率分布

Stacked Flowの⼊⼒
• (x, y)⽅向に分割、フローを画像に投影

Stacked Flowの⼊⼒
X方向 Y方向

スコアの統合
• RGB + Stacked Flow
– スコアを (i) 単純平均 (ii) SVMの出⼒値により統合

IDTとTwo-stream ConvNetsの統合: TDD
• TDD（Trajectory-pooled Deep-convolutional Descriptors）
– 動線抽出まではIDTと同様
– TDD：畳み込みマップから値を抽出
Feature extraction
(HOG, HOF, MBH, Traj.)
Fisher Vectors (FVs)
IDT
x x x
TDD
x
x x
Feature extraction
(spa4, spa5, tem3, tem4)
Fisher Vectors (FVs)
xxxxx x x x xx x xxx x xxxxx x x x xx x xxx x

Two-stream ConvNetsの派⽣技術：TSN
• TSN（Temporal Segment Networks）
– フレーム単位ではなく、動画単位で学習した⽅が良い（⽬的に沿った学習）
– RGB，RGB差分，フロー画像，ワープフロー画像を⼊⼒してCNN
– 学習の初期値やBNのパラメータも実験的に決定

UCF101, HMDB51におけるベンチマーク
Approach UCF101 (mAP) HMDB51 (mAP)
STIP 43.9 20.0
DT - 46.6
IDT 85.9 57.2
Two-stream ConvNets 88.0 59.4
TDD 90.3 63.2
TDD+IDT 91.5 65.9
TSN 94.2 69.4

3D Convolutionの威⼒！
• 詳細な説明は原より
Approach UCF101 (mAP) HMDB51 (mAP)
STIP 43.9 20.0
DT - 46.6
IDT 85.9 57.2
Two-stream ConvNets 88.0 59.4
TDD 90.3 63.2
TDD+IDT 91.5 65.9
TSN 94.2 69.4
3D-ResNeXt
(OURS)
94.5 70.2

最新の論文紹介
- Conceptual Papers -

Charades (ECCV 2016/CVPR 2018)
⽇常⾏動の収集/多クラス識別問題を解く
– ⾏動カテゴリ157種類
– クラウド上で「公開しても良い動画」を収集
– 2018年には⼀⼈称/三⼈称視点を同期
個⼈情報保護をクリアする効果的な策？

STAIR Actions (arXiv 2018)
STAIRラボが誇る⼈物⾏動DB
– 100,000動画，100カテゴリの⾏動認識DB
– データ量/⾏動の種類では世界に引けを取らない
個⼈情報保護をクリアする効果的な策！

What Actions are Needed? (ICCV 2017)
⼈物⾏動認識のためにはどんな⾏動が必要？
– アノテーション/アルゴリズム構築等への提⾔
– マルチラベル，より詳細説明かつ物体/⼈体関節情報が重
要と結論
DB作成や⼿法構築の⽅策を決定づける実験

What makes a video a video (CVPR 2018)
動画認識は動きを捉えていないのでは？
– 動画から重要フレームを選択/⽣成して認識
– 動きを学習しているのではなく，実は⼊⼒から識別しや
すいフレームを選択していると結論
効果的な動き特徴は実は未だ学習できていない？

Beyond Video Recognition
（行動/イベント予測）

Hirokatsu Kataoka (AIST)
Yudai Miyashita (TDU), Masaki Hayashi (Liquid Inc., Keio Univ.)，
Kenji Iwata, Yutaka Satoh (AIST)
Recognition of Transitional Action for Short-Term Action
Prediction using Discriminative Temporal CNN Feature

⾏動予測とは？
• 動画⼊⼒から時間的に先（起こっていない）の⾏動を推定

⾏動予測関連技術の問題点
• 早期⾏動認識
– ⾏動開始時点から観測開始，⼗分な⼿がかりが得られないと認識不可
– ⾏動認識とほぼ同じ？
• ⾏動予測
– ⾏動が⽣起する前から予測するので不安定
⼿法設定
⾏動認識
早期⾏動認識
⾏動予測
f (F1...t
A
) → At
f (F1...t−L
A
) → At
f (F1...t
A
) → At+L

提案⼿法の問題設定
• 2つの⾏動間に遷移⾏動 (TA; Transitional Action)を挿⼊
– 予測のためのヒントがTAに含有: 早期⾏動認識より時間的に早く認識
– TAの認識が即ち次⾏動の予測: ⾏動予測より安定した予測
Δt
【Proposal】
Short-term action prediction
recognize “cross” at time t5
【Previous works】
Early action recognition
recognize “cross” at time t9
Walk straight
(Action)
Cross
(Action)
Walk straight – Cross
(Transitional action)
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12

提案⼿法の問題設定
• 2つの⾏動間に遷移⾏動 (TA; Transitional Action)を挿⼊
– 予測のためのヒントがTAに含有: 早期⾏動認識より時間的に早く認識
– TAの認識が即ち次⾏動の予測: ⾏動予測より安定した予測
手法設定
行動認識
早期行動認識
行動予測
遷移行動認識
f (F1...t
A
) → At
f (F1...t−L
A
) → At
f (F1...t
A
) → At+L
f (F1...t
TA
) → At+L

Transitional Action (TA)の詳細
• TAのアノテーション
– 通常⾏動 (NA; Normal Action)に数枚オーバーラップしてラベル付
• TA認識の困難さ
– NAとTAの⾏動特徴が混在

Subtle Motion Descriptor (SMD)の提案
• NA~TAの変動時の⾏動を捉えるための詳細な特徴

実験結果
• SMD + PoT連結ベクトル (Proposal)が最⾼精度を達成
• 従来研究と⽐較して，SMDは有効であることを実証
– 左：10 [frames]蓄積時，右：3 [frames]蓄積時

遷移⾏動認識
• 本研究の新規性として，
1. 遷移⾏動 (TA; Transitional Action)を定義
2. TAを解くための特徴Subtle Motion Descriptor (SMD)を提案

Tomoyuki Suzuki* (AIST/Keio Univ.), Hirokatsu Kataoka* (AIST)
Yoshimitsu Aoki (Keio Univ.), Yutaka Satoh (AIST)
Anticipating Traffic Accidents
with Adaptive Loss and Large-scale Incident DB

交通システムは危険シーンを理解すべき
• ADASや⾃動運転のためのニアミスシーン理解
– ニアミス：衝突に近い極めて危険なシーン
– セーフティシステムの危険予測，運転フィードバック
• 先端的データセットにもニアミスは含まれていない
– ⾃動運転，歩⾏者検出データセット
ニアミスシーンの例

Traffic Datasets
• ADAS / Autonomous Driving
Caltech GM-ATCI Daimler NICTA ETHZ TUD-Brussels INRIA
Pedestrian detection benchmark
Autonomous driving benchmark: KITTI
Optical Flow Stereo Matching
Object Detection
Road Odometry Semantic Segmentation
より「危険」な状況にフォーカスしたデータが必要！

Near-Miss Incident Database (NIDB)
世界初の動画認識に向けた⼤規模ニアミスDB
– ビデオ数 6.2K, フレーム数 1.3M, 7カテゴリ
– 危険度，危険要素によりラベル付け
【Annotation】
Risk: High / Low
Attribute: Ped. / Veh. / Bike
Near-Miss Incident Database (NIDB)
6,200+ videos,
1,300,000+ images,
7 near-miss/bg categories
# イメージ図

データベースの収集
• ヒヤリハットDBをベースにして⾃ら動画収集
– ニアミスの定義：ブレーキ等ドライバ操作により衝突を回避した場⾯
– 危険度の定義：TTC（Time-to-collision; 衝突までの時間）により判断
• 低レベル：急ブレーキを踏んだ事象でTTCが2.0秒以上
• ⾼レベル：急ブレーキを踏んだ事象でTTCが0.5秒以内
– Step1：動画に対してニアミスが含まれるように編集
– Step2：危険度と危険要因に対してアノテーション
– Step3：クロスチェックでカテゴリに誤りがないか整合性があるか確認

交通ニアミス予測：問題設定
• ニアミスや事故が発⽣する前に予測できる？
– 予測の上，危険度{Low, High}や危険要因{Cyclist, Pedestrian,
Vehicle}も同時推定
– 複雑背景下，動的カメラの中で⾼次な認識を実⾏
– いかに早い段階で予測できるかが最重要

CVによる動画認識（⽚岡パート）のまとめ
• 動画認識の代表⼿法を中⼼に分野を俯瞰
– DT/IDT, Two-stream ConvNets（, C3D）とその派⽣技術
• 現在の問題を改善する取り組みを紹介
– 「動き」⾃体を捉えられていない？What makes a video a video
– 個⼈情報を保護しつつデータを収集 Charades/STAIR Actions
– ⾏動認識のデータ/⼿法の改善策 What actions are needed?
• ⾏動認識の先へ
– 時間的に先の⾏動/イベントを予測する
• Transitional Action Recognition（BMVC 2016）
• Anticipating Traffic Accidents（CVPR 2018）

【チュートリアル】コンピュータビジョンによる動画認識 v2

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【チュートリアル】コンピュータビジョンによる動画認識 v2

Similar to 【チュートリアル】コンピュータビジョンによる動画認識 v2 (20)

More from Hirokatsu Kataoka

More from Hirokatsu Kataoka (15)

【チュートリアル】コンピュータビジョンによる動画認識 v2