SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our User Agreement and Privacy Policy.
SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our Privacy Policy and User Agreement for details.
Successfully reported this slideshow.
Activate your 14 day free trial to unlock unlimited reading.
7.
Haar-like + AdaBoost(Hand-crafted feat.)
7
Rapid Object Detection using a Boosted Cascade of Simple Features
著者 :Paul Viola, Michael Jones
論⽂:CVPR2001(Best Paper)
l 領域の陰影組み合わせ特徴,識別器による取捨選択
• 学習時には無数の陰影パターン/スケールの組み合わせ(左図)を⽣成
– AdaBoostにより識別に良好なパターンを選択
• 識別時にはカスケード型の識別器(右図)を使⽤
– 途中棄却(図中のF)を導⼊することで⾼速化
– 2001年当時のノートPCにてリアルタイムで動作するくらいには⾼速
8.
HOG+SVM(Hand-crafted feat.)
8
Histograms of Oriented Gradients for Human Detection
著者 : Navneet Dalal, Bill Triggs
論⽂:CVPR2005
l 勾配ヒストグラムによるアブストラクトな形状表現
1. 画像の⼊⼒,画像正規化
2. 勾配の計算(右の数式参照)
3. 量⼦化ヒストグラムを計算
- セル/ブロックに分割された領域をオーバーラップさせながら計算
4. 過検出を統合(NMS; Non-Maximum Suppression)
5. SVMにより2値識別
- ⼈物か否か
⼊⼒画像と画像勾配,Positive/Negativeの重み付き勾配
9.
ICF+Cascade(Hand-crafted feat.)
9
Integral Channel Features
著者 : Piotr Dollarほか
論⽂:BMVC2009
l 多チャンネルから良好な特徴を識別器学習により獲得
1. 画像の⼊⼒
2. 多チャネルの前処理(下図参照)
- Grayscale, ||G||, edges, LUV, Gabor filter, gradient histogram, binary images,
DoG imaegs
3. カスケード型識別器により重み計算
- 有効な特徴量のみを残す
10.
DPM+LatentSVM(Hand-crafted feat.)
10
Object Detection with Discriminatively Trained Part Based Models
著者 :Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester, Deva
Ramanan
論⽂:TPAMI 2012
l HOGをベース特徴に,全体(Root filter; RT)および部位ごと(Part
filters; PT)の評価をLatent SVMにより判断
画像ピラミッドからRT特徴量と解像
度を上げたPTの特徴量を抽出
PFに対する位置変動の潜在変数をLatent SVMに
より学習,RFも含めて全体の尤度が⾼い領域が
検出領域となる
11.
R-CNN(R-CNN)
11
Rich feature hierarchies for accurate object detection and semantic segmentation
(CVPR2014)
著者 : Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
l 深層学習を取り⼊れた初の物体検出モデル,2ステージ物体検出モデルの元祖
1. 画像の⼊⼒
2. 物体候補の探索
- Selective Serchで画像中から領域の候補 (region proposal)を約2,000個抽出
- Selective Search: ピクセルレベルで類似する領域をグルーピングしていく⼿法 (かなり処理時間がかかる)
3. 物体の画像をリサイズし,CNNで特徴抽出
- 全ての物体候補を、CNN (AlexNet)の⼊⼒サイズに合うようにリサイズ
- リサイズした画像をCNN(AlexNet)に⼊⼒し、C特徴を抽出
4. SVMでクラス分類
- CNN特徴量から、SVMでクラス推定。論⽂では、Pascal VOC (20クラス+背景)で検証
- 実験では、全結合層でなくSVMを使った⽅が⾼精度
12.
Fast R-CNN(R-CNN)
12
Fast R-CNN (ICCV2015)
著者 : Ross Girshick
l SPP-Netよりもシンプルなプーリング⼿法を提案し,ad hocに解決(multi-task loss)
3. Regions of Interest (RoI) pooling layer
- SPPよりもシンプルな可変プーリング⼿法
- feature map上に矩形を投影し,max poolingすることで固定⻑に変形
4. クラス識別・バウンディングボックス回帰
- RoI poolingした特徴を並列に2つの全結合層に⼊⼒
- Softmaxでクラス識別,詳細なバウンディングボックス回帰
l multi-task loss
- クラス識別誤差とバウンディングボックス回帰誤差を加算
- 同時に学習し,ad hocを解決
20.
最近のSOTA(Latest Algorithm)
20
An Analysis of Scale Invariance in Object Detection - SNIP (CVPR2018)
著者 : Bharat Singh, Larry S. Davis
l 物体のサイズ変動に対応した⼿法
l ImageNetで学習したモデルからのドメインシフトが⼤きい
l COCO2017にてBest student entry
プレ学習時の物体サイズに近いanchorのみを学習
- 3つのスケールで物体候補を算出し,最後に3つの結果をマージ
21.
最近のSOTA(Latest Algorithm)
21
SNIPER: Efficient Multi-Scale Training (NeurIPS 2018)
著者 : Bharat Singh, Mahyar Najibi, Larry S. Davis
l より効率的なマルチスケール学習
l ピクセル処理ではなく,チップ周辺のコンテキスト領域を学習
l ⽣成するチップ数は画像の複雑さに応じて変化
コンテキストに基づいたチップのサンプリング
- 画像中の物体の存在の基づいてチップ(コンテキスト領域)を⽣成
- チップからバウンディングボックスを推定
22.
最近のSOTA(Latest Algorithm)
22
M2Det: A Single-Shot Object Detector based on Multi-Level Feature
Pyramid Network (AAAI 2019)
著者 : Qijie Zhao, Tao Sheng, Yongtao Wang, Zhi Tang, Ying Chen, Ling Cai, Haibin Ling
l ダウンサンプリングとアップサンプリングを何度も繰り返す
l 処理速度は出ないが,2019年2⽉現在でSOTA
浅い特徴と深い特徴をマージしてマルチスケール化
- アップサンプリング時のfeature mapを同じサイズ同⼠で結合
- 結合したfeature mapから物体検出
56.
MPII
56
• 実装が伴った調査研究
– 40+の歩⾏者検出⼿法等を公平な環境で⽐較
• Haar-like/HOGからDEEP特徴まで
– 網羅的な調査がMPIIの強さ
• 特にBenenson⽒の強みか?
R. Benenson, et al. “Ten years of pedestrian detection, what have we learned?,” ECCV 2014 CVRSUAD workshop.
57.
MPII
57
• 公開データに対して再アノテーション
– Caltech Pedestrianに対しラベルをクリーンに
– Human Baselineも与えた
• Humanのエラー率は5.6%だったことから疑問を持ち,
改良ラベルで⾏ったら同エラー率は0.88%となった
S. Zhang, et al. “How Far are We from Solving Pedestrian
Detection?,” CVPR, 2016.
Caltech Pedestrian Benchmarkに含まれる
ラベル誤り(左)とボックスのズレ(右)
最先端⼿法と⼈間のベースライン⽐較