• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
2011/07/16 NagoyaCV_takmin
 

2011/07/16 NagoyaCV_takmin

on

  • 5,866 views

2011/07/16名古屋CV勉強会発表資料

2011/07/16名古屋CV勉強会発表資料
"A Coarse-to-fine approach for fast deformable object detection" from CVPR2011

Statistics

Views

Total Views
5,866
Views on SlideShare
3,801
Embed Views
2,065

Actions

Likes
4
Downloads
77
Comments
0

5 Embeds 2,065

http://d.hatena.ne.jp 2040
https://twitter.com 17
http://twitter.com 6
http://webcache.googleusercontent.com 1
https://translate.googleusercontent.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    2011/07/16 NagoyaCV_takmin 2011/07/16 NagoyaCV_takmin Presentation Transcript

    • 2011/07/16 名古屋CV・PRML勉強会 発表資料 takmin
    • 本日紹介する論文 A Coarse-to-fine approach for fast deformable object detection  Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez  CVPR2011この論文の主張:Deformable Part Modelという物体検出手法を高速化したぜ
    • Deformable Part Model とはなんぞや?
    • Histogram of Oriented Gradients (HOG) 8×8ピクセルを一つのセルとする。 セルごとに勾配方向のヒストグラムを作成 各ヒストグラムをつなげたものを特徴量とする N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, CVPR, 2005
    • HOGによる物体検出 :位置とスケール p  ( x, y, l ) 位置 スケール score( p)  F   ( p, H ) 位置とスケールpから抽出 したHOG特徴量ベクトル
    • HOGによる物体検出線型SVMによる学習と検出
    • Deformable Part Model 物体のモデルをパーツの集合として表現  パーツの相対位置は対象によって変化 ここでは、以下の手法を解説  P. Felzenswalb et al, “Object Detection with Discriminatively Trained Part Based Models”, PAMI, 32(9), 2010
    • Deformable Part Model z   p0 ,, pn  p0 ルート位置 p1 ,, pn パーツ位置
    • 評価関数Bounding Boxの妥当性 各パーツ形状 パーツ位置の歪み 定数項 の妥当性 n nscore p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 各Boxの パーツ位置 HOG特徴 歪み フィルタ 歪みパラ メータ d (dx, dy)  (dx, dy, dx 2 , dy 2 ) (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi ) パーツ位置歪み パーツ位置 ルート位置 標準的な パーツの 位置
    • 物体の検出 n nscore p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1p0 Sliding Windowの各位置で以下の スコアを求め、高いところを検出す る。 score( p0 )  max score p0 ,, pn  p1 ,, pn 各ルート位置でもっとも最適化された パーツ位置でのスコア
    • 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1  n n  score p0   max   Fi   ( pi )   d i  d (dxi , dyi )  p1 ,, pn  i 0 i 1  各パーツは独立なので、それぞれについてスコアを最大化する。 nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
    • Deformable Part Modelの学習 学習データはBounding Box + ラベル名 各パーツのフィルタFと歪みパラメータdを求める。
    • Latent SVMによる学習 nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1識別関数 f  ( x)  max   ( x, z ) zZ ( x )
    • Latent SVMによる学習 nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1識別関数 f  ( x)  max   ( x, z ) zZ ( x )
    • Latent SVMによる学習 nscore( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 入力画像 パーツ位置 z   p0 ,, pn  これを学習したい! f  ( x)    ( x) という形なら、SVMで解けるが、、、 残念ながら非凸関数
    • Latent SVMによる学習 パーツ位置zを潜在変数として扱う Latent SVM (MI-SVM)識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 学習画像 パーツ位置 z   p0 ,, pn  (潜在変数)以下の繰り返しにより解く:1.  を固定して f  (x) を最大化する z を求める2. z を固定して  を最適化(通常のSVM)
    • やっと本題
    • Deformable Part Modelの計算コスト L 画像のピクセル数 c パーツの近傍探索範囲 P パーツの数 D フィルターの次元 δ セルのサイズ  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
    • Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
    • Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  O P 2 1,116  36    処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト いかにマッチングにかかるコストを減らすか?
    • Coarse-to-Fineな推定 粗い解像度で取得したフィルター情報を元に、密な解 像度でのフィルターの計算範囲を絞る。  極大点周辺のm×mセルのみ
    • オブジェクトモデル モデルは異なる解像度のHOGフィルタのパーツで構成 各パーツフィルターは解像度が上がるごとに均等に分割 階層間の制約(青ライン)+パーツ間の制約(赤ライン)
    • 検出のための評価関数 pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )PSliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 (a) (bの青いライン) (bの赤の破線)
    • 検出のための評価関数 pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )PSliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ y i : パーツiの位置
    • 検出のための評価関数 pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )PSliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
    • 検出のための評価関数 pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )PSliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置 S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i ) 隣接パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
    • 検出のための評価関数 NEW! pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )PSliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 Felzenswalbらのモデルとの対応
    • 検出のための評価関数 pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 おそらくこういう状況を防ぐための制約
    • 検出のための評価関数 pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ たため、加えた制約 隣接パーツの評価あり 隣接パーツの評価なし 学習結果 学習結果
    • 物体の検出 粗い解像度から順にスコアを計算してい く 前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
    • 物体の検出 粗い解像度から順にスコアを計算してい く 前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
    • 物体の検出 粗い解像度から順にスコアを計算してい く 前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×4
    • 物体の検出 粗い解像度から順にスコアを計算してい く 前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×16
    • 物体の検出 pS y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P  隣接パーツ間の制約が無い時は、モデルはツリー構造  DPを用いてスコアが一意に求まる  隣接パーツ間の制約がある時は、一つのパーツの位置を固定 してしまう。 iを固定して、jとiの位置からkの歪みを求める
    • 学習 latent structural SVMでパラメータを学習  パーツ位置を潜在変数として扱う  Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ のモデルにどのようにlatent structural SVMを適用したのかの 記述はない。  (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内 積、損失関数をBounding Boxの重なり具合として、wを求めている。 S y1; x   max w  (x, y i ) y i  p y1* A. Vedaldi and A. Zisserman. .Structured output regression for detection with partialocculusion. In Proc NIPS, 2009
    • 実験:INRIA PedestrianデータセットCF: Coarse-to-Finesib: 隣接パーツの制約[9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection withdeformable par models. In CVPR, 2010
    • 実験:INRIA Pedestrianデータセット
    • 実験:Coarse-to-Fineの有無で性能比較 INRIA Pedestrianデータの検出スコアの比較CFあり CFあり CF無し CF無し
    • 実験:PASCAL VOC 2007データセット
    • まとめ Coarse-to-Fineなアプローチを入れることでDeformable Part Modelによる検出を高速化した。 性能(精度+速度)に関しては、ほぼ最新の手法(カス ケード型)と同等 この2つの手法は組み合わせることで更なる高速化が可 能