関西CVPRML勉強会 2011.9.23

ICCV2011 Paper Digest
Learning a Category Independent Object
Detection Cascade

Akisato Kimura @ NTT Communication Science Labs
Twitter ID: @_akisato

いまさら物体検出？もうできてない？
 どんな物体検出ができているのか？
 顔検出・人物検出・文字検出：商用水準

 特定種類物体検出：研究水準

 一般物体検出：研究水準すらおぼつかない
2 関西CVPRML (September 22, 2011)

一般物体検出の事例
 顕著性算出
 Spectral residual [Hou+ CVPR2007]

Spectral residual


 顕著性に基づく検出
 2-D FFT + thresholding [Achanta+ CVPR2009]


 顕著性に基づく物体検出
 Saliency graph cuts [福地+ ICME2009→信学論2010]


Superpixelをぎりぎり覆う
 新しい特徴の追加 bounding boxが望ましい
 Superpixels Straddling [Alexe+ CVPR2010]


CVPR2008 Best Student Paper Award ECCV2008 Best Paper Award

Learning
a category independent
object detection cascade

E. Rahtu & J. Kannala @ Univ. Oulu
M. Blaschko @ Univ. Oxford

やりたいこと
 一般物体検出
 特定種類物体検出・認識の候補を絞るために使う。
 だから、とっても速く動かしたい。
Alexe+@CVPR2010 Proposed


アプローチ
 複数の新しい特徴の提案
 陽に顕著性を用いない点が、大きな違い。
 ここでの計算はできるだけサボりたい。

 教師付き識別学習の導入
 「物体らしさ」の定義は機械学習に任せてしまう。


全体の構成
初期候補抽出特徴抽出最終候補決定
Superpixel boundary
Structured learning
integral
Superpixel with ranking
clustering constraints
Boundary edge
distribution

Position/size
prior
Window symmetry

Non-maxima
filtering

初期候補抽出（１）
 Superpixel window generation
 ここで取れるboxの数は高々数100程度
Superpixel
隣接/3隣接
segmentation
[Felzenschwalb+
superpixelの
入力画像 IJCV2004] bounding box


初期候補抽出（２）
 Position / size prior
 学習データから，サイズと位置との関係を学習
 Random samplingでサイズと位置を決定（10万）

幅，高さは横位置は縦位置は
そのまま学習幅のみに依存高さのみに依存


全体の構成
Superpixel boundary
Structured learning
integral
Boundary edge
distribution

Position/size
prior
Window symmetry

Non-maxima
filtering

特徴抽出（１）
 Superpixel boundary integral (BI)
 Superpixels straddling (SS)の高速版として
Bounding box yの
境界ピクセルの集合

Bounding box内
superpixel画像の
全長
Gaussian smoothing


特徴抽出（２）
 Boundary edge distribution (BE)
入力画像エッジ強調gradient Canny edge detector

Gradient

Gaussian smoothing

候補領域を6x6分割

部分領域で注目する
方向と重みを変更

特徴抽出（３）
 Window symmetry (WS)

エッジ強調gradient 2x2領域でヒストグラムを統合
画像を4x4分割（各領域16次元ヒストグラム）

Histogram intersection
方向ヒストグラムを計算
（各領域4次元ヒストグラム）

全体の構成
Superpixel boundary
Structured learning
integral
Boundary edge
distribution

Position/size
prior
Window symmetry

Non-maxima
filtering

最終候補決定（１）
 Structured output ranking
 Pseudo-codeは本文Algorithm 1を参照
損失関数採用する領域採用しない領域
（のindex）（のindex）

特徴量の重み i番目の画像の
j番目の窓の特徴量

最終候補決定（２）
 Non-maxima suppression & filtering
スコア極大箇所検出最終候補決定
幅・高さ・横位置・縦位置の4次元抽出した所定数(=1万)のwindow
空間を規則的に分割をスコアの高い順に並べる

分割領域内の候補window（4次元
これまでに採用したwindowと
空間中の1点に対応）から，最も
重なりが一定以下であれば採用
スコアの良いwindow
を抽出

所定数(=1万)のwindowを取るまで所定数(=100 or 1000)のwindow
分割と抽出を繰り返すを取るまで抽出を繰り返す


データセット
 PASCAL VOC 2007
 http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2007/
 Total ≒ 10000 images (2501 for training,
2510 for validation, 4952 for testing)


検出結果の例

 Red = detection result, green = ground truth
 もっと見たい方は http://www.cse.oulu.fi/MVG/Downloads/ObjectDetection


初期候補選択の効果
頑張れば
randomや規則的抽出よりも
良くなります…（ぇ


各特徴量の効果
単独特徴で考えると、
superpixels straddlingと
superpixel boundary integralが
だいたい互角

点線＝100個出力
実線＝1000個出力


特徴量を組み合わせた効果
提案した特徴（WS+BE+BI）
だけだと、従来法と互角。
（ただし、高速に動作）

従来法での主要特徴（SS）を
用いると、従来法を上回る。

Structured learning
(SRK)の効果もまずまず

点線＝100個出力
実線＝1000個出力


雑感
 やっぱり一般物体検出は難しい．
 20カテゴリでも50％．多様性が増えると…(゜Д゜)
 この論文でも，実際にいくつの物体が存在するか，
を特定することはできていない．
 「物体」に共通する特徴が本当に存在するの？

 それでも一般物体検出は必要．
 未知カテゴリ物体を検出できることは，
特定種類物体検出/認識をする上で不可欠．


Thank you for your kind attention.

 Any questions/comments/discussions ?

Corresponding author
Akisato Kimura, Ph.D @ NTT CS Labs.

[E-mail] akisato <at> ieee.org [Twitter] _akisato
[web] Please search by “Akisato Kimura”

関西CVPRML勉強会 2011.9.23

More Related Content

Similar to 関西CVPRML勉強会 2011.9.23

More from Akisato Kimura

Recently uploaded

関西CVPRML勉強会 2011.9.23