ICCV2011 Paper Digest
   Learning a Category Independent Object
                        Detection Cascade



Akisato Kimura @ NTT Communication Science Labs
                          Twitter ID: @_akisato
いまさら物体検出? もうできてない?
   どんな物体検出ができているのか?
       顔検出・人物検出・文字検出: 商用水準




       特定種類物体検出: 研究水準




       一般物体検出: 研究水準すらおぼつかない
2                    関西CVPRML (September 22, 2011)
一般物体検出の事例
   顕著性算出
       Spectral residual   [Hou+ CVPR2007]


                                Spectral residual




3                                   関西CVPRML (September 22, 2011)
一般物体検出の事例
   顕著性に基づく検出
       2-D FFT + thresholding   [Achanta+ CVPR2009]




4                                 関西CVPRML (September 22, 2011)
一般物体検出の事例
   顕著性に基づく物体検出
       Saliency graph cuts   [福地+ ICME2009→信学論2010]




5                                   関西CVPRML (September 22, 2011)
一般物体検出の事例
                                  Superpixelをぎりぎり覆う
   新しい特徴の追加                      bounding boxが望ましい
       Superpixels Straddling   [Alexe+ CVPR2010]




6                                 関西CVPRML (September 22, 2011)
CVPR2008 Best Student Paper Award               ECCV2008 Best Paper Award




                                    Learning
                     a category independent
                    object detection cascade

                            E. Rahtu & J. Kannala @ Univ. Oulu
                                    M. Blaschko @ Univ. Oxford
やりたいこと
   一般物体検出
       特定種類物体検出・認識の候補を絞るために使う。
       だから、とっても速く動かしたい。
            Alexe+@CVPR2010                     Proposed




8                             関西CVPRML (September 22, 2011)
アプローチ
   複数の新しい特徴の提案
       陽に顕著性を用いない点が、大きな違い。
       ここでの計算はできるだけサボりたい。



   教師付き識別学習の導入
       「物体らしさ」の定義は機械学習に任せてしまう。




9                     関西CVPRML (September 22, 2011)
全体の構成
初期候補抽出               特徴抽出                   最終候補決定
                  Superpixel boundary
                                           Structured learning
                       integral
     Superpixel                               with ranking
     clustering                                constraints
                     Boundary edge
                     distribution


 Position/size
     prior
                    Window symmetry


                                                Non-maxima
                                                 filtering
10                                   関西CVPRML (September 22, 2011)
初期候補抽出(1)
   Superpixel window generation
       ここで取れるboxの数は高々数100程度
                  Superpixel
                                           隣接/3隣接
                 segmentation
                 [Felzenschwalb+
                                          superpixelの
        入力画像        IJCV2004]             bounding box




11                                 関西CVPRML (September 22, 2011)
初期候補抽出(2)
   Position / size prior
       学習データから,サイズと位置との関係を学習
       Random samplingでサイズと位置を決定(10万)


         幅,高さは      横位置は               縦位置は
        そのまま学習     幅のみに依存             高さのみに依存




12                          関西CVPRML (September 22, 2011)
全体の構成
初期候補抽出               特徴抽出                   最終候補決定
                  Superpixel boundary
                                           Structured learning
                       integral
     Superpixel                               with ranking
     clustering                                constraints
                     Boundary edge
                     distribution


 Position/size
     prior
                    Window symmetry


                                                Non-maxima
                                                 filtering
13                                   関西CVPRML (September 22, 2011)
特徴抽出(1)
   Superpixel boundary integral (BI)
       Superpixels straddling (SS)の高速版として
                                  Bounding box yの
                                  境界ピクセルの集合



                                   Bounding box内
                                  superpixel画像の
         全長
                                 Gaussian smoothing



14                           関西CVPRML (September 22, 2011)
特徴抽出(2)
   Boundary edge distribution (BE)
     入力画像    エッジ強調gradient         Canny edge detector

                                          Gradient

                                    Gaussian smoothing



        候補領域を6x6分割


        部分領域で注目する
         方向と重みを変更
15                           関西CVPRML (September 22, 2011)
特徴抽出(3)
   Window symmetry (WS)




     エッジ強調gradient   2x2領域でヒストグラムを統合
      画像を4x4分割       (各領域16次元ヒストグラム)

                      Histogram intersection
 方向ヒストグラムを計算
(各領域4次元ヒストグラム)
16                          関西CVPRML (September 22, 2011)
全体の構成
初期候補抽出               特徴抽出                   最終候補決定
                  Superpixel boundary
                                           Structured learning
                       integral
     Superpixel                               with ranking
     clustering                                constraints
                     Boundary edge
                     distribution


 Position/size
     prior
                    Window symmetry


                                                Non-maxima
                                                 filtering
17                                   関西CVPRML (September 22, 2011)
最終候補決定(1)
   Structured output ranking
       Pseudo-codeは本文Algorithm 1を参照
               損失関数      採用する領域 採用しない領域
                          (のindex) (のindex)




特徴量の重み         i番目の画像の
             j番目の窓の特徴量
 18                         関西CVPRML (September 22, 2011)
最終候補決定(2)
   Non-maxima suppression & filtering
     スコア極大箇所検出             最終候補決定
幅・高さ・横位置・縦位置の4次元       抽出した所定数(=1万)のwindow
空間      を規則的に分割        をスコアの高い順に並べる


分割領域内の候補window(4次元
                       これまでに採用したwindowと
空間中の1点に対応)から,最も
                       重なりが一定以下であれば採用
スコア     の良いwindow
を抽出

所定数(=1万)のwindowを取るまで   所定数(=100 or 1000)のwindow
分割と抽出を繰り返す             を取るまで抽出を繰り返す


19                         関西CVPRML (September 22, 2011)
データセット
   PASCAL VOC 2007
       http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2007/
       Total ≒ 10000 images (2501 for training,
        2510 for validation, 4952 for testing)




20                                         関西CVPRML (September 22, 2011)
検出結果の例




        Red = detection result, green = ground truth
        もっと見たい方は http://www.cse.oulu.fi/MVG/Downloads/ObjectDetection

21                                           関西CVPRML (September 22, 2011)
初期候補選択の効果
                   頑張れば
            randomや規則的抽出よりも
                良くなります…(ぇ




22          関西CVPRML (September 22, 2011)
各特徴量の効果
                単独特徴で考えると、
             superpixels straddlingと
          superpixel boundary integralが
                   だいたい互角




                        点線=100個出力
                        実線=1000個出力


23                関西CVPRML (September 22, 2011)
特徴量を組み合わせた効果
          提案した特徴(WS+BE+BI)
          だけだと、従来法と互角。
           (ただし、高速に動作)

          従来法での主要特徴(SS)を
          用いると、従来法を上回る。

            Structured learning
           (SRK)の効果もまずまず


                点線=100個出力
                実線=1000個出力


24        関西CVPRML (September 22, 2011)
雑感
   やっぱり一般物体検出は難しい.
       20カテゴリでも50%.多様性が増えると…(゜Д゜)
       この論文でも,実際にいくつの物体が存在するか,
        を特定することはできていない.
       「物体」に共通する特徴が本当に存在するの?

   それでも一般物体検出は必要.
       未知カテゴリ物体を検出できることは,
        特定種類物体検出/認識をする上で不可欠.


25                     関西CVPRML (September 22, 2011)
Thank you for your kind attention.




   Any questions/comments/discussions ?


                                     Corresponding author
                   Akisato Kimura, Ph.D @ NTT CS Labs.

        [E-mail] akisato <at> ieee.org    [Twitter] _akisato
                   [web] Please search by “Akisato Kimura”
26                                        関西CVPRML (September 22, 2011)

関西CVPRML勉強会 2011.9.23

  • 1.
    ICCV2011 Paper Digest Learning a Category Independent Object Detection Cascade Akisato Kimura @ NTT Communication Science Labs Twitter ID: @_akisato
  • 2.
    いまさら物体検出? もうできてない?  どんな物体検出ができているのか?  顔検出・人物検出・文字検出: 商用水準  特定種類物体検出: 研究水準  一般物体検出: 研究水準すらおぼつかない 2 関西CVPRML (September 22, 2011)
  • 3.
    一般物体検出の事例  顕著性算出  Spectral residual [Hou+ CVPR2007] Spectral residual 3 関西CVPRML (September 22, 2011)
  • 4.
    一般物体検出の事例  顕著性に基づく検出  2-D FFT + thresholding [Achanta+ CVPR2009] 4 関西CVPRML (September 22, 2011)
  • 5.
    一般物体検出の事例  顕著性に基づく物体検出  Saliency graph cuts [福地+ ICME2009→信学論2010] 5 関西CVPRML (September 22, 2011)
  • 6.
    一般物体検出の事例 Superpixelをぎりぎり覆う  新しい特徴の追加 bounding boxが望ましい  Superpixels Straddling [Alexe+ CVPR2010] 6 関西CVPRML (September 22, 2011)
  • 7.
    CVPR2008 Best StudentPaper Award ECCV2008 Best Paper Award Learning a category independent object detection cascade E. Rahtu & J. Kannala @ Univ. Oulu M. Blaschko @ Univ. Oxford
  • 8.
    やりたいこと  一般物体検出  特定種類物体検出・認識の候補を絞るために使う。  だから、とっても速く動かしたい。 Alexe+@CVPR2010 Proposed 8 関西CVPRML (September 22, 2011)
  • 9.
    アプローチ  複数の新しい特徴の提案  陽に顕著性を用いない点が、大きな違い。  ここでの計算はできるだけサボりたい。  教師付き識別学習の導入  「物体らしさ」の定義は機械学習に任せてしまう。 9 関西CVPRML (September 22, 2011)
  • 10.
    全体の構成 初期候補抽出 特徴抽出 最終候補決定 Superpixel boundary Structured learning integral Superpixel with ranking clustering constraints Boundary edge distribution Position/size prior Window symmetry Non-maxima filtering 10 関西CVPRML (September 22, 2011)
  • 11.
    初期候補抽出(1)  Superpixel window generation  ここで取れるboxの数は高々数100程度 Superpixel 隣接/3隣接 segmentation [Felzenschwalb+ superpixelの 入力画像 IJCV2004] bounding box 11 関西CVPRML (September 22, 2011)
  • 12.
    初期候補抽出(2)  Position / size prior  学習データから,サイズと位置との関係を学習  Random samplingでサイズと位置を決定(10万) 幅,高さは 横位置は 縦位置は そのまま学習 幅のみに依存 高さのみに依存 12 関西CVPRML (September 22, 2011)
  • 13.
    全体の構成 初期候補抽出 特徴抽出 最終候補決定 Superpixel boundary Structured learning integral Superpixel with ranking clustering constraints Boundary edge distribution Position/size prior Window symmetry Non-maxima filtering 13 関西CVPRML (September 22, 2011)
  • 14.
    特徴抽出(1)  Superpixel boundary integral (BI)  Superpixels straddling (SS)の高速版として Bounding box yの 境界ピクセルの集合 Bounding box内 superpixel画像の 全長 Gaussian smoothing 14 関西CVPRML (September 22, 2011)
  • 15.
    特徴抽出(2)  Boundary edge distribution (BE) 入力画像 エッジ強調gradient Canny edge detector Gradient Gaussian smoothing 候補領域を6x6分割 部分領域で注目する 方向と重みを変更 15 関西CVPRML (September 22, 2011)
  • 16.
    特徴抽出(3)  Window symmetry (WS) エッジ強調gradient 2x2領域でヒストグラムを統合 画像を4x4分割 (各領域16次元ヒストグラム) Histogram intersection 方向ヒストグラムを計算 (各領域4次元ヒストグラム) 16 関西CVPRML (September 22, 2011)
  • 17.
    全体の構成 初期候補抽出 特徴抽出 最終候補決定 Superpixel boundary Structured learning integral Superpixel with ranking clustering constraints Boundary edge distribution Position/size prior Window symmetry Non-maxima filtering 17 関西CVPRML (September 22, 2011)
  • 18.
    最終候補決定(1)  Structured output ranking  Pseudo-codeは本文Algorithm 1を参照 損失関数 採用する領域 採用しない領域 (のindex) (のindex) 特徴量の重み i番目の画像の j番目の窓の特徴量 18 関西CVPRML (September 22, 2011)
  • 19.
    最終候補決定(2)  Non-maxima suppression & filtering スコア極大箇所検出 最終候補決定 幅・高さ・横位置・縦位置の4次元 抽出した所定数(=1万)のwindow 空間 を規則的に分割 をスコアの高い順に並べる 分割領域内の候補window(4次元 これまでに採用したwindowと 空間中の1点に対応)から,最も 重なりが一定以下であれば採用 スコア の良いwindow を抽出 所定数(=1万)のwindowを取るまで 所定数(=100 or 1000)のwindow 分割と抽出を繰り返す を取るまで抽出を繰り返す 19 関西CVPRML (September 22, 2011)
  • 20.
    データセット  PASCAL VOC 2007  http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2007/  Total ≒ 10000 images (2501 for training, 2510 for validation, 4952 for testing) 20 関西CVPRML (September 22, 2011)
  • 21.
    検出結果の例  Red = detection result, green = ground truth  もっと見たい方は http://www.cse.oulu.fi/MVG/Downloads/ObjectDetection 21 関西CVPRML (September 22, 2011)
  • 22.
    初期候補選択の効果 頑張れば randomや規則的抽出よりも 良くなります…(ぇ 22 関西CVPRML (September 22, 2011)
  • 23.
    各特徴量の効果 単独特徴で考えると、 superpixels straddlingと superpixel boundary integralが だいたい互角 点線=100個出力 実線=1000個出力 23 関西CVPRML (September 22, 2011)
  • 24.
    特徴量を組み合わせた効果 提案した特徴(WS+BE+BI) だけだと、従来法と互角。 (ただし、高速に動作) 従来法での主要特徴(SS)を 用いると、従来法を上回る。 Structured learning (SRK)の効果もまずまず 点線=100個出力 実線=1000個出力 24 関西CVPRML (September 22, 2011)
  • 25.
    雑感  やっぱり一般物体検出は難しい.  20カテゴリでも50%.多様性が増えると…(゜Д゜)  この論文でも,実際にいくつの物体が存在するか, を特定することはできていない.  「物体」に共通する特徴が本当に存在するの?  それでも一般物体検出は必要.  未知カテゴリ物体を検出できることは, 特定種類物体検出/認識をする上で不可欠. 25 関西CVPRML (September 22, 2011)
  • 26.
    Thank you foryour kind attention.  Any questions/comments/discussions ? Corresponding author Akisato Kimura, Ph.D @ NTT CS Labs. [E-mail] akisato <at> ieee.org [Twitter] _akisato [web] Please search by “Akisato Kimura” 26 関西CVPRML (September 22, 2011)