SlideShare a Scribd company logo
1 of 92
Download to read offline
[サーベイ報告]
          統計的学習手法による人検出
                     2012年11月17日
                 第21回 名古屋CV•PRML勉強会




                       山内悠嗣, 藤吉弘亘
                               中部大学

http://www.vision.cs.chubu.ac.jp/CVTutorial/PPT/HumanDetectionSurvey.pdf
発表の概要


• 人検出法の概要
• 特徴抽出法
• 識別手法
• 実用化に向けて
• データベースと評価指標
• まとめ




                    2
人検出(物体検出)とは?


             Find all the Xs  = 物体検出




  X = face          X = human      X = car


画像中に含まれる特定の物体(顔、人、車など)をすべて検出



                                             3
物体検出の変遷
                         顔検出                       人検出
1969 年   Sakai
                                                                   1969年
         顔検出に関する初めての研究

1994 年   Yang
         研究者のルールに基づいた顔検出
                                                                   物体検出の研究が始まる
         Sung


1996 年
         クラス分布の距離に基づく顔検出

         Rowley
                                                                   Sakai, Pattern Recognition, 1969.
         Neural Network による顔検出

1997 年   Osuna
         SVM による顔検出
                                                                   1994年
1998 年   Rowley
         Neural Network による顔の回転に
         対応した顔検出
                                                                   ルールベースの顔検出
2000 年   Schneiderman              Papageorgiou
         Naive Bayes による顔向きに対応した
         顔検出
                                   Wavelet と SVM を利用した人検出          Govindaraju, ICCV, 1990.
2001 年   Viola & Jones
         積分画像とカスケード型識別器を
         利用したリアルタイム顔検出                                             1996年
2002 年

                                                                   統計的学習手法の利用
2003 年                             Viola & Jones
                                   見えと動きに基づく人検出
                                                                   Rowley, CVPR, 1996.
2004 年


2005 年   三田                        Dalal
         特徴量間の共起を表現した Joint
         Haar-like 特徴量の提案
                                   人検出に適した HOG 特徴量の提案              2001年
                                   Wu



2006 年   Huang
                                   Edgelet 特徴量の提案
                                                                   リアルタイム顔検出
         スパース特徴量による顔検出

2007 年                             Wu
                                   Cluster Boosted Tree による
                                                                   Viola & Jones, CVPR, 2001.
                                   向き・姿勢の違いに対応した人検出

2008 年                             Felzenszwalb
                                   Deformable Part Model を用いた
                                   姿勢の変化に頑健な人検出
                                                                   2005年
2009 年                             Wang
                                   部分的な隠れに対応した人検出                  検出対象の遷移 顔 → 人
                                   Watanabe
                                   CoHOG 特徴量による人検出
                                                                   Dalal, CVPR, 2005.
2011 年
                                                                                                       4
物体検出の変遷
                         顔検出                       人検出
1969 年   Sakai
                                                                   1969年
         顔検出に関する初めての研究

1994 年   Yang
         研究者のルールに基づいた顔検出
                                                                   物体検出の研究が始まる
         Sung


1996 年
         クラス分布の距離に基づく顔検出

         Rowley
                                                                   Sakai, Pattern Recognition, 1969.
         Neural Network による顔検出

1997 年   Osuna
         SVM による顔検出
                                                                   1994年
1998 年   Rowley
         Neural Network による顔の回転に
         対応した顔検出
                                                                   ルールベースの顔検出
2000 年   Schneiderman              Papageorgiou
         Naive Bayes による顔向きに対応した
         顔検出
                                   Wavelet と SVM を利用した人検出          Govindaraju, ICCV, 1990.
2001 年   Viola & Jones
         積分画像とカスケード型識別器を
         利用したリアルタイム顔検出                                             1996年
2002 年

                                                                   統計的学習手法の利用
2003 年                             Viola & Jones
                                   見えと動きに基づく人検出
                                                                   Rowley, CVPR, 1996.
2004 年


2005 年   三田                        Dalal
         特徴量間の共起を表現した Joint
         Haar-like 特徴量の提案
                                   人検出に適した HOG 特徴量の提案              2001年
                                   Wu



2006 年   Huang
                                   Edgelet 特徴量の提案
                                                                   リアルタイム顔検出
         スパース特徴量による顔検出

2007 年                             Wu
                                   Cluster Boosted Tree による
                                                                   Viola & Jones, CVPR, 2001.
                                   向き・姿勢の違いに対応した人検出

2008 年                             Felzenszwalb
                                   Deformable Part Model を用いた
                                   姿勢の変化に頑健な人検出
                                                                   2005年
2009 年                             Wang
                                   部分的な隠れに対応した人検出                  検出対象の遷移 顔 → 人
                                   Watanabe
                                   CoHOG 特徴量による人検出
                                                                   Dalal, CVPR, 2005.
2011 年
                                                                                                       5
物体検出の変遷
                         顔検出                       人検出
1969 年   Sakai
                                                                   1969年
         顔検出に関する初めての研究

1994 年   Yang
         研究者のルールに基づいた顔検出
                                                                   物体検出の研究が始まる
         Sung


1996 年
         クラス分布の距離に基づく顔検出

         Rowley
                                                                   Sakai, Pattern Recognition, 1969.
         Neural Network による顔検出

1997 年   Osuna
         SVM による顔検出
                                                                   1994年
1998 年   Rowley
         Neural Network による顔の回転に
         対応した顔検出
                                                                   ルールベースの顔検出
2000 年   Schneiderman              Papageorgiou
         Naive Bayes による顔向きに対応した
         顔検出
                                   Wavelet と SVM を利用した人検出          Govindaraju, ICCV, 1990.
2001 年   Viola & Jones
         積分画像とカスケード型識別器を
         利用したリアルタイム顔検出                                             1996年
2002 年

                                                                   統計的学習手法の利用
2003 年                             Viola & Jones
                                   見えと動きに基づく人検出
                                                                   Rowley, CVPR, 1996.
2004 年


2005 年   三田                        Dalal
         特徴量間の共起を表現した Joint
         Haar-like 特徴量の提案
                                   人検出に適した HOG 特徴量の提案              2001年
                                   Wu



2006 年   Huang
                                   Edgelet 特徴量の提案
                                                                   リアルタイム顔検出
         スパース特徴量による顔検出

2007 年                             Wu
                                   Cluster Boosted Tree による
                                                                   Viola & Jones, CVPR, 2001.
                                   向き・姿勢の違いに対応した人検出

2008 年                             Felzenszwalb
                                   Deformable Part Model を用いた
                                   姿勢の変化に頑健な人検出
                                                                   2005年
2009 年                             Wang
                                   部分的な隠れに対応した人検出                  検出対象の遷移 顔 → 人
                                   Watanabe
                                   CoHOG 特徴量による人検出
                                                                   Dalal, CVPR, 2005.
2011 年
                                                                                                       6
物体検出の変遷
                         顔検出                       人検出
1969 年   Sakai
                                                                   1969年
         顔検出に関する初めての研究

1994 年   Yang
         研究者のルールに基づいた顔検出
                                                                   物体検出の研究が始まる
         Sung


1996 年
         クラス分布の距離に基づく顔検出

         Rowley
                                                                   Sakai, Pattern Recognition, 1969.
         Neural Network による顔検出

1997 年   Osuna
         SVM による顔検出
                                                                   1994年
1998 年   Rowley
         Neural Network による顔の回転に
         対応した顔検出
                                                                   ルールベースの顔検出
2000 年   Schneiderman              Papageorgiou
         Naive Bayes による顔向きに対応した
         顔検出
                                   Wavelet と SVM を利用した人検出          Govindaraju, ICCV, 1990.
2001 年   Viola & Jones
         積分画像とカスケード型識別器を
         利用したリアルタイム顔検出                                             1996年
2002 年

                                                                   統計的学習手法の利用
2003 年                             Viola & Jones
                                   見えと動きに基づく人検出
                                                                   Rowley, CVPR, 1996.
2004 年


2005 年   三田                        Dalal
         特徴量間の共起を表現した Joint
         Haar-like 特徴量の提案
                                   人検出に適した HOG 特徴量の提案              2001年
                                   Wu



2006 年   Huang
                                   Edgelet 特徴量の提案
                                                                   リアルタイム顔検出
         スパース特徴量による顔検出

2007 年                             Wu
                                   Cluster Boosted Tree による
                                                                   Viola & Jones, CVPR, 2001.
                                   向き・姿勢の違いに対応した人検出

2008 年                             Felzenszwalb
                                   Deformable Part Model を用いた
                                   姿勢の変化に頑健な人検出
                                                                   2005年
2009 年                             Wang
                                   部分的な隠れに対応した人検出                  検出対象の遷移 顔 → 人
                                   Watanabe
                                   CoHOG 特徴量による人検出
                                                                   Dalal, CVPR, 2005.
2011 年
                                                                                                       7
物体検出の変遷
                         顔検出                       人検出
1969 年   Sakai
                                                                   1969年
         顔検出に関する初めての研究

1994 年   Yang
         研究者のルールに基づいた顔検出
                                                                   物体検出の研究が始まる
         Sung


1996 年
         クラス分布の距離に基づく顔検出

         Rowley
                                                                   Sakai, Pattern Recognition, 1969.
         Neural Network による顔検出

1997 年   Osuna
         SVM による顔検出
                                                                   1994年
1998 年   Rowley
         Neural Network による顔の回転に
         対応した顔検出
                                                                   ルールベースの顔検出
2000 年   Schneiderman              Papageorgiou
         Naive Bayes による顔向きに対応した
         顔検出
                                   Wavelet と SVM を利用した人検出          Govindaraju, ICCV, 1990.
2001 年   Viola & Jones
         積分画像とカスケード型識別器を
         利用したリアルタイム顔検出                                             1996年
2002 年

                                                                   統計的学習手法の利用
2003 年                             Viola & Jones
                                   見えと動きに基づく人検出
                                                                   Rowley, CVPR, 1996.
2004 年


2005 年   三田                        Dalal
         特徴量間の共起を表現した Joint
         Haar-like 特徴量の提案
                                   人検出に適した HOG 特徴量の提案              2001年
                                   Wu



2006 年   Huang
                                   Edgelet 特徴量の提案
                                                                   リアルタイム顔検出
         スパース特徴量による顔検出

2007 年                             Wu
                                   Cluster Boosted Tree による
                                                                   Viola & Jones, CVPR, 2001.
                                   向き・姿勢の違いに対応した人検出

2008 年                             Felzenszwalb
                                   Deformable Part Model を用いた
                                   姿勢の変化に頑健な人検出
                                                                   2005年
2009 年                             Wang
                                   部分的な隠れに対応した人検出                  検出対象の遷移 顔 → 人
                                   Watanabe
                                   CoHOG 特徴量による人検出
                                                                   Dalal, CVPR, 2005.
2011 年
                                                                                                       8
人検出の難しさ




  見えの個体差    複雑な背景     向きの変化




  姿勢の変化     人領域の隠れ    視点の変化


様々な要因が同時発生して見えの変動が大きいため、困難な問題

                                9
物体検出手法の分類



                   物体検出




   知識を利用する手法              統計的学習手法を利用する手法

- 標準的な顔の目や口の位置関係          - 大量の学習データにより,物体の
- 顔の色やエッジ,テクスチャ等の         アピアランス変化を考慮した
特徴をルールとして定義               モデルを定義




   近年は統計的学習手法を利用するアプローチが多い
                                              10
統計的学習手法による物体検出の流れ

オ
フ                          統
                           計
ラ    人の学習サンプル
                       特
                       徴   的
                       抽   学
イ                      出   習
                           手
ン                          法

処
理   人以外の学習サンプル

    統計的学習手法による識別器の学習



                       特
                       徴       人以外
                       抽
オ                      出

ン
ラ                      特
                       徴   識
                                         識別結果の統合前
                           別   人
イ                      抽
                       出   器         識
                                     別
ン                                    結
                                     果
処                      特             の
                       徴             統
理                      抽
                               人
                                     合
                       出             処
                                     理


        識別器による人画像の識別                     識別結果の統合結果

                 検出器                                 11
統計的学習手法による学習の流れ


• オフライン処理
 ‒ 大量の学習サンプルから統計的学習手法により識別器を学習




                      統
                  特   計
     人の学習サンプル     徴   的    識
                  抽   学    別
                  出   習    器
                      手
                      法
                           ex.
                           SVM
                           AdaBoost
    人以外の学習サンプル


                                      12
学習と検出の流れ


• オンライン処理
 ‒ 検出ウィンドウのラスタスキャン後,識別結果を統合



                特
                徴       人以外
                抽
                出


                特
                徴   識             識別結果の統合前
                抽   別   人
                出   器         識
                              別
                              結
                              果
                特             の
                徴       人     統
                抽             合
                出             処
                              理

                                  識別結果の統合結果
    識別器による人画像の識別

          検出器
                                              13
人検出の難しさへの対応方法




見えの個体差       複雑な背景       向きの変化




姿勢の変化        人領域の隠れ      視点の変化

ポイント
 ・様々な変化に頑健な特徴抽出と識別器を実現するか?

                                 14
人検出を困難にする要因と対応策


                  対応策
  要因                                      代表的な手法
          特徴量            識別器
         勾配,色,
見えの個体差                    ­      HOG, CSS, HOF
         動き,距離
                                 Joint Haar-like, CoHOG,
複雑な背景    特徴量の共起           ­
                                 Joint HOG

向きの変化      ­            複数の識別器   Cluster Boosted Tree

                                 Deformable parts model,
姿勢の変化      ­            パーツベース
                                 Hough Forest
                                 グローバル及びパーツベース識別
人領域の隠れ     ­            隠れの推定
                                 器の組合わせ
                                 シーンのモデリング,                 
視点の変化      ­        幾何学情報の利用
                                 転移学習


                                                               15
発表の概要


• 人検出法の概要
• 特徴抽出法
• 識別手法
• 実用化に向けて
• データベースと評価指標
• まとめ




                    16
特徴抽出法のサーベイ


• 人らしさを捉える局所特徴量
 ‒ 勾配情報に基づく特徴量
 ‒ 色情報に基づく特徴量
 ‒ 動きに基づく特徴量
 ‒ 距離に基づく特徴量


• 人の構造を捉える特徴量
 ‒ 統計的学習手法を用いない特徴量間の共起
 ‒ 統計的学習手法を用いた特徴量間の共起



                         17
特徴抽出法 -人らしさを捉える局所特徴量-

• 見えの個体差:衣服・体格によりアピアランスが異なる


              見えの変動を最小現に抑える人らしさを捉える
              特徴量”を設計する必要がある




  人らしさを捉える特徴量


    勾配情報ベース      色情報ベース

     動きベース        距離ベース



                                      18
勾配に基づく特徴抽出

EOH(Edge of Orientation Histograms)                Edgelet




     局所的な勾配方向の比を捉える                                局所領域に含まれる特定形状を捉える
      −少ない枚数で検出器を実現                                 −Boostingとの組み合せて高い識別率を実現
              K. Levi, CVPR 2004.                                B. Wu, CVPR 2005.

 LBP(Local Binary Pattern)                     HOG(Histograms of Oriented Gradients)




                                                 局所領域に含まれる勾配分布を捉える
局所的な輝度の分布をバイナリコードとして捉える
                                                  −高い識別率を実現し、よく利用されている
 −顔認識等でも幅広く利用
                                                  −派生した特徴量が多数:EHOG, C-HOGなど
                        Y. D. Mu, CVPR 2008.                N. Dalal, CVPR 2005.       19
勾配に基づく特徴抽出 1


        • EOH(Edge of Orientation Histograms)
              ‒ 局所領域から得られる勾配ヒストグラムの比率を特徴量とする




                 少ない学習サンプルで高精度な識別器を学習可能
K. Levi et al. , "Learning Object Detection from a Small Number of Examples: the Importance of Good Features",
CVPR, 2004.                                                                                                      20
勾配に基づく特徴抽出 2


        • Edgelet
              ‒ 局所領域に含まれる特定形状を捉える
                    • 直線性,円弧,対称性




                         Boostingと組み合せて高い識別率を実現
B. Wu et al. , "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination
of Edgelet Part Detectors", CVPR, 2005.                                                                      21
勾配に基づく特徴抽出 3


        • LBP(Local Binary Pattern)
              ‒ 注目画素と近傍画素の輝度の大小関係を表現
              ‒ 局所領域におけるバイナリパターンをヒストグラム化

                                      100 220 80          0    1    0

                                      100 110 150         0         1

                                       80 90 100          0    0    0




                                                                            00000000




                                                                                                   11111111
                                       50 75 105          0    0    1

                                      255 95 200          1         1

                                      220 180 80          1    1    0


                     入力画像             3x3 画素                  LBP                      ヒストグラム

                局所的な輝度の分布をバイナリコードとして捉える

Y. D. Mu et al. , "Discriminative Local Binary Patterns for Human Detection in Personal Album", CVPR, 2008.   22
勾配に基づく特徴抽出 4


        • HOG(Histograms of Oriented Gradients)
              ‒ 局所領域に含まれる勾配分布を捉える




                人検出の分野ではデファクトスタンダードな特徴量
             派生した特徴量が多数提案 : EHOG,C-HOG,P-HOG
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005.   23
色情報に基づく特徴抽出 1


        • Integral Channel Features (ICF)
               ‒ 輝度,色,勾配などの特徴量を併用
                     • 特徴量 : 局所領域の画素値の和
               ‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用




                  色は人の衣服に左右されるため悪影響の可能性がある
P. Dollár et al. , "Integral Channel Features", BMVC, 2009.   24
色情報に基づく特徴抽出 1


        • Integral Channel Features (ICF)
                                                                  Uチャンネルの
               ‒ 輝度,色,勾配などの特徴量を併用
                                                                  顔が一番強い
                     • 特徴量 : 局所領域の画素値の和
               ‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用




                                                              全弱識別器の可視化

P. Dollár et al. , "Integral Channel Features", BMVC, 2009.                 25
色情報に基づく特徴抽出 2


        • Color Self-Similarity (CSS)
              ‒ 2つの局所領域から得られる色ヒストグラムの類似度を     
                特徴量として利用
              ‒ 2つの局所領域が同一部位かどうかを暗に表現
                                   頻度
                                        }
                                        }
                                        }

                                        H   S   V
                                                        類似度 S
                                   頻度
                                        }
                                        }
                                        }




                                        H   S   V
       入力画像       セルC (8 8ピクセル)         色ヒストグラム p




          色情報に対する依存がないため,人検出に色情報を有効活用できる
S. Walk et al. , "New Features and Insights for Pedestrian Detection", CVPR, 2010.   26
動きに基づく特徴量


• 空間的変化を捉える特徴量
• 時間的変化を捉える特徴量
• 時空間変化を捉える特徴量




                    27
空間的変化を捉える特徴量


        • 背景差分により得られる前景領域を捉える
              ‒ 背景差分をベースとした手法により前景領域の確率を算出




                                            固定カメラに限定
J. Yao et al. , "Fast Human Detection from Videos Using Covariance Features", Visual Surveillance, 2008.   28
時間的変化を捉える特徴量 1


        • モーションフィルタ(Haar-like)
              ‒ 2フレーム間の動きを3つのモーションフィルタで捉える
                    • 時間的な移動 : フレーム間差分
                    • 擬似的な移動 : 1フレーム目を擬似的に上下左右に1ピクセル移動
                    • 擬似的な移動の差 : フレーム間差分 - 擬似的な移動




                         低解像度画像 (20 x 15画素)に適応可能
P. Viola et al. , "Detecting Pedestrians Using Patterns of Motion and Appearance", ICCV, 2003.   29
時間的変化を捉える特徴量 2


        • Histograms of Flow (HOF)
              ‒ 2つの特徴表現
                    • オプティカルフローをHOG特徴量(HOF)のように表現
                    • 近傍のオプティカルフローヒストグラムとの差を特徴量として表現




   t, t+1フレームの画像                 フローとその境界                フローから得られる勾配                       平均勾配画像


                   相対的な動きを観測 → 移動カメラへ適応可能
N. Dalal et al. , "Human Detection Using Oriented Histograms of Flow and Appearance", ECCV, 2006.   30
時空間変化を捉える特徴量


     • ST-Patch
         ‒ 局所領域内の空間方向の勾配,時間方向の勾配の大きさを捉える
             • 局所的な領域の見えと動きを表現




                ST-Patch



村井 他 , "Space-Time Patchを用いた物体の移動方向識別とセグメンテーション", 情報処理学会論文誌, 2008.   31
距離に基づく特徴量

     距離画像計測デバイス
                                                                                                          /
                                                                                       h 1 (S 64000)
                                                                  S 22 (       -   )           +          /
                                                                                       h 2 ( S 22 )
                                                                  S 1530 (     -   )           +
                                                                                               +
                                                                                       h100 (Occlusion)
                                                                  S 64000(     -   )           +
             TOF
           TOFカメラ            Microsoft Kinect                                             Real AdaBoost

       RDSF(Relational Depth Similarity Feature)

       局所領域間の距離の差を捉える

          人−人:距離差は小
          人−背景:距離差は大
                                                0   m]   7.5

                                                               Bhattacharyya




                                                0        7.5
                                                    m]




                距離画像により背景テクスチャの影響を受けない
池村 他 , "距離情報に基づく局所特徴量によるリアルタイム人検出", 電子情報通信学会論文誌, 2010.                                                 32
特徴抽出法のサーベイ


• 人らしさを捉える局所特徴量
 ‒ 勾配情報に基づく特徴量
 ‒ 色情報に基づく特徴量
 ‒ 動きに基づく特徴量
 ‒ 距離に基づく特徴量


• 人の構造を捉える特徴量
 ‒ 統計的学習手法を用いない特徴量間の共起
 ‒ 統計的学習手法を用いた特徴量間の共起



                         33
特徴抽出法 -人の構造を捉える特徴量-

• 複雑背景:(局所領域でみると)人に似た領域がある

               複雑背景への誤検出を抑える人の構造を
               捉える特徴量”を設計する必要あり



                    共起表現


 人の構造を捉える特徴量

    統計的学習手法を用いない特徴量間の共起

    統計的学習手法を用いた特徴量間の共起



                                    34
統計的学習手法を用いない特徴量間の共起


        • CoHOG(Co-occurrence HOG)
              ‒ 局所領域内の勾配のペアを累積した同時生起行列
              ‒ 2カ所の局所領域の勾配と勾配の関係性を表現することで    
                人の形状の構造を捉えられる




T. Watanabe et al. , "Co-occurrence Histograms of Oriented Gradients for Human Detection", IPSJ Trans. on
CVA, 2010.                                                                                                  35
統計的学習手法を用いる特徴量間の共起 1


        • Shapelet
              ‒ 1段階目 : 4方向エッジとBoostingによりShapeletを生成
              ‒ 2段階目 : ShapeletとBoostingにより識別器を学習



                                              AdaBoost

                                              AdaBoost
                                                                                       AdaBoost      識別器



                                              AdaBoost
    入力画像と 4 方向エッジの算出                      1 段階目の AdaBoost        Shapelet 特徴量      2 段階目の AdaBoost



         Boostingにより識別に有効な局所領域内のエッジを捉える
P. Sabzmeydani et al. , "Detecting Pedestrians by Learning Shapelet Features", CVPR, 2007.             36
統計的学習手法を用いる特徴量間の共起 2


     • Joint HOG
          ‒ 1段階目 : 2つのHOGとBoostingによりJoint HOGを生成
          ‒ 2段階目 : Joint HOGとBoostingにより識別器を学習




        Boostingにより識別に有効な局所領域の関係性を捉える
三井 他 , "Joint特徴量を用いた2段階Boostingによる物体検出", 電子情報通信学会, 2009.   37
特徴抽出のまとめ



                        特徴量        長所               短所

人らしさを   勾配情報ベース   EOH,Edgelet 人の特徴をよく表現できる    テクスチャの影響を受ける
捉える特徴             HOG, LBP                    (服の模様など)
量
        色情報ベース    ICF         エッジが明確でない画像から   計算コストが大きい
                  CSS         も有効な特徴が抽出できる

        動き情報ベース   前景尤度        テクスチャの影響を受けない   連続した複数枚の画像が 
                  HOF                         必要

        距離情報ベース   RDSF        テクスチャの影響を受けない   特殊なデバイスが必要
                  距離差分        人の形状を明確に捉えられる  画角,距離に制限がある
人の構造を   全ての共起を利 CoHOG         人に似た背景の誤検出を抑制   特徴量によっては学習時に
捉える特徴   用                     できる             大量のメモリが必要
量
        有効な共起を選 Joint HOG     人に似た背景の誤検出を抑制   学習に多大な時間がかかる
        択       Shapelet      できる


                                                             38
特徴抽出と識別手法




             人検出器




                             向き変化
  特徴抽出 個体差            識別手法   姿勢変化
       複雑な背景                 隠れ
                             視点変化

人らしさを               人に共通する要素を
どのように表現するか          どのように見つけるか
                                    39
識別手法


• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法




                  40
識別手法 - 向きの変化への対応-


• 向きの変化 : 人とカメラの位置関係により見えが異なる

           人の向きに左右されない識別器を学習する必要
           → 各々の向きに対応した複数の識別器により対応



向きの変化に対応した手法

 向きのラベルを必要とする手法
 人手で付与した向きのラベルを持つサンプル毎により識別器を学習


 向きのラベルを必要としない手法
 統計的学習手法によりクラスタリングされたサンプルにより識別器を学習

                                     41
向きのラベルを必要とする手法 1


        • 角度推定器と識別器の二段階の構成
              ‒ ルータにより顔の回転角を推定
              ‒ 推定された回転角に合わせて回転した画像を識別




                  ルータによる回転角の推定                                   識別器による人と背景の識別

                          向きに対しても同様のアプローチで解ける
H. Rowley, et al. , "Rotation Invariant Neural Network-Based Face Detection", CVPR, 1998.   42
向きのラベルを必要とする手法 2


        • 多クラス識別器の利用(Vector Boosting)
              ‒ 多クラス識別 : 分岐関数までの識別器(FLR1, ..., FLRN-1)
              ‒ 向き分類器 : 分岐関数(FLRN)
              ‒ 2クラス識別 : 分岐関数以降の識別器(Ln, Fn, Rn)




                   人と背景を識別                         向き分類器               それぞれの向きの人と背景を識別


C. Hou, et al. , "Multiview Pedestrian Detection Based on Vector Boosting", ACCV, 2007.   43
向きに対応した手法の検出の例




正面 / 背面   左向き      右向き
                         44
向きのラベルを必要としない手法 1


      • 分割統治法による識別器の学習
          ‒ 解決が困難な問題を小さな問題に分割して解く
          ‒ サンプルを分割し,サブクラスを考慮した2クラス識別器を学習


                                                                             左向き
                                      サブクラス1                      識別器 1




                                                     分割統治法による学習
  学習サンプル          クラスタリング             サブクラス2                      識別器 2      正面


                                      サブクラス3                      識別器 3
                                                                             右向き



土屋 他 , "Boostingに基づく分割統治的戦略による高精度な識別器構築手法, 信学論, Vol. 95-D, No. 3 pp. 656-665, 2012   45
向きのラベルを必要としない手法 2


        • Cluster Boosted Tree (CVT)
              ‒ 逐次的に識別器の学習とサンプルのクラスタリングを行う
              ‒ 向き毎の強識別器Hは,弱識別器hを共有




                         識別が容易となるようにサンプルを自動的に分割
B. Wu, et al. , "Cluster Boosted Tree Classifier for Multi-View, Multi-Pose Object Detection", ICCV, 2007.   46
識別手法


• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法




                  47
識別手法 - 姿勢の変化への対応 -


• 姿勢の変化 : 人のとる姿勢により人の見え方が変化する

            人の姿勢の変化に対応可能な構造を持つ識別器が必要
            → 姿勢の変化による見えの変動が少ないパーツを
             検出し,パーツの関係性を捉える


姿勢の変化に対応するための重要な点

 パーツの定義
 如何に人の見えの変動が少ないようなパーツに定義するか


 パーツの統合方法
 検出したパーツをどのように統合して人と背景を識別するか

                                      48
パーツの定義方法

ルールベース                      画像の位置

         研究者が定義したルールで分割             画像の位置で分割
         •適応的にパーツを分割できる             •パーツのラベル付けコスト小

         •最適なパーツの定義が必要              •適応的にパーツを分割できない
         •パーツのラベル付けのコスト大            •最適なパーツの定義が必要
         •微小な位置ずれが含まれる


特徴点ベース                      統計的アプローチ
         特徴点を中心とした小領域                      関節位置のずれが学習
                                           サンプルで最小となる領域
         •パーツのラベル付けコストがない
                                           •検出に適したパーツを
         •人領域以外からも検出される                    自動的に決定


                                           •関節位置の付与コスト
                                 poselet


パーツの定義に合わせて,適切なパーツの統合方法を採用することが重要
                                                          49
パーツの統合方法


• 識別器によるパーツの統合
 ‒ Adaptive Combination of Classifier
 ‒ Multiple Instance Boosting

• グラフモデルによるパーツの統合
 ‒ Deformable Parts Model

• 投票処理によるパーツの統合
 ‒ Implicit Shape Model
 ‒ Hough Forests




                                       50
識別器によるパーツの統合 1


        • Adaptive Combination of Classifier (ACC)
              ‒ 1段階目 : SVMにより各パーツを検出
              ‒ 2段階目 : 1段階目の識別結果を入力し,人と背景の判別

                                               SVM


                                               SVM


                                                                          SVM
                                               SVM




                                               SVM


        入力画像            各パーツの探索領域           パーツの識別         識別結果        パーツの統合              識別結果

 各パーツの位置や大きさの変動を吸収できるため,姿勢の変化に対して頑健
A. Mohan, et al. , "Example-Based Object Detection in Images by Components", PAMI, 2001.          51
識別器によるパーツの統合 2


        • Multiple Instance Learning(MIL)の適用
              ‒ 幾つかの事例の集合であるbagに対して付与されているラベルに
                基づき学習する方法
              例) 予め定義した頭部の位置周辺を適当にサンプリングしてbagとする
                MILを導入したBoostingにより識別器を学習


                                             頭部




                                             胴体




                                              足




                           パーツの情報(部位,位置,大きさ)が不要
P. Viola, et al. , "Multiple Instance Boosting for Object Detection", NIPS, 2006.
Y. Chen, et al. , "Multi-Class Multi-Instance Boosting for Part-Based Human Detection", Visual Surveillance, 2009.   52
グラフモデルによるパーツの統合 1


        • Deformable parts model
              ‒ 人の全身とパーツの見えと位置の関係性をモデル化
              ‒ モデルをLatent SVMにより学習
                ルートフィルタの見え パーツフィルタの見え パーツフィルタの位置関係




                頭部

     右胴                    左胴
                全身

     右手                    左手
                脚部
        k-fanモデル (k=1)                         検出例            ルートフィルタ パーツフィルタ パーツの変動範囲
P. Felzenszwalb, et al. , "Object Detection with Discriminatively Trained Part Based Models", PAMI, 2009.   53
参考 takminさん, 名古屋CV・PRML勉強会 発表資料   54
参考 takminさん, 名古屋CV・PRML勉強会 発表資料   55
参考 takminさん, 名古屋CV・PRML勉強会 発表資料   56
参考 takminさん, 名古屋CV・PRML勉強会 発表資料   57
参考 takminさん, 名古屋CV・PRML勉強会 発表資料   58
参考 takminさん, 名古屋CV・PRML勉強会 発表資料   59
参考 takminさん, 名古屋CV・PRML勉強会 発表資料   60
投票処理によるパーツの統合 1


        • Implicit Shape Model (ISM)
              1. コーナー点を中心とした小領域をパッチとして抽出
              2. パッチの輝度情報を基にベクトル量子化
              3. コードブックを基に人の重心位置へ投票
              4. 投票点をクラスタリングすることで物体を検出




B. Leibe, et al. , "Robust Object Detection with Interleaved Categorization and Segmentation", IJCV, 2008.   61
投票処理によるパーツの統合 2


        • Hough Forests
              ‒ パッチの識別にRandom Forestsを利用
              ‒ 分岐関数にて下記の2点を考慮
                     • 人と背景の分けやすさ
                     • パッチの位置
          入力画像                 パッチの抽出             Random Forests による識別              重心位置への投票




                                                                           人の尤度
                                                                           オフセット量    投票処理


        識別に判別モデルを導入することでパッチの識別性能が向上
J. Gall, et al. , "Class-Specific Hough Forests for Object Detection", CVPR, 2009.              62
識別手法


• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法




                  63
識別手法 -人領域の隠れへの対応-


• 人領域の隠れ : 人画像が部分的に欠損する

           隠れた領域を考慮する識別器が必要
           → 識別器に隠れ予測モデルを導入して隠れ領域を考慮



隠れ領域に対応した人検出を行う上での重要な点

 隠れの推定
 如何に隠れ領域を推定するか


 隠れ領域を考慮した識別
 推定した隠れ領域をどのように考慮して識別するか

                                   64
隠れに対応した手法 1


        • 局所領域毎に隠れ識別器を学習
        • 隠れ識別器の結果をクラスタリングすることで隠れ領域
          を推定
        • 隠れの影響を受けにくい検出器(上半身,下半身等)を適用

             人領域                              隠れ領域




     入力画像                  隠れ推定                      セグメンテーション

                                                               隠れなしと判定
X. Wang, et al. , "An HOG-LBP Human Detector with Partial Occlusion Handling", ICCV, 2009.   65
隠れに対応した手法 2


      • 距離情報により対象人物よりも前方に存在する物体を障
        害物として検知
      • 隠れ領域を捉える識別器の出力に対して重み付け
                    +1.0




                     0.0                                                      -0.27


                    -1.0
                           0                      500




                    +1.0




                     0.0
                                                                          +15.15


                    -1.0
                           0                      500


池村 他, "距離情報に基づく局所特徴量によるリアルタイム人検出", 信学論, Vol. 93-D, No. 3 pp. 355-364, 2010.           66
識別手法


• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法




                  67
識別手法 -視点の変化への対応-


• 視点の変化 : カメラの俯角に応じて人の見えが変化する

           視点の変化により見えが変化するため,これ以外の
           情報が必要

           → 識別器にて幾何学的な情報を利用,転移学習の導入

視点の変化に対応するために

 幾何学的情報
 どのようにして幾何学的な情報を利用するか


 転移学習の導入
 見えの変動が大きい場合にはシーンに合わせて識別器を最適化


                                   68
視点の変化に対応した手法 1


         • 人検出器とジオメトリ,視点の関係をモデル化
                                               sky


                                                                   Vertical


                                                         Ground
              入力画像                                   P(surfaces)                            P(viewpoint)




              P(object)                         P(object | surfaces)                   P(object | viewpoint)
D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008.                      69
視点の変化に対応した手法 1


         • 人検出器とジオメトリ,視点の関係をモデル化
                                               sky


                                                                   Vertical


                                                         Ground
              入力画像                                   P(surfaces)                            P(viewpoint)




                                                                                 ベイジアンネットにより
                                                                                 人検出器とジオメトリ,視点の
                                                                                 因果関係をモデル化


              P(object)                 P(object | surfaces, viewpoint)
D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008.                  70
検出結果の例




                  Human detector                                                   Full model
                 3 正検出 / 2 誤検出                                                4 正検出 / 0 誤検出


D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008.       71
視点の変化に対応した手法 2


        • 転移学習によるドメイン適応
              ‒ 事前に学習した汎用的な識別器を転移学習により最適化




            元ドメイン                                                                      目標ドメイン



J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.   72
視点の変化に対応した手法 2


        • 転移学習によるドメイン適応
              ‒ 事前に学習した汎用的な識別器を転移学習により最適化




                            元ドメインで選択した特徴量




                                  h1        h2                          hm

                                       Hs
            元ドメイン           元ドメインの強識別器                                                 目標ドメイン



J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.   73
視点の変化に対応した手法 2


        • 転移学習によるドメイン適応
              ‒ 事前に学習した汎用的な識別器を転移学習により最適化
                    • 特徴量の転移 : 選択された特徴量の位置を最適化



                            元ドメインで選択した特徴量




                                  h1        h2                          hm

                                       Hs
            元ドメイン           元ドメインの強識別器                                                 目標ドメイン



J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.   74
視点の変化に対応した手法 2


        • 転移学習によるドメイン適応
              ‒ 事前に学習した汎用的な識別器を転移学習により最適化
                    • 特徴量の転移 : 選択された特徴量の位置を最適化
                    • 識別器の転移 : 選択された識別器の重みを最適化


                            元ドメインで選択した特徴量                    転移された特徴量




                                  h1        h2                          hm

                                       Hs                          Ht
            元ドメイン           元ドメインの強識別器                   目標ドメインの強識別器                   目標ドメイン

             大きな視点の変化による見えの変動を吸収することができる
J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.   75
実用化に向けて検討するべき項目


• 人検出の高速化
• 学習サンプルの収集
• 歪みの除去




                       76
人検出の高速化


• アルゴリズムによる高速化
 ‒ 特徴抽出の高速化
 ‒ 識別の高速化

• ハードウェアによる高速化
 ‒ 専用ハードウェアの利用




                      77
特徴抽出の高速化


        • 積分ヒストグラムによる勾配特徴量の高速演算
              ‒ 事前に積分ヒストグラムを作成
              ‒ 3回の加減算のみで局所領域の勾配和を演算可能
        強度




             1 2 3 4 5 6
                                                               P                                       P
               勾配方向
             領域 P の勾配和
             A+D-B-C                  勾配方向 1 に対応する積分画像                         勾配方向 6 に対応する積分画像




F. Porikli et al. , "Integral Histogram: a Fast Way to Extract Histograms in Cartesian Spaces", CVPR, 2005.   78
識別の高速化


        • カスケード型識別器の採用
               ‒ 複数の識別器を直列に並べる
               ‒ 背景画像を早期棄却できる
                     • 識別の計算回数の減少


                   未知入力画像




                             H1                   H2                 H3   人画像




                                               背景画像


P. Viola et al. , "Robust Real-Time Object Detection", IJCV, 2004.              79
専用ハードウェアの利用


        • GPUによる実装
              ‒ 高速計算が可能なGPUを利用することで高速化
              ‒ 実装方法は試行錯誤
                    • CPU <=> GPUのデータ転送に最も時間がかかる
                    • メモリの使い方が重要
                    • 並列計算

                                   画像の入力                         ダウンサンプリング


                                                                  HOG 特徴量の抽出


                                ウィンドウの統合                           SVM による識別


                                   結果の出力
                                  HOST & CPU                            GPU

                        CPUのみを使用した場合よりも67倍の高速化を実現
V. Prisacariu et al. , "fastHOG - a real-time GPU implementation of HOG", Technical Report Oxford University, 2009. 80
学習サンプルの収集


• 高精度な人検出を実現するためには
 ‒ 大量の学習サンプル : 数千   数万サンプル
 ‒ 良質な学習サンプル : 位置ずれがないサンプル




                             平均勾配画像

                                      81
学習サンプルの収集


        • CGから人画像を自動的に生成




J. Marín et al. , "Learning Appearance in Virtual Scenarios for Pedestrian Detection", CVPR, 2010.   82
歪みの除去


        • 擬似的に平行投影した画像
          から人を検出
              ‒ カメラパラメータ既知
              ‒ 人物は地面に直立している こ
                とを仮定




Y. Li et al. , "Human Detection by Searching in 3D Space Using Camera and Scene Knowledge", ICPR, 2008.   83
人検出技術の実用化の例




       トヨタ自動車                        Mobileye
       ナイトビューシステム                    衝突防止補助システム

2004    2005   2006    2007   2008      2009   2010      2011


本田技研工業                    三栄ハイテックス                    東芝
ナイトビジョンシステム               ODEN (FPGA)                 車載向け画像認識用LSI




                                                                     84
発表の概要


• 人検出法の概要
• 手法
 ‒ 特徴抽出法
 ‒ 識別手法

• 実用化に向けて
• データベースと評価指標
• まとめ




                    85
人画像データベース


   • 人画像とアノテーションファイルが公開されている




                                                                         大規模化,様々な情報が付与される傾向
                      学習用                       評価用
                                                                  発表年
              正規化人画像     背景画像        人画像      正規化人画像     背景画像

   MIT          924           -        -          -        -      1997

   INRIA        2,416       1,218     288       1,132     453     2005

  USC-A           -           -       205       303        -      2005

  USC-B           -           -       54        271        -      2005

Daimler2006    14,400    150,000※      -        1,600    10,000   2006
  USC-C           -           -       100       232        -      2007

   ETH          1578          -      1803       9,380      -      2007

Daimler2009    15,660       6,744    21,800    56,492      -      2009

  NICTA        18,700       5,200※     -        6,900    50,000   2008

   TUD          400           -       250       311        -      2008

  Caltech      192,000      61,000   56,000    155,000   5,600    2009
                                     ※は一定のサイズで切り出された画像を表わす
                                                                                              86
INRIA Person Dataset (2006年)


        • 人検出の分野で最も使用されているデータベース




URL : http://pascal.inrialpes.fr/data/human/
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005.   87
Caltech Pedestrian Database (2009年)


        • 2009年以降は本データベースにて評価する論文が急増
        • 様々な情報が付与
              ‒ 人領域の隠れ,時系列の映像が使用可




URL : http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/index.html
P. Dollár et al. , "Pedestrian Detection: A Benchmark", CVPR, 2009.                88
評価指標


• 手法の性能を測るために未検出率と誤検出率を比較
 1. Miss Rate VS False Positive Per Window (FPPW)
    • 1検出ウィンドウあたりの誤検出した率
    • 検出ウィンドウの統合処理を含まない

 2. Miss Rate VS False Positive Per Image (FPPI)
    • 1枚の画像あたりの誤検出した数
    • 検出ウィンドウの統合処理を含む


   検出器の性能が直感的に把握できるため,
近年ではMiss Rate VS FPPIにより評価する論文が多い

                                                    89
人検出法の比較


         • DETカーブによる比較
               ‒ 横軸に誤検出率,縦軸に未検出率
               ‒ 識別器の閾値を変えた際の誤検出率と未検出率をプロット
               ‒ グラフの左下に位置するDETカーブほど性能が高い

                                                                  多数(勾配特徴量+α)を利用している


                                                                         様々な条件下で手法を評価
                                                                          - 人画像のスケール
                                                                          - 人領域の隠れの有無
                                                                          - 処理時間


P. Dollár et al. , "Pedestrian Detection : An Evaluation of the State of the Art", PAMI, 2009.   90
まとめ


• 統計的学習手法による人検出法のサーベイ
 ‒ 特徴抽出
   • 人と背景を区別するための情報を持つ特徴量の設計
  → 人らしさを捉える,複雑な背景に対応可能


 ‒ 識別手法
   • モデル化可能な要因を吸収できる識別器の構造
  → 向きの変化,姿勢の変化,人領域の隠れ,視点の変化に対応可能




                                    91
最新の研究動向と社会情勢からみる人検出


• CVPR2012からの傾向
 ‒ 検出したいシーンに合わせて識別器を最適化 3件
 ‒ 隠れに対応した人検出法 1件
 ‒ リアルタイム人検出法 1件
     → より実用的な問題を解決するような研究


• 社会情勢からの傾向
 ‒ EURO NCAP (http://www.euroncap.com)
    ‒ 自動車の安全性を測るテスト
       ‒ パッシブセーフティ機能による歩行者保護性能カテゴリ
    ‒ 消費者は評価を見て車を購入
     → 人検出がデファクトスタンダードとなる
                                         92

More Related Content

What's hot

Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量についてla_flance
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法Takao Yamanaka
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-Hirokatsu Kataoka
 
CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算sleepy_yoshi
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic SegmentationDeep Learning JP
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMIwami Kazuya
 
ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築Yoshitaka HARA
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)Tomohiro Motoda
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...Deep Learning JP
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類Tsubasa Hirakawa
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)Deep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 

What's hot (20)

Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
 
ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
 
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 

Viewers also liked

"Challenges in Object Detection on Embedded Devices," a Presentation from CEVA
"Challenges in Object Detection on Embedded Devices," a Presentation from CEVA"Challenges in Object Detection on Embedded Devices," a Presentation from CEVA
"Challenges in Object Detection on Embedded Devices," a Presentation from CEVAEdge AI and Vision Alliance
 
効果が出る「仕事の教え方」
効果が出る「仕事の教え方」効果が出る「仕事の教え方」
効果が出る「仕事の教え方」Mariko Hayashi
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFAShohei Hido
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 
Pythonを使った機械学習の学習
Pythonを使った機械学習の学習Pythonを使った機械学習の学習
Pythonを使った機械学習の学習Kimikazu Kato
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピTakahiro Kubo
 

Viewers also liked (6)

"Challenges in Object Detection on Embedded Devices," a Presentation from CEVA
"Challenges in Object Detection on Embedded Devices," a Presentation from CEVA"Challenges in Object Detection on Embedded Devices," a Presentation from CEVA
"Challenges in Object Detection on Embedded Devices," a Presentation from CEVA
 
効果が出る「仕事の教え方」
効果が出る「仕事の教え方」効果が出る「仕事の教え方」
効果が出る「仕事の教え方」
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
Pythonを使った機械学習の学習
Pythonを使った機械学習の学習Pythonを使った機械学習の学習
Pythonを使った機械学習の学習
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 

More from Hironobu Fujiyoshi

MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開Hironobu Fujiyoshi
 
知識転移グラフによる複数ネットワークの 共同学習
知識転移グラフによる複数ネットワークの 共同学習知識転移グラフによる複数ネットワークの 共同学習
知識転移グラフによる複数ネットワークの 共同学習Hironobu Fujiyoshi
 
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」Hironobu Fujiyoshi
 
第6回 京都大学-稲盛財団合同京都賞シンポジウム
第6回 京都大学-稲盛財団合同京都賞シンポジウム第6回 京都大学-稲盛財団合同京都賞シンポジウム
第6回 京都大学-稲盛財団合同京都賞シンポジウムHironobu Fujiyoshi
 
エッジにおける深層学習の推論処理の効率化
エッジにおける深層学習の推論処理の効率化エッジにおける深層学習の推論処理の効率化
エッジにおける深層学習の推論処理の効率化Hironobu Fujiyoshi
 
画像認識における特徴表現 -SSII技術マップの再考-
画像認識における特徴表現 -SSII技術マップの再考-画像認識における特徴表現 -SSII技術マップの再考-
画像認識における特徴表現 -SSII技術マップの再考-Hironobu Fujiyoshi
 
Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3 Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3 Hironobu Fujiyoshi
 
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)Hironobu Fujiyoshi
 
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識Hironobu Fujiyoshi
 
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -Hironobu Fujiyoshi
 
VIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object RecognitionVIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object RecognitionHironobu Fujiyoshi
 
Problem Based Learning with LEGO Mindstorms
Problem Based Learning with LEGO MindstormsProblem Based Learning with LEGO Mindstorms
Problem Based Learning with LEGO MindstormsHironobu Fujiyoshi
 
チュートリアルのススメ -チュートリアルのためのチュートリアル-
チュートリアルのススメ -チュートリアルのためのチュートリアル-チュートリアルのススメ -チュートリアルのためのチュートリアル-
チュートリアルのススメ -チュートリアルのためのチュートリアル-Hironobu Fujiyoshi
 
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Hironobu Fujiyoshi
 
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-Hironobu Fujiyoshi
 
藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」Hironobu Fujiyoshi
 

More from Hironobu Fujiyoshi (18)

MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
 
知識転移グラフによる複数ネットワークの 共同学習
知識転移グラフによる複数ネットワークの 共同学習知識転移グラフによる複数ネットワークの 共同学習
知識転移グラフによる複数ネットワークの 共同学習
 
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
 
第6回 京都大学-稲盛財団合同京都賞シンポジウム
第6回 京都大学-稲盛財団合同京都賞シンポジウム第6回 京都大学-稲盛財団合同京都賞シンポジウム
第6回 京都大学-稲盛財団合同京都賞シンポジウム
 
エッジにおける深層学習の推論処理の効率化
エッジにおける深層学習の推論処理の効率化エッジにおける深層学習の推論処理の効率化
エッジにおける深層学習の推論処理の効率化
 
画像認識における特徴表現 -SSII技術マップの再考-
画像認識における特徴表現 -SSII技術マップの再考-画像認識における特徴表現 -SSII技術マップの再考-
画像認識における特徴表現 -SSII技術マップの再考-
 
Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3 Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3
 
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
 
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
 
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
 
VIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object RecognitionVIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object Recognition
 
Problem Based Learning with LEGO Mindstorms
Problem Based Learning with LEGO MindstormsProblem Based Learning with LEGO Mindstorms
Problem Based Learning with LEGO Mindstorms
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
チュートリアルのススメ -チュートリアルのためのチュートリアル-
チュートリアルのススメ -チュートリアルのためのチュートリアル-チュートリアルのススメ -チュートリアルのためのチュートリアル-
チュートリアルのススメ -チュートリアルのためのチュートリアル-
 
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
 
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
 
藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」
 
ICCV2011 report
ICCV2011 reportICCV2011 report
ICCV2011 report
 

Recently uploaded

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (10)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

統計的学習手法よる人検出

  • 1. [サーベイ報告] 統計的学習手法による人検出 2012年11月17日 第21回 名古屋CV•PRML勉強会 山内悠嗣, 藤吉弘亘 中部大学 http://www.vision.cs.chubu.ac.jp/CVTutorial/PPT/HumanDetectionSurvey.pdf
  • 2. 発表の概要 • 人検出法の概要 • 特徴抽出法 • 識別手法 • 実用化に向けて • データベースと評価指標 • まとめ 2
  • 3. 人検出(物体検出)とは? Find all the Xs  = 物体検出 X = face X = human X = car 画像中に含まれる特定の物体(顔、人、車など)をすべて検出 3
  • 4. 物体検出の変遷 顔検出 人検出 1969 年 Sakai 1969年 顔検出に関する初めての研究 1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung 1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出 1997 年 Osuna SVM による顔検出 1994年 1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出 2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990. 2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年 2002 年 統計的学習手法の利用 2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996. 2004 年 2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu 2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出 2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出 2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年 2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005. 2011 年 4
  • 5. 物体検出の変遷 顔検出 人検出 1969 年 Sakai 1969年 顔検出に関する初めての研究 1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung 1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出 1997 年 Osuna SVM による顔検出 1994年 1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出 2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990. 2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年 2002 年 統計的学習手法の利用 2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996. 2004 年 2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu 2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出 2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出 2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年 2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005. 2011 年 5
  • 6. 物体検出の変遷 顔検出 人検出 1969 年 Sakai 1969年 顔検出に関する初めての研究 1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung 1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出 1997 年 Osuna SVM による顔検出 1994年 1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出 2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990. 2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年 2002 年 統計的学習手法の利用 2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996. 2004 年 2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu 2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出 2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出 2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年 2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005. 2011 年 6
  • 7. 物体検出の変遷 顔検出 人検出 1969 年 Sakai 1969年 顔検出に関する初めての研究 1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung 1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出 1997 年 Osuna SVM による顔検出 1994年 1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出 2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990. 2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年 2002 年 統計的学習手法の利用 2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996. 2004 年 2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu 2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出 2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出 2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年 2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005. 2011 年 7
  • 8. 物体検出の変遷 顔検出 人検出 1969 年 Sakai 1969年 顔検出に関する初めての研究 1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung 1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出 1997 年 Osuna SVM による顔検出 1994年 1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出 2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990. 2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年 2002 年 統計的学習手法の利用 2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996. 2004 年 2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu 2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出 2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出 2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年 2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005. 2011 年 8
  • 9. 人検出の難しさ 見えの個体差 複雑な背景 向きの変化 姿勢の変化 人領域の隠れ 視点の変化 様々な要因が同時発生して見えの変動が大きいため、困難な問題 9
  • 10. 物体検出手法の分類 物体検出 知識を利用する手法 統計的学習手法を利用する手法 - 標準的な顔の目や口の位置関係 - 大量の学習データにより,物体の - 顔の色やエッジ,テクスチャ等の アピアランス変化を考慮した 特徴をルールとして定義 モデルを定義 近年は統計的学習手法を利用するアプローチが多い 10
  • 11. 統計的学習手法による物体検出の流れ オ フ 統 計 ラ 人の学習サンプル 特 徴 的 抽 学 イ 出 習 手 ン 法 処 理 人以外の学習サンプル 統計的学習手法による識別器の学習 特 徴 人以外 抽 オ 出 ン ラ 特 徴 識 識別結果の統合前 別 人 イ 抽 出 器 識 別 ン 結 果 処 特 の 徴 統 理 抽 人 合 出 処 理 識別器による人画像の識別 識別結果の統合結果 検出器 11
  • 12. 統計的学習手法による学習の流れ • オフライン処理 ‒ 大量の学習サンプルから統計的学習手法により識別器を学習 統 特 計 人の学習サンプル 徴 的 識 抽 学 別 出 習 器 手 法 ex. SVM AdaBoost 人以外の学習サンプル 12
  • 13. 学習と検出の流れ • オンライン処理 ‒ 検出ウィンドウのラスタスキャン後,識別結果を統合 特 徴 人以外 抽 出 特 徴 識 識別結果の統合前 抽 別 人 出 器 識 別 結 果 特 の 徴 人 統 抽 合 出 処 理 識別結果の統合結果 識別器による人画像の識別 検出器 13
  • 14. 人検出の難しさへの対応方法 見えの個体差 複雑な背景 向きの変化 姿勢の変化 人領域の隠れ 視点の変化 ポイント  ・様々な変化に頑健な特徴抽出と識別器を実現するか? 14
  • 15. 人検出を困難にする要因と対応策 対応策 要因 代表的な手法 特徴量 識別器 勾配,色, 見えの個体差 ­ HOG, CSS, HOF 動き,距離 Joint Haar-like, CoHOG, 複雑な背景 特徴量の共起 ­ Joint HOG 向きの変化 ­ 複数の識別器 Cluster Boosted Tree Deformable parts model, 姿勢の変化 ­ パーツベース Hough Forest グローバル及びパーツベース識別 人領域の隠れ ­ 隠れの推定 器の組合わせ シーンのモデリング,    視点の変化 ­ 幾何学情報の利用 転移学習 15
  • 16. 発表の概要 • 人検出法の概要 • 特徴抽出法 • 識別手法 • 実用化に向けて • データベースと評価指標 • まとめ 16
  • 17. 特徴抽出法のサーベイ • 人らしさを捉える局所特徴量 ‒ 勾配情報に基づく特徴量 ‒ 色情報に基づく特徴量 ‒ 動きに基づく特徴量 ‒ 距離に基づく特徴量 • 人の構造を捉える特徴量 ‒ 統計的学習手法を用いない特徴量間の共起 ‒ 統計的学習手法を用いた特徴量間の共起 17
  • 18. 特徴抽出法 -人らしさを捉える局所特徴量- • 見えの個体差:衣服・体格によりアピアランスが異なる 見えの変動を最小現に抑える人らしさを捉える 特徴量”を設計する必要がある 人らしさを捉える特徴量 勾配情報ベース 色情報ベース 動きベース 距離ベース 18
  • 19. 勾配に基づく特徴抽出 EOH(Edge of Orientation Histograms) Edgelet 局所的な勾配方向の比を捉える 局所領域に含まれる特定形状を捉える  −少ない枚数で検出器を実現  −Boostingとの組み合せて高い識別率を実現 K. Levi, CVPR 2004. B. Wu, CVPR 2005. LBP(Local Binary Pattern) HOG(Histograms of Oriented Gradients) 局所領域に含まれる勾配分布を捉える 局所的な輝度の分布をバイナリコードとして捉える  −高い識別率を実現し、よく利用されている  −顔認識等でも幅広く利用  −派生した特徴量が多数:EHOG, C-HOGなど Y. D. Mu, CVPR 2008. N. Dalal, CVPR 2005. 19
  • 20. 勾配に基づく特徴抽出 1 • EOH(Edge of Orientation Histograms) ‒ 局所領域から得られる勾配ヒストグラムの比率を特徴量とする 少ない学習サンプルで高精度な識別器を学習可能 K. Levi et al. , "Learning Object Detection from a Small Number of Examples: the Importance of Good Features", CVPR, 2004. 20
  • 21. 勾配に基づく特徴抽出 2 • Edgelet ‒ 局所領域に含まれる特定形状を捉える • 直線性,円弧,対称性 Boostingと組み合せて高い識別率を実現 B. Wu et al. , "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors", CVPR, 2005. 21
  • 22. 勾配に基づく特徴抽出 3 • LBP(Local Binary Pattern) ‒ 注目画素と近傍画素の輝度の大小関係を表現 ‒ 局所領域におけるバイナリパターンをヒストグラム化 100 220 80 0 1 0 100 110 150 0 1 80 90 100 0 0 0 00000000 11111111 50 75 105 0 0 1 255 95 200 1 1 220 180 80 1 1 0 入力画像 3x3 画素 LBP ヒストグラム 局所的な輝度の分布をバイナリコードとして捉える Y. D. Mu et al. , "Discriminative Local Binary Patterns for Human Detection in Personal Album", CVPR, 2008. 22
  • 23. 勾配に基づく特徴抽出 4 • HOG(Histograms of Oriented Gradients) ‒ 局所領域に含まれる勾配分布を捉える 人検出の分野ではデファクトスタンダードな特徴量 派生した特徴量が多数提案 : EHOG,C-HOG,P-HOG N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 23
  • 24. 色情報に基づく特徴抽出 1 • Integral Channel Features (ICF) ‒ 輝度,色,勾配などの特徴量を併用 • 特徴量 : 局所領域の画素値の和 ‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用 色は人の衣服に左右されるため悪影響の可能性がある P. Dollár et al. , "Integral Channel Features", BMVC, 2009. 24
  • 25. 色情報に基づく特徴抽出 1 • Integral Channel Features (ICF) Uチャンネルの ‒ 輝度,色,勾配などの特徴量を併用 顔が一番強い • 特徴量 : 局所領域の画素値の和 ‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用 全弱識別器の可視化 P. Dollár et al. , "Integral Channel Features", BMVC, 2009. 25
  • 26. 色情報に基づく特徴抽出 2 • Color Self-Similarity (CSS) ‒ 2つの局所領域から得られる色ヒストグラムの類似度を      特徴量として利用 ‒ 2つの局所領域が同一部位かどうかを暗に表現 頻度 } } } H S V 類似度 S 頻度 } } } H S V 入力画像 セルC (8 8ピクセル) 色ヒストグラム p 色情報に対する依存がないため,人検出に色情報を有効活用できる S. Walk et al. , "New Features and Insights for Pedestrian Detection", CVPR, 2010. 26
  • 28. 空間的変化を捉える特徴量 • 背景差分により得られる前景領域を捉える ‒ 背景差分をベースとした手法により前景領域の確率を算出 固定カメラに限定 J. Yao et al. , "Fast Human Detection from Videos Using Covariance Features", Visual Surveillance, 2008. 28
  • 29. 時間的変化を捉える特徴量 1 • モーションフィルタ(Haar-like) ‒ 2フレーム間の動きを3つのモーションフィルタで捉える • 時間的な移動 : フレーム間差分 • 擬似的な移動 : 1フレーム目を擬似的に上下左右に1ピクセル移動 • 擬似的な移動の差 : フレーム間差分 - 擬似的な移動 低解像度画像 (20 x 15画素)に適応可能 P. Viola et al. , "Detecting Pedestrians Using Patterns of Motion and Appearance", ICCV, 2003. 29
  • 30. 時間的変化を捉える特徴量 2 • Histograms of Flow (HOF) ‒ 2つの特徴表現 • オプティカルフローをHOG特徴量(HOF)のように表現 • 近傍のオプティカルフローヒストグラムとの差を特徴量として表現 t, t+1フレームの画像 フローとその境界 フローから得られる勾配 平均勾配画像 相対的な動きを観測 → 移動カメラへ適応可能 N. Dalal et al. , "Human Detection Using Oriented Histograms of Flow and Appearance", ECCV, 2006. 30
  • 31. 時空間変化を捉える特徴量 • ST-Patch ‒ 局所領域内の空間方向の勾配,時間方向の勾配の大きさを捉える • 局所的な領域の見えと動きを表現 ST-Patch 村井 他 , "Space-Time Patchを用いた物体の移動方向識別とセグメンテーション", 情報処理学会論文誌, 2008. 31
  • 32. 距離に基づく特徴量 距離画像計測デバイス / h 1 (S 64000) S 22 ( - ) + / h 2 ( S 22 ) S 1530 ( - ) + + h100 (Occlusion) S 64000( - ) + TOF TOFカメラ Microsoft Kinect Real AdaBoost RDSF(Relational Depth Similarity Feature) 局所領域間の距離の差を捉える 人−人:距離差は小 人−背景:距離差は大 0 m] 7.5 Bhattacharyya 0 7.5 m] 距離画像により背景テクスチャの影響を受けない 池村 他 , "距離情報に基づく局所特徴量によるリアルタイム人検出", 電子情報通信学会論文誌, 2010. 32
  • 33. 特徴抽出法のサーベイ • 人らしさを捉える局所特徴量 ‒ 勾配情報に基づく特徴量 ‒ 色情報に基づく特徴量 ‒ 動きに基づく特徴量 ‒ 距離に基づく特徴量 • 人の構造を捉える特徴量 ‒ 統計的学習手法を用いない特徴量間の共起 ‒ 統計的学習手法を用いた特徴量間の共起 33
  • 34. 特徴抽出法 -人の構造を捉える特徴量- • 複雑背景:(局所領域でみると)人に似た領域がある 複雑背景への誤検出を抑える人の構造を 捉える特徴量”を設計する必要あり 共起表現 人の構造を捉える特徴量 統計的学習手法を用いない特徴量間の共起 統計的学習手法を用いた特徴量間の共起 34
  • 35. 統計的学習手法を用いない特徴量間の共起 • CoHOG(Co-occurrence HOG) ‒ 局所領域内の勾配のペアを累積した同時生起行列 ‒ 2カ所の局所領域の勾配と勾配の関係性を表現することで     人の形状の構造を捉えられる T. Watanabe et al. , "Co-occurrence Histograms of Oriented Gradients for Human Detection", IPSJ Trans. on CVA, 2010. 35
  • 36. 統計的学習手法を用いる特徴量間の共起 1 • Shapelet ‒ 1段階目 : 4方向エッジとBoostingによりShapeletを生成 ‒ 2段階目 : ShapeletとBoostingにより識別器を学習 AdaBoost AdaBoost AdaBoost 識別器 AdaBoost 入力画像と 4 方向エッジの算出 1 段階目の AdaBoost Shapelet 特徴量 2 段階目の AdaBoost Boostingにより識別に有効な局所領域内のエッジを捉える P. Sabzmeydani et al. , "Detecting Pedestrians by Learning Shapelet Features", CVPR, 2007. 36
  • 37. 統計的学習手法を用いる特徴量間の共起 2 • Joint HOG ‒ 1段階目 : 2つのHOGとBoostingによりJoint HOGを生成 ‒ 2段階目 : Joint HOGとBoostingにより識別器を学習 Boostingにより識別に有効な局所領域の関係性を捉える 三井 他 , "Joint特徴量を用いた2段階Boostingによる物体検出", 電子情報通信学会, 2009. 37
  • 38. 特徴抽出のまとめ 特徴量 長所 短所 人らしさを 勾配情報ベース EOH,Edgelet 人の特徴をよく表現できる テクスチャの影響を受ける 捉える特徴 HOG, LBP (服の模様など) 量 色情報ベース ICF エッジが明確でない画像から 計算コストが大きい CSS も有効な特徴が抽出できる 動き情報ベース 前景尤度 テクスチャの影響を受けない 連続した複数枚の画像が  HOF 必要 距離情報ベース RDSF テクスチャの影響を受けない 特殊なデバイスが必要 距離差分 人の形状を明確に捉えられる  画角,距離に制限がある 人の構造を 全ての共起を利 CoHOG 人に似た背景の誤検出を抑制 特徴量によっては学習時に 捉える特徴 用 できる 大量のメモリが必要 量 有効な共起を選 Joint HOG 人に似た背景の誤検出を抑制 学習に多大な時間がかかる 択 Shapelet できる 38
  • 39. 特徴抽出と識別手法 人検出器 向き変化 特徴抽出 個体差 識別手法 姿勢変化 複雑な背景 隠れ 視点変化 人らしさを 人に共通する要素を どのように表現するか どのように見つけるか 39
  • 40. 識別手法 • 向きの変化に対応した手法 • 姿勢の変化に対応した手法 • 人領域の隠れに対応した手法 • 視点の変化に対応した手法 40
  • 41. 識別手法 - 向きの変化への対応- • 向きの変化 : 人とカメラの位置関係により見えが異なる 人の向きに左右されない識別器を学習する必要 → 各々の向きに対応した複数の識別器により対応 向きの変化に対応した手法 向きのラベルを必要とする手法 人手で付与した向きのラベルを持つサンプル毎により識別器を学習 向きのラベルを必要としない手法 統計的学習手法によりクラスタリングされたサンプルにより識別器を学習 41
  • 42. 向きのラベルを必要とする手法 1 • 角度推定器と識別器の二段階の構成 ‒ ルータにより顔の回転角を推定 ‒ 推定された回転角に合わせて回転した画像を識別 ルータによる回転角の推定 識別器による人と背景の識別 向きに対しても同様のアプローチで解ける H. Rowley, et al. , "Rotation Invariant Neural Network-Based Face Detection", CVPR, 1998. 42
  • 43. 向きのラベルを必要とする手法 2 • 多クラス識別器の利用(Vector Boosting) ‒ 多クラス識別 : 分岐関数までの識別器(FLR1, ..., FLRN-1) ‒ 向き分類器 : 分岐関数(FLRN) ‒ 2クラス識別 : 分岐関数以降の識別器(Ln, Fn, Rn) 人と背景を識別 向き分類器 それぞれの向きの人と背景を識別 C. Hou, et al. , "Multiview Pedestrian Detection Based on Vector Boosting", ACCV, 2007. 43
  • 45. 向きのラベルを必要としない手法 1 • 分割統治法による識別器の学習 ‒ 解決が困難な問題を小さな問題に分割して解く ‒ サンプルを分割し,サブクラスを考慮した2クラス識別器を学習 左向き サブクラス1 識別器 1 分割統治法による学習 学習サンプル クラスタリング サブクラス2 識別器 2 正面 サブクラス3 識別器 3 右向き 土屋 他 , "Boostingに基づく分割統治的戦略による高精度な識別器構築手法, 信学論, Vol. 95-D, No. 3 pp. 656-665, 2012 45
  • 46. 向きのラベルを必要としない手法 2 • Cluster Boosted Tree (CVT) ‒ 逐次的に識別器の学習とサンプルのクラスタリングを行う ‒ 向き毎の強識別器Hは,弱識別器hを共有 識別が容易となるようにサンプルを自動的に分割 B. Wu, et al. , "Cluster Boosted Tree Classifier for Multi-View, Multi-Pose Object Detection", ICCV, 2007. 46
  • 47. 識別手法 • 向きの変化に対応した手法 • 姿勢の変化に対応した手法 • 人領域の隠れに対応した手法 • 視点の変化に対応した手法 47
  • 48. 識別手法 - 姿勢の変化への対応 - • 姿勢の変化 : 人のとる姿勢により人の見え方が変化する 人の姿勢の変化に対応可能な構造を持つ識別器が必要 → 姿勢の変化による見えの変動が少ないパーツを 検出し,パーツの関係性を捉える 姿勢の変化に対応するための重要な点 パーツの定義 如何に人の見えの変動が少ないようなパーツに定義するか パーツの統合方法 検出したパーツをどのように統合して人と背景を識別するか 48
  • 49. パーツの定義方法 ルールベース 画像の位置 研究者が定義したルールで分割 画像の位置で分割 •適応的にパーツを分割できる •パーツのラベル付けコスト小 •最適なパーツの定義が必要 •適応的にパーツを分割できない •パーツのラベル付けのコスト大 •最適なパーツの定義が必要 •微小な位置ずれが含まれる 特徴点ベース 統計的アプローチ 特徴点を中心とした小領域 関節位置のずれが学習 サンプルで最小となる領域 •パーツのラベル付けコストがない •検出に適したパーツを •人領域以外からも検出される 自動的に決定 •関節位置の付与コスト poselet パーツの定義に合わせて,適切なパーツの統合方法を採用することが重要 49
  • 50. パーツの統合方法 • 識別器によるパーツの統合 ‒ Adaptive Combination of Classifier ‒ Multiple Instance Boosting • グラフモデルによるパーツの統合 ‒ Deformable Parts Model • 投票処理によるパーツの統合 ‒ Implicit Shape Model ‒ Hough Forests 50
  • 51. 識別器によるパーツの統合 1 • Adaptive Combination of Classifier (ACC) ‒ 1段階目 : SVMにより各パーツを検出 ‒ 2段階目 : 1段階目の識別結果を入力し,人と背景の判別 SVM SVM SVM SVM SVM 入力画像 各パーツの探索領域 パーツの識別 識別結果 パーツの統合 識別結果 各パーツの位置や大きさの変動を吸収できるため,姿勢の変化に対して頑健 A. Mohan, et al. , "Example-Based Object Detection in Images by Components", PAMI, 2001. 51
  • 52. 識別器によるパーツの統合 2 • Multiple Instance Learning(MIL)の適用 ‒ 幾つかの事例の集合であるbagに対して付与されているラベルに 基づき学習する方法 例) 予め定義した頭部の位置周辺を適当にサンプリングしてbagとする   MILを導入したBoostingにより識別器を学習 頭部 胴体 足 パーツの情報(部位,位置,大きさ)が不要 P. Viola, et al. , "Multiple Instance Boosting for Object Detection", NIPS, 2006. Y. Chen, et al. , "Multi-Class Multi-Instance Boosting for Part-Based Human Detection", Visual Surveillance, 2009. 52
  • 53. グラフモデルによるパーツの統合 1 • Deformable parts model ‒ 人の全身とパーツの見えと位置の関係性をモデル化 ‒ モデルをLatent SVMにより学習 ルートフィルタの見え パーツフィルタの見え パーツフィルタの位置関係 頭部 右胴 左胴 全身 右手 左手 脚部 k-fanモデル (k=1) 検出例 ルートフィルタ パーツフィルタ パーツの変動範囲 P. Felzenszwalb, et al. , "Object Detection with Discriminatively Trained Part Based Models", PAMI, 2009. 53
  • 61. 投票処理によるパーツの統合 1 • Implicit Shape Model (ISM) 1. コーナー点を中心とした小領域をパッチとして抽出 2. パッチの輝度情報を基にベクトル量子化 3. コードブックを基に人の重心位置へ投票 4. 投票点をクラスタリングすることで物体を検出 B. Leibe, et al. , "Robust Object Detection with Interleaved Categorization and Segmentation", IJCV, 2008. 61
  • 62. 投票処理によるパーツの統合 2 • Hough Forests ‒ パッチの識別にRandom Forestsを利用 ‒ 分岐関数にて下記の2点を考慮 • 人と背景の分けやすさ • パッチの位置 入力画像 パッチの抽出 Random Forests による識別 重心位置への投票 人の尤度 オフセット量 投票処理 識別に判別モデルを導入することでパッチの識別性能が向上 J. Gall, et al. , "Class-Specific Hough Forests for Object Detection", CVPR, 2009. 62
  • 63. 識別手法 • 向きの変化に対応した手法 • 姿勢の変化に対応した手法 • 人領域の隠れに対応した手法 • 視点の変化に対応した手法 63
  • 64. 識別手法 -人領域の隠れへの対応- • 人領域の隠れ : 人画像が部分的に欠損する 隠れた領域を考慮する識別器が必要 → 識別器に隠れ予測モデルを導入して隠れ領域を考慮 隠れ領域に対応した人検出を行う上での重要な点 隠れの推定 如何に隠れ領域を推定するか 隠れ領域を考慮した識別 推定した隠れ領域をどのように考慮して識別するか 64
  • 65. 隠れに対応した手法 1 • 局所領域毎に隠れ識別器を学習 • 隠れ識別器の結果をクラスタリングすることで隠れ領域 を推定 • 隠れの影響を受けにくい検出器(上半身,下半身等)を適用 人領域 隠れ領域 入力画像 隠れ推定 セグメンテーション 隠れなしと判定 X. Wang, et al. , "An HOG-LBP Human Detector with Partial Occlusion Handling", ICCV, 2009. 65
  • 66. 隠れに対応した手法 2 • 距離情報により対象人物よりも前方に存在する物体を障 害物として検知 • 隠れ領域を捉える識別器の出力に対して重み付け +1.0 0.0 -0.27 -1.0 0 500 +1.0 0.0 +15.15 -1.0 0 500 池村 他, "距離情報に基づく局所特徴量によるリアルタイム人検出", 信学論, Vol. 93-D, No. 3 pp. 355-364, 2010. 66
  • 67. 識別手法 • 向きの変化に対応した手法 • 姿勢の変化に対応した手法 • 人領域の隠れに対応した手法 • 視点の変化に対応した手法 67
  • 68. 識別手法 -視点の変化への対応- • 視点の変化 : カメラの俯角に応じて人の見えが変化する 視点の変化により見えが変化するため,これ以外の 情報が必要 → 識別器にて幾何学的な情報を利用,転移学習の導入 視点の変化に対応するために 幾何学的情報 どのようにして幾何学的な情報を利用するか 転移学習の導入 見えの変動が大きい場合にはシーンに合わせて識別器を最適化 68
  • 69. 視点の変化に対応した手法 1 • 人検出器とジオメトリ,視点の関係をモデル化 sky Vertical Ground 入力画像 P(surfaces) P(viewpoint) P(object) P(object | surfaces) P(object | viewpoint) D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 69
  • 70. 視点の変化に対応した手法 1 • 人検出器とジオメトリ,視点の関係をモデル化 sky Vertical Ground 入力画像 P(surfaces) P(viewpoint) ベイジアンネットにより 人検出器とジオメトリ,視点の 因果関係をモデル化 P(object) P(object | surfaces, viewpoint) D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 70
  • 71. 検出結果の例 Human detector Full model 3 正検出 / 2 誤検出 4 正検出 / 0 誤検出 D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 71
  • 72. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 元ドメイン 目標ドメイン J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 72
  • 73. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 元ドメインで選択した特徴量 h1 h2 hm Hs 元ドメイン 元ドメインの強識別器 目標ドメイン J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 73
  • 74. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 • 特徴量の転移 : 選択された特徴量の位置を最適化 元ドメインで選択した特徴量 h1 h2 hm Hs 元ドメイン 元ドメインの強識別器 目標ドメイン J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 74
  • 75. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 • 特徴量の転移 : 選択された特徴量の位置を最適化 • 識別器の転移 : 選択された識別器の重みを最適化 元ドメインで選択した特徴量 転移された特徴量 h1 h2 hm Hs Ht 元ドメイン 元ドメインの強識別器 目標ドメインの強識別器 目標ドメイン 大きな視点の変化による見えの変動を吸収することができる J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 75
  • 77. 人検出の高速化 • アルゴリズムによる高速化 ‒ 特徴抽出の高速化 ‒ 識別の高速化 • ハードウェアによる高速化 ‒ 専用ハードウェアの利用 77
  • 78. 特徴抽出の高速化 • 積分ヒストグラムによる勾配特徴量の高速演算 ‒ 事前に積分ヒストグラムを作成 ‒ 3回の加減算のみで局所領域の勾配和を演算可能 強度 1 2 3 4 5 6 P P 勾配方向 領域 P の勾配和 A+D-B-C 勾配方向 1 に対応する積分画像 勾配方向 6 に対応する積分画像 F. Porikli et al. , "Integral Histogram: a Fast Way to Extract Histograms in Cartesian Spaces", CVPR, 2005. 78
  • 79. 識別の高速化 • カスケード型識別器の採用 ‒ 複数の識別器を直列に並べる ‒ 背景画像を早期棄却できる • 識別の計算回数の減少 未知入力画像 H1 H2 H3 人画像 背景画像 P. Viola et al. , "Robust Real-Time Object Detection", IJCV, 2004. 79
  • 80. 専用ハードウェアの利用 • GPUによる実装 ‒ 高速計算が可能なGPUを利用することで高速化 ‒ 実装方法は試行錯誤 • CPU <=> GPUのデータ転送に最も時間がかかる • メモリの使い方が重要 • 並列計算 画像の入力 ダウンサンプリング HOG 特徴量の抽出 ウィンドウの統合 SVM による識別 結果の出力 HOST & CPU GPU CPUのみを使用した場合よりも67倍の高速化を実現 V. Prisacariu et al. , "fastHOG - a real-time GPU implementation of HOG", Technical Report Oxford University, 2009. 80
  • 81. 学習サンプルの収集 • 高精度な人検出を実現するためには ‒ 大量の学習サンプル : 数千 数万サンプル ‒ 良質な学習サンプル : 位置ずれがないサンプル 平均勾配画像 81
  • 82. 学習サンプルの収集 • CGから人画像を自動的に生成 J. Marín et al. , "Learning Appearance in Virtual Scenarios for Pedestrian Detection", CVPR, 2010. 82
  • 83. 歪みの除去 • 擬似的に平行投影した画像 から人を検出 ‒ カメラパラメータ既知 ‒ 人物は地面に直立している こ とを仮定 Y. Li et al. , "Human Detection by Searching in 3D Space Using Camera and Scene Knowledge", ICPR, 2008. 83
  • 84. 人検出技術の実用化の例 トヨタ自動車 Mobileye ナイトビューシステム 衝突防止補助システム 2004 2005 2006 2007 2008 2009 2010 2011 本田技研工業 三栄ハイテックス 東芝 ナイトビジョンシステム ODEN (FPGA) 車載向け画像認識用LSI 84
  • 85. 発表の概要 • 人検出法の概要 • 手法 ‒ 特徴抽出法 ‒ 識別手法 • 実用化に向けて • データベースと評価指標 • まとめ 85
  • 86. 人画像データベース • 人画像とアノテーションファイルが公開されている 大規模化,様々な情報が付与される傾向 学習用 評価用 発表年 正規化人画像 背景画像 人画像 正規化人画像 背景画像 MIT 924 - - - - 1997 INRIA 2,416 1,218 288 1,132 453 2005 USC-A - - 205 303 - 2005 USC-B - - 54 271 - 2005 Daimler2006 14,400 150,000※ - 1,600 10,000 2006 USC-C - - 100 232 - 2007 ETH 1578 - 1803 9,380 - 2007 Daimler2009 15,660 6,744 21,800 56,492 - 2009 NICTA 18,700 5,200※ - 6,900 50,000 2008 TUD 400 - 250 311 - 2008 Caltech 192,000 61,000 56,000 155,000 5,600 2009 ※は一定のサイズで切り出された画像を表わす 86
  • 87. INRIA Person Dataset (2006年) • 人検出の分野で最も使用されているデータベース URL : http://pascal.inrialpes.fr/data/human/ N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 87
  • 88. Caltech Pedestrian Database (2009年) • 2009年以降は本データベースにて評価する論文が急増 • 様々な情報が付与 ‒ 人領域の隠れ,時系列の映像が使用可 URL : http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/index.html P. Dollár et al. , "Pedestrian Detection: A Benchmark", CVPR, 2009. 88
  • 89. 評価指標 • 手法の性能を測るために未検出率と誤検出率を比較 1. Miss Rate VS False Positive Per Window (FPPW) • 1検出ウィンドウあたりの誤検出した率 • 検出ウィンドウの統合処理を含まない 2. Miss Rate VS False Positive Per Image (FPPI) • 1枚の画像あたりの誤検出した数 • 検出ウィンドウの統合処理を含む 検出器の性能が直感的に把握できるため, 近年ではMiss Rate VS FPPIにより評価する論文が多い 89
  • 90. 人検出法の比較 • DETカーブによる比較 ‒ 横軸に誤検出率,縦軸に未検出率 ‒ 識別器の閾値を変えた際の誤検出率と未検出率をプロット ‒ グラフの左下に位置するDETカーブほど性能が高い 多数(勾配特徴量+α)を利用している 様々な条件下で手法を評価 - 人画像のスケール - 人領域の隠れの有無 - 処理時間 P. Dollár et al. , "Pedestrian Detection : An Evaluation of the State of the Art", PAMI, 2009. 90
  • 91. まとめ • 統計的学習手法による人検出法のサーベイ ‒ 特徴抽出 • 人と背景を区別するための情報を持つ特徴量の設計 → 人らしさを捉える,複雑な背景に対応可能 ‒ 識別手法 • モデル化可能な要因を吸収できる識別器の構造 → 向きの変化,姿勢の変化,人領域の隠れ,視点の変化に対応可能 91
  • 92. 最新の研究動向と社会情勢からみる人検出 • CVPR2012からの傾向 ‒ 検出したいシーンに合わせて識別器を最適化 3件 ‒ 隠れに対応した人検出法 1件 ‒ リアルタイム人検出法 1件 → より実用的な問題を解決するような研究 • 社会情勢からの傾向 ‒ EURO NCAP (http://www.euroncap.com) ‒ 自動車の安全性を測るテスト ‒ パッシブセーフティ機能による歩行者保護性能カテゴリ ‒ 消費者は評価を見て車を購入 → 人検出がデファクトスタンダードとなる 92