Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

統計的学習手法よる人検出

34,030 views

Published on

統計的学習手法よる人検出のサーベイ

Published in: Technology

統計的学習手法よる人検出

  1. 1. [サーベイ報告] 統計的学習手法による人検出 2012年11月17日 第21回 名古屋CV•PRML勉強会 山内悠嗣, 藤吉弘亘 中部大学http://www.vision.cs.chubu.ac.jp/CVTutorial/PPT/HumanDetectionSurvey.pdf
  2. 2. 発表の概要• 人検出法の概要• 特徴抽出法• 識別手法• 実用化に向けて• データベースと評価指標• まとめ 2
  3. 3. 人検出(物体検出)とは? Find all the Xs  = 物体検出 X = face X = human X = car画像中に含まれる特定の物体(顔、人、車など)をすべて検出 3
  4. 4. 物体検出の変遷 顔検出 人検出1969 年 Sakai 1969年 顔検出に関する初めての研究1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出1997 年 Osuna SVM による顔検出 1994年1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990.2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年2002 年 統計的学習手法の利用2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996.2004 年2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005.2011 年 4
  5. 5. 物体検出の変遷 顔検出 人検出1969 年 Sakai 1969年 顔検出に関する初めての研究1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出1997 年 Osuna SVM による顔検出 1994年1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990.2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年2002 年 統計的学習手法の利用2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996.2004 年2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005.2011 年 5
  6. 6. 物体検出の変遷 顔検出 人検出1969 年 Sakai 1969年 顔検出に関する初めての研究1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出1997 年 Osuna SVM による顔検出 1994年1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990.2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年2002 年 統計的学習手法の利用2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996.2004 年2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005.2011 年 6
  7. 7. 物体検出の変遷 顔検出 人検出1969 年 Sakai 1969年 顔検出に関する初めての研究1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出1997 年 Osuna SVM による顔検出 1994年1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990.2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年2002 年 統計的学習手法の利用2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996.2004 年2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005.2011 年 7
  8. 8. 物体検出の変遷 顔検出 人検出1969 年 Sakai 1969年 顔検出に関する初めての研究1994 年 Yang 研究者のルールに基づいた顔検出 物体検出の研究が始まる Sung1996 年 クラス分布の距離に基づく顔検出 Rowley Sakai, Pattern Recognition, 1969. Neural Network による顔検出1997 年 Osuna SVM による顔検出 1994年1998 年 Rowley Neural Network による顔の回転に 対応した顔検出 ルールベースの顔検出2000 年 Schneiderman Papageorgiou Naive Bayes による顔向きに対応した 顔検出 Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990.2001 年 Viola & Jones 積分画像とカスケード型識別器を 利用したリアルタイム顔検出 1996年2002 年 統計的学習手法の利用2003 年 Viola & Jones 見えと動きに基づく人検出 Rowley, CVPR, 1996.2004 年2005 年 三田 Dalal 特徴量間の共起を表現した Joint Haar-like 特徴量の提案 人検出に適した HOG 特徴量の提案 2001年 Wu2006 年 Huang Edgelet 特徴量の提案 リアルタイム顔検出 スパース特徴量による顔検出2007 年 Wu Cluster Boosted Tree による Viola & Jones, CVPR, 2001. 向き・姿勢の違いに対応した人検出2008 年 Felzenszwalb Deformable Part Model を用いた 姿勢の変化に頑健な人検出 2005年2009 年 Wang 部分的な隠れに対応した人検出 検出対象の遷移 顔 → 人 Watanabe CoHOG 特徴量による人検出 Dalal, CVPR, 2005.2011 年 8
  9. 9. 人検出の難しさ 見えの個体差 複雑な背景 向きの変化 姿勢の変化 人領域の隠れ 視点の変化様々な要因が同時発生して見えの変動が大きいため、困難な問題 9
  10. 10. 物体検出手法の分類 物体検出 知識を利用する手法 統計的学習手法を利用する手法- 標準的な顔の目や口の位置関係 - 大量の学習データにより,物体の- 顔の色やエッジ,テクスチャ等の アピアランス変化を考慮した特徴をルールとして定義 モデルを定義 近年は統計的学習手法を利用するアプローチが多い 10
  11. 11. 統計的学習手法による物体検出の流れオフ 統 計ラ 人の学習サンプル 特 徴 的 抽 学イ 出 習 手ン 法処理 人以外の学習サンプル 統計的学習手法による識別器の学習 特 徴 人以外 抽オ 出ンラ 特 徴 識 識別結果の統合前 別 人イ 抽 出 器 識 別ン 結 果処 特 の 徴 統理 抽 人 合 出 処 理 識別器による人画像の識別 識別結果の統合結果 検出器 11
  12. 12. 統計的学習手法による学習の流れ• オフライン処理 ‒ 大量の学習サンプルから統計的学習手法により識別器を学習 統 特 計 人の学習サンプル 徴 的 識 抽 学 別 出 習 器 手 法 ex. SVM AdaBoost 人以外の学習サンプル 12
  13. 13. 学習と検出の流れ• オンライン処理 ‒ 検出ウィンドウのラスタスキャン後,識別結果を統合 特 徴 人以外 抽 出 特 徴 識 識別結果の統合前 抽 別 人 出 器 識 別 結 果 特 の 徴 人 統 抽 合 出 処 理 識別結果の統合結果 識別器による人画像の識別 検出器 13
  14. 14. 人検出の難しさへの対応方法見えの個体差 複雑な背景 向きの変化姿勢の変化 人領域の隠れ 視点の変化ポイント ・様々な変化に頑健な特徴抽出と識別器を実現するか? 14
  15. 15. 人検出を困難にする要因と対応策 対応策 要因 代表的な手法 特徴量 識別器 勾配,色,見えの個体差 ­ HOG, CSS, HOF 動き,距離 Joint Haar-like, CoHOG,複雑な背景 特徴量の共起 ­ Joint HOG向きの変化 ­ 複数の識別器 Cluster Boosted Tree Deformable parts model,姿勢の変化 ­ パーツベース Hough Forest グローバル及びパーツベース識別人領域の隠れ ­ 隠れの推定 器の組合わせ シーンのモデリング,   視点の変化 ­ 幾何学情報の利用 転移学習 15
  16. 16. 発表の概要• 人検出法の概要• 特徴抽出法• 識別手法• 実用化に向けて• データベースと評価指標• まとめ 16
  17. 17. 特徴抽出法のサーベイ• 人らしさを捉える局所特徴量 ‒ 勾配情報に基づく特徴量 ‒ 色情報に基づく特徴量 ‒ 動きに基づく特徴量 ‒ 距離に基づく特徴量• 人の構造を捉える特徴量 ‒ 統計的学習手法を用いない特徴量間の共起 ‒ 統計的学習手法を用いた特徴量間の共起 17
  18. 18. 特徴抽出法 -人らしさを捉える局所特徴量-• 見えの個体差:衣服・体格によりアピアランスが異なる 見えの変動を最小現に抑える人らしさを捉える 特徴量”を設計する必要がある 人らしさを捉える特徴量 勾配情報ベース 色情報ベース 動きベース 距離ベース 18
  19. 19. 勾配に基づく特徴抽出EOH(Edge of Orientation Histograms) Edgelet 局所的な勾配方向の比を捉える 局所領域に含まれる特定形状を捉える  −少ない枚数で検出器を実現  −Boostingとの組み合せて高い識別率を実現 K. Levi, CVPR 2004. B. Wu, CVPR 2005. LBP(Local Binary Pattern) HOG(Histograms of Oriented Gradients) 局所領域に含まれる勾配分布を捉える局所的な輝度の分布をバイナリコードとして捉える  −高い識別率を実現し、よく利用されている −顔認識等でも幅広く利用  −派生した特徴量が多数:EHOG, C-HOGなど Y. D. Mu, CVPR 2008. N. Dalal, CVPR 2005. 19
  20. 20. 勾配に基づく特徴抽出 1 • EOH(Edge of Orientation Histograms) ‒ 局所領域から得られる勾配ヒストグラムの比率を特徴量とする 少ない学習サンプルで高精度な識別器を学習可能K. Levi et al. , "Learning Object Detection from a Small Number of Examples: the Importance of Good Features",CVPR, 2004. 20
  21. 21. 勾配に基づく特徴抽出 2 • Edgelet ‒ 局所領域に含まれる特定形状を捉える • 直線性,円弧,対称性 Boostingと組み合せて高い識別率を実現B. Wu et al. , "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combinationof Edgelet Part Detectors", CVPR, 2005. 21
  22. 22. 勾配に基づく特徴抽出 3 • LBP(Local Binary Pattern) ‒ 注目画素と近傍画素の輝度の大小関係を表現 ‒ 局所領域におけるバイナリパターンをヒストグラム化 100 220 80 0 1 0 100 110 150 0 1 80 90 100 0 0 0 00000000 11111111 50 75 105 0 0 1 255 95 200 1 1 220 180 80 1 1 0 入力画像 3x3 画素 LBP ヒストグラム 局所的な輝度の分布をバイナリコードとして捉えるY. D. Mu et al. , "Discriminative Local Binary Patterns for Human Detection in Personal Album", CVPR, 2008. 22
  23. 23. 勾配に基づく特徴抽出 4 • HOG(Histograms of Oriented Gradients) ‒ 局所領域に含まれる勾配分布を捉える 人検出の分野ではデファクトスタンダードな特徴量 派生した特徴量が多数提案 : EHOG,C-HOG,P-HOGN. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 23
  24. 24. 色情報に基づく特徴抽出 1 • Integral Channel Features (ICF) ‒ 輝度,色,勾配などの特徴量を併用 • 特徴量 : 局所領域の画素値の和 ‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用 色は人の衣服に左右されるため悪影響の可能性があるP. Dollár et al. , "Integral Channel Features", BMVC, 2009. 24
  25. 25. 色情報に基づく特徴抽出 1 • Integral Channel Features (ICF) Uチャンネルの ‒ 輝度,色,勾配などの特徴量を併用 顔が一番強い • 特徴量 : 局所領域の画素値の和 ‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用 全弱識別器の可視化P. Dollár et al. , "Integral Channel Features", BMVC, 2009. 25
  26. 26. 色情報に基づく特徴抽出 2 • Color Self-Similarity (CSS) ‒ 2つの局所領域から得られる色ヒストグラムの類似度を      特徴量として利用 ‒ 2つの局所領域が同一部位かどうかを暗に表現 頻度 } } } H S V 類似度 S 頻度 } } } H S V 入力画像 セルC (8 8ピクセル) 色ヒストグラム p 色情報に対する依存がないため,人検出に色情報を有効活用できるS. Walk et al. , "New Features and Insights for Pedestrian Detection", CVPR, 2010. 26
  27. 27. 動きに基づく特徴量• 空間的変化を捉える特徴量• 時間的変化を捉える特徴量• 時空間変化を捉える特徴量 27
  28. 28. 空間的変化を捉える特徴量 • 背景差分により得られる前景領域を捉える ‒ 背景差分をベースとした手法により前景領域の確率を算出 固定カメラに限定J. Yao et al. , "Fast Human Detection from Videos Using Covariance Features", Visual Surveillance, 2008. 28
  29. 29. 時間的変化を捉える特徴量 1 • モーションフィルタ(Haar-like) ‒ 2フレーム間の動きを3つのモーションフィルタで捉える • 時間的な移動 : フレーム間差分 • 擬似的な移動 : 1フレーム目を擬似的に上下左右に1ピクセル移動 • 擬似的な移動の差 : フレーム間差分 - 擬似的な移動 低解像度画像 (20 x 15画素)に適応可能P. Viola et al. , "Detecting Pedestrians Using Patterns of Motion and Appearance", ICCV, 2003. 29
  30. 30. 時間的変化を捉える特徴量 2 • Histograms of Flow (HOF) ‒ 2つの特徴表現 • オプティカルフローをHOG特徴量(HOF)のように表現 • 近傍のオプティカルフローヒストグラムとの差を特徴量として表現 t, t+1フレームの画像 フローとその境界 フローから得られる勾配 平均勾配画像 相対的な動きを観測 → 移動カメラへ適応可能N. Dalal et al. , "Human Detection Using Oriented Histograms of Flow and Appearance", ECCV, 2006. 30
  31. 31. 時空間変化を捉える特徴量 • ST-Patch ‒ 局所領域内の空間方向の勾配,時間方向の勾配の大きさを捉える • 局所的な領域の見えと動きを表現 ST-Patch村井 他 , "Space-Time Patchを用いた物体の移動方向識別とセグメンテーション", 情報処理学会論文誌, 2008. 31
  32. 32. 距離に基づく特徴量 距離画像計測デバイス / h 1 (S 64000) S 22 ( - ) + / h 2 ( S 22 ) S 1530 ( - ) + + h100 (Occlusion) S 64000( - ) + TOF TOFカメラ Microsoft Kinect Real AdaBoost RDSF(Relational Depth Similarity Feature) 局所領域間の距離の差を捉える 人−人:距離差は小 人−背景:距離差は大 0 m] 7.5 Bhattacharyya 0 7.5 m] 距離画像により背景テクスチャの影響を受けない池村 他 , "距離情報に基づく局所特徴量によるリアルタイム人検出", 電子情報通信学会論文誌, 2010. 32
  33. 33. 特徴抽出法のサーベイ• 人らしさを捉える局所特徴量 ‒ 勾配情報に基づく特徴量 ‒ 色情報に基づく特徴量 ‒ 動きに基づく特徴量 ‒ 距離に基づく特徴量• 人の構造を捉える特徴量 ‒ 統計的学習手法を用いない特徴量間の共起 ‒ 統計的学習手法を用いた特徴量間の共起 33
  34. 34. 特徴抽出法 -人の構造を捉える特徴量-• 複雑背景:(局所領域でみると)人に似た領域がある 複雑背景への誤検出を抑える人の構造を 捉える特徴量”を設計する必要あり 共起表現 人の構造を捉える特徴量 統計的学習手法を用いない特徴量間の共起 統計的学習手法を用いた特徴量間の共起 34
  35. 35. 統計的学習手法を用いない特徴量間の共起 • CoHOG(Co-occurrence HOG) ‒ 局所領域内の勾配のペアを累積した同時生起行列 ‒ 2カ所の局所領域の勾配と勾配の関係性を表現することで     人の形状の構造を捉えられるT. Watanabe et al. , "Co-occurrence Histograms of Oriented Gradients for Human Detection", IPSJ Trans. onCVA, 2010. 35
  36. 36. 統計的学習手法を用いる特徴量間の共起 1 • Shapelet ‒ 1段階目 : 4方向エッジとBoostingによりShapeletを生成 ‒ 2段階目 : ShapeletとBoostingにより識別器を学習 AdaBoost AdaBoost AdaBoost 識別器 AdaBoost 入力画像と 4 方向エッジの算出 1 段階目の AdaBoost Shapelet 特徴量 2 段階目の AdaBoost Boostingにより識別に有効な局所領域内のエッジを捉えるP. Sabzmeydani et al. , "Detecting Pedestrians by Learning Shapelet Features", CVPR, 2007. 36
  37. 37. 統計的学習手法を用いる特徴量間の共起 2 • Joint HOG ‒ 1段階目 : 2つのHOGとBoostingによりJoint HOGを生成 ‒ 2段階目 : Joint HOGとBoostingにより識別器を学習 Boostingにより識別に有効な局所領域の関係性を捉える三井 他 , "Joint特徴量を用いた2段階Boostingによる物体検出", 電子情報通信学会, 2009. 37
  38. 38. 特徴抽出のまとめ 特徴量 長所 短所人らしさを 勾配情報ベース EOH,Edgelet 人の特徴をよく表現できる テクスチャの影響を受ける捉える特徴 HOG, LBP (服の模様など)量 色情報ベース ICF エッジが明確でない画像から 計算コストが大きい CSS も有効な特徴が抽出できる 動き情報ベース 前景尤度 テクスチャの影響を受けない 連続した複数枚の画像が  HOF 必要 距離情報ベース RDSF テクスチャの影響を受けない 特殊なデバイスが必要 距離差分 人の形状を明確に捉えられる  画角,距離に制限がある人の構造を 全ての共起を利 CoHOG 人に似た背景の誤検出を抑制 特徴量によっては学習時に捉える特徴 用 できる 大量のメモリが必要量 有効な共起を選 Joint HOG 人に似た背景の誤検出を抑制 学習に多大な時間がかかる 択 Shapelet できる 38
  39. 39. 特徴抽出と識別手法 人検出器 向き変化 特徴抽出 個体差 識別手法 姿勢変化 複雑な背景 隠れ 視点変化人らしさを 人に共通する要素をどのように表現するか どのように見つけるか 39
  40. 40. 識別手法• 向きの変化に対応した手法• 姿勢の変化に対応した手法• 人領域の隠れに対応した手法• 視点の変化に対応した手法 40
  41. 41. 識別手法 - 向きの変化への対応-• 向きの変化 : 人とカメラの位置関係により見えが異なる 人の向きに左右されない識別器を学習する必要 → 各々の向きに対応した複数の識別器により対応向きの変化に対応した手法 向きのラベルを必要とする手法 人手で付与した向きのラベルを持つサンプル毎により識別器を学習 向きのラベルを必要としない手法 統計的学習手法によりクラスタリングされたサンプルにより識別器を学習 41
  42. 42. 向きのラベルを必要とする手法 1 • 角度推定器と識別器の二段階の構成 ‒ ルータにより顔の回転角を推定 ‒ 推定された回転角に合わせて回転した画像を識別 ルータによる回転角の推定 識別器による人と背景の識別 向きに対しても同様のアプローチで解けるH. Rowley, et al. , "Rotation Invariant Neural Network-Based Face Detection", CVPR, 1998. 42
  43. 43. 向きのラベルを必要とする手法 2 • 多クラス識別器の利用(Vector Boosting) ‒ 多クラス識別 : 分岐関数までの識別器(FLR1, ..., FLRN-1) ‒ 向き分類器 : 分岐関数(FLRN) ‒ 2クラス識別 : 分岐関数以降の識別器(Ln, Fn, Rn) 人と背景を識別 向き分類器 それぞれの向きの人と背景を識別C. Hou, et al. , "Multiview Pedestrian Detection Based on Vector Boosting", ACCV, 2007. 43
  44. 44. 向きに対応した手法の検出の例正面 / 背面 左向き 右向き 44
  45. 45. 向きのラベルを必要としない手法 1 • 分割統治法による識別器の学習 ‒ 解決が困難な問題を小さな問題に分割して解く ‒ サンプルを分割し,サブクラスを考慮した2クラス識別器を学習 左向き サブクラス1 識別器 1 分割統治法による学習 学習サンプル クラスタリング サブクラス2 識別器 2 正面 サブクラス3 識別器 3 右向き土屋 他 , "Boostingに基づく分割統治的戦略による高精度な識別器構築手法, 信学論, Vol. 95-D, No. 3 pp. 656-665, 2012 45
  46. 46. 向きのラベルを必要としない手法 2 • Cluster Boosted Tree (CVT) ‒ 逐次的に識別器の学習とサンプルのクラスタリングを行う ‒ 向き毎の強識別器Hは,弱識別器hを共有 識別が容易となるようにサンプルを自動的に分割B. Wu, et al. , "Cluster Boosted Tree Classifier for Multi-View, Multi-Pose Object Detection", ICCV, 2007. 46
  47. 47. 識別手法• 向きの変化に対応した手法• 姿勢の変化に対応した手法• 人領域の隠れに対応した手法• 視点の変化に対応した手法 47
  48. 48. 識別手法 - 姿勢の変化への対応 -• 姿勢の変化 : 人のとる姿勢により人の見え方が変化する 人の姿勢の変化に対応可能な構造を持つ識別器が必要 → 姿勢の変化による見えの変動が少ないパーツを 検出し,パーツの関係性を捉える姿勢の変化に対応するための重要な点 パーツの定義 如何に人の見えの変動が少ないようなパーツに定義するか パーツの統合方法 検出したパーツをどのように統合して人と背景を識別するか 48
  49. 49. パーツの定義方法ルールベース 画像の位置 研究者が定義したルールで分割 画像の位置で分割 •適応的にパーツを分割できる •パーツのラベル付けコスト小 •最適なパーツの定義が必要 •適応的にパーツを分割できない •パーツのラベル付けのコスト大 •最適なパーツの定義が必要 •微小な位置ずれが含まれる特徴点ベース 統計的アプローチ 特徴点を中心とした小領域 関節位置のずれが学習 サンプルで最小となる領域 •パーツのラベル付けコストがない •検出に適したパーツを •人領域以外からも検出される 自動的に決定 •関節位置の付与コスト poseletパーツの定義に合わせて,適切なパーツの統合方法を採用することが重要 49
  50. 50. パーツの統合方法• 識別器によるパーツの統合 ‒ Adaptive Combination of Classifier ‒ Multiple Instance Boosting• グラフモデルによるパーツの統合 ‒ Deformable Parts Model• 投票処理によるパーツの統合 ‒ Implicit Shape Model ‒ Hough Forests 50
  51. 51. 識別器によるパーツの統合 1 • Adaptive Combination of Classifier (ACC) ‒ 1段階目 : SVMにより各パーツを検出 ‒ 2段階目 : 1段階目の識別結果を入力し,人と背景の判別 SVM SVM SVM SVM SVM 入力画像 各パーツの探索領域 パーツの識別 識別結果 パーツの統合 識別結果 各パーツの位置や大きさの変動を吸収できるため,姿勢の変化に対して頑健A. Mohan, et al. , "Example-Based Object Detection in Images by Components", PAMI, 2001. 51
  52. 52. 識別器によるパーツの統合 2 • Multiple Instance Learning(MIL)の適用 ‒ 幾つかの事例の集合であるbagに対して付与されているラベルに 基づき学習する方法 例) 予め定義した頭部の位置周辺を適当にサンプリングしてbagとする   MILを導入したBoostingにより識別器を学習 頭部 胴体 足 パーツの情報(部位,位置,大きさ)が不要P. Viola, et al. , "Multiple Instance Boosting for Object Detection", NIPS, 2006.Y. Chen, et al. , "Multi-Class Multi-Instance Boosting for Part-Based Human Detection", Visual Surveillance, 2009. 52
  53. 53. グラフモデルによるパーツの統合 1 • Deformable parts model ‒ 人の全身とパーツの見えと位置の関係性をモデル化 ‒ モデルをLatent SVMにより学習 ルートフィルタの見え パーツフィルタの見え パーツフィルタの位置関係 頭部 右胴 左胴 全身 右手 左手 脚部 k-fanモデル (k=1) 検出例 ルートフィルタ パーツフィルタ パーツの変動範囲P. Felzenszwalb, et al. , "Object Detection with Discriminatively Trained Part Based Models", PAMI, 2009. 53
  54. 54. 参考 takminさん, 名古屋CV・PRML勉強会 発表資料 54
  55. 55. 参考 takminさん, 名古屋CV・PRML勉強会 発表資料 55
  56. 56. 参考 takminさん, 名古屋CV・PRML勉強会 発表資料 56
  57. 57. 参考 takminさん, 名古屋CV・PRML勉強会 発表資料 57
  58. 58. 参考 takminさん, 名古屋CV・PRML勉強会 発表資料 58
  59. 59. 参考 takminさん, 名古屋CV・PRML勉強会 発表資料 59
  60. 60. 参考 takminさん, 名古屋CV・PRML勉強会 発表資料 60
  61. 61. 投票処理によるパーツの統合 1 • Implicit Shape Model (ISM) 1. コーナー点を中心とした小領域をパッチとして抽出 2. パッチの輝度情報を基にベクトル量子化 3. コードブックを基に人の重心位置へ投票 4. 投票点をクラスタリングすることで物体を検出B. Leibe, et al. , "Robust Object Detection with Interleaved Categorization and Segmentation", IJCV, 2008. 61
  62. 62. 投票処理によるパーツの統合 2 • Hough Forests ‒ パッチの識別にRandom Forestsを利用 ‒ 分岐関数にて下記の2点を考慮 • 人と背景の分けやすさ • パッチの位置 入力画像 パッチの抽出 Random Forests による識別 重心位置への投票 人の尤度 オフセット量 投票処理 識別に判別モデルを導入することでパッチの識別性能が向上J. Gall, et al. , "Class-Specific Hough Forests for Object Detection", CVPR, 2009. 62
  63. 63. 識別手法• 向きの変化に対応した手法• 姿勢の変化に対応した手法• 人領域の隠れに対応した手法• 視点の変化に対応した手法 63
  64. 64. 識別手法 -人領域の隠れへの対応-• 人領域の隠れ : 人画像が部分的に欠損する 隠れた領域を考慮する識別器が必要 → 識別器に隠れ予測モデルを導入して隠れ領域を考慮隠れ領域に対応した人検出を行う上での重要な点 隠れの推定 如何に隠れ領域を推定するか 隠れ領域を考慮した識別 推定した隠れ領域をどのように考慮して識別するか 64
  65. 65. 隠れに対応した手法 1 • 局所領域毎に隠れ識別器を学習 • 隠れ識別器の結果をクラスタリングすることで隠れ領域 を推定 • 隠れの影響を受けにくい検出器(上半身,下半身等)を適用 人領域 隠れ領域 入力画像 隠れ推定 セグメンテーション 隠れなしと判定X. Wang, et al. , "An HOG-LBP Human Detector with Partial Occlusion Handling", ICCV, 2009. 65
  66. 66. 隠れに対応した手法 2 • 距離情報により対象人物よりも前方に存在する物体を障 害物として検知 • 隠れ領域を捉える識別器の出力に対して重み付け +1.0 0.0 -0.27 -1.0 0 500 +1.0 0.0 +15.15 -1.0 0 500池村 他, "距離情報に基づく局所特徴量によるリアルタイム人検出", 信学論, Vol. 93-D, No. 3 pp. 355-364, 2010. 66
  67. 67. 識別手法• 向きの変化に対応した手法• 姿勢の変化に対応した手法• 人領域の隠れに対応した手法• 視点の変化に対応した手法 67
  68. 68. 識別手法 -視点の変化への対応-• 視点の変化 : カメラの俯角に応じて人の見えが変化する 視点の変化により見えが変化するため,これ以外の 情報が必要 → 識別器にて幾何学的な情報を利用,転移学習の導入視点の変化に対応するために 幾何学的情報 どのようにして幾何学的な情報を利用するか 転移学習の導入 見えの変動が大きい場合にはシーンに合わせて識別器を最適化 68
  69. 69. 視点の変化に対応した手法 1 • 人検出器とジオメトリ,視点の関係をモデル化 sky Vertical Ground 入力画像 P(surfaces) P(viewpoint) P(object) P(object | surfaces) P(object | viewpoint)D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 69
  70. 70. 視点の変化に対応した手法 1 • 人検出器とジオメトリ,視点の関係をモデル化 sky Vertical Ground 入力画像 P(surfaces) P(viewpoint) ベイジアンネットにより 人検出器とジオメトリ,視点の 因果関係をモデル化 P(object) P(object | surfaces, viewpoint)D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 70
  71. 71. 検出結果の例 Human detector Full model 3 正検出 / 2 誤検出 4 正検出 / 0 誤検出D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 71
  72. 72. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 元ドメイン 目標ドメインJ. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 72
  73. 73. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 元ドメインで選択した特徴量 h1 h2 hm Hs 元ドメイン 元ドメインの強識別器 目標ドメインJ. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 73
  74. 74. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 • 特徴量の転移 : 選択された特徴量の位置を最適化 元ドメインで選択した特徴量 h1 h2 hm Hs 元ドメイン 元ドメインの強識別器 目標ドメインJ. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 74
  75. 75. 視点の変化に対応した手法 2 • 転移学習によるドメイン適応 ‒ 事前に学習した汎用的な識別器を転移学習により最適化 • 特徴量の転移 : 選択された特徴量の位置を最適化 • 識別器の転移 : 選択された識別器の重みを最適化 元ドメインで選択した特徴量 転移された特徴量 h1 h2 hm Hs Ht 元ドメイン 元ドメインの強識別器 目標ドメインの強識別器 目標ドメイン 大きな視点の変化による見えの変動を吸収することができるJ. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 75
  76. 76. 実用化に向けて検討するべき項目• 人検出の高速化• 学習サンプルの収集• 歪みの除去 76
  77. 77. 人検出の高速化• アルゴリズムによる高速化 ‒ 特徴抽出の高速化 ‒ 識別の高速化• ハードウェアによる高速化 ‒ 専用ハードウェアの利用 77
  78. 78. 特徴抽出の高速化 • 積分ヒストグラムによる勾配特徴量の高速演算 ‒ 事前に積分ヒストグラムを作成 ‒ 3回の加減算のみで局所領域の勾配和を演算可能 強度 1 2 3 4 5 6 P P 勾配方向 領域 P の勾配和 A+D-B-C 勾配方向 1 に対応する積分画像 勾配方向 6 に対応する積分画像F. Porikli et al. , "Integral Histogram: a Fast Way to Extract Histograms in Cartesian Spaces", CVPR, 2005. 78
  79. 79. 識別の高速化 • カスケード型識別器の採用 ‒ 複数の識別器を直列に並べる ‒ 背景画像を早期棄却できる • 識別の計算回数の減少 未知入力画像 H1 H2 H3 人画像 背景画像P. Viola et al. , "Robust Real-Time Object Detection", IJCV, 2004. 79
  80. 80. 専用ハードウェアの利用 • GPUによる実装 ‒ 高速計算が可能なGPUを利用することで高速化 ‒ 実装方法は試行錯誤 • CPU <=> GPUのデータ転送に最も時間がかかる • メモリの使い方が重要 • 並列計算 画像の入力 ダウンサンプリング HOG 特徴量の抽出 ウィンドウの統合 SVM による識別 結果の出力 HOST & CPU GPU CPUのみを使用した場合よりも67倍の高速化を実現V. Prisacariu et al. , "fastHOG - a real-time GPU implementation of HOG", Technical Report Oxford University, 2009. 80
  81. 81. 学習サンプルの収集• 高精度な人検出を実現するためには ‒ 大量の学習サンプル : 数千 数万サンプル ‒ 良質な学習サンプル : 位置ずれがないサンプル 平均勾配画像 81
  82. 82. 学習サンプルの収集 • CGから人画像を自動的に生成J. Marín et al. , "Learning Appearance in Virtual Scenarios for Pedestrian Detection", CVPR, 2010. 82
  83. 83. 歪みの除去 • 擬似的に平行投影した画像 から人を検出 ‒ カメラパラメータ既知 ‒ 人物は地面に直立している こ とを仮定Y. Li et al. , "Human Detection by Searching in 3D Space Using Camera and Scene Knowledge", ICPR, 2008. 83
  84. 84. 人検出技術の実用化の例 トヨタ自動車 Mobileye ナイトビューシステム 衝突防止補助システム2004 2005 2006 2007 2008 2009 2010 2011本田技研工業 三栄ハイテックス 東芝ナイトビジョンシステム ODEN (FPGA) 車載向け画像認識用LSI 84
  85. 85. 発表の概要• 人検出法の概要• 手法 ‒ 特徴抽出法 ‒ 識別手法• 実用化に向けて• データベースと評価指標• まとめ 85
  86. 86. 人画像データベース • 人画像とアノテーションファイルが公開されている 大規模化,様々な情報が付与される傾向 学習用 評価用 発表年 正規化人画像 背景画像 人画像 正規化人画像 背景画像 MIT 924 - - - - 1997 INRIA 2,416 1,218 288 1,132 453 2005 USC-A - - 205 303 - 2005 USC-B - - 54 271 - 2005Daimler2006 14,400 150,000※ - 1,600 10,000 2006 USC-C - - 100 232 - 2007 ETH 1578 - 1803 9,380 - 2007Daimler2009 15,660 6,744 21,800 56,492 - 2009 NICTA 18,700 5,200※ - 6,900 50,000 2008 TUD 400 - 250 311 - 2008 Caltech 192,000 61,000 56,000 155,000 5,600 2009 ※は一定のサイズで切り出された画像を表わす 86
  87. 87. INRIA Person Dataset (2006年) • 人検出の分野で最も使用されているデータベースURL : http://pascal.inrialpes.fr/data/human/N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 87
  88. 88. Caltech Pedestrian Database (2009年) • 2009年以降は本データベースにて評価する論文が急増 • 様々な情報が付与 ‒ 人領域の隠れ,時系列の映像が使用可URL : http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/index.htmlP. Dollár et al. , "Pedestrian Detection: A Benchmark", CVPR, 2009. 88
  89. 89. 評価指標• 手法の性能を測るために未検出率と誤検出率を比較 1. Miss Rate VS False Positive Per Window (FPPW) • 1検出ウィンドウあたりの誤検出した率 • 検出ウィンドウの統合処理を含まない 2. Miss Rate VS False Positive Per Image (FPPI) • 1枚の画像あたりの誤検出した数 • 検出ウィンドウの統合処理を含む 検出器の性能が直感的に把握できるため,近年ではMiss Rate VS FPPIにより評価する論文が多い 89
  90. 90. 人検出法の比較 • DETカーブによる比較 ‒ 横軸に誤検出率,縦軸に未検出率 ‒ 識別器の閾値を変えた際の誤検出率と未検出率をプロット ‒ グラフの左下に位置するDETカーブほど性能が高い 多数(勾配特徴量+α)を利用している 様々な条件下で手法を評価 - 人画像のスケール - 人領域の隠れの有無 - 処理時間P. Dollár et al. , "Pedestrian Detection : An Evaluation of the State of the Art", PAMI, 2009. 90
  91. 91. まとめ• 統計的学習手法による人検出法のサーベイ ‒ 特徴抽出 • 人と背景を区別するための情報を持つ特徴量の設計 → 人らしさを捉える,複雑な背景に対応可能 ‒ 識別手法 • モデル化可能な要因を吸収できる識別器の構造 → 向きの変化,姿勢の変化,人領域の隠れ,視点の変化に対応可能 91
  92. 92. 最新の研究動向と社会情勢からみる人検出• CVPR2012からの傾向 ‒ 検出したいシーンに合わせて識別器を最適化 3件 ‒ 隠れに対応した人検出法 1件 ‒ リアルタイム人検出法 1件 → より実用的な問題を解決するような研究• 社会情勢からの傾向 ‒ EURO NCAP (http://www.euroncap.com) ‒ 自動車の安全性を測るテスト ‒ パッシブセーフティ機能による歩行者保護性能カテゴリ ‒ 消費者は評価を見て車を購入 → 人検出がデファクトスタンダードとなる 92

×