統計的学習手法による人検出
山内悠嗣†, 山下隆義†, 藤吉弘亘†
† 中部大学
14年3月29日土曜日
発表の概要
• 人検出法の概要
• 特徴抽出法
• 識別手法
• 実用化に向けて
• データベースと評価指標
• まとめ
2
14年3月29日土曜日
人検出(物体検出)とは?
Find all the Xs  = 物体検出
3
画像中に含まれる特定の物体(顔、人、車など)をすべて検出
X = face X = human X = car
14年3月29日土曜日
物体検出の変遷
4
1969年
物体検出の研究が始まる
Sakai, Pattern Recognition, 1969.
顔検出 人検出
1969 年 Sakai
顔検出に関する初めての研究
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Neural Network による顔の回転に
対応した顔検出
Schneiderman
Naive Bayes による顔向きに対応した
顔検出
Viola & Jones
積分画像とカスケード型識別器を
利用したリアルタイム顔検出
Papageorgiou
Wavelet と SVM を利用した人検出
Dalal
人検出に適した HOG 特徴量の提案
Felzenszwalb
Deformable Part Model を用いた
姿勢の変化に頑健な人検出
2011 年
2003 年 Viola & Jones
見えと動きに基づく人検出
1994 年 Yang
研究者のルールに基づいた顔検出
Wu
Edgelet 特徴量の提案
三田
特徴量間の共起を表現した Joint
Haar-like 特徴量の提案
Wang
部分的な隠れに対応した人検出
1996 年 Rowley
Neural Network による顔検出
Sung
クラス分布の距離に基づく顔検出
2002 年
2007 年 Wu
Cluster Boosted Tree による
向き・姿勢の違いに対応した人検出
Huang
スパース特徴量による顔検出
Watanabe
CoHOG 特徴量による人検出
1997 年 Osuna
SVM による顔検出
1994年
ルールベースの顔検出
Govindaraju, ICCV, 1990.
1996年
統計的学習手法の利用
Rowley, CVPR, 1996.
2001年
リアルタイム顔検出
Viola & Jones, CVPR, 2001.
2005年
検出対象の遷移 顔 → 人
Dalal, CVPR, 2005.
14年3月29日土曜日
物体検出の変遷
5
1969年
物体検出の研究が始まる
Sakai, Pattern Recognition, 1969.
顔検出 人検出
1969 年 Sakai
顔検出に関する初めての研究
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Neural Network による顔の回転に
対応した顔検出
Schneiderman
Naive Bayes による顔向きに対応した
顔検出
Viola & Jones
積分画像とカスケード型識別器を
利用したリアルタイム顔検出
Papageorgiou
Wavelet と SVM を利用した人検出
Dalal
人検出に適した HOG 特徴量の提案
Felzenszwalb
Deformable Part Model を用いた
姿勢の変化に頑健な人検出
2011 年
2003 年 Viola & Jones
見えと動きに基づく人検出
1994 年 Yang
研究者のルールに基づいた顔検出
Wu
Edgelet 特徴量の提案
三田
特徴量間の共起を表現した Joint
Haar-like 特徴量の提案
Wang
部分的な隠れに対応した人検出
1996 年 Rowley
Neural Network による顔検出
Sung
クラス分布の距離に基づく顔検出
2002 年
2007 年 Wu
Cluster Boosted Tree による
向き・姿勢の違いに対応した人検出
Huang
スパース特徴量による顔検出
Watanabe
CoHOG 特徴量による人検出
1997 年 Osuna
SVM による顔検出
1994年
ルールベースの顔検出
Govindaraju, ICCV, 1990.
1996年
統計的学習手法の利用
Rowley, CVPR, 1996.
2001年
リアルタイム顔検出
Viola & Jones, CVPR, 2001.
2005年
検出対象の遷移 顔 → 人
Dalal, CVPR, 2005.
14年3月29日土曜日
物体検出の変遷
6
1969年
物体検出の研究が始まる
Sakai, Pattern Recognition, 1969.
顔検出 人検出
1969 年 Sakai
顔検出に関する初めての研究
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Neural Network による顔の回転に
対応した顔検出
Schneiderman
Naive Bayes による顔向きに対応した
顔検出
Viola & Jones
積分画像とカスケード型識別器を
利用したリアルタイム顔検出
Papageorgiou
Wavelet と SVM を利用した人検出
Dalal
人検出に適した HOG 特徴量の提案
Felzenszwalb
Deformable Part Model を用いた
姿勢の変化に頑健な人検出
2011 年
2003 年 Viola & Jones
見えと動きに基づく人検出
1994 年 Yang
研究者のルールに基づいた顔検出
Wu
Edgelet 特徴量の提案
三田
特徴量間の共起を表現した Joint
Haar-like 特徴量の提案
Wang
部分的な隠れに対応した人検出
1996 年 Rowley
Neural Network による顔検出
Sung
クラス分布の距離に基づく顔検出
2002 年
2007 年 Wu
Cluster Boosted Tree による
向き・姿勢の違いに対応した人検出
Huang
スパース特徴量による顔検出
Watanabe
CoHOG 特徴量による人検出
1997 年 Osuna
SVM による顔検出
1994年
ルールベースの顔検出
Govindaraju, ICCV, 1990.
1996年
統計的学習手法の利用
Rowley, CVPR, 1996.
2001年
リアルタイム顔検出
Viola & Jones, CVPR, 2001.
2005年
検出対象の遷移 顔 → 人
Dalal, CVPR, 2005.
14年3月29日土曜日
物体検出の変遷
7
1969年
物体検出の研究が始まる
Sakai, Pattern Recognition, 1969.
顔検出 人検出
1969 年 Sakai
顔検出に関する初めての研究
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Neural Network による顔の回転に
対応した顔検出
Schneiderman
Naive Bayes による顔向きに対応した
顔検出
Viola & Jones
積分画像とカスケード型識別器を
利用したリアルタイム顔検出
Papageorgiou
Wavelet と SVM を利用した人検出
Dalal
人検出に適した HOG 特徴量の提案
Felzenszwalb
Deformable Part Model を用いた
姿勢の変化に頑健な人検出
2011 年
2003 年 Viola & Jones
見えと動きに基づく人検出
1994 年 Yang
研究者のルールに基づいた顔検出
Wu
Edgelet 特徴量の提案
三田
特徴量間の共起を表現した Joint
Haar-like 特徴量の提案
Wang
部分的な隠れに対応した人検出
1996 年 Rowley
Neural Network による顔検出
Sung
クラス分布の距離に基づく顔検出
2002 年
2007 年 Wu
Cluster Boosted Tree による
向き・姿勢の違いに対応した人検出
Huang
スパース特徴量による顔検出
Watanabe
CoHOG 特徴量による人検出
1997 年 Osuna
SVM による顔検出
1994年
ルールベースの顔検出
Govindaraju, ICCV, 1990.
1996年
統計的学習手法の利用
Rowley, CVPR, 1996.
2001年
リアルタイム顔検出
Viola & Jones, CVPR, 2001.
2005年
検出対象の遷移 顔 → 人
Dalal, CVPR, 2005.
14年3月29日土曜日
物体検出の変遷
8
1969年
物体検出の研究が始まる
Sakai, Pattern Recognition, 1969.
顔検出 人検出
1969 年 Sakai
顔検出に関する初めての研究
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Neural Network による顔の回転に
対応した顔検出
Schneiderman
Naive Bayes による顔向きに対応した
顔検出
Viola & Jones
積分画像とカスケード型識別器を
利用したリアルタイム顔検出
Papageorgiou
Wavelet と SVM を利用した人検出
Dalal
人検出に適した HOG 特徴量の提案
Felzenszwalb
Deformable Part Model を用いた
姿勢の変化に頑健な人検出
2011 年
2003 年 Viola & Jones
見えと動きに基づく人検出
1994 年 Yang
研究者のルールに基づいた顔検出
Wu
Edgelet 特徴量の提案
三田
特徴量間の共起を表現した Joint
Haar-like 特徴量の提案
Wang
部分的な隠れに対応した人検出
1996 年 Rowley
Neural Network による顔検出
Sung
クラス分布の距離に基づく顔検出
2002 年
2007 年 Wu
Cluster Boosted Tree による
向き・姿勢の違いに対応した人検出
Huang
スパース特徴量による顔検出
Watanabe
CoHOG 特徴量による人検出
1997 年 Osuna
SVM による顔検出
1994年
ルールベースの顔検出
Govindaraju, ICCV, 1990.
1996年
統計的学習手法の利用
Rowley, CVPR, 1996.
2001年
リアルタイム顔検出
Viola & Jones, CVPR, 2001.
2005年
検出対象の遷移 顔 → 人
Dalal, CVPR, 2005.
14年3月29日土曜日
人検出の難しさ
9
見えの個体差 向きの変化
人領域の隠れ姿勢の変化 視点の変化
複雑な背景
様々な要因が同時発生して見えの変動が大きいため、困難な問題
14年3月29日土曜日
物体検出手法の分類
10
物体検出
知識を利用する手法 統計的学習手法を利用する手法
- 標準的な顔の目や口の位置関係
- 顔の色やエッジ,テクスチャ等の
特徴をルールとして定義
- 大量の学習データにより,物体の
アピアランス変化を考慮した
モデルを定義
近年は統計的学習手法を利用するアプローチが多い
14年3月29日土曜日
統計的学習手法による物体検出の流れ
11
人の学習サンプル
人以外の学習サンプル
特
徴
抽
出
統
計
的
学
習
手
法
特
徴
抽
出
識
別
器
人以外
特
徴
抽
出
特
徴
抽
出
人
人
識
別
結
果
の
統
合
処
理
統計的学習手法による識別器の学習
識別器による人画像の識別
識別結果の統合前
検出器
識別結果の統合結果
オ
フ
ラ
イ
ン
処
理
オ
ン
ラ
イ
ン
処
理
14年3月29日土曜日
統計的学習手法による学習の流れ
12
• オフライン処理
‒ 大量の学習サンプルから統計的学習手法により識別器を学習
人の学習サンプル
人以外の学習サンプル
特
徴
抽
出
統
計
的
学
習
手
法
識
別
器
ex.
SVM
AdaBoost
14年3月29日土曜日
学習と検出の流れ
13
特
徴
抽
出
識
別
器
人以外
特
徴
抽
出
特
徴
抽
出
人
人
識
別
結
果
の
統
合
処
理
識別器による人画像の識別
識別結果の統合前
検出器
識別結果の統合結果
• オンライン処理
‒ 検出ウィンドウのラスタスキャン後,識別結果を統合
14年3月29日土曜日
人検出の難しさへの対応方法
14
見えの個体差 向きの変化
人領域の隠れ姿勢の変化 視点の変化
複雑な背景
14年3月29日土曜日
人検出の難しさへの対応方法
14
見えの個体差 向きの変化
人領域の隠れ姿勢の変化 視点の変化
複雑な背景
ポイント
 ・様々な変化に頑健な特徴抽出と識別器を実現するか?
14年3月29日土曜日
人検出を困難にする要因と対応策
15
要因
対応策対応策
代表的な手法要因
特徴量 識別器
代表的な手法
見えの個体差
勾配,色,
動き,距離
­ HOG, CSS, HOF
複雑な背景 特徴量の共起 ­
Joint Haar-like, CoHOG,
Joint HOG
向きの変化 ­ 複数の識別器 Cluster Boosted Tree
姿勢の変化 ­ パーツベース
Deformable parts model,
Hough Forest
人領域の隠れ ­ 隠れの推定
グローバル及びパーツベース識別
器の組合わせ
視点の変化 ­ 幾何学情報の利用
シーンのモデリング,   
転移学習
14年3月29日土曜日
発表の概要
• 人検出法の概要
• 特徴抽出法
• 識別手法
• 実用化に向けて
• データベースと評価指標
• まとめ
16
14年3月29日土曜日
特徴抽出法のサーベイ
• 人らしさを捉える局所特徴量
‒ 勾配情報に基づく特徴量
‒ 色情報に基づく特徴量
‒ 動きに基づく特徴量
‒ 距離に基づく特徴量
• 人の構造を捉える特徴量
‒ 統計的学習手法を用いない特徴量間の共起
‒ 統計的学習手法を用いた特徴量間の共起
17
14年3月29日土曜日
人らしさを捉える特徴量
特徴抽出法 -人らしさを捉える局所特徴量-
• 見えの個体差:衣服・体格によりアピアランスが異なる
18
見えの変動を最小現に抑える人らしさを捉える
特徴量”を設計する必要がある
勾配情報ベース 色情報ベース
動きベース 距離ベース
14年3月29日土曜日
勾配に基づく特徴抽出
19
EOH(Edge of Orientation Histograms)
局所的な勾配方向の比を捉える
 −少ない枚数で検出器を実現
Edgelet
局所領域に含まれる特定形状を捉える
 −Boostingとの組み合せて高い識別率を実現
LBP(Local Binary Pattern)
局所的な輝度の分布をバイナリコードとして捉える
 −顔認識等でも幅広く利用
HOG(Histograms of Oriented Gradients)
局所領域に含まれる勾配分布を捉える
 −高い識別率を実現し、よく利用されている
 −派生した特徴量が多数:EHOG, C-HOGなど
N. Dalal, CVPR 2005.
B. Wu, CVPR 2005.K. Levi, CVPR 2004.
Y. D. Mu, CVPR 2008.
14年3月29日土曜日
勾配に基づく特徴抽出 1
• EOH(Edge of Orientation Histograms)
‒ 局所領域から得られる勾配ヒストグラムの比率を特徴量とする
20
少ない学習サンプルで高精度な識別器を学習可能
K. Levi et al. , "Learning Object Detection from a Small Number of Examples: the Importance of Good Features",
CVPR, 2004.
14年3月29日土曜日
勾配に基づく特徴抽出 2
• Edgelet
‒ 局所領域に含まれる特定形状を捉える
• 直線性,円弧,対称性
21
Boostingと組み合せて高い識別率を実現
B. Wu et al. , "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination
of Edgelet Part Detectors", CVPR, 2005.
14年3月29日土曜日
勾配に基づく特徴抽出 3
• LBP(Local Binary Pattern)
‒ 注目画素と近傍画素の輝度の大小関係を表現
‒ 局所領域におけるバイナリパターンをヒストグラム化
22
LBP
50 105
95255 200
80220 180
75 0 1
1 1
01 1
0
100 80
110100 150
10080 90
220 0 0
0 1
00 0
1
00000000
11111111
入力画像 3x3 画素 ヒストグラム
局所的な輝度の分布をバイナリコードとして捉える
Y. D. Mu et al. , "Discriminative Local Binary Patterns for Human Detection in Personal Album", CVPR, 2008.
14年3月29日土曜日
勾配に基づく特徴抽出 4
• HOG(Histograms of Oriented Gradients)
‒ 局所領域に含まれる勾配分布を捉える
23
人検出の分野ではデファクトスタンダードな特徴量
派生した特徴量が多数提案 : EHOG,C-HOG,P-HOG
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005.
14年3月29日土曜日
色情報に基づく特徴抽出 1
• Integral Channel Features (ICF)
‒ 輝度,色,勾配などの特徴量を併用
• 特徴量 : 局所領域の画素値の和
‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用
24
色は人の衣服に左右されるため悪影響の可能性がある
P. Dollár et al. , "Integral Channel Features", BMVC, 2009.
14年3月29日土曜日
色情報に基づく特徴抽出 1
• Integral Channel Features (ICF)
‒ 輝度,色,勾配などの特徴量を併用
• 特徴量 : 局所領域の画素値の和
‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用
25P. Dollár et al. , "Integral Channel Features", BMVC, 2009.
全弱識別器の可視化
Uチャンネルの
顔が一番強い
14年3月29日土曜日
色情報に基づく特徴抽出 2
• Color Self-Similarity (CSS)
‒ 2つの局所領域から得られる色ヒストグラムの類似度を     
特徴量として利用
‒ 2つの局所領域が同一部位かどうかを暗に表現
26
色ヒストグラムp入力画像 セルC (8 8ピクセル)
頻度
}
}
}
H S V
}
}
}
H S V
頻度
類似度 S
色情報に対する依存がないため,人検出に色情報を有効活用できる
S. Walk et al. , "New Features and Insights for Pedestrian Detection", CVPR, 2010.
14年3月29日土曜日
動きに基づく特徴量
• 空間的変化を捉える特徴量
• 時間的変化を捉える特徴量
• 時空間変化を捉える特徴量
27
14年3月29日土曜日
空間的変化を捉える特徴量
• 背景差分により得られる前景領域を捉える
‒ 背景差分をベースとした手法により前景領域の確率を算出
28
固定カメラに限定
J. Yao et al. , "Fast Human Detection from Videos Using Covariance Features", Visual Surveillance, 2008.
14年3月29日土曜日
時間的変化を捉える特徴量 1
• モーションフィルタ(Haar-like)
‒ 2フレーム間の動きを3つのモーションフィルタで捉える
• 時間的な移動 : フレーム間差分
• 擬似的な移動 : 1フレーム目を擬似的に上下左右に1ピクセル移動
• 擬似的な移動の差 : フレーム間差分 - 擬似的な移動
29
低解像度画像 (20 x 15画素)に適応可能
P. Viola et al. , "Detecting Pedestrians Using Patterns of Motion and Appearance", ICCV, 2003.
14年3月29日土曜日
時間的変化を捉える特徴量 2
• Histograms of Flow (HOF)
‒ 2つの特徴表現
• オプティカルフローをHOG特徴量(HOF)のように表現
• 近傍のオプティカルフローヒストグラムとの差を特徴量として表現
30
相対的な動きを観測 → 移動カメラへ適応可能
t, t+1フレームの画像 フローとその境界 フローから得られる勾配 平均勾配画像
N. Dalal et al. , "Human Detection Using Oriented Histograms of Flow and Appearance", ECCV, 2006.
14年3月29日土曜日
時空間変化を捉える特徴量
• ST-Patch
‒ 局所領域内の空間方向の勾配,時間方向の勾配の大きさを捉える
• 局所的な領域の見えと動きを表現
31
ST-Patch
村井 他 , "Space-Time Patchを用いた物体の移動方向識別とセグメンテーション", 情報処理学会論文誌, 2008.
14年3月29日土曜日
距離に基づく特徴量
32
TOF
Real AdaBoost
+
/
S ( - )22
S ( - )64000
S ( - )1530
h ( )1 S64000
h ( )2 S22
h ( )100 Occlusion
/
+
+
+
Bhattacharyya
0 7.5m]
7.5
m]
0
TOFカメラ Microsoft Kinect
距離画像計測デバイス
RDSF(Relational Depth Similarity Feature)
局所領域間の距離の差を捉える
人−人:距離差は小
人−背景:距離差は大
距離画像により背景テクスチャの影響を受けない
池村 他 , "距離情報に基づく局所特徴量によるリアルタイム人検出", 電子情報通信学会論文誌, 2010.
14年3月29日土曜日
特徴抽出法のサーベイ
• 人らしさを捉える局所特徴量
‒ 勾配情報に基づく特徴量
‒ 色情報に基づく特徴量
‒ 動きに基づく特徴量
‒ 距離に基づく特徴量
• 人の構造を捉える特徴量
‒ 統計的学習手法を用いない特徴量間の共起
‒ 統計的学習手法を用いた特徴量間の共起
33
14年3月29日土曜日
人の構造を捉える特徴量
特徴抽出法 -人の構造を捉える特徴量-
• 複雑背景:(局所領域でみると)人に似た領域がある
34
統計的学習手法を用いない特徴量間の共起
統計的学習手法を用いた特徴量間の共起
共起表現
複雑背景への誤検出を抑える人の構造を
捉える特徴量”を設計する必要あり
14年3月29日土曜日
統計的学習手法を用いない特徴量間の共起
• CoHOG(Co-occurrence HOG)
‒ 局所領域内の勾配のペアを累積した同時生起行列
‒ 2カ所の局所領域の勾配と勾配の関係性を表現することで    
人の形状の構造を捉えられる
35
T. Watanabe et al. , "Co-occurrence Histograms of Oriented Gradients for Human Detection", IPSJ Trans. on
CVA, 2010.
14年3月29日土曜日
統計的学習手法を用いる特徴量間の共起 1
• Shapelet
‒ 1段階目 : 4方向エッジとBoostingによりShapeletを生成
‒ 2段階目 : ShapeletとBoostingにより識別器を学習
36
Boostingにより識別に有効な局所領域内のエッジを捉える
P. Sabzmeydani et al. , "Detecting Pedestrians by Learning Shapelet Features", CVPR, 2007.
AdaBoost
AdaBoost
AdaBoost
AdaBoost
入力画像と 4 方向エッジの算出 Shapelet 特徴量
識別器
1 段階目の AdaBoost 2 段階目の AdaBoost
14年3月29日土曜日
統計的学習手法を用いる特徴量間の共起 2
• Joint HOG
‒ 1段階目 : 2つのHOGとBoostingによりJoint HOGを生成
‒ 2段階目 : Joint HOGとBoostingにより識別器を学習
37
Boostingにより識別に有効な局所領域の関係性を捉える
三井 他 , "Joint特徴量を用いた2段階Boostingによる物体検出", 電子情報通信学会, 2009.
14年3月29日土曜日
特徴抽出のまとめ
38
特徴量 長所 短所
人らしさを
捉える特徴
量
勾配情報ベース EOH,Edgelet
HOG, LBP
人の特徴をよく表現できる テクスチャの影響を受ける
(服の模様など)
人らしさを
捉える特徴
量
色情報ベース ICF
CSS
エッジが明確でない画像から
も有効な特徴が抽出できる
計算コストが大きい
人らしさを
捉える特徴
量
動き情報ベース 前景尤度
HOF
テクスチャの影響を受けない 連続した複数枚の画像が 
必要
人らしさを
捉える特徴
量
距離情報ベース RDSF
距離差分
テクスチャの影響を受けない
人の形状を明確に捉えられる 
特殊なデバイスが必要
画角,距離に制限がある
人の構造を
捉える特徴
量
全ての共起を利
用
CoHOG 人に似た背景の誤検出を抑制
できる
特徴量によっては学習時に
大量のメモリが必要
人の構造を
捉える特徴
量
有効な共起を選
択
Joint HOG
Shapelet
人に似た背景の誤検出を抑制
できる
学習に多大な時間がかかる
14年3月29日土曜日
人検出器
特徴抽出と識別手法
39
人らしさを
どのように表現するか
人に共通する要素を
どのように見つけるか
特徴抽出 識別手法個体差
複雑な背景 隠れ
視点変化
向き変化
姿勢変化
14年3月29日土曜日
識別手法
• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法
40
14年3月29日土曜日
識別手法 - 向きの変化への対応-
• 向きの変化 : 人とカメラの位置関係により見えが異なる
41
人の向きに左右されない識別器を学習する必要
→ 各々の向きに対応した複数の識別器により対応
向きの変化に対応した手法
向きのラベルを必要とする手法
向きのラベルを必要としない手法
人手で付与した向きのラベルを持つサンプル毎により識別器を学習
統計的学習手法によりクラスタリングされたサンプルにより識別器を学習
14年3月29日土曜日
向きのラベルを必要とする手法 1
42
• 角度推定器と識別器の二段階の構成
‒ ルータにより顔の回転角を推定
‒ 推定された回転角に合わせて回転した画像を識別
H. Rowley, et al. , "Rotation Invariant Neural Network-Based Face Detection", CVPR, 1998.
ルータによる回転角の推定 識別器による人と背景の識別
向きに対しても同様のアプローチで解ける
14年3月29日土曜日
向きのラベルを必要とする手法 2
• 多クラス識別器の利用(Vector Boosting)
‒ 多クラス識別 : 分岐関数までの識別器(FLR1, ..., FLRN-1)
‒ 向き分類器 : 分岐関数(FLRN)
‒ 2クラス識別 : 分岐関数以降の識別器(Ln, Fn, Rn)
43C. Hou, et al. , "Multiview Pedestrian Detection Based on Vector Boosting", ACCV, 2007.
人と背景を識別 向き分類器 それぞれの向きの人と背景を識別
14年3月29日土曜日
向きに対応した手法の検出の例
44
正面 / 背面 右向き左向き
14年3月29日土曜日
向きのラベルを必要としない手法 1
• 分割統治法による識別器の学習
‒ 解決が困難な問題を小さな問題に分割して解く
‒ サンプルを分割し,サブクラスを考慮した2クラス識別器を学習
45土屋 他 , "Boostingに基づく分割統治的戦略による高精度な識別器構築手法, 信学論, Vol. 95-D, No. 3 pp. 656-665, 2012
学習サンプル クラスタリング
分割統治法による学習
サブクラス2 識別器 2
サブクラス1 識別器 1
サブクラス3 識別器 3
正面
左向き
右向き
14年3月29日土曜日
向きのラベルを必要としない手法 2
46B. Wu, et al. , "Cluster Boosted Tree Classifier for Multi-View, Multi-Pose Object Detection", ICCV, 2007.
• Cluster Boosted Tree (CVT)
‒ 逐次的に識別器の学習とサンプルのクラスタリングを行う
‒ 向き毎の強識別器Hは,弱識別器hを共有
識別が容易となるようにサンプルを自動的に分割
14年3月29日土曜日
識別手法
• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法
47
14年3月29日土曜日
識別手法 - 姿勢の変化への対応 -
• 姿勢の変化 : 人のとる姿勢により人の見え方が変化する
48
人の姿勢の変化に対応可能な構造を持つ識別器が必要
姿勢の変化に対応するための重要な点
パーツの定義
パーツの統合方法
如何に人の見えの変動が少ないようなパーツに定義するか
検出したパーツをどのように統合して人と背景を識別するか
→ 姿勢の変化による見えの変動が少ないパーツを
検出し,パーツの関係性を捉える
14年3月29日土曜日
パーツの定義方法
49
ルールベース 画像の位置
特徴点ベース 統計的アプローチ
研究者が定義したルールで分割
•適応的にパーツを分割できる
•最適なパーツの定義が必要
•パーツのラベル付けのコスト大
•微小な位置ずれが含まれる
画像の位置で分割
特徴点を中心とした小領域 関節位置のずれが学習
サンプルで最小となる領域
•パーツのラベル付けコスト小
•適応的にパーツを分割できない
•最適なパーツの定義が必要
•パーツのラベル付けコストがない
•人領域以外からも検出される
poselet
•検出に適したパーツを
自動的に決定
•関節位置の付与コスト
パーツの定義に合わせて,適切なパーツの統合方法を採用することが重要
14年3月29日土曜日
パーツの統合方法
• 識別器によるパーツの統合
‒ Adaptive Combination of Classifier
‒ Multiple Instance Boosting
• グラフモデルによるパーツの統合
‒ Deformable Parts Model
• 投票処理によるパーツの統合
‒ Implicit Shape Model
‒ Hough Forests
50
14年3月29日土曜日
識別器によるパーツの統合 1
51A. Mohan, et al. , "Example-Based Object Detection in Images by Components", PAMI, 2001.
• Adaptive Combination of Classifier (ACC)
‒ 1段階目 : SVMにより各パーツを検出
‒ 2段階目 : 1段階目の識別結果を入力し,人と背景の判別
SVM
SVM
SVM
SVM
SVM
入力画像 各パーツの探索領域 パーツの識別 識別結果 識別結果パーツの統合
各パーツの位置や大きさの変動を吸収できるため,姿勢の変化に対して頑健
14年3月29日土曜日
識別器によるパーツの統合 2
• Multiple Instance Learning(MIL)の適用
‒ 幾つかの事例の集合であるbagに対して付与されているラベルに
基づき学習する方法
52
頭部
胴体
足
例) 予め定義した頭部の位置周辺を適当にサンプリングしてbagとする
  MILを導入したBoostingにより識別器を学習
パーツの情報(部位,位置,大きさ)が不要
Y. Chen, et al. , "Multi-Class Multi-Instance Boosting for Part-Based Human Detection", Visual Surveillance, 2009.
P. Viola, et al. , "Multiple Instance Boosting for Object Detection", NIPS, 2006.
14年3月29日土曜日
グラフモデルによるパーツの統合 1
• Deformable parts model
‒ 人の全身とパーツの見えと位置の関係性をモデル化
‒ モデルをLatent SVMにより学習
53P. Felzenszwalb, et al. , "Object Detection with Discriminatively Trained Part Based Models", PAMI, 2009.
全身
頭部
左胴右胴
左手右手
脚部
k-fanモデル (k=1) ルートフィルタ パーツフィルタ検出例 パーツの変動範囲
ルートフィルタの見え パーツフィルタの見えパーツフィルタの位置関係
14年3月29日土曜日
投票処理によるパーツの統合 1
• Implicit Shape Model (ISM)
1. コーナー点を中心とした小領域をパッチとして抽出
2. パッチの輝度情報を基にベクトル量子化
3. コードブックを基に人の重心位置へ投票
4. 投票点をクラスタリングすることで物体を検出
54B. Leibe, et al. , "Robust Object Detection with Interleaved Categorization and Segmentation", IJCV, 2008.
14年3月29日土曜日
投票処理によるパーツの統合 2
• Hough Forests
‒ パッチの識別にRandom Forestsを利用
‒ 分岐関数にて下記の2点を考慮
• 人と背景の分けやすさ
• パッチの位置
55J. Gall, et al. , "Class-Specific Hough Forests for Object Detection", CVPR, 2009.
識別に判別モデルを導入することでパッチの識別性能が向上
Random Forests による識別入力画像 パッチの抽出 重心位置への投票
人の尤度
オフセット量 投票処理
14年3月29日土曜日
識別手法
• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法
56
14年3月29日土曜日
識別手法 -人領域の隠れへの対応-
• 人領域の隠れ : 人画像が部分的に欠損する
57
隠れた領域を考慮する識別器が必要
隠れ領域に対応した人検出を行う上での重要な点
隠れの推定
隠れ領域を考慮した識別
如何に隠れ領域を推定するか
推定した隠れ領域をどのように考慮して識別するか
→ 識別器に隠れ予測モデルを導入して隠れ領域を考慮
14年3月29日土曜日
隠れに対応した手法 1
• 局所領域毎に隠れ識別器を学習
• 隠れ識別器の結果をクラスタリングすることで隠れ領域
を推定
• 隠れの影響を受けにくい検出器(上半身,下半身等)を適用
58X. Wang, et al. , "An HOG-LBP Human Detector with Partial Occlusion Handling", ICCV, 2009.
入力画像 セグメンテーション隠れ推定
隠れ領域人領域
隠れなしと判定
14年3月29日土曜日
隠れに対応した手法 2
• 距離情報により対象人物よりも前方に存在する物体を障
害物として検知
• 隠れ領域を捉える識別器の出力に対して重み付け
59池村 他, "距離情報に基づく局所特徴量によるリアルタイム人検出", 信学論, Vol. 93-D, No. 3 pp. 355-364, 2010.
0 500
0.0
+1.0
-1.0
-0.27
+15.15
0 500
0.0
+1.0
-1.0
14年3月29日土曜日
識別手法
• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法
60
14年3月29日土曜日
識別手法 -視点の変化への対応-
• 視点の変化 : カメラの俯角に応じて人の見えが変化する
61
視点の変化により見えが変化するため,これ以外の
情報が必要
視点の変化に対応するために
幾何学的情報
どのようにして幾何学的な情報を利用するか
→ 識別器にて幾何学的な情報を利用,転移学習の導入
転移学習の導入
見えの変動が大きい場合にはシーンに合わせて識別器を最適化
14年3月29日土曜日
視点の変化に対応した手法 1
• 人検出器とジオメトリ,視点の関係をモデル化
62D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008.
入力画像 P(surfaces) P(viewpoint)
P(object | viewpoint)P(object | surfaces)P(object)
sky
Vertical
Ground
14年3月29日土曜日
視点の変化に対応した手法 1
• 人検出器とジオメトリ,視点の関係をモデル化
63D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008.
入力画像 P(surfaces) P(viewpoint)
P(object | surfaces, viewpoint)P(object)
sky
Vertical
Ground
ベイジアンネットにより
人検出器とジオメトリ,視点の
因果関係をモデル化
14年3月29日土曜日
検出結果の例
64D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008.
Human detector Full model
3 正検出 / 2 誤検出 4 正検出 / 0 誤検出
14年3月29日土曜日
視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
65J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.
元ドメイン 目標ドメイン
14年3月29日土曜日
視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
66J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.
h1 h2 hm
元ドメインで選択した特徴量
元ドメイン 目標ドメイン元ドメインの強識別器
Hs
14年3月29日土曜日
視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
• 特徴量の転移 : 選択された特徴量の位置を最適化
67J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.
h1 h2 hm
元ドメインで選択した特徴量
元ドメイン 目標ドメイン元ドメインの強識別器
Hs
14年3月29日土曜日
視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
• 特徴量の転移 : 選択された特徴量の位置を最適化
• 識別器の転移 : 選択された識別器の重みを最適化
68J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.
h1 h2 hm
元ドメインで選択した特徴量 転移された特徴量
元ドメイン 目標ドメイン元ドメインの強識別器 目標ドメインの強識別器
HtHs
大きな視点の変化による見えの変動を吸収することができる
14年3月29日土曜日
実用化に向けて検討するべき項目
• 人検出の高速化
• 学習サンプルの収集
• 歪みの除去
69
14年3月29日土曜日
人検出の高速化
• アルゴリズムによる高速化
‒ 特徴抽出の高速化
‒ 識別の高速化
• ハードウェアによる高速化
‒ 専用ハードウェアの利用
70
14年3月29日土曜日
特徴抽出の高速化
• 積分ヒストグラムによる勾配特徴量の高速演算
‒ 事前に積分ヒストグラムを作成
‒ 3回の加減算のみで局所領域の勾配和を演算可能
71
勾配方向 1 に対応する積分画像 勾配方向 6 に対応する積分画像
1 2 3 4 5 6
勾配方向
強度
A + D - B - C
領域 P の勾配和
P P
F. Porikli et al. , "Integral Histogram: a Fast Way to Extract Histograms in Cartesian Spaces", CVPR, 2005.
14年3月29日土曜日
識別の高速化
• カスケード型識別器の採用
‒ 複数の識別器を直列に並べる
‒ 背景画像を早期棄却できる
• 識別の計算回数の減少
72
背景画像
人画像
未知入力画像
1H 2H 3H
P. Viola et al. , "Robust Real-Time Object Detection", IJCV, 2004.
14年3月29日土曜日
専用ハードウェアの利用
• GPUによる実装
‒ 高速計算が可能なGPUを利用することで高速化
‒ 実装方法は試行錯誤
• CPU <=> GPUのデータ転送に最も時間がかかる
• メモリの使い方が重要
• 並列計算
73
HOST & CPU GPU
ダウンサンプリング
HOG 特徴量の抽出
SVM による識別ウィンドウの統合
画像の入力
結果の出力
V. Prisacariu et al. , "fastHOG - a real-time GPU implementation of HOG", Technical Report Oxford University, 2009.
CPUのみを使用した場合よりも67倍の高速化を実現
14年3月29日土曜日
学習サンプルの収集
74
• 高精度な人検出を実現するためには
‒ 大量の学習サンプル : 数千 数万サンプル
‒ 良質な学習サンプル : 位置ずれがないサンプル
平均勾配画像
14年3月29日土曜日
学習サンプルの収集
• CGから人画像を自動的に生成
75J. Marín et al. , "Learning Appearance in Virtual Scenarios for Pedestrian Detection", CVPR, 2010.
14年3月29日土曜日
歪みの除去
• 擬似的に平行投影した画像
から人を検出
‒ カメラパラメータ既知
‒ 人物は地面に直立している こ
とを仮定
76Y. Li et al. , "Human Detection by Searching in 3D Space Using Camera and Scene Knowledge", ICPR, 2008.
14年3月29日土曜日
発表の概要
• 人検出法の概要
• 手法
‒ 特徴抽出法
‒ 識別手法
• 実用化に向けて
• データベースと評価指標
• まとめ
77
14年3月29日土曜日
人画像データベース
78
学習用学習用 評価用評価用評価用
発表年
正規化人画像 背景画像 人画像 正規化人画像 背景画像
発表年
MIT 924 - - - - 1997
INRIA 2,416 1,218 288 1,132 453 2005
USC-A - - 205 303 - 2005
USC-B - - 54 271 - 2005
Daimler2006 14,400 150,000※ - 1,600 10,000 2006
USC-C - - 100 232 - 2007
ETH 1578 - 1803 9,380 - 2007
Daimler2009 15,660 6,744 21,800 56,492 - 2009
NICTA 18,700 5,200※ - 6,900 50,000 2008
TUD 400 - 250 311 - 2008
Caltech 192,000 61,000 56,000 155,000 5,600 2009
※は一定のサイズで切り出された画像を表わす
• 人画像とアノテーションファイルが公開されている
大規模化,様々な情報が付与される傾向
14年3月29日土曜日
INRIA Person Dataset (2006年)
• 人検出の分野で最も使用されているデータベース
79N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005.
URL : http://pascal.inrialpes.fr/data/human/
14年3月29日土曜日
Caltech Pedestrian Database (2009年)
• 2009年以降は本データベースにて評価する論文が急増
• 様々な情報が付与
‒ 人領域の隠れ,時系列の映像が使用可
80P. Dollár et al. , "Pedestrian Detection: A Benchmark", CVPR, 2009.
URL : http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/index.html
14年3月29日土曜日
評価指標
• 手法の性能を測るために未検出率と誤検出率を比較
1. Miss Rate VS False Positive Per Window (FPPW)
• 1検出ウィンドウあたりの誤検出した率
• 検出ウィンドウの統合処理を含まない
2. Miss Rate VS False Positive Per Image (FPPI)
• 1枚の画像あたりの誤検出した数
• 検出ウィンドウの統合処理を含む
81
検出器の性能が直感的に把握できるため,
近年ではMiss Rate VS FPPIにより評価する論文が多い
14年3月29日土曜日
人検出法の比較
• DETカーブによる比較
‒ 横軸に誤検出率,縦軸に未検出率
‒ 識別器の閾値を変えた際の誤検出率と未検出率をプロット
‒ グラフの左下に位置するDETカーブほど性能が高い
82P. Dollár et al. , "Pedestrian Detection : An Evaluation of the State of the Art", PAMI, 2009.
多数(勾配特徴量+α)を利用している
様々な条件下で手法を評価
- 人画像のスケール
- 人領域の隠れの有無
- 処理時間
14年3月29日土曜日
まとめ
• 統計的学習手法による人検出法のサーベイ
‒ 特徴抽出
• 人と背景を区別するための情報を持つ特徴量の設計
→ 人らしさを捉える,複雑な背景に対応可能
‒ 識別手法
• モデル化可能な要因を吸収できる識別器の構造
→ 向きの変化,姿勢の変化,人領域の隠れ,視点の変化に対応可能
83
14年3月29日土曜日
最新の研究動向と社会情勢からみる人検出
• CVPR2012からの傾向
‒ 検出したいシーンに合わせて識別器を最適化 3件
‒ 隠れに対応した人検出法 1件
‒ リアルタイム人検出法 1件
84
→ より実用的な問題を解決するような研究
• 社会情勢からの傾向
‒ EURO NCAP (http://www.euroncap.com)
‒ 自動車の安全性を測るテスト
‒ パッシブセーフティ機能による歩行者保護性能カテゴリ
‒ 消費者は評価を見て車を購入
→ 人検出がデファクトスタンダードとなる
14年3月29日土曜日

統計的学習手法による人検出