統計的学習手法による人検出

統計的学習手法による人検出
山内悠嗣†, 山下隆義†, 藤吉弘亘†
† 中部大学
14年3月29日土曜日

発表の概要
• 人検出法の概要
• 特徴抽出法
• 識別手法
• 実用化に向けて
• データベースと評価指標
• まとめ
2

人検出（物体検出）とは？
Find all the Xs = 物体検出
3
画像中に含まれる特定の物体（顔、人、車など）をすべて検出
X = face X = human X = car

物体検出の変遷
4
1969年
物体検出の研究が始まる
Sakai, Pattern Recognition, 1969.
顔検出人検出
1969 年 Sakai
顔検出に関する初めての研究
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Neural Network による顔の回転に
対応した顔検出
Schneiderman
Naive Bayes による顔向きに対応した
顔検出
Viola & Jones
積分画像とカスケード型識別器を
利用したリアルタイム顔検出
Papageorgiou
Wavelet と SVM を利用した人検出
Dalal
人検出に適した HOG 特徴量の提案
Felzenszwalb
Deformable Part Model を用いた
姿勢の変化に頑健な人検出
2011 年
2003 年 Viola & Jones
見えと動きに基づく人検出
1994 年 Yang
研究者のルールに基づいた顔検出
Wu
Edgelet 特徴量の提案
三田
特徴量間の共起を表現した Joint
Haar-like 特徴量の提案
Wang
部分的な隠れに対応した人検出
1996 年 Rowley
Neural Network による顔検出
Sung
クラス分布の距離に基づく顔検出
2002 年
2007 年 Wu
Cluster Boosted Tree による
向き・姿勢の違いに対応した人検出
Huang
スパース特徴量による顔検出
Watanabe
CoHOG 特徴量による人検出
1997 年 Osuna
SVM による顔検出
1994年
ルールベースの顔検出
Govindaraju, ICCV, 1990.
1996年
統計的学習手法の利用
Rowley, CVPR, 1996.
2001年
リアルタイム顔検出
Viola & Jones, CVPR, 2001.
2005年
検出対象の遷移顔 → 人
Dalal, CVPR, 2005.

5
1969年
顔検出人検出
1969 年 Sakai
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Schneiderman
顔検出
Viola & Jones
Papageorgiou
Dalal
Felzenszwalb
2011 年
1994 年 Yang
Wu
三田
Wang
1996 年 Rowley
Sung
2002 年
2007 年 Wu
Huang
Watanabe
1997 年 Osuna
1994年
1996年
Rowley, CVPR, 1996.
2001年
2005年
Dalal, CVPR, 2005.

6
1969年
顔検出人検出
1969 年 Sakai
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Schneiderman
顔検出
Viola & Jones
Papageorgiou
Dalal
Felzenszwalb
2011 年
1994 年 Yang
Wu
三田
Wang
1996 年 Rowley
Sung
2002 年
2007 年 Wu
Huang
Watanabe
1997 年 Osuna
1994年
1996年
Rowley, CVPR, 1996.
2001年
2005年
Dalal, CVPR, 2005.

7
1969年
顔検出人検出
1969 年 Sakai
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Schneiderman
顔検出
Viola & Jones
Papageorgiou
Dalal
Felzenszwalb
2011 年
1994 年 Yang
Wu
三田
Wang
1996 年 Rowley
Sung
2002 年
2007 年 Wu
Huang
Watanabe
1997 年 Osuna
1994年
1996年
Rowley, CVPR, 1996.
2001年
2005年
Dalal, CVPR, 2005.

8
1969年
顔検出人検出
1969 年 Sakai
1998 年
2005 年
2004 年
2009 年
2008 年
2006 年
2000 年
2001 年
Rowley
Schneiderman
顔検出
Viola & Jones
Papageorgiou
Dalal
Felzenszwalb
2011 年
1994 年 Yang
Wu
三田
Wang
1996 年 Rowley
Sung
2002 年
2007 年 Wu
Huang
Watanabe
1997 年 Osuna
1994年
1996年
Rowley, CVPR, 1996.
2001年
2005年
Dalal, CVPR, 2005.

人検出の難しさ
9
見えの個体差向きの変化
人領域の隠れ姿勢の変化視点の変化
複雑な背景
様々な要因が同時発生して見えの変動が大きいため、困難な問題

物体検出手法の分類
10
物体検出
知識を利用する手法統計的学習手法を利用する手法
- 標準的な顔の目や口の位置関係
- 顔の色やエッジ，テクスチャ等の
特徴をルールとして定義
- 大量の学習データにより，物体の
アピアランス変化を考慮した
モデルを定義
近年は統計的学習手法を利用するアプローチが多い

統計的学習手法による物体検出の流れ
11
人の学習サンプル
人以外の学習サンプル
特
徴
抽
出
統
計
的
学
習
手
法
特
徴
抽
出
識
別
器
人以外
特
徴
抽
出
特
徴
抽
出
人
人
識
別
結
果
の
統
合
処
理
統計的学習手法による識別器の学習
識別器による人画像の識別
識別結果の統合前
検出器
識別結果の統合結果
オ
フ
ラ
イ
ン
処
理
オ
ン
ラ
イ
ン
処
理

統計的学習手法による学習の流れ
12
• オフライン処理
‒ 大量の学習サンプルから統計的学習手法により識別器を学習
人の学習サンプル
人以外の学習サンプル
特
徴
抽
出
統
計
的
学
習
手
法
識
別
器
ex.
SVM
AdaBoost

学習と検出の流れ
13
特
徴
抽
出
識
別
器
人以外
特
徴
抽
出
特
徴
抽
出
人
人
識
別
結
果
の
統
合
処
理
識別器による人画像の識別
識別結果の統合前
検出器
識別結果の統合結果
• オンライン処理
‒ 検出ウィンドウのラスタスキャン後，識別結果を統合

人検出の難しさへの対応方法
14
複雑な背景

人検出の難しさへの対応方法
14
複雑な背景
ポイント
・様々な変化に頑健な特徴抽出と識別器を実現するか？

人検出を困難にする要因と対応策
15
要因
対応策対応策
代表的な手法要因
特徴量識別器
代表的な手法
見えの個体差
勾配，色，
動き，距離
HOG, CSS, HOF
複雑な背景特徴量の共起
Joint Haar-like, CoHOG,
Joint HOG
向きの変化複数の識別器 Cluster Boosted Tree
姿勢の変化パーツベース
Deformable parts model,
Hough Forest
人領域の隠れ隠れの推定
グローバル及びパーツベース識別
器の組合わせ
視点の変化幾何学情報の利用
シーンのモデリング，
転移学習

発表の概要
• 特徴抽出法
• 識別手法
• まとめ
16

特徴抽出法のサーベイ
• 人らしさを捉える局所特徴量
‒ 勾配情報に基づく特徴量
‒ 色情報に基づく特徴量
‒ 動きに基づく特徴量
‒ 距離に基づく特徴量
• 人の構造を捉える特徴量
‒ 統計的学習手法を用いない特徴量間の共起
‒ 統計的学習手法を用いた特徴量間の共起
17

人らしさを捉える特徴量
特徴抽出法 -人らしさを捉える局所特徴量-
• 見えの個体差：衣服・体格によりアピアランスが異なる
18
見えの変動を最小現に抑える人らしさを捉える
特徴量”を設計する必要がある
勾配情報ベース色情報ベース
動きベース距離ベース

勾配に基づく特徴抽出
19
EOH(Edge of Orientation Histograms)
局所的な勾配方向の比を捉える
−少ない枚数で検出器を実現
Edgelet
局所領域に含まれる特定形状を捉える
−Boostingとの組み合せて高い識別率を実現
LBP(Local Binary Pattern)
局所的な輝度の分布をバイナリコードとして捉える
−顔認識等でも幅広く利用
HOG(Histograms of Oriented Gradients)
局所領域に含まれる勾配分布を捉える
−高い識別率を実現し、よく利用されている
−派生した特徴量が多数：EHOG, C-HOGなど
N. Dalal, CVPR 2005.
B. Wu, CVPR 2005.K. Levi, CVPR 2004.
Y. D. Mu, CVPR 2008.

勾配に基づく特徴抽出 1
• EOH(Edge of Orientation Histograms)
‒ 局所領域から得られる勾配ヒストグラムの比率を特徴量とする
20
少ない学習サンプルで高精度な識別器を学習可能
K. Levi et al. , "Learning Object Detection from a Small Number of Examples: the Importance of Good Features",
CVPR, 2004.

• Edgelet
‒ 局所領域に含まれる特定形状を捉える
• 直線性，円弧，対称性
21
Boostingと組み合せて高い識別率を実現
B. Wu et al. , "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination
of Edgelet Part Detectors", CVPR, 2005.

• LBP(Local Binary Pattern)
‒ 注目画素と近傍画素の輝度の大小関係を表現
‒ 局所領域におけるバイナリパターンをヒストグラム化
22
LBP
50 105
95255 200
80220 180
75 0 1
1 1
01 1
0
100 80
110100 150
10080 90
220 0 0
0 1
00 0
1
00000000
11111111
入力画像 3x3 画素ヒストグラム
局所的な輝度の分布をバイナリコードとして捉える
Y. D. Mu et al. , "Discriminative Local Binary Patterns for Human Detection in Personal Album", CVPR, 2008.

• HOG(Histograms of Oriented Gradients)
‒ 局所領域に含まれる勾配分布を捉える
23
人検出の分野ではデファクトスタンダードな特徴量
派生した特徴量が多数提案 : EHOG，C-HOG，P-HOG
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005.

色情報に基づく特徴抽出 1
• Integral Channel Features (ICF)
‒ 輝度，色，勾配などの特徴量を併用
• 特徴量 : 局所領域の画素値の和
‒ 積分画像，積分ヒストグラムで高速に計算できる特徴量を利用
24
色は人の衣服に左右されるため悪影響の可能性がある
P. Dollár et al. , "Integral Channel Features", BMVC, 2009.

• Integral Channel Features (ICF)
‒ 輝度，色，勾配などの特徴量を併用
• 特徴量 : 局所領域の画素値の和
‒ 積分画像，積分ヒストグラムで高速に計算できる特徴量を利用
25P. Dollár et al. , "Integral Channel Features", BMVC, 2009.
全弱識別器の可視化
Uチャンネルの
顔が一番強い

• Color Self-Similarity (CSS)
‒ 2つの局所領域から得られる色ヒストグラムの類似度を
特徴量として利用
‒ ２つの局所領域が同一部位かどうかを暗に表現
26
色ヒストグラムp入力画像セルC (8 8ピクセル)
頻度
}
}
}
H S V
}
}
}
H S V
頻度
類似度 S
色情報に対する依存がないため，人検出に色情報を有効活用できる
S. Walk et al. , "New Features and Insights for Pedestrian Detection", CVPR, 2010.

動きに基づく特徴量
• 空間的変化を捉える特徴量
• 時間的変化を捉える特徴量
• 時空間変化を捉える特徴量
27

空間的変化を捉える特徴量
• 背景差分により得られる前景領域を捉える
‒ 背景差分をベースとした手法により前景領域の確率を算出
28
固定カメラに限定
J. Yao et al. , "Fast Human Detection from Videos Using Covariance Features", Visual Surveillance, 2008.

時間的変化を捉える特徴量 1
• モーションフィルタ(Haar-like)
‒ 2フレーム間の動きを3つのモーションフィルタで捉える
• 時間的な移動 : フレーム間差分
• 擬似的な移動 : 1フレーム目を擬似的に上下左右に1ピクセル移動
• 擬似的な移動の差 : フレーム間差分 - 擬似的な移動
29
低解像度画像 (20 x 15画素)に適応可能
P. Viola et al. , "Detecting Pedestrians Using Patterns of Motion and Appearance", ICCV, 2003.

時間的変化を捉える特徴量 2
• Histograms of Flow (HOF)
‒ 2つの特徴表現
• オプティカルフローをHOG特徴量(HOF)のように表現
• 近傍のオプティカルフローヒストグラムとの差を特徴量として表現
30
相対的な動きを観測 → 移動カメラへ適応可能
t, t+1フレームの画像フローとその境界フローから得られる勾配平均勾配画像
N. Dalal et al. , "Human Detection Using Oriented Histograms of Flow and Appearance", ECCV, 2006.

時空間変化を捉える特徴量
• ST-Patch
‒ 局所領域内の空間方向の勾配，時間方向の勾配の大きさを捉える
• 局所的な領域の見えと動きを表現
31
ST-Patch
村井他 , "Space-Time Patchを用いた物体の移動方向識別とセグメンテーション", 情報処理学会論文誌, 2008.

距離に基づく特徴量
32
TOF
Real AdaBoost
+
/
S ( - )22
S ( - )64000
S ( - )1530
h ( )1 S64000
h ( )2 S22
h ( )100 Occlusion
/
+
+
+
Bhattacharyya
0 7.5m]
7.5
m]
0
TOFカメラ Microsoft Kinect
距離画像計測デバイス
RDSF(Relational Depth Similarity Feature)
局所領域間の距離の差を捉える
人−人：距離差は小
人−背景：距離差は大
距離画像により背景テクスチャの影響を受けない
池村他 , "距離情報に基づく局所特徴量によるリアルタイム人検出", 電子情報通信学会論文誌, 2010.

特徴抽出法のサーベイ
• 人らしさを捉える局所特徴量
‒ 勾配情報に基づく特徴量
‒ 色情報に基づく特徴量
‒ 動きに基づく特徴量
‒ 距離に基づく特徴量
• 人の構造を捉える特徴量
‒ 統計的学習手法を用いない特徴量間の共起
‒ 統計的学習手法を用いた特徴量間の共起
33

人の構造を捉える特徴量
特徴抽出法 -人の構造を捉える特徴量-
• 複雑背景：（局所領域でみると）人に似た領域がある
34
統計的学習手法を用いない特徴量間の共起
統計的学習手法を用いた特徴量間の共起
共起表現
複雑背景への誤検出を抑える人の構造を
捉える特徴量”を設計する必要あり

統計的学習手法を用いない特徴量間の共起
• CoHOG(Co-occurrence HOG)
‒ 局所領域内の勾配のペアを累積した同時生起行列
‒ 2カ所の局所領域の勾配と勾配の関係性を表現することで
人の形状の構造を捉えられる
35
T. Watanabe et al. , "Co-occurrence Histograms of Oriented Gradients for Human Detection", IPSJ Trans. on
CVA, 2010.

統計的学習手法を用いる特徴量間の共起 1
• Shapelet
‒ 1段階目 : 4方向エッジとBoostingによりShapeletを生成
‒ 2段階目 : ShapeletとBoostingにより識別器を学習
36
Boostingにより識別に有効な局所領域内のエッジを捉える
P. Sabzmeydani et al. , "Detecting Pedestrians by Learning Shapelet Features", CVPR, 2007.
AdaBoost
AdaBoost
AdaBoost
AdaBoost
入力画像と 4 方向エッジの算出 Shapelet 特徴量
識別器
1 段階目の AdaBoost 2 段階目の AdaBoost

統計的学習手法を用いる特徴量間の共起 2
• Joint HOG
‒ 1段階目 : 2つのHOGとBoostingによりJoint HOGを生成
‒ 2段階目 : Joint HOGとBoostingにより識別器を学習
37
Boostingにより識別に有効な局所領域の関係性を捉える
三井他 , "Joint特徴量を用いた2段階Boostingによる物体検出", 電子情報通信学会, 2009.

特徴抽出のまとめ
38
特徴量長所短所
人らしさを
捉える特徴
量
勾配情報ベース EOH，Edgelet
HOG, LBP
人の特徴をよく表現できるテクスチャの影響を受ける
(服の模様など)
人らしさを
捉える特徴
量
色情報ベース ICF
CSS
エッジが明確でない画像から
も有効な特徴が抽出できる
計算コストが大きい
人らしさを
捉える特徴
量
動き情報ベース前景尤度
HOF
テクスチャの影響を受けない連続した複数枚の画像が
必要
人らしさを
捉える特徴
量
距離情報ベース RDSF
距離差分
テクスチャの影響を受けない
人の形状を明確に捉えられる
特殊なデバイスが必要
画角，距離に制限がある
人の構造を
捉える特徴
量
全ての共起を利
用
CoHOG 人に似た背景の誤検出を抑制
できる
特徴量によっては学習時に
大量のメモリが必要
人の構造を
捉える特徴
量
有効な共起を選
択
Joint HOG
Shapelet
人に似た背景の誤検出を抑制
できる
学習に多大な時間がかかる

人検出器
特徴抽出と識別手法
39
人らしさを
どのように表現するか
人に共通する要素を
どのように見つけるか
特徴抽出識別手法個体差
複雑な背景隠れ
視点変化
向き変化
姿勢変化

識別手法
• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法
40

識別手法 - 向きの変化への対応-
• 向きの変化 : 人とカメラの位置関係により見えが異なる
41
人の向きに左右されない識別器を学習する必要
→ 各々の向きに対応した複数の識別器により対応
向きの変化に対応した手法
向きのラベルを必要とする手法
向きのラベルを必要としない手法
人手で付与した向きのラベルを持つサンプル毎により識別器を学習
統計的学習手法によりクラスタリングされたサンプルにより識別器を学習

向きのラベルを必要とする手法 1
42
• 角度推定器と識別器の二段階の構成
‒ ルータにより顔の回転角を推定
‒ 推定された回転角に合わせて回転した画像を識別
H. Rowley, et al. , "Rotation Invariant Neural Network-Based Face Detection", CVPR, 1998.
ルータによる回転角の推定識別器による人と背景の識別
向きに対しても同様のアプローチで解ける

向きのラベルを必要とする手法 2
• 多クラス識別器の利用(Vector Boosting)
‒ 多クラス識別 : 分岐関数までの識別器(FLR1, ..., FLRN-1)
‒ 向き分類器 : 分岐関数(FLRN)
‒ 2クラス識別 : 分岐関数以降の識別器(Ln, Fn, Rn)
43C. Hou, et al. , "Multiview Pedestrian Detection Based on Vector Boosting", ACCV, 2007.
人と背景を識別向き分類器それぞれの向きの人と背景を識別

向きに対応した手法の検出の例
44
正面 / 背面右向き左向き

向きのラベルを必要としない手法 1
• 分割統治法による識別器の学習
‒ 解決が困難な問題を小さな問題に分割して解く
‒ サンプルを分割し，サブクラスを考慮した2クラス識別器を学習
45土屋他 , "Boostingに基づく分割統治的戦略による高精度な識別器構築手法, 信学論, Vol. 95-D, No. 3 pp. 656-665, 2012
学習サンプルクラスタリング
分割統治法による学習
サブクラス2 識別器 2
正面
左向き
右向き

向きのラベルを必要としない手法 2
46B. Wu, et al. , "Cluster Boosted Tree Classiﬁer for Multi-View, Multi-Pose Object Detection", ICCV, 2007.
• Cluster Boosted Tree (CVT)
‒ 逐次的に識別器の学習とサンプルのクラスタリングを行う
‒ 向き毎の強識別器Hは，弱識別器hを共有
識別が容易となるようにサンプルを自動的に分割

識別手法
47

識別手法 - 姿勢の変化への対応 -
• 姿勢の変化 : 人のとる姿勢により人の見え方が変化する
48
人の姿勢の変化に対応可能な構造を持つ識別器が必要
姿勢の変化に対応するための重要な点
パーツの定義
パーツの統合方法
如何に人の見えの変動が少ないようなパーツに定義するか
検出したパーツをどのように統合して人と背景を識別するか
→ 姿勢の変化による見えの変動が少ないパーツを
検出し，パーツの関係性を捉える

パーツの定義方法
49
ルールベース画像の位置
特徴点ベース統計的アプローチ
研究者が定義したルールで分割
•適応的にパーツを分割できる
•最適なパーツの定義が必要
•パーツのラベル付けのコスト大
•微小な位置ずれが含まれる
画像の位置で分割
特徴点を中心とした小領域関節位置のずれが学習
サンプルで最小となる領域
•パーツのラベル付けコスト小
•適応的にパーツを分割できない
•最適なパーツの定義が必要
•パーツのラベル付けコストがない
•人領域以外からも検出される
poselet
•検出に適したパーツを
自動的に決定
•関節位置の付与コスト
パーツの定義に合わせて，適切なパーツの統合方法を採用することが重要

パーツの統合方法
• 識別器によるパーツの統合
‒ Adaptive Combination of Classiﬁer
‒ Multiple Instance Boosting
• グラフモデルによるパーツの統合
‒ Deformable Parts Model
• 投票処理によるパーツの統合
‒ Implicit Shape Model
‒ Hough Forests
50

識別器によるパーツの統合 1
51A. Mohan, et al. , "Example-Based Object Detection in Images by Components", PAMI, 2001.
• Adaptive Combination of Classiﬁer (ACC)
‒ 1段階目 : SVMにより各パーツを検出
‒ 2段階目 : 1段階目の識別結果を入力し，人と背景の判別
SVM
SVM
SVM
SVM
SVM
入力画像各パーツの探索領域パーツの識別識別結果識別結果パーツの統合
各パーツの位置や大きさの変動を吸収できるため，姿勢の変化に対して頑健

識別器によるパーツの統合 2
• Multiple Instance Learning(MIL)の適用
‒ 幾つかの事例の集合であるbagに対して付与されているラベルに
基づき学習する方法
52
頭部
胴体
足
例) 予め定義した頭部の位置周辺を適当にサンプリングしてbagとする
MILを導入したBoostingにより識別器を学習
パーツの情報(部位，位置，大きさ)が不要
Y. Chen, et al. , "Multi-Class Multi-Instance Boosting for Part-Based Human Detection", Visual Surveillance, 2009.
P. Viola, et al. , "Multiple Instance Boosting for Object Detection", NIPS, 2006.

グラフモデルによるパーツの統合 1
• Deformable parts model
‒ 人の全身とパーツの見えと位置の関係性をモデル化
‒ モデルをLatent SVMにより学習
53P. Felzenszwalb, et al. , "Object Detection with Discriminatively Trained Part Based Models", PAMI, 2009.
全身
頭部
左胴右胴
左手右手
脚部
k-fanモデル (k=1) ルートフィルタパーツフィルタ検出例パーツの変動範囲
ルートフィルタの見えパーツフィルタの見えパーツフィルタの位置関係

投票処理によるパーツの統合 1
• Implicit Shape Model (ISM)
1. コーナー点を中心とした小領域をパッチとして抽出
2. パッチの輝度情報を基にベクトル量子化
3. コードブックを基に人の重心位置へ投票
4. 投票点をクラスタリングすることで物体を検出
54B. Leibe, et al. , "Robust Object Detection with Interleaved Categorization and Segmentation", IJCV, 2008.

投票処理によるパーツの統合 2
• Hough Forests
‒ パッチの識別にRandom Forestsを利用
‒ 分岐関数にて下記の2点を考慮
• 人と背景の分けやすさ
• パッチの位置
55J. Gall, et al. , "Class-Speciﬁc Hough Forests for Object Detection", CVPR, 2009.
識別に判別モデルを導入することでパッチの識別性能が向上
Random Forests による識別入力画像パッチの抽出重心位置への投票
人の尤度
オフセット量投票処理

識別手法
56

識別手法 -人領域の隠れへの対応-
• 人領域の隠れ : 人画像が部分的に欠損する
57
隠れた領域を考慮する識別器が必要
隠れ領域に対応した人検出を行う上での重要な点
隠れの推定
隠れ領域を考慮した識別
如何に隠れ領域を推定するか
推定した隠れ領域をどのように考慮して識別するか
→ 識別器に隠れ予測モデルを導入して隠れ領域を考慮

隠れに対応した手法 1
• 局所領域毎に隠れ識別器を学習
• 隠れ識別器の結果をクラスタリングすることで隠れ領域
を推定
• 隠れの影響を受けにくい検出器(上半身，下半身等)を適用
58X. Wang, et al. , "An HOG-LBP Human Detector with Partial Occlusion Handling", ICCV, 2009.
入力画像セグメンテーション隠れ推定
隠れ領域人領域
隠れなしと判定

隠れに対応した手法 2
• 距離情報により対象人物よりも前方に存在する物体を障
害物として検知
• 隠れ領域を捉える識別器の出力に対して重み付け
59池村他, "距離情報に基づく局所特徴量によるリアルタイム人検出", 信学論, Vol. 93-D, No. 3 pp. 355-364, 2010.
0 500
0.0
+1.0
-1.0
-0.27
+15.15
0 500
0.0
+1.0
-1.0

識別手法
60

識別手法 -視点の変化への対応-
• 視点の変化 : カメラの俯角に応じて人の見えが変化する
61
視点の変化により見えが変化するため，これ以外の
情報が必要
視点の変化に対応するために
幾何学的情報
どのようにして幾何学的な情報を利用するか
→ 識別器にて幾何学的な情報を利用，転移学習の導入
転移学習の導入
見えの変動が大きい場合にはシーンに合わせて識別器を最適化

視点の変化に対応した手法 1
• 人検出器とジオメトリ，視点の関係をモデル化
62D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008.
入力画像 P(surfaces) P(viewpoint)
P(object | viewpoint)P(object | surfaces)P(object)
sky
Vertical
Ground

• 人検出器とジオメトリ，視点の関係をモデル化
入力画像 P(surfaces) P(viewpoint)
P(object | surfaces, viewpoint)P(object)
sky
Vertical
Ground
ベイジアンネットにより
人検出器とジオメトリ,視点の
因果関係をモデル化

検出結果の例
Human detector Full model
3 正検出 / 2 誤検出 4 正検出 / 0 誤検出

• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
65J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011.
元ドメイン目標ドメイン

h1 h2 hm
元ドメインで選択した特徴量
元ドメイン目標ドメイン元ドメインの強識別器
Hs

• 特徴量の転移 : 選択された特徴量の位置を最適化
h1 h2 hm
元ドメインで選択した特徴量
元ドメイン目標ドメイン元ドメインの強識別器
Hs

• 特徴量の転移 : 選択された特徴量の位置を最適化
• 識別器の転移 : 選択された識別器の重みを最適化
h1 h2 hm
元ドメインで選択した特徴量転移された特徴量
元ドメイン目標ドメイン元ドメインの強識別器目標ドメインの強識別器
HtHs
大きな視点の変化による見えの変動を吸収することができる

実用化に向けて検討するべき項目
• 人検出の高速化
• 学習サンプルの収集
• 歪みの除去
69

人検出の高速化
• アルゴリズムによる高速化
‒ 特徴抽出の高速化
‒ 識別の高速化
• ハードウェアによる高速化
‒ 専用ハードウェアの利用
70

特徴抽出の高速化
• 積分ヒストグラムによる勾配特徴量の高速演算
‒ 事前に積分ヒストグラムを作成
‒ 3回の加減算のみで局所領域の勾配和を演算可能
71
勾配方向 1 に対応する積分画像勾配方向 6 に対応する積分画像
1 2 3 4 5 6
勾配方向
強度
A + D - B - C
領域 P の勾配和
P P
F. Porikli et al. , "Integral Histogram: a Fast Way to Extract Histograms in Cartesian Spaces", CVPR, 2005.

識別の高速化
• カスケード型識別器の採用
‒ 複数の識別器を直列に並べる
‒ 背景画像を早期棄却できる
• 識別の計算回数の減少
72
背景画像
人画像
未知入力画像
1H 2H 3H
P. Viola et al. , "Robust Real-Time Object Detection", IJCV, 2004.

専用ハードウェアの利用
• GPUによる実装
‒ 高速計算が可能なGPUを利用することで高速化
‒ 実装方法は試行錯誤
• CPU <=> GPUのデータ転送に最も時間がかかる
• メモリの使い方が重要
• 並列計算
73
HOST & CPU GPU
ダウンサンプリング
HOG 特徴量の抽出
SVM による識別ウィンドウの統合
画像の入力
結果の出力
V. Prisacariu et al. , "fastHOG - a real-time GPU implementation of HOG", Technical Report Oxford University, 2009.
CPUのみを使用した場合よりも67倍の高速化を実現

学習サンプルの収集
74
• 高精度な人検出を実現するためには
‒ 大量の学習サンプル : 数千数万サンプル
‒ 良質な学習サンプル : 位置ずれがないサンプル
平均勾配画像

学習サンプルの収集
• CGから人画像を自動的に生成
75J. Marín et al. , "Learning Appearance in Virtual Scenarios for Pedestrian Detection", CVPR, 2010.

歪みの除去
• 擬似的に平行投影した画像
から人を検出
‒ カメラパラメータ既知
‒ 人物は地面に直立しているこ
とを仮定
76Y. Li et al. , "Human Detection by Searching in 3D Space Using Camera and Scene Knowledge", ICPR, 2008.

発表の概要
• 手法
‒ 特徴抽出法
‒ 識別手法
• まとめ
77

人画像データベース
78
学習用学習用評価用評価用評価用
発表年
正規化人画像背景画像人画像正規化人画像背景画像
発表年
MIT 924 - - - - 1997
INRIA 2,416 1,218 288 1,132 453 2005
USC-A - - 205 303 - 2005
USC-B - - 54 271 - 2005
Daimler2006 14,400 150,000※ - 1,600 10,000 2006
USC-C - - 100 232 - 2007
ETH 1578 - 1803 9,380 - 2007
Daimler2009 15,660 6,744 21,800 56,492 - 2009
NICTA 18,700 5,200※ - 6,900 50,000 2008
TUD 400 - 250 311 - 2008
Caltech 192,000 61,000 56,000 155,000 5,600 2009
※は一定のサイズで切り出された画像を表わす
• 人画像とアノテーションファイルが公開されている
大規模化，様々な情報が付与される傾向

INRIA Person Dataset (2006年)
• 人検出の分野で最も使用されているデータベース
79N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005.
URL : http://pascal.inrialpes.fr/data/human/

Caltech Pedestrian Database (2009年)
• 2009年以降は本データベースにて評価する論文が急増
• 様々な情報が付与
‒ 人領域の隠れ，時系列の映像が使用可
80P. Dollár et al. , "Pedestrian Detection: A Benchmark", CVPR, 2009.
URL : http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/index.html

評価指標
• 手法の性能を測るために未検出率と誤検出率を比較
1. Miss Rate VS False Positive Per Window (FPPW)
• 1検出ウィンドウあたりの誤検出した率
• 検出ウィンドウの統合処理を含まない
2. Miss Rate VS False Positive Per Image (FPPI)
• 1枚の画像あたりの誤検出した数
• 検出ウィンドウの統合処理を含む
81
検出器の性能が直感的に把握できるため，
近年ではMiss Rate VS FPPIにより評価する論文が多い

人検出法の比較
• DETカーブによる比較
‒ 横軸に誤検出率，縦軸に未検出率
‒ 識別器の閾値を変えた際の誤検出率と未検出率をプロット
‒ グラフの左下に位置するDETカーブほど性能が高い
82P. Dollár et al. , "Pedestrian Detection : An Evaluation of the State of the Art", PAMI, 2009.
多数(勾配特徴量+α)を利用している
様々な条件下で手法を評価
- 人画像のスケール
- 人領域の隠れの有無
- 処理時間

まとめ
• 統計的学習手法による人検出法のサーベイ
‒ 特徴抽出
• 人と背景を区別するための情報を持つ特徴量の設計
→ 人らしさを捉える，複雑な背景に対応可能
‒ 識別手法
• モデル化可能な要因を吸収できる識別器の構造
→ 向きの変化，姿勢の変化，人領域の隠れ，視点の変化に対応可能
83

最新の研究動向と社会情勢からみる人検出
• CVPR2012からの傾向
‒ 検出したいシーンに合わせて識別器を最適化 3件
‒ 隠れに対応した人検出法 1件
‒ リアルタイム人検出法 1件
84
→ より実用的な問題を解決するような研究
• 社会情勢からの傾向
‒ EURO NCAP (http://www.euroncap.com)
‒ 自動車の安全性を測るテスト
‒ パッシブセーフティ機能による歩行者保護性能カテゴリ
‒ 消費者は評価を見て車を購入
→ 人検出がデファクトスタンダードとなる

統計的学習手法による人検出

More Related Content

Similar to 統計的学習手法による人検出

More from MPRG_Chubu_University

統計的学習手法による人検出