統計的学習手法よる人検出

[サーベイ報告]
統計的学習手法による人検出
2012年11月17日
第21回名古屋CV•PRML勉強会

山内悠嗣, 藤吉弘亘
中部大学

http://www.vision.cs.chubu.ac.jp/CVTutorial/PPT/HumanDetectionSurvey.pdf

発表の概要

• 人検出法の概要
• 特徴抽出法
• 識別手法
• 実用化に向けて
• データベースと評価指標
• まとめ

2

人検出（物体検出）とは？

Find all the Xs = 物体検出

X = face X = human X = car

画像中に含まれる特定の物体（顔、人、車など）をすべて検出

3

物体検出の変遷
顔検出人検出
1969 年 Sakai
1969年
顔検出に関する初めての研究

1994 年 Yang
研究者のルールに基づいた顔検出
物体検出の研究が始まる
Sung

1996 年
クラス分布の距離に基づく顔検出

Rowley
Sakai, Pattern Recognition, 1969.
Neural Network による顔検出

1997 年 Osuna
SVM による顔検出
1994年
1998 年 Rowley
Neural Network による顔の回転に
対応した顔検出
ルールベースの顔検出
2000 年 Schneiderman Papageorgiou
Naive Bayes による顔向きに対応した
顔検出
Wavelet と SVM を利用した人検出 Govindaraju, ICCV, 1990.
2001 年 Viola & Jones
積分画像とカスケード型識別器を
利用したリアルタイム顔検出 1996年
2002 年

統計的学習手法の利用
見えと動きに基づく人検出
Rowley, CVPR, 1996.
2004 年

2005 年三田 Dalal
特徴量間の共起を表現した Joint
Haar-like 特徴量の提案
人検出に適した HOG 特徴量の提案 2001年
Wu

2006 年 Huang
Edgelet 特徴量の提案
リアルタイム顔検出
スパース特徴量による顔検出

2007 年 Wu
Cluster Boosted Tree による
Viola & Jones, CVPR, 2001.
向き・姿勢の違いに対応した人検出

2008 年 Felzenszwalb
Deformable Part Model を用いた
姿勢の変化に頑健な人検出
2005年
2009 年 Wang
部分的な隠れに対応した人検出検出対象の遷移顔 → 人
Watanabe
CoHOG 特徴量による人検出
Dalal, CVPR, 2005.
2011 年
4

顔検出人検出
1969 年 Sakai
1969年

1994 年 Yang
Sung

1996 年

Rowley

1997 年 Osuna
1994年
1998 年 Rowley
顔検出
2002 年

Rowley, CVPR, 1996.
2004 年

Wu

2006 年 Huang

2007 年 Wu

2005年
2009 年 Wang
Watanabe
Dalal, CVPR, 2005.
2011 年
5

顔検出人検出
1969 年 Sakai
1969年

1994 年 Yang
Sung

1996 年

Rowley

1997 年 Osuna
1994年
1998 年 Rowley
顔検出
2002 年

Rowley, CVPR, 1996.
2004 年

Wu

2006 年 Huang

2007 年 Wu

2005年
2009 年 Wang
Watanabe
Dalal, CVPR, 2005.
2011 年
6

顔検出人検出
1969 年 Sakai
1969年

1994 年 Yang
Sung

1996 年

Rowley

1997 年 Osuna
1994年
1998 年 Rowley
顔検出
2002 年

Rowley, CVPR, 1996.
2004 年

Wu

2006 年 Huang

2007 年 Wu

2005年
2009 年 Wang
Watanabe
Dalal, CVPR, 2005.
2011 年
7

顔検出人検出
1969 年 Sakai
1969年

1994 年 Yang
Sung

1996 年

Rowley

1997 年 Osuna
1994年
1998 年 Rowley
顔検出
2002 年

Rowley, CVPR, 1996.
2004 年

Wu

2006 年 Huang

2007 年 Wu

2005年
2009 年 Wang
Watanabe
Dalal, CVPR, 2005.
2011 年
8

人検出の難しさ

見えの個体差複雑な背景向きの変化

姿勢の変化人領域の隠れ視点の変化

様々な要因が同時発生して見えの変動が大きいため、困難な問題

9

物体検出手法の分類

物体検出

知識を利用する手法統計的学習手法を利用する手法

- 標準的な顔の目や口の位置関係 - 大量の学習データにより，物体の
- 顔の色やエッジ，テクスチャ等のアピアランス変化を考慮した
特徴をルールとして定義モデルを定義

近年は統計的学習手法を利用するアプローチが多い
10

統計的学習手法による物体検出の流れ

オ
フ統
計
ラ人の学習サンプル
特
徴的
抽学
イ出習
手
ン法

処
理人以外の学習サンプル

統計的学習手法による識別器の学習

特
徴人以外
抽
オ出

ン
ラ特
徴識
識別結果の統合前
別人
イ抽
出器識
別
ン結
果
処特の
徴統
理抽
人
合
出処
理

識別器による人画像の識別識別結果の統合結果

検出器 11

統計的学習手法による学習の流れ

• オフライン処理
‒ 大量の学習サンプルから統計的学習手法により識別器を学習

統
特計
人の学習サンプル徴的識
抽学別
出習器
手
法
ex.
SVM
AdaBoost
人以外の学習サンプル

12

学習と検出の流れ

• オンライン処理
‒ 検出ウィンドウのラスタスキャン後，識別結果を統合

特
徴人以外
抽
出

特
徴識識別結果の統合前
抽別人
出器識
別
結
果
特の
徴人統
抽合
出処
理

識別結果の統合結果
識別器による人画像の識別

検出器
13

人検出の難しさへの対応方法

見えの個体差複雑な背景向きの変化

姿勢の変化人領域の隠れ視点の変化

ポイント
・様々な変化に頑健な特徴抽出と識別器を実現するか？

14

人検出を困難にする要因と対応策

対応策
要因代表的な手法
特徴量識別器
勾配，色，
見えの個体差 HOG, CSS, HOF
動き，距離
Joint Haar-like, CoHOG,
複雑な背景特徴量の共起
Joint HOG

向きの変化複数の識別器 Cluster Boosted Tree

Deformable parts model,
姿勢の変化パーツベース
Hough Forest
グローバル及びパーツベース識別
人領域の隠れ隠れの推定
器の組合わせ
シーンのモデリング，
視点の変化幾何学情報の利用
転移学習

15

発表の概要

• 特徴抽出法
• 識別手法
• まとめ

16

特徴抽出法のサーベイ

• 人らしさを捉える局所特徴量
‒ 勾配情報に基づく特徴量
‒ 色情報に基づく特徴量
‒ 動きに基づく特徴量
‒ 距離に基づく特徴量

• 人の構造を捉える特徴量
‒ 統計的学習手法を用いない特徴量間の共起
‒ 統計的学習手法を用いた特徴量間の共起

17

特徴抽出法 -人らしさを捉える局所特徴量-

• 見えの個体差：衣服・体格によりアピアランスが異なる

見えの変動を最小現に抑える人らしさを捉える
特徴量”を設計する必要がある

人らしさを捉える特徴量

勾配情報ベース色情報ベース

動きベース距離ベース

18

勾配に基づく特徴抽出

EOH(Edge of Orientation Histograms) Edgelet

局所的な勾配方向の比を捉える局所領域に含まれる特定形状を捉える
−少ない枚数で検出器を実現 −Boostingとの組み合せて高い識別率を実現
K. Levi, CVPR 2004. B. Wu, CVPR 2005.

LBP(Local Binary Pattern) HOG(Histograms of Oriented Gradients)

局所領域に含まれる勾配分布を捉える
局所的な輝度の分布をバイナリコードとして捉える
−高い識別率を実現し、よく利用されている
−顔認識等でも幅広く利用
−派生した特徴量が多数：EHOG, C-HOGなど
Y. D. Mu, CVPR 2008. N. Dalal, CVPR 2005. 19

勾配に基づく特徴抽出 1

• EOH(Edge of Orientation Histograms)
‒ 局所領域から得られる勾配ヒストグラムの比率を特徴量とする

少ない学習サンプルで高精度な識別器を学習可能
K. Levi et al. , "Learning Object Detection from a Small Number of Examples: the Importance of Good Features",
CVPR, 2004. 20


• Edgelet
‒ 局所領域に含まれる特定形状を捉える
• 直線性，円弧，対称性

Boostingと組み合せて高い識別率を実現
B. Wu et al. , "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination
of Edgelet Part Detectors", CVPR, 2005. 21


• LBP(Local Binary Pattern)
‒ 注目画素と近傍画素の輝度の大小関係を表現
‒ 局所領域におけるバイナリパターンをヒストグラム化

100 220 80 0 1 0

100 110 150 0 1

80 90 100 0 0 0

00000000

11111111
50 75 105 0 0 1

255 95 200 1 1

220 180 80 1 1 0

入力画像 3x3 画素 LBP ヒストグラム

局所的な輝度の分布をバイナリコードとして捉える

Y. D. Mu et al. , "Discriminative Local Binary Patterns for Human Detection in Personal Album", CVPR, 2008. 22


• HOG(Histograms of Oriented Gradients)
‒ 局所領域に含まれる勾配分布を捉える

人検出の分野ではデファクトスタンダードな特徴量
派生した特徴量が多数提案 : EHOG，C-HOG，P-HOG
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 23

色情報に基づく特徴抽出 1

• Integral Channel Features (ICF)
‒ 輝度，色，勾配などの特徴量を併用
• 特徴量 : 局所領域の画素値の和
‒ 積分画像，積分ヒストグラムで高速に計算できる特徴量を利用

色は人の衣服に左右されるため悪影響の可能性がある
P. Dollár et al. , "Integral Channel Features", BMVC, 2009. 24


• Integral Channel Features (ICF)
Uチャンネルの
‒ 輝度，色，勾配などの特徴量を併用
顔が一番強い
• 特徴量 : 局所領域の画素値の和
‒ 積分画像，積分ヒストグラムで高速に計算できる特徴量を利用

全弱識別器の可視化

P. Dollár et al. , "Integral Channel Features", BMVC, 2009. 25


• Color Self-Similarity (CSS)
‒ 2つの局所領域から得られる色ヒストグラムの類似度を
特徴量として利用
‒ ２つの局所領域が同一部位かどうかを暗に表現
頻度
}
}
}

H S V
類似度 S
頻度
}
}
}

H S V
入力画像セルC (8 8ピクセル) 色ヒストグラム p

色情報に対する依存がないため，人検出に色情報を有効活用できる
S. Walk et al. , "New Features and Insights for Pedestrian Detection", CVPR, 2010. 26

動きに基づく特徴量

• 空間的変化を捉える特徴量
• 時間的変化を捉える特徴量
• 時空間変化を捉える特徴量

27

空間的変化を捉える特徴量

• 背景差分により得られる前景領域を捉える
‒ 背景差分をベースとした手法により前景領域の確率を算出

固定カメラに限定
J. Yao et al. , "Fast Human Detection from Videos Using Covariance Features", Visual Surveillance, 2008. 28

時間的変化を捉える特徴量 1

• モーションフィルタ(Haar-like)
‒ 2フレーム間の動きを3つのモーションフィルタで捉える
• 時間的な移動 : フレーム間差分
• 擬似的な移動 : 1フレーム目を擬似的に上下左右に1ピクセル移動
• 擬似的な移動の差 : フレーム間差分 - 擬似的な移動

低解像度画像 (20 x 15画素)に適応可能
P. Viola et al. , "Detecting Pedestrians Using Patterns of Motion and Appearance", ICCV, 2003. 29

時間的変化を捉える特徴量 2

• Histograms of Flow (HOF)
‒ 2つの特徴表現
• オプティカルフローをHOG特徴量(HOF)のように表現
• 近傍のオプティカルフローヒストグラムとの差を特徴量として表現

t, t+1フレームの画像フローとその境界フローから得られる勾配平均勾配画像

相対的な動きを観測 → 移動カメラへ適応可能
N. Dalal et al. , "Human Detection Using Oriented Histograms of Flow and Appearance", ECCV, 2006. 30

時空間変化を捉える特徴量

• ST-Patch
‒ 局所領域内の空間方向の勾配，時間方向の勾配の大きさを捉える
• 局所的な領域の見えと動きを表現

ST-Patch

村井他 , "Space-Time Patchを用いた物体の移動方向識別とセグメンテーション", 情報処理学会論文誌, 2008. 31

距離に基づく特徴量

距離画像計測デバイス
/
h 1 (S 64000)
S 22 ( - ) + /
h 2 ( S 22 )
S 1530 ( - ) +
+
h100 (Occlusion)
S 64000( - ) +
TOF
TOFカメラ Microsoft Kinect Real AdaBoost

RDSF(Relational Depth Similarity Feature)

局所領域間の距離の差を捉える

人−人：距離差は小
人−背景：距離差は大
0 m] 7.5

Bhattacharyya

0 7.5
m]

距離画像により背景テクスチャの影響を受けない
池村他 , "距離情報に基づく局所特徴量によるリアルタイム人検出", 電子情報通信学会論文誌, 2010. 32

特徴抽出法のサーベイ

• 人らしさを捉える局所特徴量
‒ 勾配情報に基づく特徴量
‒ 色情報に基づく特徴量
‒ 動きに基づく特徴量
‒ 距離に基づく特徴量

• 人の構造を捉える特徴量
‒ 統計的学習手法を用いない特徴量間の共起
‒ 統計的学習手法を用いた特徴量間の共起

33

特徴抽出法 -人の構造を捉える特徴量-

• 複雑背景：（局所領域でみると）人に似た領域がある

複雑背景への誤検出を抑える人の構造を
捉える特徴量”を設計する必要あり

共起表現

人の構造を捉える特徴量

統計的学習手法を用いない特徴量間の共起

統計的学習手法を用いた特徴量間の共起

34

統計的学習手法を用いない特徴量間の共起

• CoHOG(Co-occurrence HOG)
‒ 局所領域内の勾配のペアを累積した同時生起行列
‒ 2カ所の局所領域の勾配と勾配の関係性を表現することで
人の形状の構造を捉えられる

T. Watanabe et al. , "Co-occurrence Histograms of Oriented Gradients for Human Detection", IPSJ Trans. on
CVA, 2010. 35

統計的学習手法を用いる特徴量間の共起 1

• Shapelet
‒ 1段階目 : 4方向エッジとBoostingによりShapeletを生成
‒ 2段階目 : ShapeletとBoostingにより識別器を学習

AdaBoost

AdaBoost
AdaBoost 識別器

AdaBoost
入力画像と 4 方向エッジの算出 1 段階目の AdaBoost Shapelet 特徴量 2 段階目の AdaBoost

Boostingにより識別に有効な局所領域内のエッジを捉える
P. Sabzmeydani et al. , "Detecting Pedestrians by Learning Shapelet Features", CVPR, 2007. 36

統計的学習手法を用いる特徴量間の共起 2

• Joint HOG
‒ 1段階目 : 2つのHOGとBoostingによりJoint HOGを生成
‒ 2段階目 : Joint HOGとBoostingにより識別器を学習

Boostingにより識別に有効な局所領域の関係性を捉える
三井他 , "Joint特徴量を用いた2段階Boostingによる物体検出", 電子情報通信学会, 2009. 37

特徴抽出のまとめ

特徴量長所短所

人らしさを勾配情報ベース EOH，Edgelet 人の特徴をよく表現できるテクスチャの影響を受ける
捉える特徴 HOG, LBP (服の模様など)
量
色情報ベース ICF エッジが明確でない画像から計算コストが大きい
CSS も有効な特徴が抽出できる

動き情報ベース前景尤度テクスチャの影響を受けない連続した複数枚の画像が
HOF 必要

距離情報ベース RDSF テクスチャの影響を受けない特殊なデバイスが必要
距離差分人の形状を明確に捉えられる画角，距離に制限がある
人の構造を全ての共起を利 CoHOG 人に似た背景の誤検出を抑制特徴量によっては学習時に
捉える特徴用できる大量のメモリが必要
量
有効な共起を選 Joint HOG 人に似た背景の誤検出を抑制学習に多大な時間がかかる
択 Shapelet できる

38

特徴抽出と識別手法

人検出器

向き変化
特徴抽出個体差識別手法姿勢変化
複雑な背景隠れ
視点変化

人らしさを人に共通する要素を
どのように表現するかどのように見つけるか
39

識別手法

• 向きの変化に対応した手法
• 姿勢の変化に対応した手法
• 人領域の隠れに対応した手法
• 視点の変化に対応した手法

40

識別手法 - 向きの変化への対応-

• 向きの変化 : 人とカメラの位置関係により見えが異なる

人の向きに左右されない識別器を学習する必要
→ 各々の向きに対応した複数の識別器により対応

向きの変化に対応した手法

向きのラベルを必要とする手法
人手で付与した向きのラベルを持つサンプル毎により識別器を学習

向きのラベルを必要としない手法
統計的学習手法によりクラスタリングされたサンプルにより識別器を学習

41

向きのラベルを必要とする手法 1

• 角度推定器と識別器の二段階の構成
‒ ルータにより顔の回転角を推定
‒ 推定された回転角に合わせて回転した画像を識別

ルータによる回転角の推定識別器による人と背景の識別

向きに対しても同様のアプローチで解ける
H. Rowley, et al. , "Rotation Invariant Neural Network-Based Face Detection", CVPR, 1998. 42

向きのラベルを必要とする手法 2

• 多クラス識別器の利用(Vector Boosting)
‒ 多クラス識別 : 分岐関数までの識別器(FLR1, ..., FLRN-1)
‒ 向き分類器 : 分岐関数(FLRN)
‒ 2クラス識別 : 分岐関数以降の識別器(Ln, Fn, Rn)

人と背景を識別向き分類器それぞれの向きの人と背景を識別

C. Hou, et al. , "Multiview Pedestrian Detection Based on Vector Boosting", ACCV, 2007. 43

向きに対応した手法の検出の例

正面 / 背面左向き右向き
44

向きのラベルを必要としない手法 1

• 分割統治法による識別器の学習
‒ 解決が困難な問題を小さな問題に分割して解く
‒ サンプルを分割し，サブクラスを考慮した2クラス識別器を学習

左向き
サブクラス1 識別器 1

分割統治法による学習
学習サンプルクラスタリングサブクラス2 識別器 2 正面

サブクラス3 識別器 3
右向き

土屋他 , "Boostingに基づく分割統治的戦略による高精度な識別器構築手法, 信学論, Vol. 95-D, No. 3 pp. 656-665, 2012 45

向きのラベルを必要としない手法 2

• Cluster Boosted Tree (CVT)
‒ 逐次的に識別器の学習とサンプルのクラスタリングを行う
‒ 向き毎の強識別器Hは，弱識別器hを共有

識別が容易となるようにサンプルを自動的に分割
B. Wu, et al. , "Cluster Boosted Tree Classiﬁer for Multi-View, Multi-Pose Object Detection", ICCV, 2007. 46

識別手法


47

識別手法 - 姿勢の変化への対応 -

• 姿勢の変化 : 人のとる姿勢により人の見え方が変化する

人の姿勢の変化に対応可能な構造を持つ識別器が必要
→ 姿勢の変化による見えの変動が少ないパーツを
検出し，パーツの関係性を捉える

姿勢の変化に対応するための重要な点

パーツの定義
如何に人の見えの変動が少ないようなパーツに定義するか

パーツの統合方法
検出したパーツをどのように統合して人と背景を識別するか

48

パーツの定義方法

ルールベース画像の位置

研究者が定義したルールで分割画像の位置で分割
•適応的にパーツを分割できる •パーツのラベル付けコスト小

•最適なパーツの定義が必要 •適応的にパーツを分割できない
•パーツのラベル付けのコスト大 •最適なパーツの定義が必要
•微小な位置ずれが含まれる

特徴点ベース統計的アプローチ
特徴点を中心とした小領域関節位置のずれが学習
サンプルで最小となる領域
•パーツのラベル付けコストがない
•検出に適したパーツを
•人領域以外からも検出される自動的に決定

•関節位置の付与コスト
poselet

パーツの定義に合わせて，適切なパーツの統合方法を採用することが重要
49

パーツの統合方法

• 識別器によるパーツの統合
‒ Adaptive Combination of Classiﬁer
‒ Multiple Instance Boosting

• グラフモデルによるパーツの統合
‒ Deformable Parts Model

• 投票処理によるパーツの統合
‒ Implicit Shape Model
‒ Hough Forests

50

識別器によるパーツの統合 1

• Adaptive Combination of Classiﬁer (ACC)
‒ 1段階目 : SVMにより各パーツを検出
‒ 2段階目 : 1段階目の識別結果を入力し，人と背景の判別

SVM

SVM

SVM
SVM

SVM

入力画像各パーツの探索領域パーツの識別識別結果パーツの統合識別結果

各パーツの位置や大きさの変動を吸収できるため，姿勢の変化に対して頑健
A. Mohan, et al. , "Example-Based Object Detection in Images by Components", PAMI, 2001. 51

識別器によるパーツの統合 2

• Multiple Instance Learning(MIL)の適用
‒ 幾つかの事例の集合であるbagに対して付与されているラベルに
基づき学習する方法
例) 予め定義した頭部の位置周辺を適当にサンプリングしてbagとする
MILを導入したBoostingにより識別器を学習

頭部

胴体

足

パーツの情報(部位，位置，大きさ)が不要
P. Viola, et al. , "Multiple Instance Boosting for Object Detection", NIPS, 2006.
Y. Chen, et al. , "Multi-Class Multi-Instance Boosting for Part-Based Human Detection", Visual Surveillance, 2009. 52

グラフモデルによるパーツの統合 1

• Deformable parts model
‒ 人の全身とパーツの見えと位置の関係性をモデル化
‒ モデルをLatent SVMにより学習
ルートフィルタの見えパーツフィルタの見えパーツフィルタの位置関係

頭部

右胴左胴
全身

右手左手
脚部
k-fanモデル (k=1) 検出例ルートフィルタパーツフィルタパーツの変動範囲
P. Felzenszwalb, et al. , "Object Detection with Discriminatively Trained Part Based Models", PAMI, 2009. 53

参考 takminさん, 名古屋CV・PRML勉強会発表資料 54

投票処理によるパーツの統合 1

• Implicit Shape Model (ISM)
1. コーナー点を中心とした小領域をパッチとして抽出
2. パッチの輝度情報を基にベクトル量子化
3. コードブックを基に人の重心位置へ投票
4. 投票点をクラスタリングすることで物体を検出

B. Leibe, et al. , "Robust Object Detection with Interleaved Categorization and Segmentation", IJCV, 2008. 61

投票処理によるパーツの統合 2

• Hough Forests
‒ パッチの識別にRandom Forestsを利用
‒ 分岐関数にて下記の2点を考慮
• 人と背景の分けやすさ
• パッチの位置
入力画像パッチの抽出 Random Forests による識別重心位置への投票

人の尤度
オフセット量投票処理

識別に判別モデルを導入することでパッチの識別性能が向上
J. Gall, et al. , "Class-Speciﬁc Hough Forests for Object Detection", CVPR, 2009. 62

識別手法


63

識別手法 -人領域の隠れへの対応-

• 人領域の隠れ : 人画像が部分的に欠損する

隠れた領域を考慮する識別器が必要
→ 識別器に隠れ予測モデルを導入して隠れ領域を考慮

隠れ領域に対応した人検出を行う上での重要な点

隠れの推定
如何に隠れ領域を推定するか

隠れ領域を考慮した識別
推定した隠れ領域をどのように考慮して識別するか

64

隠れに対応した手法 1

• 局所領域毎に隠れ識別器を学習
• 隠れ識別器の結果をクラスタリングすることで隠れ領域
を推定
• 隠れの影響を受けにくい検出器(上半身，下半身等)を適用

人領域隠れ領域

入力画像隠れ推定セグメンテーション

隠れなしと判定
X. Wang, et al. , "An HOG-LBP Human Detector with Partial Occlusion Handling", ICCV, 2009. 65

隠れに対応した手法 2

• 距離情報により対象人物よりも前方に存在する物体を障
害物として検知
• 隠れ領域を捉える識別器の出力に対して重み付け
+1.0

0.0 -0.27

-1.0
0 500

+1.0

0.0
+15.15

-1.0
0 500

池村他, "距離情報に基づく局所特徴量によるリアルタイム人検出", 信学論, Vol. 93-D, No. 3 pp. 355-364, 2010. 66

識別手法


67

識別手法 -視点の変化への対応-

• 視点の変化 : カメラの俯角に応じて人の見えが変化する

視点の変化により見えが変化するため，これ以外の
情報が必要

→ 識別器にて幾何学的な情報を利用，転移学習の導入

視点の変化に対応するために

幾何学的情報
どのようにして幾何学的な情報を利用するか

転移学習の導入
見えの変動が大きい場合にはシーンに合わせて識別器を最適化

68

視点の変化に対応した手法 1

• 人検出器とジオメトリ，視点の関係をモデル化
sky

Vertical

Ground
入力画像 P(surfaces) P(viewpoint)

P(object) P(object | surfaces) P(object | viewpoint)
D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 69


• 人検出器とジオメトリ，視点の関係をモデル化
sky

Vertical

Ground
入力画像 P(surfaces) P(viewpoint)

ベイジアンネットにより
人検出器とジオメトリ,視点の
因果関係をモデル化

P(object) P(object | surfaces, viewpoint)

検出結果の例

Human detector Full model
3 正検出 / 2 誤検出 4 正検出 / 0 誤検出



• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化

元ドメイン目標ドメイン

J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 72



元ドメインで選択した特徴量

h1 h2 hm

Hs
元ドメイン元ドメインの強識別器目標ドメイン



• 特徴量の転移 : 選択された特徴量の位置を最適化

元ドメインで選択した特徴量

h1 h2 hm

Hs
元ドメイン元ドメインの強識別器目標ドメイン



• 特徴量の転移 : 選択された特徴量の位置を最適化
• 識別器の転移 : 選択された識別器の重みを最適化

元ドメインで選択した特徴量転移された特徴量

h1 h2 hm

Hs Ht
元ドメイン元ドメインの強識別器目標ドメインの強識別器目標ドメイン

大きな視点の変化による見えの変動を吸収することができる

実用化に向けて検討するべき項目

• 人検出の高速化
• 学習サンプルの収集
• 歪みの除去

76

人検出の高速化

• アルゴリズムによる高速化
‒ 特徴抽出の高速化
‒ 識別の高速化

• ハードウェアによる高速化
‒ 専用ハードウェアの利用

77

特徴抽出の高速化

• 積分ヒストグラムによる勾配特徴量の高速演算
‒ 事前に積分ヒストグラムを作成
‒ 3回の加減算のみで局所領域の勾配和を演算可能
強度

1 2 3 4 5 6
P P
勾配方向
領域 P の勾配和
A+D-B-C 勾配方向 1 に対応する積分画像勾配方向 6 に対応する積分画像

F. Porikli et al. , "Integral Histogram: a Fast Way to Extract Histograms in Cartesian Spaces", CVPR, 2005. 78

識別の高速化

• カスケード型識別器の採用
‒ 複数の識別器を直列に並べる
‒ 背景画像を早期棄却できる
• 識別の計算回数の減少

未知入力画像

H1 H2 H3 人画像

背景画像

P. Viola et al. , "Robust Real-Time Object Detection", IJCV, 2004. 79

専用ハードウェアの利用

• GPUによる実装
‒ 高速計算が可能なGPUを利用することで高速化
‒ 実装方法は試行錯誤
• CPU <=> GPUのデータ転送に最も時間がかかる
• メモリの使い方が重要
• 並列計算

画像の入力ダウンサンプリング

HOG 特徴量の抽出

ウィンドウの統合 SVM による識別

結果の出力
HOST & CPU GPU

CPUのみを使用した場合よりも67倍の高速化を実現
V. Prisacariu et al. , "fastHOG - a real-time GPU implementation of HOG", Technical Report Oxford University, 2009. 80

学習サンプルの収集

• 高精度な人検出を実現するためには
‒ 大量の学習サンプル : 数千数万サンプル
‒ 良質な学習サンプル : 位置ずれがないサンプル

平均勾配画像

81

学習サンプルの収集

• CGから人画像を自動的に生成

J. Marín et al. , "Learning Appearance in Virtual Scenarios for Pedestrian Detection", CVPR, 2010. 82

歪みの除去

• 擬似的に平行投影した画像
から人を検出
‒ カメラパラメータ既知
‒ 人物は地面に直立しているこ
とを仮定

Y. Li et al. , "Human Detection by Searching in 3D Space Using Camera and Scene Knowledge", ICPR, 2008. 83

人検出技術の実用化の例

トヨタ自動車 Mobileye
ナイトビューシステム衝突防止補助システム

2004 2005 2006 2007 2008 2009 2010 2011

本田技研工業三栄ハイテックス東芝
ナイトビジョンシステム ODEN (FPGA) 車載向け画像認識用LSI

84

発表の概要

• 手法
‒ 特徴抽出法
‒ 識別手法

• まとめ

85

人画像データベース

• 人画像とアノテーションファイルが公開されている

大規模化，様々な情報が付与される傾向
学習用評価用
発表年
正規化人画像背景画像人画像正規化人画像背景画像

MIT 924 - - - - 1997

INRIA 2,416 1,218 288 1,132 453 2005

USC-A - - 205 303 - 2005

USC-B - - 54 271 - 2005

Daimler2006 14,400 150,000※ - 1,600 10,000 2006
USC-C - - 100 232 - 2007

ETH 1578 - 1803 9,380 - 2007

Daimler2009 15,660 6,744 21,800 56,492 - 2009

NICTA 18,700 5,200※ - 6,900 50,000 2008

TUD 400 - 250 311 - 2008

Caltech 192,000 61,000 56,000 155,000 5,600 2009
※は一定のサイズで切り出された画像を表わす
86

INRIA Person Dataset (2006年)

• 人検出の分野で最も使用されているデータベース

URL : http://pascal.inrialpes.fr/data/human/
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 87

Caltech Pedestrian Database (2009年)

• 2009年以降は本データベースにて評価する論文が急増
• 様々な情報が付与
‒ 人領域の隠れ，時系列の映像が使用可

URL : http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/index.html
P. Dollár et al. , "Pedestrian Detection: A Benchmark", CVPR, 2009. 88

評価指標

• 手法の性能を測るために未検出率と誤検出率を比較
1. Miss Rate VS False Positive Per Window (FPPW)
• 1検出ウィンドウあたりの誤検出した率
• 検出ウィンドウの統合処理を含まない

2. Miss Rate VS False Positive Per Image (FPPI)
• 1枚の画像あたりの誤検出した数
• 検出ウィンドウの統合処理を含む

検出器の性能が直感的に把握できるため，
近年ではMiss Rate VS FPPIにより評価する論文が多い

89

人検出法の比較

• DETカーブによる比較
‒ 横軸に誤検出率，縦軸に未検出率
‒ 識別器の閾値を変えた際の誤検出率と未検出率をプロット
‒ グラフの左下に位置するDETカーブほど性能が高い

多数(勾配特徴量+α)を利用している

様々な条件下で手法を評価
- 人画像のスケール
- 人領域の隠れの有無
- 処理時間

P. Dollár et al. , "Pedestrian Detection : An Evaluation of the State of the Art", PAMI, 2009. 90

まとめ

• 統計的学習手法による人検出法のサーベイ
‒ 特徴抽出
• 人と背景を区別するための情報を持つ特徴量の設計
→ 人らしさを捉える，複雑な背景に対応可能

‒ 識別手法
• モデル化可能な要因を吸収できる識別器の構造
→ 向きの変化，姿勢の変化，人領域の隠れ，視点の変化に対応可能

91

最新の研究動向と社会情勢からみる人検出

• CVPR2012からの傾向
‒ 検出したいシーンに合わせて識別器を最適化 3件
‒ 隠れに対応した人検出法 1件
‒ リアルタイム人検出法 1件
→ より実用的な問題を解決するような研究

• 社会情勢からの傾向
‒ EURO NCAP (http://www.euroncap.com)
‒ 自動車の安全性を測るテスト
‒ パッシブセーフティ機能による歩行者保護性能カテゴリ
‒ 消費者は評価を見て車を購入
→ 人検出がデファクトスタンダードとなる
92

統計的学習手法よる人検出

More Related Content

What's hot

Similar to 統計的学習手法よる人検出

More from Hironobu Fujiyoshi

統計的学習手法よる人検出