わかりやすいパターン認識
第4章:識別部の設計
この章でやること
• パラメトリックな学習
• 識別関数の設計
• 特徴空間の次元数と学習パターン数の関係
• 識別部の最適化
パラメトリックな学習
観測されるパターンと所属するクラスの間には確率密度関数が仮
定されると考えられる。ここでは確率密度関数がすでに分かって
いるものと仮定して議論を進める。
x
xの⽣起確率 p(x|ωi)
p(x|ωi)はクラスωiに属するxの⽣起確率
登場する確率の説明
𝑃(𝜔$)	:事前確率(パターン𝒙を観測する前から分かっているク
ラス𝜔$の⽣起確率)
𝑝(𝒙)	:クラスに依らないパターン𝒙の⽣起確率
𝑃 𝜔$ 𝒙 :事後確率(パターン𝒙が観測された後にその𝒙がどのク
ラス𝜔$に属するかを表す条件付き確率)
𝑝(𝒙|𝜔$)	:既知の確率密度関数(クラス𝜔$に属するパターン𝒙の
⽣起確率)
成り⽴つ関係式
* 𝑃 𝜔$ = 1
-
$./
																		分かる																																																																														
* 𝑃 𝜔$|𝒙 = 1
-
$./
															分かる																																																																													
𝑝 𝒙 = * 𝑃 𝜔$ 𝑝(𝒙|𝜔$)
-
$./
										ん?
𝑝 𝒙 = ∑ 𝑃 𝜔$ 𝑝(𝒙|𝜔$)-
$./ とは?
2つの確率変数𝜔$, 𝒙の同時分布に対して、同時確率𝑝 𝜔$, 𝒙 は
𝑝 𝜔$, 𝒙 = 𝑃 𝜔$ 𝑝 𝒙 𝜔$
が成り⽴つ(乗法定理)
つまり、⼀⽅の確率変数が定まりその条件の下で他⽅の確率変数が定まるという
ケースと、両⽅が同時に定まるというケースは同⼀視する。
さらに同時確率𝑝 𝜔$, 𝒙 において⼀⽅の確率変数(例えばここでは𝜔$)についての総
和を取ることで(加法定理)、
𝑝 𝒙 = * 𝑝 𝜔$, 𝒙
2
$./
= * 𝑃 𝜔$ 𝑝(𝒙|𝜔$)
-
$./
が成り⽴つ(周辺化)
結果的には消えて⾒えなくなってしまう同時確率という概念が重要!
ベイズの定理の前に...
	箱の中に⾚のくじと⻘のくじが何枚か折りたたんで⼊っていま
す。くじを開くと当たりかはずれが書かれています。
これまで100⼈がくじを引いて36⼈が⾚のくじを引き、64⼈が⻘
のくじを引きました。
そのうち20⼈が当たりを引きました。
当たりを引いたうち4⼈が⾚のくじで、16⼈が⻘のくじでした。
とある情報屋によると、くじの⾊と当たりの割合には何らかの関
係があるらしいです。
ベイズの定理の前に...
ここでmt君がくじを引きます。
この時点でmt君が当たりを引く確率はこれまでの結果だけで⾒ると
20/100(=0.20)です。(くじの⾊を観測する前から分かる事前確率)
くじを引いたところ、⻘のくじでした。(くじの⾊を観測)
この時点でmt君が当たりを引いている確率は16/64(=0.25)となりま
す。(くじの⾊を観測した後に分かる事後確率)
ベイズの定理
𝑃 𝜔$ 𝒙 =	
𝑝 𝒙 𝜔$
𝑝 𝒙
𝑃 𝜔$ ・・・(事後確率)=(修正項)×(事前確率)
未知パターン: 𝒙	(先の例では⾚のくじか⻘のくじ)
識別クラス:𝜔$(先の例では当たりかはずれ)
識別法としては、パターン𝒙を識別する際に事後確率P(𝜔$|𝒙)が最
⼤となる𝜔$を出⼒とするのが⾃然、すなわち
max
$./,..,-
𝑃 𝜔$ 𝒙 = 𝑃(𝜔8|𝒙) => 𝒙 ∈ 𝜔8
となる。(ベイズ決定則)
ベイズ決定則
ベイズの式をみるとp(x)は各クラス共通の因⼦なので、識別関数
は、
𝑔$ 𝒙 = 𝑝 𝒙 𝜔$ 𝑃 𝜔$ 	 𝑖 = 1,2, … , 𝑐
となる。
対数を取っても⼤⼩関係は変わらず積を和の形にできるので右辺
の⾃然対数を取って、
𝑔$ 𝒙 = log 𝑝 𝒙 𝜔$ +	log 𝑃 𝜔$ 	(𝑖 = 1,2, … , 𝑐)
としても良い。
正規分布の場合
正規分布:𝑝 𝒙 𝜔 = (2𝜋)E
F
G|Σ$|E
I
G	exp	{−
/
N
𝒙 − 𝒎$
P
Σ$
E/
𝒙 − 𝒎$ }
ここで、
𝒎$ =
/
RS
∑ 𝒙𝒙∈US
:平均ベクトル
Σ$ =	
/
RS
	∑ (𝒙 − 𝒎$)𝒙∈US
(𝒙 − 𝒎$)P
:共分散⾏列(|Σ$|は⾏列式)
とする。
𝑛$はクラス𝜔$のパターン数、𝑋$はクラス𝜔$のパターン集合を表す
正規分布の場合
𝑔$ 𝒙 = −
1
2
𝒙 − 𝒎$
P
Σ$
E/
𝒙 − 𝒎$ −
1
2
log Σ$ −
𝑑
2
log 2𝜋 + log 𝑃 𝜔$
= −
1
2
𝒙P
Σ$
E/
𝒙 + 𝒙P
Σ$
E/
𝒎$ −
1
2
𝒎P
Σ$
E/
𝒎 −
1
2
log Σ$ −
𝑑
2
log 2𝜋 + log 𝑃 𝜔$
青字部分は共分散行列Σiが対称行列であることから、𝒙PΣ$
E/
𝒎$ = 𝒎$
P
Σ$
E/
𝒙より導ける
赤字部分より正規分布の場合𝒙の二次関数となることが分かる
また、 𝒙 − 𝒎$
P
Σ$
E/
𝒙 − 𝒎$ のことを𝒙と𝒎$のマハラノビス距離と呼
び、𝐷Z
N
(𝒙, 𝒎$)で定義する。
正規分布の場合
共分散⾏列が全クラスで等しい、つまりΣ$ = Σ[	(𝑖 = 1, … , 𝑐)とすると、定数
項を除去して
𝑔$ 𝒙 = 𝒙PΣ[
E/
𝒎$ −
1
2
𝒎$
PΣ[
E/
𝒎$ + log 𝑃(𝜔$)
となる。これは𝒙に関して線形識別関数である。
また、Σ[ = 𝐸(単位行列)すなわち特徴間に相関が無く分散が等しいとし
て、さらに事前確率𝑃(𝜔$)が各クラスで等しいとすると、
𝑔$ 𝒙 = 𝒎$
P 𝒙 −
1
2
||𝒎$||N
としてもよく、これは2章の最⼩距離識別法の識別関数に他ならない。
パラメトリックな学習、ノンパラメトリックな学習
• 確率密度関数が既知の元で、与えられた学習パターンからパラメータを推
定し、その推定値を真の値とみなして識別関数を構成する
→ パラメトリックな学習
• 確率密度関数の形を想定せずに学習パターンから直接識別関数を求める
→ ノンパラメトリックな学習(2,3章で扱った学習アルゴリズムがその例)
パラメータの推定
ここでは確率密度関数のパラメータを推定する⽅法を考える
サイズnの学習パターン集合を𝑿 = {𝒙/, … , 𝒙R}とし、推定すべき確率分布を𝑝 𝒙; 𝜽 で表す
ここで、 𝜽はパラメータの組を表すベクトルでパラメータベクトルと呼ばれる
学習パターン集合𝑿をもたらした𝜽の中でどの𝜽が”尤もらしい”か
各パターンは確率分布𝑝 𝒙; 𝜽 に従って独⽴に⽣起されたものとみなせるので、パターン集
合𝑿が得られる確率は
𝑝 𝑿; 𝜽 = ` 𝑝 𝒙8; 𝜽
R
8./
で表される
𝑝 𝑿; 𝜽 のことを尤度、あるいは尤度関数という
パラメータの推定
⼀番”尤もらしい” 𝜽は先ほどの式を最⼤化する𝜽であると考えるのが⾃然で、それ
を𝜽aとして、推定値として⽤いることにすると
max
𝜽
𝑝 𝑿; 𝜽 = 𝑝 𝑿; 𝜽a 	
このような推定法を最尤法という
𝜕
𝜕𝜽
𝑝 𝑿; 𝜽 = 0
対数をとって、∑
d
d𝜽
log 𝑝 𝒙8; 𝜽R
8./ = 0をとけばよい
最尤法の適⽤例
パターンが正規分布に従うが平均ベクトル、共分散⾏列が未知の場合を考える
この場合のパラメータ𝜽は𝒎とΣである
𝑝 𝒙 𝜔 = (2𝜋)E
F
G|Σ$|E
I
G	exp	{−
/
N
𝒙 − 𝒎$
P
Σ$
E/
𝒙 − 𝒎$ }に対して、
∑
d
d𝜽
log 𝑝 𝒙8; 𝜽R
8./ = 0を計算すると、
𝒎e =
1
𝑛
* 𝒙8
R
8./
Σf =
1
𝑛
*(𝒙8
R
8./
− 𝒎e )	(𝒙8 − 𝒎e )P
という推定値が得られる
多次元は出来なかったので1次元の正規分布で最尤推定
𝑝 𝜇, 𝜎N
= ∏
/
NjkG
exp	(−
(lmEn)G
NkG )R
8./ とすると、
log 𝑝 𝜇, 𝜎N
= −
R
N
log(2𝜋𝜎N
) −
/
NkG
∑ (𝑥8−𝜇)NR
8./ なので
d
dn
log 𝑝 𝜇, 𝜎N
= −
/
kG
∑ (𝑥8−𝜇)R
8./ = −
/
kG(∑ 𝑥8
R
8./ − 𝑛𝜇) = 0
を解いて、𝜇 =
/
R
∑ 𝑥8
R
8./ の時に最⼤となる
また、
𝜕
𝜕𝜎N
log 𝑝 𝜇, 𝜎N
= −
𝑛
2𝜎N
+
1
2𝜎p
*(𝑥8−𝜇)N
= −
𝑛
2𝜎N
1 −
1
𝑛𝜎N
* (𝑥8−𝜇)N
R
8./
= 0
R
8./
を解いて、𝜎N
=
/
R
∑ (𝑥8−𝜇)NR
8./ の時に最⼤となる
→ 多次元の時と対応している
多次元正規分布の最尤法
log	𝑝 𝒙 𝜔
= *{−
𝑑
2
log 2𝜋 −
1
2
log |Σ$| −
1
2
𝒙 − 𝒎$
P
Σ$
E/
𝒙 − 𝒎$ }
R
$./
= −
𝑛𝑑
2
log 2𝜋 −
𝑛
2
log Σ$ −
1
2
* 𝒙 − 𝒎$
P
Σ$
E/
𝒙 − 𝒎$
R
$./
→ これを𝒎$とΣ$について偏微分すれば良い
http://kaminomisosiru.hatenablog.jp/entry/2017/07/06/12040
8に途中計算があります
単峰性・多峰性
これまでの例は単峰性(極⼤点が1つ)の確率密度関数を扱って
きたが、現実の問題では多峰性(極⼤点が複数)の確率密度関数
を扱わなければならない
混合分布
• ⼀般に𝑝 𝒙; 𝜽 = ∑ 𝛽$ 𝑝$ 𝒙; 𝜽$
r
$./ と書ける(混合分布)
• 𝑝$ 𝒙; 𝜽$ はあらかじめ形の分かっている確率密度関数、𝜽$はそ
のパラメータベクトル、𝛽$は重み係数である
• 推定すべきパラメータベクトルは𝜽P
= (𝜽/
P
, … , 𝜽r
P
, 𝛽/, … , 𝛽r)であ
る(各分布の重みも推定する必要がある)
教師付き学習・教師なし学習
• 学習時に学習パターンがその所属クラス名と共に与えられる
→ 教師付き学習(supervised learning)
第2章や第3章で扱ってきた学習はこれに当たる
• 学習時の学習パターンにクラスのラベルが付いていない
→ 教師なし学習(unsupervised learning)
この場合はもはや確率密度関数をクラスごとに独⽴に推定できない
パターン𝒙が𝑝(𝒙)に従って分布するということだけが頼り
混合分布のパラメータ推定問題に帰着させる
→解析的には解けないので最急降下法を使う
この章でやること
• パラメトリックな学習
• 識別関数の設計
• 特徴空間の次元数と学習パターン数の関係
• 識別部の最適化
識別関数の設計
• 2クラス分類を考え、1次元空間に変換
• 識別関数:𝑔 𝒙 = 𝒘P 𝒙 + 𝑤[ = 𝐰P 𝐱 = 0の法線上に射影
• 射影値:𝑔 𝒙 = 𝑨P 𝒙 + 𝑎[	(𝑨は𝑑次元空間から1次元空間への変換⾏列)
𝑔 𝑥 = 0
評価関数を決める
⽅針
- 法線上での学習パターンの分布に注⽬
- 平均と分散で評価関数が決まるとする
すなわち評価関数は、𝐽 ≝ 𝐽(𝑚|/, 𝑚|N, 𝜎}/
N
, 𝜎}N
N
)で表せる
𝑚|$ =
1
𝑛$
* 𝑔(𝒙)
𝒙∈𝑿S
= 𝒘P 𝒎$ + 𝑤[
𝜎}$
N
=
1
𝑛$
* (𝑔 𝒙 − 𝑚|$)N
𝒙∈𝑿S
= 𝒘P
1
𝑛$
* (𝒙 − 𝒎$)(𝒙 − 𝒎$)P
𝒙∈𝑿S
𝒘 = 𝒘P 𝚺$ 𝒘
𝜎}$
N
の途中計算
𝑔 𝒙 − 𝑚|$ = (𝒘P
𝒙 + 𝑤[) − (𝒘P
𝒎$ + 𝑤[) = 𝒘P
𝒙 − 𝒘P
𝒎$ = 𝒘P
(𝒙 − 𝒎$)
より、
(𝑔 𝒙 − 𝑚|$)N
= {𝒘P
(𝒙 − 𝒎$)}N
= 𝒘P
𝒙 − 𝒎$ ・ 𝒘P
𝒙 − 𝒎$
P
= 𝒘P
𝒙 − 𝒎$ 𝒙 − 𝒎$
𝒕
𝒘
であるから、
1
𝑛$
* (𝑔 𝒙 − 𝑚|$)N
𝒙∈𝑿S
= 𝒘P
1
𝑛$
* (𝒙 − 𝒎$)(𝒙 − 𝒎$)P
𝒙∈𝑿S
𝒘 = 𝒘P
𝚺$ 𝒘
任意の𝐽を最⼤にする𝒘と𝑤[を求める
まず、𝜎$
N
と𝑚|$をそれぞれ𝒘と𝑤[で偏微分すると
𝜕𝜎$
N
𝜕𝒘
= 2𝚺$ 𝒘,
𝜕𝑚|$
𝜕𝒘
= 𝒎$,
𝜕𝜎$
N
𝜕𝑤[
= 0,
𝜕𝑚|$
𝜕𝑤[
= 1
となりこれらを利⽤する
𝐽を𝒘で偏微分して𝟎と置く
dkS
G
d𝒘
= 2𝚺$ 𝒘,
d•|S
d𝒘
= 𝒎$を利⽤する
𝜕𝐽
𝜕𝒘
=
𝜕𝐽
𝜕𝜎/
N
𝜕𝜎/
N
𝜕𝒘
+
𝜕𝐽
𝜕𝜎N
N
𝜕𝜎N
N
𝜕𝒘
+
𝜕𝐽
𝜕𝑚e/
𝜕𝑚e/
𝜕𝒘
+
𝜕𝐽
𝜕𝑚eN
𝜕𝑚eN
𝜕𝒘
= 2
𝜕𝐽
𝜕𝜎/
N 𝚺/ +
𝜕𝐽
𝜕𝜎N
N 𝚺N 𝒘 +
𝜕𝐽
𝜕𝑚e/
𝒎/ +
𝜕𝐽
𝜕𝑚eN
𝒎N = 𝟎
つまり、𝒘 =
/
N
d‚
dkI
G 𝚺/ +
d‚
dkG
G 𝚺N
E/
−
d‚
d•eI
𝒎/ −
d‚
d•eG
𝒎N を得る
(4-38)
𝐽を𝑤[で偏微分して0と置く
dkS
G
dƒ„
= 0,
d•|S
dƒ„
= 1を利⽤する
𝜕𝐽
𝜕𝒘
=
𝜕𝐽
𝜕𝜎/
N
𝜕𝜎/
N
𝜕𝑤[
+
𝜕𝐽
𝜕𝜎N
N
𝜕𝜎N
N
𝜕𝑤[
+
𝜕𝐽
𝜕𝑚e/
𝜕𝑚e/
𝜕𝑤[
+
𝜕𝐽
𝜕𝑚eN
𝜕𝑚eN
𝜕𝑤[
=
𝜕𝐽
𝜕𝑚e/
+
𝜕𝐽
𝜕𝑚eN
= 0
つまり、
d‚
d•eG
= −
d‚
d•eI
を得る(4-40)
式(4-38)に式(4-40)を代⼊
𝒘 =
1
2
𝜕𝐽
𝜕𝑚e/
𝜕𝐽
𝜕𝜎/
N 𝚺/ +
𝜕𝐽
𝜕𝜎N
N 𝚺N
E/
𝒎N − 𝒎/
∝ 𝑠𝚺/ + 1 − 𝑠 𝚺N
E/
𝒎N − 𝒎/
(4-42)
ただし、
𝑠 ≝
𝜕𝐽
𝜕𝜎/
N
𝜕𝐽
𝜕𝜎/
N +
𝜕𝐽
𝜕𝜎N
N
(4-43)
𝑤[は式(4-40)から求めれば良い(⼀般形はない)
𝐽の⼀例
𝐽 ≝
𝑚|/ − 𝑚|N
N
𝑘/ 𝜎}/
N
+ 𝑘N 𝜎}N
N
と定義する(4-44)
この𝐽を最⼤にする
ó 平均の差を⼤きくかつ、各クラスの分散を⼩さくするような
重み𝒘を求める
𝐽の⼀例: 𝐽 ≝
•|IE•|G
G
8Ik|I
Gˆ8Gk|G
G
𝜕𝐽
𝜕𝜎}$
N = −𝑘$
𝑚|/ − 𝑚|N
N
(𝑘/ 𝜎}/
N
+ 𝑘N 𝜎}N
N
)N
(4-45)
式(4-42)と式(4-43)より、
𝒘 ∝ 𝑘/ 𝚺/ + 𝑘N 𝚺N
E/
𝒎N − 𝒎/
となる
𝐽の⼀例: 𝐽 ≝
•|IE•|G
G
8Ik|I
Gˆ8Gk|G
G
⼀⽅、
𝜕𝐽
𝜕𝑚|/
=
2 𝑚|/ − 𝑚|N
𝑘/ 𝜎}/
N
+ 𝑘N 𝜎}N
N , 		
𝜕𝐽
𝜕𝑚|N
=
2 𝑚|N − 𝑚|/
𝑘/ 𝜎}/
N
+ 𝑘N 𝜎}N
N
より、式(4-40)にこれらを代⼊すると、0=0となり𝑤[は不定。
つまり、 𝐽を式(4-44)で定義すると𝒘は求まるが、 𝑤[が⼀意には
定まらない。
𝑤[の決め⽅
• 変換後のクラス平均の中点を境界とする⽅法
𝑤[ = −
𝑚|/ + 𝑚|N
2
• 変換後の各クラスごとの分散で内分する⽅法、あるいは各クラスごとの標準偏差で内分する⽅法
𝑤[ = −
𝜎}N
N
𝑚|/ + 𝜎}/
N
𝑚|N
𝜎}/
N
+ 𝜎}N
N , 𝑤[ = −
𝜎}N 𝑚|/ + 𝜎}/ 𝑚|N
𝜎}/ + 𝜎}N
• 事前確率も考慮して内分する⽅法
𝑤[ = −
𝑃 𝜔N 𝜎}N
N
𝑚|/ + 𝑃 𝜔/ 𝜎}/
N
𝑚|N
𝑃 𝜔/ 𝜎}/
N
+ 𝑃 𝜔N 𝜎}N
N
線形識別関数を⽤いた多クラスの識別
2クラスの識別関数に対する線形識別関数の考え⽅を多
クラスの識別問題への拡張を試みる
⼀般に多クラスの境界を決めるには複数の線形識別関数
が必要
線形分離可能な場合
主に以下の3タイプに分けられる
a. 任意の2つのクラスが𝜔$, 𝜔‰が線形分離可能な場合
b. 任意のクラス𝜔$と𝜔‰以外の全てのクラスが線形分離可能な場
合
c. 識別関数𝑔$ 𝒙 の⼤⼩によってクラスを決定できる場合
任意の2つのクラスが𝜔$, 𝜔‰が線形分離可能
任意の2つのクラスが𝜔$, 𝜔‰が線形分離可能
𝜔$と𝜔‰を識別する線形識別関数𝑔$‰ 𝒙 が存在し、
𝒙 ∈ 𝜔$ → 𝑔$‰ 𝒙 > 0,
𝒙 ∈ 𝜔‰ → 𝑔$‰ 𝒙 < 0 を満たす
同様にして
2(2E/)
N
個の線形識別関数が定義できる
𝑔$‰ 𝒙 = −𝑔‰$ 𝒙 とすれば多クラスを識別するための識別規則は、
∀𝑗 ≠ 𝑖, 𝑔$‰ 𝒙 > 0 → 𝒙 ∈ 𝜔$
となる
多数決法
全ての𝑖	(0 < 𝑖 < 𝑐)について、𝑔$‰ 𝒙 > 0が成り⽴つ𝑗	 0 < 𝑗 < 𝑐
の個数を求め、これをN(𝑖)とし、
識別規則を
∀𝑗 ≠ 𝑖, 	N(𝑖) > N(𝑗) → 𝒙 ∈ 𝜔$
とする⽅法
任意のクラス𝜔$と𝜔‰以外の全てのクラスが線形分離可能
任意のクラス𝜔$と𝜔‰以外の全てのクラスが線形分離可能
クラス𝜔$と𝜔‰以外の全てのクラスとを識別する線形識別関数
𝑔$ 𝒙 (1 ≤ 𝑖 ≤ 𝑐)が存在し、
𝒙 ∈ 𝜔$ → 𝑔$ 𝒙 > 0,
𝒙 ∉ 𝜔$ → 𝑔$ 𝒙 < 0 を満たす
同様にしてc個の線形識別関数が定義できる
従って、多クラスを識別するための規則は
𝑔$ 𝒙 > 0	かつ	∀𝑗 ≠ 𝑖, 𝑔‰ 𝒙 < 0 → 𝒙 ∈ 𝜔$
となる(多数決法も可能)
識別関数𝑔$ 𝒙 の⼤⼩によってクラスを決定できる場合
識別関数𝑔$ 𝒙 の⼤⼩によってクラスを決定できる場合
識別規則は、
∀𝑗 ≠ 𝑖, 𝑔$ 𝒙 > 𝑔‰ 𝒙 → 𝒙 ∈ 𝜔$
となる
𝑔$ 𝒙 の⼤⼩関係は常に決定できるので、境界を除くどの領域も
必ずいずれかのクラス𝜔$に識別できる
⼀般識別関数
2次識別関数:⼀般識別関数の最も簡単な例
𝑔$ 𝒙 = 𝑤[ + 𝒘P
𝒙 + 𝒙 𝒕
𝑾𝒙 と定義する
(𝒘:𝑑次元ベクトル、𝑾: 𝑑, 𝑑 ⾏列)
この関数の重みベクトルの最適化問題は、線形識別関数の重みベ
クトルの最適化と全く同じ枠組みで解くことが可能!
2次識別関数の重みベクトル最適化の例
特徴空間の次元は1として、
識別関数を𝑔 𝑥 = 𝑤[ + 𝑤/ 𝑥 + 𝑤N 𝑥N
で定義する。
このとき新たに𝐲 = (1, 𝑥, 𝑥N
)P
というベクトルを定義して、
𝒘 = (𝑤[, 𝑤/, 𝑤N)P
と置くと、
𝑔 𝒚 = 𝒘P
𝒚と表せるので、ベクトル𝐲を新たな特徴ベクトルとし
て最適な𝒘を求める線形識別問題の重みベクトルの最適化問題に
帰着できる。
線形識別関数の頑健性
2次識別関数の⽅が線形識別関数よりも⼀般的な問題に対して適
⽤可能なため、実⽤上有利?
→ 実は必ずしもこれは正しくはなく、むしろ線形識別関数の⽅
が良い結果をもたらすことも少なくない。
これを線形識別関数の頑健性という。
2次識別関数はより多くのパラメータを持つためこのようなこと
が⽣じる。
𝜑関数
𝒙に関する任意の𝑘個の関数を𝜑$ 𝒙 	(𝑖 = 1,2, … , 𝑘)と置き、
𝑔 𝒙 = ∑ 𝑤$ 𝜑$ 𝒙8
$./ + 𝑤[という識別関数を定義する。
ここで新たにベクトル𝐲を、𝐲 = (𝜑/ 𝒙 , … , 𝜑8 𝒙 )と置けば、𝑔 𝒙
は𝐲を特徴ベクトルとみなした線形識別関数に他ならない。
この𝑔 𝒙 のことを⼀般識別関数、あるいは𝜑関数と呼ぶ。
これにより⾮線形関数をも含む任意の識別関数を実現できるよう
になるが、 𝜑$ 𝒙 	の必要条件は⼀般には分からない...
この章でやること
• パラメトリックな学習
• 識別関数の設計
• 特徴空間の次元数と学習パターン数の関係
• 識別部の最適化
特徴空間の次元数と学習パターン数
次元数𝑑に対して、学習パターン数𝑛を決めることは識別部を設計する際に直⾯す
る重要な問題。
今のところ、この問題に対する⼀般的な解はない。
学習パターン数が特徴空間の次元数以下(𝑛 ≤ 𝑑)の場合、
𝑑次元の空間を⽤意したのに、 (𝑛 − 1)次元しか使⽤しておらず、
(d − 𝑛 + 1)次元分が無駄になっている。
⼀般に、パターンの分布が特徴空間の中でその次元数に⾒合った広がりを持つた
めには、 𝑛 ≫ 𝑑であることが必要。
→ 特徴量を追加するなら、学習パターン数もそれに応じて増やす必要がある。
特徴空間の次元数と学習パターン数
𝑑次元の特徴空間上に 𝑛個のパターンが分布している場合(これらのパターンは⼀
般位置にあるとする)、
各々のパターンが𝜔/, 𝜔Nに属するとすると、クラスの割り当て⽅は2R
通り。
この中から任意の1つを選んだ時にこれが超平⾯により線形分離できる確率𝑝(𝑛, 𝑑)
は𝑑が⼗分⼤きいとき、以下が成り⽴つことが知られている。
𝑝 𝑛, 𝑑 ≈ 1									 𝑛 < 2 𝑑 + 1
𝑝 𝑛, 𝑑 =
1
2
								 𝑛 = 2 𝑑 + 1
𝑝 𝑛, 𝑑 ≈ 0									 𝑛 > 2 𝑑 + 1
つまり、
𝑛 > 2 𝑑 + 1 のもとで線形分離⾯が⾒出せれば、その信頼度は極めて⾼い。
逆に𝑛 < 2 𝑑 + 1 のもとで線形分離⾯が⾒出せても意味がない!(当たり前)
識別部設計時における諸問題
• 次元の呪い
必要とされる学習パターンの数が次元数の増加とともに、指数関
数的に増える現象。
• 過学習
少数の学習パターンに対して、多数のパラメータを持つ複雑な識
別関数で誤差0で近似してしまうような現象。訓練データに対し
ては⾼い精度を出すが、新たな未知データに対しては正確な出⼒
ができなくなるという危険をはらんでいる。
この章でやること
• パラメトリックな学習
• 識別関数の設計
• 特徴空間の次元数と学習パターン数の関係
• 識別部の最適化
識別部を決定するパラメータ
これまでの登場してきたノンパラメトリックな識別⼿法として、
線形識別関数、ニューラルネットワーク、k-NN法があるが、こ
れらには次数、中間ユニット数、kの値など、学習に先⽴って決
定すべきパラメータが存在する。
これらのパラメータは重みパラメータのような”本来のパラメー
タのためのパラメータ”であることからハイパーパラメータと呼
ばれる。
k-NN法でハイパーパラメータを決定する
ことを考える
クラスラベル付きパターン集合: 𝑿 = {𝒙/, … , 𝒙R}
ハイパーパラメータ:𝜆 = 1,2,3, …という⾃然数
𝑿を⽤いて設計した識別機の、同じ分布に従う全ての可能な未知
パターンに対する誤識別率の平均値を𝑒•とすると、
ハイパーパラメータの決定問題とは𝑒•を最⼩にする𝜆を決定する
ことに他ならない。
しかし、分布は未知ゆえに𝑒•を計算するのは難しいので𝑿 =
{𝒙/, … , 𝒙R}のみから𝑒•を推定する問題に帰着される。
分割学習法 (hold-out method)
最も 単純な⽅法として、分割学習法 (以下H法)という⽅法がある。
まず𝑿 = 𝒙/, … , 𝒙R を、学習パターン𝑿/とテストパターン𝑿Nに分
割する。
さらに 𝑿/を⽤いて𝜆の各値で識別機を設計し、 𝑿Nを⽤いて識別
性能を評価することにより𝑒•を推定する。
しかし、この⽅法では与えられたパターン集合を分割する時点で
学習に使⽤するパターン数が減少するため識別性能の劣化が予想
される。与えられたパターン数が少ない場合には精度が低くなる
などの問題がある。
交差確認法 (cross-validation method)
交差確認法 以下CV法 では、𝑿全ての要素を学習とテストに使⽤
されるようになっている。
まず𝑿を𝑿/, … , 𝑿•というm個のグループに分割する。
𝑿$を除くm − 1個全てのグループのパターンで学習した後、
𝑿$で誤識別率を算出する。
これを𝑖 = 1,2, … , 𝑚の全てで⾏い、得られたm個の誤識別率の平
均値を𝑒•とする。
特に要素数が1となる分割がよく⽤いられ、1つ抜き法(L法)と呼
ばれ、これはH法に⽐べ𝑒•の推定精度が向上する。
ブートストラップ法 (BS法)
CV法と同様に、任意の統計量の推定を⾏う⼿法。
CV法に⽐べ、推定値の分散が⼩さくなる。つまり、 𝑿の変動に
対して安定するのが強みである。
推定⽅法の基本は、𝑿からの取り出しては元に戻すという復元抽
出にある。
BS法
𝑿を学習とテスト両⽅にしようして得られた𝑒•の推定値を𝑒•e とする。
真値と推定値のズレを、 𝑅 = 𝑒• − 𝑒•e と表して、
𝑅が何らかの⽅法で推定できれば𝑒• = 𝑅 + 𝑒•e と求められる。
BS法では𝑿からn回の復元抽出で擬似パターン𝑿∗
= (𝒙/
∗
, … , 𝒙R
∗
)を⽣成
し、この擬似パターン集合から𝑅の値を推定する。
実⽤的なのはこのBS法と、L法である。
と、本には書いてあるが最近ではk-fold-CV法が主流のようである。

わかりやすいパターン認識 4章