パターン認識と機械学習 上
2.3.6~2.5.2
2018/11/01
1
目次
2.3 ガウス分布
➢2.3.6 ガウス分布に対するベイズ推論
➢2.3.7 スチューデントの 𝑡 分布
➢2.3.8 周期変数
➢2.3.9 混合ガウス分布
2.4 指数型分布族
➢2.4.1 最尤推定と十分統計量
➢2.4.2 共役事前分布
➢2.4.3 無情報事前分布
2.5 ノンパラメトリック法
➢2.5.1 カーネル密度推定法
➢2.5.2 最近傍法
2
目次
2.3 ガウス分布
➢2.3.6 ガウス分布に対するベイズ推論
➢2.3.7 スチューデントの 𝑡 分布
➢2.3.8 周期変数
➢2.3.9 混合ガウス分布
3
共役事前分布
𝒩 𝜇 𝜇0, 𝜎0
2
尤度関数
𝑝 𝐱 𝜇
事後分布
𝒩 𝜇 𝜇 𝑁, 𝜎 𝑁
2 ∝ ×
分散 𝜎2 は既知とし,与えられた 𝑁 個の観測値集合 𝐱 = {𝑥1, ⋯ , 𝑥 𝑁}
から1変数のガウス確率変数 𝑥 における平均 𝜇 を推定
ガウス分布に対するベイズ推論Ⅰ
𝜇 が与えられたときの尤度関数は,
𝑝 𝐱 𝜇 = ς 𝑛=1
𝑁
𝑝 𝑥 𝑛 𝜇 =
1
(2𝜋𝜎2) 𝑁/2 exp −
1
2𝜎2
σ 𝑛=1
𝑁
(𝑥 𝑛 − 𝜇)2
𝜇 についての二次形式の指数であるから 𝑝 𝜇 にガウス分布を取れば
尤度関数の共役事前分布になり事後分布は
𝑝 𝜇|𝐱 ∝ 𝑝 𝐱 𝜇 𝑝(𝜇)
パラメータ上の事前分布を導入して,ベイズ主義的な扱い方を導く
4
ガウス分布に対するベイズ推論Ⅱ
𝜇 の最尤推定解 𝜇 𝑀𝐿 を用いて,両辺の指数部を比較すると
exp −(
1
2𝜎2)(𝜇 − 𝜇 𝑁)2
+𝑐𝑜𝑛𝑠𝑡 ∝ exp −(
𝑁
2𝜎2 +
1
2𝜎0
2)(𝜇 −
𝑁𝜎0
2 𝜇 𝑀𝐿+𝜎2 𝜇0
𝑁𝜎0
2+𝜎2 )2
+𝑐𝑜𝑛𝑠𝑡
事後分布の平均 𝜇 𝑁
𝜇 𝑁 =
𝜎2
𝑁𝜎0
2+𝜎2 𝜇0 +
𝑁𝜎0
2
𝑁𝜎0
2+𝜎2 𝜇 𝑀𝐿 (2.141)
事後分布の分散 𝜎 𝑁
2
の逆数(精度)
1
𝜎 𝑁
2 =
1
𝜎0
2 +
𝑁
𝜎2 (2.142)
5
共役事前分布
𝒩 𝜇 𝜇0, 𝜎0
2
尤度関数
𝑝 𝐱 𝜇
事後分布
𝒩 𝜇 𝜇 𝑁, 𝜎 𝑁
2 ∝ ×
※ 𝜇 𝑀𝐿 はサンプル平均(=
1
𝑁
σ 𝑛=1
𝑁
𝑥 𝑛), 𝑁 は観測できたデータ点の数
ガウス分布に対するベイズ推論Ⅲ
事後分布の平均と分散について, データ点の数 𝑁 との関係
事後分布の平均 𝜇 𝑁
𝜇 𝑁 =
𝜎2
𝑁𝜎0
2+𝜎2 𝜇0 +
𝑁𝜎0
2
𝑁𝜎0
2+𝜎2 𝜇 𝑀𝐿
➢𝑁 = 0 のとき,𝜇 𝑁 = 𝜇0
➢𝑁 → ∞ のとき, 𝜇 𝑁 → 𝜇 𝑀𝐿
事後分布の分散 𝜎 𝑁
2
の逆数(精度)
1
𝜎 𝑁
2 =
1
𝜎0
2 +
𝑁
𝜎2
➢𝑁 = 0 のとき,
1
𝜎 𝑁
2 =
1
𝜎0
2
➢𝑁 → ∞ のとき, 𝜎 𝑁
2
→ 0,
1
𝜎 𝑁
2 → ∞
6
データ点の数 𝑁 の増加に従い,精度が上昇
ガウス分布に対するベイズ推論Ⅳ
分散を既知としたときの,ガウス分布の平均 𝜇 に対するベイズ推論
曲線は 𝜇 上の事前分布をデータ点の数 𝑁 を変化させていったもの
事前分布は平均が0
事後分布は平均が0.8, 分散が0.1
右図から 𝑁の増加に伴い,
平均 𝜇 が0.8に近づくことを確認
分散も0.1に近づく
7
データ点の数 𝑁 の増加に従う精度の上昇の検証
0.8
ガウス分布に対するベイズ推論Ⅴ
ガウス分布の平均の逐次的な最尤推定 𝝁ML
𝑁
1
𝑁
σ 𝑛=1
𝑁
𝒙 𝑛 =
1
𝑁
σ 𝑛=1
𝑁−1
𝒙 𝑛 +
1
𝑁
𝒙 𝑁
𝑁 個のデータ点観測後の平均 =
𝑁 − 1 個のデータ点観測後の平均 + 𝑁 番目のデータ点 𝒙 𝑁 の影響度
ガウス分布の平均に対するベイズ的な考え
𝑝 𝜇 𝐱 ∝ 𝑝 𝜇 ς 𝑛=1
𝑁−1
𝑝 𝑥 𝑛 𝜇 𝑝(𝑥 𝑁|𝜇)
𝑁 個のデータ点観測後の事後分布 =
𝑁 − 1 個のデータ点観測後の事後分布 × データ点 𝒙 𝑁 についての尤度関数
8
ベイズ推論を逐次推定の視点から捉える
逐次的な解釈が
可能
ガウス分布に対するベイズ推論Ⅵ
ガウス分布の平均に対するベイズ的な考え
𝑝 𝜇 𝐱 ∝ 𝑝 𝜇 ς 𝑛=1
𝑁−1
𝑝 𝑥 𝑛 𝜇 𝑝(𝑥 𝑁|𝜇)
𝑁 個のデータ点観測後の事後分布 =
𝑁 − 1 個のデータ点観測後の事後分布 × データ点 𝒙 𝑁 についての尤度関数
9
ベイズ推論を逐次推定の視点から捉える
尤度関数事前分布事後分布 ∝ ×
観測データが独立分布に従うと仮定したどんな問題にも適用可能で
ベイズ推論を逐次推定の視点で捉えることは,非常に汎用的
ガンマ分布
Gam 𝜆 𝑎, 𝑏 =
1
Γ(𝑎)
𝑏 𝑎 𝜆 𝑎−1exp(−𝑏𝜆) (2.146)
𝑎, 𝑏:パラメータ(> 0)
Γ(𝑎):正規化係数,ガンマ関数(= ‫׬‬0
∞
𝑡 𝑥−1
𝑒−𝑡
𝑑𝑡)
ガウス分布に対するベイズ推論Ⅶ
平均:𝔼 𝜆 =
𝑎
𝑏
分散:𝑣𝑎𝑟 𝜆 =
𝑎
𝑏2
10
平均:1, 分散:10 の時 平均:1, 分散:1 の時 平均:0.66, 分散:0.11 の時
ガウス分布に対するベイズ推論Ⅶ
精度 𝜆 ≡
1
𝜎2 についての尤度関数は
𝑝 𝐱 𝜆 = ς 𝑛=1
𝑁
𝒩 𝑥 𝑛 𝜇, 𝜆−1
∝ 𝜆 Τ𝑁
2exp −
𝜆
2
σ 𝑛=1
𝑁
(𝑥 𝑛 − 𝜇)2
𝜆 のべき乗と 𝜆 の線形関数の指数の積に比例するため,
精度の共役事前分布はガンマ分布となり
Gam 𝜆 𝑎, 𝑏 =
1
Γ(𝑎)
𝑏 𝑎
𝜆 𝑎−1
exp(−𝑏𝜆)
尤度関数を掛け合わせた事後分布は
𝑝 𝜆 𝐱 ∝
1
Γ(𝑎)
𝑏0
𝑎0
𝜆 𝑎0−1
exp(−𝑏0 𝜆) 𝜆 Τ𝑁
2exp −
𝜆
2
σ 𝑛=1
𝑁
(𝑥 𝑛 − 𝜇)2
𝑝 𝜆 𝐱 ∝ 𝜆 𝑎0−1
𝜆 Τ𝑁
2exp −𝑏0 𝜆 −
𝜆
2
σ 𝑛=1
𝑁
(𝑥 𝑛 − 𝜇)2
= 𝜆 𝑎0+ Τ𝑁
2−1
exp −(𝑏0 +
𝑁
2
𝜎 𝑀𝐿
2
)𝜆
= Gam 𝜆 𝑎 𝑁, 𝑏 𝑁 (∵ 𝑎 𝑁 = 𝑎0 +
𝑁
2
, 𝑏 𝑁 = 𝑏0 +
𝑁
2
𝜎 𝑀𝐿
2
)
11
平均 𝜇 は既知とし,与えられた 𝑁 個の観測値集合 𝐱 から分散 𝜎2 を推定
ガウス分布に対するベイズ推論Ⅷ
事後分布 𝑝 𝜆 𝐱 ∝ Gam 𝜆 𝑎 𝑁, 𝑏 𝑁 からパラメータとデータ点数 𝑁 の関係は
𝑎 𝑁 = 𝑎0 +
𝑁
2
より, 𝑁 個のデータ点を観測すると,
𝑁
2
増えることから
事前分布のパラメータ 𝑎0 は 2𝑎0 個の有効な観測値が事前に存在
𝑏 𝑁 = 𝑏0 +
𝑁
2
𝜎 𝑀𝐿
2
より, 𝑁 = 2𝑎0 を用いると,同様に
パラメータ 𝑏0 が分散が
𝑏0
𝑎0
であるような 2𝑎0 個の有効な観測値が事前に存在
※分散 𝜎2
を推定を推定する際,精度ではなく,分散そのものを考える場合,
共役事前分布は逆ガンマ分布を使用
12
平均 𝜇 は既知とし,与えられた 𝑁 個の観測値集合 𝐱 から分散 𝜎2
を推定
ガウス分布に対するベイズ推論Ⅸ
尤度関数 𝑝 𝐱 𝜇, 𝜆 の, 𝜇 と 𝜆 への依存関係は
𝑝 𝐱 𝜇, 𝜆 = ς 𝑛=1
𝑁
(
𝜆
2𝜋
)
1
2 exp −
𝜆
2
(𝑥 𝑛 − 𝜇)2
∝ 𝜆
1
2exp(−
𝜆𝜇2
2
)
𝑁
exp 𝜆𝜇 σ 𝑛=1
𝑁
𝑥 𝑛 −
𝜆
2
σ 𝑛=1
𝑁
𝑥 𝑛
2
𝜇 と 𝜆 への関数依存性を備えた事前分布は
𝑝(𝜇, 𝜆) ∝ 𝜆
1
2exp(−
𝜆𝜇2
2
)
𝛽
exp 𝑐𝜆𝜇 − 𝑑𝜆
= exp −
𝛽𝜆
2
𝜇 −
𝑐
𝛽
2
𝜆
𝛽
2 exp − 𝑑 −
𝑐2
𝛽
𝜆 (∵平方完成)
𝜇0 =
𝑐
𝛽
, 𝑎 =
1+𝛽
2
, 𝑏 = 𝑑 −
𝑐2
𝛽
とすると
正規化した事前分布はガウスーガンマ分布(正規ーガンマ分布)
𝑝 𝜇, 𝜆 = 𝒩 𝜇 𝜇0, (𝛽𝜆)−1
× Gam(𝜆|𝑎, 𝑏)
13
平均と精度の両方が未知の時の共役事前分布を求める
ガウス分布に対するベイズ推論Ⅹ
1変数のガウス確率変数 𝒩 𝑥 𝜇, 𝜎2 の場合,事前分布は
平均が未知の時,ガウス分布
𝒩 𝜇 𝜇0, 𝜎0
2
精度が未知の時,ガンマ分布
𝐺𝑎𝑚 𝜆 𝑎, 𝑏 =
1
Γ(𝑎)
𝑏 𝑎
𝜆 𝑎−1
exp −𝑏𝜆
平均と精度の両方が未知の時,ガウス-ガンマ分布
𝑝 𝜇, 𝜆 = 𝒩 𝜇 𝜇0, (𝛽𝜆)−1
× 𝐺𝑎𝑚(𝜆|𝑎, 𝑏)
14
ガウス分布に対するベイズ推論Ⅺ
𝐷次元変数の多変量ガウス分布 𝒩 𝐱 𝝁, 𝜦−1 の場合
事前分布は
平均が未知の時,ガウス分布
𝒩 𝝁 𝝁0, 𝜦−1
精度が未知の時,ウィシャート分布
𝒲 𝜦 𝑾, 𝑣 = 𝐵|𝜦|(𝑣−𝐷−1)2
exp −
1
2
Tr(𝑾−1 𝜦)
𝑣: 自由度, 𝑾: 尺度行列, Tr: トレース, 𝐵: 正規化定数
平均と精度の両方が未知の時,ガウス-ウィシャート分布
𝑝 𝝁, 𝜦|𝝁0, 𝛽, 𝑾, 𝑣 = 𝒩 𝝁 𝝁0, (𝛽𝜦)−1 × 𝒲(𝜦|𝑾, 𝑣)
15
目次
2.3 ガウス分布
➢2.3.6 ガウス分布に対するベイズ推論
➢2.3.7 スチューデントの 𝑡 分布
➢2.3.8 周期変数
➢2.3.9 混合ガウス分布
16
スチューデントの 𝑡 分布Ⅰ
これを 𝑣 = 2𝑎, 𝜆 = 𝑎/𝑏 としたとき,スチューデントの 𝑡 分布
St 𝑥 𝜇, 𝜆, 𝑣 =
Γ
𝑣
2
+
1
2
Γ(𝑣/2)
𝜆
𝜋𝑣
1/2
1 +
𝜆(𝑥−𝜇)2
𝑣
−
𝑣
2
−
1
2
(2.159)
17
1変数のガウス分布 𝒩 𝑥 𝜇, 𝜏−1 において, ガンマ分布 𝐺𝑎𝑚(𝜏|𝑎, 𝑏) を
精度の事前分布とする 𝑥 の周辺分布は
𝑝 𝑥 𝜇, 𝑎, 𝑏 = ‫׬‬0
∞
𝒩 𝑥 𝜇, 𝜏−1
× 𝐺𝑎𝑚(𝜏|𝑎, 𝑏) 𝑑𝜏
= ‫׬‬0
∞
(
𝜏
2𝜋
)1/2
𝑒𝑥𝑝 −
𝜏
2
(𝑥 − 𝜇)2
×
𝑏 𝑎 𝑒 −𝑏𝜏 𝜏 𝑎−1
Γ 𝑎
𝑑𝜏
=
𝑏 𝑎
Γ 𝑎
1
2𝜋
1
2
‫׬‬0
∞
𝜏 𝑎−1+1/2
𝑒𝑥𝑝 −
𝜏
2
(𝑥 − 𝜇)2
−𝑏𝜏 𝑑𝜏
=
𝑏 𝑎
Γ 𝑎
1
2𝜋
1
2
𝑏 +
𝑥−𝜇 2
2
−𝑎−
1
2 ‫׬‬0
∞
𝑧 𝑎−1/2
𝑒𝑥𝑝 −𝑧 𝑑𝑧 (∵𝑧 = 𝜏 𝑏 +
𝑥−𝜇 2
2
)
=
𝑏 𝑎
Γ 𝑎
1
2𝜋
1
2
𝑏 +
𝑥−𝜇 2
2
−𝑎−
1
2 Γ(𝑎 + 1/2)
スチューデントの 𝑡 分布
St 𝑥 𝜇, 𝜆, 𝑣 =
Γ
𝑣
2
+
1
2
Γ(
𝑣
2
)
𝜆
𝜋𝑣
1/2
1 +
𝜆(𝑥−𝜇)2
𝑣
−
𝑣
2
−
1
2
(2.159)
𝜆: 𝑡 分布の精度(分散の逆数とは限らない)
𝑣:自由度, 𝜇:平均
スチューデントの 𝑡 分布Ⅱ
𝑣 = 1 のとき
期待値,分散が定義できない
コーシー分布
𝑣 → ∞ のとき
平均 𝜇 精度 𝜆 のガウス分布
18
スチューデントの 𝑡 分布Ⅱ
積分より,平均 𝜇 は同じだが,精度 𝜏−1
が異なるようなガウス分布を
無限個重ね合わせた無限混合分布といえる
⇒ 頑健性があり,外れ値に影響されにくい
右図において
単一のガウス分布は外れ値に釣られる
𝑡 分布は外れ値に釣られていない
19
スチューデントの 𝑡 分布(パラメータ定義前)
𝑝 𝑥 𝜇, 𝑎, 𝑏 = න
0
∞
𝒩 𝑥 𝜇, 𝜏−1
× 𝐺𝑎𝑚(𝜏|𝑎, 𝑏) 𝑑𝜏
赤:𝑡分布 緑:ガウス分布
多変量スチューデントの 𝑡 分布
St 𝐱 𝝁, 𝜦, 𝑣 = න
0
∞
𝒩 𝐱 𝝁, (𝜂𝜦)−1 × 𝐺𝑎𝑚(𝜂|
𝑣
2
,
𝑣
2
) 𝑑𝜂
𝑣 = 2𝑎, 𝜆 =
𝑎
𝑏
, 𝜂 = γ(
𝑏
𝑎
)
𝒩 𝐱 𝝁, 𝜦 :多変量ガウス分布
スチューデントの 𝑡 分布Ⅲ
以下の性質を持つ
期待値 E 𝐱 = 𝝁 (𝑣 > 1の時)
共分散 cov 𝐱 =
𝑣
(𝑣−2)
𝜦−1
(𝑣 > 2の時)
最頻値 mode 𝐱 = 𝝁
20
目次
2.3 ガウス分布
➢2.3.6 ガウス分布に対するベイズ推論
➢2.3.7 スチューデントの 𝑡 分布
➢2.3.8 周期変数
➢2.3.9 混合ガウス分布
21
周期変数Ⅰ
角座標 0 ≦ 𝜃 ≦ 2𝜋 を用いると,便利に表現可能
2つの観測値(𝜃1 = 1°, 𝜃2 = 359°)があるとき
標準的なガウス分布を用いると
0°を原点にすると
平均が180° , 標準偏差が179°
180°を原点にすると
平均が0° , 標準偏差が1°
原点の選択によって,大きな差異
22
24時間や1年といった時間的周期を持つ量のモデル化
周期変数Ⅱ
周期変数の観測値の集合 𝒟 = 𝜃1, ⋯ , 𝜃 𝑁 の平均を求めたい
観測値は単位円上の点とする2次元単位ベクトル 𝐱1, ⋯ , 𝐱 𝑁
角度の平均 ҧ𝜃 はベクトルの平均 ത𝐱 に対応
ത𝐱 = ҧ𝑟𝑐𝑜𝑠 ҧ𝜃, ҧ𝑟𝑠𝑖𝑛 ҧ𝜃
= (
1
𝑁
σ 𝑛=1
𝑁
cos 𝜃 𝑛 ,
1
𝑁
σ 𝑛=1
𝑁
sin 𝜃 𝑛) であるから
ҧ𝜃 = arctan(
σ 𝑛 sin 𝜃 𝑛
σ 𝑛 cos 𝜃 𝑛
)
23
24時間や1年といった時間的周期を持つ量のモデル化
周期変数Ⅲ
周期2𝜋の分布 𝑝(𝜃) について,1変数の場合満たすべき条件は以下の3つ
𝑝 𝜃 ≥ 0
‫׬‬0
2𝜋
𝑝 𝜃 𝑑𝜃 = 1
𝑝 𝜃 + 2𝜋 = 𝑝 𝜃
24
ガウス分布の周期変数への一般化(フォン・ミーゼス分布)
[1]https://ja.wikipedia.org/wiki/フォン・ミーゼス分布
フォン・ミーゼス分布は青の密度等高線を
持つような2次元ガウス分布に対して
赤の単位円で条件付けし導出(右下図)
3次元化
周期変数Ⅳ
3つの条件を満たすガウス型の分布を求める
25
平均を 𝝁 = 𝜇1, 𝜇2 , 共分散行列が 𝚺 = 𝜎2
𝐈 であるような2変数 𝐱 = 𝑥1, 𝑥2 上の
ガウス分布は
𝑝 𝑥1, 𝑥2 =
1
2𝜋𝜎2
exp{−
(𝑥1 − 𝜇1)2
+(𝑥2 − 𝜇2)2
2𝜎2
}
𝝁, 𝐱 を極座標に変換すると 𝝁 = 𝑟0 𝑐𝑜𝑠𝜃0, 𝑟0 𝑠𝑖𝑛𝜃0 , 𝐱 = 𝑟𝑐𝑜𝑠𝜃, 𝑟𝑠𝑖𝑛𝜃
単位円へ条件付けするため,𝑟 = 1 とし,代入すると
−
1
2𝜎2
{(𝑟𝑐𝑜𝑠𝜃 − 𝑟0 𝑐𝑜𝑠𝜃0)2
+ 𝑟𝑠𝑖𝑛𝜃 − 𝑟0 𝑠𝑖𝑛𝜃0
2
}
=−
1
2𝜎2 {1 + 𝑟0
2
− 2𝑟0(𝑐𝑜𝑠𝜃𝑐𝑜𝑠𝜃0 + 𝑠𝑖𝑛𝜃𝑠𝑖𝑛𝜃0)}
=
𝑟0
2𝜎2 𝑐𝑜𝑠 𝜃 − 𝜃0 + 𝑐𝑜𝑛𝑠𝑡
𝑚 =
𝑟0
𝜎2 とおくと,単位円に沿った 𝑝 𝜃 は
𝑝 𝜃|𝜃0, 𝑚 =
1
2𝜋𝐼0(𝑚)
exp{𝑚𝑐𝑜𝑠 𝜃 − 𝜃0 } (2.179)
周期変数Ⅴ
フォン・ミーゼス分布は
𝑚 が大きいと分布が集中
𝜃0 に応じて方向を持つ
26
フォン・ミーゼス分布,あるいは循環正規分布とは
𝑝 𝜃|𝜃0, 𝑚 =
1
2𝜋𝐼0(𝑚)
exp{𝑚𝑐𝑜𝑠 𝜃 − 𝜃0 } (2.179)
𝜃0:分布の平均, 𝑚:集中度パラメータ(≒精度)
𝐼0(𝑚):正規化係数(=
1
2𝜋
‫׬‬0
2𝜋
exp 𝑚𝑐𝑜𝑠 𝜃 𝑑 𝜃)
横軸: 𝑝 縦軸: 𝜃 極座標表示
周期変数Ⅵ
27
フォン・ミーゼス分布について最尤推定
フォン・ミーゼス分布の対数尤度関数は
ln 𝑝 𝒟|𝜃0, 𝑚 = −𝑁 ln 2𝜋 − 𝑁 ln 𝐼0 𝑚 + 𝑚 σ 𝑛=1
𝑁
cos(𝜃 𝑛 − 𝜃0)
1. 𝜃0 についての導関数を 0 とすると
σ 𝑛=1
𝑁
sin(𝜃 𝑛 − 𝜃0) = σ 𝑛=1
𝑁
(sin 𝜃 𝑛 cos 𝜃0 − cos 𝜃 𝑛 sin 𝜃0) = 0 より
𝜃0
𝑀𝐿
= arctan(
σ 𝑛 sin 𝜃 𝑛
σ 𝑛 cos 𝜃 𝑛
)
2. 𝑚 についての導関数を 0 とすると
𝐴 𝑚 𝑀𝐿 =
𝐼0
′ 𝑚
𝐼0 𝑚
=
1
𝑁
σ 𝑛=1
𝑁
cos(𝜃 𝑛 − 𝜃0
𝑀𝐿
)
=
1
𝑁
σ 𝑛=1
𝑁
cos 𝜃 𝑛 𝑐𝑜𝑠𝜃0
𝑀𝐿
+
1
𝑁
σ 𝑛=1
𝑁
sin 𝜃 𝑛 𝑠𝑖𝑛𝜃0
𝑀𝐿
𝐴 𝑚 の値は 𝑚 について事前に解けるので,𝑚 𝑀𝐿 も求まる
周期変数Ⅶ
周期分布を生成する他の方法:
単純なもの
ヒストグラム(各座標を一定区間に分割して分布を取得)
複雑なもの
周辺化や実数軸の単位円上への写像
フォン・ミーゼス分布の拡張:
混合分布によって単峰性から,多峰性への拡張が可能
28
目次
2.3 ガウス分布
➢2.3.6 ガウス分布に対するベイズ推論
➢2.3.7 スチューデントの 𝑡 分布
➢2.3.8 周期変数
➢2.3.9 混合ガウス分布
29
混合ガウス分布Ⅰ
30
ガウス分布の課題:
多峰性を持つデータ構造を捉えることが困難
単一のガウス分布の限界 複数のガウス分布による柔軟性の拡張
混合ガウス分布Ⅱ
混合係数 𝜋 𝑘 の条件はガウス分布が正規化されている際
σ 𝑘=1
𝐾
𝜋 𝑘 = 1, 0 ≤ 𝜋 𝑘 ≤ 1
混合係数も確率の条件をクリア
31
混合ガウス分布とは 𝐾 個のガウス分布を重ね合わせた分布
𝑝 𝐱 = σ 𝑘=1
𝐾
𝜋 𝑘 𝒩(𝐱|𝝁 𝑘, 𝚺 𝑘) (2.188)
𝒩(𝐱|𝝁 𝑘, 𝚺 𝑘): 混合要素
𝜋 𝑘: 混合係数
𝝁 𝑘: 平均, 𝚺 𝑘: 共分散
混合分布とは基本的な分布を線形結合して重ね合わせた分布
混合ガウス分布Ⅲ
x の周辺密度 𝑝 𝐱
𝜋 𝑘 = 𝑝 𝑘 : 𝑘 番目の混合要素を選択する事前確率
𝒩 𝐱 𝝁 𝑘, 𝚺 𝑘 = 𝑝(x|𝑘): 𝑘 が与えられたときの x の条件付き密度
𝑝 𝐱 = σ 𝑘=1
𝐾
𝑝(𝑘)𝑝(x|𝑘) = σ 𝑘=1
𝐾
𝜋 𝑘 𝒩(𝐱|𝝁 𝑘, 𝚺 𝑘)
事後確率 𝑝 𝑘|𝐱
負担率とも呼ばれる.ベイズの定理を用いて
𝛾 𝑘 ≡ 𝑝 𝑘|𝐱 =
𝑝(𝑘)𝑝(x|𝑘)
σ𝒍 𝑝(𝑙)𝑝(x|𝑙)
=
𝜋 𝑘 𝒩(𝐱|𝝁 𝑘, 𝚺 𝑘)
σ𝒍 𝜋𝑙 𝒩(𝐱|𝝁𝑙, 𝚺𝑙)
32
混合ガウス分布Ⅳ
対数の内部に 𝑘 についての総和があり,複雑
⇒ この尤度関数を最大化するアプローチとして
繰り返し的な数値最適化手法
EMアルゴリズム ⇒ 9章
33
混合ガウス分布の 𝐗 についての対数尤度関数は
ln 𝑝(𝐗|𝝅, 𝝁, 𝚺) = σ 𝑛=1
𝑁
ln{σ 𝑘=1
𝐾
𝜋 𝑘 𝒩(𝐱|𝝁 𝑘, 𝚺 𝑘)} (2.193)
𝐗 = {𝐱 𝟏, … , 𝐱 𝑵}, 𝝅 ≡ {𝜋1, … , 𝜋 𝑁}
𝝁 ≡ {𝝁1, … , 𝝁 𝑁},𝚺 ≡ {𝚺1, … , 𝚺 𝑁}
目次
2.4 指数型分布族
➢2.4.1 最尤推定と十分統計量
➢2.4.2 共役事前分布
➢2.4.3 無情報事前分布
34
指数型分布族
今まで扱ってきた多くの分布は指数型分布族に所属
x 上の指数型分布族は,次式で定義される分布の集合
35
ベルヌーイ分布,ガウス分布など(例外:混合ガウス分布)
𝑝 x η = ℎ x 𝑔 η)exp{η 𝑇 𝒖 x (2.194)
x: スカラー/ベクトル,離散/連続,共にどちらも可
η : 分布の自然パラメータ
𝒖 x :xの任意の関数
𝑔 x : 分布を正規化するための係数
指数型分布族(ベルヌーイ分布)
ベルヌーイ分布が指数型分布族であることの確認
36
𝑝 𝑥 𝜇 = 𝐵𝑒𝑟𝑏(𝑥| 𝜇) = 𝜇 𝑥
1 − 𝜇 1−𝑥 𝑝 x η = ℎ x 𝑔 η)exp{η 𝑇
𝒖 x
𝑝 𝑥 𝜇 = 𝐵𝑒𝑟𝑏(𝑥| 𝜇) = 𝜇 𝑥 1 − 𝜇 1−𝑥 (2.196)
対数を取り, ln(𝑝 𝑥 𝜇 ) = ln 𝜇 𝑥 + ln 1 − 𝜇 1−𝑥
左辺の対数を移項,𝑝 𝑥 𝜇 = exp ln 𝜇 𝑥
+ ln 1 − 𝜇 1−𝑥
= (1 − 𝜇)exp(ln(
𝜇
1 − 𝜇
)𝑥)
ここで,η = ln(
𝜇
1− 𝜇) (1) とすると, exp(η 𝑥)
(1)を式変形して得られるロジスティックシグモイド関数 𝜇 = σ η =
1
1+exp(−η)
によって, 1 − 𝜇 = σ η
以上より,𝑝 𝑥 η = 𝜎(−η)exp(ηx)
この時,𝑢 𝑥 = 𝑥, ℎ 𝑥 = 1, 𝑔 η = 𝜎(−η)
指数型分布族(多項分布)Ⅰ
1つの観測値 x = (𝑥1, … , 𝑥 𝑁) 𝑇についての多項分布は
𝑝 x 𝜇 = ς 𝑘=1
𝑀
𝜇 𝑘
𝑥 𝑘 = exp{σ 𝑘=1
𝑀
𝑥 𝑘 𝑙𝑛 𝜇 𝑘}
σ 𝑘=1
𝑀
𝜇 𝑘 = 1 の制約があるため, 𝜇1~ 𝜇 𝑀−1 によって
決定可能な 𝜇 𝑀 の消去を考える
37
先ほどと同様に,𝑢 x = x, ℎ x = 1, 𝑔 η = 1
η 𝑘= ln( 𝜇 𝑘), η = (η1, … , η 𝑀) 𝑇 とすると,
𝑝 x 𝝁 = exp(η 𝑇
x)
指数型分布族の定義式 𝑝 x η = ℎ x 𝑔 η)exp{η 𝑇 𝒖 x から
指数型分布族(多項分布)Ⅱ
𝜇 𝑀 以外の制約条件 0 ≤ 𝜇 𝑘 ≤ 1, σ 𝑘=1
𝑀−1
𝜇 𝑘 ≤ 1 を用いて
𝑝 x 𝜇 = exp σ 𝑘=1
𝑀
𝑥 𝑘 𝑙𝑛 𝜇 𝑘
= exp σ 𝑘=1
𝑀−1
𝑥 𝑘 𝑙𝑛 𝜇 𝑘 + 1 − σ 𝑘=1
𝑀−1
𝑥 𝑘 𝑙𝑛 1 − σ 𝑘=1
𝑀−1
𝜇 𝑘
= exp σ 𝑘=1
𝑀−1
𝑥 𝑘 𝑙𝑛 𝜇 𝑘 − σ 𝑘=1
𝑀−1
𝑥 𝑘 𝑙𝑛 1 − σ 𝑘=1
𝑀−1
𝜇 𝑘 + 𝑙𝑛 1 − σ 𝑘=1
𝑀−1
𝜇 𝑘
= 1 − σ 𝑘=1
𝑀−1
𝜇 𝑘 exp σ 𝑘=1
𝑀−1
𝑥 𝑘 𝑙𝑛
𝜇 𝑘
1−σ 𝑗=1
𝑀−1 𝜇 𝑗
𝑙𝑛
𝜇 𝑘
1−σ 𝑘=𝑗 𝜇 𝑗
= η 𝑘 とすると,
𝜇 𝑘 =
exp(η 𝑘)
1+σ 𝑗 exp(η𝑗)
(ソフトマックス関数 or 正規化指数関数)となり,
𝑝 x η = (1 + ෍
𝑘=1
𝑀−1
exp(η 𝑘))−1
exp(η 𝑇
x)
η = (η1, … , η 𝑀−1, 0) 𝑇
, 𝑢 x = x, ℎ x = 1, 𝑔 η = (1 + ෍
𝑘=1
𝑀−1
exp(η 𝑘))−1
38
指数型分布族(ガウス分布)
多変量ガウス分布については
𝑁 x 𝝁, 𝚺 =
1
2𝜋 Τ𝐷 2
1
𝚺 Τ1 2 exp −
1
2
x − 𝝁 T
𝚺−1
x − 𝝁
=
1
2𝜋 Τ𝐷 2
1
𝚺 Τ1 2 exp −
1
2
xT
𝚺−1
x +
1
2
xT
𝚺−1
𝝁 +
1
2
𝝁T
𝚺−1
𝐱 −
1
2
𝝁T
𝚺−1
𝝁
=
1
2𝜋 Τ𝐷 2
1
𝚺 Τ1 2 exp −
1
2
xT 𝚺−1x + xT 𝚺−1 𝝁 −
1
2
𝝁T 𝚺−1 𝝁
=
1
2𝜋 Τ𝐷 2
1
𝚺 Τ1 2 exp −
1
2
𝝁T 𝚺−1 𝝁 exp −
1
2
xT 𝚺−1x + xT 𝚺−1 𝝁
= ℎ x 𝑔 η)exp{η 𝑇
𝒖 x
39
η =
𝝁T
−
1
2
𝚺−1
, 𝒖 x = 𝚺−1x
xT 𝚺−1x , ℎ x =
1
2𝜋 Τ𝐷 2 , 𝑔 η = −2 η2
1
2exp(η1η2η1
𝑇
) となり,対応
目次
2.4 指数型分布族
➢2.4.1 最尤推定と十分統計量
➢2.4.2 共役事前分布
➢2.4.3 無情報事前分布
40
指数型分布族
最尤推定Ⅰ
関数 𝑔(η) が分布を正規化するための係数と解釈でき
𝑔 η ‫׬‬ ℎ x exp η 𝑇 𝒖 x 𝑑x = 1
η について微分をすると,
𝛻𝑔 η ‫׬‬ ℎ x exp η 𝑇 𝒖 x 𝑑x + 𝑔 η ‫׬‬ ℎ x exp η 𝑇 𝒖 x 𝒖 x 𝑑x = 0
整理すると, −
𝛻𝑔 η
𝑔 η = 𝑔 η ‫׬‬ ℎ x exp η 𝑇
𝒖 x 𝒖 x 𝑑x = E[𝒖 x ]
−𝛻ln𝑔 η = E[𝒖 x ]
𝒖 x の期待値は 𝑔(η) で表現可能,共分散も同様
41
指数型分布族の一般形 𝑝 x η = ℎ x 𝑔 η)exp{η 𝑇 𝒖 x の
パラメータベクトル η の推定
指数型分布族
最尤推定Ⅱ
𝛻ln𝑝 𝐗 η = 0 の時,
−𝛻ln𝑔 η 𝑀𝐿 =
1
𝑁
σ 𝑛=1
𝑁
𝒖 x 𝑛

1
𝑁
σ 𝑛=1
𝑁
𝒖 x 𝑛 は η 𝑀𝐿 の十分統計量
⇒ データ集合全体を保持する必要がない
𝑁 → ∞ の極限の時,真の値に近づく
42
尤度関数は
𝑝(𝐗|η)=( ς 𝑛=1
𝑁
ℎ(x 𝑛))𝑔 η 𝑁
exp{η 𝑇 σ 𝑛=1
𝑁
𝒖 x 𝑛 }
対数を取って,
ln𝑝(𝐗|η) = σ 𝑛=1
𝑁
lnℎ(x 𝑛) + Nlng(η)+η 𝑇 σ 𝑛=1
𝑁
𝒖 x 𝑛
独立に同分布に従うデータ集合 𝐗 = {x1,…, x 𝑛} において
目次
2.4 指数型分布族
➢2.4.1 最尤推定と十分統計量
➢2.4.2 共役事前分布
➢2.4.3 無情報事前分布
43
指数型分布族
共役事前分布
指数型分布族において,尤度関数は
𝑝(𝐗|η)=( ς 𝑛=1
𝑁
ℎ(x 𝑛))𝑔 η 𝑁exp{η 𝑇 σ 𝑛=1
𝑁
𝒖 x 𝑛 }
共役事前分布は 𝑓 𝝌, 𝜈 を正規化係数とすると
𝑝 η|𝝌, 𝜈 = 𝑓 𝝌, 𝜈 𝑔(𝜼) 𝜈
exp{𝜈𝜼 𝑇
𝝌}
尤度関数と共役事前分布を掛け合わせた事後分布は
𝑝 η|𝐗, 𝝌, 𝜈 ∝ 𝑔 𝜼 𝜈+𝑁
exp{𝜼 𝑇 σ 𝑛=1
𝑁
𝒖 x 𝑛 + 𝜈𝝌 }
と書けるので,共役事前分布の存在が確認可能
44
指数型分布族の任意の分布について,共役事前分布
𝑝 η|𝝌, 𝜈 = 𝑓 𝝌, 𝜈 𝑔(𝜼) 𝜈
exp{𝜈𝜼 𝑇
𝝌} の存在の確認
目次
2.4 指数型分布族
➢2.4.1 最尤推定と十分統計量
➢2.4.2 共役事前分布
➢2.4.3 無情報事前分布
45
指数型分布族
無情報事前分布Ⅰ
分布 𝑝 𝑥 𝜆 において,適切な事前分布 𝑝 𝜆 = 𝑐𝑜𝑛𝑠𝑡 を考える
離散変数の場合, 𝑝 𝜆 =
1
𝐾
(𝐾: λ が取る状態の数) で良い
連続パラメータの場合,2つ問題が存在
46
事前に知識がある場合
その知識に基づいて事前分布を設定
例:コインの裏表なら二項分布もしくはガウス分布
事前に知識がない場合
事後分布への影響がなるべく少なくなるようにした事前分布
すなわち,無情報事前分布を設定
指数型分布族
無情報事前分布Ⅱ
𝜆 が連続パラメータの場合の2つの問題
𝜆 の定義域が有界でない時,正規化されない
⇒ 事前分布は変則事前分布に(正規化できる場合も)
確率密度が変化してしまい,定数とならない
関数 ℎ 𝜆 が定数の場合, ℎ 𝜂2
も定数であるが非線形な
変数変換をした時の確率密度は 𝜂 に比例
𝑝 𝑛 𝜂 = 𝑝 𝜆 𝜆
𝑑𝜆
𝑑𝜂
= 𝑝 𝜆 𝜂2 2𝜂 ∝ 𝜂
47
分布 𝑝 𝑥 𝜆 において,事後分布への影響を小さくするのに
適切な(正規化可能な)事前分布 𝑝 𝜆 = 𝑐𝑜𝑛𝑠𝑡 を考える
指数型分布族
無情報事前分布の例Ⅰ
48
平行移動不変性を持ち,位置パラメータを 𝜇 とする
確率密度 𝑝 𝑥 𝜇 = 𝑓 𝑥 − 𝜇 は原点の選び方に依存せず
𝑝 ො𝑥 ො𝜇 = 𝑓 ො𝑥 − ො𝜇 ො𝑥 = 𝑥 + 𝑐, ො𝜇 = 𝑥 + 𝑐(𝑐: 𝑐𝑜𝑛𝑠𝑡)
平行移動不変性をもつ事前分布であれば
𝐴 ≤ 𝜇 ≤ 𝐵の確率と 𝐴 − 𝑐 ≤ 𝜇 ≤ 𝐵 − 𝑐 の確率は等しく
න
𝐴
𝐵
𝑝 𝜇 𝑑𝜇 = න
𝐴−𝑐
𝐵−𝑐
𝑝 𝜇 𝑑𝜇 = න
𝐴
𝐵
𝑝 𝜇 − 𝑐 𝑑𝜇
任意の 𝐴 と 𝐵 に成立するので 𝑝 𝜇 − 𝑐 = 𝑝 𝜇 となり
𝑝 𝜇 は定数
位置パラメータの例(∵ §2.3.6)
ガウス分布の平均 𝜇0 があり 𝜎0
2
→ ∞ の極限を取れば
𝜇 𝑁 =
𝜎2
𝑁𝜎0
2+𝜎2 𝜇0 +
𝑁𝜎0
2
𝑁𝜎0
2+𝜎2 𝜇 𝑀𝐿 → 𝜇 𝑀𝐿で 𝜇0 に影響しない
指数型分布族
無情報事前分布の例Ⅱ
49
尺度不変性を持ち,尺度パラメータを 𝜎(> 0) とする
確率密度 𝑝 𝑥 𝜎 =
1
𝜎
𝑓
𝑥
𝜎
は拡大縮小を行っても
𝑝 ො𝑥 ො𝜎 =
1
ෝ𝜎
𝑓(
ො𝑥
ෝ𝜎
) ො𝑥 = 𝑐𝑥, ො𝜎 = 𝑐𝜎(𝑐: 𝑐𝑜𝑛𝑠𝑡)
尺度不変性をもつ事前分布であれば
𝐴 ≤ 𝜇 ≤ 𝐵の確率と 𝐴/𝑐 ≤ 𝜇 ≤ 𝐵/𝑐 の確率は等しく
‫׬‬𝐴
𝐵
𝑝 𝜎 𝑑𝜎 = ‫׬‬𝐴/𝑐
𝐵/𝑐
𝑝 𝜎 𝑑𝜎 = ‫׬‬𝐴
𝐵
𝑝(
𝜎
𝑐
)
1
𝑐
𝑑𝜎
任意の 𝐴 と 𝐵 に成立するので 𝑝 𝜎 = 𝑝(
𝜎
𝑐
)
1
𝑐
となり, 𝑝 𝜎 ∝ 1/σ
𝑝 𝑙𝑛𝜎 = 𝑝 𝜆 = 𝑝 𝜎
𝑑𝜎
𝑑𝜆
= 𝑝 𝜎 𝜎 = 𝑐𝑜𝑛𝑠𝑡
尺度パラメータの例
位置パラメータ 𝜇 考慮済みの,ガウス分布の標準偏差 𝜎 より
𝑝 𝜎 = 𝒩 𝜇 𝜇, 𝜎2 ∝ 𝜎−1exp −( Τ෤𝑥 𝜎)2 ∝ Τ1 𝜎
更に,事後分布を考えると,無情報事前分布とわかる( ∵ §2.3.6 )
目次
2.5 ノンパラメトリック法
➢2.5.1 カーネル密度推定法
➢2.5.2 最近傍法,𝐾 近傍法
50
ノンパラメトリック法
パラメトリックなアプローチ
データ集合から値が決定される少数のパラメータにより
関数形が決まるような確率密度の利用法(2.1~2.4)
ノンパラメトリックなアプローチ
未知の関数が含まれる手法であり,分布の形状について
わずかな仮定を加えて推定する手法
密度推定のノンパラメトリックによる例を紹介
51
パラメトリックなアプローチの限界:
データが多峰性の分布から生成されていた場合,
単峰性のガウス分布ではデータを十分に捉えられない
標準的なヒストグラムでの各区間の確率密度は
∆
∆
∆
ヒストグラム密度推定法Ⅰ
52
横軸:𝑥,縦軸:頻度
𝑝𝑖 =
𝑛𝑖
𝑁Δ𝑖
(2.241)
𝒙:連続変数(横軸), Δ𝑖: 𝑖番目の幅,
𝑛𝑖: 𝑖番目の観測値の数(縦軸),𝑁: 観測値の総数
緑の線がデータの分布
ヒストグラムの高さが得られる分布
Δ が小さい ⇒ 元の分布にない構造が存在
Δ が適当 ⇒ 最良の結果
Δ が大きい ⇒ 二峰性を追えない
長所:
一度計算すれば,元のデータ集合が破棄でき,大規模データに有利
逐次的な計算が容易
課題と解決の方向性:
次元数が増えると,グリッド上になるので計算量が増大
区間の縁の位置に依存
⇒ 不連続性の解決,局所的な近傍の考慮
Δ の値(平滑化パラメータ)に依存
⇒ 適当な値が必要
ヒストグラム密度推定法Ⅱ
区間の縁(赤線)次第で
異なる分布に
密度推定法Ⅰ
x を含むある小さな領域 ℛ を考える.
この領域に割り当てられた確率は 𝑃 = ‫׬‬ℛ
𝑝 x 𝑑𝑥 (2.242)
𝑝(x) から得られた 𝑁 個のデータ集合のうち,各データ点が領域 ℛ 中にある確率は 𝑃 なので,
ℛ 内の点の総数 𝐾 は二項分布に従い,𝐵𝑖𝑛 𝐾 𝑁, 𝑃 =
𝑁!
𝐾! 𝑁−𝐾 !
𝑃 𝐾
(1 − 𝑃) 𝑁−𝐾
であり,
𝐸
𝐾
𝑁
=
𝑁𝑃
𝑁
= 𝑃, var
K
N
=
𝑁𝑃(1 − 𝑃)
𝑁2
= 𝑃(1 − 𝑃)/𝑁
𝑁が大きい時,分布は平均の周囲で尖ったものとなり,𝐾 ≃ 𝑁𝑃 ⇒ 𝑃 =
𝐾
𝑁
ℛ が,確率密度 𝑝(x) が領域内でほぼ一定とみなせるほど十分に小さいとも仮定できるとき
𝑃 ≃ 𝑝 x 𝑉 ⇒ 𝑝 x =
𝑃
𝑉
𝑉: ℛの体積 ( = ‫׬‬ℛ
𝑑𝑥)
以上の二つから、密度推定量は 𝑝 x =
𝑃
𝑉
=
𝐾
𝑁𝑉
(2.246)
54
ある 𝐷 次元のユークリッド空間中の未知の確率密度 𝑝(x) より
得られている観測値の集合から 𝑝(x) の値を推定
密度推定法Ⅱ
非常に小さい領域 ℛ の中に十分に大きな数 𝑁 個の点
⇒ 2つの過程は相反しているため,2通りに分けて使用
カーネル推定法
𝑉 を固定し,データから 𝐾 を推定
𝐾 近傍法
𝐾 を固定し,データから 𝑉 の値を推定
※𝑁 に応じて,𝑉 が縮小し, 𝐾 が大きくなるなら, 𝑁 → ∞ の極限で,共に真の
確率密度に収束
55
𝑝 x =
𝐾
𝑁𝑉
を得るための2つの過程
 𝑁が大きい
 近似的に密度が一定とみなせるほど領域 ℛ が小さい
目次
2.5 ノンパラメトリック法
➢2.5.1 カーネル密度推定法
➢2.5.2 最近傍法,𝐾 近傍法
56
カーネル密度推定法Ⅰ
確率密度を求めたいデータ点 x, x を中心とした超立方体の領域 ℛとする.
領域内にある数 𝐾 を数えるために次のように定義
𝑘 𝒖 = ൝
1 𝑖𝑓 𝑢𝑖 ≤
1
2
(𝑖 = 1, … , 𝐷)
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
𝑘 𝒖 :カーネル関数の一例で,Parzen 窓
このとき, 𝑘(
x−x 𝑛
ℎ
)は,x を中心とする一辺が ℎ の立方体の内部に,
データ点 x 𝑛 があれば 1,そうでなければ 0
立体内部の総点数は 𝐾 = σ 𝑛=1
𝑁
𝑘(
x−x 𝑛
ℎ
)
𝑝 x =
𝐾
𝑁𝑉
, 𝑉 = ℎ 𝐷
より,推定密度は 𝑝 x =
1
𝑁
σ 𝑛=1
𝑁 1
𝑁 𝐷 𝑘(
x−x 𝑛
ℎ
) (2.249)
57
𝑉 を固定し,データから 𝐾 を推定
3次元の場合
1
1
2
カーネル密度推定法Ⅱ
先ほどの結果より,𝑝 x =
1
𝑁
σ 𝑛=1
𝑁 1
𝑁 𝐷 𝑘(
x−x 𝑛
ℎ
)
課題と解決の方向性:
立方体による区切りでは区間の縁の不連続性は未解決
⇒ より滑らかなカーネル関数を用いることで,より滑らかな密度モデルが取得可能
一般的には,ガウスカーネルを用いて
𝑝 x =
1
𝑁
σ 𝑛=1
𝑁 1
(2𝜋ℎ2)
𝐷
2
exp{−
x−x 𝑛
2
2ℎ2 } (2.250)
ℎ: ガウス分布の標準偏差
58
𝑘 𝒖 の対称性より,x を中心とする立方体が1つではなく
中心がデータ点 x 𝑛 にある 𝑁 個の立体の総和
ガウスカーネルを用いたカーネル密度推定により
カーネル密度推定法Ⅲ
59
横軸:x,縦軸:頻度
𝑝 x =
1
𝑁
෍
𝑛=1
𝑁
1
(2𝜋ℎ2)
𝐷
2
exp{−
x − x 𝑛
2
2ℎ2
}
ℎ: ガウス分布の標準偏差
緑の線がデータの分布
ヒストグラムの高さが得られる分布
ℎ が小さい ⇒ 元の分布にない構造が存在
ℎ が適当 ⇒ 最良の結果
ℎ が大きい ⇒ 二峰性を追えない
カーネル密度推定法Ⅳ
長所:
訓練段階では訓練集合を保存しておけば,計算が不要
短所:
密度の評価にかかる計算コストがデータ集合の大きさに比例
60
𝑝 x =
1
𝑁
෍
𝑛=1
𝑁
1
𝑁 𝐷 𝑘(
x − x 𝑛
ℎ
)
カーネル関数は以下の条件を満たす任意の関数
𝑘 𝒖 ≥ 0
න 𝑘 𝒖 𝑑𝒖 = 1
区間の不連続性は解決可能なものの,平滑化パラメータ ℎ に依存
目次
2.5 ノンパラメトリック法
➢2.5.1 カーネル密度推定法
➢2.5.2 最近傍法,𝐾 近傍法
61
最近傍法
密度 𝑝 x を推定したい点 x を中心とした小球を考える.
𝐾 を固定 = 𝐾 個のデータ点を含むように半径を決定
半径によって,球の体積は 𝑉 が求まり,
𝑝 x =
𝐾
𝑁𝑉
カーネル密度推定法
➢中心がデータ点 x 𝑛 にある 𝑁 個の立体の総和
➢体積によって,頻度が決定
𝐾 近傍法 𝐾 = 1の時,最近傍法
➢中心がデータ点 x 𝑛 にある 𝑁 個の小球の総和
➢頻度によって,体積が決定
➢正規化されていない密度モデル
62
𝐾 を固定し,データから 𝑉 の値を推定
𝐾 の値を調整しつつ,𝐾 近傍法により推定
𝐾 近傍法Ⅰ
63
横軸:x,縦軸:頻度
𝑝 x =
𝐾
𝑁𝑉
𝐾:小球に含まれるデータ点の数
𝑉:小球の体積
緑の線がデータの分布
ヒストグラムの高さが得られる分布
𝐾が小さい ⇒ 元の分布にない構造が存在
𝐾が適当 ⇒ 最良の結果(あるかも)
𝐾 が大きい ⇒ 二峰性を追えない
𝐾 近傍法Ⅱ
密度推定の 𝐾 近傍法から,クラス分類問題へ拡張が可能
ベイズの定理を適用すると,クラスに帰属する事後確率は
𝑝 𝐶 𝑘 x =
𝑝 x 𝐶 𝑘 𝑝(𝐶 𝑘)
𝑝(x)
=
𝐾 𝑘
𝐾
(2.256)
64
クラス 𝐶 𝑘 中に 𝑁𝑘 個の点があり,点の総数は σ 𝑘 𝑁𝑘 = 𝑁 であるデータ集合
において,新たな点 x を分類したい.
x を中心として,クラスを考えずに 𝐾 個の点を含む球を見つける.
この球が体積 𝑉 であり, クラス 𝐶 𝑘 に属する点をそれぞれ 𝐾𝑘 ずつ含んでいた
と仮定すると,
 各クラスの密度の推定値は 𝑝 x 𝐶 𝑘 =
𝐾 𝑘
𝑁 𝑘 𝑉
 クラス条件のない密度は 𝑝 x =
𝐾
𝑁𝑉
 クラスの事前分布は 𝑝 𝐶 𝑘 =
𝑁 𝑘
𝑁
𝐾 近傍法Ⅲ
誤分類の確率を最小化 = 事後確率( ൗ𝐾 𝑘
𝐾 )を最大化
訓練データ集合から得た 𝐾 近傍の点集合中で最多のクラスを付与
3近傍で赤2青1 ⇒ テスト点は赤のクラス
𝐾 = 1 のときは最近傍則と呼ばれ,
クラスの異なる点の対を垂直二等分する
超平面で決定境界を構成
65
𝑝 𝐶 𝑘 x =
𝐾𝑘
𝐾
𝐶 𝑘: k 番目のクラス
𝐾:小球に含まれるデータ点の数
𝐾𝑘:小球に含まれ,クラス 𝐶 𝑘 に属するデータ点の数
𝐾 近傍法Ⅳ
𝐾 は平滑化パラメータであり
➢小さい時,各クラスごとに小さな領域が多数存在
➢大きい時,各クラスごとに大きな領域が少数存在
𝐾 = 1 の時の誤分類率は,真のクラス分布を用いた
最適な分類機で達成可能な最小誤分類率のたかだか2倍
66
本章の今後
パラメトリックなアプローチ
表現できる分布の形状に限界
⇒ 訓練集合の大きさとは独立にモデルの複雑度を調整
できるような密度モデルの発見が必要
ノンパラメトリックなアプローチ
➢ 𝐾 近傍法,カーネル密度推定法では,データ集合全体
の保持が必要で,大きいデータでは計算量が増大
⇒ 木構造による探索の効率化
➢ 解析的取り扱いが制限される
67
データ集合が大きいほど,複雑なモデルが過学習しにくい

PRML 上 2.3.6 ~ 2.5.2