パターン認識と機械学習 (ベイズ理論による統計的予測) 1.2.4
Pattern Recognition and Machine Learning (PRML)
第1章 序論
1.1 多項式フィッティング
1.2 確率論
1.2.1 確率密度
1.2.2 期待値と分散
1.2.3 ベイズ確率
1.2.4 ガウス分布
1.2.5 曲線フィッティング再訪
1.2.6 ベイズ曲線フィッティング
1.3 モデル選択
1.4 次元の呪い
1.5 決定理論
1.5.1 識別率の最⼩化
1.5.2 期待値損失と最⼩化
1.5.3 棄却オプション
1.5.4 推論と決定
1.5.5 回帰のための損失関数
1.6 情報理論
1.6.1 相対エントロピーと相互情報量
⽬次
ガウス分布(正規分布)とは?
⇨ 単⼀の実数値変数xに対し,ガウス分布は次のように定義される
μ:平均
𝜎":分散
σ:標準偏差
1/𝜎":精度パラメータ
さらに,この式は次の2つの条件を満たす
𝑁 𝑥 𝜇, 𝜎" > 0, ) 𝑁 𝑥 𝜇, 𝜎"
*
+*
𝑑𝑥 = 1																																													
右図は1変数ガウス分布のプロット
μは平均,σは標準偏差
分布の最⼤値を与える最頻値は平均と⼀致する
1.2.4 ガウス分布
ガウス分布(正規分布)とは?
平均μの導出…f(x)=𝑁 𝑥 𝜇, 𝜎" とする
1.2.4 ガウス分布
ガウス分布(正規分布)とは? 分散𝜎"の導出…f(x)=𝑁 𝑥 𝜇, 𝜎" とする
1.2.4 ガウス分布
ガウス分布(正規分布)とは?
…ここまで1次元のガウス分布を考えてきたが,D次元ベクトルの連続変数に対しても
ガウス分布を定義することができる
1.2.4 ガウス分布
μ:平均
D×D⾏列Σ:共分散
| Σ|:Σの⾏列式
この詳細な性質は2.3節で解説
ガウス分布に対する尤度関数
⇨ 未知の平均μと分散𝜎"を持つガウス分布から⽣成された,
独⽴同分布のデータ集合x(次ページで説明)が与えられた時、
2つの独⽴な事象の同時確率は,それぞれの事象の周辺確率の積で与えられるので,
データ集合の確率は次式になる
これをμと𝜎"の関数とみなすと,
ガウス分布に対する尤度関数となり,
右図のように図解される
1.2.4 ガウス分布
ガウス分布に対する尤度関数
⇨ 独⽴同分布のデータ集合x
これは,データ点が同じ分布から独⽴に⽣成されたスカラー変数𝑥のN個の
観測値からなるデータ集合のこと
ここでxという表記を使うのは,xで表すベクトル値変数の単⼀の観測と区別するため
独⽴同分布は英語表記で
independent identically distributed なので i.i.d と略されることが多い
1.2.4 ガウス分布
ガウス分布に対する尤度関数
… 未知のパラメータμと分散𝜎"を観測されたデータ集合を使って決める⽅法
このとき最も普通の⽅法は,
尤度関数を最⼤にするようなパラメータの値を求めること
そこで, 上式を最⼤化することで値を決めることにする
その時,次のように対数を取り,それを最⼤化する⽅が良い
1.2.4 ガウス分布
こうすることで,積の計算を和の計算にすることができるので,
計算機の数値精度のアンダーフローを防ぐことができる!
ガウス分布に対する尤度関数
上式をμに関して最⼤化すると,最尤推定の解が得られ次式で与えられる
これはサンプル平均,すなわち観測値{xn}の平均
同様に𝜎"に関して最⼤化すると次式が得られる
これはサンプル平均μMLに対してのサンプル分散
⇨ μと𝜎"に関して同時最⼤化を⾏うとき,ガウス分布であればμと𝜎"は
分離して解けるので,まずμMLを評価し,この結果を使い𝜎"
MLを評価できる
1.2.4 ガウス分布
最尤アプローチの重⼤な限界
⇨ ここでは1変数ガウス分布の最尤パラメータの設定に関して
取り扱う問題としてバイアスがある
⼀例としては分布の分散が系統的に過⼩評価されているというものがある
これは多項式曲線フィッティングの過学習の原因である
パラメータμ,𝜎"を持つガウス分布に従うデータ集合に関する期待値は次のようになる
𝐸 𝜇12 = 𝜇
𝐸 𝜎12
"
=
𝑁 − 1
𝑁
𝜎"
最尤解μML, 𝜎"
MLはデータ集合𝑥4, … , 𝑥6の関数である
1.2.4 ガウス分布
最尤アプローチの重⼤な限界
…さらに,右式を変形すると次式が求まる
これを分散パラメータの不偏推定量と呼ぶ
10.1.3節で、この結果がベイズアプローチによって
どのように⾃動的に得られるか説明する
データ点Nを増やしていくことでバイアスは気にならなくなり,
N→∞になると分散の最尤解はデータを⽣成した分布の真の分散と⼀致する
1.2.4 ガウス分布
何故,N-1が出てくるの?
𝑀8 =
𝑎4 + 𝑎" + 𝑎; + 𝑎< + 𝑎= + 𝑎>
6
𝑎4
𝑎"
𝑎;
𝑎<
𝑎=
𝑎>
𝑎@
𝑀8
問題になるのは分散のところ
𝜎" =
(𝑎4 − 𝑀8)"+(𝑎" − 𝑀8)"+(𝑎; − 𝑀8)"+(𝑎< − 𝑀8)"+(𝑎= − 𝑀8)"+(𝑎> − 𝑀8)"
6
⇨	⾃由度の冗⻑性が⽣じる
たとえば,𝑎>は実は𝑀8とほかの5個の要素を使って表現することができる
𝑎>=6𝑀8 − (𝑎4 + 𝑎" + 𝑎; + 𝑎< + 𝑎=)
平均を計算する際に,サンプルの数で平均を取るのは問題ない
𝑀8を使⽤してサンプルの分散を計算している
𝜎"
=
(𝑎4 − 𝑀8)"
+(𝑎" − 𝑀8)"
+(𝑎; − 𝑀8)"
+(𝑎< − 𝑀8)"
+(𝑎= − 𝑀8)"
+(6𝑀8 − (𝑎4 + 𝑎" + 𝑎; + 𝑎< + 𝑎=) − 𝑀8)"
6
これを分散の式に代⼊すると…
𝜎"
=
(𝑎4 − 𝑀8)"
+(𝑎" − 𝑀8)"
+(𝑎; − 𝑀8)"
+(𝑎< − 𝑀8)"
+(𝑎= − 𝑀8)"
+	[	(𝑎4 + 𝑎" + 𝑎; + 𝑎< + 𝑎=) − 5𝑀]"
6
サンプルを5個しか使っていないのに,6で割っている!!問題だ!
5個を使うなら,5で割らないといけない! ので 6­1=5になる
1.2.4 ガウス分布
N-1法則の由来
𝑀8 =
𝑎1 + 𝑎2 + ⋯ + 𝑎 𝑛−1 + 𝑎 𝑛
𝑛
𝑎1
𝑎2
𝑎3
𝑎4
𝑎5
𝑎6
𝑎7
𝑀8
𝜎2 =
(𝑎1 − 𝑀8)2+(𝑎2 − 𝑀8)2	+ ⋯ + (𝑎 𝑛−1 − 𝑀8)2+(𝑎 𝑛 − 𝑀8)2
𝑛
⾃由度の冗⻑性が⽣じる
たとえば,𝑎 𝑛は実は𝑀8とほかのn-1個の要素を使って表現することができる
𝑎 𝑛=n𝑀8 − (𝑎1 + 𝑎2 + ⋯ + 𝑎 𝑛−1)
平均を計算する際に、サンプルの数で平均を取るのは問題ない
これを分散の式に代⼊すると
𝜎2
=
(𝑎1 − 𝑀8)2
+(𝑎2 − 𝑀8)2
+ ⋯ + (𝑎 𝑛−1 − 𝑀8)2
+	[	(𝑎1 + ⋯ + 𝑎 𝑛−1) − (𝑛 − 1)𝑀8]2
𝑛
𝜎𝑡𝑟𝑢𝑒
2
≡
(𝑎1 − 𝑀8)2+ ⋯ + (𝑎 𝑛−1 − 𝑀8)2+	[	(𝑎1 + ⋯ + 𝑎 𝑛−1) − (𝑛 − 1)𝑀8]2
𝑛 − 1
1.2.4 ガウス分布
N-1法則の由来
…通常の形のサンプルの分散の期待値を取ると
1.2.4 ガウス分布
サンプルの分散と真の分散
…不変の真の分散と平均を使って表現する
⇨		サンプルの分散の期待値は真の分散値になれない!
𝜎2 −
1
𝑛
𝜎2
また,n が⼗分⼤きければ,
1
𝑛
𝜎2=0 となるので,
漸近的には不偏となる
中⼼極限定理の由来
1.2.4 ガウス分布
サンプルの分散と真の分散
𝐸 𝑠"
= 𝐸	
1
𝑛 − 1
R 𝑥S − 𝑋U "
V
SW4
𝐸 𝑠"
=
1
𝑛 − 1
R 𝐸 𝑥S
"
−
𝑛
𝑛 − 1
𝑋U"
V
SW4
𝐸 𝑠"
=
𝑛
𝑛 − 1
(𝜎"
+𝜇"
) −
𝑛
𝑛 − 1
(
1
𝑛
𝜎"
+ 𝜇"
)
𝐸 𝑠"
=
𝑛
𝑛 − 1
(𝜎"
+𝜇"
) −
1
𝑛 − 1
𝜎"
−
𝑛
𝑛 − 1
𝜇"
)
𝑛 − 1 の⾃由度を持つ分散式を使ってサンプル分散の期待値を計算する
1.2.4 ガウス分布
𝐸 𝑠"
=
𝑛
𝑛 − 1
(𝜎"
+𝜇"
) −
1
𝑛 − 1
𝜎"
−
𝑛
𝑛 − 1
𝜇"
)
𝐸 𝑠"
=
𝑛
𝑛 − 1
𝜎"
+
𝑛
𝑛 − 1
𝜇"
−
1
𝑛 − 1
𝜎"
−
𝑛
𝑛 − 1
𝜇"
𝐸 𝑠"
=
𝑛 − 1
𝑛 − 1
𝜎"
𝐸 𝑠"
= 𝜎"
𝑛 − 1 の⾃由度を持つ分散式を使ってサンプル分散の期待値を計算する
1.2.4 ガウス分布
確率変数:A 確率変数:B 確率変数:C
サンプルデータ:3種類あると仮定する
それぞれのサンプルは⾃分の平均と分散を持っている
計算⽅法は前節と同じである
𝑎1
𝑎2
𝑎3
𝑎4
𝑎5
𝑎6 𝑎7
𝑀81
𝑐1
𝑐2
𝑐3
𝑐4
𝑐5
𝑐6𝑐7
𝑏1
𝑏2
𝑏3
𝑏4
𝑏5
𝑏6𝑏7
𝑀83𝑀82
𝑀81 σ81 𝑀82 σ82 𝑀83 σ83
Q:三種類のデータをまとめて平均と分散をどう計算するか
1.2.4 ガウス分布
おまけ
共分散と共分散⾏列
𝐴
𝑎4
𝑎"
𝑎;
𝑎<
𝑎=
𝑎>
𝑎@
𝑎
𝐵
𝑏4
𝑏"
𝑏;
𝑏<
𝑏=
𝑏>
𝑏@
𝑏
𝐶
𝑐4
𝑐"
𝑐;
𝑐<
𝑐=
𝑐>
𝑐@
𝑐
𝑀84 𝑀8" 𝑀8;
1.2.4 ガウス分布
共分散:𝐶𝑂𝑉(A, B)
𝐴
𝑎4
𝑎"
𝑎;
𝑎<
𝑎=
𝑎>
𝑎@
𝑎
𝐵
𝑏4
𝑏"
𝑏;
𝑏<
𝑏=
𝑏>
𝑏@
𝑏
𝑀84 𝑀8"
= (𝑨 − 𝑴8 𝟏)• (𝑩 − 𝑴8 𝟐)𝑪𝑶𝑽
1.2.4 ガウス分布
= 𝑩 − 𝑴8 𝟐 •(𝑪 − 𝑴8 𝟑)
共分散:𝐶𝑂𝑉(B, C)
𝐵 𝐶
𝑏4
𝑏"
𝑏;
𝑏<
𝑏=
𝑏>
𝑏@
𝑏
𝑀8" 𝑀8;
𝑪𝑶𝑽
𝑐4
𝑐"
𝑐;
𝑐<
𝑐=
𝑐>
𝑐@
𝑐
1.2.4 ガウス分布
共分散:𝐶𝑂𝑉(A, C)
𝐴 𝐶
𝑀8;
= 𝑨 − 𝑴8 𝟏 •(𝑪 − 𝑴8 𝟑)𝑪𝑶𝑽
𝑐4
𝑐"
𝑐;
𝑐<
𝑐=
𝑐>
𝑐@
𝑐
𝑎4
𝑎"
𝑎;
𝑎<
𝑎=
𝑎>
𝑎@
𝑎
𝑀84
1.2.4 ガウス分布
共分散⾏列: 	Σ
𝚺 =
𝑪𝑶𝑽(𝑨, 𝐀) 𝐶𝑂𝑉(A, B) 𝐶𝑂𝑉(A, C)
𝐶𝑂𝑉(B, A) 𝑪𝑶𝑽(𝐁, 𝐁) 𝐶𝑂𝑉(B, C)
𝐶𝑂𝑉(C, A) 𝐶𝑂𝑉(C, B) 𝑪𝑶𝑽(𝐂, 𝑪)
𝚺 =
𝝈 𝑨
" 𝝈 𝑨𝑩 𝝈 𝑨𝑪
𝝈 𝑩𝑨 𝝈 𝑩
" 𝝈 𝑩𝑪
𝝈 𝑪𝑨 𝝈 𝑪𝑩 𝝈 𝑪
"
1.2.4 ガウス分布
相関係数を使った相関⾏列表現:
𝜌uv =
𝐶𝑂𝑉(A, B)
𝝈 𝑨 𝝈 𝑩
𝜌uv =
𝝈 𝑨𝑩
𝝈 𝑨 𝝈 𝑨
𝜌uu = 1
R =
1 𝒑 𝑨𝑩 𝒑 𝑨𝑪
𝒑 𝑩𝑨 1 𝒑 𝑩𝑪
𝒑 𝑪𝑨 𝒑 𝑪𝑩 1
1.2.4 ガウス分布
共分散⾏列のすべて
多次元正規分布のパラメータの微分計算
𝑃(𝜙 𝑥 ; 𝜇, Σ) ≡
1
2𝜋
𝐷
2 Σ
1
2
exp{−
1
2
𝜙 𝑥 − 𝜇 𝑇Σ−1 𝜙 𝑥 − 𝜇 }
𝜇∗, Σ∗ ≡		
argma𝑥
𝜇, Σ
			{		
1
𝑁
R 𝑙𝑜𝑔
𝑁
𝑖=1
𝑃 𝜙 𝑥 𝑖 ; 𝜇, Σ 	}
𝜇∗, Σ∗ ≡		
argma𝑥
𝜇, Σ
−
1
2
𝑙𝑜𝑔 Σ 	−		
1
2𝑁
R 𝜙 𝑥(𝑖) − 𝜇
𝑇
Σ−1 𝜙 𝑥(𝑖) − 𝜇 }
𝑁
𝑖=1
1.2.4 ガウス分布
𝐽 𝜇, Σ ≡		−
1
2
𝑙𝑜𝑔 Σ 	−		
1
2𝑁
R 𝜙 𝑥(𝑖) − 𝜇
𝑇
Σ−1 𝜙 𝑥(𝑖) − 𝜇 }
𝑁
𝑖=1
⽬的関数
を平均パラメータ	𝜇	についてこれを偏微分すると
𝜕𝐽 𝜇, Σ
𝜕𝜇
=
1
𝑁
R Σ−1 𝜙 𝑥(𝑖) − 𝜇
𝑁
𝑖=1
最適な𝜇 = 𝜇∗でこれが0のはずなので,これを0とおいて整理すると:
1
𝑁
R Σ−1 𝜙 𝑥(𝑖) = Σ−1 𝜇
𝑁
𝑖=1
𝜇 =
1
𝑁
R 𝜙 𝑥(𝑖)
𝑁
𝑖=1
1.2.4 ガウス分布
次に分散共分散⾏列の最尤推定量𝛴∗を求めるため, 𝛴∗について⽬的関数を最⼤化:
𝐽 𝜇, Σ ≡		−
1
2
𝑙𝑜𝑔 Σ 	−		
1
2𝑁
R{	 𝜙 𝑥 𝑖 − 𝜇
𝑇
Σ−1 𝜙 𝑥 𝑖 − 𝜇 	}
𝑁
𝑖=1
まず,以下の式が成⽴することを確かめる
𝜙 𝑥(𝑖) − 𝜇
𝑇
Σ−1 𝜙 𝑥(𝑖) − 𝜇 = 𝑇𝑟{	 𝜙 𝑥 𝑖 − 𝜇
𝑇
Σ−1 𝜙 𝑥 𝑖 − 𝜇 	}
= 𝑇𝑟{	Σ−1 𝜙 𝑥 𝑖 − 𝜇 𝜙 𝑥 𝑖 − 𝜇
𝑇
}
= 𝑇𝑟{	⋀ 𝜙 𝑥 𝑖 − 𝜇 𝜙 𝑥 𝑖 − 𝜇
𝑇
}
ー最初の等式が成り⽴つことはスカラー値のトレースもまた
スカラー値であることから
ー2つ⽬の等式は⾏列ABに対し Tr(AB)=Tr(BA)であることから
ー最後の式は、共分散⾏列と精度⾏列の間にΣ−1=⋀
1.2.4 ガウス分布
𝐽 𝜇, ⋀ ≡		
1
2
𝑙𝑜𝑔 ⋀ 	−		
1
2𝑁
R 𝑇𝑟{	⋀ 𝜙 𝑥 S
− 𝜇 𝜙 𝑥 S
− 𝜇
‘6
SW4
𝐽 𝜇, Σ ≡		−
1
2
𝑙𝑜𝑔 Σ 	−		
1
2𝑁
R{	 𝜙 𝑥 S
− 𝜇
‘
Σ+4 𝜙 𝑥 S
− 𝜇 	}
6
SW4
𝜕𝐽 𝜇, ⋀
𝜕⋀
=
1
2⋀
−
1
2𝑁
R 𝜙 𝑥 S
− 𝜇 𝜙 𝑥 S
− 𝜇
‘
6
SW4
𝜕𝐽 𝜇, ⋀
𝜕⋀
= 0
Σ =
1
⋀
=
1
𝑁
R 𝜙 𝑥 S − 𝜇 𝜙 𝑥 S − 𝜇
‘
6
SW4
1.2.4 ガウス分布
正規分布は理論的に都合の良い性質を数多く持っている
例えば,⼆つの独⽴な正規確率変数の和の分布も正規分布に従うし,
⼆つの正規分布の畳み込み積分も正規分布である
d 個の確率変数𝑥𝑖	(𝑖 = 1......... d) の各々が独⽴した正規分布𝑃 𝑥𝑖 = N 𝜇, Σ
であるとすると,すべてを結合した確率密度は
⼆元正規分布の導出:
1.2.4 ガウス分布
これは多変量正規分布の密度関数の⼀般型であり,
共分散⾏列Σ が対⾓⾏列である必要は無い
1.2.4 ガウス分布
共分散⾏列の⾏列式は
共分散⾏列の逆⾏列は
1.2.4 ガウス分布
𝑃(𝜙 𝑥 ; 𝜇, Σ) ≡
1
2𝜋
𝐷
2 Σ
1
2
exp⁡{−
1
2
𝜙 𝑥 − 𝜇 𝑇Σ−1 𝜙 𝑥 − 𝜇 }
多次元まで拡張する:
Σ = 𝑑𝑖𝑎𝑔 (𝜎 1 )2, (𝜎 2 )2, … . . (𝜎 𝑑 )2 ,	
𝑃(𝜙 𝑥 ; 𝜇, Σ) ≡
1
2𝜋
𝐷
2 ∏ 𝜎 𝑗𝑑
𝑗=1
exp{− R
(𝑥 𝑗 − 𝜇 𝑗 )2
2(𝜎 𝑗 )2
𝑑
𝑗=1
}
1.2.4 ガウス分布
𝑃 𝑥1; 𝜇, Σ = {	𝑥1
1
− 𝑢_
1 , 𝑥1
(2)
− 𝑢_
(2),.. 𝑥1
(𝑑)
− 𝑢_
(𝑑)}	
𝑥1
1
− 𝑢_
1
𝑥1
2
− 𝑢_
(2)
.
.
.
𝑥1
𝑑
− 𝑢_
(𝑑)
𝑃 𝑥1; 𝜇, Σ =
1
𝜎2 {(𝑥1
1
− 𝑢 1 )2+(𝑥1
2
− 𝑢 2 )2+..(𝑥1
𝑑
− 𝑢 𝑑 )2}	
1
𝜎2
⋯ 0
⋮ ⋱ ⋮
0 ⋯
1
𝜎2
𝑃 𝑥2; 𝜇, Σ =
1
𝝈2 {(𝑥2
1
− 𝑢 1 )2+(𝑥2
2
− 𝑢 2 )2+..(𝑥2
𝑑
− 𝑢 𝑑 )2}
𝑥(1)
𝑥(2)
𝑥(𝑑)
𝒙 𝟏
𝟐
𝒙 𝟏
𝟏
𝒙 𝟏
𝟑
𝒙 𝟏
𝒅
𝒙 𝟐
𝟏 𝒙 𝟐
𝟐
𝒙 𝟐
𝟑
𝒙 𝟐
𝒅
𝑢 1
𝝈
𝑢 2
𝑢 3
𝑥(3)
𝑢 𝑑
軸(次元)ごとに,平均しか分散を持たない場合(分散は⼀つである)
⾼次元空間の点の取り⽅を図⽰
1.2.4 ガウス分布
𝑥4
4
− 𝑢_
4
𝑥4
"
− 𝑢_
(")
.
.
.
𝑥4
œ
− 𝑢_
(œ)
1
(𝜎 4 )"
⋯ 0
⋮ ⋱ ⋮
0 ⋯
1
(𝜎 œ )"
𝑥(4)
𝑥(")
𝑥(œ)
𝒙 𝟏
𝟐
𝒙 𝟏
𝟏
𝒙 𝟏
𝟑
𝒙 𝟏
𝒅
𝒙 𝟐
𝟏 𝒙 𝟐
𝟐
𝒙 𝟐
𝟑
𝒙 𝟐
𝒅
𝑢 4
𝜎 4
𝑢 "
𝜎 "
𝑢 ;
𝜎 œ
𝑥(;)
𝑢 œ
𝜎 ;
軸(次元)ごとに、平均と分散を持つ場合:
𝑃 𝑥4; 𝜇, Σ = {	𝑥4
4
− 𝑢_
4 , 𝑥4
(")
− 𝑢_
("),.. 𝑥4
(œ)
− 𝑢_
(œ)}	
𝑃 𝑋4; 𝜇, Σ =
(•ž
ž
+Ÿ ž )
(¡ ž )
+
(•ž +Ÿ )
(¡ )
+..
(•ž
¢
+Ÿ ¢ )
(¡ ¢ )
}	
𝑃 𝑋"; 𝜇, Σ =
(•
ž
+Ÿ ž )
(¡ ž )
+
(• +Ÿ )
(¡ )
+..
(•
¢
+Ÿ ¢ )
(¡ ¢ )
}	
⾼次元空間の点の取り⽅を図⽰
1.2.4 ガウス分布
𝑃 𝑥1; 𝜇, Σ = {	𝑥1
1
− 𝑢_
1 , 𝑥1
(2)
− 𝑢_
(2),.. 𝑥1
(𝑑)
− 𝑢_
(𝑑)}	
𝑥1
1
− 𝑢_
1
𝑥1
2
− 𝑢_
(2)
.
.
.
𝑥1
𝑑
− 𝑢_
(𝑑)
𝑃 𝑿 𝟏; 𝜇, Σ = {
(𝑥1
1
−𝑢 1 )
(𝜎 11 )2 +
(𝑥1
2
−𝑢 2 )
(𝜎 21 )2 + ⋯ +
(𝑥1
𝑑
−𝑢 𝑑 )
(𝜎 𝑑1 )2 ,
(𝑥1
1
−𝑢 1 )
(𝜎 12 )2 +
(𝑥1
2
−𝑢 2 )
(𝜎 22 )2 + ⋯ +
(𝑥1
𝑑
−𝑢 𝑑 )
(𝜎 𝑑2 )2 , …
(𝑥1
1
−𝑢 1 )
(𝜎 1𝑑 )2 +
(𝑥1
2
−𝑢 2 )
(𝜎 2𝑑 )2 + ⋯ +
(𝑥1
𝑑
−𝑢 𝑑 )
(𝜎 𝑑𝑑 )2 			}
1
(𝜎 11 )2
1
(𝜎 12 )2
1
(𝜎 1𝑑 )2
1
(𝜎 21 )2
… .
⋱ ⋮
1
(𝜎 𝑑1 )2
⋯
1
(𝜎 𝑑𝑑 )2
𝑥(4)
𝑥(")
𝑥(œ)
𝒙 𝟏
𝟐
𝒙 𝟏
𝟏
𝒙 𝟏
𝟑
𝒙 𝟏
𝒅
𝒙 𝟐
𝟏 𝒙 𝟐
𝟐
𝒙 𝟐
𝟑
𝒙 𝟐
𝒅
𝑢 4
Σ
𝑢 "
Σ
𝑢 ;
Σ 𝑥(;)
𝑢 œ
Σ
軸(次元)ごとに,平均と分散共分散を持つ場合:
Σ
.
𝑥4
4
− 𝑢_
4
𝑥4
"
− 𝑢_
(")
.
.
.
𝑥4
œ
− 𝑢_
(œ)
1.2.4 ガウス分布
𝑃 𝑥4; 𝜇, Σ = {
(•ž
ž
+Ÿ ž )
(¡ žž )
+
(•ž +Ÿ )
(¡ ž )
+..
(•ž
¢
+Ÿ ¢ )
(¡ ¢ž )
,
(•ž
ž
+Ÿ ž )
(¡ ž )
+
(•ž +Ÿ )
(¡ )
+..
(•ž
¢
+Ÿ ¢ )
(¡ ¢ )
,
….
(•ž
ž
+Ÿ ž )
(¡ ž¢ )
+
(•ž +Ÿ )
(¡ ¢ )
+..
(•ž
¢
+Ÿ ¢ )
(¡ ¢¢ )
			} 𝑥4
4
− 𝑢 4
𝑥4
"
− 𝑢 "
.
.
.
𝑥4
œ
− 𝑢 œ
𝑃 𝑋4; 𝜇, Σ = {
(•ž
ž
+Ÿ ž )
(¡ žž )
+
(•ž +Ÿ )(•ž
ž
+Ÿ ž )
(¡ ž )
+ ⋯ +
•ž
¢
+Ÿ ¢ •ž
ž
+Ÿ ž
(¡ ¢ž )
+
•ž
ž
+Ÿ ž •ž +Ÿ
(¡ ž )
+
•ž +Ÿ
(¡ )
+ ⋯ +
•ž
¢
+Ÿ ¢ •ž +Ÿ
(¡ ¢ )
+ ⋯ +
(•ž
ž
+Ÿ ž )(•ž
¢
+Ÿ ¢ )
(¡ ž¢ )
+
(•ž +Ÿ )(•ž
¢
+Ÿ ¢ )
(¡ ¢ )
+..
(•ž
¢
+Ÿ ¢ )
(¡ ¢¢ )
			}
𝑃 𝑋"; 𝜇, Σ = {
(•
ž
+Ÿ ž )
(¡ žž )
+
(• +Ÿ )(•
ž
+Ÿ ž )
(¡ ž )
+ ⋯ +
•
¢
+Ÿ ¢ •
ž
+Ÿ ž
(¡ ¢ž )
+
•
ž
+Ÿ ž • +Ÿ
(¡ ž )
+
• +Ÿ
(¡ )
+ ⋯ +
•
¢
+Ÿ ¢ • +Ÿ
(¡ ¢ )
+ ⋯ +
(•
ž
+Ÿ ž )(•
¢
+Ÿ ¢ )
(¡ ž¢ )
+
(• +Ÿ )(•
¢
+Ÿ ¢ )
(¡ ¢ )
+..
(•
¢
+Ÿ ¢ )
(¡ ¢¢ )
			}
1.2.4 ガウス分布
多変量正規分布の導出
特に⾏列式: 𝛴 がどうやって導出されているか:
𝑃(𝜙 𝑥 ; 𝜇, Σ) ≡
1
2𝜋
𝐷
2 Σ
1
2
exp⁡{−
1
2
𝜙 𝑥 − 𝜇 𝑇Σ−1 𝜙 𝑥 − 𝜇 }
𝑠𝑖	~𝑁 𝑚𝑖, 1 :	独⽴確率変数, 𝑖 = 1,2,3,4,5 … 𝑛; 平均は𝑚𝑖, 分散:1の同時密度関数は
ℎ(𝑠1, 𝑠2,⋯, 𝑠 𝑛)である
同時確率は ℎ(𝑠1, 𝑠2,⋯, 𝑠 𝑛)𝑑𝑠1 𝑑𝑠2…. 𝑑𝑠 𝑛 = ∏
1
2𝜋
𝑒{−
1
2
𝑠𝑖−𝑚𝑖
2}
𝑑𝑠𝑖
𝑛
𝑖=1
ベクトル表⽰を使⽤すると
ℎ(S)𝑑S = (
1
2𝜋
) 𝑛 𝑒{−
1
2(S−𝑀©) 𝑇 S−𝑀© }
𝑑S
𝑺 = (𝒔 𝟏, 𝒔 𝟐,⋯, 𝒔 𝒏) 𝑻 : 縦⾏列 𝑀© = (𝒎 𝟏, 𝒎 𝟐,⋯, 𝒎 𝒏) 𝑻 : 縦⾏列
1.2.4 ガウス分布
ここで正則⾏列𝐴 を⽤いてS を独⽴でない要素に関する分布に拡張することを考える
1 0 0
0 1 0
0 0 1
1 1 0
0 1 1
0 0 1
A = or A =
独⽴ 独⽴ではない
ℎ(S)𝑑S = (
1
2𝜋
)V 𝑒{+
4
"(¯+1)° ¯+1 }
𝑑S
ℎ(S)𝑑S = (
1
2𝜋
)V
𝑒{+
4
"
¯+1©
°
𝑨 𝑻[𝑨 𝑻]±𝟏 𝑨±𝟏 𝑨 ¯+1© }
𝑑S
1
ℎ(S)𝑑S = (
1
2 𝜋
)V
𝑒{+
4
"
𝑨¯+𝑨1©
°
[𝑨 𝑻]±𝟏 𝑨±𝟏 𝑨¯+𝑨1© }
𝑑S
ℎ(S)𝑑S = (
1
2 𝜋
)V
𝑒{+
4
"
𝑨¯+𝑨1©
°
[𝑨𝑨 𝑻]±𝟏 𝑨¯+𝑨1© }
𝑑S
1.2.4 ガウス分布
𝑥 = 𝐴S , S = 𝐴+4 𝑥 という変換を施す 𝑑S = 𝐴 +4 𝑑𝑥
ℎ(S)𝑑S = (
1
2𝜋
)V 𝑒{+
4
" 𝑨¯+𝑨1©
°
[𝑨𝑨 𝑻]±𝟏 𝑨¯+𝑨1© }
𝑑S
𝑓(𝑥)𝑑𝑥 = (
1
2𝜋
)V 𝐴 +4 𝑒{+
4
" 𝒙+𝑨1© °[𝑨𝑨 𝑻]±𝟏 𝒙+𝑨1© }
𝑑𝑥
𝑬 𝒙 = 𝑬 𝐴S = 𝑨𝑀 ≡ 𝝁©
𝑬{ 𝒙 − 𝑨𝑀© 𝒙 − 𝑨𝑀© ‘
} = 𝑬{𝑨 𝑨+𝟏 𝒙 − 𝑀© 𝑨+𝟏 𝒙 − 𝑀© ‘
𝐴‘}
𝑬{ 𝒙 − 𝑨𝑀© 𝒙 − 𝑨𝑀© ‘
} = 𝑬{𝑨 S − 𝑀© S − 𝑀©
‘
𝐴‘}
𝑥 = 𝐴S , S = 𝐴+4 𝑥 という変換を施す 𝑑S = 𝐴 +4 𝑑𝑥
𝑬	 S − 𝑀© S − 𝑀©
‘
= 1
同時密度関数𝑓(𝑥)を定義すると:
1.2.4 ガウス分布
𝑬{ 𝒙 − 𝑨𝑀© 𝒙 − 𝑨𝑀© 𝑇
} = 𝑨𝐴 𝑇 ≡ 𝜮
𝑓(𝑥)𝑑𝑥 =
1
2𝜋
𝑛
𝜮−
1
2	𝑒
−
1
2
𝒙−𝝁 𝑇 𝜮 −𝟏 𝒙−𝝁
𝑑𝑥
𝑨𝐴 𝑇 = 𝑨 𝐴 𝑇 = ( 𝑨 ) 𝟐
𝑨 = 𝑨𝐴 𝑇 = 𝜮
𝐴 −1 =
1
𝜮
= 𝜮−
1
2
同時密度関数𝑓 𝑥 は:
𝑓(𝑥) =
1
2𝜋
𝑛
𝜮−
1
2	𝑒
−
1
2
𝒙−𝝁 𝑇 𝜮 −𝟏 𝒙−𝝁
1.2.4 ガウス分布
n 次元の確率ベクトルをp 次元ベクトル𝑥(1)とq 次元のベクトル𝑥(2)に分け,
確率密度関数を ⾏列式が1 の正則⾏列E で変換する
𝐾 =
𝐼𝑝 𝑂
−𝜮21 𝜮11
−1
𝐼𝑞
𝜮 =
𝜮11 𝜮12
𝜮21 𝜮22
𝐾−1 =
𝐼𝑝 𝑂
𝜮21 𝜮11
−1
𝐼𝑞
𝑓(𝑥) =
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 ° 𝜮 ±𝟏 𝒙+𝝁
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 ° 𝑲 𝑻[𝑲 𝑻]±𝟏 𝜮 ±𝟏 𝑲±𝟏» 𝒙+𝝁
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 ° 𝑲 𝑻{[𝑲 𝑻]±𝟏 𝜮 ±𝟏 𝑲±𝟏}	» 𝒙+𝝁
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 °	𝑲 𝑻{𝑲𝜮𝑲 𝑻}±𝟏	» 𝒙+𝝁
𝜮21 𝜮11
−1
=
𝜮21
𝜮11
(相関係数)
1.2.4 ガウス分布
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 °	𝑲 𝑻{𝑲𝜮𝑲 𝑻}±𝟏	» 𝒙+𝝁
𝐾 =
𝐼¼ 𝑂
−𝜮"4 𝜮44
+4
𝐼½
𝜮 =
𝜮44 𝜮4"
𝜮"4 𝜮""
𝐾 =
𝐼¼ 𝑂
𝜮"4 𝜮44
+4
𝐼½
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 °	𝑲 𝑻{
¾¿ À
+𝜮 ž 𝜮žž
±ž ¾Á
𝜮žž 𝜮ž
𝜮 ž 𝜮
¾¿ À
𝜮 ž 𝜮žž
±ž ¾Á
𝑻
}±𝟏	» 𝒙+𝝁
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 °	𝑲 𝑻{
𝜮žž 𝜮ž
À +𝜮 ž 𝜮žž
±ž 𝜮ž Â𝜮
¾¿ +𝜮žž
±ž 𝜮 ž
À ¾Á
}±𝟏	» 𝒙+𝝁
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝒙+𝝁 °	𝑲 𝑻{
𝜮žž À
À +𝜮 ž 𝜮žž
±ž 𝜮ž Â𝜮
}±𝟏	» 𝒙+𝝁
=
1
2𝜋
V
𝜮+
4
"	𝑒
+
4
"
𝑲𝒙+𝑲𝝁 °{
𝜮žž À
À 𝜮 +𝜮 ž 𝜮žž
±ž 𝜮ž
}±𝟏	 »𝒙+»𝝁
1.2.4 ガウス分布
=
1
2𝜋
¼
𝜮44
+
4
"	𝑒
+
4
"
•(ž)+𝝁ž
°
{𝜮žž}±𝟏	» 𝒙+𝝁ž 	
×
1
2𝜋
½
(𝜮"" − 𝜮"4 𝜮44
+4
𝜮4")+
4
"	𝑒
+
4
"
𝒙( )+𝑸
°
	𝑲 𝑻{𝜮 +𝜮 ž 𝜮žž
±ž 𝜮ž }±𝟏	 𝒙( )+𝑸 	
𝑲𝒙 =
𝑥(4)
𝑥(")
− 𝜮"4 𝜮44
+4
𝑥(4)𝐾 =
𝐼¼ 𝑂
−𝜮"4 𝜮44
+4
𝐼½
𝑲𝒖 =
𝑢4
𝑢" − 𝜮"4 𝜮44
+4
𝑢4
𝑸" = 𝑢" − 𝜮"4 𝜮44
+4
𝑢4 + 𝜮"4 𝜮44
+4
𝑥 4
= 𝑢" + 𝜮"4 𝜮44
+4
(𝑥 4
− 𝑢4)
平均
S=𝜮"" − 𝜮"4 𝜮44
+4
𝜮4"分散
1.2.4 ガウス分布
𝑓 𝑥, 𝝁, 𝜮 = 𝑓 𝑥 1 , 𝝁1, 𝜮11 ∗ 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12
𝑥 1 の周辺分布は
= Æ 𝑓 𝑥 1 , 𝝁1, 𝜮11 ∗ 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12 𝑑𝑥 2
Æ 𝑓 𝑥, 𝝁, 𝜮 𝑑𝑥 2
= 𝑓 𝑥 1 , 𝝁1, 𝜮11 ∗ Æ 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12 𝑑𝑥 2
= 𝑓 𝑥 1 , 𝝁1, 𝜮11
平均:𝝁1
分散:𝜮11
1.2.4 ガウス分布
𝑥 2 の周辺分布は
= Æ 𝑓 𝑥 1 , 𝝁1, 𝜮11 ∗ 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12 𝑑𝑥 1
Æ 𝑓 𝑥, 𝝁, 𝜮 𝑑𝑥 1
= 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12 ∗ Æ 𝑓 𝑥 1 , 𝝁1, 𝜮11 𝑑𝑥 1
= 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12
平均:𝑸2 = 𝑢2 + 𝜮21 𝜮11
−1
(𝑥 1 − 𝑢1)
分散:𝜮22 − 𝜮21 𝜮11
−1
𝜮12
1.2.4 ガウス分布
𝑥 1 = 𝑥0
(1)
を与えたときの𝑥 2 の条件付き分布:
𝑓( 𝑥 2 𝑥0
1
=
𝑓(𝑥0
1
, 𝑥 2 )
𝑓(𝑥0
1
)
𝑓( 𝑥 2 𝑥0
1
=
𝑓(𝑥0
1
, 𝑥 2 )
𝑓(𝑥0
1
)
𝑓 𝑥 2 𝑥0
1
=
𝑓 𝑥0
1
∗ 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12
𝑓(𝑥0
1
)
𝑓 𝑥 2 𝑥0
1
= 𝑓 𝑥 2 , 𝑸2, 𝜮22 − 𝜮21 𝜮11
−1
𝜮12
平均:𝑸2 = 𝑢2 + 𝜮21 𝜮11
−1
(𝑥0
1
− 𝑢1)
分散:𝜮22 − 𝜮21 𝜮11
−1
𝜮12
𝜮21 𝜮11
−1
=
𝜮21
𝜮11
(相関係数)
1.2.4 ガウス分布

Prml1.2.4