More Related Content
Similar to PRML 2.3.1-2.3.2
Similar to PRML 2.3.1-2.3.2 (20)
PRML 2.3.1-2.3.2
- 3.
多変量ガウス分布の特徴
2つの変数集合𝐱 𝑎, 𝐱 𝑏の同時分布がガウス分布に従う
①一方の集合𝐱 𝑏を与えた時の
条件付き分布 𝑝(𝐱 𝑎|𝐱 𝑏)はガウス分布になる
②どちらの変数集合の周辺分布もガウス分布になる
①, ②を確認することが今日の目標
今日の目標
3
- 4.
確率の乗法定理より
𝑝 𝐱 𝑎|𝐱 𝑏 =
𝑝(𝐱 𝑎, 𝐱 𝑏)
𝑝(𝐱 𝑏)
・ 𝑝 𝐱 𝑎|𝐱 𝑏 は𝐱 𝑎の関数ととらえる
・同時分布 𝑝 𝐱 𝑎, 𝐱 𝑏 に注目すればよい
(𝐱 𝑏 は観測値として与えられるから)
条件つき確率の定義
4
- 5.
1. 条件付き分布𝑝 𝐱 𝑎 𝐱 𝑏 がガウス分布だと示す
同時ガウス分布の指数部のみに注目!
2. 𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏をそれぞれ求める
3. 精度行列 𝚲を使わない形で求める
5
①の証明に対する方針
- 6.
前提
𝐱をガウス分布𝒩 𝐱 𝝁, 𝚺 に従う𝐷次元ベクトルとする
𝐱 𝑎 ∶ 𝐱の最初の𝑀個の要素からなるベクトル
𝐱 𝑏 ∶ 𝐱の残りの𝐷 − 𝑀個の要素からなるベクトル
(𝐱 𝑎, 𝐱 𝑏は互いに素な𝐱の部分集合)
結論
𝑝 𝐱 𝑎 𝐱 𝑏 = 𝒩(𝐱 𝑎|𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏)になる
証明のための準備 (1)
6
- 7. ガウス分布の各要素の分割
𝐱 =
𝐱 𝑎
𝐱 𝑏
, 𝝁 =
𝝁 𝑎
𝝁 𝑏
, Σ=
𝚺 𝑎𝑎 𝚺 𝑎𝑏
𝚺 𝑏𝑎 𝚺 𝑏𝑏
性質
共分散行列 𝚺は対称行列だから
𝚺 𝑎𝑎, 𝚺 𝑏𝑏はともに対称行列で、𝚺 𝑏𝑎 = 𝚺 𝑎𝑏
T
となる
精度行列 (precision matrix)
𝚲 ≡𝚺−1, 𝚲 =
𝚲 𝑎𝑎 𝚲 𝑎𝑏
𝚲 𝑏𝑎 𝚲 𝑏𝑏
→ 𝚲も対称行列である
証明のための準備 (2)
7
- 8.
𝑝 𝐱 の指数部を𝚫 𝟐
とすると
Δ2
= −
1
2
𝐱 − 𝝁 T
𝚺−1
𝐱 − 𝝁
= −
1
2
𝐱 𝑎 − 𝝁 𝑎
T
𝚲 𝑎𝑎 𝐱 𝑎 − 𝝁 𝑎 −
1
2
(𝐱 𝑎 − 𝝁 𝑎)T
𝚲 𝑎𝑏 (𝐱 𝑏 − 𝝁 𝑏)
−
1
2
(𝐱 𝑏 − 𝛍b)T 𝚲 𝑏𝑎 (𝐱 𝑎 − 𝝁 𝑎) −
1
2
(𝐱 𝑏 − 𝝁 𝑏)T 𝚲 𝑏𝑏 (𝐱 𝑏 − 𝝁 𝑏)
…(2.70)
step 1: 同時分布の指数部分
𝐱 𝑎に注目する
8
- 11.
求めたい条件付き分布𝑝 𝐱 𝑎 𝐱 𝑏 の指数部は
−
1
2
𝐱 𝑎 − 𝝁 𝑎|𝑏
T
𝚺 𝑎|𝑏
−1
𝐱 𝑎 − 𝝁 𝑎|𝑏
= −
1
2
𝐱 𝑎
T 𝚺 𝑎|𝑏
−1
𝐱 𝑎 + 𝐱 𝑎
T 𝚺 𝑎|𝑏
−1
𝝁 𝑎|𝑏 + 𝐜𝐨𝐧𝐬𝐭.
…(2.71)’
step 2: 平均と共分散を求める
11
𝐱 𝑎の2次 𝐱 𝑎の1次 𝐱 𝑎に独立な項
- 12.
𝐱 𝑎の係数 式(2.71)’ 式(2.70)’
2次の係数
−
1
2
𝚺 𝑎|𝑏
−1
−
1
2
𝚲 𝑎𝑎
線形の係数 𝚺 𝑎|𝑏
−1
𝝁 𝑎|𝑏 𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏 𝐱 𝑏 − 𝝁 𝑏
12
step 2: 𝐱 𝑎の係数について
2.70 = −
1
2
𝐱 𝑎
T 𝚲 𝑎𝑎 𝐱 𝑎 + 𝐱 𝑎
T 𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏 𝐱 𝑏 − 𝝁 𝑏
+ 𝑐𝑜𝑛𝑠𝑡.
…(2.70)’
- 13.
𝐱 𝑎の2次の項は−
1
2
𝐱 𝑎
T
𝚲 𝑎𝑎 𝐱 𝑎であるから
𝑝 𝐱 𝑎 𝐱 𝑏 の分散は𝚺 𝑎|𝑏 = 𝚲 𝑎𝑎
−1
𝐱 𝑎の1次の項は𝐱 𝑎
T{𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)}であるか
ら
𝝁 𝑎|𝑏 = 𝚺 𝑎|𝑏 {𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)}
= 𝝁 𝑎 − 𝚲 𝑎𝑎
−1
𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)
step 2: 平均と共分散を求める
13
- 15.
「 𝚲 𝑎𝑎, 𝚲 𝑎𝑏を𝚺○○ だけで表したい」
𝐴 𝐵
𝐶 𝐷
−1
= 𝑀 −𝑀𝐵𝐷−1
−𝐷−1 𝐶𝑀 𝐷−1 + 𝐷−1 𝐶𝑀𝐵𝐷−1
…(2.76)
ただし、𝑀 = (𝐴 − 𝐵𝐷−1 𝐶)−1とする
𝑀−1を𝐷に関するシューア補行列と呼ぶ
→演習問題(2.24)
step 3: 𝚲 𝑎𝑎って何?
15
- 16.
(2.76)を適用すれば、𝚲 𝑎𝑎がわかるはず
適用すると…
𝚲 𝑎𝑎 = (𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝚺 𝑏𝑎)−1
𝚲 𝑎𝑏 = −(𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝚺 𝑏𝑎)−1 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝚲 𝑎𝑎, 𝚲 𝑎𝑏を𝚺○○ だけの形に置き換えられた
step 3: 𝚲 𝑎𝑎って何?
16
- 17.
同時分布 𝑝(𝐱 𝑎, 𝐱 𝑏)がガウス分布なら
𝑝 𝐱 𝑎 𝐱 𝑏 = 𝓝 𝐱 𝑎 𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏 であり
𝝁 𝑎|𝑏 = 𝝁 𝑎 + 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝐱 𝑏 − 𝝁 𝑏
𝚺 𝑎|𝑏 = 𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝚺 𝑏𝑎 = 𝚲 𝑎𝑎
−1
考察
平均ベクトルは𝐱 𝑏の線形関数
共分散は𝐱 𝑏とは独立である
→線形ガウスモデルの一例になっている
(参照:PRML 8.1.4)
条件付きガウス分布のまとめ
17
- 20.
Δ2 = −
1
2
𝐱 − 𝛍 T 𝚺−1 𝐱 − 𝛍
= −
1
2
𝐱 𝑎 − 𝝁 𝑎
T 𝚲 𝑎𝑎 𝐱 𝑎 − 𝝁 𝑎 −
1
2
(𝐱 𝑎 − 𝝁 𝑎)T 𝚲 𝑎𝑏 (𝐱 𝑏 − 𝝁 𝑏)
−
1
2
(𝐱 𝑏 − 𝛍b)T
𝚲 𝑏𝑎 (𝐱 𝑎 − 𝝁 𝑎) −
1
2
(𝐱 𝑏 − 𝝁 𝑏)T
𝚲 𝑏𝑏 (𝐱 𝑏 − 𝝁 𝑏)
…(2.70)
(2.70)の𝐱 𝑏の項に注目する(前回と逆)
→ 𝐱 𝑏を積分消去することが目的だから
step 1: 同時分布の指数部に注目
20
- 21.
式(2.70)から𝐱 𝑏を含む項のみ取り出し、平方完成する
−
1
2
𝐱 𝑏
𝑇
𝚲 𝑏𝑏 𝐱 𝑏 + 𝐱 𝑏
𝑇
𝐦
= −
1
2
𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦
T
𝚲 𝑏𝑏 𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦 +
1
2
𝒎 𝑇 𝚲 𝑏𝑏
−1
𝐦
… (2.84)
ただし、 𝐦は
𝐦 = 𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎
step1: 𝐱 𝑏に関係する項の分離
21
𝐱 𝑏に依存する項
- 22.
𝐱 𝑏に依存する項のみ指数にとり、𝐱 𝑏で積分すると
exp −
1
2
(𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦) 𝑇 𝚲 𝑏𝑏 𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦 𝑑𝐱 𝑏
= 𝚲 𝑏𝑏 のみに依存する値
ガウス分布の正規化項がないものと同じ形
→正規化項の逆数になる
step1: 𝐱 𝑏に依存する項について
22
- 23.
(2.70)を変形すると
1
2
[𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎 ] 𝑇 𝚲 𝑏𝑏
−1
[𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎 ]
−
1
2
𝐱 𝑎
𝑇
𝚲 𝑎𝑎 𝐱 𝑎 + 𝐱 𝑎
𝑇
𝚲 𝑎𝑎 𝝁 𝑎 + 𝚲 𝑎𝑏 𝝁 𝑏 + 𝑐𝑜𝑛𝑠𝑡.
= −
1
2
𝐱 𝑎
𝑇(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝐱 𝑎 + 𝐱 𝑎
𝑇(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝝁 𝑎
+ 𝑐𝑜𝑛𝑠𝑡. … (2.87)
ここでの𝑐𝑜𝑛𝑠𝑡.とは𝐱 𝑎に依存しない定数を表す
step 2: 𝐱 𝑎についてまとめる
23
- 24.
𝐱 𝑎の係数 上式 式(2.87)
2次の係数
−
1
2
𝚺 𝑎
−1
−
1
2
(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)
線形の係数 𝚺 𝑎
−1
𝝁 𝑎’ (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝝁 𝑎
24
step 3: 平均、共分散を求める
求める周辺分布𝑝(𝐱 𝑎)の指数部は
−
1
2
𝐱 𝑎
T 𝚺 𝑎
−1
𝐱 𝑎 + 𝐱 𝑎
T 𝚺 𝑎
−1
𝝁 𝑎’ + 𝑐𝑜𝑛𝑠𝑡. となるから
- 25.
(2.87)より周辺分布𝑝(𝐱 𝑎)
共分散:𝚺 𝑎 = (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)−1
平均:𝝁 𝑎’= 𝚺 𝑎(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝝁 𝑎 = 𝝁 𝑎
定義に戻ると、
𝚲 𝑎𝑎 𝚲 𝑎𝑏
𝚲 𝑏𝑎 𝚲 𝑏𝑏
−1
=
𝚺 𝑎𝑎 𝚺 𝑎𝑏
𝚺 𝑏𝑎 𝚺 𝑏𝑏
であるから
𝚺 𝑎 = (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)−1 = 𝚺 𝑎𝑎
step 3: 平均、共分散を求める
25
- 28.
同時ガウス分布 𝒩 𝐱 𝝁, 𝚺 があるとする
𝐱 =
𝐱 𝑎
𝐱 𝑏
, 𝝁 =
𝝁 𝑎
𝝁 𝑏
,
𝚺 =
𝚺 𝑎𝑎 𝚺 𝑎𝑏
𝚺 𝑏𝑎 𝚺 𝑏𝑏
, 𝚲 =
𝚲 𝑎𝑎 𝚲 𝑎𝑏
𝚲 𝑏𝑎 𝚲 𝑏𝑏
条件付き分布:
𝑝 𝐱 𝑎 𝐱 𝑏 = 𝒩 𝐱 𝑎 𝝁 𝑎|𝑏, 𝚲 𝑎𝑎
−1
𝝁 𝑎|𝑏 = 𝝁 𝑎 + 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝐱 𝑏 − 𝝁 𝑏
周辺分布:
𝑝(𝐱 𝑎) = 𝒩 𝐱 𝑎 𝝁 𝑎, 𝚺 𝑎𝑎
今回の結論
28