@_kuni88
1

2.3.1 条件付きガウス分布
 条件付きガウス分布とは?
 条件付きガウス分布の定式化
2.3.2 周辺ガウス分布
 周辺ガウス分布とは?
 周辺ガウス分布の定式化
まとめ
目次
2

 多変量ガウス分布の特徴
2つの変数集合𝐱 𝑎, 𝐱 𝑏の同時分布がガウス分布に従う
①一方の集合𝐱 𝑏を与えた時の
条件付き分布 𝑝(𝐱 𝑎|𝐱 𝑏)はガウス分布になる
②どちらの変数集合の周辺分布もガウス分布になる
 ①, ②を確認することが今日の目標
今日の目標
3

確率の乗法定理より
𝑝 𝐱 𝑎|𝐱 𝑏 =
𝑝(𝐱 𝑎, 𝐱 𝑏)
𝑝(𝐱 𝑏)
・ 𝑝 𝐱 𝑎|𝐱 𝑏 は𝐱 𝑎の関数ととらえる
・同時分布 𝑝 𝐱 𝑎, 𝐱 𝑏 に注目すればよい
(𝐱 𝑏 は観測値として与えられるから)
条件つき確率の定義
4

1. 条件付き分布𝑝 𝐱 𝑎 𝐱 𝑏 がガウス分布だと示す
同時ガウス分布の指数部のみに注目!
2. 𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏をそれぞれ求める
3. 精度行列 𝚲を使わない形で求める
5
①の証明に対する方針

 前提
𝐱をガウス分布𝒩 𝐱 𝝁, 𝚺 に従う𝐷次元ベクトルとする
𝐱 𝑎 ∶ 𝐱の最初の𝑀個の要素からなるベクトル
𝐱 𝑏 ∶ 𝐱の残りの𝐷 − 𝑀個の要素からなるベクトル
(𝐱 𝑎, 𝐱 𝑏は互いに素な𝐱の部分集合)
 結論
𝑝 𝐱 𝑎 𝐱 𝑏 = 𝒩(𝐱 𝑎|𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏)になる
証明のための準備 (1)
6
 ガウス分布の各要素の分割
𝐱 =
𝐱 𝑎
𝐱 𝑏
, 𝝁 =
𝝁 𝑎
𝝁 𝑏
, Σ=
𝚺 𝑎𝑎 𝚺 𝑎𝑏
𝚺 𝑏𝑎 𝚺 𝑏𝑏
 性質
共分散行列 𝚺は対称行列だから
𝚺 𝑎𝑎, 𝚺 𝑏𝑏はともに対称行列で、𝚺 𝑏𝑎 = 𝚺 𝑎𝑏
T
となる
 精度行列 (precision matrix)
𝚲 ≡𝚺−1, 𝚲 =
𝚲 𝑎𝑎 𝚲 𝑎𝑏
𝚲 𝑏𝑎 𝚲 𝑏𝑏
→ 𝚲も対称行列である
証明のための準備 (2)
7

𝑝 𝐱 の指数部を𝚫 𝟐
とすると
Δ2
= −
1
2
𝐱 − 𝝁 T
𝚺−1
𝐱 − 𝝁
= −
1
2
𝐱 𝑎 − 𝝁 𝑎
T
𝚲 𝑎𝑎 𝐱 𝑎 − 𝝁 𝑎 −
1
2
(𝐱 𝑎 − 𝝁 𝑎)T
𝚲 𝑎𝑏 (𝐱 𝑏 − 𝝁 𝑏)
−
1
2
(𝐱 𝑏 − 𝛍b)T 𝚲 𝑏𝑎 (𝐱 𝑎 − 𝝁 𝑎) −
1
2
(𝐱 𝑏 − 𝝁 𝑏)T 𝚲 𝑏𝑏 (𝐱 𝑏 − 𝝁 𝑏)
…(2.70)
step 1: 同時分布の指数部分
𝐱 𝑎に注目する
8

 Δ2
の特徴
(2.70)は𝐱 𝑎の2次形式になっている
→条件付き分布𝑝 𝐱 𝑎 𝐱 𝑏 もガウス分布
ガウス分布 𝓝(𝐱 𝑎|𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏)の形になる
→次は𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏を求める (step 2)
step 1: 𝑝 𝐱 𝑎 𝐱 𝑏 はガウス分布なのか
9

 ここでのポイント
平方完成 <completing the square>
 Δ2
= −
1
2
𝐱 − 𝝁 T
𝚺−1
𝐱 − 𝝁
= −
1
2
𝐱T 𝚺−1 𝐱 + 𝐱T 𝚺−1 𝝁 + 𝐜𝐨𝐧𝐬𝐭.
…(2.71)
step 2: 平均と共分散を求める
10

 求めたい条件付き分布𝑝 𝐱 𝑎 𝐱 𝑏 の指数部は
−
1
2
𝐱 𝑎 − 𝝁 𝑎|𝑏
T
𝚺 𝑎|𝑏
−1
𝐱 𝑎 − 𝝁 𝑎|𝑏
= −
1
2
𝐱 𝑎
T 𝚺 𝑎|𝑏
−1
𝐱 𝑎 + 𝐱 𝑎
T 𝚺 𝑎|𝑏
−1
𝝁 𝑎|𝑏 + 𝐜𝐨𝐧𝐬𝐭.
…(2.71)’
step 2: 平均と共分散を求める
11
𝐱 𝑎の2次 𝐱 𝑎の1次 𝐱 𝑎に独立な項

𝐱 𝑎の係数 式(2.71)’ 式(2.70)’
2次の係数
−
1
2
𝚺 𝑎|𝑏
−1
−
1
2
𝚲 𝑎𝑎
線形の係数 𝚺 𝑎|𝑏
−1
𝝁 𝑎|𝑏 𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏 𝐱 𝑏 − 𝝁 𝑏
12
step 2: 𝐱 𝑎の係数について
2.70 = −
1
2
𝐱 𝑎
T 𝚲 𝑎𝑎 𝐱 𝑎 + 𝐱 𝑎
T 𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏 𝐱 𝑏 − 𝝁 𝑏
+ 𝑐𝑜𝑛𝑠𝑡.
…(2.70)’

 𝐱 𝑎の2次の項は−
1
2
𝐱 𝑎
T
𝚲 𝑎𝑎 𝐱 𝑎であるから
𝑝 𝐱 𝑎 𝐱 𝑏 の分散は𝚺 𝑎|𝑏 = 𝚲 𝑎𝑎
−1
 𝐱 𝑎の1次の項は𝐱 𝑎
T{𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)}であるか
ら
𝝁 𝑎|𝑏 = 𝚺 𝑎|𝑏 {𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)}
= 𝝁 𝑎 − 𝚲 𝑎𝑎
−1
𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)
step 2: 平均と共分散を求める
13

 精度行列のブロック行列の左上の行列
𝚲 =
𝚲 𝑎𝑎 𝚲 𝑎𝑏
𝚲 𝑏𝑎 𝚲 𝑏𝑏
 𝚲 𝑎𝑎≠ 𝚺 𝑎𝑎
−𝟏
 …具体的なことが全くわかっていない!
step 3: 𝚲 𝑎𝑎って何?
14

 「 𝚲 𝑎𝑎, 𝚲 𝑎𝑏を𝚺○○ だけで表したい」

𝐴 𝐵
𝐶 𝐷
−1
= 𝑀 −𝑀𝐵𝐷−1
−𝐷−1 𝐶𝑀 𝐷−1 + 𝐷−1 𝐶𝑀𝐵𝐷−1
…(2.76)
ただし、𝑀 = (𝐴 − 𝐵𝐷−1 𝐶)−1とする
 𝑀−1を𝐷に関するシューア補行列と呼ぶ
→演習問題(2.24)
step 3: 𝚲 𝑎𝑎って何?
15

 (2.76)を適用すれば、𝚲 𝑎𝑎がわかるはず
 適用すると…
𝚲 𝑎𝑎 = (𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝚺 𝑏𝑎)−1
𝚲 𝑎𝑏 = −(𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝚺 𝑏𝑎)−1 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
 𝚲 𝑎𝑎, 𝚲 𝑎𝑏を𝚺○○ だけの形に置き換えられた
step 3: 𝚲 𝑎𝑎って何?
16

 同時分布 𝑝(𝐱 𝑎, 𝐱 𝑏)がガウス分布なら
𝑝 𝐱 𝑎 𝐱 𝑏 = 𝓝 𝐱 𝑎 𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏 であり
𝝁 𝑎|𝑏 = 𝝁 𝑎 + 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝐱 𝑏 − 𝝁 𝑏
𝚺 𝑎|𝑏 = 𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝚺 𝑏𝑎 = 𝚲 𝑎𝑎
−1
 考察
 平均ベクトルは𝐱 𝑏の線形関数
 共分散は𝐱 𝑏とは独立である
→線形ガウスモデルの一例になっている
(参照:PRML 8.1.4)
条件付きガウス分布のまとめ
17

 先ほどの前提を利用すると周辺ガウス分布は
𝑝 𝐱 𝑎 = 𝑝 𝐱 𝑎, 𝐱 𝑏 𝑑𝐱 𝑏
 𝑝 𝐱 𝑎 がガウス分布𝓝 𝐱 𝑎 𝝁 𝑎, 𝚺 𝑎𝑎 になることを示す
周辺ガウス分布とは?
18

 条件付きガウス分布と同じ方針で解く
1. 同時分布の指数部の𝐱 𝑏のみに注目する
2. 𝐱 𝑎についてまとめる
3. 周辺分布の平均、共分散を求める
②に対する方針
19

Δ2 = −
1
2
𝐱 − 𝛍 T 𝚺−1 𝐱 − 𝛍
= −
1
2
𝐱 𝑎 − 𝝁 𝑎
T 𝚲 𝑎𝑎 𝐱 𝑎 − 𝝁 𝑎 −
1
2
(𝐱 𝑎 − 𝝁 𝑎)T 𝚲 𝑎𝑏 (𝐱 𝑏 − 𝝁 𝑏)
−
1
2
(𝐱 𝑏 − 𝛍b)T
𝚲 𝑏𝑎 (𝐱 𝑎 − 𝝁 𝑎) −
1
2
(𝐱 𝑏 − 𝝁 𝑏)T
𝚲 𝑏𝑏 (𝐱 𝑏 − 𝝁 𝑏)
…(2.70)
 (2.70)の𝐱 𝑏の項に注目する(前回と逆)
→ 𝐱 𝑏を積分消去することが目的だから
step 1: 同時分布の指数部に注目
20

 式(2.70)から𝐱 𝑏を含む項のみ取り出し、平方完成する
−
1
2
𝐱 𝑏
𝑇
𝚲 𝑏𝑏 𝐱 𝑏 + 𝐱 𝑏
𝑇
𝐦
= −
1
2
𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦
T
𝚲 𝑏𝑏 𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦 +
1
2
𝒎 𝑇 𝚲 𝑏𝑏
−1
𝐦
… (2.84)
ただし、 𝐦は
𝐦 = 𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎
step1: 𝐱 𝑏に関係する項の分離
21
𝐱 𝑏に依存する項

𝐱 𝑏に依存する項のみ指数にとり、𝐱 𝑏で積分すると
exp −
1
2
(𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦) 𝑇 𝚲 𝑏𝑏 𝐱 𝑏 − 𝚲 𝑏𝑏
−1
𝐦 𝑑𝐱 𝑏
= 𝚲 𝑏𝑏 のみに依存する値
ガウス分布の正規化項がないものと同じ形
→正規化項の逆数になる
step1: 𝐱 𝑏に依存する項について
22

(2.70)を変形すると
1
2
[𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎 ] 𝑇 𝚲 𝑏𝑏
−1
[𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎 ]
−
1
2
𝐱 𝑎
𝑇
𝚲 𝑎𝑎 𝐱 𝑎 + 𝐱 𝑎
𝑇
𝚲 𝑎𝑎 𝝁 𝑎 + 𝚲 𝑎𝑏 𝝁 𝑏 + 𝑐𝑜𝑛𝑠𝑡.
= −
1
2
𝐱 𝑎
𝑇(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝐱 𝑎 + 𝐱 𝑎
𝑇(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝝁 𝑎
+ 𝑐𝑜𝑛𝑠𝑡.   … (2.87)
ここでの𝑐𝑜𝑛𝑠𝑡.とは𝐱 𝑎に依存しない定数を表す
step 2: 𝐱 𝑎についてまとめる
23

𝐱 𝑎の係数 上式 式(2.87)
2次の係数
−
1
2
𝚺 𝑎
−1
−
1
2
(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)
線形の係数 𝚺 𝑎
−1
𝝁 𝑎’ (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝝁 𝑎
24
step 3: 平均、共分散を求める
 求める周辺分布𝑝(𝐱 𝑎)の指数部は
−
1
2
𝐱 𝑎
T 𝚺 𝑎
−1
𝐱 𝑎 + 𝐱 𝑎
T 𝚺 𝑎
−1
𝝁 𝑎’ + 𝑐𝑜𝑛𝑠𝑡. となるから

(2.87)より周辺分布𝑝(𝐱 𝑎)
共分散:𝚺 𝑎 = (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)−1
平均:𝝁 𝑎’= 𝚺 𝑎(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)𝝁 𝑎 = 𝝁 𝑎
定義に戻ると、
𝚲 𝑎𝑎 𝚲 𝑎𝑏
𝚲 𝑏𝑎 𝚲 𝑏𝑏
−1
=
𝚺 𝑎𝑎 𝚺 𝑎𝑏
𝚺 𝑏𝑎 𝚺 𝑏𝑏
であるから
𝚺 𝑎 = (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏
−𝟏
𝚲 𝑏𝑎)−1 = 𝚺 𝑎𝑎
step 3: 平均、共分散を求める
25

周辺分布𝑝(𝐱 𝑎)の平均と共分散は
𝐸 𝐱 𝑎 = 𝝁 𝑎
cov 𝐱 𝑎 = 𝚺 𝑎𝑎
周辺分布の平均・共分散は
分割された共分散行列について簡潔に表現される
直観的にも一致する!
周辺分布のまとめ
26

27
e.g. 多次元ガウス分布のグラフ
多変量ガウス分布の特徴
2つの変数集合𝐱 𝑎, 𝐱 𝑏の同時分布(緑)が
ガウス分布に従うとき
①一方の集合𝐱 𝑏の分布𝑝(𝐱 𝑏)を与えた
時の条件付き分布 𝑝(𝐱 𝑎|𝐱 𝑏)はガウス分
布になる
②どちらの変数集合の周辺分布もガウ
ス分布になる

同時ガウス分布 𝒩 𝐱 𝝁, 𝚺 があるとする
𝐱 =
𝐱 𝑎
𝐱 𝑏
, 𝝁 =
𝝁 𝑎
𝝁 𝑏
,
𝚺 =
𝚺 𝑎𝑎 𝚺 𝑎𝑏
𝚺 𝑏𝑎 𝚺 𝑏𝑏
, 𝚲 =
𝚲 𝑎𝑎 𝚲 𝑎𝑏
𝚲 𝑏𝑎 𝚲 𝑏𝑏
条件付き分布:
𝑝 𝐱 𝑎 𝐱 𝑏 = 𝒩 𝐱 𝑎 𝝁 𝑎|𝑏, 𝚲 𝑎𝑎
−1
𝝁 𝑎|𝑏 = 𝝁 𝑎 + 𝚺 𝑎𝑏 𝚺 𝑏𝑏
−𝟏
𝐱 𝑏 − 𝝁 𝑏
周辺分布:
𝑝(𝐱 𝑎) = 𝒩 𝐱 𝑎 𝝁 𝑎, 𝚺 𝑎𝑎
今回の結論
28

PRML 2.3.1-2.3.2

  • 1.
  • 2.
     2.3.1 条件付きガウス分布  条件付きガウス分布とは? 条件付きガウス分布の定式化 2.3.2 周辺ガウス分布  周辺ガウス分布とは?  周辺ガウス分布の定式化 まとめ 目次 2
  • 3.
      多変量ガウス分布の特徴 2つの変数集合𝐱 𝑎,𝐱 𝑏の同時分布がガウス分布に従う ①一方の集合𝐱 𝑏を与えた時の 条件付き分布 𝑝(𝐱 𝑎|𝐱 𝑏)はガウス分布になる ②どちらの変数集合の周辺分布もガウス分布になる  ①, ②を確認することが今日の目標 今日の目標 3
  • 4.
     確率の乗法定理より 𝑝 𝐱 𝑎|𝐱𝑏 = 𝑝(𝐱 𝑎, 𝐱 𝑏) 𝑝(𝐱 𝑏) ・ 𝑝 𝐱 𝑎|𝐱 𝑏 は𝐱 𝑎の関数ととらえる ・同時分布 𝑝 𝐱 𝑎, 𝐱 𝑏 に注目すればよい (𝐱 𝑏 は観測値として与えられるから) 条件つき確率の定義 4
  • 5.
     1. 条件付き分布𝑝 𝐱𝑎 𝐱 𝑏 がガウス分布だと示す 同時ガウス分布の指数部のみに注目! 2. 𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏をそれぞれ求める 3. 精度行列 𝚲を使わない形で求める 5 ①の証明に対する方針
  • 6.
      前提 𝐱をガウス分布𝒩 𝐱𝝁, 𝚺 に従う𝐷次元ベクトルとする 𝐱 𝑎 ∶ 𝐱の最初の𝑀個の要素からなるベクトル 𝐱 𝑏 ∶ 𝐱の残りの𝐷 − 𝑀個の要素からなるベクトル (𝐱 𝑎, 𝐱 𝑏は互いに素な𝐱の部分集合)  結論 𝑝 𝐱 𝑎 𝐱 𝑏 = 𝒩(𝐱 𝑎|𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏)になる 証明のための準備 (1) 6
  • 7.
     ガウス分布の各要素の分割 𝐱 = 𝐱𝑎 𝐱 𝑏 , 𝝁 = 𝝁 𝑎 𝝁 𝑏 , Σ= 𝚺 𝑎𝑎 𝚺 𝑎𝑏 𝚺 𝑏𝑎 𝚺 𝑏𝑏  性質 共分散行列 𝚺は対称行列だから 𝚺 𝑎𝑎, 𝚺 𝑏𝑏はともに対称行列で、𝚺 𝑏𝑎 = 𝚺 𝑎𝑏 T となる  精度行列 (precision matrix) 𝚲 ≡𝚺−1, 𝚲 = 𝚲 𝑎𝑎 𝚲 𝑎𝑏 𝚲 𝑏𝑎 𝚲 𝑏𝑏 → 𝚲も対称行列である 証明のための準備 (2) 7
  • 8.
     𝑝 𝐱 の指数部を𝚫𝟐 とすると Δ2 = − 1 2 𝐱 − 𝝁 T 𝚺−1 𝐱 − 𝝁 = − 1 2 𝐱 𝑎 − 𝝁 𝑎 T 𝚲 𝑎𝑎 𝐱 𝑎 − 𝝁 𝑎 − 1 2 (𝐱 𝑎 − 𝝁 𝑎)T 𝚲 𝑎𝑏 (𝐱 𝑏 − 𝝁 𝑏) − 1 2 (𝐱 𝑏 − 𝛍b)T 𝚲 𝑏𝑎 (𝐱 𝑎 − 𝝁 𝑎) − 1 2 (𝐱 𝑏 − 𝝁 𝑏)T 𝚲 𝑏𝑏 (𝐱 𝑏 − 𝝁 𝑏) …(2.70) step 1: 同時分布の指数部分 𝐱 𝑎に注目する 8
  • 9.
      Δ2 の特徴 (2.70)は𝐱 𝑎の2次形式になっている →条件付き分布𝑝𝐱 𝑎 𝐱 𝑏 もガウス分布 ガウス分布 𝓝(𝐱 𝑎|𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏)の形になる →次は𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏を求める (step 2) step 1: 𝑝 𝐱 𝑎 𝐱 𝑏 はガウス分布なのか 9
  • 10.
      ここでのポイント 平方完成 <completingthe square>  Δ2 = − 1 2 𝐱 − 𝝁 T 𝚺−1 𝐱 − 𝝁 = − 1 2 𝐱T 𝚺−1 𝐱 + 𝐱T 𝚺−1 𝝁 + 𝐜𝐨𝐧𝐬𝐭. …(2.71) step 2: 平均と共分散を求める 10
  • 11.
      求めたい条件付き分布𝑝 𝐱𝑎 𝐱 𝑏 の指数部は − 1 2 𝐱 𝑎 − 𝝁 𝑎|𝑏 T 𝚺 𝑎|𝑏 −1 𝐱 𝑎 − 𝝁 𝑎|𝑏 = − 1 2 𝐱 𝑎 T 𝚺 𝑎|𝑏 −1 𝐱 𝑎 + 𝐱 𝑎 T 𝚺 𝑎|𝑏 −1 𝝁 𝑎|𝑏 + 𝐜𝐨𝐧𝐬𝐭. …(2.71)’ step 2: 平均と共分散を求める 11 𝐱 𝑎の2次 𝐱 𝑎の1次 𝐱 𝑎に独立な項
  • 12.
     𝐱 𝑎の係数 式(2.71)’式(2.70)’ 2次の係数 − 1 2 𝚺 𝑎|𝑏 −1 − 1 2 𝚲 𝑎𝑎 線形の係数 𝚺 𝑎|𝑏 −1 𝝁 𝑎|𝑏 𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏 𝐱 𝑏 − 𝝁 𝑏 12 step 2: 𝐱 𝑎の係数について 2.70 = − 1 2 𝐱 𝑎 T 𝚲 𝑎𝑎 𝐱 𝑎 + 𝐱 𝑎 T 𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏 𝐱 𝑏 − 𝝁 𝑏 + 𝑐𝑜𝑛𝑠𝑡. …(2.70)’
  • 13.
      𝐱 𝑎の2次の項は− 1 2 𝐱𝑎 T 𝚲 𝑎𝑎 𝐱 𝑎であるから 𝑝 𝐱 𝑎 𝐱 𝑏 の分散は𝚺 𝑎|𝑏 = 𝚲 𝑎𝑎 −1  𝐱 𝑎の1次の項は𝐱 𝑎 T{𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)}であるか ら 𝝁 𝑎|𝑏 = 𝚺 𝑎|𝑏 {𝚲 𝑎𝑎 𝝁 𝑎 − 𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏)} = 𝝁 𝑎 − 𝚲 𝑎𝑎 −1 𝚲 𝑎𝑏(𝐱 𝑏 − 𝝁 𝑏) step 2: 平均と共分散を求める 13
  • 14.
      精度行列のブロック行列の左上の行列 𝚲 = 𝚲𝑎𝑎 𝚲 𝑎𝑏 𝚲 𝑏𝑎 𝚲 𝑏𝑏  𝚲 𝑎𝑎≠ 𝚺 𝑎𝑎 −𝟏  …具体的なことが全くわかっていない! step 3: 𝚲 𝑎𝑎って何? 14
  • 15.
      「 𝚲𝑎𝑎, 𝚲 𝑎𝑏を𝚺○○ だけで表したい」  𝐴 𝐵 𝐶 𝐷 −1 = 𝑀 −𝑀𝐵𝐷−1 −𝐷−1 𝐶𝑀 𝐷−1 + 𝐷−1 𝐶𝑀𝐵𝐷−1 …(2.76) ただし、𝑀 = (𝐴 − 𝐵𝐷−1 𝐶)−1とする  𝑀−1を𝐷に関するシューア補行列と呼ぶ →演習問題(2.24) step 3: 𝚲 𝑎𝑎って何? 15
  • 16.
      (2.76)を適用すれば、𝚲 𝑎𝑎がわかるはず 適用すると… 𝚲 𝑎𝑎 = (𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏 −𝟏 𝚺 𝑏𝑎)−1 𝚲 𝑎𝑏 = −(𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏 −𝟏 𝚺 𝑏𝑎)−1 𝚺 𝑎𝑏 𝚺 𝑏𝑏 −𝟏  𝚲 𝑎𝑎, 𝚲 𝑎𝑏を𝚺○○ だけの形に置き換えられた step 3: 𝚲 𝑎𝑎って何? 16
  • 17.
      同時分布 𝑝(𝐱𝑎, 𝐱 𝑏)がガウス分布なら 𝑝 𝐱 𝑎 𝐱 𝑏 = 𝓝 𝐱 𝑎 𝝁 𝑎|𝑏, 𝚺 𝑎|𝑏 であり 𝝁 𝑎|𝑏 = 𝝁 𝑎 + 𝚺 𝑎𝑏 𝚺 𝑏𝑏 −𝟏 𝐱 𝑏 − 𝝁 𝑏 𝚺 𝑎|𝑏 = 𝚺 𝑎𝑎 − 𝚺 𝑎𝑏 𝚺 𝑏𝑏 −𝟏 𝚺 𝑏𝑎 = 𝚲 𝑎𝑎 −1  考察  平均ベクトルは𝐱 𝑏の線形関数  共分散は𝐱 𝑏とは独立である →線形ガウスモデルの一例になっている (参照:PRML 8.1.4) 条件付きガウス分布のまとめ 17
  • 18.
      先ほどの前提を利用すると周辺ガウス分布は 𝑝 𝐱𝑎 = 𝑝 𝐱 𝑎, 𝐱 𝑏 𝑑𝐱 𝑏  𝑝 𝐱 𝑎 がガウス分布𝓝 𝐱 𝑎 𝝁 𝑎, 𝚺 𝑎𝑎 になることを示す 周辺ガウス分布とは? 18
  • 19.
      条件付きガウス分布と同じ方針で解く 1. 同時分布の指数部の𝐱𝑏のみに注目する 2. 𝐱 𝑎についてまとめる 3. 周辺分布の平均、共分散を求める ②に対する方針 19
  • 20.
     Δ2 = − 1 2 𝐱− 𝛍 T 𝚺−1 𝐱 − 𝛍 = − 1 2 𝐱 𝑎 − 𝝁 𝑎 T 𝚲 𝑎𝑎 𝐱 𝑎 − 𝝁 𝑎 − 1 2 (𝐱 𝑎 − 𝝁 𝑎)T 𝚲 𝑎𝑏 (𝐱 𝑏 − 𝝁 𝑏) − 1 2 (𝐱 𝑏 − 𝛍b)T 𝚲 𝑏𝑎 (𝐱 𝑎 − 𝝁 𝑎) − 1 2 (𝐱 𝑏 − 𝝁 𝑏)T 𝚲 𝑏𝑏 (𝐱 𝑏 − 𝝁 𝑏) …(2.70)  (2.70)の𝐱 𝑏の項に注目する(前回と逆) → 𝐱 𝑏を積分消去することが目的だから step 1: 同時分布の指数部に注目 20
  • 21.
      式(2.70)から𝐱 𝑏を含む項のみ取り出し、平方完成する − 1 2 𝐱𝑏 𝑇 𝚲 𝑏𝑏 𝐱 𝑏 + 𝐱 𝑏 𝑇 𝐦 = − 1 2 𝐱 𝑏 − 𝚲 𝑏𝑏 −1 𝐦 T 𝚲 𝑏𝑏 𝐱 𝑏 − 𝚲 𝑏𝑏 −1 𝐦 + 1 2 𝒎 𝑇 𝚲 𝑏𝑏 −1 𝐦 … (2.84) ただし、 𝐦は 𝐦 = 𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎 step1: 𝐱 𝑏に関係する項の分離 21 𝐱 𝑏に依存する項
  • 22.
     𝐱 𝑏に依存する項のみ指数にとり、𝐱 𝑏で積分すると exp− 1 2 (𝐱 𝑏 − 𝚲 𝑏𝑏 −1 𝐦) 𝑇 𝚲 𝑏𝑏 𝐱 𝑏 − 𝚲 𝑏𝑏 −1 𝐦 𝑑𝐱 𝑏 = 𝚲 𝑏𝑏 のみに依存する値 ガウス分布の正規化項がないものと同じ形 →正規化項の逆数になる step1: 𝐱 𝑏に依存する項について 22
  • 23.
     (2.70)を変形すると 1 2 [𝚲 𝑏𝑏 𝝁𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎 ] 𝑇 𝚲 𝑏𝑏 −1 [𝚲 𝑏𝑏 𝝁 𝑏 − 𝚲 𝑏𝑎 𝐱 𝑎 − 𝝁 𝑎 ] − 1 2 𝐱 𝑎 𝑇 𝚲 𝑎𝑎 𝐱 𝑎 + 𝐱 𝑎 𝑇 𝚲 𝑎𝑎 𝝁 𝑎 + 𝚲 𝑎𝑏 𝝁 𝑏 + 𝑐𝑜𝑛𝑠𝑡. = − 1 2 𝐱 𝑎 𝑇(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏 −𝟏 𝚲 𝑏𝑎)𝐱 𝑎 + 𝐱 𝑎 𝑇(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏 −𝟏 𝚲 𝑏𝑎)𝝁 𝑎 + 𝑐𝑜𝑛𝑠𝑡.   … (2.87) ここでの𝑐𝑜𝑛𝑠𝑡.とは𝐱 𝑎に依存しない定数を表す step 2: 𝐱 𝑎についてまとめる 23
  • 24.
     𝐱 𝑎の係数 上式式(2.87) 2次の係数 − 1 2 𝚺 𝑎 −1 − 1 2 (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏 −𝟏 𝚲 𝑏𝑎) 線形の係数 𝚺 𝑎 −1 𝝁 𝑎’ (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏 −𝟏 𝚲 𝑏𝑎)𝝁 𝑎 24 step 3: 平均、共分散を求める  求める周辺分布𝑝(𝐱 𝑎)の指数部は − 1 2 𝐱 𝑎 T 𝚺 𝑎 −1 𝐱 𝑎 + 𝐱 𝑎 T 𝚺 𝑎 −1 𝝁 𝑎’ + 𝑐𝑜𝑛𝑠𝑡. となるから
  • 25.
     (2.87)より周辺分布𝑝(𝐱 𝑎) 共分散:𝚺 𝑎= (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏 −𝟏 𝚲 𝑏𝑎)−1 平均:𝝁 𝑎’= 𝚺 𝑎(𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏 −𝟏 𝚲 𝑏𝑎)𝝁 𝑎 = 𝝁 𝑎 定義に戻ると、 𝚲 𝑎𝑎 𝚲 𝑎𝑏 𝚲 𝑏𝑎 𝚲 𝑏𝑏 −1 = 𝚺 𝑎𝑎 𝚺 𝑎𝑏 𝚺 𝑏𝑎 𝚺 𝑏𝑏 であるから 𝚺 𝑎 = (𝚲 𝑎𝑎−𝚲 𝑎𝑏 𝚲 𝑏𝑏 −𝟏 𝚲 𝑏𝑎)−1 = 𝚺 𝑎𝑎 step 3: 平均、共分散を求める 25
  • 26.
     周辺分布𝑝(𝐱 𝑎)の平均と共分散は 𝐸 𝐱𝑎 = 𝝁 𝑎 cov 𝐱 𝑎 = 𝚺 𝑎𝑎 周辺分布の平均・共分散は 分割された共分散行列について簡潔に表現される 直観的にも一致する! 周辺分布のまとめ 26
  • 27.
     27 e.g. 多次元ガウス分布のグラフ 多変量ガウス分布の特徴 2つの変数集合𝐱 𝑎,𝐱 𝑏の同時分布(緑)が ガウス分布に従うとき ①一方の集合𝐱 𝑏の分布𝑝(𝐱 𝑏)を与えた 時の条件付き分布 𝑝(𝐱 𝑎|𝐱 𝑏)はガウス分 布になる ②どちらの変数集合の周辺分布もガウ ス分布になる
  • 28.
     同時ガウス分布 𝒩 𝐱𝝁, 𝚺 があるとする 𝐱 = 𝐱 𝑎 𝐱 𝑏 , 𝝁 = 𝝁 𝑎 𝝁 𝑏 , 𝚺 = 𝚺 𝑎𝑎 𝚺 𝑎𝑏 𝚺 𝑏𝑎 𝚺 𝑏𝑏 , 𝚲 = 𝚲 𝑎𝑎 𝚲 𝑎𝑏 𝚲 𝑏𝑎 𝚲 𝑏𝑏 条件付き分布: 𝑝 𝐱 𝑎 𝐱 𝑏 = 𝒩 𝐱 𝑎 𝝁 𝑎|𝑏, 𝚲 𝑎𝑎 −1 𝝁 𝑎|𝑏 = 𝝁 𝑎 + 𝚺 𝑎𝑏 𝚺 𝑏𝑏 −𝟏 𝐱 𝑏 − 𝝁 𝑏 周辺分布: 𝑝(𝐱 𝑎) = 𝒩 𝐱 𝑎 𝝁 𝑎, 𝚺 𝑎𝑎 今回の結論 28