PRML復復々習レーン
Graphical Models
§8, 8.1, 8.1.1, 8.1.2, 8.1.3, 8.1.4
@takuya_fukagai
§8 グラフィカルモデル
¡ 確率率率的グラフィカルモデル
¡ ノード(node, vertex)とそれらを結ぶリンク(link,
edge, arc)により、変数間の関係を表現
¡ ノードが確率率率変数、リンクが変数間の確率率率的関係
を表現
ノード ノード
ノード
ノード
ノードリンク
リンク
リンク
リンク
リンク
§8 グラフィカルモデル
¡ 有向グラフィカルモデル
(ベイジアンネットワーク)
確率率率変数間の
因果関係を表現
¡ 無向グラフィカルモデル
(マルコフ確率率率場)
確率率率変数間の
緩い束縛条件を表現
§8.1 ベイジアンネットワーク
¡ 有向グラフを⽤用いて確率率率分布を記述する例例
¡ 3変数の同時分布の例例
p(a,b,c) = p(c | a,b)p(a,b) = p(c | a,b)p(b | a)p(a)
b
a
c
aはbの親ノード
(parent node)
bはaの⼦子ノード
(child node)
§8.1 ベイジアンネットワーク
¡ 有向グラフを⽤用いて確率率率分布を記述する例例
¡ K変数の同時分布の例例
全結合(fully connected)
⾃自分よりも⼩小さい番号が割
り振られた、全ノードから
向かってくるリンクを持つ
p(x1,, xK ) = p(xK | x1,, xK−1)p(x2 | x1)p(x1)
x2x1
x3
xK
p(x1,, x7 )
= p(x1)⋅ p(x2 )⋅ p(x3)
⋅p(x4 | x1, x2, x3)⋅ p(x5 | x1, x3)
⋅p(x6 | x4 )⋅ p(x7 | x4, x5 )
§8.1 ベイジアンネットワーク
¡ 全結合でない例例
¡ リンクが存在しないこと(absence)をもって分布の性質
を表現
左の図の7変数の例例の場合
x2
x1 x3
x6
x5x4
x7
§8.1 ベイジアンネットワーク
¡ K個のノードをもつグラフに対応する同時分布
p(x) = p(xk | pak )
k=1
K
∏
xk の親ノード集合
x =
x1
x2

xK
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
与えられた同時分布の
分解(factorization)特性を表現
§8.1.1 例例:多項式曲線フィッティング
¡  §1.2.6のベイズ多項式回帰モデルの例例
t =
t1
t2

tN
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
x =
x1
x2

xN
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
観測データ⼊入⼒力力データ
観測値の
ノイズの分散 σ 2
M次多項式係数ベクトル
上のガウス事前分布の精度度を表す
超パラメータ
w
α
w =
w0
w1

wM
!
"
#
#
#
#
#
$
%
&
&
&
&
&
確率率率変数
モデルパラメータ
§8.1.1 例例:多項式曲線フィッティング
¡  §1.2.6のベイズ多項式回帰モデルの例例
t =
t1
t2

tN
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
x =
x1
x2

xN
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
観測データ⼊入⼒力力データ
観測ノイズの分散σ 2
-­‐1	
  
0	
  
1	
  
2	
  
3	
  
4	
  
5	
  
6	
  
7	
  
-­‐6	
   -­‐4	
   -­‐2	
   0	
   2	
   4	
   6	
   8	
  
観測データ	
  t	
入力データ	
  x	
観測データ	
ノイズなし観測データ
§8.1.1 例例:多項式曲線フィッティング
¡  §1.2.6のベイズ多項式回帰モデルの例例
M次多項式係数ベクトル
上のガウス事前分布の精度度を表す
超パラメータ
w
α
w =
w0
w1

wM
!
"
#
#
#
#
#
$
%
&
&
&
&
&
0	
  
0.05	
  
0.1	
  
0.15	
  
0.2	
  
0.25	
  
0.3	
  
0.35	
  
0.4	
  
0.45	
  
-­‐5	
   -­‐4	
   -­‐3	
   -­‐2	
   -­‐1	
   0	
   1	
   2	
   3	
   4	
   5	
  
p(w |α) = N(w | 0,α−1
I) (1.65式)
p(wi |α)
wi
α−1/2
§8.1.1 例例:多項式曲線フィッティング
¡  §1.2.6のベイズ多項式回帰モデルの例例
t =
t1
t2

tN
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
x =
x1
x2

xN
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
観測データ⼊入⼒力力データ
観測値の
ノイズの分散 σ 2
M次多項式係数ベクトル
上のガウス事前分布の精度度を表す
超パラメータ
w
α
w =
w0
w1

wM
!
"
#
#
#
#
#
$
%
&
&
&
&
&
確率率率変数
モデルパラメータ
§8.1.1 例例:多項式曲線フィッティング
¡  §1.2.6のベイズ多項式回帰モデルの例例
p(t,w) = p(w) p(tn | w)
n=1
N
∏
確率率率変数だけに注⽬目すると
w
t1
tN
プレート(plate)を使ったコンパクトな表現
w
tn
N
§8.1.1 例例:多項式曲線フィッティング
¡  §1.2.6のベイズ多項式回帰モデルの例例
p(t,w | x,α,σ 2
) = p(w |α) p(tn | w, xn,σ 2
)
n=1
N
∏
モデルパラメータを陽に書いた場合
観測変数(observed variable)に影をつける
この例例で、影がつけられていない確率率率変数w
は、観測されない潜在変数(latent variable)
w
tn
N
σ 2
xn
α
w
tn
N
σ 2
xn
α
§8.1.1 例例:多項式曲線フィッティング
¡  §1.2.6のベイズ多項式回帰モデルの例例
多項式曲線フィッティングの⽬目的は、
新しい⼊入⼒力力値   に対する予測値    を求
めること。これを含む同時分布は、
wを積分消去(integrate out)すると、
  の予測分布が得られる
w
tn
N
σ 2
xn
α
ˆt
ˆx
ˆx ˆt
ˆt
p(ˆt,t,w | ˆx, x,α,σ 2
)
= [ p(tn | xn,w,σ 2
)
n=1
N
∏ ]p(w |α)p(ˆt | ˆx,w,σ 2
)
p(ˆt | ˆx, x,t,α,σ 2
) ∝ p(ˆt,t,w | ˆx, x,α,σ 2
)dw∫
§8.1.2 ⽣生成モデル
¡  伝承サンプリング(ancestral sampling)
p(x) = p(xk | pak )
k=1
K
∏
xk の親ノード集合
x =
x1
x2

xK
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
有向⾮非循環グラフ
⽬目的:この同時分布                  に
従うサンプル
を発⽣生させる
まず                      に従うサンプル
を発⽣生させ、各ノードを番号
順に進み、k番⽬目のノードで
は、条件付き分布
に従うサンプル          を発⽣生さ
せる
p(x1)
親ノードの番号は
⼦子ノードの番号k
より⼩小さい
ˆx1,, ˆxK
p(x)
ˆx1
p(xk | pak )
ˆxk
§8.1.3 離離散変数
¡  K 状態離離散変数 x 上の確率率率分布
¡  のいずれか1つが1、他は0
¡  規格化のための制約条件
¡  K-1個の          を指定すれば分布は決まる
p(x | µ) = µk
xk
k=1
K
∏
µ = (µ1,, µK )T
µk
k=1
K
∑ =1
xk (k =1,,K)
µk
§8.1.3 離離散変数
¡  2個の K 状態離離散変数 x1 , x2 上の同時分布
¡  x1k = 1 かつ x2l = 1という観測結果が得られる確率率率をμkl で表すと
¡  規格化のための制約条件
¡  K2 - 1個のパラメータμkl を指定すれば分布は決まる
¡  変数がM個の場合、パラメータ数はKM – 1 個
p(x1, x2 | µ) = µkl
x1k x2l
l=1
K
∏k=1
K
∏
µkl
l=1
K
∑k=1
K
∑ =1
μ11 μ12 μ13
μ21 μ22 μ23
μ31 μ32 μ33
μ41 μ42 μ43
例例1
1/9 2/9 1/9
0 1/9 1/9
2/9 0 1/9
例例2
§8.1.3 離離散変数
¡  2ノードK状態離離散変数のグラフィカルモデル
¡  リンクがある場合
同時分布 p(x1, x2) = p(x2|x1)・p(x1)
¡  周辺分布 p(x1) のパラメータ数 K – 1
¡  条件付き分布 p(x2|x1)のパラメータ数 K(K-1)
パラメータの総数 K-1 + K(K-1) = K2 – 1   ‥‥先の結果と⼀一致
¡  リンクがない場合
  各変数は独⽴立立の分布で記述されるため、
  全パラメータ数は 2(K – 1)
¡  M個の独⽴立立なK変数の場合、パラメータ数はM(K – 1)
¡  リンクを除去すると、パラメータ数は減る
x1 x2
x1 x2
§8.1.3 離離散変数
¡  M個のK状態離離散変数のグラフィカルモデル
¡  グラフが全結合の場合
      パラメータ数はKM  -‐‑‒  1
¡  リンクが全くない場合
  同時分布は周辺分布の積に分解され、パラメータ数はM(K  –  1)
¡  全結合と全くリンクがない場合の、中間のグラフの例例
  パラメータ数  K  –  1  +  (M  –  1)  K  (K  –  1)
x1 x2 xM
p(x1)のパラメータ数 M – 1個の条件付き分布p(xi|xi-1)のパラメータ数
§8.1.4 線形ガウスモデル
¡  線形ガウスモデルでは、各ノードがガウス分布に従うとする。各ノー
ドの分布の平均を、親ノードの線形結合とする。
¡  wijおよびbiは平均を⽀支配するパラメータ、viはxiの条件付き分布の分散
¡  同時分布は、グラフに含まれるD個のノード全ての条件付き分布の積
¡  その対数は下記の式で表される。
p(xi | pai ) = N(xi | wij xj + bi,vi )
j∈pai
∑
ln p(x) = ln p(xi | pai )
i=1
D
∑
= −
1
2vi
⋅(xi − wij xj − bi )2
+ const.
j∈pai
∑i=1
D
∑
p(xi | pai ) ∝ exp{−
1
2vi
⋅(xi − wij xj − bi )2
}
j∈pai
∑
x=(x1,…,xD)Tの成分に関する2次関数  
同時分布p(x)は多変量量ガウ
ス分布
§8.1.4 線形ガウスモデル
¡  各変数xiは以下の式のガウス分布に従う
  そのため
と書ける。ここで、E[εi] = 0, E[εiεj]=Iij
(8.14)の期待値は
この式をグラフ上の番号の⼩小さいノードから順に再帰的に計算し、
p(xi | pai ) = N(xi | wij xj + bi,vi )
j∈pai
∑
xi = wij xj + bi + vi εi
j∈pai
∑ (8.14)
E[xi ] = wijE[xj ]+ bi
j∈pai
∑
E[x] = (E[x1],..., E[xD ])T
の値を得る。
(8.15)
§8.1.4 線形ガウスモデル
¡  p(x)の共分散⾏行行列列の  i, j 成分もノードをたどって再帰的に計算できる
xi = wij xj + bi + vi εi
j∈pai
∑ (8.14)
E[xi ] = wijE[xj ]+ bi
j∈pai
∑ (8.15)
cov[xi, xj ] = E[(xi − E[xi ])(xj − E[xj ])]
= E[(xi − E[xi ]){ wjk (xk − E[xk ])+ bj − bj + vj εj }]
k∈paj
∑
= wjkE[(xi − E[xi ])(xk − E[xk ])]+ E[(xi − E[xi ])⋅ vj εj ]
k∈paj
∑
= wjk cov[xi, xk ]
k∈paj
∑ + Iijvj
(8.14), (8.15)より
xi − E[xi ] = wil (xl − E[xl ])
l∈pai
∑ + vi εi
§8.1.4 線形ガウスモデル
¡  線形ガウスグラフィカルモデルの各ノードが、多変量量ガウス分布の場
合への拡張
ここで、Wijは⾏行行列列  (xiとxjの次元が異異なる場合、正⽅方でない)
この場合も全変数上の同時分布はガウス分布
p(xi | pai ) = N(xi | Wij xj + bi,Σi )
j∈pai
∑
§8.1.4 線形ガウスモデル
¡  2章より、ガウス変数 x の平均 μ に関する共役事前分布はガウス分布
→ x および μ の同時分布もガウス分布
¡  ( ⼀一般に、ある確率率率分布                        について、事後分布が事前分布と同じ関数
形になるような尤度度関数と共役な事前分布              を求めることが可能 )
p(x |η)
p(η)
n  2章のモデルは、μ を表すノードが x を表すノードの親である
2ノードグラフに対応
n  μ 上の分布の平均は事前分布を制御するパラメータなので、超
パラメータ(hyperparameter)とみなされる
n  超パラメータの値⾃自体が未知であるので、超パラメータ
上にも事前分布を導⼊入し、それをガウス分布とすれば再
びベイズ的取り扱いが可能
n  このようなモデルの構成法は原理理的に何段階でも拡張で
きる
n  これは階層ベイズモデル(hierarchical Bayesian model)
の⼀一例例
x
μ

PRML復々習レーン#11