PRML復々習レーン＃14

PRML復復々習レーン#14
(2013/9/16→台⾵風により延期)
Mixtures of Gaussians
§9.2, 9.2.1, 9.2.2
@takuya_fukagai

§9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(1)
¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの
ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例
図 2.21 Old Faithful間⽋欠泉の272の噴出の計測データ
横軸は噴出の持続時間(単位:分) 　縦軸は次回の噴出までの時間(単位:分)

¡  3つの1次元ガウス関数の重み付き和で表した混合ガウス分布の例例
¡  ⼗十分な数のガウス分布を⽤用い、重み係数、各分布の平均、分散を調節
すれば、ほぼ任意の連続な密度度関数を任意の精度度で近似できる
図 2.22 　3つのガウス分布の重み付きの和(⾚赤線)と和をとる前の3つのガ
ウス分布(⻘青線、重み付けの係数に応じた⽐比率率率で縮⼩小してある)
p(x) = πk N(x | µk,σk
2
)
k=1
3
∑

¡  2次元中の3要素の混合ガウス分布の例例
図 2.23
(a) ⾚赤、緑、⻘青で3つの混合要素の等⾼高線を混合係数とともに表した図
(b) 混合密度度関数p(x)の等⾼高線
(c) 分布p(x)の曲⾯面グラフ
p(x) = πk N(x | µk,Σk )
k=1
3
∑

¡ §2.3.9で⾒見見てきたように、下記の混合ガウス分布は、単⼀一
のガウス分布よりも複雑な確率率率密度度モデルを提供する
¡ §9.2では離離散的な潜在変数(latent variable)を⽤用いた混合
ガウス分布の定式化を⾏行行う
k=1
K
∑

¡  ベクトル z はK種類の状態をとる
確率率率変数とみなせる
¡  周辺分布p(z)と条件付き分布
p(x|z)で同時分布p(x,z)を表す
¡  K次元の2値確率率率変数 z を導⼊入
¡  zはどれか⼀一つが1でそれ以外は0
1-of-K表現
z =
z1
z2

zK
!
"
#
#
#
#
#
$
%
&
&
&
&
&
z =
0
1
0

0
!
"
#
#
#
#
#
#
$
%
&
&
&
&
&
&
zの例例
zk ∈ {0,1}
zk
k=1
K
∑ =1
図 9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)

p(zk =1) = πk
¡  zの周辺分布は、以下のように混合
係数πkによって定まる
¡  上記のように、πkは確率率率としてい
るので
¡  zには1-of-K表現を⽤用いるので
図 9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
0 ≤ πk ≤1 πk
k=1
K
∑ =1
p(z) = πk
zk
k=1
K
∏
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現

p(x | z) = N(x | µk,Σk )zk
k=1
K
∏
p(x | zk =1) = N(x | µk,Σk )
図 9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
p(x) = p(z)p(x | z) =
z
∑ πk
zk
k=1
K
∏ N(x | µk,Σk )zk
k=1
K
∏
$
%
&
'
(
)k=1
K
∑
= πk N(x | µk,Σk )
k=1
K
∑
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
¡  zの値が与えられたもとでのxの条
件付き分布
¡  これは
という形にも書ける
¡  したがってxの周辺分布は
潜在変数 z の周辺化により、
混合ガウス分布を表現

¡  xの値が与えられたもとでのzの条件付き確率率率
(ベイズの定理理より)
¡  πkはzk=1となる事前確率率率
¡  γ(zk)はxを観測したときzk=1となる事後確率率率
¡  γ(zk)は混合要素kがxの観測を「説明する」
度度合いを表す「負担率率率(responsibility)」と
しても解釈できる
γ(zk ) ≡ p(zk =1| x) =
p(zk =1)p(x | zk =1)
p(zj =1)p(x | zj =1)
j=1
K
∑
=
πk N(x | µk,Σk )
π j N(x | µj,Σj )
j=1
K
∑
図 9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
どの混合要素のガウス分
布から発⽣生しているか、
ということ
(式9.13)

¡  混合ガウスモデルにしたがうランダムサンプルの⽣生成
¡  §8.1.2の伝承サンプリング(ancestral sampling)を⽤用いる
1.  zの値を周辺分布p(z)から⽣生成
2.  xの値を条件付き分布から⽣生成
ˆz
p(x | ˆz)

¡  §2.3.9 図9.5の、3つの⼆二次元ガウス分布からなる混合ガウス分布
から⽣生成した500点のサンプルの例例
図.9.5 : (a), (b), (c)とも、⽣生成された x の座標値をプロット
(a) ⾚赤、緑、⻘青で3つの混合要素のどの分布から発⽣生したか(zの値)を表現：完全
(b) どの分布から発⽣生したかは関係なく同じ⾊色で表現：不不完全
(c) 各データ点に割り当てられる負担率率率を、に⽐比例例する量量の⾚赤、
緑、⻘青のインクで表現
k=1
3
∑
xn
γ(znk ) γ(znk )

¡  ⽣生成した⼈人⼯工データ(図9.5(c)の例例)を使った「負担率率率」の説明
図9.5(c)は、混合ガウス分布
から⽣生成した500点のサンプル
k=1
3
∑
各データ点に割り当てられる負担率率率を、
負担率率率に⽐比例例する量量のインク⾚赤(k=1)、緑
(k=2)、⻘青(k=3)で表現
xn
γ(znk )
γ(znk )
•  例例えば、i番⽬目のデータ点の負担率率率が　　　　　　　　　　　　　　　
のとき、そのデータ点の⾊色は⾚赤
•  j番⽬目のデータ点の負担率率率が　　　　　　　　　　　　　　　　　のと
き、そのデータ点の⾊色はシアン(⻘青と緑)
各データ点の⾊色、すなわち負担率率率は、データ点がどの混合要素から発⽣生した
か、つまり、どの混合要素にどの程度度負担されているかの度度合いを表す
xi γ(zi1 ) = 1,γ(zi2 ) = 0,γ(zi3 ) = 0
xj γ (zj1 ) = 0,γ (zj 2 ) = 0.5,γ (zj 3 ) = 0.5

§9.2.1 最尤推定
¡  観測した、下記のN個のD次元データ集合に混合ガウス分布を当ては
める
¡  上記のデータ集合を下記のN x D⾏行行列列Xで表す
x1,, xN{ }
X =
x1
T

xn
T

xN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
xn
T
=[xn1, xn2 ,, xnD ]
xN
T
=[xN1, x N 2 ,, xND ]
x1
T
=[x11, x12 ,, x1D ]



§9.2.1 最尤推定
¡  データ集合 X と同様、対応するN個のK次元潜在変数 z ベクトルをN x
K⾏行行列列 Z で表す
Z =
z1
T

zn
T

zN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
zn
T
=[zn1, zn2 ,, znK ]
zN
T
=[zN1, z N 2 ,, zNK ]
z1
T
=[z11, z12 ,, z1K ]



§9.2.1 最尤推定
¡  各データ点が、§9.2で扱ってきた下記の多次元ガウス分布から独⽴立立に
⽣生成されるとする
¡  この分布のグラフ表現は図9.6のようになる
k=1
K
∑
図 9.6
混合ガウスモデルのグラフ表現
•  xnは観測したデータ点
•  znは対応する潜在変数

§9.2.1 最尤推定
¡  N個の観測データxn(n=1,...,N)の⼀一つ⼀一つは、独⽴立立に下記の混合ガウス
分布にしたがうとする
¡  ここで、上記の分布にしたがうN個の観測データからなるデータ集合X
を観測したときの、対数尤度度を計算すると、
p(xn | π,µ,Σ) = πk N(xn | µk,Σk )
k=1
K
∑
ln p(X | π,µ,Σ) = ln { πk N(xn | µk,Σk )
n=1
K
∑ }
n=1
N
∏
= ln{ πk N(xn | µk,Σk )
k=1
K
∑ }
n=1
N
∑ 独⽴立立にN個観測しているため、
同時確率率率は積(式9.14)

§9.2.1 最尤推定
¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn

§9.2.1 最尤推定
¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn
→∞ (σj→0)

§9.2.1 最尤推定
¡  図9.7: 混合ガウス分布において、尤度度関数の特異異性がいかに現れるか
の説明
p(xn)→∞ (σj→0)
図9.7
xn

§9.2.1 最尤推定
以上より
¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題
¡  1つのガウス分布要素が特定のデータ点で「つぶれれば」発散は必ず起こる
¡  この問題は単⼀一のガウス分布の場合には起こらない。
¡  なぜなら、
1.  分布がある1つのデータ点でつぶれれば(分散が⼩小さくなると)、他のデー
タ点での尤度度関数の値が指数関数的に減少し、
2.  各データ点での尤度度関数の値の積をとった、全体の尤度度関数の値は0に
収束する、
からである。
¡  (混合ガウス分布の場合、⼀一⽅方のガウス分布要素が特定のデータ点に収束
すれば、その効果は対数尤度度を増加させる⽅方向に働く)

§9.2.1 最尤推定
¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題(続き)
¡  この困難は、ベイジアンアプローチ(§10.1)を適⽤用すれば避けられる(らしい?)
¡  ヒューリスティクスに基づく、適当な⽅方法で、この特異異性を避けることも期待で
きる
¡  例例えば、混合ガウス分布の1つがつぶれそうになったときには、その平均値をラ
ンダムな値に、分散を⼤大きな値に設定し直して最適化を続ければ良良い
¡  任意の最尤解に対し、K個の各混合要素の順番の⼊入れ替えに対応した、同等
な解がK!個ある
¡  すなわち、パラメータ空間における、与えられた任意の点について、それと等価
な分布を⽰示すK!-1個の別の解が存在(識識別不不可能性(identifiability))
¡  識識別不不可能性は12章で連続潜在変数を持つモデルを議論論する際にも問題となる
¡  が、良良い密度度モデルを⾒見見つける⽬目的には関係ない。等価な解はどれも同等に良良
いモデルだから

§9.2.2 混合ガウス分布のEMア
ルゴリズム
¡  EMアルゴリズム(Expectation-Maximization Algorithm)
¡  潜在変数を持つモデルの最尤解を求める⽅方法の⼀一つ
¡  この本の後の章、節でEMアルゴリズムの⼀一般的な取り扱いを与える
¡  さらに、§10.1でEMアルゴリズムを⼀一般化し、変分推論論法の枠組みが
得られることを⽰示す
¡  この節では、混合ガウスモデルの⽂文脈における、EMアルゴリズムの意義
を説明

ルゴリズム
(式9.14)を、
1.  ガウス要素の平均μkに関して微分し、0とおく →(式 9.17)
2.  ガウス要素の共分散⾏行行列列Σkに関して微分し、0とおく →(式 9.19)
3.  混合係数πkについて、Σk(πk)=1(式9.9)の制約条件のもとで最⼤大化
•  ラグランジュ未定係数法を⽤用いる →(式 9.22)
(式9.17), (式9.19), (式9.22)の結果は、混合モデルのパラメータの陽な解
を与えていない。負担率率率が(式 9.13)という複雑な形でモデルの
パラメータに依存するため。
混合ガウス分布の最尤推定問題の解を⾒見見出すため、(式 9.13)の負担率率率の
計算(E step)と、(式9.17), (式9.19), (式9.22)の計算(M step)を繰り返す
→ 混合ガウスモデルのEMアルゴリズム
γ(znk )
尤度度関数の最⼤大点において満たされるべき条件を書き下す

ルゴリズム
/* 混合ガウス分布のためのEMアルゴリム PRML(下巻) p.154-p.155 */
⽬目的：混合ガウスモデルが与えられているとき、各ガウス要素の平均、
分散、混合係数からなるパラメータについて尤度度関数ln p(X|π, μ, Σ)を
最⼤大化すること
1.  平均μk、分散Σk、混合係数πkを初期化し、対数尤度度の初期値を計算
2.  E step: 現在のパラメータ値を使って、負担率率率γ(znk), (n=1,...,N,
k=1,...,K)を計算
3.  M step: 現在の負担率率率γ(znk)を使って、パラメータ値μk、Σk、
πk(k=1,...,K)を順に計算
4.  対数尤度度ln p(X|μ, Σ, π)を計算。パラメータ値の変化または対数尤
度度の変化を⾒見見て収束性を確認。収束基準を満たしていなければ2.へ。

ルゴリズム
§2.3.9のOld Faithful間⽋欠泉データにEMアルゴリム適⽤用
¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの
ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例
図 2.21 Old Faithful間⽋欠泉の272の噴出の計測データ
⽔水平軸は噴出の持続時間(単位：分) 　垂直軸は次回の噴出までの時間(単位：分)

ルゴリズム
図.9.8 : スケール変換した、§2.3.9のOld Faithful間⽋欠泉データに、2つのガウス分
布からなる混合ガウス分布についての、EMアルゴリズムを適⽤用
(a) 初期状態：データ点を緑で、2つのガウス分布の1標準偏差の等⾼高線を⻘青と⾚赤
の円で表⽰示
(b) 最初のE step実⾏行行後：各データ点に割り当てられた負担率率率に⽐比例例する量量の⾚赤、
⻘青のインクでデータ点を描き直した
(c) 最初のM step実⾏行行後：更更新後のパラメータ値μk、Σkで再計算したガウス要素
の等⾼高線を表⽰示

ルゴリズム
図.9.8 : (続き) EMを繰り返した後、各データ点に割り当てられた負担率率率
に⽐比例例する量量の⾚赤、⻘青のインクで描き直したデータ点と、パラメータ値
μk、Σkで計算したガウス要素の等⾼高線を表⽰示
(d) 2回のEMを繰り返した後
(e) 5回のEMを繰り返した後
(f) 20回のEMを繰り返した後

PRML復々習レーン＃14

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to PRML復々習レーン＃14

Similar to PRML復々習レーン＃14 (11)

PRML復々習レーン＃14