PRML復復々習レーン#14 (ver. 2.1)
2013/10/05⽤用
Mixtures of Gaussians
§9.2, 9.2.1, 9.2.2
@takuya_fukagai
§9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(1)
¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの
ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例
図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ
横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(2)
¡  3つの1次元ガウス関数の重み付き和で表した混合ガウス分布の例例
¡  ⼗十分な数のガウス分布を⽤用い、重み係数、各分布の平均、分散を調節
すれば、ほぼ任意の連続な密度度関数を任意の精度度で近似できる
図  2.22  3つのガウス分布の重み付きの和(⾚赤線)と和をとる前の3つのガ
ウス分布(⻘青線、重み付けの係数に応じた⽐比率率率で縮⼩小してある)
p(x) = πk N(x | µk,σk
2
)
k=1
3
∑
§9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(3)
¡  2次元中の3要素の混合ガウス分布の例例
図  2.23
(a) ⾚赤、緑、⻘青で3つの混合要素の等⾼高線を混合係数とともに表した図
(b) 混合密度度関数p(x)の等⾼高線
(c) 分布p(x)の曲⾯面グラフ
p(x) = πk N(x | µk,Σk )
k=1
3
∑
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡ §2.3.9で⾒見見てきたように、下記の混合ガウス分布は、単⼀一
のガウス分布よりも複雑な確率率率密度度モデルを提供する
¡ §9.2では離離散的な潜在変数(latent variable)を⽤用いた混合
ガウス分布の定式化を⾏行行う
p(x) = πk N(x | µk,Σk )
k=1
K
∑
¡  ベクトル z はK種類の状態をとる
確率率率変数とみなせる
¡  周辺分布p(z)と条件付き分布
p(x|z)で同時分布p(x,z)を表す
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡  K次元の2値確率率率変数 z を導⼊入
¡  zはどれか⼀一つが1でそれ以外は0
1-of-K表現
z =
z1
z2

zK
!
"
#
#
#
#
#
$
%
&
&
&
&
&
z =
0
1
0

0
!
"
#
#
#
#
#
#
$
%
&
&
&
&
&
&
zの例例
zk ∈ {0,1}
zk
k=1
K
∑ =1
図  9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
p(zk =1) = πk
¡  zの周辺分布は、以下のように混合
係数πkによって定まる
¡  上記のように、πkは確率率率としてい
るので
¡  zには1-of-K表現を⽤用いるので
図  9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
0 ≤ πk ≤1 πk
k=1
K
∑ =1
p(z) = πk
zk
k=1
K
∏
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
p(x | z) = N(x | µk,Σk )zk
k=1
K
∏
§9.2 混合ガウス分布
(Mixtures of Gaussians)
p(x | zk =1) = N(x | µk,Σk )
図  9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
p(x) = p(z)p(x | z) =
z
∑ πk
zk
k=1
K
∏ N(x | µk,Σk )zk
k=1
K
∏
$
%
&
'
(
)k=1
K
∑
= πk N(x | µk,Σk )
k=1
K
∑
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
¡  zの値が与えられたもとでのxの条
件付き分布
¡  これは
という形にも書ける
¡  したがってxの周辺分布は
潜在変数 z の周辺化により、
混合ガウス分布を表現
¡  xの値が与えられたもとでのzの条件付き確率率率
(ベイズの定理理より)
¡  πkはzk=1となる事前確率率率
¡  γ(zk)はxを観測したときzk=1となる事後確率率率
¡  γ(zk)は混合要素kがxの観測を「説明する」
度度合いを表す「負担率率率(responsibility)」と
しても解釈できる
§9.2 混合ガウス分布
(Mixtures of Gaussians)
γ(zk ) ≡ p(zk =1| x) =
p(zk =1)p(x | zk =1)
p(zj =1)p(x | zj =1)
j=1
K
∑
=
πk N(x | µk,Σk )
π j N(x | µj,Σj )
j=1
K
∑
図 9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
どの混合要素のガウス分
布から発⽣生しているか、
ということ
(式9.13)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡  混合ガウスモデルにしたがうランダムサンプルの⽣生成
¡  §8.1.2の伝承サンプリング(ancestral sampling)を⽤用いる
1.  zの値      を周辺分布p(z)から⽣生成
2.  xの値を条件付き分布                      から⽣生成
ˆz
p(x | ˆz)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡  §2.3.9 図9.5の、3つの⼆二次元ガウス分布からなる混合ガウス分布
から⽣生成した500点のサンプルの例例
図.9.5 : (a), (b), (c)とも、⽣生成された x の座標値をプロット
(a) ⾚赤、緑、⻘青で3つの混合要素のどの分布から発⽣生したか(zの値)を表現:完全
(b) どの分布から発⽣生したかは関係なく同じ⾊色で表現:不不完全
(c) 各データ点        に割り当てられる負担率率率                    を、                に⽐比例例する量量の⾚赤、
緑、⻘青のインクで表現
p(x) = πk N(x | µk,Σk )
k=1
3
∑
xn
γ(znk ) γ(znk )
¡  ⽣生成した⼈人⼯工データ(図9.5(c)の例例)を使った「負担率率率」の説明
図9.5(c)は、混合ガウス分布
から⽣生成した500点のサンプル
§9.2 混合ガウス分布
(Mixtures of Gaussians)
p(x) = πk N(x | µk,Σk )
k=1
3
∑
各データ点        に割り当てられる負担率率率                    を、
負担率率率                      に⽐比例例する量量のインク⾚赤(k=1)、緑
(k=2)、⻘青(k=3)で表現
xn
γ(znk )
γ(znk )
•  例例えば、i番⽬目のデータ点        の負担率率率が                              
のとき、そのデータ点の⾊色は⾚赤
•  j番⽬目のデータ点          の負担率率率が                                  のと
き、そのデータ点の⾊色はシアン(⻘青と緑)
各データ点の⾊色、すなわち負担率率率は、データ点がどの混合要素から発⽣生した
か、つまり、どの混合要素にどの程度度負担されているかの度度合いを表す        
xi γ(zi1 ) = 1,γ(zi2 ) = 0,γ(zi3 ) = 0
xj γ (zj1 ) = 0,γ (zj 2 ) = 0.5,γ (zj 3 ) = 0.5
§9.2.1 最尤推定
¡  観測した、下記のN個のD次元データ集合に混合ガウス分布を当ては
める
¡  上記のデータ集合を下記のN x D⾏行行列列Xで表す
x1,, xN{ }
X =
x1
T

xn
T

xN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
xn
T
=[xn1, xn2 ,, xnD ]
xN
T
=[xN1, x N 2 ,, xND ]
x1
T
=[x11, x12 ,, x1D ]


§9.2.1 最尤推定
¡  データ集合 X と同様、対応するN個のK次元潜在変数 z ベクトルをN x
K⾏行行列列 Z で表す
Z =
z1
T

zn
T

zN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
zn
T
=[zn1, zn2 ,, znK ]
zN
T
=[zN1, z N 2 ,, zNK ]
z1
T
=[z11, z12 ,, z1K ]


§9.2.1 最尤推定
¡  各データ点が、§9.2で扱ってきた下記の多次元ガウス分布から独⽴立立に
⽣生成されるとする
¡  この分布のグラフ表現は図9.6のようになる
p(x) = πk N(x | µk,Σk )
k=1
K
∑
図 9.6
混合ガウスモデルのグラフ表現
•  xnは観測したデータ点
•  znは対応する潜在変数
§9.2.1 最尤推定
¡  N個の観測データxn(n=1,...,N)の⼀一つ⼀一つは、独⽴立立に下記の混合ガウス
分布にしたがうとする
¡  ここで、上記の分布にしたがうN個の観測データからなるデータ集合X
を観測したときの、対数尤度度を計算すると、
p(xn | π,µ,Σ) = πk N(xn | µk,Σk )
k=1
K
∑
ln p(X | π,µ,Σ) = ln { πk N(xn | µk,Σk )
n=1
K
∑ }
n=1
N
∏
= ln{ πk N(xn | µk,Σk )
k=1
K
∑ }
n=1
N
∑ 独⽴立立にN個観測しているため、
同時確率率率は積(式9.14)
§9.2.1 最尤推定
¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn
§9.2.1 最尤推定
¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn
→∞ (σj→0)
§9.2.1 最尤推定
¡  図9.7: 混合ガウス分布において、尤度度関数の特異異性がいかに現れるか
の説明
p(xn)→∞ (σj→0)
図9.7
xn
§9.2.1 最尤推定
以上より
¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題
¡  1つのガウス分布要素が特定のデータ点で「つぶれれば」発散は必ず起こる
¡  この問題は単⼀一のガウス分布の場合には起こらない。
¡  なぜなら、
1.  分布がある1つのデータ点でつぶれれば(分散が⼩小さくなると)、他のデー
タ点での尤度度関数の値が指数関数的に減少し、
2.  各データ点での尤度度関数の値の積をとった、全体の尤度度関数の値は0に
収束する、
からである。
¡  (混合ガウス分布の場合、⼀一⽅方のガウス分布要素が特定のデータ点に収束
すれば、その効果は対数尤度度を増加させる⽅方向に働く)
§9.2.1 最尤推定
¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題(続き)
¡  この困難は、ベイジアンアプローチ(§10.1)を適⽤用すれば避けられる(らしい)
¡  ヒューリスティクスに基づく、適当な⽅方法で、この特異異性を避けることも期待で
きる
¡  例例えば、混合ガウス分布の1つがつぶれそうになったときには、その平均値をラ
ンダムな値に、分散を⼤大きな値に設定し直して最適化を続ければ良良い
¡  任意の最尤解に対し、K個の各混合要素の順番の⼊入れ替えに対応した、同等
な解がK!個ある
¡  すなわち、パラメータ空間における、与えられた任意の点について、それと等価
な分布を⽰示すK!-1個の別の解が存在(識識別不不可能性(identifiability))
¡  識識別不不可能性は12章で連続潜在変数を持つモデルを議論論する際にも問題となる
¡  が、良良い密度度モデルを⾒見見つける⽬目的には関係ない。等価な解はどれも同等に良良
いモデルだから
§9.2.2 混合ガウス分布のEMア
ルゴリズム
¡  EMアルゴリズム(Expectation-Maximization Algorithm)
¡  潜在変数を持つモデルの最尤解を求める⽅方法の⼀一つ
¡  この本の後の章、節でEMアルゴリズムの⼀一般的な取り扱いを与える
¡  さらに、§10.1でEMアルゴリズムを⼀一般化し、変分推論論法の枠組みが
得られることを⽰示す
¡  この節では、混合ガウスモデルの⽂文脈における、EMアルゴリズムの意義
を説明
§9.2.2 混合ガウス分布のEMア
ルゴリズム
(式9.14)を、
1.  ガウス要素の平均μkに関して微分し、0とおく →(式 9.17)
2.  ガウス要素の共分散⾏行行列列Σkに関して微分し、0とおく  →(式  9.19)
3.  混合係数πkについて、Σk(πk)=1(式9.9)の制約条件のもとで最⼤大化
•  ラグランジュ未定係数法を⽤用いる  →(式  9.22)
(式9.17), (式9.19), (式9.22)の結果は、混合モデルのパラメータの陽な解
を与えていない。負担率率率                    が(式 9.13)という複雑な形でモデルの
パラメータに依存するため。
混合ガウス分布の最尤推定問題の解を⾒見見出すため、(式 9.13)の負担率率率の
計算(E step)と、(式9.17), (式9.19), (式9.22)の計算(M step)を繰り返す
→  混合ガウスモデルのEMアルゴリズム
γ(znk )
尤度度関数の最⼤大点において満たされるべき条件を書き下す
§9.2.2 混合ガウス分布のEMア
ルゴリズム
(式 9.17)
(式  9.19)
(式  9.22)
γ(znk ) =
πk N(xn | µk,Σk )
π j N(xn | µj,Σj )
j=1
K
∑
µk =
1
Nk
γ(znk )xn
n=1
N
∑
πk =
Nk
N
Σk =
1
Nk
γ(znk )(xn −µk )(xn −µk )T
n=1
N
∑
Nk = γ(znk )
n=1
N
∑
混合要素kがxnの観測を「説明する」
度度合いを表す負担率率率(responsibility)
N = Nk
k=1
K
∑
"
#
$
%
&
'
# (式 9.17), (式  9.19), (式  9.22)導出の計
算は、「パターン認識識と機械学習の学習  
第2版」§9.3 のp.77-78に丁寧に書かれて
いるのを確認しました。
(式 9.18)
(式9.13)
§9.2.2 混合ガウス分布のEMア
ルゴリズム
/* 混合ガウス分布のためのEMアルゴリム PRML(下巻) p.154-p.155 */
⽬目的:混合ガウスモデルが与えられているとき、各ガウス要素の平均、
分散、混合係数からなるパラメータについて尤度度関数ln p(X|π, μ, Σ)を
最⼤大化すること
1.  平均μk、分散Σk、混合係数πkを初期化し、対数尤度度の初期値を計算
2.  E step: 現在のパラメータ値を使って、負担率率率γ(znk), (n=1,...,N,
k=1,...,K)を計算
3.  M step: 現在の負担率率率γ(znk)を使って、パラメータ値μk、Σk、
πk(k=1,...,K)を順に計算
4.  対数尤度度ln p(X|μ, Σ, π)を計算。パラメータ値の変化または対数尤
度度の変化を⾒見見て収束性を確認。収束基準を満たしていなければ2.へ。
§9.2.2 混合ガウス分布のEMア
ルゴリズム
§2.3.9のOld Faithful間⽋欠泉データにEMアルゴリム適⽤用
¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの
ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例
図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ
横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
§9.2.2 混合ガウス分布のEMア
ルゴリズム
図.9.8 : スケール変換した、§2.3.9のOld Faithful間⽋欠泉データに、2つのガウス分
布からなる混合ガウス分布についての、EMアルゴリズムを適⽤用
(a) 初期状態:データ点を緑で、2つのガウス分布の1標準偏差の等⾼高線を⻘青と⾚赤
の円で表⽰示
(b) 最初のE step実⾏行行後:各データ点に割り当てられた負担率率率に⽐比例例する量量の⾚赤、
⻘青のインクでデータ点を描き直した
(c) 最初のM step実⾏行行後:更更新後のパラメータ値μk、Σkで再計算したガウス要素
の等⾼高線を表⽰示
§9.2.2 混合ガウス分布のEMア
ルゴリズム
図.9.8 : (続き) EMを繰り返した後、各データ点に割り当てられた負担率率率
に⽐比例例する量量の⾚赤、⻘青のインクで描き直したデータ点と、パラメータ値
μk、Σkで計算したガウス要素の等⾼高線を表⽰示
(d) 2回のEMを繰り返した後
(e) 5回のEMを繰り返した後
(f) 20回のEMを繰り返した後
¡  EMアルゴリズム実装にあたっての留留意点 ( p.154 より )
¡  K-meansアルゴリズムに⽐比べると、(ほぼ)収束するまでに必要な繰り
返し計算の回数、繰り返し計算⼀一回あたりの計算量量が多い。
¡  そのため、混合ガウスモデルの適切切な初期値を⾒見見出すためにK-means
アルゴリズムを実⾏行行し、その後、EMアルゴリズムを適⽤用する⽅方法がよ
くとられる。
¡  共分散⾏行行列列の初期値には、K-meansアルゴリズムで⾒見見つけたサンプルのク
ラスター分散
¡  混合係数の初期値には、各クラスターに属するデータ点の割合
を、⽤用いるのが便便利利
¡  特定のデータ点にガウス要素がつぶれていく、尤度度関数の特異異性を避
ける処理理が必要
¡  対数尤度度には、多くの極⼤大解が存在する。EMアルゴリズムはその中で
最⼤大のものに収束するとは限らない。
§9.2.2 混合ガウス分布のEMア
ルゴリズム

PRML復々習レーン#14 ver.2

  • 1.
    PRML復復々習レーン#14 (ver. 2.1) 2013/10/05⽤用 Mixturesof Gaussians §9.2, 9.2.1, 9.2.2 @takuya_fukagai
  • 2.
    §9.2 混合ガウス分布 (Mixtures ofGaussians) §2.3.9混合ガウス分布の復復習(1) ¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例 図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ 横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
  • 3.
    §9.2 混合ガウス分布 (Mixtures ofGaussians) §2.3.9混合ガウス分布の復復習(2) ¡  3つの1次元ガウス関数の重み付き和で表した混合ガウス分布の例例 ¡  ⼗十分な数のガウス分布を⽤用い、重み係数、各分布の平均、分散を調節 すれば、ほぼ任意の連続な密度度関数を任意の精度度で近似できる 図  2.22  3つのガウス分布の重み付きの和(⾚赤線)と和をとる前の3つのガ ウス分布(⻘青線、重み付けの係数に応じた⽐比率率率で縮⼩小してある) p(x) = πk N(x | µk,σk 2 ) k=1 3 ∑
  • 4.
    §9.2 混合ガウス分布 (Mixtures ofGaussians) §2.3.9混合ガウス分布の復復習(3) ¡  2次元中の3要素の混合ガウス分布の例例 図  2.23 (a) ⾚赤、緑、⻘青で3つの混合要素の等⾼高線を混合係数とともに表した図 (b) 混合密度度関数p(x)の等⾼高線 (c) 分布p(x)の曲⾯面グラフ p(x) = πk N(x | µk,Σk ) k=1 3 ∑
  • 5.
    §9.2 混合ガウス分布 (Mixtures ofGaussians) ¡ §2.3.9で⾒見見てきたように、下記の混合ガウス分布は、単⼀一 のガウス分布よりも複雑な確率率率密度度モデルを提供する ¡ §9.2では離離散的な潜在変数(latent variable)を⽤用いた混合 ガウス分布の定式化を⾏行行う p(x) = πk N(x | µk,Σk ) k=1 K ∑
  • 6.
    ¡  ベクトル zはK種類の状態をとる 確率率率変数とみなせる ¡  周辺分布p(z)と条件付き分布 p(x|z)で同時分布p(x,z)を表す §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡  K次元の2値確率率率変数 z を導⼊入 ¡  zはどれか⼀一つが1でそれ以外は0 1-of-K表現 z = z1 z2  zK ! " # # # # # $ % & & & & & z = 0 1 0  0 ! " # # # # # # $ % & & & & & & zの例例 zk ∈ {0,1} zk k=1 K ∑ =1 図  9.4 混合分布のグラフィカル モデル表現 p(x,z)=p(z)p(x|z)
  • 7.
    §9.2 混合ガウス分布 (Mixtures ofGaussians) p(zk =1) = πk ¡  zの周辺分布は、以下のように混合 係数πkによって定まる ¡  上記のように、πkは確率率率としてい るので ¡  zには1-of-K表現を⽤用いるので 図  9.4 混合分布のグラフィカル モデル表現 p(x,z)=p(z)p(x|z) 0 ≤ πk ≤1 πk k=1 K ∑ =1 p(z) = πk zk k=1 K ∏ z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現
  • 8.
    p(x | z)= N(x | µk,Σk )zk k=1 K ∏ §9.2 混合ガウス分布 (Mixtures of Gaussians) p(x | zk =1) = N(x | µk,Σk ) 図  9.4 混合分布の グラフィカル モデル表現 p(x,z)=p(z)p(x|z) p(x) = p(z)p(x | z) = z ∑ πk zk k=1 K ∏ N(x | µk,Σk )zk k=1 K ∏ $ % & ' ( )k=1 K ∑ = πk N(x | µk,Σk ) k=1 K ∑ z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現 ¡  zの値が与えられたもとでのxの条 件付き分布 ¡  これは という形にも書ける ¡  したがってxの周辺分布は 潜在変数 z の周辺化により、 混合ガウス分布を表現
  • 9.
    ¡  xの値が与えられたもとでのzの条件付き確率率率 (ベイズの定理理より) ¡  πkはzk=1となる事前確率率率 ¡ γ(zk)はxを観測したときzk=1となる事後確率率率 ¡  γ(zk)は混合要素kがxの観測を「説明する」 度度合いを表す「負担率率率(responsibility)」と しても解釈できる §9.2 混合ガウス分布 (Mixtures of Gaussians) γ(zk ) ≡ p(zk =1| x) = p(zk =1)p(x | zk =1) p(zj =1)p(x | zj =1) j=1 K ∑ = πk N(x | µk,Σk ) π j N(x | µj,Σj ) j=1 K ∑ 図 9.4 混合分布の グラフィカル モデル表現 p(x,z)=p(z)p(x|z) z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現 どの混合要素のガウス分 布から発⽣生しているか、 ということ (式9.13)
  • 10.
    §9.2 混合ガウス分布 (Mixtures ofGaussians) ¡  混合ガウスモデルにしたがうランダムサンプルの⽣生成 ¡  §8.1.2の伝承サンプリング(ancestral sampling)を⽤用いる 1.  zの値      を周辺分布p(z)から⽣生成 2.  xの値を条件付き分布                      から⽣生成 ˆz p(x | ˆz)
  • 11.
    §9.2 混合ガウス分布 (Mixtures ofGaussians) ¡  §2.3.9 図9.5の、3つの⼆二次元ガウス分布からなる混合ガウス分布 から⽣生成した500点のサンプルの例例 図.9.5 : (a), (b), (c)とも、⽣生成された x の座標値をプロット (a) ⾚赤、緑、⻘青で3つの混合要素のどの分布から発⽣生したか(zの値)を表現:完全 (b) どの分布から発⽣生したかは関係なく同じ⾊色で表現:不不完全 (c) 各データ点        に割り当てられる負担率率率                    を、                に⽐比例例する量量の⾚赤、 緑、⻘青のインクで表現 p(x) = πk N(x | µk,Σk ) k=1 3 ∑ xn γ(znk ) γ(znk )
  • 12.
    ¡  ⽣生成した⼈人⼯工データ(図9.5(c)の例例)を使った「負担率率率」の説明 図9.5(c)は、混合ガウス分布 から⽣生成した500点のサンプル §9.2 混合ガウス分布 (Mixturesof Gaussians) p(x) = πk N(x | µk,Σk ) k=1 3 ∑ 各データ点        に割り当てられる負担率率率                    を、 負担率率率                      に⽐比例例する量量のインク⾚赤(k=1)、緑 (k=2)、⻘青(k=3)で表現 xn γ(znk ) γ(znk ) •  例例えば、i番⽬目のデータ点        の負担率率率が                               のとき、そのデータ点の⾊色は⾚赤 •  j番⽬目のデータ点          の負担率率率が                                  のと き、そのデータ点の⾊色はシアン(⻘青と緑) 各データ点の⾊色、すなわち負担率率率は、データ点がどの混合要素から発⽣生した か、つまり、どの混合要素にどの程度度負担されているかの度度合いを表す         xi γ(zi1 ) = 1,γ(zi2 ) = 0,γ(zi3 ) = 0 xj γ (zj1 ) = 0,γ (zj 2 ) = 0.5,γ (zj 3 ) = 0.5
  • 13.
    §9.2.1 最尤推定 ¡  観測した、下記のN個のD次元データ集合に混合ガウス分布を当ては める ¡ 上記のデータ集合を下記のN x D⾏行行列列Xで表す x1,, xN{ } X = x1 T  xn T  xN T ! " # # # # # # # $ % & & & & & & & xn T =[xn1, xn2 ,, xnD ] xN T =[xN1, x N 2 ,, xND ] x1 T =[x11, x12 ,, x1D ]  
  • 14.
    §9.2.1 最尤推定 ¡  データ集合X と同様、対応するN個のK次元潜在変数 z ベクトルをN x K⾏行行列列 Z で表す Z = z1 T  zn T  zN T ! " # # # # # # # $ % & & & & & & & zn T =[zn1, zn2 ,, znK ] zN T =[zN1, z N 2 ,, zNK ] z1 T =[z11, z12 ,, z1K ]  
  • 15.
    §9.2.1 最尤推定 ¡  各データ点が、§9.2で扱ってきた下記の多次元ガウス分布から独⽴立立に ⽣生成されるとする ¡ この分布のグラフ表現は図9.6のようになる p(x) = πk N(x | µk,Σk ) k=1 K ∑ 図 9.6 混合ガウスモデルのグラフ表現 •  xnは観測したデータ点 •  znは対応する潜在変数
  • 16.
    §9.2.1 最尤推定 ¡  N個の観測データxn(n=1,...,N)の⼀一つ⼀一つは、独⽴立立に下記の混合ガウス 分布にしたがうとする ¡ ここで、上記の分布にしたがうN個の観測データからなるデータ集合X を観測したときの、対数尤度度を計算すると、 p(xn | π,µ,Σ) = πk N(xn | µk,Σk ) k=1 K ∑ ln p(X | π,µ,Σ) = ln { πk N(xn | µk,Σk ) n=1 K ∑ } n=1 N ∏ = ln{ πk N(xn | µk,Σk ) k=1 K ∑ } n=1 N ∑ 独⽴立立にN個観測しているため、 同時確率率率は積(式9.14)
  • 17.
    §9.2.1 最尤推定 ¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する 問題に注意する必要がある ¡ 単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn と等しい、すなわち、 とする。このとき、このデータ点は、尤度度関数に対し、次式の形で 寄与する。 N(xn | µj,σ j 2 I) = 1 (2π)D/2 ⋅ σ j 2 I 1/2 ⋅exp{− 1 2 (xn −µj )T σ j −2 I(xn −µj )} = 1 (2π)D/2 ⋅(Dσ j 2 )1/2 = 1 (2π)D/2 ⋅ D1/2 ⋅σ j Σk =σk 2 I µj = xn
  • 18.
    §9.2.1 最尤推定 ¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する 問題に注意する必要がある ¡ 単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn と等しい、すなわち、 とする。このとき、このデータ点は、尤度度関数に対し、次式の形で 寄与する。 N(xn | µj,σ j 2 I) = 1 (2π)D/2 ⋅ σ j 2 I 1/2 ⋅exp{− 1 2 (xn −µj )T σ j −2 I(xn −µj )} = 1 (2π)D/2 ⋅(Dσ j 2 )1/2 = 1 (2π)D/2 ⋅ D1/2 ⋅σ j Σk =σk 2 I µj = xn →∞ (σj→0)
  • 19.
    §9.2.1 最尤推定 ¡  図9.7:混合ガウス分布において、尤度度関数の特異異性がいかに現れるか の説明 p(xn)→∞ (σj→0) 図9.7 xn
  • 20.
    §9.2.1 最尤推定 以上より ¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題 ¡ 1つのガウス分布要素が特定のデータ点で「つぶれれば」発散は必ず起こる ¡  この問題は単⼀一のガウス分布の場合には起こらない。 ¡  なぜなら、 1.  分布がある1つのデータ点でつぶれれば(分散が⼩小さくなると)、他のデー タ点での尤度度関数の値が指数関数的に減少し、 2.  各データ点での尤度度関数の値の積をとった、全体の尤度度関数の値は0に 収束する、 からである。 ¡  (混合ガウス分布の場合、⼀一⽅方のガウス分布要素が特定のデータ点に収束 すれば、その効果は対数尤度度を増加させる⽅方向に働く)
  • 21.
    §9.2.1 最尤推定 ¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題(続き) ¡ この困難は、ベイジアンアプローチ(§10.1)を適⽤用すれば避けられる(らしい) ¡  ヒューリスティクスに基づく、適当な⽅方法で、この特異異性を避けることも期待で きる ¡  例例えば、混合ガウス分布の1つがつぶれそうになったときには、その平均値をラ ンダムな値に、分散を⼤大きな値に設定し直して最適化を続ければ良良い ¡  任意の最尤解に対し、K個の各混合要素の順番の⼊入れ替えに対応した、同等 な解がK!個ある ¡  すなわち、パラメータ空間における、与えられた任意の点について、それと等価 な分布を⽰示すK!-1個の別の解が存在(識識別不不可能性(identifiability)) ¡  識識別不不可能性は12章で連続潜在変数を持つモデルを議論論する際にも問題となる ¡  が、良良い密度度モデルを⾒見見つける⽬目的には関係ない。等価な解はどれも同等に良良 いモデルだから
  • 22.
    §9.2.2 混合ガウス分布のEMア ルゴリズム ¡  EMアルゴリズム(Expectation-MaximizationAlgorithm) ¡  潜在変数を持つモデルの最尤解を求める⽅方法の⼀一つ ¡  この本の後の章、節でEMアルゴリズムの⼀一般的な取り扱いを与える ¡  さらに、§10.1でEMアルゴリズムを⼀一般化し、変分推論論法の枠組みが 得られることを⽰示す ¡  この節では、混合ガウスモデルの⽂文脈における、EMアルゴリズムの意義 を説明
  • 23.
    §9.2.2 混合ガウス分布のEMア ルゴリズム (式9.14)を、 1.  ガウス要素の平均μkに関して微分し、0とおく→(式 9.17) 2.  ガウス要素の共分散⾏行行列列Σkに関して微分し、0とおく  →(式  9.19) 3.  混合係数πkについて、Σk(πk)=1(式9.9)の制約条件のもとで最⼤大化 •  ラグランジュ未定係数法を⽤用いる  →(式  9.22) (式9.17), (式9.19), (式9.22)の結果は、混合モデルのパラメータの陽な解 を与えていない。負担率率率                    が(式 9.13)という複雑な形でモデルの パラメータに依存するため。 混合ガウス分布の最尤推定問題の解を⾒見見出すため、(式 9.13)の負担率率率の 計算(E step)と、(式9.17), (式9.19), (式9.22)の計算(M step)を繰り返す →  混合ガウスモデルのEMアルゴリズム γ(znk ) 尤度度関数の最⼤大点において満たされるべき条件を書き下す
  • 24.
    §9.2.2 混合ガウス分布のEMア ルゴリズム (式 9.17) (式 9.19) (式  9.22) γ(znk ) = πk N(xn | µk,Σk ) π j N(xn | µj,Σj ) j=1 K ∑ µk = 1 Nk γ(znk )xn n=1 N ∑ πk = Nk N Σk = 1 Nk γ(znk )(xn −µk )(xn −µk )T n=1 N ∑ Nk = γ(znk ) n=1 N ∑ 混合要素kがxnの観測を「説明する」 度度合いを表す負担率率率(responsibility) N = Nk k=1 K ∑ " # $ % & ' # (式 9.17), (式  9.19), (式  9.22)導出の計 算は、「パターン認識識と機械学習の学習   第2版」§9.3 のp.77-78に丁寧に書かれて いるのを確認しました。 (式 9.18) (式9.13)
  • 25.
    §9.2.2 混合ガウス分布のEMア ルゴリズム /* 混合ガウス分布のためのEMアルゴリムPRML(下巻) p.154-p.155 */ ⽬目的:混合ガウスモデルが与えられているとき、各ガウス要素の平均、 分散、混合係数からなるパラメータについて尤度度関数ln p(X|π, μ, Σ)を 最⼤大化すること 1.  平均μk、分散Σk、混合係数πkを初期化し、対数尤度度の初期値を計算 2.  E step: 現在のパラメータ値を使って、負担率率率γ(znk), (n=1,...,N, k=1,...,K)を計算 3.  M step: 現在の負担率率率γ(znk)を使って、パラメータ値μk、Σk、 πk(k=1,...,K)を順に計算 4.  対数尤度度ln p(X|μ, Σ, π)を計算。パラメータ値の変化または対数尤 度度の変化を⾒見見て収束性を確認。収束基準を満たしていなければ2.へ。
  • 26.
    §9.2.2 混合ガウス分布のEMア ルゴリズム §2.3.9のOld Faithful間⽋欠泉データにEMアルゴリム適⽤用 ¡ 単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例 図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ 横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
  • 27.
    §9.2.2 混合ガウス分布のEMア ルゴリズム 図.9.8 :スケール変換した、§2.3.9のOld Faithful間⽋欠泉データに、2つのガウス分 布からなる混合ガウス分布についての、EMアルゴリズムを適⽤用 (a) 初期状態:データ点を緑で、2つのガウス分布の1標準偏差の等⾼高線を⻘青と⾚赤 の円で表⽰示 (b) 最初のE step実⾏行行後:各データ点に割り当てられた負担率率率に⽐比例例する量量の⾚赤、 ⻘青のインクでデータ点を描き直した (c) 最初のM step実⾏行行後:更更新後のパラメータ値μk、Σkで再計算したガウス要素 の等⾼高線を表⽰示
  • 28.
    §9.2.2 混合ガウス分布のEMア ルゴリズム 図.9.8 :(続き) EMを繰り返した後、各データ点に割り当てられた負担率率率 に⽐比例例する量量の⾚赤、⻘青のインクで描き直したデータ点と、パラメータ値 μk、Σkで計算したガウス要素の等⾼高線を表⽰示 (d) 2回のEMを繰り返した後 (e) 5回のEMを繰り返した後 (f) 20回のEMを繰り返した後
  • 29.
    ¡  EMアルゴリズム実装にあたっての留留意点 (p.154 より ) ¡  K-meansアルゴリズムに⽐比べると、(ほぼ)収束するまでに必要な繰り 返し計算の回数、繰り返し計算⼀一回あたりの計算量量が多い。 ¡  そのため、混合ガウスモデルの適切切な初期値を⾒見見出すためにK-means アルゴリズムを実⾏行行し、その後、EMアルゴリズムを適⽤用する⽅方法がよ くとられる。 ¡  共分散⾏行行列列の初期値には、K-meansアルゴリズムで⾒見見つけたサンプルのク ラスター分散 ¡  混合係数の初期値には、各クラスターに属するデータ点の割合 を、⽤用いるのが便便利利 ¡  特定のデータ点にガウス要素がつぶれていく、尤度度関数の特異異性を避 ける処理理が必要 ¡  対数尤度度には、多くの極⼤大解が存在する。EMアルゴリズムはその中で 最⼤大のものに収束するとは限らない。 §9.2.2 混合ガウス分布のEMア ルゴリズム