SlideShare a Scribd company logo
1 of 29
Download to read offline
PRML復復々習レーン#14 (ver. 2.1)
2013/10/05⽤用
Mixtures of Gaussians
§9.2, 9.2.1, 9.2.2
@takuya_fukagai
§9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(1)
¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの
ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例
図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ
横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(2)
¡  3つの1次元ガウス関数の重み付き和で表した混合ガウス分布の例例
¡  ⼗十分な数のガウス分布を⽤用い、重み係数、各分布の平均、分散を調節
すれば、ほぼ任意の連続な密度度関数を任意の精度度で近似できる
図  2.22  3つのガウス分布の重み付きの和(⾚赤線)と和をとる前の3つのガ
ウス分布(⻘青線、重み付けの係数に応じた⽐比率率率で縮⼩小してある)
p(x) = πk N(x | µk,σk
2
)
k=1
3
∑
§9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(3)
¡  2次元中の3要素の混合ガウス分布の例例
図  2.23
(a) ⾚赤、緑、⻘青で3つの混合要素の等⾼高線を混合係数とともに表した図
(b) 混合密度度関数p(x)の等⾼高線
(c) 分布p(x)の曲⾯面グラフ
p(x) = πk N(x | µk,Σk )
k=1
3
∑
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡ §2.3.9で⾒見見てきたように、下記の混合ガウス分布は、単⼀一
のガウス分布よりも複雑な確率率率密度度モデルを提供する
¡ §9.2では離離散的な潜在変数(latent variable)を⽤用いた混合
ガウス分布の定式化を⾏行行う
p(x) = πk N(x | µk,Σk )
k=1
K
∑
¡  ベクトル z はK種類の状態をとる
確率率率変数とみなせる
¡  周辺分布p(z)と条件付き分布
p(x|z)で同時分布p(x,z)を表す
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡  K次元の2値確率率率変数 z を導⼊入
¡  zはどれか⼀一つが1でそれ以外は0
1-of-K表現
z =
z1
z2

zK
!
"
#
#
#
#
#
$
%
&
&
&
&
&
z =
0
1
0

0
!
"
#
#
#
#
#
#
$
%
&
&
&
&
&
&
zの例例
zk ∈ {0,1}
zk
k=1
K
∑ =1
図  9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
p(zk =1) = πk
¡  zの周辺分布は、以下のように混合
係数πkによって定まる
¡  上記のように、πkは確率率率としてい
るので
¡  zには1-of-K表現を⽤用いるので
図  9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
0 ≤ πk ≤1 πk
k=1
K
∑ =1
p(z) = πk
zk
k=1
K
∏
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
p(x | z) = N(x | µk,Σk )zk
k=1
K
∏
§9.2 混合ガウス分布
(Mixtures of Gaussians)
p(x | zk =1) = N(x | µk,Σk )
図  9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
p(x) = p(z)p(x | z) =
z
∑ πk
zk
k=1
K
∏ N(x | µk,Σk )zk
k=1
K
∏
$
%
&
'
(
)k=1
K
∑
= πk N(x | µk,Σk )
k=1
K
∑
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
¡  zの値が与えられたもとでのxの条
件付き分布
¡  これは
という形にも書ける
¡  したがってxの周辺分布は
潜在変数 z の周辺化により、
混合ガウス分布を表現
¡  xの値が与えられたもとでのzの条件付き確率率率
(ベイズの定理理より)
¡  πkはzk=1となる事前確率率率
¡  γ(zk)はxを観測したときzk=1となる事後確率率率
¡  γ(zk)は混合要素kがxの観測を「説明する」
度度合いを表す「負担率率率(responsibility)」と
しても解釈できる
§9.2 混合ガウス分布
(Mixtures of Gaussians)
γ(zk ) ≡ p(zk =1| x) =
p(zk =1)p(x | zk =1)
p(zj =1)p(x | zj =1)
j=1
K
∑
=
πk N(x | µk,Σk )
π j N(x | µj,Σj )
j=1
K
∑
図 9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
z =
z1

zk−1
zk
zk+1

zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0

0
1
0

0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
どの混合要素のガウス分
布から発⽣生しているか、
ということ
(式9.13)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡  混合ガウスモデルにしたがうランダムサンプルの⽣生成
¡  §8.1.2の伝承サンプリング(ancestral sampling)を⽤用いる
1.  zの値      を周辺分布p(z)から⽣生成
2.  xの値を条件付き分布                      から⽣生成
ˆz
p(x | ˆz)
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡  §2.3.9 図9.5の、3つの⼆二次元ガウス分布からなる混合ガウス分布
から⽣生成した500点のサンプルの例例
図.9.5 : (a), (b), (c)とも、⽣生成された x の座標値をプロット
(a) ⾚赤、緑、⻘青で3つの混合要素のどの分布から発⽣生したか(zの値)を表現:完全
(b) どの分布から発⽣生したかは関係なく同じ⾊色で表現:不不完全
(c) 各データ点        に割り当てられる負担率率率                    を、                に⽐比例例する量量の⾚赤、
緑、⻘青のインクで表現
p(x) = πk N(x | µk,Σk )
k=1
3
∑
xn
γ(znk ) γ(znk )
¡  ⽣生成した⼈人⼯工データ(図9.5(c)の例例)を使った「負担率率率」の説明
図9.5(c)は、混合ガウス分布
から⽣生成した500点のサンプル
§9.2 混合ガウス分布
(Mixtures of Gaussians)
p(x) = πk N(x | µk,Σk )
k=1
3
∑
各データ点        に割り当てられる負担率率率                    を、
負担率率率                      に⽐比例例する量量のインク⾚赤(k=1)、緑
(k=2)、⻘青(k=3)で表現
xn
γ(znk )
γ(znk )
•  例例えば、i番⽬目のデータ点        の負担率率率が                              
のとき、そのデータ点の⾊色は⾚赤
•  j番⽬目のデータ点          の負担率率率が                                  のと
き、そのデータ点の⾊色はシアン(⻘青と緑)
各データ点の⾊色、すなわち負担率率率は、データ点がどの混合要素から発⽣生した
か、つまり、どの混合要素にどの程度度負担されているかの度度合いを表す        
xi γ(zi1 ) = 1,γ(zi2 ) = 0,γ(zi3 ) = 0
xj γ (zj1 ) = 0,γ (zj 2 ) = 0.5,γ (zj 3 ) = 0.5
§9.2.1 最尤推定
¡  観測した、下記のN個のD次元データ集合に混合ガウス分布を当ては
める
¡  上記のデータ集合を下記のN x D⾏行行列列Xで表す
x1,, xN{ }
X =
x1
T

xn
T

xN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
xn
T
=[xn1, xn2 ,, xnD ]
xN
T
=[xN1, x N 2 ,, xND ]
x1
T
=[x11, x12 ,, x1D ]


§9.2.1 最尤推定
¡  データ集合 X と同様、対応するN個のK次元潜在変数 z ベクトルをN x
K⾏行行列列 Z で表す
Z =
z1
T

zn
T

zN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
zn
T
=[zn1, zn2 ,, znK ]
zN
T
=[zN1, z N 2 ,, zNK ]
z1
T
=[z11, z12 ,, z1K ]


§9.2.1 最尤推定
¡  各データ点が、§9.2で扱ってきた下記の多次元ガウス分布から独⽴立立に
⽣生成されるとする
¡  この分布のグラフ表現は図9.6のようになる
p(x) = πk N(x | µk,Σk )
k=1
K
∑
図 9.6
混合ガウスモデルのグラフ表現
•  xnは観測したデータ点
•  znは対応する潜在変数
§9.2.1 最尤推定
¡  N個の観測データxn(n=1,...,N)の⼀一つ⼀一つは、独⽴立立に下記の混合ガウス
分布にしたがうとする
¡  ここで、上記の分布にしたがうN個の観測データからなるデータ集合X
を観測したときの、対数尤度度を計算すると、
p(xn | π,µ,Σ) = πk N(xn | µk,Σk )
k=1
K
∑
ln p(X | π,µ,Σ) = ln { πk N(xn | µk,Σk )
n=1
K
∑ }
n=1
N
∏
= ln{ πk N(xn | µk,Σk )
k=1
K
∑ }
n=1
N
∑ 独⽴立立にN個観測しているため、
同時確率率率は積(式9.14)
§9.2.1 最尤推定
¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn
§9.2.1 最尤推定
¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn
→∞ (σj→0)
§9.2.1 最尤推定
¡  図9.7: 混合ガウス分布において、尤度度関数の特異異性がいかに現れるか
の説明
p(xn)→∞ (σj→0)
図9.7
xn
§9.2.1 最尤推定
以上より
¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題
¡  1つのガウス分布要素が特定のデータ点で「つぶれれば」発散は必ず起こる
¡  この問題は単⼀一のガウス分布の場合には起こらない。
¡  なぜなら、
1.  分布がある1つのデータ点でつぶれれば(分散が⼩小さくなると)、他のデー
タ点での尤度度関数の値が指数関数的に減少し、
2.  各データ点での尤度度関数の値の積をとった、全体の尤度度関数の値は0に
収束する、
からである。
¡  (混合ガウス分布の場合、⼀一⽅方のガウス分布要素が特定のデータ点に収束
すれば、その効果は対数尤度度を増加させる⽅方向に働く)
§9.2.1 最尤推定
¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題(続き)
¡  この困難は、ベイジアンアプローチ(§10.1)を適⽤用すれば避けられる(らしい)
¡  ヒューリスティクスに基づく、適当な⽅方法で、この特異異性を避けることも期待で
きる
¡  例例えば、混合ガウス分布の1つがつぶれそうになったときには、その平均値をラ
ンダムな値に、分散を⼤大きな値に設定し直して最適化を続ければ良良い
¡  任意の最尤解に対し、K個の各混合要素の順番の⼊入れ替えに対応した、同等
な解がK!個ある
¡  すなわち、パラメータ空間における、与えられた任意の点について、それと等価
な分布を⽰示すK!-1個の別の解が存在(識識別不不可能性(identifiability))
¡  識識別不不可能性は12章で連続潜在変数を持つモデルを議論論する際にも問題となる
¡  が、良良い密度度モデルを⾒見見つける⽬目的には関係ない。等価な解はどれも同等に良良
いモデルだから
§9.2.2 混合ガウス分布のEMア
ルゴリズム
¡  EMアルゴリズム(Expectation-Maximization Algorithm)
¡  潜在変数を持つモデルの最尤解を求める⽅方法の⼀一つ
¡  この本の後の章、節でEMアルゴリズムの⼀一般的な取り扱いを与える
¡  さらに、§10.1でEMアルゴリズムを⼀一般化し、変分推論論法の枠組みが
得られることを⽰示す
¡  この節では、混合ガウスモデルの⽂文脈における、EMアルゴリズムの意義
を説明
§9.2.2 混合ガウス分布のEMア
ルゴリズム
(式9.14)を、
1.  ガウス要素の平均μkに関して微分し、0とおく →(式 9.17)
2.  ガウス要素の共分散⾏行行列列Σkに関して微分し、0とおく  →(式  9.19)
3.  混合係数πkについて、Σk(πk)=1(式9.9)の制約条件のもとで最⼤大化
•  ラグランジュ未定係数法を⽤用いる  →(式  9.22)
(式9.17), (式9.19), (式9.22)の結果は、混合モデルのパラメータの陽な解
を与えていない。負担率率率                    が(式 9.13)という複雑な形でモデルの
パラメータに依存するため。
混合ガウス分布の最尤推定問題の解を⾒見見出すため、(式 9.13)の負担率率率の
計算(E step)と、(式9.17), (式9.19), (式9.22)の計算(M step)を繰り返す
→  混合ガウスモデルのEMアルゴリズム
γ(znk )
尤度度関数の最⼤大点において満たされるべき条件を書き下す
§9.2.2 混合ガウス分布のEMア
ルゴリズム
(式 9.17)
(式  9.19)
(式  9.22)
γ(znk ) =
πk N(xn | µk,Σk )
π j N(xn | µj,Σj )
j=1
K
∑
µk =
1
Nk
γ(znk )xn
n=1
N
∑
πk =
Nk
N
Σk =
1
Nk
γ(znk )(xn −µk )(xn −µk )T
n=1
N
∑
Nk = γ(znk )
n=1
N
∑
混合要素kがxnの観測を「説明する」
度度合いを表す負担率率率(responsibility)
N = Nk
k=1
K
∑
"
#
$
%
&
'
# (式 9.17), (式  9.19), (式  9.22)導出の計
算は、「パターン認識識と機械学習の学習  
第2版」§9.3 のp.77-78に丁寧に書かれて
いるのを確認しました。
(式 9.18)
(式9.13)
§9.2.2 混合ガウス分布のEMア
ルゴリズム
/* 混合ガウス分布のためのEMアルゴリム PRML(下巻) p.154-p.155 */
⽬目的:混合ガウスモデルが与えられているとき、各ガウス要素の平均、
分散、混合係数からなるパラメータについて尤度度関数ln p(X|π, μ, Σ)を
最⼤大化すること
1.  平均μk、分散Σk、混合係数πkを初期化し、対数尤度度の初期値を計算
2.  E step: 現在のパラメータ値を使って、負担率率率γ(znk), (n=1,...,N,
k=1,...,K)を計算
3.  M step: 現在の負担率率率γ(znk)を使って、パラメータ値μk、Σk、
πk(k=1,...,K)を順に計算
4.  対数尤度度ln p(X|μ, Σ, π)を計算。パラメータ値の変化または対数尤
度度の変化を⾒見見て収束性を確認。収束基準を満たしていなければ2.へ。
§9.2.2 混合ガウス分布のEMア
ルゴリズム
§2.3.9のOld Faithful間⽋欠泉データにEMアルゴリム適⽤用
¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの
ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例
図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ
横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
§9.2.2 混合ガウス分布のEMア
ルゴリズム
図.9.8 : スケール変換した、§2.3.9のOld Faithful間⽋欠泉データに、2つのガウス分
布からなる混合ガウス分布についての、EMアルゴリズムを適⽤用
(a) 初期状態:データ点を緑で、2つのガウス分布の1標準偏差の等⾼高線を⻘青と⾚赤
の円で表⽰示
(b) 最初のE step実⾏行行後:各データ点に割り当てられた負担率率率に⽐比例例する量量の⾚赤、
⻘青のインクでデータ点を描き直した
(c) 最初のM step実⾏行行後:更更新後のパラメータ値μk、Σkで再計算したガウス要素
の等⾼高線を表⽰示
§9.2.2 混合ガウス分布のEMア
ルゴリズム
図.9.8 : (続き) EMを繰り返した後、各データ点に割り当てられた負担率率率
に⽐比例例する量量の⾚赤、⻘青のインクで描き直したデータ点と、パラメータ値
μk、Σkで計算したガウス要素の等⾼高線を表⽰示
(d) 2回のEMを繰り返した後
(e) 5回のEMを繰り返した後
(f) 20回のEMを繰り返した後
¡  EMアルゴリズム実装にあたっての留留意点 ( p.154 より )
¡  K-meansアルゴリズムに⽐比べると、(ほぼ)収束するまでに必要な繰り
返し計算の回数、繰り返し計算⼀一回あたりの計算量量が多い。
¡  そのため、混合ガウスモデルの適切切な初期値を⾒見見出すためにK-means
アルゴリズムを実⾏行行し、その後、EMアルゴリズムを適⽤用する⽅方法がよ
くとられる。
¡  共分散⾏行行列列の初期値には、K-meansアルゴリズムで⾒見見つけたサンプルのク
ラスター分散
¡  混合係数の初期値には、各クラスターに属するデータ点の割合
を、⽤用いるのが便便利利
¡  特定のデータ点にガウス要素がつぶれていく、尤度度関数の特異異性を避
ける処理理が必要
¡  対数尤度度には、多くの極⼤大解が存在する。EMアルゴリズムはその中で
最⼤大のものに収束するとは限らない。
§9.2.2 混合ガウス分布のEMア
ルゴリズム

More Related Content

What's hot

PRML復々習レーン#14
PRML復々習レーン#14PRML復々習レーン#14
PRML復々習レーン#14Takuya Fukagai
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデルshow you
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter halfNarihira Takuya
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Wataru Kishimoto
 

What's hot (20)

prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
PRML復々習レーン#14
PRML復々習レーン#14PRML復々習レーン#14
PRML復々習レーン#14
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデル
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
 
Chapter9 2
Chapter9 2Chapter9 2
Chapter9 2
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
領域分割法
領域分割法領域分割法
領域分割法
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
主成分分析
主成分分析主成分分析
主成分分析
 
PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2
 

Similar to PRML復々習レーン#14 ver.2

PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布Akihiro Nitta
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章hakusai
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
MMDs10.6-7
MMDs10.6-7MMDs10.6-7
MMDs10.6-7mfumi
 
PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰hagino 3000
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slidesharewada, kazumi
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析Shu Tanaka
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析Mika Yoshimura
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 

Similar to PRML復々習レーン#14 ver.2 (20)

PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
 
Draftall
DraftallDraftall
Draftall
 
PRML 2.3節
PRML 2.3節PRML 2.3節
PRML 2.3節
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
 
MMDs10.6-7
MMDs10.6-7MMDs10.6-7
MMDs10.6-7
 
PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 

PRML復々習レーン#14 ver.2

  • 1. PRML復復々習レーン#14 (ver. 2.1) 2013/10/05⽤用 Mixtures of Gaussians §9.2, 9.2.1, 9.2.2 @takuya_fukagai
  • 2. §9.2 混合ガウス分布 (Mixtures of Gaussians) §2.3.9混合ガウス分布の復復習(1) ¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例 図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ 横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
  • 3. §9.2 混合ガウス分布 (Mixtures of Gaussians) §2.3.9混合ガウス分布の復復習(2) ¡  3つの1次元ガウス関数の重み付き和で表した混合ガウス分布の例例 ¡  ⼗十分な数のガウス分布を⽤用い、重み係数、各分布の平均、分散を調節 すれば、ほぼ任意の連続な密度度関数を任意の精度度で近似できる 図  2.22  3つのガウス分布の重み付きの和(⾚赤線)と和をとる前の3つのガ ウス分布(⻘青線、重み付けの係数に応じた⽐比率率率で縮⼩小してある) p(x) = πk N(x | µk,σk 2 ) k=1 3 ∑
  • 4. §9.2 混合ガウス分布 (Mixtures of Gaussians) §2.3.9混合ガウス分布の復復習(3) ¡  2次元中の3要素の混合ガウス分布の例例 図  2.23 (a) ⾚赤、緑、⻘青で3つの混合要素の等⾼高線を混合係数とともに表した図 (b) 混合密度度関数p(x)の等⾼高線 (c) 分布p(x)の曲⾯面グラフ p(x) = πk N(x | µk,Σk ) k=1 3 ∑
  • 5. §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡ §2.3.9で⾒見見てきたように、下記の混合ガウス分布は、単⼀一 のガウス分布よりも複雑な確率率率密度度モデルを提供する ¡ §9.2では離離散的な潜在変数(latent variable)を⽤用いた混合 ガウス分布の定式化を⾏行行う p(x) = πk N(x | µk,Σk ) k=1 K ∑
  • 6. ¡  ベクトル z はK種類の状態をとる 確率率率変数とみなせる ¡  周辺分布p(z)と条件付き分布 p(x|z)で同時分布p(x,z)を表す §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡  K次元の2値確率率率変数 z を導⼊入 ¡  zはどれか⼀一つが1でそれ以外は0 1-of-K表現 z = z1 z2  zK ! " # # # # # $ % & & & & & z = 0 1 0  0 ! " # # # # # # $ % & & & & & & zの例例 zk ∈ {0,1} zk k=1 K ∑ =1 図  9.4 混合分布のグラフィカル モデル表現 p(x,z)=p(z)p(x|z)
  • 7. §9.2 混合ガウス分布 (Mixtures of Gaussians) p(zk =1) = πk ¡  zの周辺分布は、以下のように混合 係数πkによって定まる ¡  上記のように、πkは確率率率としてい るので ¡  zには1-of-K表現を⽤用いるので 図  9.4 混合分布のグラフィカル モデル表現 p(x,z)=p(z)p(x|z) 0 ≤ πk ≤1 πk k=1 K ∑ =1 p(z) = πk zk k=1 K ∏ z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現
  • 8. p(x | z) = N(x | µk,Σk )zk k=1 K ∏ §9.2 混合ガウス分布 (Mixtures of Gaussians) p(x | zk =1) = N(x | µk,Σk ) 図  9.4 混合分布の グラフィカル モデル表現 p(x,z)=p(z)p(x|z) p(x) = p(z)p(x | z) = z ∑ πk zk k=1 K ∏ N(x | µk,Σk )zk k=1 K ∏ $ % & ' ( )k=1 K ∑ = πk N(x | µk,Σk ) k=1 K ∑ z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現 ¡  zの値が与えられたもとでのxの条 件付き分布 ¡  これは という形にも書ける ¡  したがってxの周辺分布は 潜在変数 z の周辺化により、 混合ガウス分布を表現
  • 9. ¡  xの値が与えられたもとでのzの条件付き確率率率 (ベイズの定理理より) ¡  πkはzk=1となる事前確率率率 ¡  γ(zk)はxを観測したときzk=1となる事後確率率率 ¡  γ(zk)は混合要素kがxの観測を「説明する」 度度合いを表す「負担率率率(responsibility)」と しても解釈できる §9.2 混合ガウス分布 (Mixtures of Gaussians) γ(zk ) ≡ p(zk =1| x) = p(zk =1)p(x | zk =1) p(zj =1)p(x | zj =1) j=1 K ∑ = πk N(x | µk,Σk ) π j N(x | µj,Σj ) j=1 K ∑ 図 9.4 混合分布の グラフィカル モデル表現 p(x,z)=p(z)p(x|z) z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現 どの混合要素のガウス分 布から発⽣生しているか、 ということ (式9.13)
  • 10. §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡  混合ガウスモデルにしたがうランダムサンプルの⽣生成 ¡  §8.1.2の伝承サンプリング(ancestral sampling)を⽤用いる 1.  zの値      を周辺分布p(z)から⽣生成 2.  xの値を条件付き分布                      から⽣生成 ˆz p(x | ˆz)
  • 11. §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡  §2.3.9 図9.5の、3つの⼆二次元ガウス分布からなる混合ガウス分布 から⽣生成した500点のサンプルの例例 図.9.5 : (a), (b), (c)とも、⽣生成された x の座標値をプロット (a) ⾚赤、緑、⻘青で3つの混合要素のどの分布から発⽣生したか(zの値)を表現:完全 (b) どの分布から発⽣生したかは関係なく同じ⾊色で表現:不不完全 (c) 各データ点        に割り当てられる負担率率率                    を、                に⽐比例例する量量の⾚赤、 緑、⻘青のインクで表現 p(x) = πk N(x | µk,Σk ) k=1 3 ∑ xn γ(znk ) γ(znk )
  • 12. ¡  ⽣生成した⼈人⼯工データ(図9.5(c)の例例)を使った「負担率率率」の説明 図9.5(c)は、混合ガウス分布 から⽣生成した500点のサンプル §9.2 混合ガウス分布 (Mixtures of Gaussians) p(x) = πk N(x | µk,Σk ) k=1 3 ∑ 各データ点        に割り当てられる負担率率率                    を、 負担率率率                      に⽐比例例する量量のインク⾚赤(k=1)、緑 (k=2)、⻘青(k=3)で表現 xn γ(znk ) γ(znk ) •  例例えば、i番⽬目のデータ点        の負担率率率が                               のとき、そのデータ点の⾊色は⾚赤 •  j番⽬目のデータ点          の負担率率率が                                  のと き、そのデータ点の⾊色はシアン(⻘青と緑) 各データ点の⾊色、すなわち負担率率率は、データ点がどの混合要素から発⽣生した か、つまり、どの混合要素にどの程度度負担されているかの度度合いを表す         xi γ(zi1 ) = 1,γ(zi2 ) = 0,γ(zi3 ) = 0 xj γ (zj1 ) = 0,γ (zj 2 ) = 0.5,γ (zj 3 ) = 0.5
  • 13. §9.2.1 最尤推定 ¡  観測した、下記のN個のD次元データ集合に混合ガウス分布を当ては める ¡  上記のデータ集合を下記のN x D⾏行行列列Xで表す x1,, xN{ } X = x1 T  xn T  xN T ! " # # # # # # # $ % & & & & & & & xn T =[xn1, xn2 ,, xnD ] xN T =[xN1, x N 2 ,, xND ] x1 T =[x11, x12 ,, x1D ]  
  • 14. §9.2.1 最尤推定 ¡  データ集合 X と同様、対応するN個のK次元潜在変数 z ベクトルをN x K⾏行行列列 Z で表す Z = z1 T  zn T  zN T ! " # # # # # # # $ % & & & & & & & zn T =[zn1, zn2 ,, znK ] zN T =[zN1, z N 2 ,, zNK ] z1 T =[z11, z12 ,, z1K ]  
  • 15. §9.2.1 最尤推定 ¡  各データ点が、§9.2で扱ってきた下記の多次元ガウス分布から独⽴立立に ⽣生成されるとする ¡  この分布のグラフ表現は図9.6のようになる p(x) = πk N(x | µk,Σk ) k=1 K ∑ 図 9.6 混合ガウスモデルのグラフ表現 •  xnは観測したデータ点 •  znは対応する潜在変数
  • 16. §9.2.1 最尤推定 ¡  N個の観測データxn(n=1,...,N)の⼀一つ⼀一つは、独⽴立立に下記の混合ガウス 分布にしたがうとする ¡  ここで、上記の分布にしたがうN個の観測データからなるデータ集合X を観測したときの、対数尤度度を計算すると、 p(xn | π,µ,Σ) = πk N(xn | µk,Σk ) k=1 K ∑ ln p(X | π,µ,Σ) = ln { πk N(xn | µk,Σk ) n=1 K ∑ } n=1 N ∏ = ln{ πk N(xn | µk,Σk ) k=1 K ∑ } n=1 N ∑ 独⽴立立にN個観測しているため、 同時確率率率は積(式9.14)
  • 17. §9.2.1 最尤推定 ¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する 問題に注意する必要がある ¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn と等しい、すなわち、 とする。このとき、このデータ点は、尤度度関数に対し、次式の形で 寄与する。 N(xn | µj,σ j 2 I) = 1 (2π)D/2 ⋅ σ j 2 I 1/2 ⋅exp{− 1 2 (xn −µj )T σ j −2 I(xn −µj )} = 1 (2π)D/2 ⋅(Dσ j 2 )1/2 = 1 (2π)D/2 ⋅ D1/2 ⋅σ j Σk =σk 2 I µj = xn
  • 18. §9.2.1 最尤推定 ¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する 問題に注意する必要がある ¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn と等しい、すなわち、 とする。このとき、このデータ点は、尤度度関数に対し、次式の形で 寄与する。 N(xn | µj,σ j 2 I) = 1 (2π)D/2 ⋅ σ j 2 I 1/2 ⋅exp{− 1 2 (xn −µj )T σ j −2 I(xn −µj )} = 1 (2π)D/2 ⋅(Dσ j 2 )1/2 = 1 (2π)D/2 ⋅ D1/2 ⋅σ j Σk =σk 2 I µj = xn →∞ (σj→0)
  • 19. §9.2.1 最尤推定 ¡  図9.7: 混合ガウス分布において、尤度度関数の特異異性がいかに現れるか の説明 p(xn)→∞ (σj→0) 図9.7 xn
  • 20. §9.2.1 最尤推定 以上より ¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題 ¡  1つのガウス分布要素が特定のデータ点で「つぶれれば」発散は必ず起こる ¡  この問題は単⼀一のガウス分布の場合には起こらない。 ¡  なぜなら、 1.  分布がある1つのデータ点でつぶれれば(分散が⼩小さくなると)、他のデー タ点での尤度度関数の値が指数関数的に減少し、 2.  各データ点での尤度度関数の値の積をとった、全体の尤度度関数の値は0に 収束する、 からである。 ¡  (混合ガウス分布の場合、⼀一⽅方のガウス分布要素が特定のデータ点に収束 すれば、その効果は対数尤度度を増加させる⽅方向に働く)
  • 21. §9.2.1 最尤推定 ¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題(続き) ¡  この困難は、ベイジアンアプローチ(§10.1)を適⽤用すれば避けられる(らしい) ¡  ヒューリスティクスに基づく、適当な⽅方法で、この特異異性を避けることも期待で きる ¡  例例えば、混合ガウス分布の1つがつぶれそうになったときには、その平均値をラ ンダムな値に、分散を⼤大きな値に設定し直して最適化を続ければ良良い ¡  任意の最尤解に対し、K個の各混合要素の順番の⼊入れ替えに対応した、同等 な解がK!個ある ¡  すなわち、パラメータ空間における、与えられた任意の点について、それと等価 な分布を⽰示すK!-1個の別の解が存在(識識別不不可能性(identifiability)) ¡  識識別不不可能性は12章で連続潜在変数を持つモデルを議論論する際にも問題となる ¡  が、良良い密度度モデルを⾒見見つける⽬目的には関係ない。等価な解はどれも同等に良良 いモデルだから
  • 22. §9.2.2 混合ガウス分布のEMア ルゴリズム ¡  EMアルゴリズム(Expectation-Maximization Algorithm) ¡  潜在変数を持つモデルの最尤解を求める⽅方法の⼀一つ ¡  この本の後の章、節でEMアルゴリズムの⼀一般的な取り扱いを与える ¡  さらに、§10.1でEMアルゴリズムを⼀一般化し、変分推論論法の枠組みが 得られることを⽰示す ¡  この節では、混合ガウスモデルの⽂文脈における、EMアルゴリズムの意義 を説明
  • 23. §9.2.2 混合ガウス分布のEMア ルゴリズム (式9.14)を、 1.  ガウス要素の平均μkに関して微分し、0とおく →(式 9.17) 2.  ガウス要素の共分散⾏行行列列Σkに関して微分し、0とおく  →(式  9.19) 3.  混合係数πkについて、Σk(πk)=1(式9.9)の制約条件のもとで最⼤大化 •  ラグランジュ未定係数法を⽤用いる  →(式  9.22) (式9.17), (式9.19), (式9.22)の結果は、混合モデルのパラメータの陽な解 を与えていない。負担率率率                    が(式 9.13)という複雑な形でモデルの パラメータに依存するため。 混合ガウス分布の最尤推定問題の解を⾒見見出すため、(式 9.13)の負担率率率の 計算(E step)と、(式9.17), (式9.19), (式9.22)の計算(M step)を繰り返す →  混合ガウスモデルのEMアルゴリズム γ(znk ) 尤度度関数の最⼤大点において満たされるべき条件を書き下す
  • 24. §9.2.2 混合ガウス分布のEMア ルゴリズム (式 9.17) (式  9.19) (式  9.22) γ(znk ) = πk N(xn | µk,Σk ) π j N(xn | µj,Σj ) j=1 K ∑ µk = 1 Nk γ(znk )xn n=1 N ∑ πk = Nk N Σk = 1 Nk γ(znk )(xn −µk )(xn −µk )T n=1 N ∑ Nk = γ(znk ) n=1 N ∑ 混合要素kがxnの観測を「説明する」 度度合いを表す負担率率率(responsibility) N = Nk k=1 K ∑ " # $ % & ' # (式 9.17), (式  9.19), (式  9.22)導出の計 算は、「パターン認識識と機械学習の学習   第2版」§9.3 のp.77-78に丁寧に書かれて いるのを確認しました。 (式 9.18) (式9.13)
  • 25. §9.2.2 混合ガウス分布のEMア ルゴリズム /* 混合ガウス分布のためのEMアルゴリム PRML(下巻) p.154-p.155 */ ⽬目的:混合ガウスモデルが与えられているとき、各ガウス要素の平均、 分散、混合係数からなるパラメータについて尤度度関数ln p(X|π, μ, Σ)を 最⼤大化すること 1.  平均μk、分散Σk、混合係数πkを初期化し、対数尤度度の初期値を計算 2.  E step: 現在のパラメータ値を使って、負担率率率γ(znk), (n=1,...,N, k=1,...,K)を計算 3.  M step: 現在の負担率率率γ(znk)を使って、パラメータ値μk、Σk、 πk(k=1,...,K)を順に計算 4.  対数尤度度ln p(X|μ, Σ, π)を計算。パラメータ値の変化または対数尤 度度の変化を⾒見見て収束性を確認。収束基準を満たしていなければ2.へ。
  • 26. §9.2.2 混合ガウス分布のEMア ルゴリズム §2.3.9のOld Faithful間⽋欠泉データにEMアルゴリム適⽤用 ¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例 図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ 横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
  • 27. §9.2.2 混合ガウス分布のEMア ルゴリズム 図.9.8 : スケール変換した、§2.3.9のOld Faithful間⽋欠泉データに、2つのガウス分 布からなる混合ガウス分布についての、EMアルゴリズムを適⽤用 (a) 初期状態:データ点を緑で、2つのガウス分布の1標準偏差の等⾼高線を⻘青と⾚赤 の円で表⽰示 (b) 最初のE step実⾏行行後:各データ点に割り当てられた負担率率率に⽐比例例する量量の⾚赤、 ⻘青のインクでデータ点を描き直した (c) 最初のM step実⾏行行後:更更新後のパラメータ値μk、Σkで再計算したガウス要素 の等⾼高線を表⽰示
  • 28. §9.2.2 混合ガウス分布のEMア ルゴリズム 図.9.8 : (続き) EMを繰り返した後、各データ点に割り当てられた負担率率率 に⽐比例例する量量の⾚赤、⻘青のインクで描き直したデータ点と、パラメータ値 μk、Σkで計算したガウス要素の等⾼高線を表⽰示 (d) 2回のEMを繰り返した後 (e) 5回のEMを繰り返した後 (f) 20回のEMを繰り返した後
  • 29. ¡  EMアルゴリズム実装にあたっての留留意点 ( p.154 より ) ¡  K-meansアルゴリズムに⽐比べると、(ほぼ)収束するまでに必要な繰り 返し計算の回数、繰り返し計算⼀一回あたりの計算量量が多い。 ¡  そのため、混合ガウスモデルの適切切な初期値を⾒見見出すためにK-means アルゴリズムを実⾏行行し、その後、EMアルゴリズムを適⽤用する⽅方法がよ くとられる。 ¡  共分散⾏行行列列の初期値には、K-meansアルゴリズムで⾒見見つけたサンプルのク ラスター分散 ¡  混合係数の初期値には、各クラスターに属するデータ点の割合 を、⽤用いるのが便便利利 ¡  特定のデータ点にガウス要素がつぶれていく、尤度度関数の特異異性を避 ける処理理が必要 ¡  対数尤度度には、多くの極⼤大解が存在する。EMアルゴリズムはその中で 最⼤大のものに収束するとは限らない。 §9.2.2 混合ガウス分布のEMア ルゴリズム