PRML復々習レーン#14 ver.2

837 views
791 views

Published on

台風で延期になった勉強会、担当箇所のスライド.
次回の勉強会用に少しだけ修正しました.

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
837
On SlideShare
0
From Embeds
0
Number of Embeds
34
Actions
Shares
0
Downloads
5
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

PRML復々習レーン#14 ver.2

  1. 1. PRML復復々習レーン#14 (ver. 2.1) 2013/10/05⽤用 Mixtures of Gaussians §9.2, 9.2.1, 9.2.2 @takuya_fukagai
  2. 2. §9.2 混合ガウス分布 (Mixtures of Gaussians) §2.3.9混合ガウス分布の復復習(1) ¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例 図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ 横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
  3. 3. §9.2 混合ガウス分布 (Mixtures of Gaussians) §2.3.9混合ガウス分布の復復習(2) ¡  3つの1次元ガウス関数の重み付き和で表した混合ガウス分布の例例 ¡  ⼗十分な数のガウス分布を⽤用い、重み係数、各分布の平均、分散を調節 すれば、ほぼ任意の連続な密度度関数を任意の精度度で近似できる 図  2.22  3つのガウス分布の重み付きの和(⾚赤線)と和をとる前の3つのガ ウス分布(⻘青線、重み付けの係数に応じた⽐比率率率で縮⼩小してある) p(x) = πk N(x | µk,σk 2 ) k=1 3 ∑
  4. 4. §9.2 混合ガウス分布 (Mixtures of Gaussians) §2.3.9混合ガウス分布の復復習(3) ¡  2次元中の3要素の混合ガウス分布の例例 図  2.23 (a) ⾚赤、緑、⻘青で3つの混合要素の等⾼高線を混合係数とともに表した図 (b) 混合密度度関数p(x)の等⾼高線 (c) 分布p(x)の曲⾯面グラフ p(x) = πk N(x | µk,Σk ) k=1 3 ∑
  5. 5. §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡ §2.3.9で⾒見見てきたように、下記の混合ガウス分布は、単⼀一 のガウス分布よりも複雑な確率率率密度度モデルを提供する ¡ §9.2では離離散的な潜在変数(latent variable)を⽤用いた混合 ガウス分布の定式化を⾏行行う p(x) = πk N(x | µk,Σk ) k=1 K ∑
  6. 6. ¡  ベクトル z はK種類の状態をとる 確率率率変数とみなせる ¡  周辺分布p(z)と条件付き分布 p(x|z)で同時分布p(x,z)を表す §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡  K次元の2値確率率率変数 z を導⼊入 ¡  zはどれか⼀一つが1でそれ以外は0 1-of-K表現 z = z1 z2  zK ! " # # # # # $ % & & & & & z = 0 1 0  0 ! " # # # # # # $ % & & & & & & zの例例 zk ∈ {0,1} zk k=1 K ∑ =1 図  9.4 混合分布のグラフィカル モデル表現 p(x,z)=p(z)p(x|z)
  7. 7. §9.2 混合ガウス分布 (Mixtures of Gaussians) p(zk =1) = πk ¡  zの周辺分布は、以下のように混合 係数πkによって定まる ¡  上記のように、πkは確率率率としてい るので ¡  zには1-of-K表現を⽤用いるので 図  9.4 混合分布のグラフィカル モデル表現 p(x,z)=p(z)p(x|z) 0 ≤ πk ≤1 πk k=1 K ∑ =1 p(z) = πk zk k=1 K ∏ z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現
  8. 8. p(x | z) = N(x | µk,Σk )zk k=1 K ∏ §9.2 混合ガウス分布 (Mixtures of Gaussians) p(x | zk =1) = N(x | µk,Σk ) 図  9.4 混合分布の グラフィカル モデル表現 p(x,z)=p(z)p(x|z) p(x) = p(z)p(x | z) = z ∑ πk zk k=1 K ∏ N(x | µk,Σk )zk k=1 K ∏ $ % & ' ( )k=1 K ∑ = πk N(x | µk,Σk ) k=1 K ∑ z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現 ¡  zの値が与えられたもとでのxの条 件付き分布 ¡  これは という形にも書ける ¡  したがってxの周辺分布は 潜在変数 z の周辺化により、 混合ガウス分布を表現
  9. 9. ¡  xの値が与えられたもとでのzの条件付き確率率率 (ベイズの定理理より) ¡  πkはzk=1となる事前確率率率 ¡  γ(zk)はxを観測したときzk=1となる事後確率率率 ¡  γ(zk)は混合要素kがxの観測を「説明する」 度度合いを表す「負担率率率(responsibility)」と しても解釈できる §9.2 混合ガウス分布 (Mixtures of Gaussians) γ(zk ) ≡ p(zk =1| x) = p(zk =1)p(x | zk =1) p(zj =1)p(x | zj =1) j=1 K ∑ = πk N(x | µk,Σk ) π j N(x | µj,Σj ) j=1 K ∑ 図 9.4 混合分布の グラフィカル モデル表現 p(x,z)=p(z)p(x|z) z = z1  zk−1 zk zk+1  zK " # $ $ $ $ $ $ $ $ $ % & ' ' ' ' ' ' ' ' ' zの例例 = 0  0 1 0  0 ! " # # # # # # # # $ % & & & & & & & & 1-of-K表現 どの混合要素のガウス分 布から発⽣生しているか、 ということ (式9.13)
  10. 10. §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡  混合ガウスモデルにしたがうランダムサンプルの⽣生成 ¡  §8.1.2の伝承サンプリング(ancestral sampling)を⽤用いる 1.  zの値      を周辺分布p(z)から⽣生成 2.  xの値を条件付き分布                      から⽣生成 ˆz p(x | ˆz)
  11. 11. §9.2 混合ガウス分布 (Mixtures of Gaussians) ¡  §2.3.9 図9.5の、3つの⼆二次元ガウス分布からなる混合ガウス分布 から⽣生成した500点のサンプルの例例 図.9.5 : (a), (b), (c)とも、⽣生成された x の座標値をプロット (a) ⾚赤、緑、⻘青で3つの混合要素のどの分布から発⽣生したか(zの値)を表現:完全 (b) どの分布から発⽣生したかは関係なく同じ⾊色で表現:不不完全 (c) 各データ点        に割り当てられる負担率率率                    を、                に⽐比例例する量量の⾚赤、 緑、⻘青のインクで表現 p(x) = πk N(x | µk,Σk ) k=1 3 ∑ xn γ(znk ) γ(znk )
  12. 12. ¡  ⽣生成した⼈人⼯工データ(図9.5(c)の例例)を使った「負担率率率」の説明 図9.5(c)は、混合ガウス分布 から⽣生成した500点のサンプル §9.2 混合ガウス分布 (Mixtures of Gaussians) p(x) = πk N(x | µk,Σk ) k=1 3 ∑ 各データ点        に割り当てられる負担率率率                    を、 負担率率率                      に⽐比例例する量量のインク⾚赤(k=1)、緑 (k=2)、⻘青(k=3)で表現 xn γ(znk ) γ(znk ) •  例例えば、i番⽬目のデータ点        の負担率率率が                               のとき、そのデータ点の⾊色は⾚赤 •  j番⽬目のデータ点          の負担率率率が                                  のと き、そのデータ点の⾊色はシアン(⻘青と緑) 各データ点の⾊色、すなわち負担率率率は、データ点がどの混合要素から発⽣生した か、つまり、どの混合要素にどの程度度負担されているかの度度合いを表す         xi γ(zi1 ) = 1,γ(zi2 ) = 0,γ(zi3 ) = 0 xj γ (zj1 ) = 0,γ (zj 2 ) = 0.5,γ (zj 3 ) = 0.5
  13. 13. §9.2.1 最尤推定 ¡  観測した、下記のN個のD次元データ集合に混合ガウス分布を当ては める ¡  上記のデータ集合を下記のN x D⾏行行列列Xで表す x1,, xN{ } X = x1 T  xn T  xN T ! " # # # # # # # $ % & & & & & & & xn T =[xn1, xn2 ,, xnD ] xN T =[xN1, x N 2 ,, xND ] x1 T =[x11, x12 ,, x1D ]  
  14. 14. §9.2.1 最尤推定 ¡  データ集合 X と同様、対応するN個のK次元潜在変数 z ベクトルをN x K⾏行行列列 Z で表す Z = z1 T  zn T  zN T ! " # # # # # # # $ % & & & & & & & zn T =[zn1, zn2 ,, znK ] zN T =[zN1, z N 2 ,, zNK ] z1 T =[z11, z12 ,, z1K ]  
  15. 15. §9.2.1 最尤推定 ¡  各データ点が、§9.2で扱ってきた下記の多次元ガウス分布から独⽴立立に ⽣生成されるとする ¡  この分布のグラフ表現は図9.6のようになる p(x) = πk N(x | µk,Σk ) k=1 K ∑ 図 9.6 混合ガウスモデルのグラフ表現 •  xnは観測したデータ点 •  znは対応する潜在変数
  16. 16. §9.2.1 最尤推定 ¡  N個の観測データxn(n=1,...,N)の⼀一つ⼀一つは、独⽴立立に下記の混合ガウス 分布にしたがうとする ¡  ここで、上記の分布にしたがうN個の観測データからなるデータ集合X を観測したときの、対数尤度度を計算すると、 p(xn | π,µ,Σ) = πk N(xn | µk,Σk ) k=1 K ∑ ln p(X | π,µ,Σ) = ln { πk N(xn | µk,Σk ) n=1 K ∑ } n=1 N ∏ = ln{ πk N(xn | µk,Σk ) k=1 K ∑ } n=1 N ∑ 独⽴立立にN個観測しているため、 同時確率率率は積(式9.14)
  17. 17. §9.2.1 最尤推定 ¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する 問題に注意する必要がある ¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn と等しい、すなわち、 とする。このとき、このデータ点は、尤度度関数に対し、次式の形で 寄与する。 N(xn | µj,σ j 2 I) = 1 (2π)D/2 ⋅ σ j 2 I 1/2 ⋅exp{− 1 2 (xn −µj )T σ j −2 I(xn −µj )} = 1 (2π)D/2 ⋅(Dσ j 2 )1/2 = 1 (2π)D/2 ⋅ D1/2 ⋅σ j Σk =σk 2 I µj = xn
  18. 18. §9.2.1 最尤推定 ¡  混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する 問題に注意する必要がある ¡  単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn と等しい、すなわち、 とする。このとき、このデータ点は、尤度度関数に対し、次式の形で 寄与する。 N(xn | µj,σ j 2 I) = 1 (2π)D/2 ⋅ σ j 2 I 1/2 ⋅exp{− 1 2 (xn −µj )T σ j −2 I(xn −µj )} = 1 (2π)D/2 ⋅(Dσ j 2 )1/2 = 1 (2π)D/2 ⋅ D1/2 ⋅σ j Σk =σk 2 I µj = xn →∞ (σj→0)
  19. 19. §9.2.1 最尤推定 ¡  図9.7: 混合ガウス分布において、尤度度関数の特異異性がいかに現れるか の説明 p(xn)→∞ (σj→0) 図9.7 xn
  20. 20. §9.2.1 最尤推定 以上より ¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題 ¡  1つのガウス分布要素が特定のデータ点で「つぶれれば」発散は必ず起こる ¡  この問題は単⼀一のガウス分布の場合には起こらない。 ¡  なぜなら、 1.  分布がある1つのデータ点でつぶれれば(分散が⼩小さくなると)、他のデー タ点での尤度度関数の値が指数関数的に減少し、 2.  各データ点での尤度度関数の値の積をとった、全体の尤度度関数の値は0に 収束する、 からである。 ¡  (混合ガウス分布の場合、⼀一⽅方のガウス分布要素が特定のデータ点に収束 すれば、その効果は対数尤度度を増加させる⽅方向に働く)
  21. 21. §9.2.1 最尤推定 ¡  混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題(続き) ¡  この困難は、ベイジアンアプローチ(§10.1)を適⽤用すれば避けられる(らしい) ¡  ヒューリスティクスに基づく、適当な⽅方法で、この特異異性を避けることも期待で きる ¡  例例えば、混合ガウス分布の1つがつぶれそうになったときには、その平均値をラ ンダムな値に、分散を⼤大きな値に設定し直して最適化を続ければ良良い ¡  任意の最尤解に対し、K個の各混合要素の順番の⼊入れ替えに対応した、同等 な解がK!個ある ¡  すなわち、パラメータ空間における、与えられた任意の点について、それと等価 な分布を⽰示すK!-1個の別の解が存在(識識別不不可能性(identifiability)) ¡  識識別不不可能性は12章で連続潜在変数を持つモデルを議論論する際にも問題となる ¡  が、良良い密度度モデルを⾒見見つける⽬目的には関係ない。等価な解はどれも同等に良良 いモデルだから
  22. 22. §9.2.2 混合ガウス分布のEMア ルゴリズム ¡  EMアルゴリズム(Expectation-Maximization Algorithm) ¡  潜在変数を持つモデルの最尤解を求める⽅方法の⼀一つ ¡  この本の後の章、節でEMアルゴリズムの⼀一般的な取り扱いを与える ¡  さらに、§10.1でEMアルゴリズムを⼀一般化し、変分推論論法の枠組みが 得られることを⽰示す ¡  この節では、混合ガウスモデルの⽂文脈における、EMアルゴリズムの意義 を説明
  23. 23. §9.2.2 混合ガウス分布のEMア ルゴリズム (式9.14)を、 1.  ガウス要素の平均μkに関して微分し、0とおく →(式 9.17) 2.  ガウス要素の共分散⾏行行列列Σkに関して微分し、0とおく  →(式  9.19) 3.  混合係数πkについて、Σk(πk)=1(式9.9)の制約条件のもとで最⼤大化 •  ラグランジュ未定係数法を⽤用いる  →(式  9.22) (式9.17), (式9.19), (式9.22)の結果は、混合モデルのパラメータの陽な解 を与えていない。負担率率率                    が(式 9.13)という複雑な形でモデルの パラメータに依存するため。 混合ガウス分布の最尤推定問題の解を⾒見見出すため、(式 9.13)の負担率率率の 計算(E step)と、(式9.17), (式9.19), (式9.22)の計算(M step)を繰り返す →  混合ガウスモデルのEMアルゴリズム γ(znk ) 尤度度関数の最⼤大点において満たされるべき条件を書き下す
  24. 24. §9.2.2 混合ガウス分布のEMア ルゴリズム (式 9.17) (式  9.19) (式  9.22) γ(znk ) = πk N(xn | µk,Σk ) π j N(xn | µj,Σj ) j=1 K ∑ µk = 1 Nk γ(znk )xn n=1 N ∑ πk = Nk N Σk = 1 Nk γ(znk )(xn −µk )(xn −µk )T n=1 N ∑ Nk = γ(znk ) n=1 N ∑ 混合要素kがxnの観測を「説明する」 度度合いを表す負担率率率(responsibility) N = Nk k=1 K ∑ " # $ % & ' # (式 9.17), (式  9.19), (式  9.22)導出の計 算は、「パターン認識識と機械学習の学習   第2版」§9.3 のp.77-78に丁寧に書かれて いるのを確認しました。 (式 9.18) (式9.13)
  25. 25. §9.2.2 混合ガウス分布のEMア ルゴリズム /* 混合ガウス分布のためのEMアルゴリム PRML(下巻) p.154-p.155 */ ⽬目的:混合ガウスモデルが与えられているとき、各ガウス要素の平均、 分散、混合係数からなるパラメータについて尤度度関数ln p(X|π, μ, Σ)を 最⼤大化すること 1.  平均μk、分散Σk、混合係数πkを初期化し、対数尤度度の初期値を計算 2.  E step: 現在のパラメータ値を使って、負担率率率γ(znk), (n=1,...,N, k=1,...,K)を計算 3.  M step: 現在の負担率率率γ(znk)を使って、パラメータ値μk、Σk、 πk(k=1,...,K)を順に計算 4.  対数尤度度ln p(X|μ, Σ, π)を計算。パラメータ値の変化または対数尤 度度の変化を⾒見見て収束性を確認。収束基準を満たしていなければ2.へ。
  26. 26. §9.2.2 混合ガウス分布のEMア ルゴリズム §2.3.9のOld Faithful間⽋欠泉データにEMアルゴリム適⽤用 ¡  単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例 図  2.21 Old Faithful間⽋欠泉の272の噴出の計測データ 横軸は噴出の持続時間(単位:分)  縦軸は次回の噴出までの時間(単位:分)
  27. 27. §9.2.2 混合ガウス分布のEMア ルゴリズム 図.9.8 : スケール変換した、§2.3.9のOld Faithful間⽋欠泉データに、2つのガウス分 布からなる混合ガウス分布についての、EMアルゴリズムを適⽤用 (a) 初期状態:データ点を緑で、2つのガウス分布の1標準偏差の等⾼高線を⻘青と⾚赤 の円で表⽰示 (b) 最初のE step実⾏行行後:各データ点に割り当てられた負担率率率に⽐比例例する量量の⾚赤、 ⻘青のインクでデータ点を描き直した (c) 最初のM step実⾏行行後:更更新後のパラメータ値μk、Σkで再計算したガウス要素 の等⾼高線を表⽰示
  28. 28. §9.2.2 混合ガウス分布のEMア ルゴリズム 図.9.8 : (続き) EMを繰り返した後、各データ点に割り当てられた負担率率率 に⽐比例例する量量の⾚赤、⻘青のインクで描き直したデータ点と、パラメータ値 μk、Σkで計算したガウス要素の等⾼高線を表⽰示 (d) 2回のEMを繰り返した後 (e) 5回のEMを繰り返した後 (f) 20回のEMを繰り返した後
  29. 29. ¡  EMアルゴリズム実装にあたっての留留意点 ( p.154 より ) ¡  K-meansアルゴリズムに⽐比べると、(ほぼ)収束するまでに必要な繰り 返し計算の回数、繰り返し計算⼀一回あたりの計算量量が多い。 ¡  そのため、混合ガウスモデルの適切切な初期値を⾒見見出すためにK-means アルゴリズムを実⾏行行し、その後、EMアルゴリズムを適⽤用する⽅方法がよ くとられる。 ¡  共分散⾏行行列列の初期値には、K-meansアルゴリズムで⾒見見つけたサンプルのク ラスター分散 ¡  混合係数の初期値には、各クラスターに属するデータ点の割合 を、⽤用いるのが便便利利 ¡  特定のデータ点にガウス要素がつぶれていく、尤度度関数の特異異性を避 ける処理理が必要 ¡  対数尤度度には、多くの極⼤大解が存在する。EMアルゴリズムはその中で 最⼤大のものに収束するとは限らない。 §9.2.2 混合ガウス分布のEMア ルゴリズム

×