SlideShare a Scribd company logo
くり
                                     ざっ
             EMアルゴリズム入門
                2012/06/06 20:40-21:00
               おしゃれstatistics 勉強会
                      @teikaw




12年6月7日木曜日
初めまして
             • 山田 直敬 @teikaw

             • 東京大学 情報理工学系
              研究科 M1


             • 機械学習の研究をして
              います


             • 特技はヴィオラ演奏。
              たまにライブやります


12年6月7日木曜日
本日のキーワード
             • ベイズの定理、事後確率

             • 最尤推定、ラグランジュの未定乗数法

             • k-means法
前提知識
             • 多変量正規分布

             • 隠れ変数、混合モデル
今日の内容
             • EM アルゴリズム

 発展形         • 変分ベイズ、ノンパラベイズ

12年6月7日木曜日
発表の流れ

             • 【動機づけ】 混合正規分布モデルの紹介

             • 【導入】EMアルゴリズム
                   = 隠れ変数を仮定した最尤推定

             • 【定式化】具体的な中身

             • 【評価】 EMアルゴリズムの諸性質、一般論
                                     なめ
                                  は少
                               数式
12年6月7日木曜日
みんな大好きk-means法
 •   クラスタリングといえばこれ


 •   丸いクラスタができる


             •   クラスタ内の分散が一定であ
                 ることが暗に仮定
                                  http://www.aishack.in/2010/07/k-means-clustering/


             •   クラスタのメンバーが同じくら
                 いの数だけ存在することも暗
                 に仮定される


 •   データに偏りがあるとうまくいかない
                                   http://www.kamishima.net/jp/clustering/


12年6月7日木曜日
そこで混合正規分布モデル
             (Gaussian Mixture Model; GMM)
   •   データが複数の正規分布の
       重ねあわせによって生成され
       たと考える。
                   K
       p(x;θ ) = ∑ π k N ( µ k , Σ k )
                  k=1


   •   分散の違う分布でフィット
       可能。柔軟性が高い


   •   事後確率最大となるような
       クラスタを決定すれば良い
                                         http://scikit-learn.org/stable/modules/mixture.html
12年6月7日木曜日
GMMのパラメタを最尤推定で求めたいが…
                            混合比,平均, 分散共分散行列 の組(π,μ, ∑)をk個

                                                          K
    データ一つあたりの尤度は p(x;θ ) = ∑ π k N ( µk , Σ k ) だから、
                                                          k=1

     i.i.dに生成した全データに対する対数尤度は
                                 N            N     K
              ln p(X;θ ) = ln ∏ p(x;θ ) = ∑ ln∑ π k N ( µ k , Σ k )
                                 n=1          n=1   k=1
                                                                         となる。
     ただし、                  不都合:logの中に足し算の形 logとexpがキャンセルされない
                K

               ∑π                                   exp {(x − µ ) Σ (x − µ )}.
                                              1
                      k   = 1 , N ( µ, Σ) =                     T   −1

                k=1                           2πΣ


 混合正規分布の対数尤度関数は、ラグランジュの未定乗数法を
      用いて直接最大化しようとしても、解析解が求まらない
12年6月7日木曜日
隠れ変数を導入する
 • データの生成過程を次の
    ようにモデル化する


      • まず、混合正規分布の
        どのクラスタに属する
        のかが決まる                           今見えているデータXは不完全だ∼

     非観測な情報=隠れ変数Z p(Z=k)= πk

      • 決められた正規分布に
        従ってデータが発生
             p(x|Z=k;θ) = N (μk,∑k )

        p(x;θ) = ∑ p(x|Z;θ)p(Z)
                       Z


             = ∑ πk N(μk,∑k)
                  k
                                       潜在変数(ラベル)Zが与えられていると仮定
12年6月7日木曜日
都合のいい完全データ{X,Z}
  •   データセットXの全ての要素に対して、
      ラベル(隠れ変数)Zが分かっている状態


  •   例えば, Zn=j の時、尤度は簡単な形に


          p(xn , zn = j;θ ) = π j N(xn ; µ j, Σ j )


  • znk   は、kがデータ xn のラベルならば1 ,                                                from Bishop PRML Chapter 9 p.433

      それ以外なら0を取るメンバシップ変数
                                                                       N   K
      とすると、                                           ln p(X, Z;θ ) = ∑ ∑ znk {ln π k + ln N(xn ; µ k, Σ k )}
                                                                       n=1 k=1


  •   完全データに対する対数尤度は次のよ                                              logの中に足し算なし。
      うになる                                              実質的な計算は正規分布一つの時と全く同じ

12年6月7日木曜日
かね
        お    待ち
                      EMアルゴリズム
 • 不完全データに対して、隠れ変数を仮定した場合の最尤推定法。
                                                      N

 • 本来解くべき問題はmax ln p(X;θ ) = ∑ ln∑ p(x | Z;θ )p(Z )
                                                                        不完全データの対数尤度


                                                     n=1      Z
    だが潜在変数の総和がlogの中に入っているため解析解が得られず。

 • 無いものねだりで隠れ変数(ラベルデータ)Zが与えられていると仮定し
    て、完全データの対数尤度を最大化する。これは解析解OK
                               N   K
              ln p(X, Z;θ ) = ∑ ∑ znk {ln π k + ln N(xn ; µ k, Σ k )}
                               n=1 k=1



 • 隠れ変数(ラベルデータ)は直接知ることはできず、実際はZの事後確率
    しか分からない。そこでラベルを推定するために、ひとまず前回のパ
    ラメタを利用する。(これが反復法になる理由)


12年6月7日木曜日
EMアルゴリズム詳細
             • INIT
              • 忘却-step(仮)

                • 不完全データのことは忘れる!!

                • これからは潜在変数を自分で推定し、
                  完全データで計算すると誓う

              • 適当な初期化パラメータθ を設定
                             old




12年6月7日木曜日
Expectation Maximization
             •   E-Step (Expectation)

                 •   潜在変数を推定する

                 •   すなわち p(Z | X; θold)を計算する(Bayesの定理)

                     •   p(Z | X; θold)= p(X | Z; θold) p(Z; θold)/ p(X; θold)

             •   M-Step(Maximization)

                 •   θnew = arg max Q(θ, θold) を計算する

                 •   ここで Q(θ ,θ old ) =        ∑   Z
                                                     p(Z | X;θ old ) ln p(X, Z;θ )
                                                                 完全データの対数尤度の
                                                           潜在変数の事後分布についての期待値
             •   θが収束するまで繰り返す
12年6月7日木曜日
Q関数のおいしい性質
             •   じつはEMアルゴリズムの各ステップで
                    ln p(X;θ) = Q(θ,θold) + const

                 が成立。忘れていたはずの不完全データのmaxを
                 毎ステップ解いていたところがpoint

             •   しかも、Q関数は各ステップで単調増加するの
                 で、収束値の局所最適性が保証される!

             •   (証明略)

12年6月7日木曜日
欠点

         • EMはk-meansよりも遅い

         • 局所最適性しか保証しないので、大域的最適
             解を得るには何度かrandom restartさせる必要

         • クラスタ数Kはどうやって決めるの?

              • 勘、情報量基準、ノンパラベイズ

12年6月7日木曜日
summary
    •   EMアルゴリズムとは

             •   隠れ変数を仮定した場合の最尤推定法

             •   隠れ変数が見える完全データの対数尤度は簡単に求まる

             •   隠れ変数をでっち上げる。現状のパラメタから求めた事
                 後確率についての期待値Q関数を求める(E-step)

             •   ラグランジュの未定乗数法を用いてQ関数最大化(M-step)

             •   単調減少性 、局所最適性の保証 / ランダムリスタートの
                 必要 性
12年6月7日木曜日

More Related Content

What's hot

クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
Hiroshi Nakagawa
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
sleepy_yoshi
 
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析hnisiji
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
Chika Inoshita
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
正志 坪坂
 
PRML chapter7
PRML chapter7PRML chapter7
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
Taikai Takeda
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
Narihira Takuya
 
Prml sec6
Prml sec6Prml sec6
Prml sec6
Keisuke OTAKI
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
sleepy_yoshi
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
hagino 3000
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
KunihiroTakeoka
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
Yukara Ikemiya
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
Takao Yamanaka
 
クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入
Hiroshi Nakagawa
 

What's hot (20)

クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
 
Prml sec6
Prml sec6Prml sec6
Prml sec6
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入
 

Similar to Oshasta em

【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
 
130323 slide all
130323 slide all130323 slide all
130323 slide allikea0064
 
パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0sleipnir002
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムTakuya Akiba
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
Yuuji Hiramatsu
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
Kenta Oono
 
Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)
Nobutaka Shimizu
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
Suurist
 
CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説
AtCoder Inc.
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
Hiroshi Yamashita
 
第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場Daisuke Yoneoka
 
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
MITSUNARI Shigeo
 
How to study stat
How to study statHow to study stat
How to study statAk Ok
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
Deep Learning JP
 

Similar to Oshasta em (20)

【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
130323 slide all
130323 slide all130323 slide all
130323 slide all
 
パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)Introduction to Locally Testable Codes and Related Topics (in Japanese)
Introduction to Locally Testable Codes and Related Topics (in Japanese)
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場第三回統計学勉強会@東大駒場
第三回統計学勉強会@東大駒場
 
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
 
How to study stat
How to study statHow to study stat
How to study stat
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
演習発表 Sari v.1.2
演習発表 Sari v.1.2演習発表 Sari v.1.2
演習発表 Sari v.1.2
 

Oshasta em

  • 1. くり ざっ EMアルゴリズム入門 2012/06/06 20:40-21:00 おしゃれstatistics 勉強会 @teikaw 12年6月7日木曜日
  • 2. 初めまして • 山田 直敬 @teikaw • 東京大学 情報理工学系 研究科 M1 • 機械学習の研究をして います • 特技はヴィオラ演奏。 たまにライブやります 12年6月7日木曜日
  • 3. 本日のキーワード • ベイズの定理、事後確率 • 最尤推定、ラグランジュの未定乗数法 • k-means法 前提知識 • 多変量正規分布 • 隠れ変数、混合モデル 今日の内容 • EM アルゴリズム 発展形 • 変分ベイズ、ノンパラベイズ 12年6月7日木曜日
  • 4. 発表の流れ • 【動機づけ】 混合正規分布モデルの紹介 • 【導入】EMアルゴリズム = 隠れ変数を仮定した最尤推定 • 【定式化】具体的な中身 • 【評価】 EMアルゴリズムの諸性質、一般論 なめ は少 数式 12年6月7日木曜日
  • 5. みんな大好きk-means法 • クラスタリングといえばこれ • 丸いクラスタができる • クラスタ内の分散が一定であ ることが暗に仮定 http://www.aishack.in/2010/07/k-means-clustering/ • クラスタのメンバーが同じくら いの数だけ存在することも暗 に仮定される • データに偏りがあるとうまくいかない http://www.kamishima.net/jp/clustering/ 12年6月7日木曜日
  • 6. そこで混合正規分布モデル (Gaussian Mixture Model; GMM) • データが複数の正規分布の 重ねあわせによって生成され たと考える。 K p(x;θ ) = ∑ π k N ( µ k , Σ k ) k=1 • 分散の違う分布でフィット 可能。柔軟性が高い • 事後確率最大となるような クラスタを決定すれば良い http://scikit-learn.org/stable/modules/mixture.html 12年6月7日木曜日
  • 7. GMMのパラメタを最尤推定で求めたいが… 混合比,平均, 分散共分散行列 の組(π,μ, ∑)をk個 K データ一つあたりの尤度は p(x;θ ) = ∑ π k N ( µk , Σ k ) だから、 k=1 i.i.dに生成した全データに対する対数尤度は N N K ln p(X;θ ) = ln ∏ p(x;θ ) = ∑ ln∑ π k N ( µ k , Σ k ) n=1 n=1 k=1 となる。 ただし、 不都合:logの中に足し算の形 logとexpがキャンセルされない K ∑π exp {(x − µ ) Σ (x − µ )}. 1 k = 1 , N ( µ, Σ) = T −1 k=1 2πΣ 混合正規分布の対数尤度関数は、ラグランジュの未定乗数法を 用いて直接最大化しようとしても、解析解が求まらない 12年6月7日木曜日
  • 8. 隠れ変数を導入する • データの生成過程を次の ようにモデル化する • まず、混合正規分布の どのクラスタに属する のかが決まる 今見えているデータXは不完全だ∼ 非観測な情報=隠れ変数Z p(Z=k)= πk • 決められた正規分布に 従ってデータが発生 p(x|Z=k;θ) = N (μk,∑k ) p(x;θ) = ∑ p(x|Z;θ)p(Z) Z = ∑ πk N(μk,∑k) k 潜在変数(ラベル)Zが与えられていると仮定 12年6月7日木曜日
  • 9. 都合のいい完全データ{X,Z} • データセットXの全ての要素に対して、 ラベル(隠れ変数)Zが分かっている状態 • 例えば, Zn=j の時、尤度は簡単な形に p(xn , zn = j;θ ) = π j N(xn ; µ j, Σ j ) • znk は、kがデータ xn のラベルならば1 , from Bishop PRML Chapter 9 p.433 それ以外なら0を取るメンバシップ変数 N K とすると、 ln p(X, Z;θ ) = ∑ ∑ znk {ln π k + ln N(xn ; µ k, Σ k )} n=1 k=1 • 完全データに対する対数尤度は次のよ logの中に足し算なし。 うになる 実質的な計算は正規分布一つの時と全く同じ 12年6月7日木曜日
  • 10. かね お 待ち EMアルゴリズム • 不完全データに対して、隠れ変数を仮定した場合の最尤推定法。 N • 本来解くべき問題はmax ln p(X;θ ) = ∑ ln∑ p(x | Z;θ )p(Z ) 不完全データの対数尤度 n=1 Z だが潜在変数の総和がlogの中に入っているため解析解が得られず。 • 無いものねだりで隠れ変数(ラベルデータ)Zが与えられていると仮定し て、完全データの対数尤度を最大化する。これは解析解OK N K ln p(X, Z;θ ) = ∑ ∑ znk {ln π k + ln N(xn ; µ k, Σ k )} n=1 k=1 • 隠れ変数(ラベルデータ)は直接知ることはできず、実際はZの事後確率 しか分からない。そこでラベルを推定するために、ひとまず前回のパ ラメタを利用する。(これが反復法になる理由) 12年6月7日木曜日
  • 11. EMアルゴリズム詳細 • INIT • 忘却-step(仮) • 不完全データのことは忘れる!! • これからは潜在変数を自分で推定し、 完全データで計算すると誓う • 適当な初期化パラメータθ を設定 old 12年6月7日木曜日
  • 12. Expectation Maximization • E-Step (Expectation) • 潜在変数を推定する • すなわち p(Z | X; θold)を計算する(Bayesの定理) • p(Z | X; θold)= p(X | Z; θold) p(Z; θold)/ p(X; θold) • M-Step(Maximization) • θnew = arg max Q(θ, θold) を計算する • ここで Q(θ ,θ old ) = ∑ Z p(Z | X;θ old ) ln p(X, Z;θ ) 完全データの対数尤度の 潜在変数の事後分布についての期待値 • θが収束するまで繰り返す 12年6月7日木曜日
  • 13. Q関数のおいしい性質 • じつはEMアルゴリズムの各ステップで ln p(X;θ) = Q(θ,θold) + const が成立。忘れていたはずの不完全データのmaxを 毎ステップ解いていたところがpoint • しかも、Q関数は各ステップで単調増加するの で、収束値の局所最適性が保証される! • (証明略) 12年6月7日木曜日
  • 14. 欠点 • EMはk-meansよりも遅い • 局所最適性しか保証しないので、大域的最適 解を得るには何度かrandom restartさせる必要 • クラスタ数Kはどうやって決めるの? • 勘、情報量基準、ノンパラベイズ 12年6月7日木曜日
  • 15. summary • EMアルゴリズムとは • 隠れ変数を仮定した場合の最尤推定法 • 隠れ変数が見える完全データの対数尤度は簡単に求まる • 隠れ変数をでっち上げる。現状のパラメタから求めた事 後確率についての期待値Q関数を求める(E-step) • ラグランジュの未定乗数法を用いてQ関数最大化(M-step) • 単調減少性 、局所最適性の保証 / ランダムリスタートの 必要 性 12年6月7日木曜日