続・わかりやすいパターン認識 9章

続・わかりやすいパターン認識
第9章混合分布のパラメータ推定

目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
2/35

目次
3/35

 9章以降では𝜔𝑖の扱いを一般化
【8章まで】
𝜔𝑖 ：コインまたはサイコロの種類
【9章以降】
𝜔𝑖 ：所属クラス、あるいはクラス
 第6章 EMアルゴリズムでは学習アルゴリズムの一般化を行った
推定対象のパラメータ：π𝑖(= 𝑃 𝜔𝑖 )、𝜃𝑖𝑘(= 𝑃(𝑣 𝑘|𝜔𝑖))
𝑚の値が大きくなり、パラメータ数が増大すると
⇒推定に要する計算量が膨大になる
𝑡回目の観察結果𝑥𝑡は𝑚種の候補𝑣1, 𝑣2, … , 𝑣 𝑚のいずれかを取ると
想定し、クラス𝜔𝑖に対する𝑚種のパラメータとして扱った
4/35

 𝑣 𝑘の扱いを変更
【8章まで】
𝑣 𝑘 : コインの表・裏、あるいはサイコロの目
もとから離散値
【9章】
𝑣 𝑘 : 𝑚種の数値
もとは連続値だが、𝑥を𝑚段階に量子化して離散値𝑣1, 𝑣2, … , 𝑣 𝑚に変換
量子化幅を𝛿とすると、確率関数𝑃 𝑣 𝑘 𝜔𝑖 は確率密度関数𝑝(𝑥|𝜔𝑖)を用いると
次式で表される
𝑃 𝑣 𝑘 𝜔𝑖 =
𝑣 𝑘−𝛿/2
𝑣 𝑘+𝛿/2
𝑝 𝑥 𝜔𝑖 𝑑𝑥 (9.1)
5/35

 例
ある𝜔𝑖に対して、パラメータ𝑃 𝑣 𝑘 𝜔𝑖 の値を推定すると以下になった
𝑝 𝑥 𝜔𝑖 =
1
2𝜋𝜎𝑖
exp −
1
2
𝑥 − 𝜇𝑖
2/𝜎𝑖
2
で表される場合、𝜔𝑖に対して𝑚種のパラメータ𝑃(𝑣 𝑘|𝜔𝑖)を推定する代わり
に、平均𝜇𝑖、分散𝜎𝑖
2
の二つのパラメータのみを推定すればよい
確率密度関数𝑝 𝑥 𝜔𝑖 が正規分布
(9.2)
m=9
正規分布に近似できそう
6/35

 学習の方法
パラメトリックな学習
確率密度関数を想定し、そのパラメータを観測データより推定する手法
識別関数の設計は、推定された確率密度関数を用いたベイズ決定則を実現
することで行われる
ノンパラメトリックな学習
確率密度関数を想定せず、観測データより直接識別関数の設計を行う方法
例：パーセプトロンやニューラルネットワークで用いられている学習法
 9章ではパラメトリックな学習法によるパラメータ推定を試みる
• クラス𝜔𝑖(𝑖 = 1,2, … , 𝑐)がそれぞれ異なった確率密度関数を有する
• 観測結果はこれら𝑐個の確立密度関数より成る混合分布に従うとする
• 観測データは独立で、マルコフ性はないものとする
7/35

 記法の確認
𝑝(𝑥|𝜔𝑖; 𝜽𝑖)：クラス𝜔𝑖の確率密度関数
𝜽𝑖：𝜔𝑖の確率密度関数に含まれるパラメータを表すベクトル
例）正規分布の場合は𝜽𝑖 = (𝜇𝑖, 𝜎𝑖
2
)
𝜽：パラメータベクトル
𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐)
𝜋𝑖：各クラスの事前確率𝑃 𝜔𝑖
𝑐種の確率密度関数の混合比を表す(𝑖 = 1, … , 𝑐)
以降のデータは順序関係を考慮しないので記法を変更
𝑥 𝑡, 𝑠𝑡(𝑡 = 1, … , 𝑛)⇒𝑥 𝑘, 𝑠 𝑘(𝑘 = 1, … , 𝑛)
𝐱 = 𝑥1 𝑥2 … 𝑥 𝑛, 𝐬 = 𝑠1 𝑠2 … 𝑠 𝑛 ⇒ 𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝑛 , 𝐬 = {𝑠1, 𝑠2, … , 𝑠 𝑛}
混合分布の確率密度関数
𝑝 𝑥 𝑘; 𝜽 =
𝑖=1
𝑐
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
順序関係を含まない順序関係を含む
(𝑘 = 1,2, … , 𝑛) (9.4)
(9.3)
8/35

目次
9/35

 教師付き学習では以下のような、完全データを得ることができる
(9.5)𝑥1, 𝑠1 , 𝑥2, 𝑠2 , … , (𝑥 𝑛, 𝑠 𝑛)
𝑠 𝑘 ∈ {𝜔1, 𝜔2, … , 𝜔𝑐} (𝑘 = 1,2, … , 𝑛) (9.6)
 マルコフ性がないので、このような観測結果が得られる尤度は次式で表される
𝑝 𝐱, 𝐬; 𝜽 =
𝑘=1
𝑛
𝑝(𝑥 𝑘, 𝑠 𝑘; 𝜽)
=
𝑘=1
𝑛
𝑃(𝑠 𝑘) ∙
𝑘=1
𝑛
𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
log 𝑝 𝐱, 𝐬; 𝜽 =
𝑘=1
𝑛
log 𝑃(𝑠 𝑘) +
𝑘=1
𝑛
log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
= 𝐿1 + 𝐿2
 以下の対数尤度は第5章と一致するので、同様の手順で𝐿1, 𝐿2をそれぞれ最大化すればよい
𝐿1 ≝
𝑘=1
𝑛
log 𝑃 𝑠 𝑘
𝐿2 ≝
𝑘=1
𝑛
(9.7)
(9.8)
(9.9)
(9.10)
(9.11)
(9.12)
10/35

 𝐿1最大化（第5章で既出のため計算は省略）
𝜋𝑖 =
𝑛𝑖
𝑛
𝐿1 ≝
𝑘=1
𝑛
log 𝑃 𝑠 𝑘
 𝐿2最大化
(9.11)
(9.12)
(9.13)
𝐿2 ≝
𝑘=1
𝑛
𝐿2 =
𝑖=1
𝑐
𝑥 𝑘∈𝜔 𝑖
log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14)
教師付きの場合は、各𝑥 𝑘の所属クラスがわかるので、クラスごとに分割して表すことができる
上式でΣ 𝑥 𝑘∈𝜔 𝑖
はクラス𝜔𝑖に属する𝑥 𝑘について和をとることを示す
11/35

 𝐿2最大化（続き）
𝐿2 =
𝑖=1
𝑐
log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14)
∇ 𝜽 𝑖
𝐿2 = 0
求めるべきパラメータ 𝜃𝑖は以下の解となる
𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある
(9.15)
(9.16)
𝐿2の推定はクラス𝜔𝑖ごとに行えばよい
∇ 𝜽 𝑖
𝐿2：勾配ベクトル
スカラ𝐿2を𝜽𝑖の各要素で偏微分することで得られるパラメータ
∇ 𝜽 𝑖
𝐿2 =
∇ 𝜽 𝑖
log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0
𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある
12/35

目次
13/35

log 𝑝(𝐱; 𝜽) =
𝑘=1
𝑛
log 𝑝 𝑥 𝑘; 𝜽 (9.17)
教師なしの場合、得られるデータは不完全データであり、観測できるのは𝑥 𝑘のみである
観測結果𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑛}から得られる対数尤度は次式となる
𝑖=1
𝑐
𝜋𝑖 = 1
𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆
𝑖=1
𝑐
𝜋𝑖 − 1
𝜕𝐿
𝜕𝜋𝑖
= 0
∇ 𝜽 𝑖
𝐿 = 0
(9.18)
(9.19)
(9.20)
(9.21)
最尤推定を適用し、以下制約条件の下で(9.17)を最大にする𝜽および𝜋𝑖を求める
最適なパラメータを得るには、ラグランジュの未定乗数法により、𝜆を定数として
次式が極値をとる𝜽および𝜋𝑖を求めればよい
以下の各式が成り立つことが必要
14/35

 パラメータ𝜋𝑖の推定（第5章で既出のため計算は省略）
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
(9.22)
 パラメータ𝜽𝑖の推定
𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆
𝑖=1
𝑐
𝜋𝑖 − 1 (9.19)
∇ 𝜽 𝑖
𝐿 = ∇ 𝜽 𝑖
log 𝑝(𝐱; 𝜽)
=
𝑘=1
𝑛
1
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑝(𝑥 𝑘; 𝜽)
=
𝑘=1
𝑛
1
∇ 𝜽 𝑖
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
=
𝑘=1
𝑛
𝜋𝑖
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0
𝑝 𝑥 𝑘; 𝜽 =
𝑖=1
𝑐
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (9.4)
(9.23)
(9.24)
(9.25)
(9.26)
15/35

 パラメータ𝜽𝑖の推定（続き）
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝑝(𝑥 𝑘; 𝜽)
∇ 𝜽 𝑖
𝐿 =
𝑘=1
𝑛
𝜋𝑖
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖
=
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∙
∇ 𝜽 𝑖
=
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
(9.26)
(9.27)
(9.28)
(9.29)
ベイズの定理(9.27)を用いて、式(9.26)を変形する
分子分母に𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)を掛ける
式(9.29)を満たす𝜽𝑖が求めるべき最適パラメータ 𝜃𝑖である
再帰的な表現となっているので、第5章同様に繰り返し演算を適用する
16/35

 混合分布のパラメータ推定
Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。
𝑗=1
𝑐
Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡.
𝑘=1
𝑛
Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.32)
(9.31)
(9.30)
本処理はEMアルゴリズムに対応しており、収束が保証されている
得られる解は大域的最適解であるとは限らない
17/35

 教師付きの場合との対比（𝜋𝑖 の推定）
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) (9.22)
1 (𝑥 𝑘∈ 𝜔𝑖)
0 (otherwise)
教師なしの場合
教師付きの場合、𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 は1または0の確定的な値を取る
式(9.22)に適用すると、教師付きの場合と一致する
𝜋𝑖 =
𝑛𝑖
𝑛
(9.33)
𝑘=1
𝑛
𝑃 𝜔𝑖|𝑥 𝑘; 𝜽 = 𝑛𝑖 (9.34)
式(9.33)より次式が成り立つ
(9.35)
 教師付きの場合との対比（𝜃𝑖 の推定）
𝜃𝑖も同様に教師付きの場合と一致する（計算略）
∇ 𝜽 𝑖
log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 (9.36)
18/35

 EMアルゴリズムとの関係
𝑄 𝜽0
, 𝜽 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝜋𝑖 +
𝑖=1
𝑐
𝑘=1
𝑛
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
= 𝑅1 + 𝑅2
𝑅1 ≝
𝑖=1
𝑐
𝑘=1
𝑛
) log 𝜋𝑖
𝑅2 ≝
𝑖=1
𝑐
𝑘=1
𝑛
EMアルゴリズムで導入されたQ関数は以下のように書ける
𝜽0
を定数とみなし、𝑄(𝜽0
, 𝜽)を最大化する𝜋𝑖および𝜽𝑖を求める
⇒𝑅1, 𝑅2をそれぞれ最大にすればよい
(9.37)
(9.38)
(9.39)
(9.40)
19/35

 𝑅1最大化（第6章で既出のため計算略）
𝑅1 =
𝑖=1
𝑐
𝑘=1
𝑛
) log 𝜋𝑖
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
 𝑅2最大化（第6章で既出のため計算略）
𝑅2 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑅2を最大化するには、𝑖ごとに独立に考え次式を最大化すればよい
パラメータ𝜽𝑖に関して最大化することになるので、上式を𝜽𝑖について偏微分して0とおく
𝑘=1
𝑛
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (𝑖 = 1,2, … , 𝑐)
𝑘=1
𝑛
) ∇ 𝜽 𝑖
(9.39)
(9.40)
(9.41)
(9.42)
(9.43)
式(9.41)、式(9.43)は教師なしでパラメータ推定を行った結果と一致（式(9.31)と式(9.32)）
⇒混合分布のパラメータ推定を教師なしで行う処理は、EMアルゴリズムに対応している
20/35

𝑗=1
𝑐
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑘=1
𝑛
Step2に戻る。
(9.32)
(9.31)
(9.30)
⇐E-step
（Q関数構成要素算出）
⇐M-step（Q関数の最大化）
21/35

目次
22/35

 混合正規分布
𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 =
1
2𝜋 𝑑/2 𝚺𝑖
1/2
exp −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
混合分布の確率密度関数として正規分布を考え、そのパラメータを教師なし学習
により推定する
一般化のため、スカラ𝑥 𝑘ではなく、𝑑次元ベクトル𝐱 𝑘を考える
クラス𝜔𝑖の確率密度関数
𝝁𝑖、𝚺𝑖は、それぞれクラス𝜔𝑖の平均ベクトル、共分散行列であり、推定すべき
パラメータである
ここで 𝚺𝑖 は𝚺𝑖の行列式である
𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)
𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐)
これまでの表記に従うと以下になる
(9.44)
(9.45)
(9.46)
次ページの計算手順を適用する
23/35

𝑗=1
𝑐
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑘=1
𝑛
Step2に戻る。
(9.32)
(9.31)
(9.30)
𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)のため、 𝝁𝑖, 𝚺𝑖でそれぞれ偏微分
24/35

𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
𝑘=1
𝑛
𝜕
𝜕𝚺𝑖
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
上式を解くと、以下となる（導出は次ページ以降）
(9.48)
(9.49)
25/35

 𝝁𝑖の導出
𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 =
1
2𝜋 𝑑/2 𝚺𝑖
1/2
exp −
1
2
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖) (9.44)
𝑘=1
𝑛
𝜕
𝜕𝝁𝑖
式(9.44)より
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = −
𝑑
2
log 2𝜋 −
1
2
log 𝚺𝑖 −
1
2
𝑡
𝚺𝑖
−1
𝜕
𝜕𝐱
𝐱 𝑡
𝐀𝐱 = 2𝐀𝐱
式(A.3.5)を用いると次式が成り立つ
(A.3.5)
※𝐱を𝑑次元の列ベクトル、𝐀
を 𝑑 × 𝑑 の対称行列とすると、
式(A.3.5)が成り立つ
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝚺𝑖
−1
(S.9.1)
式(S.9.1)に代入
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖) = 𝟎
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 = 𝟎
𝝁𝑖 =
𝑘=1
𝑛
𝑘=1
𝑛
𝚺𝑖を左から掛ける
(9.48)
𝐱 𝑡
𝐀 𝐱
26/35

 𝚺𝑖の導出
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = −
𝑑
2
log 2𝜋 −
1
2
log 𝚺𝑖 −
1
2
𝑡
𝚺𝑖
−1
𝜕
𝜕𝚺𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖)
= −
1
2
𝜕
𝜕𝚺𝑖
log 𝚺𝑖 −
1
2
𝜕
𝜕𝚺𝑖
𝑡
𝚺𝑖
−1
= −
1
2
𝚺𝑖
−1
−
1
2
𝜕
𝜕𝚺𝑖
tr 𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝜕
𝜕𝐗
log 𝐗 = 𝐗−1
𝜕
𝜕𝐗
tr 𝐗−1
𝐀 = −𝐗−1
𝐀𝐗−1
※𝐱, 𝐲を𝑑次元の列ベクトル、𝐀, 𝐗を
𝑑 × 𝑑の対称行列とすると、次式が成
り立つ
tr(B)は行列Bの体格成分の和を表す
𝐱 𝑡
𝐲 = tr 𝐱𝐲 𝑡
= tr(𝐲𝐱 𝑡
) (A.3.1)
(A.3.7)
(A.3.6)
式(A.3.6)適用式(A.3.1)適用
式(A.3.7)適用
= −
1
2
𝚺𝑖
−1
+
1
2
𝚺𝑖
−1
𝑡
𝚺𝑖
−1
= −
1
2
𝚺𝑖
−1
𝑡
− 𝚺𝑖 𝚺𝑖
−1
(S.9.2)
𝑘=1
𝑛
𝜕
𝜕𝚺𝑖
式(S.9.2)に代入
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖
−1
𝑡
− 𝚺𝑖 𝚺𝑖
−1
= 𝟎
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
− 𝚺𝑖 = 𝟎
𝚺𝑖 =
𝑘=1
𝑛
𝑡
𝑘=1
𝑛
(9.49)
左右から𝚺𝑖を掛ける
27/35

𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
 パラメータ𝜋𝑖の推定
これまでと同様の計算で推定可能
(9.50)
 教師付き学習の場合
𝝁𝑖 =
1
𝑛𝑖
𝐱 𝑘∈𝜔 𝑖
𝐱 𝑘
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 =
1 (𝐱 𝑘∈ 𝜔𝑖)
0 (otherwise)
𝑘=1
𝑛
𝑃 𝜔𝑖|𝐱 𝑘; 𝜽 = 𝑛𝑖
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝝁𝑖 =
𝑘=1
𝑛
𝑘=1
𝑛
𝚺𝑖 =
𝑘=1
𝑛
𝑡
𝑘=1
𝑛
𝚺𝑖 =
1
𝑛𝑖
𝐱 𝑘∈𝜔 𝑖
(𝐱 𝑘− 𝝁𝑖) 𝐱 𝑘 − 𝝁𝑖
𝑡
𝜋𝑖 =
𝑛𝑖
𝑛
所属クラスが陽に与えられるので次式が成り立つ
教師なし教師付き
28/35

 混合正規分布のパラメータ推定
Step1 事前確率𝜋𝑖および𝝁𝑖, 𝚺𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝐱 𝑘に対して𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝐱 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝝁𝑖, 𝚺𝑖を更新し、新しい 𝜋𝑖, 𝝁𝑖, 𝚺𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝝁𝑖 =
𝑘=1
𝑛
𝑘=1
𝑛
𝚺𝑖 =
𝑘=1
𝑛
𝑡
𝑘=1
𝑛
Step4 𝜋𝑖 = 𝜋𝑖、𝝁𝑖 = 𝝁𝑖、𝚺𝑖 = 𝚺𝑖と設定する。
Step2に戻る。
(9.56)
(9.57)
(9.58)
(9.59)
29/35

目次
30/35

 教師なし学習による、2種の一次元正規分布より成る混合分布のパラメータ推定実験
• クラス数𝑐 = 2
• パラメータは𝜽1 = 𝜇1, 𝜎1
2
, 𝜽2 = 𝜇2, 𝜎2
2
• 真値は𝜇1 = 3, 𝜇2 = −1, 𝜎1
2
= 𝜎2
2
= 1, 𝜋1 = 0.6, 𝜋2 = 0.4
• 未知パラメータは𝜇1, 𝜇2のみで、他は既知とする
• 乱数により500個のデータを発生
対数尤度log 𝑝(𝐱; 𝜽)の等高線
初期値
(𝜇1, 𝜇2) = (−2, −3)
大域的最適解
推定結果
(𝜇1, 𝜇2) = (3.06, −1.17)
初期値
(𝜇1, 𝜇2) = (−3, −2)
log 𝑝(𝐱; 𝜽) = −1068.5
log 𝑝(𝐱; 𝜽) = −1026.6
局所最適解
𝜋1 = 𝜋2 = 0.5の場合は対数尤度の値は等しくなるので、解は双方が候補となり唯一に定まらない
12回の繰り返しで収束
31/35

 教師なし学習による、5種の二次元正規分布より成る混合分布のパラメータ推定実験
• クラス数𝑐 = 5
• クラス𝜔𝑖に関する未知パラメータは事前確率𝜋𝑖とパラメータ𝜽𝑖 = 𝝁𝑖, 𝚺𝑖 (𝑖 = 1,2, … , 5)
• クラス𝜔1, … , 𝜔5に対するパターン数：200, 100, 100, 50, 50（計500パターン）
• 事前確率𝜋1~𝜋5：0.4, 0.2, 0.2, 0.1, 0.1
𝐱 = 𝑥1, 𝑥2
𝑡
を発生させプロット
事前確率に比例する太さで等高線を描画
32/35

 パラメータの初期値
良い値が得られている
真値
推定結果
𝝁𝑖：等間隔に並べた値（図参照）
𝚺𝑖 =
1 0
0 1
(𝑖 = 1, … , 5)
𝜋𝑖 = 0.2 (𝑖 = 1, … , 5)
33/35

 対数尤度、事前確率の変化
• 対数尤度は繰り返しとともに増大している
• 事前確率は0.2から始まり、途中で収束し、正しい値が得られている
34/35

 クラスタリングについて
• 混合分布のパラメータ推定はクラスタリング法としても有用
• K-means法は、混合正規分布のパラメータ推定の特別な場合（10.4節参照）
• 混合正規分布のパラメータ推定において、クラス(分布関数)の数𝑐を事前に設定する必要がある
【解決策】
 複数候補の𝑐に対しパラメータ推定を行い、最良の結果を選択⇐効率的ではない
 想定される値よりもやや大きめの値に𝑐を設定し、パラメータ推定処理を実施
無駄な分布関数の事前確率は0に近づき、必要な分布関数の事前確率は非零で残る
𝜔6~𝜔9の事前確率は0に近づいているものの、𝜋6 = 0.126と比較的大きいものも存在
𝑐を大きくした場合に得られる解は、局所的最適解であることがほとんど
この考え方で大域的最適解を求める方法が凸クラスタリング（次章で紹介）
𝑐=9として実行
35/35

続・わかりやすいパターン認識 9章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 続・わかりやすいパターン認識 9章

Similar to 続・わかりやすいパターン認識 9章 (20)

続・わかりやすいパターン認識 9章