続・わかりやすいパターン認識
第9章 混合分布のパラメータ推定
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
2/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
3/35
9.1 混合分布に対するパラメトリックな学習
 9章以降では𝜔𝑖の扱いを一般化
【8章まで】
𝜔𝑖 :コインまたはサイコロの種類
【9章以降】
𝜔𝑖 :所属クラス、あるいはクラス
 第6章 EMアルゴリズムでは学習アルゴリズムの一般化を行った
推定対象のパラメータ:π𝑖(= 𝑃 𝜔𝑖 )、𝜃𝑖𝑘(= 𝑃(𝑣 𝑘|𝜔𝑖))
𝑚の値が大きくなり、パラメータ数が増大すると
⇒推定に要する計算量が膨大になる
𝑡回目の観察結果𝑥𝑡は𝑚種の候補𝑣1, 𝑣2, … , 𝑣 𝑚のいずれかを取ると
想定し、クラス𝜔𝑖に対する𝑚種のパラメータとして扱った
4/35
9.1 混合分布に対するパラメトリックな学習
 𝑣 𝑘の扱いを変更
【8章まで】
𝑣 𝑘 : コインの表・裏、あるいはサイコロの目
もとから離散値
【9章】
𝑣 𝑘 : 𝑚種の数値
もとは連続値だが、𝑥を𝑚段階に量子化して離散値𝑣1, 𝑣2, … , 𝑣 𝑚に変換
量子化幅を𝛿とすると、確率関数𝑃 𝑣 𝑘 𝜔𝑖 は確率密度関数𝑝(𝑥|𝜔𝑖)を用いると
次式で表される
𝑃 𝑣 𝑘 𝜔𝑖 =
𝑣 𝑘−𝛿/2
𝑣 𝑘+𝛿/2
𝑝 𝑥 𝜔𝑖 𝑑𝑥 (9.1)
5/35
9.1 混合分布に対するパラメトリックな学習
 例
ある𝜔𝑖に対して、パラメータ𝑃 𝑣 𝑘 𝜔𝑖 の値を推定すると以下になった
𝑝 𝑥 𝜔𝑖 =
1
2𝜋𝜎𝑖
exp −
1
2
𝑥 − 𝜇𝑖
2/𝜎𝑖
2
で表される場合、𝜔𝑖に対して𝑚種のパラメータ𝑃(𝑣 𝑘|𝜔𝑖)を推定する代わり
に、平均𝜇𝑖、分散𝜎𝑖
2
の二つのパラメータのみを推定すればよい
確率密度関数𝑝 𝑥 𝜔𝑖 が正規分布
(9.2)
m=9
正規分布に近似できそう
6/35
9.1 混合分布に対するパラメトリックな学習
 学習の方法
パラメトリックな学習
確率密度関数を想定し、そのパラメータを観測データより推定する手法
識別関数の設計は、推定された確率密度関数を用いたベイズ決定則を実現
することで行われる
ノンパラメトリックな学習
確率密度関数を想定せず、観測データより直接識別関数の設計を行う方法
例:パーセプトロンやニューラルネットワークで用いられている学習法
 9章ではパラメトリックな学習法によるパラメータ推定を試みる
• クラス𝜔𝑖(𝑖 = 1,2, … , 𝑐)がそれぞれ異なった確率密度関数を有する
• 観測結果はこれら𝑐個の確立密度関数より成る混合分布に従うとする
• 観測データは独立で、マルコフ性はないものとする
7/35
9.1 混合分布に対するパラメトリックな学習
 記法の確認
𝑝(𝑥|𝜔𝑖; 𝜽𝑖):クラス𝜔𝑖の確率密度関数
𝜽𝑖:𝜔𝑖の確率密度関数に含まれるパラメータを表すベクトル
例)正規分布の場合は𝜽𝑖 = (𝜇𝑖, 𝜎𝑖
2
)
𝜽:パラメータベクトル
𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐)
𝜋𝑖:各クラスの事前確率𝑃 𝜔𝑖
𝑐種の確率密度関数の混合比を表す(𝑖 = 1, … , 𝑐)
以降のデータは順序関係を考慮しないので記法を変更
𝑥 𝑡, 𝑠𝑡(𝑡 = 1, … , 𝑛)⇒𝑥 𝑘, 𝑠 𝑘(𝑘 = 1, … , 𝑛)
𝐱 = 𝑥1 𝑥2 … 𝑥 𝑛, 𝐬 = 𝑠1 𝑠2 … 𝑠 𝑛 ⇒ 𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝑛 , 𝐬 = {𝑠1, 𝑠2, … , 𝑠 𝑛}
混合分布の確率密度関数
𝑝 𝑥 𝑘; 𝜽 =
𝑖=1
𝑐
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
順序関係を含まない順序関係を含む
(𝑘 = 1,2, … , 𝑛) (9.4)
(9.3)
8/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
9/35
9.2 教師付き学習によるパラメータ推定
 教師付き学習では以下のような、完全データを得ることができる
(9.5)𝑥1, 𝑠1 , 𝑥2, 𝑠2 , … , (𝑥 𝑛, 𝑠 𝑛)
𝑠 𝑘 ∈ {𝜔1, 𝜔2, … , 𝜔𝑐} (𝑘 = 1,2, … , 𝑛) (9.6)
 マルコフ性がないので、このような観測結果が得られる尤度は次式で表される
𝑝 𝐱, 𝐬; 𝜽 =
𝑘=1
𝑛
𝑝(𝑥 𝑘, 𝑠 𝑘; 𝜽)
=
𝑘=1
𝑛
𝑃(𝑠 𝑘) ∙
𝑘=1
𝑛
𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
log 𝑝 𝐱, 𝐬; 𝜽 =
𝑘=1
𝑛
log 𝑃(𝑠 𝑘) +
𝑘=1
𝑛
log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
= 𝐿1 + 𝐿2
 以下の対数尤度は第5章と一致するので、同様の手順で𝐿1, 𝐿2をそれぞれ最大化すればよい
𝐿1 ≝
𝑘=1
𝑛
log 𝑃 𝑠 𝑘
𝐿2 ≝
𝑘=1
𝑛
log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
(9.7)
(9.8)
(9.9)
(9.10)
(9.11)
(9.12)
10/35
9.2 教師付き学習によるパラメータ推定
 𝐿1最大化(第5章で既出のため計算は省略)
𝜋𝑖 =
𝑛𝑖
𝑛
𝐿1 ≝
𝑘=1
𝑛
log 𝑃 𝑠 𝑘
 𝐿2最大化
(9.11)
(9.12)
(9.13)
𝐿2 ≝
𝑘=1
𝑛
log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
𝐿2 =
𝑖=1
𝑐
𝑥 𝑘∈𝜔 𝑖
log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14)
教師付きの場合は、各𝑥 𝑘の所属クラスがわかるので、クラスごとに分割して表すことができる
上式でΣ 𝑥 𝑘∈𝜔 𝑖
はクラス𝜔𝑖に属する𝑥 𝑘について和をとることを示す
11/35
9.2 教師付き学習によるパラメータ推定
 𝐿2最大化(続き)
𝐿2 =
𝑖=1
𝑐
𝑥 𝑘∈𝜔 𝑖
log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14)
∇ 𝜽 𝑖
𝐿2 = 0
求めるべきパラメータ 𝜃𝑖は以下の解となる
𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある
(9.15)
(9.16)
𝐿2の推定はクラス𝜔𝑖ごとに行えばよい
∇ 𝜽 𝑖
𝐿2:勾配ベクトル
スカラ𝐿2を𝜽𝑖の各要素で偏微分することで得られるパラメータ
∇ 𝜽 𝑖
𝐿2 =
𝑥 𝑘∈𝜔 𝑖
∇ 𝜽 𝑖
log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0
𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある
12/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
13/35
9.3 教師なし学習によるパラメータ推定
log 𝑝(𝐱; 𝜽) =
𝑘=1
𝑛
log 𝑝 𝑥 𝑘; 𝜽 (9.17)
教師なしの場合、得られるデータは不完全データであり、観測できるのは𝑥 𝑘のみである
観測結果𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑛}から得られる対数尤度は次式となる
𝑖=1
𝑐
𝜋𝑖 = 1
𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆
𝑖=1
𝑐
𝜋𝑖 − 1
𝜕𝐿
𝜕𝜋𝑖
= 0
∇ 𝜽 𝑖
𝐿 = 0
(9.18)
(9.19)
(9.20)
(9.21)
最尤推定を適用し、以下制約条件の下で(9.17)を最大にする𝜽および𝜋𝑖を求める
最適なパラメータを得るには、ラグランジュの未定乗数法により、𝜆を定数として
次式が極値をとる𝜽および𝜋𝑖を求めればよい
以下の各式が成り立つことが必要
14/35
9.3 教師なし学習によるパラメータ推定
 パラメータ𝜋𝑖の推定(第5章で既出のため計算は省略)
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
(9.22)
 パラメータ𝜽𝑖の推定
𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆
𝑖=1
𝑐
𝜋𝑖 − 1 (9.19)
∇ 𝜽 𝑖
𝐿 = ∇ 𝜽 𝑖
log 𝑝(𝐱; 𝜽)
=
𝑘=1
𝑛
1
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑝(𝑥 𝑘; 𝜽)
=
𝑘=1
𝑛
1
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
=
𝑘=1
𝑛
𝜋𝑖
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0
𝑝 𝑥 𝑘; 𝜽 =
𝑖=1
𝑐
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (9.4)
(9.23)
(9.24)
(9.25)
(9.26)
15/35
9.3 教師なし学習によるパラメータ推定
 パラメータ𝜽𝑖の推定(続き)
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑝(𝑥 𝑘; 𝜽)
∇ 𝜽 𝑖
𝐿 =
𝑘=1
𝑛
𝜋𝑖
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖
=
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∙
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖
=
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
(9.26)
(9.27)
(9.28)
(9.29)
ベイズの定理(9.27)を用いて、式(9.26)を変形する
分子分母に𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)を掛ける
式(9.29)を満たす𝜽𝑖が求めるべき最適パラメータ 𝜃𝑖である
再帰的な表現となっているので、第5章同様に繰り返し演算を適用する
16/35
9.3 教師なし学習によるパラメータ推定
 混合分布のパラメータ推定
Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡.
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.32)
(9.31)
(9.30)
本処理はEMアルゴリズムに対応しており、収束が保証されている
得られる解は大域的最適解であるとは限らない
17/35
9.3 教師なし学習によるパラメータ推定
 教師付きの場合との対比(𝜋𝑖 の推定)
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) (9.22)
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
1 (𝑥 𝑘∈ 𝜔𝑖)
0 (otherwise)
教師なしの場合
教師付きの場合、𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 は1または0の確定的な値を取る
式(9.22)に適用すると、教師付きの場合と一致する
𝜋𝑖 =
𝑛𝑖
𝑛
(9.33)
𝑘=1
𝑛
𝑃 𝜔𝑖|𝑥 𝑘; 𝜽 = 𝑛𝑖 (9.34)
式(9.33)より次式が成り立つ
(9.35)
 教師付きの場合との対比(𝜃𝑖 の推定)
𝜃𝑖も同様に教師付きの場合と一致する(計算略)
𝑥 𝑘∈𝜔 𝑖
∇ 𝜽 𝑖
log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 (9.36)
18/35
9.3 教師なし学習によるパラメータ推定
 EMアルゴリズムとの関係
𝑄 𝜽0
, 𝜽 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝜋𝑖 +
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
= 𝑅1 + 𝑅2
𝑅1 ≝
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝜋𝑖
𝑅2 ≝
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
EMアルゴリズムで導入されたQ関数は以下のように書ける
𝜽0
を定数とみなし、𝑄(𝜽0
, 𝜽)を最大化する𝜋𝑖および𝜽𝑖を求める
⇒𝑅1, 𝑅2をそれぞれ最大にすればよい
(9.37)
(9.38)
(9.39)
(9.40)
19/35
9.3 教師なし学習によるパラメータ推定
 𝑅1最大化(第6章で既出のため計算略)
𝑅1 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝜋𝑖
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
 𝑅2最大化(第6章で既出のため計算略)
𝑅2 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑅2を最大化するには、𝑖ごとに独立に考え次式を最大化すればよい
パラメータ𝜽𝑖に関して最大化することになるので、上式を𝜽𝑖について偏微分して0とおく
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (𝑖 = 1,2, … , 𝑐)
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
(9.39)
(9.40)
(9.41)
(9.42)
(9.43)
式(9.41)、式(9.43)は教師なしでパラメータ推定を行った結果と一致(式(9.31)と式(9.32))
⇒混合分布のパラメータ推定を教師なしで行う処理は、EMアルゴリズムに対応している
20/35
9.3 教師なし学習によるパラメータ推定
 混合分布のパラメータ推定
Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡.
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.32)
(9.31)
(9.30)
本処理はEMアルゴリズムに対応しており、収束が保証されている
得られる解は大域的最適解であるとは限らない
⇐E-step
(Q関数構成要素算出)
⇐M-step(Q関数の最大化)
21/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
22/35
9.4 混合正規分布のパラメータ推定
 混合正規分布
𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 =
1
2𝜋 𝑑/2 𝚺𝑖
1/2
exp −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
混合分布の確率密度関数として正規分布を考え、そのパラメータを教師なし学習
により推定する
一般化のため、スカラ𝑥 𝑘ではなく、𝑑次元ベクトル𝐱 𝑘を考える
クラス𝜔𝑖の確率密度関数
𝝁𝑖、𝚺𝑖は、それぞれクラス𝜔𝑖の平均ベクトル、共分散行列であり、推定すべき
パラメータである
ここで 𝚺𝑖 は𝚺𝑖の行列式である
𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)
𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐)
これまでの表記に従うと以下になる
(9.44)
(9.45)
(9.46)
次ページの計算手順を適用する
23/35
9.3 教師なし学習によるパラメータ推定
 混合分布のパラメータ推定
Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡.
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.32)
(9.31)
(9.30)
本処理はEMアルゴリズムに対応しており、収束が保証されている
得られる解は大域的最適解であるとは限らない
𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)のため、 𝝁𝑖, 𝚺𝑖でそれぞれ偏微分
24/35
9.4 混合正規分布のパラメータ推定
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝚺𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
上式を解くと、以下となる(導出は次ページ以降)
(9.48)
(9.49)
25/35
9.4 混合正規分布のパラメータ推定
 𝝁𝑖の導出
𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 =
1
2𝜋 𝑑/2 𝚺𝑖
1/2
exp −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖) (9.44)
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
式(9.44)より
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = −
𝑑
2
log 2𝜋 −
1
2
log 𝚺𝑖 −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
𝜕
𝜕𝐱
𝐱 𝑡
𝐀𝐱 = 2𝐀𝐱
式(A.3.5)を用いると次式が成り立つ
(A.3.5)
※𝐱を𝑑次元の列ベクトル、𝐀
を 𝑑 × 𝑑 の対称行列とすると、
式(A.3.5)が成り立つ
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
(S.9.1)
式(S.9.1)に代入
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖) = 𝟎
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 = 𝟎
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖を左から掛ける
(9.48)
𝐱 𝑡
𝐀 𝐱
26/35
9.4 混合正規分布のパラメータ推定
 𝚺𝑖の導出
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = −
𝑑
2
log 2𝜋 −
1
2
log 𝚺𝑖 −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
𝜕
𝜕𝚺𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖)
= −
1
2
𝜕
𝜕𝚺𝑖
log 𝚺𝑖 −
1
2
𝜕
𝜕𝚺𝑖
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖
= −
1
2
𝚺𝑖
−1
−
1
2
𝜕
𝜕𝚺𝑖
tr 𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝜕
𝜕𝐗
log 𝐗 = 𝐗−1
𝜕
𝜕𝐗
tr 𝐗−1
𝐀 = −𝐗−1
𝐀𝐗−1
※𝐱, 𝐲を𝑑次元の列ベクトル、𝐀, 𝐗を
𝑑 × 𝑑の対称行列とすると、次式が成
り立つ
tr(B)は行列Bの体格成分の和を表す
𝐱 𝑡
𝐲 = tr 𝐱𝐲 𝑡
= tr(𝐲𝐱 𝑡
) (A.3.1)
(A.3.7)
(A.3.6)
式(A.3.6)適用 式(A.3.1)適用
式(A.3.7)適用
= −
1
2
𝚺𝑖
−1
+
1
2
𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
= −
1
2
𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
− 𝚺𝑖 𝚺𝑖
−1
(S.9.2)
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝚺𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
式(S.9.2)に代入
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
− 𝚺𝑖 𝚺𝑖
−1
= 𝟎
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
− 𝚺𝑖 = 𝟎
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
(9.49)
左右から𝚺𝑖を掛ける
27/35
9.4 混合正規分布のパラメータ推定
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
 パラメータ𝜋𝑖の推定
これまでと同様の計算で推定可能
(9.50)
 教師付き学習の場合
𝝁𝑖 =
1
𝑛𝑖
𝐱 𝑘∈𝜔 𝑖
𝐱 𝑘
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 =
1 (𝐱 𝑘∈ 𝜔𝑖)
0 (otherwise)
𝑘=1
𝑛
𝑃 𝜔𝑖|𝐱 𝑘; 𝜽 = 𝑛𝑖
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖 =
1
𝑛𝑖
𝐱 𝑘∈𝜔 𝑖
(𝐱 𝑘− 𝝁𝑖) 𝐱 𝑘 − 𝝁𝑖
𝑡
𝜋𝑖 =
𝑛𝑖
𝑛
所属クラスが陽に与えられるので次式が成り立つ
教師なし 教師付き
28/35
9.4 混合正規分布のパラメータ推定
 混合正規分布のパラメータ推定
Step1 事前確率𝜋𝑖および𝝁𝑖, 𝚺𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝐱 𝑘に対して𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝐱 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝝁𝑖, 𝚺𝑖を更新し、新しい 𝜋𝑖, 𝝁𝑖, 𝚺𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
Step4 𝜋𝑖 = 𝜋𝑖、𝝁𝑖 = 𝝁𝑖、𝚺𝑖 = 𝚺𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.56)
(9.57)
(9.58)
(9.59)
29/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
30/35
9.5 混合正規分布のパラメータ推定実験
 教師なし学習による、2種の一次元正規分布より成る混合分布のパラメータ推定実験
• クラス数𝑐 = 2
• パラメータは𝜽1 = 𝜇1, 𝜎1
2
, 𝜽2 = 𝜇2, 𝜎2
2
• 真値は𝜇1 = 3, 𝜇2 = −1, 𝜎1
2
= 𝜎2
2
= 1, 𝜋1 = 0.6, 𝜋2 = 0.4
• 未知パラメータは𝜇1, 𝜇2のみで、他は既知とする
• 乱数により500個のデータを発生
対数尤度log 𝑝(𝐱; 𝜽)の等高線
初期値
(𝜇1, 𝜇2) = (−2, −3)
大域的最適解
推定結果
(𝜇1, 𝜇2) = (3.06, −1.17)
初期値
(𝜇1, 𝜇2) = (−3, −2)
log 𝑝(𝐱; 𝜽) = −1068.5
log 𝑝(𝐱; 𝜽) = −1026.6
局所最適解
𝜋1 = 𝜋2 = 0.5の場合は対数尤度の値は等しくなるので、解は双方が候補となり唯一に定まらない
12回の繰り返しで収束
31/35
9.5 混合正規分布のパラメータ推定実験
 教師なし学習による、5種の二次元正規分布より成る混合分布のパラメータ推定実験
• クラス数𝑐 = 5
• クラス𝜔𝑖に関する未知パラメータは事前確率𝜋𝑖とパラメータ𝜽𝑖 = 𝝁𝑖, 𝚺𝑖 (𝑖 = 1,2, … , 5)
• クラス𝜔1, … , 𝜔5に対するパターン数:200, 100, 100, 50, 50(計500パターン)
• 事前確率𝜋1~𝜋5:0.4, 0.2, 0.2, 0.1, 0.1
𝐱 = 𝑥1, 𝑥2
𝑡
を発生させプロット
事前確率に比例する太さで等高線を描画
32/35
9.5 混合正規分布のパラメータ推定実験
 パラメータの初期値
良い値が得られている
真値
推定結果
𝝁𝑖:等間隔に並べた値(図参照)
𝚺𝑖 =
1 0
0 1
(𝑖 = 1, … , 5)
𝜋𝑖 = 0.2 (𝑖 = 1, … , 5)
33/35
9.5 混合正規分布のパラメータ推定実験
 対数尤度、事前確率の変化
• 対数尤度は繰り返しとともに増大している
• 事前確率は0.2から始まり、途中で収束し、正しい値が得られている
34/35
9.5 混合正規分布のパラメータ推定実験
 クラスタリングについて
• 混合分布のパラメータ推定はクラスタリング法としても有用
• K-means法は、混合正規分布のパラメータ推定の特別な場合(10.4節参照)
• 混合正規分布のパラメータ推定において、クラス(分布関数)の数𝑐を事前に設定する必要がある
【解決策】
 複数候補の𝑐に対しパラメータ推定を行い、最良の結果を選択⇐効率的ではない
 想定される値よりもやや大きめの値に𝑐を設定し、パラメータ推定処理を実施
無駄な分布関数の事前確率は0に近づき、必要な分布関数の事前確率は非零で残る
𝜔6~𝜔9の事前確率は0に近づいているものの、𝜋6 = 0.126と比較的大きいものも存在
𝑐を大きくした場合に得られる解は、局所的最適解であることがほとんど
この考え方で大域的最適解を求める方法が凸クラスタリング(次章で紹介)
𝑐=9として実行
35/35

続・わかりやすいパターン認識 9章

  • 1.
  • 2.
    目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 2/35
  • 3.
    目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 3/35
  • 4.
    9.1 混合分布に対するパラメトリックな学習  9章以降では𝜔𝑖の扱いを一般化 【8章まで】 𝜔𝑖:コインまたはサイコロの種類 【9章以降】 𝜔𝑖 :所属クラス、あるいはクラス  第6章 EMアルゴリズムでは学習アルゴリズムの一般化を行った 推定対象のパラメータ:π𝑖(= 𝑃 𝜔𝑖 )、𝜃𝑖𝑘(= 𝑃(𝑣 𝑘|𝜔𝑖)) 𝑚の値が大きくなり、パラメータ数が増大すると ⇒推定に要する計算量が膨大になる 𝑡回目の観察結果𝑥𝑡は𝑚種の候補𝑣1, 𝑣2, … , 𝑣 𝑚のいずれかを取ると 想定し、クラス𝜔𝑖に対する𝑚種のパラメータとして扱った 4/35
  • 5.
    9.1 混合分布に対するパラメトリックな学習  𝑣𝑘の扱いを変更 【8章まで】 𝑣 𝑘 : コインの表・裏、あるいはサイコロの目 もとから離散値 【9章】 𝑣 𝑘 : 𝑚種の数値 もとは連続値だが、𝑥を𝑚段階に量子化して離散値𝑣1, 𝑣2, … , 𝑣 𝑚に変換 量子化幅を𝛿とすると、確率関数𝑃 𝑣 𝑘 𝜔𝑖 は確率密度関数𝑝(𝑥|𝜔𝑖)を用いると 次式で表される 𝑃 𝑣 𝑘 𝜔𝑖 = 𝑣 𝑘−𝛿/2 𝑣 𝑘+𝛿/2 𝑝 𝑥 𝜔𝑖 𝑑𝑥 (9.1) 5/35
  • 6.
    9.1 混合分布に対するパラメトリックな学習  例 ある𝜔𝑖に対して、パラメータ𝑃𝑣 𝑘 𝜔𝑖 の値を推定すると以下になった 𝑝 𝑥 𝜔𝑖 = 1 2𝜋𝜎𝑖 exp − 1 2 𝑥 − 𝜇𝑖 2/𝜎𝑖 2 で表される場合、𝜔𝑖に対して𝑚種のパラメータ𝑃(𝑣 𝑘|𝜔𝑖)を推定する代わり に、平均𝜇𝑖、分散𝜎𝑖 2 の二つのパラメータのみを推定すればよい 確率密度関数𝑝 𝑥 𝜔𝑖 が正規分布 (9.2) m=9 正規分布に近似できそう 6/35
  • 7.
    9.1 混合分布に対するパラメトリックな学習  学習の方法 パラメトリックな学習 確率密度関数を想定し、そのパラメータを観測データより推定する手法 識別関数の設計は、推定された確率密度関数を用いたベイズ決定則を実現 することで行われる ノンパラメトリックな学習 確率密度関数を想定せず、観測データより直接識別関数の設計を行う方法 例:パーセプトロンやニューラルネットワークで用いられている学習法 9章ではパラメトリックな学習法によるパラメータ推定を試みる • クラス𝜔𝑖(𝑖 = 1,2, … , 𝑐)がそれぞれ異なった確率密度関数を有する • 観測結果はこれら𝑐個の確立密度関数より成る混合分布に従うとする • 観測データは独立で、マルコフ性はないものとする 7/35
  • 8.
    9.1 混合分布に対するパラメトリックな学習  記法の確認 𝑝(𝑥|𝜔𝑖;𝜽𝑖):クラス𝜔𝑖の確率密度関数 𝜽𝑖:𝜔𝑖の確率密度関数に含まれるパラメータを表すベクトル 例)正規分布の場合は𝜽𝑖 = (𝜇𝑖, 𝜎𝑖 2 ) 𝜽:パラメータベクトル 𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐) 𝜋𝑖:各クラスの事前確率𝑃 𝜔𝑖 𝑐種の確率密度関数の混合比を表す(𝑖 = 1, … , 𝑐) 以降のデータは順序関係を考慮しないので記法を変更 𝑥 𝑡, 𝑠𝑡(𝑡 = 1, … , 𝑛)⇒𝑥 𝑘, 𝑠 𝑘(𝑘 = 1, … , 𝑛) 𝐱 = 𝑥1 𝑥2 … 𝑥 𝑛, 𝐬 = 𝑠1 𝑠2 … 𝑠 𝑛 ⇒ 𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝑛 , 𝐬 = {𝑠1, 𝑠2, … , 𝑠 𝑛} 混合分布の確率密度関数 𝑝 𝑥 𝑘; 𝜽 = 𝑖=1 𝑐 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 順序関係を含まない順序関係を含む (𝑘 = 1,2, … , 𝑛) (9.4) (9.3) 8/35
  • 9.
    目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 9/35
  • 10.
    9.2 教師付き学習によるパラメータ推定  教師付き学習では以下のような、完全データを得ることができる (9.5)𝑥1,𝑠1 , 𝑥2, 𝑠2 , … , (𝑥 𝑛, 𝑠 𝑛) 𝑠 𝑘 ∈ {𝜔1, 𝜔2, … , 𝜔𝑐} (𝑘 = 1,2, … , 𝑛) (9.6)  マルコフ性がないので、このような観測結果が得られる尤度は次式で表される 𝑝 𝐱, 𝐬; 𝜽 = 𝑘=1 𝑛 𝑝(𝑥 𝑘, 𝑠 𝑘; 𝜽) = 𝑘=1 𝑛 𝑃(𝑠 𝑘) ∙ 𝑘=1 𝑛 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) log 𝑝 𝐱, 𝐬; 𝜽 = 𝑘=1 𝑛 log 𝑃(𝑠 𝑘) + 𝑘=1 𝑛 log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) = 𝐿1 + 𝐿2  以下の対数尤度は第5章と一致するので、同様の手順で𝐿1, 𝐿2をそれぞれ最大化すればよい 𝐿1 ≝ 𝑘=1 𝑛 log 𝑃 𝑠 𝑘 𝐿2 ≝ 𝑘=1 𝑛 log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) (9.7) (9.8) (9.9) (9.10) (9.11) (9.12) 10/35
  • 11.
    9.2 教師付き学習によるパラメータ推定  𝐿1最大化(第5章で既出のため計算は省略) 𝜋𝑖= 𝑛𝑖 𝑛 𝐿1 ≝ 𝑘=1 𝑛 log 𝑃 𝑠 𝑘  𝐿2最大化 (9.11) (9.12) (9.13) 𝐿2 ≝ 𝑘=1 𝑛 log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) 𝐿2 = 𝑖=1 𝑐 𝑥 𝑘∈𝜔 𝑖 log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14) 教師付きの場合は、各𝑥 𝑘の所属クラスがわかるので、クラスごとに分割して表すことができる 上式でΣ 𝑥 𝑘∈𝜔 𝑖 はクラス𝜔𝑖に属する𝑥 𝑘について和をとることを示す 11/35
  • 12.
    9.2 教師付き学習によるパラメータ推定  𝐿2最大化(続き) 𝐿2= 𝑖=1 𝑐 𝑥 𝑘∈𝜔 𝑖 log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14) ∇ 𝜽 𝑖 𝐿2 = 0 求めるべきパラメータ 𝜃𝑖は以下の解となる 𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある (9.15) (9.16) 𝐿2の推定はクラス𝜔𝑖ごとに行えばよい ∇ 𝜽 𝑖 𝐿2:勾配ベクトル スカラ𝐿2を𝜽𝑖の各要素で偏微分することで得られるパラメータ ∇ 𝜽 𝑖 𝐿2 = 𝑥 𝑘∈𝜔 𝑖 ∇ 𝜽 𝑖 log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある 12/35
  • 13.
    目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 13/35
  • 14.
    9.3 教師なし学習によるパラメータ推定 log 𝑝(𝐱;𝜽) = 𝑘=1 𝑛 log 𝑝 𝑥 𝑘; 𝜽 (9.17) 教師なしの場合、得られるデータは不完全データであり、観測できるのは𝑥 𝑘のみである 観測結果𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑛}から得られる対数尤度は次式となる 𝑖=1 𝑐 𝜋𝑖 = 1 𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆 𝑖=1 𝑐 𝜋𝑖 − 1 𝜕𝐿 𝜕𝜋𝑖 = 0 ∇ 𝜽 𝑖 𝐿 = 0 (9.18) (9.19) (9.20) (9.21) 最尤推定を適用し、以下制約条件の下で(9.17)を最大にする𝜽および𝜋𝑖を求める 最適なパラメータを得るには、ラグランジュの未定乗数法により、𝜆を定数として 次式が極値をとる𝜽および𝜋𝑖を求めればよい 以下の各式が成り立つことが必要 14/35
  • 15.
    9.3 教師なし学習によるパラメータ推定  パラメータ𝜋𝑖の推定(第5章で既出のため計算は省略) 𝜋𝑖= 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) (9.22)  パラメータ𝜽𝑖の推定 𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆 𝑖=1 𝑐 𝜋𝑖 − 1 (9.19) ∇ 𝜽 𝑖 𝐿 = ∇ 𝜽 𝑖 log 𝑝(𝐱; 𝜽) = 𝑘=1 𝑛 1 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑝(𝑥 𝑘; 𝜽) = 𝑘=1 𝑛 1 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) = 𝑘=1 𝑛 𝜋𝑖 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 𝑝 𝑥 𝑘; 𝜽 = 𝑖=1 𝑐 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (9.4) (9.23) (9.24) (9.25) (9.26) 15/35
  • 16.
    9.3 教師なし学習によるパラメータ推定  パラメータ𝜽𝑖の推定(続き) 𝑃𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑝(𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 𝐿 = 𝑘=1 𝑛 𝜋𝑖 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∙ ∇ 𝜽 𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 (9.26) (9.27) (9.28) (9.29) ベイズの定理(9.27)を用いて、式(9.26)を変形する 分子分母に𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)を掛ける 式(9.29)を満たす𝜽𝑖が求めるべき最適パラメータ 𝜃𝑖である 再帰的な表現となっているので、第5章同様に繰り返し演算を適用する 16/35
  • 17.
    9.3 教師なし学習によるパラメータ推定  混合分布のパラメータ推定 Step1事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) 𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡. 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.32) (9.31) (9.30) 本処理はEMアルゴリズムに対応しており、収束が保証されている 得られる解は大域的最適解であるとは限らない 17/35
  • 18.
    9.3 教師なし学習によるパラメータ推定  教師付きの場合との対比(𝜋𝑖の推定) 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) (9.22) 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 1 (𝑥 𝑘∈ 𝜔𝑖) 0 (otherwise) 教師なしの場合 教師付きの場合、𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 は1または0の確定的な値を取る 式(9.22)に適用すると、教師付きの場合と一致する 𝜋𝑖 = 𝑛𝑖 𝑛 (9.33) 𝑘=1 𝑛 𝑃 𝜔𝑖|𝑥 𝑘; 𝜽 = 𝑛𝑖 (9.34) 式(9.33)より次式が成り立つ (9.35)  教師付きの場合との対比(𝜃𝑖 の推定) 𝜃𝑖も同様に教師付きの場合と一致する(計算略) 𝑥 𝑘∈𝜔 𝑖 ∇ 𝜽 𝑖 log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 (9.36) 18/35
  • 19.
    9.3 教師なし学習によるパラメータ推定  EMアルゴリズムとの関係 𝑄𝜽0 , 𝜽 = 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝜋𝑖 + 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 𝑅1 + 𝑅2 𝑅1 ≝ 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝜋𝑖 𝑅2 ≝ 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) EMアルゴリズムで導入されたQ関数は以下のように書ける 𝜽0 を定数とみなし、𝑄(𝜽0 , 𝜽)を最大化する𝜋𝑖および𝜽𝑖を求める ⇒𝑅1, 𝑅2をそれぞれ最大にすればよい (9.37) (9.38) (9.39) (9.40) 19/35
  • 20.
    9.3 教師なし学習によるパラメータ推定  𝑅1最大化(第6章で既出のため計算略) 𝑅1= 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝜋𝑖 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)  𝑅2最大化(第6章で既出のため計算略) 𝑅2 = 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑅2を最大化するには、𝑖ごとに独立に考え次式を最大化すればよい パラメータ𝜽𝑖に関して最大化することになるので、上式を𝜽𝑖について偏微分して0とおく 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (𝑖 = 1,2, … , 𝑐) 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 (9.39) (9.40) (9.41) (9.42) (9.43) 式(9.41)、式(9.43)は教師なしでパラメータ推定を行った結果と一致(式(9.31)と式(9.32)) ⇒混合分布のパラメータ推定を教師なしで行う処理は、EMアルゴリズムに対応している 20/35
  • 21.
    9.3 教師なし学習によるパラメータ推定  混合分布のパラメータ推定 Step1事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) 𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡. 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.32) (9.31) (9.30) 本処理はEMアルゴリズムに対応しており、収束が保証されている 得られる解は大域的最適解であるとは限らない ⇐E-step (Q関数構成要素算出) ⇐M-step(Q関数の最大化) 21/35
  • 22.
    目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 22/35
  • 23.
    9.4 混合正規分布のパラメータ推定  混合正規分布 𝑝𝐱 𝑘 𝜔; 𝜽𝑖 = 1 2𝜋 𝑑/2 𝚺𝑖 1/2 exp − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) 混合分布の確率密度関数として正規分布を考え、そのパラメータを教師なし学習 により推定する 一般化のため、スカラ𝑥 𝑘ではなく、𝑑次元ベクトル𝐱 𝑘を考える クラス𝜔𝑖の確率密度関数 𝝁𝑖、𝚺𝑖は、それぞれクラス𝜔𝑖の平均ベクトル、共分散行列であり、推定すべき パラメータである ここで 𝚺𝑖 は𝚺𝑖の行列式である 𝜽𝒊 = (𝝁𝑖, 𝚺𝑖) 𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐) これまでの表記に従うと以下になる (9.44) (9.45) (9.46) 次ページの計算手順を適用する 23/35
  • 24.
    9.3 教師なし学習によるパラメータ推定  混合分布のパラメータ推定 Step1事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) 𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡. 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.32) (9.31) (9.30) 本処理はEMアルゴリズムに対応しており、収束が保証されている 得られる解は大域的最適解であるとは限らない 𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)のため、 𝝁𝑖, 𝚺𝑖でそれぞれ偏微分 24/35
  • 25.
    9.4 混合正規分布のパラメータ推定 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘;𝜽) 𝜕 𝜕𝝁𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝜕 𝜕𝚺𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 上式を解くと、以下となる(導出は次ページ以降) (9.48) (9.49) 25/35
  • 26.
    9.4 混合正規分布のパラメータ推定  𝝁𝑖の導出 𝑝𝐱 𝑘 𝜔; 𝜽𝑖 = 1 2𝜋 𝑑/2 𝚺𝑖 1/2 exp − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) (9.44) 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝜕 𝜕𝝁𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 式(9.44)より log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = − 𝑑 2 log 2𝜋 − 1 2 log 𝚺𝑖 − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) 𝜕 𝜕𝐱 𝐱 𝑡 𝐀𝐱 = 2𝐀𝐱 式(A.3.5)を用いると次式が成り立つ (A.3.5) ※𝐱を𝑑次元の列ベクトル、𝐀 を 𝑑 × 𝑑 の対称行列とすると、 式(A.3.5)が成り立つ 𝜕 𝜕𝝁𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) (S.9.1) 式(S.9.1)に代入 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) = 𝟎 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 = 𝟎 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖を左から掛ける (9.48) 𝐱 𝑡 𝐀 𝐱 26/35
  • 27.
    9.4 混合正規分布のパラメータ推定  𝚺𝑖の導出 log𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = − 𝑑 2 log 2𝜋 − 1 2 log 𝚺𝑖 − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) 𝜕 𝜕𝚺𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = − 1 2 𝜕 𝜕𝚺𝑖 log 𝚺𝑖 − 1 2 𝜕 𝜕𝚺𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 = − 1 2 𝚺𝑖 −1 − 1 2 𝜕 𝜕𝚺𝑖 tr 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝜕 𝜕𝐗 log 𝐗 = 𝐗−1 𝜕 𝜕𝐗 tr 𝐗−1 𝐀 = −𝐗−1 𝐀𝐗−1 ※𝐱, 𝐲を𝑑次元の列ベクトル、𝐀, 𝐗を 𝑑 × 𝑑の対称行列とすると、次式が成 り立つ tr(B)は行列Bの体格成分の和を表す 𝐱 𝑡 𝐲 = tr 𝐱𝐲 𝑡 = tr(𝐲𝐱 𝑡 ) (A.3.1) (A.3.7) (A.3.6) 式(A.3.6)適用 式(A.3.1)適用 式(A.3.7)適用 = − 1 2 𝚺𝑖 −1 + 1 2 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 = − 1 2 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 − 𝚺𝑖 𝚺𝑖 −1 (S.9.2) 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝜕 𝜕𝚺𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 式(S.9.2)に代入 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 − 𝚺𝑖 𝚺𝑖 −1 = 𝟎 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 − 𝚺𝑖 = 𝟎 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) (9.49) 左右から𝚺𝑖を掛ける 27/35
  • 28.
    9.4 混合正規分布のパラメータ推定 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱𝑘; 𝜽)  パラメータ𝜋𝑖の推定 これまでと同様の計算で推定可能 (9.50)  教師付き学習の場合 𝝁𝑖 = 1 𝑛𝑖 𝐱 𝑘∈𝜔 𝑖 𝐱 𝑘 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 = 1 (𝐱 𝑘∈ 𝜔𝑖) 0 (otherwise) 𝑘=1 𝑛 𝑃 𝜔𝑖|𝐱 𝑘; 𝜽 = 𝑛𝑖 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 = 1 𝑛𝑖 𝐱 𝑘∈𝜔 𝑖 (𝐱 𝑘− 𝝁𝑖) 𝐱 𝑘 − 𝝁𝑖 𝑡 𝜋𝑖 = 𝑛𝑖 𝑛 所属クラスが陽に与えられるので次式が成り立つ 教師なし 教師付き 28/35
  • 29.
    9.4 混合正規分布のパラメータ推定  混合正規分布のパラメータ推定 Step1事前確率𝜋𝑖および𝝁𝑖, 𝚺𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝐱 𝑘に対して𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝐱 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝝁𝑖, 𝚺𝑖を更新し、新しい 𝜋𝑖, 𝝁𝑖, 𝚺𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) Step4 𝜋𝑖 = 𝜋𝑖、𝝁𝑖 = 𝝁𝑖、𝚺𝑖 = 𝚺𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.56) (9.57) (9.58) (9.59) 29/35
  • 30.
    目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 30/35
  • 31.
    9.5 混合正規分布のパラメータ推定実験  教師なし学習による、2種の一次元正規分布より成る混合分布のパラメータ推定実験 •クラス数𝑐 = 2 • パラメータは𝜽1 = 𝜇1, 𝜎1 2 , 𝜽2 = 𝜇2, 𝜎2 2 • 真値は𝜇1 = 3, 𝜇2 = −1, 𝜎1 2 = 𝜎2 2 = 1, 𝜋1 = 0.6, 𝜋2 = 0.4 • 未知パラメータは𝜇1, 𝜇2のみで、他は既知とする • 乱数により500個のデータを発生 対数尤度log 𝑝(𝐱; 𝜽)の等高線 初期値 (𝜇1, 𝜇2) = (−2, −3) 大域的最適解 推定結果 (𝜇1, 𝜇2) = (3.06, −1.17) 初期値 (𝜇1, 𝜇2) = (−3, −2) log 𝑝(𝐱; 𝜽) = −1068.5 log 𝑝(𝐱; 𝜽) = −1026.6 局所最適解 𝜋1 = 𝜋2 = 0.5の場合は対数尤度の値は等しくなるので、解は双方が候補となり唯一に定まらない 12回の繰り返しで収束 31/35
  • 32.
    9.5 混合正規分布のパラメータ推定実験  教師なし学習による、5種の二次元正規分布より成る混合分布のパラメータ推定実験 •クラス数𝑐 = 5 • クラス𝜔𝑖に関する未知パラメータは事前確率𝜋𝑖とパラメータ𝜽𝑖 = 𝝁𝑖, 𝚺𝑖 (𝑖 = 1,2, … , 5) • クラス𝜔1, … , 𝜔5に対するパターン数:200, 100, 100, 50, 50(計500パターン) • 事前確率𝜋1~𝜋5:0.4, 0.2, 0.2, 0.1, 0.1 𝐱 = 𝑥1, 𝑥2 𝑡 を発生させプロット 事前確率に比例する太さで等高線を描画 32/35
  • 33.
  • 34.
    9.5 混合正規分布のパラメータ推定実験  対数尤度、事前確率の変化 •対数尤度は繰り返しとともに増大している • 事前確率は0.2から始まり、途中で収束し、正しい値が得られている 34/35
  • 35.
    9.5 混合正規分布のパラメータ推定実験  クラスタリングについて •混合分布のパラメータ推定はクラスタリング法としても有用 • K-means法は、混合正規分布のパラメータ推定の特別な場合(10.4節参照) • 混合正規分布のパラメータ推定において、クラス(分布関数)の数𝑐を事前に設定する必要がある 【解決策】  複数候補の𝑐に対しパラメータ推定を行い、最良の結果を選択⇐効率的ではない  想定される値よりもやや大きめの値に𝑐を設定し、パラメータ推定処理を実施 無駄な分布関数の事前確率は0に近づき、必要な分布関数の事前確率は非零で残る 𝜔6~𝜔9の事前確率は0に近づいているものの、𝜋6 = 0.126と比較的大きいものも存在 𝑐を大きくした場合に得られる解は、局所的最適解であることがほとんど この考え方で大域的最適解を求める方法が凸クラスタリング(次章で紹介) 𝑐=9として実行 35/35