続・わかりやすいパターン認識第5章

第5章
教師付き学習と教師無し学習
大阪大学
工学部電子情報工学科
3年
芦原和樹

構成
• 導入
• 教師付き学習と教師無し学習の違い
• 凸計画問題の簡単な紹介
• 教師付き学習
• 教師無し学習
• 実験

注意
• 式を参照する際はｌこのスライドで使用してい
る式番号とテキストで使用されている式番号
を併用している。
– 式(3)[5-4] のように…
• テキストとスライド内の式番号は対応していま
せん

一般的議論が行えるように例題3.1を拡張する。
例題5.1
箱の中に外見上はまったく区別のつかないc種のサイ
コロ𝜔1、𝜔2、・・・𝜔𝑐が大量にある。サイコロ𝜔𝑖の含有
率は𝜋𝑖である。サイコロ𝜔𝑖をなげてkの目𝑣 𝑘
（k=1,・・・,m）が観測される確率は𝜃𝑖𝑘とする。この箱の
中からサイコロを無作為に1個取り出し、そのさいころ
を続けてn（≧2）回投げた時の観測結果𝒙(𝑛) =
𝑥1, ・・・, 𝑥 𝑛より、取り出したサイコロの種類を判定する
ための識別関数を求めよ。ただし、𝒙(𝑛)の内容は、𝑣 𝑘
が𝑟𝑘回観測されたものとする。

それぞれのサイコロ𝜔𝑖の含有率𝜋𝑖
サイコロ𝜔𝑖を投げてkの目𝑣 𝑘が出る確率𝜃𝑖𝑘
結果𝒙(𝑛)として、目𝑣 𝑘を𝑟𝑘回観測
𝜋𝑖 = 𝑃 𝜔𝑖 (1)
𝜋𝑖
𝑐
𝑖=1
= 1
(2)
𝜃𝑖𝑘 = 𝑃 𝑣 𝑘 𝜔𝑖) (3)
𝜃𝑖𝑘
𝑚
𝑘=1
= 𝑃 𝑣 𝑘 𝜔𝑖) = 1 (4)
𝑟𝑘
𝑚
𝑘=1
= 𝑛 (5)

観測結果𝑥𝑡（サイコロの目𝑣 𝑘）が得られる確率
サイコロ𝜔𝑖を𝑛回投げて観測結果𝒙(𝑛)を得る確率
式（3.13）より、事後確率最大化を実現するベイズ識別関数は
𝑃 𝑥 𝑡 = 𝜋𝑖
𝑐
𝑖=1
𝑃 𝑥 𝑡 𝜔𝑖 = 𝜋𝑖
𝑐
𝑖=1
・𝜃𝑖𝑘 (6)
それぞれの試行が独立であるため、計算順序を変更しても結果は変わ
らない。
𝑃 𝒙 = 𝑃 𝑥1 𝑃(𝑥2)・・・𝑃(𝑥 𝑛)
𝑃 𝒙 𝑛
𝜔𝑖 = 𝜃𝑖𝑘
𝑟 𝑘
𝑚
𝑘=1
(7)
(3)[5-4]より
𝑔𝑖 𝒙 𝑛 = 𝑃 𝜔𝑖 ・𝑃(𝒙 𝑛 |𝜔𝑖)
= 𝜋𝑖 𝜃𝑖𝑘
𝑟 𝑘
𝑚
𝑘=1
(8)
𝑃 𝑣1 𝑃 𝑣2 𝑃 𝑣1 = 𝑃 𝑣1
2 𝑃(𝑣2)

例題4.1 → 𝜃のみを推定
例題5.1 → 𝜃𝑖𝑘, 𝜋𝑖を推定
学習パターンが必要（サイコロの入った箱）
例題5.1と同様の箱からサイコロを無作為に一個取り出しては投げ、出た目
を観測した後サイコロを箱に戻すという操作をn回繰り返す。
＊以下、観測回数はn回で固定 → 𝒙(𝑛) = 𝒙
図2 学習のための観測

２つの観測方法が考えられる
C種のサイコロが外見上まったく区別がつかないので…
観測方法1：サイコロを投げるたびに、出た目だけでなくサイ
コロの種類も知ることができる。
観測方法2：観測できるのはサイコロの目だけであり、サイコ
ロの種類は知ることができ無い。

• 教師付き学習
– 観測方法1
– パターンの所属クラスに関する情報である教師信号（サイ
コロの種類）を教える。
– 所属クラスにラベルが張られているとみなせる。（サイコロ
の種類𝜔1や𝜔2など）
– ラベル付きパターン
– 完全データ
• 教師無し学習
– 観測方法2
– ラベル無しパターン
– 不完全データ

サイコロを投げた時のt回目の観測結果を𝒙 𝑡、取り出したサイコ
ロの種類を𝑠𝑡とすると、
学習パターンは𝒙と𝒔のペアであり、さらにそれぞれの事象は独
立なので、
𝒙 = 𝑥1 𝑥2・・・𝑥 𝑛 𝑥 𝑡 ∈ 𝑣1, 𝑣2, ・・・, 𝑣 𝑚 (9)
𝒔 = 𝑠1 𝑠2・・・𝑠 𝑛 𝑠𝑡 ∈ 𝜔1, 𝜔2, ・・・, 𝜔𝑐 (10)
𝑃 𝜔𝑖 𝑥 𝑡 = 1
𝑐
𝑖=1
(11)
𝑃 𝒙 = 𝑃 𝑥1 𝑃 𝑥2 … 𝑃(𝑥 𝑛) (12)
𝑃 𝒔 = 𝑃 𝑠1 𝑃 𝑠2 … 𝑃(𝑠 𝑛) (13)
𝑃 𝒔 𝒙 = 𝑃 𝑠1 𝑥1 𝑃 𝑠2 𝑥2 … 𝑃(𝑠 𝑛|𝑥 𝑛) (14)
𝑃 𝒙 𝒔 = 𝑃 𝑥1 𝑠1 𝑃 𝑥2 𝑠2 … 𝑃(𝑥 𝑛|𝑠 𝑛) (15)
𝑃 𝒙, 𝒔 = 𝑃 𝒔 𝑃 𝒙 𝒔 = 𝑃(𝒙)𝑃 𝒔 𝒙 (16)
= 𝑃 𝑥1, 𝑠1 𝑃 𝑥2, 𝑠2 … 𝑃(𝑥 𝑛, 𝑠 𝑛) (17)

最尤推定に必要な数学
𝑥𝑖
𝑛
𝑖=1
= 1 (18)
定理5.1
n個の正の定数𝜔1, 𝜔2, … 𝜔 𝑛がある。ここで、nこの変数
𝑥1, 𝑥2 … 𝑥 𝑛(0 < 𝑥𝑖 < 1)が拘束条件
を満たすとき、
を最大にする𝑥𝑖は次式であらわすことができる。
𝑓 𝑥1, 𝑥2, … , 𝑥 𝑛 = 𝑤𝑖 log 𝑥𝑖
𝑛
𝑖=1
(19)
𝑥𝑖 =
𝑤𝑖
𝑤 𝑘
𝑛
𝑘=1
(20)

ラグランジュの未定乗数法より
上式を𝑥𝑖で偏微分してその結果を0とおく。
ラグランジュの未定乗数法
𝑔 𝑥, 𝑦 = 0のもとで𝑓(𝑥, 𝑦)の極値を求めたいとき、
𝐿 𝑥, 𝑦, 𝜆 = 𝑓 𝑥, 𝑦 − 𝜆𝑔(𝑥, 𝑦)
を作ると、(𝛼, 𝛽)が極致を与える
→ 𝛼, 𝛽 は
𝝏𝑳
𝝏𝒙
=
𝝏𝑳
𝝏𝒚
=
𝝏𝑳
𝝏𝝀
= 𝟎
の解である。
𝐿 = 𝑓 − 𝜆 𝑥𝑖
𝑛
𝑖=1
− 1 (21)
式(18)より、 𝑔 = 𝑥𝑖
𝑛
𝑖=1 − 1 とする。

𝜕𝐿
𝜕𝑥 𝑖
= 0
𝜕
𝜕𝑥𝑖
𝑓 − 𝜆 𝑥𝑖
𝑛
𝑖=1
− 1 = 0
𝜕
𝜕𝑥𝑖
𝑤𝑖 log 𝑥𝑖
𝑛
𝑖=1
− 𝜆 = 0
𝑤𝑖・
1
𝑥𝑖
− 𝜆 = 0
(22)
以上より、
となり、両辺に 𝑛
𝑖=1 を施すと、
λ𝑥𝑖 = 𝜔𝑖 (𝑖 = 1,2, … , 𝑛) (23)
λ = 𝑤𝑖
𝑛
𝑖=1
(24)
式(18)[5-22]を適用

以上より式(23)から、求める𝑥𝑖は
𝑥𝑖 =
𝑤𝑖
𝜆
=
𝑤𝑖
𝑤 𝑘
𝑛
𝑘=1
(25)

凸計画問題etc…
• 凸集合
– 空でない集合𝑆(⊂ 𝑹 𝑛)内の任意のベクトル
𝒙 𝟏, 𝒙 𝟐 ∈ 𝑆と0 ≤ 𝜆 ≤ 1に対して
λ𝒙1 + 1 − 𝜆 𝒙2 ∈ 𝑆の時、Sを凸集合
– ある集合において二点を結んだ直線はその集
合内に入る
– 集合にくぼみやへこみがない
– 直線は大丈夫

0 ≤ 𝜆 ≤ 1に対して
• 凸関数
– 𝑓 𝜆𝒙1 + 1 − 𝜆 𝒙2 ≤ 𝜆𝑓 𝒙1 + 1 − 𝜆 𝑓 𝒙2
• 狭義凸関数
– 𝑓 𝜆𝒙1 + 1 − 𝜆 𝒙2 < 𝜆𝑓 𝒙1 + 1 − 𝜆 𝑓 𝒙2
へこみのない関数
𝑓`` > 0(狭義)
f(x)は凸関数⇔-f(x)は凹関数

定理 A.2
𝑓1 𝒙 , 𝑓1 𝒙 ・・・𝑓𝑚 𝒙 を凸集合S上の凸関数とし
たとき、正の重みによる線形和
𝑓 𝒙 = 𝑤𝑖 𝑓𝑖(𝒙)
𝑚
𝑖=1
もS上の凸関数である。また、これらの関数のう
ち一つでも狭義凸関数であれば𝑓 𝒙 も狭義凸
関数である。
• 凹関数がなければ凹みはできない
• 狭義凸関数が一つでもあれば、𝑓`` > 0となる

• 最適化問題
– 実行可能領域S（集合Sの条件）において目的関数
f(x)を最小化する𝑥 = 𝑥∗を見出す問題
• 大域的最適解
– 目的関数f(x)を最小化する解
– 最小値
• 局所的最適解
– その近傍のどの点よりも目的関数を小さくできる解
– 極値
– 凹みが存在するとき

• 凸計画問題
– 実行可能領域が凸集合
– 目的関数f(x)が凸関数
• 最適化問題が凸計画問題(定理A.4)
– 局所的最適解は大域的最適解
• 複数存在の可能性
• その集合はひとつ下の次元の集合
– 目的関数が狭義凸関数
• 大域的最適解は存在すればただ一つ
凸計画問題は珍しい。たいていは局所的最適解しか求
められない。

定理5.1の問題は凸計画問題であり、-fは狭義
凸関数であることの証明。
本問での実行可能領域Sは式(18)の 𝑥𝑖 = 1𝑛
𝑖=1 である。
ここで、1行n列の行ベクトルa、b(∈ 𝑺)を用意する。また、
ここで、𝒄 = 𝜆𝒂 + 1 − 𝜆 𝒃としたとき、
𝑎1𝑖 = 1
(26)
𝑏1𝑖 = 1 (27)
𝑐1𝑖 = 𝜆 𝑎1𝑖 + (1 − 𝜆) 𝑏1𝑖
= 𝜆 + 1 − 𝜆
= 1

よって
なので Sは凸集合である。
また、𝑔 𝑥 = log 𝑥 は明らかに狭義凸関数であるた
め、定理A.2より、今回与えられた式(19)も狭義凸関数
となる。
定理A.4より、今回の関数‐fは凸計画問題なので、局
所的最適解となった式(25)は大域的最適解であり、上
記狭義凸関数より大域的最適解は唯一。
𝑐 ∈ 𝑆 (28)
正確には−𝑔が
狭義凸関数

例題5.2
条件付きは例題5.1と同様。操作として、箱の中から無作為に一つサイコ
ロを取り出し、種類を確認したうえでサイコロを投げ、出た目を観測した後、
元に戻すという作業をn回繰り返す。
サイコロの目の系列 𝒙 = 𝑥1 … 𝑥 𝑛
種類の系列 𝐬 = 𝑠1 … 𝑠 𝑛
・サイコロ𝜔𝑖を取り出した回数は𝑛𝑖回
・サイコロ𝜔𝑖を投げて𝑣 𝑘が出た回数は𝑛𝑖𝑘回
ここから𝜋𝑖, 𝜃𝑖𝑘を最尤推定により推定する。
𝑛𝑖 = 𝑛
𝑐
𝑖=1
(29)
𝑛𝑖𝑘
𝑚
𝑘=1
= 𝑛𝑖 (30)
教師付き学習

結果とサイコロの種類を組みにし、下のn組のデータを得る。
n回の試行結果、x,sが得られる確率は同時確率𝑃(𝒙, 𝒔)。
最尤推定により𝑃 𝒙, 𝒔 を最大とするπiと𝜃𝑖𝑘を求める。
と、定義し、θの推定値を𝜽とすると、
この式に対して式(13)(15)(16)[5-17][5-19][5-20]を使用すると、
𝑥1, 𝑠1 , 𝑥2, 𝑠2 … (𝑥 𝑛, 𝑠 𝑛) (31)
𝜽𝑖 ≜ 𝜃𝑖1, … , 𝜃𝑖𝑚 (𝑖 = 1,2, … , 𝑐) (32)
𝜽 ≜ (𝜽1, … , 𝜽 𝒄, 𝜋1, … , 𝜋 𝑐) (33)
𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 {log 𝑃(𝒙, 𝒔)} (34)

𝐿1はパラメータ𝜋𝑖のみを、𝐿2は𝜃𝑖𝑘のみを含むので、それぞれを
各パラメータに対して独立に最大化させる。
log 𝑃(𝒙, 𝒔) = log 𝑃 𝒔 𝑃(𝒙|𝒔)
= log 𝑃 𝒔 + log 𝑃 𝒙|𝒔
= log 𝑃 𝑠𝑡 + log 𝑃 𝑥 𝑡 𝑠𝑡)
𝑛
𝑡=1
𝑛
𝑡=1
(35)
𝐿1 ≜ log 𝑃(𝑠𝑡) , 𝐿2 ≜ log 𝑃(𝑥 𝑡|𝑠𝑡) (36)

パラメータπiの推定
↓最尤推定を行う↓
𝐿1 = log 𝑃(𝑠𝑡)
𝑛
𝑖=1
= 𝑛𝑖 log 𝜋𝑖
𝑐
𝑖=1
(37)
log 𝑃 𝑠1 𝑃 𝑠2 … 𝑃(𝑠 𝑛)
= log 𝑃 𝜔1
𝑛1 𝑃 𝜔2
𝑛2…
𝜋 =
𝑛𝑖
𝑛𝑗
𝑐
𝑗=1
=
𝑛 𝑖
𝑛
(38)
定理5.1を使用
𝜋𝑖
𝑐
𝑖=1
= 1

パラメータ𝜃𝑖𝑘の推定
𝐿2 = log 𝑃(𝑥 𝑡|𝑠𝑡)
𝑛
𝑡=1
= 𝑛𝑖𝑘 log 𝜃𝑖𝑘
𝑚
𝑘=1
𝑐
𝑖=1
(39)
順番に数え上げ
まとめて数え上げ
𝜃𝑖𝑘 =
𝑛𝑖𝑘
𝑛𝑖𝑗
𝑛
𝑗=1
=
𝑛 𝑖𝑘
𝑛
(40)
定理5.1を使用
𝜃𝑖𝑘
𝑚
𝑘=1
= 1
教師付き学習（完全データ）では最尤推定は容易！

教師なし学習
サイコロが出るのはそれぞれ独立なので…
例題5.3
条件付けは例題5.1と同様。操作として、箱の中から無作為に一つサイコ
ロを取り出し、出た目を観測した後、元に戻すという作業をn回繰り返す。こ
の時サイコロの種類はc種だが確認できない。
サイコロの目の系列 𝒙 = 𝑥1 … 𝑥 𝑛
・サイコロの目𝑣 𝑘は𝑟𝑘回
ここから𝜋𝑖, 𝜃𝑖𝑘を最尤推定により推定する。
𝑃 𝒙 = 𝑃(𝑥1 𝑥2 … 𝑥 𝑛)
= 𝑃(𝑥 𝑡)
𝑛
𝑡=1
(𝑥 𝑡 ∈ 𝑣1, … , 𝑣 𝑚 ) (41)

log 𝑃(𝒙) = log 𝑃(𝑥 𝑡)
𝑛
𝑡=1
= 𝑟𝑘 log 𝑃(𝑣 𝑘)
𝑚
𝑘=1
(42)
= 𝑟𝑘 log 𝜋𝑖 𝜃𝑖𝑘
𝑐
𝑖=1
𝑚
𝑘=1
(43)
パラメータ𝜃𝑖𝑘, 𝜋𝑖であらわせる。
最尤推定をするためにはlog 𝑃(𝒙)
を最大にすればいい。
𝑃(𝑣 𝑘)を新たな変数とみなしてそれを最大にするものを求めてみる。
log 𝑃 𝑥1 𝑃 𝑥2 … 𝑃(𝑥 𝑛)
= log 𝑃 𝑣1
𝑟1 𝑃 𝑣2
𝑟2…
サイコロの場合に分割
𝑃 𝑣 𝑘 = 𝑃 𝜔𝑖 𝑃(𝑣 𝑘|𝜔𝑖)
𝑐
𝑖=1

また、
以降はlog 𝑃 𝒙 を𝜋𝑖, 𝜃𝑖𝑘をパラメータにもつ関数とする
→教師ありとの対比を分かりやすくするため
𝑃 𝑣 𝑘 =
𝑟𝑘
𝑟𝑙
𝑚
𝑙=1
=
𝑟𝑘
𝑛
(44)
𝑃 𝑣 𝑘 = 𝜋𝑖 𝜃𝑖𝑘
𝑐
𝑖=1
=
𝑟𝑘
𝑛
(45)
この式を満たす𝜋𝑖, 𝜃𝑖𝑘は一意に決まらない
𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥{log 𝑃(𝒙)} (46)

パラメータ𝜋𝑖の推定
ラグランジュの未定乗数法を用いる。
上式を𝜋𝑖で偏微分し結果を0とおく。
　　　　𝐿 = log 𝑃(𝒙) − 𝜆 𝜋𝑖
𝑐
𝑖=1
− 1 (47)
　　　
𝜕𝐿
𝜕𝜋𝑖
=
𝜕 log 𝑃 𝒙
𝜕𝜋𝑖
− 𝜆 = 0 (48)
　　　
𝜕 log 𝑃 𝒙
𝜕𝜋𝑖
=
1
𝑃(𝑥 𝑡)
𝜕𝑃 𝑥 𝑡
𝜕𝜋𝑖
𝑛
𝑡=1
=
1
𝑃(𝑥 𝑡)
𝑃(𝑥 𝑡|𝜔𝑖)
𝑛
𝑡=1
=
𝑃(𝑥 𝑡, 𝜔 𝑡)
𝑃 𝑥 𝑡 𝑃(𝜔𝑖)
𝑛
𝑡=1
=
1
𝜋𝑖
𝑃 𝜔𝑖 𝑥 𝑡)
𝑛
𝑡=1
(49)
log 𝑃(𝒙) = log 𝑃(𝑥 𝑡)
𝑛
𝑡=1
𝑃(𝑥 𝑡) = 𝜋𝑖 log 𝑃(𝑥 𝑡|𝜔𝑖)
𝑐
𝑖=1
(𝑖 = 1,2, … , 𝑐)
𝑃 𝜔𝑖 = 𝜋𝑖

式(48)(49)[5-56][5-59]より、
よって、式(50)(51)より
　　　
1
𝜋𝑖
𝑛
𝑡=1
− 𝜆 = 0
𝜆𝜋𝑖 = 𝑃 𝜔𝑖 𝑥 𝑡)
𝑛
𝑡=1
(50)
𝑐
𝑖=1
𝜆𝜋𝑖 = 𝑃 𝜔𝑖 𝑥 𝑡)
𝑛
𝑡=1
𝑐
𝑖=1
𝜆 = 𝑛 (51)
𝑃(𝜔𝑖|𝑥 𝑡)
𝑐
𝑖=1
= 1
　　　𝜋𝑖 =
1
𝑛
𝑛
𝑡=1
(𝑖 = 1,2, … , 𝑐) (52)

パラメータ𝜃𝑖𝑘の推定
条件より以下が成り立つのは明らか。
として、𝜃𝑖𝑘で偏微分したのち結果を0とおく
　　　
𝑚
𝑘=1
𝜋𝑖
𝑐
𝑖=1
𝜃𝑖𝑘 = 1 (53)
上式の条件のもとラグランジュの未定乗数法を使用
　　　𝐿 = log 𝑃(𝑥) − 𝜆
𝑚
𝑘=1
𝜋𝑖
𝑐
𝑖=1
𝜃𝑖𝑘 − 1 (54)
𝜕 log 𝑃 𝒙
𝜕𝜃𝑖𝑘
=
𝑟𝑘
𝑃(𝑣 𝑘)
𝜕𝑃 𝑣 𝑘
𝜕𝜃𝑖𝑘
=
𝑟𝑘 𝜋𝑖
𝑃(𝑣 𝑘)
(55)
式(42)[5-51]
𝑃 𝑣 𝑘 = 𝜋𝑖
𝑐
𝑖=1
𝜃𝑖𝑘
(𝑘 = 1, … , 𝑚)
(56)

以上より、
式(57)(58)より、
式(45)[5-53]と同様の結果が得られる
　　
𝜕𝐿
𝜕𝜃𝑖𝑘
=
𝑟𝑘 𝜋𝑖
𝑃 𝑣 𝑘
− 𝜆 𝜋𝑖 = 0
𝜆 𝑃 𝑣 𝑘 = 𝑟𝑘 (∵ 𝜋𝑖 ≠ 0) (57)
𝑚
𝑘=1
𝜆 𝑃 𝑣 𝑘 =
𝑚
𝑘=1
𝑟𝑘
𝜆 = 𝑛 (58)
　　　 𝑃 𝑣 𝑘 =
𝑟𝑘
𝑛
(59)

ベイズの定理より、
　　 𝜃𝑖𝑘 = 𝑃(𝑣 𝑘|𝜔𝑖)
=
𝑃 𝑣 𝑘, 𝜔𝑖
𝑃(𝜔𝑖)
=
𝑃 𝑣 𝑘 𝑃 𝜔𝑖 𝑣 𝑘
𝑃 𝑣𝑙 𝑃 𝜔𝑖 𝑣𝑙)𝑚
𝑙=1
(60)
𝜃𝑖𝑘 =
𝑟𝑘 𝑃 𝜔𝑖 𝑣 𝑘
𝑟𝑙
𝑚
𝑙=1 𝑃(𝜔𝑖|𝑣𝑙)
(61)

推定結果の妥当性
• 𝜋𝑖𝑘の妥当性
– 式(49)[5-59]を計算する際、一回一回の結果を足し合わせるのではな
く、1の目が出た時、2の目が出た時といった感じで目の場合分けに
よって足し合わせる。
上式を導入する。
　　　 𝛿 𝑥 𝑡, 𝑣 𝑡 =
1 (𝑥 𝑡 = 𝑣 𝑘)
0 (𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒)
(62)
　　 𝑃 𝜔𝑖 𝑥 𝑡 = 𝛿 𝑥 𝑡, 𝑣 𝑘 𝑃(𝜔𝑖|𝑥 𝑡)
𝑛
𝑡=1
𝑚
𝑘=1
𝑛
𝑡=1
= 𝑟𝑘 𝑃(𝜔𝑖|𝑣 𝑘)
𝑚
𝑘=1
= 投げたサイコロが𝜔𝑖であった回数の期待値 (63)
サイコロの目が指定の
時のみを数え上げ
回数×確率
𝜋𝑖 =
1
𝑛
𝑛
𝑡=1

よって…式(63)(52)[5-79][5-64]より
よって、式(49)[5-59]は妥当である。
𝜋𝑖=
1
𝑛
𝑟𝑘
𝑚
𝑘=1
𝑃(𝜔𝑖|𝑣 𝑘)
=
投げたサイコロが𝜔𝑖であった回数の期待値
サイコロを投げた回数
= サイコロ𝜔𝑖の含有率 (64)

• 𝜃𝑖𝑘の妥当性
よって、式(61)[5-75]は妥当である。
𝜃𝑖𝑘 =
𝑟𝑙
𝑚
𝑟𝑘 𝑃 𝜔𝑖 𝑣 𝑘 = 目が𝑣 𝑘の時、サイコロが𝜔𝑖である確率 × 目が𝑘で合った回数
= 観測結果が𝑣 𝑘の時、サイコロが𝜔𝑖であった期待値
𝑟𝑙 𝑃 𝜔𝑖 𝑣𝑙 = 投げたサイコロが𝜔𝑖であった回数の期待値
𝑚
𝑙=1
(65)
式(63)[5-79]より
　　　 𝜃𝑖𝑘 =
観測結果が𝑣 𝑘の時、サイコロが𝜔𝑖であった期待値
投げたサイコロが𝜔𝑖であった回数の期待値
(66)

教師付きとの関係
• 教師無し
– 𝑃 𝜔𝑖 𝑥𝑡 は確率
• 教師あり
– 𝑃 𝜔𝑖 𝑥𝑡 は確定的
– 𝑃 𝜔𝑖 𝑥𝑡 =
1 (𝑠𝑡 = 𝜔 𝑡)
0 (𝑠𝑡 ≠ 𝜔 𝑡)
　　　 𝑃(𝜔𝑖|𝑥 𝑡)
𝑛
𝑡=1
= 𝑛𝑖 (67)
𝜋𝑖=
投げたサイコロが𝜔𝑖であった回数
サイコロを投げた回数
=
𝑛𝑖
𝑛
(68)
式(64)[5-81]より
式(38) [5-44]と一致

• 教師ありの時…
教師無し学習が一般解であり、教師付き学習を特別な場合とし
て含んでいる。
　　 𝜃𝑖𝑘 =
𝑟𝑙
𝑚
=
観測結果が𝑣 𝑘でサイコロが𝜔𝑖であった回数
サイコロが𝜔𝑖であった回数
=
𝑛𝑖𝑘
𝑛𝑖
(69)
式(40)[5-47] と一致

教師無し学習アルゴリズムの演算
• 式(52)[5-64]の右辺部分(𝜋𝑖を求めるために)
• 式(61)[5-75](𝜃𝑖𝑘を求めるため)に代入しても𝜃𝑖𝑘を含んでいる
　　𝑃(𝜔𝑖|𝑣 𝑘) =
𝑃 𝜔𝑖, 𝑣 𝑘
𝑃(𝑣 𝑘)
(70)
=
𝜋𝑖 𝑃 𝑣 𝑘 𝜔𝑖)
𝜋𝑗 𝑃(𝑣 𝑘|𝜔𝑗)𝑐
𝑗=1
(71)
=
𝜋𝑖 𝜃𝑖𝑘
𝜋𝑗 𝜃𝑗𝑘
𝑐
𝑗=1
𝜋𝑖を含んでいる
パラメータを推定するために…

教師無し学習アルゴリズム
𝜋𝑖, 𝜃𝑖𝑘の初期化
𝑃(𝜔𝑖|𝑣 𝑘)の計算
𝜃𝑖𝑘の計算
𝜋𝑖 = 𝜋𝑖
𝑃(𝜔𝑖|𝑣k )の計算
𝜋𝑖の計算
𝜃𝑖𝑘 = 𝜃𝑖𝑘
log 𝑃 𝒙 の
増分が閾値
終了
より大きい
以下

• Step 1 𝜋𝑖, 𝜃𝑖𝑘の初期値を与える（初期化）
• Step 2 𝑃 𝜔𝑖 𝑣 𝑘 =
𝜋 𝑖 𝜃 𝑖𝑘
𝜋 𝑗 𝜃 𝑗𝑘
𝑐
𝑗=1
• Step 3-1 𝜋𝑖 =
1
𝑛
𝑟𝑘 𝑃(𝜔𝑖|𝑣 𝑘)𝑚
𝑘=1
• Step 3-2 𝑃 𝜔𝑖 𝑣 𝑘 =
𝜋 𝑖 𝜃 𝑖𝑘
𝜋 𝑗 𝜃 𝑗𝑘
𝑐
𝑗=1
• Step 3-3 𝜃𝑖𝑘 =
𝑟 𝑘 𝑃(𝜔 𝑖|𝑣 𝑘)
𝑟 𝑙 𝑃(𝜔 𝑖|𝑣 𝑙)𝑚
𝑙=1
• Step 4 𝜋𝑖 = 𝜋𝑖, 𝜃𝑖𝑘 = 𝜃𝑖𝑘
log 𝑃(𝒙) = 𝑟𝑘
𝑚
𝑘=1 log 𝜋𝑖 𝜃𝑖𝑘
𝑐
𝑖=1
対数尤度log 𝑃 𝒙 をとり、その増分が閾値以下
なら終了し、さもなければStep2からもう一度繰り
返す。
式(42)(56)
[5-51][5-8]より

この計算は…
• EMアルリズムに則っている
– 得られるのは局所的最適解
• 大域的最適解でない可能性がある
• 与える初期値によって結果が異なる可能性がある
• 収束性が保証されている
– 次章で議論

教師無し学習の実験
• 実験条件
– サイコロは3つ(𝜔1, 𝜔2, 𝜔3)
– サイコロの目は2通り(偶数𝑣1, 奇数𝑣2)
– 推定すべきは𝜋𝑖で、𝜃𝑖𝑘は既知
– サイコロは10000回投げる(n=10000)
– 初期値は𝜋1 = 0.1, 𝜋2 = 0.5, 𝜋3 = 0.2
– 𝜃𝑖𝑘は既知なのでStep 3は省く
未知 𝜋1 = 0.1 𝜋2 = 0.4 𝜋3 = 0.5 (70)
既知 𝜃11 = 0.8 𝜃21 = 0.6 𝜃31 = 0.3 (71)

• 実験結果
– 𝑟1 = 4746, 𝑟2 = 5254
– 𝜋1 = 0.108, 𝜋2 = 0.401, 𝜋3 = 0.490
• おおむね設定値と同じ値が出ている

条件より、
実験により求める対数尤度は、
上式において𝑟𝑘は実験から求められる。初期値の近傍におい
てlog 𝑃(𝒙)を最大にするのは、
• 𝜃𝑖𝑘が既知
– 一点
• 一つの項につき未知数が一つ
• 𝜃𝑖𝑘が未知
– 式(72)(73)の解は直線上のどこか
• 一つに項につき未知数が二つ
　　　𝜋1 + 𝜋2 + 𝜋3 = 1 (72)
　 log 𝑃 𝒙 = 𝑟𝑘
𝑚
𝑘=1
log 𝜋𝑖 𝜃𝑖𝑘
𝑐
𝑖=1
(73)

• 実験で得られる最終的な𝜋1, 𝜋2, 𝜋3は、
– 𝜃𝑖𝑘未知だと太線上のどこか
– 𝜃𝑖𝑘既知だと〇（𝜃𝑖𝑘によってかわる）

• 教師あり学習(𝜃𝑖𝑘既知)
– 結果として図5‐5中の〇付近が求まる
– 大域的最適解として初期値によらず一つの値が得られる
• 教師なし学習 𝜃𝑖𝑘未知
– 結果として図5‐5中の太線中のいずれかの点が求まる
– 複数あるうちの局所的最適解の一つが求まる
• 初期値によって求まる値は異なる
• 実際のパラメータと異なる値が求まる可能性もある
– 対数尤度を最大にする値

以上で終了です
ありがとうございました

続・わかりやすいパターン認識第5章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (15)

Similar to 続・わかりやすいパターン認識第5章

Similar to 続・わかりやすいパターン認識第5章 (20)

続・わかりやすいパターン認識第5章