Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

続・わかりやすいパターン認識第5章

1,585 views

Published on

続・わかりやすいパターン認識第5章のスライドです

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

続・わかりやすいパターン認識第5章

  1. 1. 第5章 教師付き学習と教師無し学習 大阪大学 工学部 電子情報工学科 3年 芦原和樹
  2. 2. 構成 • 導入 • 教師付き学習と教師無し学習の違い • 凸計画問題の簡単な紹介 • 教師付き学習 • 教師無し学習 • 実験
  3. 3. 注意 • 式を参照する際はlこのスライドで使用してい る式番号とテキストで使用されている式番号 を併用している。 – 式(3)[5-4] のように… • テキストとスライド内の式番号は対応していま せん
  4. 4. 一般的議論が行えるように例題3.1を拡張する。 例題5.1 箱の中に外見上はまったく区別のつかないc種のサイ コロ𝜔1、𝜔2、・・・𝜔𝑐が大量にある。サイコロ𝜔𝑖の含有 率は𝜋𝑖である。サイコロ𝜔𝑖をなげてkの目𝑣 𝑘 (k=1,・・・,m)が観測される確率は𝜃𝑖𝑘とする。この箱の 中からサイコロを無作為に1個取り出し、そのさいころ を続けてn(≧2)回投げた時の観測結果𝒙(𝑛) = 𝑥1, ・・・, 𝑥 𝑛より、取り出したサイコロの種類を判定する ための識別関数を求めよ。ただし、𝒙(𝑛)の内容は、𝑣 𝑘 が𝑟𝑘回観測されたものとする。
  5. 5. 図1 例題5.1の図
  6. 6. それぞれのサイコロ𝜔𝑖の含有率𝜋𝑖 サイコロ𝜔𝑖を投げてkの目𝑣 𝑘が出る確率𝜃𝑖𝑘 結果𝒙(𝑛)として、目𝑣 𝑘を𝑟𝑘回観測 𝜋𝑖 = 𝑃 𝜔𝑖 (1) 𝜋𝑖 𝑐 𝑖=1 = 1 (2) 𝜃𝑖𝑘 = 𝑃 𝑣 𝑘 𝜔𝑖) (3) 𝜃𝑖𝑘 𝑚 𝑘=1 = 𝑃 𝑣 𝑘 𝜔𝑖) = 1 (4) 𝑟𝑘 𝑚 𝑘=1 = 𝑛 (5)
  7. 7. 観測結果𝑥𝑡(サイコロの目𝑣 𝑘)が得られる確率 サイコロ𝜔𝑖を𝑛回投げて観測結果𝒙(𝑛)を得る確率 式(3.13)より、事後確率最大化を実現するベイズ識別関数は 𝑃 𝑥 𝑡 = 𝜋𝑖 𝑐 𝑖=1 𝑃 𝑥 𝑡 𝜔𝑖 = 𝜋𝑖 𝑐 𝑖=1 ・𝜃𝑖𝑘 (6) それぞれの試行が独立であるため、計算順序を変更しても結果は変わ らない。 𝑃 𝒙 = 𝑃 𝑥1 𝑃(𝑥2)・・・𝑃(𝑥 𝑛) 𝑃 𝒙 𝑛 𝜔𝑖 = 𝜃𝑖𝑘 𝑟 𝑘 𝑚 𝑘=1 (7) (3)[5-4]より 𝑔𝑖 𝒙 𝑛 = 𝑃 𝜔𝑖 ・𝑃(𝒙 𝑛 |𝜔𝑖) = 𝜋𝑖 𝜃𝑖𝑘 𝑟 𝑘 𝑚 𝑘=1 (8) 𝑃 𝑣1 𝑃 𝑣2 𝑃 𝑣1 = 𝑃 𝑣1 2 𝑃(𝑣2)
  8. 8. 例題4.1 → 𝜃のみを推定 例題5.1 → 𝜃𝑖𝑘, 𝜋𝑖を推定 学習パターンが必要(サイコロの入った箱) 例題5.1と同様の箱からサイコロを無作為に一個取り出しては投げ、出た目 を観測した後サイコロを箱に戻すという操作をn回繰り返す。 *以下、観測回数はn回で固定 → 𝒙(𝑛) = 𝒙 図2 学習のための観測
  9. 9. 2つの観測方法が考えられる C種のサイコロが外見上まったく区別がつかないので… 観測方法1: サイコロを投げるたびに、出た目だけでなくサイ コロの種類も知ることができる。 観測方法2: 観測できるのはサイコロの目だけであり、サイコ ロの種類は知ることができ無い。
  10. 10. • 教師付き学習 – 観測方法1 – パターンの所属クラスに関する情報である教師信号(サイ コロの種類)を教える。 – 所属クラスにラベルが張られているとみなせる。(サイコロ の種類𝜔1や𝜔2など) – ラベル付きパターン – 完全データ • 教師無し学習 – 観測方法2 – ラベル無しパターン – 不完全データ
  11. 11. サイコロを投げた時のt回目の観測結果を𝒙 𝑡、取り出したサイコ ロの種類を𝑠𝑡とすると、 学習パターンは𝒙と𝒔のペアであり、さらにそれぞれの事象は独 立なので、 𝒙 = 𝑥1 𝑥2・・・𝑥 𝑛 𝑥 𝑡 ∈ 𝑣1, 𝑣2, ・・・, 𝑣 𝑚 (9) 𝒔 = 𝑠1 𝑠2・・・𝑠 𝑛 𝑠𝑡 ∈ 𝜔1, 𝜔2, ・・・, 𝜔𝑐 (10) 𝑃 𝜔𝑖 𝑥 𝑡 = 1 𝑐 𝑖=1 (11) 𝑃 𝒙 = 𝑃 𝑥1 𝑃 𝑥2 … 𝑃(𝑥 𝑛) (12) 𝑃 𝒔 = 𝑃 𝑠1 𝑃 𝑠2 … 𝑃(𝑠 𝑛) (13) 𝑃 𝒔 𝒙 = 𝑃 𝑠1 𝑥1 𝑃 𝑠2 𝑥2 … 𝑃(𝑠 𝑛|𝑥 𝑛) (14) 𝑃 𝒙 𝒔 = 𝑃 𝑥1 𝑠1 𝑃 𝑥2 𝑠2 … 𝑃(𝑥 𝑛|𝑠 𝑛) (15) 𝑃 𝒙, 𝒔 = 𝑃 𝒔 𝑃 𝒙 𝒔 = 𝑃(𝒙)𝑃 𝒔 𝒙 (16) = 𝑃 𝑥1, 𝑠1 𝑃 𝑥2, 𝑠2 … 𝑃(𝑥 𝑛, 𝑠 𝑛) (17)
  12. 12. 最尤推定に必要な数学 𝑥𝑖 𝑛 𝑖=1 = 1 (18) 定理5.1 n個の正の定数𝜔1, 𝜔2, … 𝜔 𝑛がある。ここで、nこの変数 𝑥1, 𝑥2 … 𝑥 𝑛(0 < 𝑥𝑖 < 1)が拘束条件 を満たすとき、 を最大にする𝑥𝑖は次式であらわすことができる。 𝑓 𝑥1, 𝑥2, … , 𝑥 𝑛 = 𝑤𝑖 log 𝑥𝑖 𝑛 𝑖=1 (19) 𝑥𝑖 = 𝑤𝑖 𝑤 𝑘 𝑛 𝑘=1 (20)
  13. 13. ラグランジュの未定乗数法より 上式を𝑥𝑖で偏微分してその結果を0とおく。 ラグランジュの未定乗数法 𝑔 𝑥, 𝑦 = 0のもとで𝑓(𝑥, 𝑦)の極値を求めたいとき、 𝐿 𝑥, 𝑦, 𝜆 = 𝑓 𝑥, 𝑦 − 𝜆𝑔(𝑥, 𝑦) を作ると、(𝛼, 𝛽)が極致を与える → 𝛼, 𝛽 は 𝝏𝑳 𝝏𝒙 = 𝝏𝑳 𝝏𝒚 = 𝝏𝑳 𝝏𝝀 = 𝟎 の解である。 𝐿 = 𝑓 − 𝜆 𝑥𝑖 𝑛 𝑖=1 − 1 (21) 式(18)より、 𝑔 = 𝑥𝑖 𝑛 𝑖=1 − 1 とする。
  14. 14. 𝜕𝐿 𝜕𝑥 𝑖 = 0 𝜕 𝜕𝑥𝑖 𝑓 − 𝜆 𝑥𝑖 𝑛 𝑖=1 − 1 = 0 𝜕 𝜕𝑥𝑖 𝑤𝑖 log 𝑥𝑖 𝑛 𝑖=1 − 𝜆 = 0 𝑤𝑖・ 1 𝑥𝑖 − 𝜆 = 0 (22) 以上より、 となり、両辺に 𝑛 𝑖=1 を施すと、 λ𝑥𝑖 = 𝜔𝑖 (𝑖 = 1,2, … , 𝑛) (23) λ = 𝑤𝑖 𝑛 𝑖=1 (24) 式(18)[5-22]を適用
  15. 15. 以上より式(23)から、求める𝑥𝑖は 𝑥𝑖 = 𝑤𝑖 𝜆 = 𝑤𝑖 𝑤 𝑘 𝑛 𝑘=1 (25)
  16. 16. 凸計画問題etc… • 凸集合 – 空でない集合𝑆(⊂ 𝑹 𝑛)内の任意のベクトル 𝒙 𝟏, 𝒙 𝟐 ∈ 𝑆と0 ≤ 𝜆 ≤ 1に対して λ𝒙1 + 1 − 𝜆 𝒙2 ∈ 𝑆の時、Sを凸集合 – ある集合において二点を結んだ直線はその集 合内に入る – 集合にくぼみやへこみがない – 直線は大丈夫
  17. 17. 0 ≤ 𝜆 ≤ 1に対して • 凸関数 – 𝑓 𝜆𝒙1 + 1 − 𝜆 𝒙2 ≤ 𝜆𝑓 𝒙1 + 1 − 𝜆 𝑓 𝒙2 • 狭義凸関数 – 𝑓 𝜆𝒙1 + 1 − 𝜆 𝒙2 < 𝜆𝑓 𝒙1 + 1 − 𝜆 𝑓 𝒙2 へこみのない関数 𝑓`` > 0(狭義) f(x)は凸関数⇔-f(x)は凹関数
  18. 18. 定理 A.2 𝑓1 𝒙 , 𝑓1 𝒙 ・・・𝑓𝑚 𝒙 を凸集合S上の凸関数とし たとき、正の重みによる線形和 𝑓 𝒙 = 𝑤𝑖 𝑓𝑖(𝒙) 𝑚 𝑖=1 もS上の凸関数である。また、これらの関数のう ち一つでも狭義凸関数であれば𝑓 𝒙 も狭義凸 関数である。 • 凹関数がなければ凹みはできない • 狭義凸関数が一つでもあれば、𝑓`` > 0となる
  19. 19. • 最適化問題 – 実行可能領域S(集合Sの条件)において目的関数 f(x)を最小化する𝑥 = 𝑥∗を見出す問題 • 大域的最適解 – 目的関数f(x)を最小化する解 – 最小値 • 局所的最適解 – その近傍のどの点よりも目的関数を小さくできる解 – 極値 – 凹みが存在するとき
  20. 20. • 凸計画問題 – 実行可能領域が凸集合 – 目的関数f(x)が凸関数 • 最適化問題が凸計画問題(定理A.4) – 局所的最適解は大域的最適解 • 複数存在の可能性 • その集合はひとつ下の次元の集合 – 目的関数が狭義凸関数 • 大域的最適解は存在すればただ一つ 凸計画問題は珍しい。たいていは局所的最適解しか求 められない。
  21. 21. 定理5.1の問題は凸計画問題であり、-fは狭義 凸関数であることの証明。 本問での実行可能領域Sは式(18)の 𝑥𝑖 = 1𝑛 𝑖=1 である。 ここで、1行n列の行ベクトルa、b(∈ 𝑺)を用意する。また、 ここで、𝒄 = 𝜆𝒂 + 1 − 𝜆 𝒃としたとき、 𝑎1𝑖 = 1 (26) 𝑏1𝑖 = 1 (27) 𝑐1𝑖 = 𝜆 𝑎1𝑖 + (1 − 𝜆) 𝑏1𝑖 = 𝜆 + 1 − 𝜆 = 1          
  22. 22. よって なので Sは凸集合である。 また、𝑔 𝑥 = log 𝑥 は明らかに狭義凸関数であるた め、定理A.2より、今回与えられた式(19)も狭義凸関数 となる。 定理A.4より、今回の関数‐fは凸計画問題なので、局 所的最適解となった式(25)は大域的最適解であり、上 記狭義凸関数より大域的最適解は唯一。 𝑐 ∈ 𝑆 (28) 正確には−𝑔が 狭義凸関数
  23. 23. 例題5.2 条件付きは例題5.1と同様。操作として、箱の中から無作為に一つサイコ ロを取り出し、種類を確認したうえでサイコロを投げ、出た目を観測した後、 元に戻すという作業をn回繰り返す。 サイコロの目の系列 𝒙 = 𝑥1 … 𝑥 𝑛 種類の系列 𝐬 = 𝑠1 … 𝑠 𝑛 ・サイコロ𝜔𝑖を取り出した回数は𝑛𝑖回 ・サイコロ𝜔𝑖を投げて𝑣 𝑘が出た回数は𝑛𝑖𝑘回 ここから𝜋𝑖, 𝜃𝑖𝑘を最尤推定により推定する。 𝑛𝑖 = 𝑛 𝑐 𝑖=1 (29) 𝑛𝑖𝑘 𝑚 𝑘=1 = 𝑛𝑖 (30) 教師付き学習
  24. 24. 結果とサイコロの種類を組みにし、下のn組のデータを得る。 n回の試行結果、x,sが得られる確率は同時確率𝑃(𝒙, 𝒔)。 最尤推定により𝑃 𝒙, 𝒔 を最大とするπiと𝜃𝑖𝑘を求める。 と、定義し、θの推定値を𝜽とすると、 この式に対して式(13)(15)(16)[5-17][5-19][5-20]を使用すると、 𝑥1, 𝑠1 , 𝑥2, 𝑠2 … (𝑥 𝑛, 𝑠 𝑛) (31) 𝜽𝑖 ≜ 𝜃𝑖1, … , 𝜃𝑖𝑚 (𝑖 = 1,2, … , 𝑐) (32) 𝜽 ≜ (𝜽1, … , 𝜽 𝒄, 𝜋1, … , 𝜋 𝑐) (33) 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 {log 𝑃(𝒙, 𝒔)} (34)
  25. 25. 𝐿1はパラメータ𝜋𝑖のみを、𝐿2は𝜃𝑖𝑘のみを含むので、それぞれを 各パラメータに対して独立に最大化させる。 log 𝑃(𝒙, 𝒔) = log 𝑃 𝒔 𝑃(𝒙|𝒔) = log 𝑃 𝒔 + log 𝑃 𝒙|𝒔 = log 𝑃 𝑠𝑡 + log 𝑃 𝑥 𝑡 𝑠𝑡) 𝑛 𝑡=1 𝑛 𝑡=1 (35) 𝐿1 ≜ log 𝑃(𝑠𝑡) , 𝐿2 ≜ log 𝑃(𝑥 𝑡|𝑠𝑡) (36)
  26. 26. パラメータπiの推定 ↓最尤推定を行う↓ 𝐿1 = log 𝑃(𝑠𝑡) 𝑛 𝑖=1 = 𝑛𝑖 log 𝜋𝑖 𝑐 𝑖=1 (37) log 𝑃 𝑠1 𝑃 𝑠2 … 𝑃(𝑠 𝑛) = log 𝑃 𝜔1 𝑛1 𝑃 𝜔2 𝑛2… 𝜋 = 𝑛𝑖 𝑛𝑗 𝑐 𝑗=1 = 𝑛 𝑖 𝑛 (38) 定理5.1を使用 𝜋𝑖 𝑐 𝑖=1 = 1
  27. 27. パラメータ𝜃𝑖𝑘の推定 𝐿2 = log 𝑃(𝑥 𝑡|𝑠𝑡) 𝑛 𝑡=1 = 𝑛𝑖𝑘 log 𝜃𝑖𝑘 𝑚 𝑘=1 𝑐 𝑖=1 (39) 順番に数え上げ まとめて数え上げ 𝜃𝑖𝑘 = 𝑛𝑖𝑘 𝑛𝑖𝑗 𝑛 𝑗=1 = 𝑛 𝑖𝑘 𝑛 (40) 定理5.1を使用 𝜃𝑖𝑘 𝑚 𝑘=1 = 1 教師付き学習(完全データ)では最尤推定は容易!
  28. 28. 教師なし学習 サイコロが出るのはそれぞれ独立なので… 例題5.3 条件付けは例題5.1と同様。操作として、箱の中から無作為に一つサイコ ロを取り出し、出た目を観測した後、元に戻すという作業をn回繰り返す。こ の時サイコロの種類はc種だが確認できない。 サイコロの目の系列 𝒙 = 𝑥1 … 𝑥 𝑛 ・サイコロの目𝑣 𝑘は𝑟𝑘回 ここから𝜋𝑖, 𝜃𝑖𝑘を最尤推定により推定する。 𝑃 𝒙 = 𝑃(𝑥1 𝑥2 … 𝑥 𝑛) = 𝑃(𝑥 𝑡) 𝑛 𝑡=1 (𝑥 𝑡 ∈ 𝑣1, … , 𝑣 𝑚 ) (41)
  29. 29. log 𝑃(𝒙) = log 𝑃(𝑥 𝑡) 𝑛 𝑡=1 = 𝑟𝑘 log 𝑃(𝑣 𝑘) 𝑚 𝑘=1 (42) = 𝑟𝑘 log 𝜋𝑖 𝜃𝑖𝑘 𝑐 𝑖=1 𝑚 𝑘=1 (43) パラメータ𝜃𝑖𝑘, 𝜋𝑖であらわせる。 最尤推定をするためにはlog 𝑃(𝒙) を最大にすればいい。 𝑃(𝑣 𝑘)を新たな変数とみなしてそれを最大にするものを求めてみる。 log 𝑃 𝑥1 𝑃 𝑥2 … 𝑃(𝑥 𝑛) = log 𝑃 𝑣1 𝑟1 𝑃 𝑣2 𝑟2… サイコロの場合に分割 𝑃 𝑣 𝑘 = 𝑃 𝜔𝑖 𝑃(𝑣 𝑘|𝜔𝑖) 𝑐 𝑖=1
  30. 30. また、 以降はlog 𝑃 𝒙 を𝜋𝑖, 𝜃𝑖𝑘をパラメータにもつ関数とする →教師ありとの対比を分かりやすくするため 𝑃 𝑣 𝑘 = 𝑟𝑘 𝑟𝑙 𝑚 𝑙=1 = 𝑟𝑘 𝑛 (44) 𝑃 𝑣 𝑘 = 𝜋𝑖 𝜃𝑖𝑘 𝑐 𝑖=1 = 𝑟𝑘 𝑛 (45) この式を満たす𝜋𝑖, 𝜃𝑖𝑘は一意に決まらない 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥{log 𝑃(𝒙)} (46)
  31. 31. パラメータ𝜋𝑖の推定 ラグランジュの未定乗数法を用いる。 上式を𝜋𝑖で偏微分し結果を0とおく。     𝐿 = log 𝑃(𝒙) − 𝜆 𝜋𝑖 𝑐 𝑖=1 − 1 (47)     𝜕𝐿 𝜕𝜋𝑖 = 𝜕 log 𝑃 𝒙 𝜕𝜋𝑖 − 𝜆 = 0 (48)     𝜕 log 𝑃 𝒙 𝜕𝜋𝑖 = 1 𝑃(𝑥 𝑡) 𝜕𝑃 𝑥 𝑡 𝜕𝜋𝑖 𝑛 𝑡=1 = 1 𝑃(𝑥 𝑡) 𝑃(𝑥 𝑡|𝜔𝑖) 𝑛 𝑡=1 = 𝑃(𝑥 𝑡, 𝜔 𝑡) 𝑃 𝑥 𝑡 𝑃(𝜔𝑖) 𝑛 𝑡=1 = 1 𝜋𝑖 𝑃 𝜔𝑖 𝑥 𝑡) 𝑛 𝑡=1 (49) log 𝑃(𝒙) = log 𝑃(𝑥 𝑡) 𝑛 𝑡=1 𝑃(𝑥 𝑡) = 𝜋𝑖 log 𝑃(𝑥 𝑡|𝜔𝑖) 𝑐 𝑖=1 (𝑖 = 1,2, … , 𝑐) 𝑃 𝜔𝑖 = 𝜋𝑖
  32. 32. 式(48)(49)[5-56][5-59]より、 よって、式(50)(51)より     1 𝜋𝑖 𝑃 𝜔𝑖 𝑥 𝑡) 𝑛 𝑡=1 − 𝜆 = 0 𝜆𝜋𝑖 = 𝑃 𝜔𝑖 𝑥 𝑡) 𝑛 𝑡=1 (50) 𝑐 𝑖=1 𝜆𝜋𝑖 = 𝑃 𝜔𝑖 𝑥 𝑡) 𝑛 𝑡=1 𝑐 𝑖=1 𝜆 = 𝑛 (51) 𝑃(𝜔𝑖|𝑥 𝑡) 𝑐 𝑖=1 = 1    𝜋𝑖 = 1 𝑛 𝑃 𝜔𝑖 𝑥 𝑡) 𝑛 𝑡=1 (𝑖 = 1,2, … , 𝑐) (52)
  33. 33. パラメータ𝜃𝑖𝑘の推定 条件より以下が成り立つのは明らか。 として、𝜃𝑖𝑘で偏微分したのち結果を0とおく     𝑚 𝑘=1 𝜋𝑖 𝑐 𝑖=1 𝜃𝑖𝑘 = 1 (53) 上式の条件のもとラグランジュの未定乗数法を使用    𝐿 = log 𝑃(𝑥) − 𝜆 𝑚 𝑘=1 𝜋𝑖 𝑐 𝑖=1 𝜃𝑖𝑘 − 1 (54) 𝜕 log 𝑃 𝒙 𝜕𝜃𝑖𝑘 = 𝑟𝑘 𝑃(𝑣 𝑘) 𝜕𝑃 𝑣 𝑘 𝜕𝜃𝑖𝑘 = 𝑟𝑘 𝜋𝑖 𝑃(𝑣 𝑘) (55) 式(42)[5-51] 𝑃 𝑣 𝑘 = 𝜋𝑖 𝑐 𝑖=1 𝜃𝑖𝑘 (𝑘 = 1, … , 𝑚) (56)
  34. 34. 以上より、 式(57)(58)より、 式(45)[5-53]と同様の結果が得られる    𝜕𝐿 𝜕𝜃𝑖𝑘 = 𝑟𝑘 𝜋𝑖 𝑃 𝑣 𝑘 − 𝜆 𝜋𝑖 = 0 𝜆 𝑃 𝑣 𝑘 = 𝑟𝑘 (∵ 𝜋𝑖 ≠ 0) (57) 𝑚 𝑘=1 𝜆 𝑃 𝑣 𝑘 = 𝑚 𝑘=1 𝑟𝑘 𝜆 = 𝑛 (58)     𝑃 𝑣 𝑘 = 𝑟𝑘 𝑛 (59)
  35. 35. ベイズの定理より、    𝜃𝑖𝑘 = 𝑃(𝑣 𝑘|𝜔𝑖) = 𝑃 𝑣 𝑘, 𝜔𝑖 𝑃(𝜔𝑖) = 𝑃 𝑣 𝑘 𝑃 𝜔𝑖 𝑣 𝑘 𝑃 𝑣𝑙 𝑃 𝜔𝑖 𝑣𝑙)𝑚 𝑙=1 (60) 𝜃𝑖𝑘 = 𝑟𝑘 𝑃 𝜔𝑖 𝑣 𝑘 𝑟𝑙 𝑚 𝑙=1 𝑃(𝜔𝑖|𝑣𝑙) (61)
  36. 36. 推定結果の妥当性 • 𝜋𝑖𝑘の妥当性 – 式(49)[5-59]を計算する際、一回一回の結果を足し合わせるのではな く、1の目が出た時、2の目が出た時といった感じで目の場合分けに よって足し合わせる。 上式を導入する。     𝛿 𝑥 𝑡, 𝑣 𝑡 = 1 (𝑥 𝑡 = 𝑣 𝑘) 0 (𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒) (62)    𝑃 𝜔𝑖 𝑥 𝑡 = 𝛿 𝑥 𝑡, 𝑣 𝑘 𝑃(𝜔𝑖|𝑥 𝑡) 𝑛 𝑡=1 𝑚 𝑘=1 𝑛 𝑡=1 = 𝑟𝑘 𝑃(𝜔𝑖|𝑣 𝑘) 𝑚 𝑘=1 = 投げたサイコロが𝜔𝑖であった回数の期待値 (63) サイコロの目が指定の 時のみを数え上げ 回数×確率 𝜋𝑖 = 1 𝑛 𝑃 𝜔𝑖 𝑥 𝑡) 𝑛 𝑡=1
  37. 37. よって…式(63)(52)[5-79][5-64]より よって、式(49)[5-59]は妥当である。 𝜋𝑖= 1 𝑛 𝑟𝑘 𝑚 𝑘=1 𝑃(𝜔𝑖|𝑣 𝑘) = 投げたサイコロが𝜔𝑖であった回数の期待値 サイコロを投げた回数 = サイコロ𝜔𝑖の含有率 (64)
  38. 38. • 𝜃𝑖𝑘の妥当性 よって、式(61)[5-75]は妥当である。 𝜃𝑖𝑘 = 𝑟𝑘 𝑃 𝜔𝑖 𝑣 𝑘 𝑟𝑙 𝑚 𝑙=1 𝑃(𝜔𝑖|𝑣𝑙) 𝑟𝑘 𝑃 𝜔𝑖 𝑣 𝑘 = 目が𝑣 𝑘の時、サイコロが𝜔𝑖である確率 × 目が𝑘で合った回数 = 観測結果が𝑣 𝑘の時、サイコロが𝜔𝑖であった期待値 𝑟𝑙 𝑃 𝜔𝑖 𝑣𝑙 = 投げたサイコロが𝜔𝑖であった回数の期待値 𝑚 𝑙=1 (65) 式(63)[5-79]より     𝜃𝑖𝑘 = 観測結果が𝑣 𝑘の時、サイコロが𝜔𝑖であった期待値 投げたサイコロが𝜔𝑖であった回数の期待値 (66)
  39. 39. 教師付きとの関係 • 教師無し – 𝑃 𝜔𝑖 𝑥𝑡 は確率 • 教師あり – 𝑃 𝜔𝑖 𝑥𝑡 は確定的 – 𝑃 𝜔𝑖 𝑥𝑡 = 1 (𝑠𝑡 = 𝜔 𝑡) 0 (𝑠𝑡 ≠ 𝜔 𝑡)     𝑃(𝜔𝑖|𝑥 𝑡) 𝑛 𝑡=1 = 𝑛𝑖 (67) 𝜋𝑖= 投げたサイコロが𝜔𝑖であった回数 サイコロを投げた回数 = 𝑛𝑖 𝑛 (68) 式(64)[5-81]より 式(38) [5-44]と一致
  40. 40. • 教師ありの時… 教師無し学習が一般解であり、教師付き学習を特別な場合とし て含んでいる。    𝜃𝑖𝑘 = 𝑟𝑘 𝑃 𝜔𝑖 𝑣 𝑘 𝑟𝑙 𝑚 𝑙=1 𝑃(𝜔𝑖|𝑣𝑙) = 観測結果が𝑣 𝑘でサイコロが𝜔𝑖であった回数 サイコロが𝜔𝑖であった回数 = 𝑛𝑖𝑘 𝑛𝑖 (69) 式(40)[5-47] と一致
  41. 41. 教師無し学習アルゴリズムの演算 • 式(52)[5-64]の右辺部分(𝜋𝑖を求めるために) • 式(61)[5-75](𝜃𝑖𝑘を求めるため)に代入しても𝜃𝑖𝑘を含んでいる   𝑃(𝜔𝑖|𝑣 𝑘) = 𝑃 𝜔𝑖, 𝑣 𝑘 𝑃(𝑣 𝑘) (70) = 𝜋𝑖 𝑃 𝑣 𝑘 𝜔𝑖) 𝜋𝑗 𝑃(𝑣 𝑘|𝜔𝑗)𝑐 𝑗=1 (71) = 𝜋𝑖 𝜃𝑖𝑘 𝜋𝑗 𝜃𝑗𝑘 𝑐 𝑗=1 𝜋𝑖を含んでいる パラメータを推定するために…
  42. 42. 教師無し学習アルゴリズム 𝜋𝑖, 𝜃𝑖𝑘の初期化 𝑃(𝜔𝑖|𝑣 𝑘)の計算 𝜃𝑖𝑘の計算 𝜋𝑖 = 𝜋𝑖 𝑃(𝜔𝑖|𝑣k )の計算 𝜋𝑖の計算 𝜃𝑖𝑘 = 𝜃𝑖𝑘 log 𝑃 𝒙 の 増分が閾値 終了 より大きい 以下
  43. 43. • Step 1 𝜋𝑖, 𝜃𝑖𝑘の初期値を与える(初期化) • Step 2 𝑃 𝜔𝑖 𝑣 𝑘 = 𝜋 𝑖 𝜃 𝑖𝑘 𝜋 𝑗 𝜃 𝑗𝑘 𝑐 𝑗=1 • Step 3-1 𝜋𝑖 = 1 𝑛 𝑟𝑘 𝑃(𝜔𝑖|𝑣 𝑘)𝑚 𝑘=1 • Step 3-2 𝑃 𝜔𝑖 𝑣 𝑘 = 𝜋 𝑖 𝜃 𝑖𝑘 𝜋 𝑗 𝜃 𝑗𝑘 𝑐 𝑗=1 • Step 3-3 𝜃𝑖𝑘 = 𝑟 𝑘 𝑃(𝜔 𝑖|𝑣 𝑘) 𝑟 𝑙 𝑃(𝜔 𝑖|𝑣 𝑙)𝑚 𝑙=1 • Step 4 𝜋𝑖 = 𝜋𝑖, 𝜃𝑖𝑘 = 𝜃𝑖𝑘 log 𝑃(𝒙) = 𝑟𝑘 𝑚 𝑘=1 log 𝜋𝑖 𝜃𝑖𝑘 𝑐 𝑖=1 対数尤度log 𝑃 𝒙 をとり、その増分が閾値以下 なら終了し、さもなければStep2からもう一度繰り 返す。 式(42)(56) [5-51][5-8]より
  44. 44. この計算は… • EMアルリズムに則っている – 得られるのは局所的最適解 • 大域的最適解でない可能性がある • 与える初期値によって結果が異なる可能性がある • 収束性が保証されている – 次章で議論
  45. 45. 教師無し学習の実験 • 実験条件 – サイコロは3つ(𝜔1, 𝜔2, 𝜔3) – サイコロの目は2通り(偶数𝑣1, 奇数𝑣2) – 推定すべきは𝜋𝑖で、𝜃𝑖𝑘は既知 – サイコロは10000回投げる(n=10000) – 初期値は𝜋1 = 0.1, 𝜋2 = 0.5, 𝜋3 = 0.2 – 𝜃𝑖𝑘は既知なのでStep 3は省く 未知 𝜋1 = 0.1 𝜋2 = 0.4 𝜋3 = 0.5 (70) 既知 𝜃11 = 0.8 𝜃21 = 0.6 𝜃31 = 0.3 (71)
  46. 46. • 実験結果 – 𝑟1 = 4746, 𝑟2 = 5254 – 𝜋1 = 0.108, 𝜋2 = 0.401, 𝜋3 = 0.490 • おおむね設定値と同じ値が出ている
  47. 47. 条件より、 実験により求める対数尤度は、 上式において𝑟𝑘は実験から求められる。初期値の近傍におい てlog 𝑃(𝒙)を最大にするのは、 • 𝜃𝑖𝑘が既知 – 一点 • 一つの項につき未知数が一つ • 𝜃𝑖𝑘が未知 – 式(72)(73)の解は直線上のどこか • 一つに項につき未知数が二つ    𝜋1 + 𝜋2 + 𝜋3 = 1 (72)   log 𝑃 𝒙 = 𝑟𝑘 𝑚 𝑘=1 log 𝜋𝑖 𝜃𝑖𝑘 𝑐 𝑖=1 (73)
  48. 48. • 実験で得られる最終的な𝜋1, 𝜋2, 𝜋3は、 – 𝜃𝑖𝑘未知だと太線上のどこか – 𝜃𝑖𝑘既知だと〇(𝜃𝑖𝑘によってかわる)
  49. 49. • 教師あり学習(𝜃𝑖𝑘既知) – 結果として図5‐5中の〇付近が求まる – 大域的最適解として初期値によらず一つの値が得られる • 教師なし学習 𝜃𝑖𝑘未知 – 結果として図5‐5中の太線中のいずれかの点が求まる – 複数あるうちの局所的最適解の一つが求まる • 初期値によって求まる値は異なる • 実際のパラメータと異なる値が求まる可能性もある – 対数尤度を最大にする値
  50. 50. 以上で終了です ありがとうございました

×