Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ITエンジニアのための機械学習理論入門8.1ベイズ推定

2,418 views

Published on

ITエンジニアのための機械学習理論入門の読書会で発表した、
8章の前半ベイズ推定についてに関するスライドです。

Published in: Technology
  • Be the first to comment

ITエンジニアのための機械学習理論入門8.1ベイズ推定

  1. 1. 8.1 ベイズ推定モデルとベイズの定理 第8章 ベイズ推定: データを元に「確信」 を高める方法 注意:今回かなり割愛してますがそれでも数式多いです。。
  2. 2. パラメトリックモデルおさらい パラメーターを含むモデル(数式) を設定する パラメーターを評価する基準を定める 最良の評価を与えるパラメーターを 決定する
  3. 3. パラメーターを評価する方法 最小二乗法  誤差を定義して誤差を最小にするよう にする方法  最尤推定法  トレーニングセットが得られる確率で ある尤度関数を定め、これを最大にす るようにする方法
  4. 4. ベイズ推定は? 最小二乗法とも最尤推定法とも違う。 パラメーターそのものについても 「それぞれの値をとる確率」を定義 する、という新しい方法。
  5. 5. 最尤推定法と ベイズ推定法を 比較してみる
  6. 6. 最尤推定法  真のモデル(真値)があって、そのモデル から発生したデータを手に入れている。 という前提。
  7. 7. 最尤推定法  真のモデル(真値)があって、そのモデル から発生したデータを手に入れている。 という前提。  真値は一つであり データは取り方に よって、確率的に 変化する。
  8. 8. 最尤推定法  例えばコイントス  真値は0.5だけど、たまには0.3 だったり0.7だったりする。  何度もサンプルをとって平均すれ ば0.5に近づいていくはず。  データは確率的だけど、真のモデ ルからは手元のデータが最も得ら れやすいはず、と考える。
  9. 9. 最尤推定法  コインを100回投げたら50回表、 50回裏だった。  このデータが最もありえるモデル はなんだろうか?と考える。  このモデルの尤もらしさが尤度で、 尤度を最大にするのが最尤推定法 という。
  10. 10. ベイズ推定法  ベイズ推定は、真値を確率分布として 考える。
  11. 11. ベイズ推定法  ベイズ推定は、真値を確率分布として 考える。  コイントスの例で 言えば、0.5が最も 確率が高く、0や 1に近づくほど ありえなさそう。 という感じ。
  12. 12. ベイズ推定法  データを得る前の真値の分布を「事前分布」 データを得て更新された分布を「事後分布」 と呼ぶ。
  13. 13. ベイズ推定法  少しずつデータを得て、事後分布をどんど ん更新していくことができる。  この更新をするのに使用するのが、 「ベイズの定理」 トーマス・ベイズ
  14. 14. ベイズの定理入門
  15. 15. 簡単な問題を考えてみる  箱の中に「黒」「白」「大」「小」の ボールが入っていて、その中からランダム にボールが出てくるおもちゃがある。
  16. 16. 簡単な問題を考えてみる  Q1. 出たボールが「黒」の確率。  Q2. 出たボールが「大」と分かっている 場合、それが「黒」の確率。  Q3. 出たボールが「大きな黒」の確率。
  17. 17. Q1. 出たボールが「黒」の確率。  全部で12個、そのうち黒は7個なので
  18. 18. Q2. 出たボールが「大」と分かっている 場合、それが「黒」の確率。  大きいボールは全部で4個、 その中で黒いボールは1個なので
  19. 19. Q3. 出たボールが「大きな黒」の確率。  全部で12個、そのうち大きい黒は1個 なので
  20. 20. Q2. の場合 というのは、言葉で表すと と言える。
  21. 21. Q3. の場合 というのは、言葉で表すと と言える。
  22. 22. Q3 ÷ Q2 ÷
  23. 23. Q3の黒と大を入替 ÷ Q2
  24. 24. ということは
  25. 25. ということは =
  26. 26. ということは = つまり
  27. 27. ということは = つまり 一般化すると となる。
  28. 28. さらにこれは
  29. 29. さらにこれは こうなる
  30. 30. さらにこれは こうなる ベイズの定理
  31. 31. もう一つ別の観点から 黒の全ての パターンを足すと 黒の確率になる。 一般化すると 全てのYについて 足しあわせる。 前ページの 一般化した式を 代入する。 ベイズの定理 に代入する。
  32. 32. ベイズの定理の特徴  左辺は「Xである時のYの確率」  右辺は逆に「Yである時のXの確率」  このように「条件と結果」を入れ替えた 関係を計算するのが特徴となる。
  33. 33. 別の問題を考えてみる  ピロリ菌感染問題。  太郎さんの年代の感染率は1%  ピロリ菌検査の精度は95%  太郎さんは陽性だった。  この時感染している 確率は何%か?
  34. 34. 分かっていること  P(感染) = 0.01  P(非感染) = 0.99  P(陽性|感染) = 0.95  P(陰性|感染) = 0.05  P(陽性|非感染)= 0.05  P(陰性|非感染)= 0.95  P(感染|陽性) = ???? (問われている事)
  35. 35. ベイズの定理を適用すると  P(感染|陽性) = ???? (問われている事)
  36. 36. 図で見てみる 偽陰性 真陽性 真陰性 偽陽性 感染 非感染
  37. 37. 陽性全体 真陽性 偽陽性 感染 非感染
  38. 38. 問われている、陽性の時の感染 真陽性 感染 非感染
  39. 39. つまり図式するとこうなる 偽陽性 感染 真陽性 真陽性 感染 非感染
  40. 40. つまり図式するとこうなる 偽陽性 感染 真陽性 真陽性 感染 非感染 非感染(0.99) x 偽陽性(0.05) 感染(0.01) x 真陽性(0.95)  分子は「感染であり陽性」  分母は「陽性」すべて
  41. 41. ベイズ推定による 正規分布の決定 〜パラメーター推定〜
  42. 42. 3.2 単純化した例による解説
  43. 43. 3.2 単純化した例による解説 この散らばりが何かの分布
  44. 44. 何かの分布
  45. 45. 何かの正規分布 平均 μ ←これを推定する 分散σ2 N個の観測値tの散らばり
  46. 46. 3.2 単純化した例による解説より  平均μ、標準偏差σの正規分布の場合 ある特定のデータtnが得られる確率は となり、トレーニングセット全体が観測 される確率は全ての掛けあわせなので となる。
  47. 47. あれ?この記号…  これは先ほどの例と同じく、 「μであるときのtの確率」を表している。  であれば、ベイズの定理(8.15)に当てはめて みる。
  48. 48. μを求めたいのでP(μ|t)とする  分母は「あらゆるYについて足し合わせる」 という意味のΣがあった。  いま求めるμは正規分布として連続する数 なので、和の代わりに積分を用いる。
  49. 49. そもそもP(μ)ってなに?  P(μ)は、観測データを取得する前のμの確率。  観測データが無いと、μの値が何かは一切 わからず、グラフは一様分布のようになる。  この学習前の分布を事前分布という。
  50. 50. じゃあP(μ|t)は?  観測データを取得し学習した後のμの確率。  観測データが多ければ多いほど、μの分布は 小さくなり、一つの値に近づいていく。  この学習後の分布を事後分布という。
  51. 51. P(μ|t)って結局何なの?  数学徒の小部屋の計算をすると、P(μ|t)は 平均μN、分散βN -1となる。
  52. 52. 計算後のμの事後分布P(μ|t)  分散がβN -1となることから、 標準偏差は となる。
  53. 53. 分散の値を紐とく  分散βN -1を計算すると、 となる。  これは、トレーニングセットのデータ数Nが 大きくなるほど分散が小さくなり、分布の 幅が狭くなるということ。  N→∞の極限では、分散は0になり、μの値は 一つに定まる。 =最尤推定法と同じ結果になる。
  54. 54. データ数Nによる分散の違い  事前分布P(μ)は、平均μ0=-1、分散σ0 2=1
  55. 55. ベイズ推定による 正規分布の決定 〜観測値の分布の推定〜
  56. 56. 次の値は何か?が知りたい。  いままで見てきたP(μ|t)は、観測データtの 値が得られた時の平均μの確率。  でも本当に知りたいのは次に得られるで あろう観測データtの値。  観測データは、平均μ、分散σ2の正規分布 から得られるという前提だった。
  57. 57. 平均μは1つに決まっていない  いまベイズ推定では平均μは事後分布として P(μ|t)で与えられている。  この場合「さまざまなμに対する正規分布 N(t | μ, σ2)をそれぞれの確率P(μ | t)の 重みで足し合わせる」という事をする。
  58. 58. 具体的には さまざまなμの確率
  59. 59. 具体的には そのμの時のtの正規分布
  60. 60. 具体的には 計算するとこうなる 分散σ2 ちょっと大きくなる
  61. 61. 分散の増分βN -1  本来β-1が分散としてこのデータの真のモデ ルで定義されている。  ただしβN -1 の分だけ増えている。  これはデータ数Nが少ない時に確信が持てな いので分散を大きくし、Nが増えると確信が 持てるようになって分散が小さくなる。
  62. 62. βN -1はデータ数が多くなれば消える
  63. 63. データ数Nによる確率分布  事前分布P(μ)は、平均μ0=-1、分散σ0 2=1
  64. 64. まとめ  ベイズ推定はパラメーター自体にその値をと る確率という概念を入れたもの。  最尤推定法と異なり、真値は分布で考える。  十分にデータが多い場合は最尤推定法の結果 と同じになる。  データセットから平均の分散を求め、その 平均の分布から改めて観測データが得られる 確率を求めるという事をする。

×