Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction to Statistical Estimation (統計的推定入門)

1,479 views

Published on

Describes statistical estimation in an intuitive manner.
Intended for beginners. Covers maximum likelihood, MAP, and Bayesian estimate.

Published in: Technology

Introduction to Statistical Estimation (統計的推定入門)

  1. 1. 統計的推定入門 手塚 太郎 1
  2. 2. なぜ確率?  世界を記述するために大変有効な枠組み。  未知であるものを確率で表わせばよい。  あらゆる場面で使われるようになってきている 。 2
  3. 3. さらに……  人間は誰でも“確率的直観”を 持っている。  日々確率論を利用しながら 推論を行っていると言える 。  何げなく使っている推論が 明確に定式化されると嬉し い。 3
  4. 4. 分からないものは確率で  明日の天気が決まる仕組みが複雑 →確率的に決まるとみなす  降水確率を割り当てる  サイコロの目が決まる仕組みが複 雑 →確率的に決まるとみなす  各面に1/6の確率を割り当てる  文書の意味構造が複雑 →確率モデルで定式化 4
  5. 5. 機械学習 予測・ 識別 学習 訓練 データ テスト データ 学習器 分布 推定  パラ メータ 訓練データを用いて分布のパラメータを推定 し、テストデータに対して予測や識別を行う。 5
  6. 6. 機械学習と確率統計  機械学習は確率論とは独立に発展したが、現在 は両者は不可分の関係にあることが分かってき ている。 統計的 機械学習 統計 確率 機械 学習 6
  7. 7. 確率論の基礎 7
  8. 8. 確率の表記法の基本  明日の天気を確率的に捉える例。  明日の天気を確率変数xで表す。  晴れをa1で表す。明日晴れる確率は0.6。  小雨をa2で表す。明日小雨の確率は0.3。  大雨をa3で表す。明日大雨の確率は0.1。 問題: これらの知識を三つの等式で表せ。 P( x a1 ) 0.6 P( x a2 ) 0.3 P( x a3 ) 0.1 8
  9. 9. 確率分布  確率変数xのそれぞれの値に対し、その値が生 じる確率を値として持つ関数 P( x a1 ) 0.6 P( x a2 ) 0.3 P( x a3 ) 0.1 P(x) 9
  10. 10. 同時確率(同時分布)  複数の事象が同時に起きる確率の分布 P( x a1 , y P( x b1 ) 0.02 a1 , y b2 ) 0.05 P( x a2 , y b1 ) P( x P( x, y ) 0.03 .......... .... am , y bn ) 0.04 10
  11. 11. 同時確率の例  それぞれの事象が 同時に生じる確率 の分布 明 後晴  すべての事象の確 率を足した時に1 日 になる必要がある の 。 天 雨 気 y 明日の天気 x 晴 雨 0.4 0.1 0.2 0.3 11
  12. 12. 三つ以上の確率変数の同時確率  確率変数が二つの場合と同じように定義できる 。 P( x a1 , y P( x b1 , z c1 ) 0.006 a1 , y b2 , z c1 ) 0.007 P( x a1 , y b1 , z c2 ) 0.001 .......... .... P( x am , y P( x, y, z ) bn , z ck ) 0.002 12
  13. 13. 周辺化  N個の確率変数(ここではxとy)に関する分布 である同時確率から、N-1個の確率変数(ここ ではx)の分布を作る操作。 P( x) P( x, y ) y P( x, y  b1 ) P( x, y b2 ) ... P( x, y bn ) yについてすべての可能性について考えて確率を 足し合わせたら、xについてだけの確率分布にな る。 13
  14. 14. 周辺化の例  明日の天気xの確 率分布 P(x) を同 時確率から求め 明 る。 後 晴 日  明後日の天気yの の 確率分布 P(y) を 天 同時確率から求 気 雨 める。 y P(x) 明日の天気x P(y) 晴 雨 0.4 0.1 0.5 0.2 0.3 0.5 0.6 0.4 14
  15. 15. 条件付き確率 条件付き確率は「確率分布を値とする関数」。  区切り記号「|」の後に条件を入れることで、そ の条件のもとでの確率分布が得られる。  P( x  a| y b) 条件付き確率の値は同時確率と周辺確率の商と して求められる。 P( x | y ) P ( x, y ) P( y ) 15
  16. 16. 条件付き確率の例  明日の天気 が決まった 上での明後 日の天気の 確率分布。 明 後 晴 日 P ( x, y ) の P( y | x) 天 P( x) 気 雨 y P(x) 明日の天気x 晴 雨 P(y) 0.4/0.6 0.1/0.4 = 0.666 = 0.25 0.5 0.2/0.6 0.3/0.4 = 0.333 = 0.75 0.5 0.6 0.4 16
  17. 17. 条件付き確率と“割合”   条件付き確率の計算では全 体に対する“割合”が求められ ている。 総和 p(x=晴) のうち、 p(x=晴,y=雨)が占める割合が 求められている。 P ( y 雨 | x 晴) P( x 晴, y 雨) P ( x 晴) P x 晴, y 雨 P x 晴 , y 晴 P x 晴, y 雨 明日の 天気x 晴 明 後 晴 日 の 天 気 雨 y P(x) 0.4/0.6 = 0.666 0.2/0.6 = 0.333 0.6 17
  18. 18. 独立性  xとyが同時に起きる確率(同時確率)がxが起 きる確率とyが起きる確率の積で表せる時、xと yは独立であるという。 P( x, y) P ( x ) P( y ) 18
  19. 19. 独立性の判定例  血液型xと性格yが以下の分布に従っているとす る。 A 几帳面 性 格 だらしない y 普通  血液型x B O AB 0.12 0.06 0.09 0.03 0.08 0.04 0.06 0.02 0.2 0.1 0.15 0.05 血液型と性格は独立か? 19
  20. 20. 独立性の評価 血液型x P(y) A 性 格 y   B O AB 几帳面 0.12 0.06 0.09 0.03 0.3 だらしない 0.08 0.04 0.06 0.02 0.2 0.2 0.1 0.15 0.05 0.5 0.4 0.2 0.3 0.1 普通 P(x) 同時分布が周辺分布の積で求められるので、独立。 実際、xとyのすべての値について以下が成り立ってい る。 P( x, y) P ( x ) P( y ) 20
  21. 21. 条件付き独立性  条件部の値を固定した時に独立である時、条件 付き独立であるという。 P( x, y | z c1 ) P( x, y | z P( x | z c2 ) P ( x, y | z P( x, y | z ) c1 ) P( y | z P( x | z c1 ) c2 ) P( y | z .......... .... ck ) P( x | z c2 ) ck ) P ( y | z ck ) P( x | z ) P( y | z ) 21
  22. 22. 条件付き独立性の例 x:横浜スタジアムで野球の試合が開催されるか y: 赤レンガパークで野外ライブが開催されるか z: 天候 P( x 開催, y 開催 | z 晴) P( x 開催 | z 晴) P( y 開催 | z 晴) P( x 開催, y 中止 | z 雨) P( x 開催 | z 雨) P( y 中止 | z 雨) などの式が成り立つと考えられる。 22
  23. 23. 条件付き独立性の例  もしxとyのすべての値について以下の関係式が 満たされていれば、xとyはzのもとで条件付き 独立。 P( x, y | z 晴) P( x, y | z 雨)  P( x | z 晴) P( y | z 晴) P( x | z 雨) P( y | z 雨) しかしxとyの値はzを通して関係するので、独 立とは限らない。 23
  24. 24. 確率の間の関係式のまとめ 同時確率 P x, y 周辺化 周辺確率 P x ,P y 条件付き確率 P( x | y ) 周辺化 P ( x, y ) P( y ) P( x) P( x, y) y 24
  25. 25. 練習問題1  ある店にあるスロットマシンについて。 設定が甘く、30分で大当たりが出る確率は0.1 設定が甘く、30分で大当たりが出ない確率は0.2 設定が厳しく、 30分で大当たりが出る確率は0.1 設定が厳しく、 30分で大当たりが出ない確率は 0.6  30分で大当たりが出た時、設定が甘い確率はどれ だけか。  同時分布・周辺分布・条件付き分布の表を求めよ 。 25
  26. 26. 練習問題1 回答(同時分布/周辺分 布)  同時分布 P(x,y)、 周辺分布 P(x)、 P(y) は以下のよう に求められる。 P( x) y P( y) x 設定x P(y) 甘い 厳しい 出 る 0.1 0.1 0.2 出 な い 0.2 0.6 0.8 P(x) 0.3 0.7 大 当 P( x, y) た り P ( x, y ) y 26
  27. 27. 練習問題1 回答(条件付き確率 )  大当たりが出た時の 分布は P(x|y) なので P(y)で割る。  大当たりが出た時に 大 出 0.1/0.2 0.1/0.2 = 0.5 設定が甘い確率は る = 0.5 当 0.5になる。 ※ 設定xをパラメータと すると、これは観測 変数yからパラメータ を推定することの一 例。 設定x P(y) 甘い 厳しい た 出 り な y い P(x) 0.2/0.8 0.6/0.8 = 0.25 = 0.75 0.3 0.2 0.8 0.7 27
  28. 28. 練習問題1 回答(独立性)  設定x P(y) 甘い 厳しい xとyは独立ではない 。 P( x, y) P( x ) P( y ) 大 当 た り y 出 る 出 な い P(x) 0.1≠ 0.3×0.2 0.1≠ 0.7×0.2 0.2 0.2≠ 0.3×0.8 0.6≠ 0.7×0.8 0.8 0.3 0.7 28
  29. 29. 練習問題2  マウスの集団について。 疾患xを持ち、タンパク質yが発現している確率が0.08 疾患xを持たず、タンパク質yが発現している確率が 0.12 疾患xを持ち、タンパク質yが発現していない確率が 0.32 疾患xを持たず、タンパク質yが発現していない確率が 0.48  同時分布・周辺分布・条件付き分布の表を求め よ。 29
  30. 30. 練習問題2 回答 ここでは P(x|y) を載 疾患x P(y) せているが、同様に あり なし P(y|x)も求められる タ あ 0.08/0.2 0.12/0.2 。  xとyは独立である  。  このため、以下が 成り立っている。 P x, y P x| y P y PxP y Px P y ン り パ ク な 質 し y P(x) = 0.4 = 0.6 0.32/0.8 0.48/0.8 = 0.4 = 0.6 0.4 0.2 0.8 0.6 30
  31. 31. 離散分布と連続分 布 31
  32. 32. 離散分布と連続分布  離散分布 観測データが離散値を取る。  観測データのそれぞれの値について確率値が定ま る。  • 事象の例: サイコロの目,引いたトランプのスート (マーク) • 分布の例: ベルヌーイ分布、二項分布  連続分布 観測データが連続値を取る。  観測データの値の関数として確率密度が決まる。  • 事象の例: 人間の身長、生物の寿命、測定誤差 • 分布の例: ガウス分布、指数分布 32
  33. 33. 離散分布の例  試験の正解数 確率 0問 1問 2問 3問 4問 5問 33
  34. 34. 連続分布の例  生物の寿命 確率密度 0年 5年 10年 15年 20年 34
  35. 35. 確率密度 連続値をとる確率変数の分布を考えるため、分割 を細かくしていく。(1年単位→1日単位→1秒単 0.5 0.5 0.5位……)  0  1 2 0 0.5 1 1.5 2 0 0.25 0.5 1 1.25 1.5 1.75 2 「すべての事象の確率を足したら1になる」と いう制約のため、細かく分けるにつれて個々の 事象の生じる確率が小さくなっていく。 連続値の分布を考えるには無限回の分割が必要 であり、個々の事象の生じる確率は0になる。  ゆえに従来の意味での確率分布を定義できない  35
  36. 36. 確率密度関数 確率密度関数の値は確率そのものではなく、密 度の大きさを表す。  一定の範囲で積分することで確率になる。  誤差の確率密度関数を考え た場合、誤差が0.8と1.1の 間の値である確率は積分に よって求められる。 0.8  1.1 確率密度関数を「確率分布」と呼ぶことも多く 、ここでもその言い方を使用する。 36
  37. 37. 確率密度関数の例  0と1の間の任意の実数がそれぞれ等しい確率で現れる分 布(一様分布)の場合 棒グラフで表そうとした場合 0.5 0.5 0 0.5 1 0.5 0 0.5 1 0 0.5 1 確率密度関数を使用した場合 1 0 0.5 1 37
  38. 38. 確率密度関数を積分すると確率にな る  あとx年生きられる確率 5年未満しか生きられない確率= この範囲の面積 10年以上11年未満生きる確率= この範囲の面積 5年 10年 15年 20年 38
  39. 39. 確率分布と確率密度  確率分布は確率変数のそれぞれの値に対する確 率を与える。  確率密度は確率変数の一定の範囲で積分するこ とでその範囲内の事象が生じる確率を与える。 39
  40. 40. 標本とパラメータ 40
  41. 41. 標本とパラメータ推定  今までの例では「晴れる確率」「雨が降る確率 」等が分かっているとして計算を行ってきた。  しかし実際には確率の大きさや確率分布の形は 分からないことがほとんどである。  観測された「標本」から真の確率分布を求める こと、すなわち(分布を規定する)「パラメー タ」を推定することが一般的な問題である。 41
  42. 42. 推定と予測  システムの内部に潜むパラメータを明らかにす るのが推定。  明らかになったパラメータと新たに与えられた テストデータを使って、未知の値を求めるのが 予測。 42
  43. 43. 観測変数とパラメータ  データとして観測されるのが観測変数。  xなどアルファベットで表記することが多い。  観測することはできないが、分布を決める条件に なっているのがパラメータ。     人間には観測できず、推定しかできない。 θなどのギリシャ文字で表記することが多い。 ガウス分布では平均μと分散σ2がパラメータ。 機械学習や統計的推定の目的は主にパラメータの 推定と、それに基づく予測。  訓練データからμとσ2を推定する。それを使って未 観測のデータの値を予測する。 43
  44. 44.  サイコロにおけるパラメータ そ の1 有限個の値をとる観測変数xの分布のパラメータμ は有限個の数値(それぞれの値が生じる確率)に なる。 例: サイコロの目の確率分布はそれぞれの目が出 る確率の表で完全に表現できる。 偏っていないサイコロの目の確率分布:  x μ P(x|μ)  1 1/6 1/6 2 1/6 1/6 3 1/6 1/6 4 1/6 1/6 5 1/6 1/6 6 1/6 1/6 1が出る確率から5が出る確率までが決まれば、6が出 る確率は自動的に決まる。ゆえに1が出る確率から5 が出る確率までのみをパラメータとしてもよい。 44
  45. 45. サイコロにおけるパラメータ そ の2 1が出やすいイカサマのサイコロの目の確率分布: x 1 μ 15 / 60 P(x|μ) 15 / 60 2 1/6 1/6 3 1/6 1/6 4 1/6 1/6 5 1/6 1/6 6 5 / 60 5 / 60 パラメータは「確率分布を決定する数値の集合 」。  サイコロの目の確率分布はこれらの6つのうち5 つの数字が与えられれば自動的に決定される。  ゆえにそれがサイコロの目の確率分布のパラメ ータとなる。 45 
  46. 46. 連続値確率変数の分布とパラメー タ  有限個の値を取る離散値確率変数であれば、そ れぞれの値が生じる確率を並べることで分布を 完全に定義できる。これらの確率がパラメータ になる。 連続値確率変数の場合、取り得る値の種類が無 限個である(たとえば10と0の間には無限個の 数値が存在する)ため、「それぞれの値におけ る確率密度をすべて並べる」ということができ 余命x 10年 1年 0.1年 0.01年 0.001年 …. ない。  P(x) 0.5 0.7 0.9 0.92 0.96 …. 46
  47. 47. 連続値確率変数の分布とパラメー タ  ゆえに連続値確率変数の場合、確率密度分布が ある関数(確率密度関数)で表せるとし、その 関数の形を決める有限個の値をパラメータと呼 ぶ。 例: ガウス分布(正規分布)のμとσ2  ガウス分布ではμとσ2に P(x) よって確率密度関数の 形が決定する。ゆえに パラメータはμとσ2。 σ x μ 47
  48. 48. パラメータと条件付き分布  「観測変数の分布がパラメータによって決定す る」という関係は条件付き確率を使って表現で きる。 【復習】 条件付き確率とは、「値として確率分 布(あるいは確率密度分布)が得られる関数」 であった。 例: ガウス分布(正規分布)を条件付き確率で表 p( x | , 2 ) 1 2 e x 2 2 2 48
  49. 49. ガウス分布(正規分布)  ガウス分布は以下のように定義される連続値確 率変数xの分布である。 P(x) p( x | , 2 ) 1 2 e x 2 2 2 μ x  測定誤差はガウス分布に従うとされることが多 く、様々な場面に現れる。  分布の形はμを中心として左右対称である。σ2 が小さければ細く尖った分布、σ2が大きければ 横に広がった分布になる。 49
  50. 50. 最尤推定 50
  51. 51. トランプのスート(マーク)の推 定  ♥ と ♠ しか入っていないトランプを考える。  4枚のカードを選んでおく。その中から一回ご とに戻し、3回引いた。その結果が以下であっ た。 ♥, ♠, ♥  4枚のカードのスート( ♥ と ♠ の枚数)はどのよ うになっていると考えるのがよいか? 51
  52. 52. トランプのカード集合のパラメー タ  この分布のパラメータθは何にするのがよい か? →「4枚のカードに含まれるハートの枚 数」をθとして使うことにする。  ハートの枚数が決まればスペードの枚数が決ま るため、「トランプから引く」という確率モデ ルを記述するのに十分な情報がある。  ここでは「パラメータの推定」は「4枚のカー ドに含まれるハートの枚数を当てること」にな る。 52
  53. 53. 最尤法(最尤推定)と尤度  観測されたデータが生じる確率がもっとも高い パラメータを推定値として採用するのが最尤法。  すなわちP(x|θ)を最大にするθを求める。  もっとももっともらしい(最も尤もらしい)パラ メータを求めている、というのが最尤法という名 前の由来。  P(x|θ)のxは観測済みのデータなので、P(x|θ)はθ の関数になる。その値はθの尤度(もっともらし さ)と呼ばれ、関数P(x|θ)は尤度関数と呼ばれる。 53
  54. 54. トランプに対する最尤法   ♥ をH、♠をSで表す。♥, ♠, ♥ は(H,S,H)Tと表記。 θ=1(つまり♥が1枚、 ♠が3枚)の時に♥, ♠, ♥ が得 られる確率は以下のように表される。 P(x H , S, H T | 1) ♥, ♠, ♥, ♥ がそれぞれθのもとで条件付き独立で生 じたとみなし、以下のように計算できる。 P ( x1 H | 1) P ( x2 S | 1) P ( x3 H | 1) 1 3 1 3 4 4 4 64  他のθについても計算してまとめると以下のように なる。 θ(=ハートの枚 0 1 2 3 4  数) 54
  55. 55. 最尤解  尤度関数 P(x|θ) の値を最大にするθを最尤解と 呼ぶ。  さきほどの問題では θ = 3 が最尤解。 55
  56. 56. 最尤法の例1  ♥ と ♠ しか入っていないトランプから4枚の カードを選んでおく。その中から一回ごとに戻 し、5回引いた。その結果が以下であった。 ♥, ♥ , ♥ , ♥ , ♥  ♥ の枚数をθで表すと、θのそれぞれの値に対 する尤度は以下のようになる。 θ(=♥の枚数) 0 1 P(x=HHHHH|θ) 0 1 / 1024  2 3 32 / 1024 243 / 1024 4 1 ゆえに ♥ の枚数θに対する最尤解は 4 である 56
  57. 57. 最尤法の例2  ♣ と ♦ しか入っていないトランプから5枚のカ ードを選んでおく。その中から一回ごとに戻し、 6回引いた。その結果が以下であった。 ♣, ♣, ♦, ♣, ♣, ♦  ♣の枚数をθで表すと、θのそれぞれの値に対 する尤度は以下のようになる。 θ(=Kの枚数) 0 P(x=KKDKKD|θ) 0  1 2 16 / 56 144 / 56 3 4 324 / 56 256 / 56 5 0 ゆえに♣の枚数θに対する最尤解は 3 である 57
  58. 58. 尤度関数と確率分布の違い  P(x|θ)は尤度関数とも呼ばれる。  θの尤度関数とxの条件付き確率分布は関数の形 は同じ。(離散分布であれば同じ確率値の表)  P(x|θ)に対し、  xを固定し(xを知っていて)、θの変化に 対する動きを見たら、「θの尤度関数」  θを固定し(θを知っていて)、xの変化に 対する動きを見たら、「xの確率分布」 58
  59. 59. 離散パラメータと連続パラメータ  離散パラメータの取り得る値が有限個の場合、 すべての組み合わせの尤度を計算して比較すれ ばよい。   トランプから引く例では♥の枚数が離散値しか取 れないので、パラメータも離散値になる。 連続パラメータではそれができない。そのため に微分を使って極値を求めることになる。 ガウス分布に従うデータからパラメータμやσ2を 推定する場合。  偏ったサイコロの目の分布を推定する場合。  無限種類の値があるので、すべてを比較して最  59
  60. 60. 離散値パラメータの尤度関数の例  ♥, ♠, ♥ が出た時の♥ の枚数θの尤度関数 尤度p(x|θ) 0 最大値 1 2 3 4 θ 離散値パラメータの尤度関数はヒストグラムで表せ る。  すべてのθについて p(x|θ) を計算して比較すれば最  60
  61. 61. 連続値パラメータの尤度関数の例  コインが表, 裏, 表, 表と出た時、表が出る確率θ の尤度関数 尤度p(x|θ) 最大値 θ 0.25 0.5 0.75 1.0 連続値パラメータの尤度関数は曲線になる。  最大値を与えるθを求めるにはθで微分して0とお けばよい。 61 
  62. 62. 連続パラメータに対する最尤法 尤度関数を微分し、0とおいて解く。 または、  ラグランジュ未定乗数法を使って最大化する。  62
  63. 63. ガウス分布(正規分布)  ガウス分布は以下のように定義される連続値確 率変数xの分布である。 P(x) p( x | , 2 ) 1 2 e x 2 2 2 μ x  測定誤差はガウス分布に従うとされることが多 く、様々な場面に現れる。  分布の形はμを中心として左右対称である。σ2 が小さければ細く尖った分布、σ2が大きければ 横に広がった分布になる。 63
  64. 64. ガウス分布のパラメータ推定の例  ある実験を5回行い、生成された化合物 の重さを測定した所、以下のような数 値(単位ミリグラム)を得た。 1.3 1.1 1.0 1.3 1.3  データがガウス分布に従うと考えた時、 そのμ、すなわち一番起きやすい値は何で あると考えるのが良いか?  データの平均は 1.2。しかしμが1.2である と推定してよいのか? 64
  65. 65. ガウス分布のパラメータμの推定 p( x | , 2 ) 1 2 x 2 e 2 P(x) 2 μ x  n回試行を行い、それぞれの試行で得ら れた値xiを用いてμを最尤推定する。  尤度関数は以下である。 P ( x1 , x2 ,..., xn | , 2 ) 65
  66. 66. ガウス分布のパラメータμの推定 各試行(観測変数xi)の間の(μとσ2のもとで の)条件付き独立性を仮定する。  この時、同時確率を積に分解できる。つまり尤 度関数を積に分解できる。  n 2 P( x1 , x2 ,...,xn | , ) 2 P( xi | , ) i 1 n i 1 1 2 2 xi e 2 2 1 2 n n e i 1 2 xi 2 2 66
  67. 67. ガウス分布のパラメータμの推定  尤度関数 p(x|μ,σ2) をμで微分して0とおく。 n n 1 2 e i 1 2 xi 2 2 0 n xi n 0 i 1 1 n  n xi i 1 観測値xiの平均がμの最尤推定量になる。 67
  68. 68. 対数尤度の最大化  「指数分布族」と呼ばれる確率分布の場合、 尤度ではなく対数尤度 log p(x|θ) を最大化す ることが多い。  対数尤度を使った方が計算が容易になる場 合に使う。  対数関数は単調増加のため、log p(x)が最大 値をとるxはp(x)についても最大値を与える。  ガウス分布や多項分布など、多数の分布が 指数分布族に属す。 68
  69. 69. 対数の単調増加性の利用  対数関数は単調増加のため、log p(x|θ)の最大値 を与えるθは p(x|θ) の最大値を与えるθと等しい 。 p1 p3 log p2 p2 p(x|θ) p(x|θ)=1 log p3 log p1 69
  70. 70.  対数尤度の最大化を用いたμの推 定 2 対数尤度関数 log p(x|μ,σ ) をμで微分して0とお く。 2 1 2 n log n i 1 xi 2 2 0 n xi n 0 i 1 ML  1 n n xi i 1 観測値xiの平均がμの最尤推定量になる。 70
  71. 71. 推定量  観測値を変数とし、パラメータの推定値を値 とする関数を推定量と呼ぶ。  ガウス分布の場合、μの最尤推定量は観測値 xiの平均という関数であった。  最尤推定量はML推定量とも呼ばれる。(ML はmaximum likelihood)。後にMAP推定量な ども定義される。 71
  72. 72. ベイズ統計 72
  73. 73. 最尤推定とベイズ推定の違い  最尤推定では尤度 p(x|θ) を最大化するθ を求める。 ML : arg max P( x | )  ベイズ推定のひとつであるMAP推定で は事後確率 p(θ|x) を最大化するθを求め る。 MAP : arg max P ( | x) 73
  74. 74. θの尤度関数はθの確率分布ではない もし P(x|θ) がθの確率分布であれば、θが取り得 るすべての値について P(x|θ) を足したら1にな らなくてはならない。  しかしそのようになっていないことから、 P(x|θ) がθについての確率分布でないことが分か る。  P(x|θ)はxについての確率分布だが、θについて の確率分布ではない。ゆえに「θの尤度関数」 θ(=♥の枚数) 0 1 2 3 4 と呼ぶ。  P(x=HHHHH|θ) 0 1 / 1024 32 / 1024 243 / 1024 和は 1300 / 1024 になる。 1 74
  75. 75. パラメータの確率  確率はもともと「事象の起こりやすさ」として考 案されたものだったが、現代ではパラメータに対 しても確率分布を考える。しかし「パラメータの 起こりやすさ」という概念は変。(パラメータは “起きたり”しない)。  ベイズ統計では確率を「確信の度合い」とみなす P(x): 事象xが起きることに対する確信の度合い P(θ): パラメータの値がθであることに対する確信の度 合い  75 確信の度合いと考えると、P(θ)やP(θ|x)も不自然な
  76. 76. ベイズ主義  確率を「確信の度合い」と捉える見方。  「主観確率」とも呼ばれる。(“確信”は主観 的)  観測データxの確率分布は、「事象が取り得 る個々の可能性のそれぞれに対する確信の度 合いの割り当て」と捉える。  パラメータθの確率分布は、「パラメータの 値が取り得る個々の可能性に対する確信の度 76
  77. 77. 最尤法・ベイズ推定とベイズの定 理  ベイズの定理が最尤法とベイズ推定の根拠に なる。(最尤法は特殊なベイズ推定と言え る)  ベイズ統計が定式化されるまで、最尤法は理 論的根拠が弱く、批判されることも多かった。  そのためまずベイズの定理について述べる。 77
  78. 78. ベイズの定理  以下を証明せよ P( | x) P( x | ) P( ) P( x) 78
  79. 79. ベイズの定理の証明  以下のように証明できる。 P( , x) P( | x) P( x) P( , x) P( x | ) P( ) P( | x) P( x) P( , x) ∴ P( | x) P( x | ) P( ) P( x | ) P( ) P( x) 79
  80. 80.  ある店にあるスロットマシンについて 。 設定が甘ければ、30分で大当たりが出 る確率は0.6。設定が厳しければ、 30分で大当たりが出る確率は0.1。設 定が甘い確率は0.2。  30分で大当たりが出た時、設定が甘い 確率はどれだけか。  同時分布・周辺分布・条件付き分布の 80
  81. 81. 練習問題3 回答  条件付き分布P(x|θ)と 周辺分布P(θ)を表に すると以下のように なる。 周辺 設定θ 甘い 厳しい P(θ) 0.2 0.8 条件 付き 大 当 た り x 設定θ 甘い 厳しい 出 P(x|θ)= P(x|θ)= る 0.6 0.1 出 P(x|θ)= P(x|θ)= な 0.4 0.9 い 81
  82. 82. 練習問題3 回答  同時分布 P(x,θ)と 周辺分布P(x)、 P(θ)の表を求める と以下のようにな る。 P( x) P( x, y) y P( x, ) P( x | ) P ( ) 同時 大 当 た り x 設定θ P(x) 甘い 厳しい 出 P(x,θ)= P(x,θ)= 0.2 る 0.12 0.08 出 P(x,θ)= P(x,θ)= な 0.08 0.72 い P(θ) 0.2 0.8 0.8 82
  83. 83. 練習問題3 回答  条件付き分布P(θ|x) 条件 の表を求めると以 付き 下のようになる。 P ( x, ) P( | x) P( x) P( x | ) P( ) P( x)  30分で大当たりが 出た場合、設定が 甘い確率は0.6 大 当 た り x 設定θ P(x) 甘い 厳しい 出 P(θ|x)= P(θ|x)= る 0.6 0.4 0.2 出 P(θ|x)= P(θ|x)= な 0.1 0.9 い 0.8 83
  84. 84. ベイズの定理とベイズ推定  ベイズの定理は任意の確率変数xとyについて成 り立つが、特に観測変数xとパラメータθ、事後 分布、事前分布、尤度関数を結び付けるのに使 い、θの分布の推定に利用するのがベイズ推定。 P( | x) P( x | ) P( ) P( x) P(θ|x): 事後分布 P(θ): 事前分布 P(x|θ): 尤度関数 P(x): 正規化定数(θの関数ではないため「定 84 数」)
  85. 85. ベイズ推定  ベイズ推定ではパラメータθの事前分布P(θ)を使 うことで、パラメータに関する外部の知識や予 想を組み込むことができる。 例: 「 ♥ しか入っていないということはありえない なぁ」 「 ♥ と ♠ が同じ数入っている確率が一番高いん じゃないだろうか」 85
  86. 86. 事前分布  P(θ)に関して、データの観測の前の(事前の) 分布を事前分布と呼び、P(θ)で表す。  自分の主観的な知識を入れた分布を使ってよい 。 例: 「 ♥ しか入っていないということはありえないなぁ」 ↓ 以下のような事前分布を使うとよい。 P P 4 0 0 P 1 P 2 P 3 14 86
  87. 87. 事後分布  事前分布と異なり、データxを観測した後の分 布を事後分布と呼び、P(θ|x)で表す。  xという「条件」のもとでθがどのような分布を 持つかを表しているため、条件付き確率の形に なる。  データ(xの値)とモデル(尤度関数P(x|θ))と 事前分布P(θ)を使い、事後分布P(θ|x)を求める のがベイズ推定の目的。 87
  88. 88. ベイズの定理は事前分布と事後分布を 結びつける式  事前分布と事後分布は共にパラメータに関する分 布であり、ベイズの定理で結びつけられている。 P( | x) P( x | ) P( ) P( x) P(θ|x): 事後分布 P(θ): 事前分布 P(x|θ): 尤度関数(モデル) P(x): 正規化定数(θの関数ではないため「定 数」) 88
  89. 89. 正規化定数  P(x)は尤度関数P(x|θ)と事前分布P(θ)の積をθにつ いて積分する(あるいは総和をとる)ことで求め られる。 P( x) P( x, ' )d ' P ( x) P ( x, ' ) '  P( x | ' ) P( ' ) ' ゆえにベイズの定理は以下のように表すこともで きる。 P( | x)  P( x | ' ) P( ' )d ' P( x | ) P( ) P( x | ' ) P( ' )d ' θ’は積分のための変数であり、θとは異なることに注意 89
  90. 90. ハイパーパラメータ θが連続パラメータの時、事前分布p(θ)の形を決 めるパラメータαをハイパーパラメータと呼ぶ。  ベイズの定理でαを明示すると以下のようにな る。 P( x | ) P( | ) P( x | ) P( | ) P( | x, ) P( x | ) P( x | ' ) P( ' | )d '  θが連続パラメータの場合、すべてのθに事前確 率を割り当てるのは不可能なため、θの確率分 布が少数のパラメータによって決定されると考 える。 例: θの事前分布にガウス分布を仮定する場合、 ハイパーパラメータαはμ’とσ’2である。(パラ 90 
  91. 91. MAP推定(maximum a posteori estimation)  パラメータθの事後分布P(θ|x)はたくさんの情報を 持っているが、情報が多すぎて使いにくいことも 多い。    例: 「この台は設定が甘い確率が 0.6、設定が厳 しい確率が 0.4」と言われるより、「この台は設定 が甘い!」と言い切って欲しい。 つまり「P(θ=甘) = 0.6, P(θ=厳) = 0.4」という答 えよりも「θ=甘」という答えが欲しい。 θに関する推定結果としてひとつの数値だけを求 めるのがMAP推定。 91
  92. 92. 点推定  最尤法(ML推定)とMAP推定ではθの分布で はなくθのもっとも良い値だけを求めるため、点 推定と呼ばれる。  MAP推定はベイズ推定に基づく点推定であり、 最尤法はMAP推定の特殊例である。 92
  93. 93. MAP推定と正規化定数  ベイズの定理におけるP(x)はθについて最大化す る時には無視できる。  ゆえに事後確率 P(θ|x) を最大化するθを求めるた めには、P(x|θ)P(θ)を最大化するθを求めれば良い 。 ベイズの定理 P( | x) P( x | ) P( ) P( x) MAP推定 MAP : arg max P( | x) arg max P( x | ) P( ) 93
  94. 94. ベイズ推定/MAP推定/最尤推 定 ベイズ推定ではθの事後分布P(θ|x)全体を求める が、MAP推定ではP(θ|x)を最大にするθの値のみ を求める。  最尤法は事前分布P(θ)を定数(すべてのθについ て同じ値)とおいた場合のMAP推定に等しい。  MAP推定 MAP : arg max P( | x) arg max P( x | ) P( ) ML推定(最尤推定) ML : arg max P( x | ) 94
  95. 95. ML推定(最尤法)とMAP推定  尤度関数P(x|θ)を最大化するパラメータθを求める のがML推定   maximum likelihood 事後確率P(θ|x)を最大化するパラメータθを求める のがMAP推定 事前分布P(θ|α)も考慮した上で最大化が行われて いることになる。  maximum a posteriori probability  95
  96. 96. MAP推定の例1 3枚のトランプのうち、何枚かがハートで残り はスペードである。一回ずつ戻しながら2回引 いたところ、ハートが2回出た。しかし3枚とも ハートである確率は低い(ハートの枚数が他で ある確率に比べて1/3である)ことが分かってい る。  θでハートの枚数を表し、この情報(事前知識 )を事前分布によって以下のように表すことに P 3 1 10 する。  P  0 P 1 P 2 3 10 この時、事後確率 p(θ|x) を最大にするθを求め よ。 96
  97. 97. MAP解の計算1 PX HH | 0P PX HH | 1P PX HH | 2P PX HH | 3P  MAP解はθ=2になる。 0 0 3 0 3 3 10 1 1 3 1 3 3 10 2 2 3 2 3 3 10 3 3 1 3 3 3 10 0 3 90 12 90 9 90 97
  98. 98. MAP推定の例2  先ほどと同じ状況(モデルとデータ)において、 ハートの枚数がどの数である確率も等しいという 事前知識を用いた時、事後確率p(θ|x)を最大にする θを求めよ。  どの枚数である確率も等しいという事前分布は以 下のように表せる。 P  0 P 1 P 2 P 3 14 この時、事後確率 p(θ|x) を最大にするθを求め よ。 →この結果はθに対する最尤推定と同じになる 98
  99. 99. MAP解の計算2 PX 0P PX HH | 1P PX HH | 2P PX  HH | HH | 3P MAP解はθ=3になる。 0 0 1 0 0 3 3 4 1 1 1 1 1 3 3 4 36 2 2 1 4 2 3 3 4 36 3 3 1 9 3 3 3 4 36 99
  100. 100. 尤度/尤度関数と事後確率値/事後分布 P(x H , S, H T | 3) θ = 3 の尤度 x = ♥, ♠, ♥ の生起確率 (ひとつの値に確定) P( 3| x T H , S, H ) θ = 3 の事後確率の値 P(x H , S, H T | ) θ の尤度関数 x = ♥, ♠, ♥ の生起確率 (θの値に依存) P( | x T H , S, H ) θ の事後分布 100
  101. 101. お薦め書籍 1. 基礎統計学シリーズ「統計学入門」 統計に関して最初に読む入門書として最適。 2. ビショップ「パターン認識と機械学 習」 確率統計の立場で機械学習の様々な手法を まとめてあり、非常に良い。 3. 杉山将「統計的機械学習」 コンパクトにまとめた入門書。 Octaveによるプログラム例もあるので 自分で実験できる。 101

×