Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

15分でわかる(範囲の)ベイズ統計学

21,991 views

Published on

016/01/31(日) 第十回 数学カフェ 「数学史」発表資料
誤って削除してしまいましたので再アップロードします。日本語のpdfがアップロードできないので、pptファイル仮アップロードします。

Published in: Data & Analytics
  • Hello! High Quality And Affordable Essays For You. Starting at $4.99 per page - Check our website! https://vk.cc/82gJD2
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

15分でわかる(範囲の)ベイズ統計学

  1. 1. 15分でわかる(範囲の)ベイズ統計学 数学カフェ 第10回発表資料 2016/1/31 @kenmatsu4
  2. 2. MASAKARI Come On! щ(゜ロ゜щ) みんなで勉強しましょう https://twitter.com/_inundata/status/616658949761302528
  3. 3. 自己紹介: @kenmatsu4 ・Facebookページ https://www.facebook.com/matsukenbook ・Twitterアカウント @kenmatsu4 ・Qiitaでブログを書いています(統計、機械学習、Python等) http://qiita.com/kenmatsu4 (5400 contributionを超えました!) ・趣味 - バンドでベースを弾いたりしています。 - 主に東南アジアへバックパック旅行に行ったりします (カンボジア、ミャンマー、バングラデシュ、新疆ウイグル自治区 etc) 旅行の写真 : http://matsu-ken.jimdo.com Twitterアイコン
  4. 4. http://www.slideshare.net/matsukenbook
  5. 5. 本発表の内容は個人の見解であり 所属する組織・団体の公式見解 ではありません。
  6. 6. 事始め
  7. 7. ベイズ統計学の歴史 https://ja.wikipedia.org/wiki/トーマス・ベイズ トーマス・ベイズ (1702-1761) らしき肖像画 ベイズ統計学(Bayesian Statistics)は、 ベイズの定理 に基づき展開される。 この定理は牧師であるトーマス・ ベイズにより、1740年頃に発見され、 それがリチャード・プライス(1723-1791) によって1763年にベイズの遺稿の中 から発見され、世に公開された。 1936年に出版された本 にある肖像画であるため 本人であるかは疑わしい・・・
  8. 8. https://ja.wikipedia.org/wiki/ピエール=シモン・ラプラス ピエール=シモン・ラプラス さらに、ラプラスがこれと同じ定理を再発見し、 近代数学にふさわしい形式にまとめた。 なので、ベイズよりもラプラスに端を 発するとされる場合もある。 しかし、ラプラスはその後すぐ関心が 別なものに移ってしまった。 ベイズ統計学の歴史
  9. 9. http://www.ton.scphys.kyoto-u.ac.jp/~shino/mathphys/tableprob.pdf ベイズ統計学の歴史 --- 確率論の始まり --- パスカル(1623-1662) ~ "二項分布" フェルマー(1601-1665) ~ "多項分布" ホイヘンス(1601-1665) 「サイコロゲームにおける計算について」 ヤコブ・ベルヌイ(1654-1705) 「推論術」~順列・組み合わせ,大数の法則 ヨハン・ベルヌイ(1667-1748) ド・モアブル(1667-1754)「 籤(くじ)の測定について」,「偶然論」 モンモール(1678-1719) 「偶然ゲームに関する解析試論」 ニコラス・ベルヌイ (1687-1759) ベイズ(1702-1762)~"ベイズの定理" --- 古典確率論の集大成 --- ラプラス(1749-1827)「確率の解析的理論」「確率に関する哲学的考察」,“ラプラス変換”,“特性 関数” 「偶然というものは存在しない.一見偶然とみられる現象も,我々が自然を支配する法則に ついて 無知であるからにきすぎない.我々の知識は完全ではなく,逆に全く無知でもないところに 確率論が成立する余地がある.」 ガウス(1777-1855) ~ "最小二乗法","正規分布"(ガウス分布) 1600 1700 1800 まだ正規分布も 発見されておらず 確率論が成熟前の時期!
  10. 10. ベイズの定理
  11. 11. ベイズの定理 乗法定理に対称性があるので、下記の2つはどちら も成り立つ。
  12. 12. ベイズの定理 よって2つの式をつないで で割ることで が得られる。これが確率に関するベイズの定理。 乗法定理に対称性があるので、下記の2つはどちら も成り立つ。
  13. 13. ベイズの定理の応用例:検診問題 ある国で病気Aは、1万人あたり40人の割合でかかって いることが知られている。病気Aに罹っている人が検診 Bを受けると8割の確率で陽性となる。 健常な人が検診Bを受けると9割の確率で陰性となる 検診Bによって陽性と判定された場合、その受信者が病 気Aにかかっている確率はどれくらいか? つまり を計算する問題。 陽性 陰性 計 病気である 4/1000 * 0.8 4/1000 * 0.2 4/1000 病気でない 996/1000 * 0.1 996/1000 * 0.9 996/1000
  14. 14. 陽性 陰性 計 病気である 4/1000 * 0.8 4/1000 * 0.2 4/1000 病気でない 996/1000 * 0.1 996/1000 * 0.9 996/1000 病気の人が、陽性になる確率。 事後確率:結果陽性 で、病気にかかって いる確率。 病気にかかっている 事前確率 病気にかかっていない 事前確率病気でない人が 陽性になる確率 ベイズの定理の応用例:検診問題
  15. 15. ベイズの定理で表すと、 よって、健康な人が 陽性判定となった 場合でも病気の確率 は 3% !!! ベイズの定理の応用例:検診問題 陽性 陰性 計 病気である 4/1000 * 0.8 4/1000 * 0.2 4/1000 病気でない 996/1000 * 0.1 996/1000 * 0.9 996/1000
  16. 16. 逆確率 (逆問題) 検診問題では ・病気A … 原因 ・検診B … 結果 であった。通常の条件付き確率は p(結果 | 原因) のように、時間の流れにあった形で利用される。 しかし、ベイズの定理では、時間の流れが逆である 時間の流れ p(原因 | 結果) のような「原因の確率」を論じる。 このような事後確率のことを「逆確率」という 健康 状態 診断 結果 1. 原因 2.結果 例) 健康状態が良くないから 診断の結果、病気と判断される 健康 状態 診断 結果 病気だという結果が 得られたということは、 健康状態が悪いのでは?
  17. 17. ベイズ更新 受信したEメールが ・迷惑メール A1 ・迷惑メールでない A2 の確率に着目する。 メールの特徴 B に基づいてAの事後確率を調べる。 ベイズ流!!! Eメール 迷惑 メール 普通の メール ? A1 A2 B
  18. 18. ベイズ更新 ここでさらに、追加的なメールの特徴 C (Bとは独立 した情報)が得られた時、事後確率はどのように変化 するか? 条件付き確率より、 が成り立ちますが、同時に も、成り立っています。
  19. 19. ベイズ更新 前ページの2式の右辺が等しいのでつなげると、 ⇔ BとCは独立なので、
  20. 20. ベイズ更新 として、これを情報Cに対する 事前分布である、という見方をすると 情報Bが与えられた時のAの事後確率を、新たな Aの事前確率としてベイズの定理を新情報Cに独 立に適用している。これをベイズ更新という。
  21. 21. ベイズ更新 Eメール 迷惑 メール 普通の メール ? A1 A2B Eメール C 追加情報 迷惑 メール 普通の メール A1 A2 確率が更新 される メールに対する追加的情報により、確率が更新される
  22. 22. ベイズ推論
  23. 23. と がこの分布 (密度関数)の形状 を決めている ベイズ推論 確率分布に対する推論にベイズの定理を応用する 。 ex) 正規分布
  24. 24. ( と は決まっている) ベイズ推論 素直に考えると、あるデータを生成する(乱数を 生成する)機構があって、そのメカニズムに従っ てデータが生成されている、と考えると自然。 データ生成メカニズム 生成結果
  25. 25. mu = 60 sd = 10 # 確率密度関数の描画 xx = np.linspace(30,90,301) yy = st.norm.pdf(xx, mu, sd) plt.ylim(0, .045) plt.plot(xx,yy) # 生成された乱数のヒストグラム描画 x = rd.normal(mu, sd, size=200) plt.hist(x, bins=20) plt.show() 前ページのグラフを描くPythonコード(抜粋) ベイズ推論 平均、標準偏差は決まっている データを生成するメカニズム 得られた結果のデータ
  26. 26. ベイズ推論 逆問題として考えると、 前提) データは入手できている 問題) このデータがどのようなメカニズムから 生成されたものなのかを知りたい。 データ生成メカニズム 生成結果 逆転! 得られた結果から メカニズムの構造を 確率的に推論
  27. 27. ベイズ推論 逆問題として考えると、 前提) データは入手できている 問題) このデータがどのようなメカニズムから 生成されたものなのかを知りたい。 データ生成メカニズム 生成結果 逆転! 得られた結果から メカニズムの構造を 確率的に推論 確率分布のパラメーター(正規分布の場合、μとσ) は確率変数とみなして推論する!
  28. 28. ベイズ推論 … 確率分布のパラメーター (求めたいもの) … 得られたN個のデータ(定数) 事後確率 データを得た後に確率分布の 構造に関するパラメーターを 推定するので、「事後」。 尤度 詳細は次ページ パラメーターθの 事前分布 正規化定数 (θに依存していない)
  29. 29. ベイズ推論 θを動かして、 が一番大きいところを探す 問題なので、θに依存しない分母は除いて考えて良い 。 が解析的に解け る場合は求められるが 、難しい場合が多い。
  30. 30. は今回正規分布の密度関数であるが、 は すでに得られているので定数。θが変数である。 尤度とは? https://goo.gl/iaTqAx アニメーションURL : 密度関数 尤度
  31. 31. マルコフ連鎖モンテカルロ法 (MCMC : Markov Chain Monte Carlo method)
  32. 32. 事後分布に基づく統計的推論 事後分布の期待値、EAP(Expected a posterior)推定 量 事後分布 データから得られる知見を、事後分布として表現 したい。 事前分布 & 得られたデータ → 事後分布 複雑すぎて解析的な評価は困難! 特に積分が難しい
  33. 33. 事後分布に基づく統計的推論 解析的には解けないので、母数θを確率変数と した乱数をなんらかの方法で生成する。 ここから期待値をとってEAP推定値とする。 中央値はMED推定値、最頻値はMAP推定量 となる。事後標準誤差もサンプルから計算でき る。 MAP推定量
  34. 34. 事後分布に基づく統計的推論 正規分布の場合、μ、σの2次元の変数となる。 μ σ μ σ
  35. 35. メトロポリスヘイスティングス法 デモ https://goo.gl/ZIAynV アニメーションURL :
  36. 36. メトロポリスヘイスティングス法 デモ 解析的に評価することが難しい事後分布 の乱数生成を可能にする方法。 これにより分布の評価ができる。
  37. 37. メトロポリスヘイスティングス法 デモ 遷移先候補 あるルールに従い、 この遷移先を受容・ 棄却を決める。 これがポイント。 現在位置
  38. 38. Stanで計算してみる 確率的プログラミングの言語、Stanを使います。 http://mc-stan.org
  39. 39. Stanで計算してみる 8つの学校の結果の分布 学校 効果の 平均 標準偏差 A 28 15 B 8 10 C -3 16 D 7 11 E -1 9 F 1 11 G 18 10 H 12 18 8つの学校に対して、あるテスト対策を講じた際の効果 のデータ。これをモデル化して推定する。 ex) 8-school https://github.com/stan-dev/rstan/wiki/RStan-Getting-Started#example-1-eight-schools
  40. 40. Stanで計算してみる モデル 十分な幅をとった一様分布 十分な幅をとった0以上の一様分布 … 平均θj、標準偏差σjの正規分布 … 平均0、標準偏差1の標準正規分布 … 平均θj はηjと線形の関係
  41. 41. Stanで計算してみる data { int<lower=0> J; // number of schools real y[J]; // real<lower=0> sigma[J]; // s.e. of effect estimates } parameters { real mu; real<lower=0> tau; real eta[J]; } transformed parameters { real theta[J]; for (j in 1:J) theta[j] <- mu + tau * eta[j]; } model { eta ~ normal(0, 1); y ~ normal(theta, sigma); } Stanコード
  42. 42. Stanで計算してみる 推定結果
  43. 43. Stanで計算してみる mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat mu 7.8 0.07 5.0 -2.0 4.53 7.66 11.02 17.92 5600.0 1.0 tau 6.21 0.07 5.33 0.19 2.31 4.9 8.6 20.33 5600.0 1.01 eta[0] 0.38 0.01 0.97 -1.61 -0.26 0.42 1.03 2.22 5600.0 1.0 eta[1] 6.4e-4 0.01 0.88 -1.72 -0.58 4.0e-3 0.58 1.73 5600.0 1.0 eta[2] -0.21 0.01 0.94 -2.08 -0.84 -0.22 0.41 1.63 5600.0 1.0 eta[3] -0.04 0.01 0.89 -1.82 -0.63 -0.04 0.55 1.73 5600.0 1.0 eta[4] -0.32 0.01 0.9 -2.04 -0.94 -0.33 0.27 1.48 5600.0 1.0 eta[5] -0.2 0.01 0.9 -1.96 -0.79 -0.22 0.4 1.56 5600.0 1.0 eta[6] 0.37 0.01 0.87 -1.41 -0.18 0.38 0.92 2.06 5600.0 1.0 eta[7] 0.06 0.01 0.95 -1.8 -0.56 0.05 0.68 1.95 5600.0 1.0 theta[0] 11.09 0.11 8.32 -2.46 5.69 10.02 15.14 31.15 5600.0 1.0 theta[1] 7.68 0.08 6.09 -4.38 3.81 7.58 11.42 19.61 5600.0 1.0 theta[2] 5.9 0.1 7.5 -12.31 1.99 6.53 10.63 19.25 5600.0 1.0 theta[3] 7.5 0.09 6.44 -5.15 3.48 7.46 11.46 20.48 5600.0 1.0 theta[4] 5.18 0.08 6.36 -8.71 1.45 5.69 9.39 16.36 5600.0 1.0 theta[5] 6.17 0.09 6.65 -8.37 2.27 6.57 10.43 18.65 5600.0 1.0 theta[6] 10.49 0.09 6.68 -1.16 5.99 9.82 14.38 25.73 5600.0 1.0 theta[7] 8.5 0.11 7.9 -6.63 3.83 8.09 12.6 26.67 5600.0 1.0 lp__ -5.01 0.04 2.65 -10.78 -6.63 -4.79 -3.14 -0.45 5600.0 1.01 推定結果
  44. 44. Stanで計算してみる 推定結果 ηj θj
  45. 45. 参考 【統計学】尤度って何?をグラフィカルに説明してみる。 http://qiita.com/kenmatsu4/items/b28d1b3b3d291d0cc698 【統計学】マルコフ連鎖モンテカルロ法(MCMC)による サンプリングをアニメーションで解説してみる。 http://qiita.com/kenmatsu4/items/55e78cc7a5ae2756f9da 基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理 http://www.slideshare.net/matsukenbook/1-55165036 第4章 メトロポリス・ヘイスティングス法 http://www.slideshare.net/matsukenbook/4-56002293
  46. 46. 参考 異端の統計学 ベイズ (シャロン バーチュ マグレイン著) http://www.amazon.co.jp/dp/4794220014 基礎からのベイズ統計学 (豊田 秀樹著) http://www.amazon.co.jp/dp/4254122128 図解・ベイズ統計「超」入門 (涌井 貞美著) http://www.amazon.co.jp/dp/4797366575 ベイズ計算統計学 (古澄 英夫著) http://www.amazon.co.jp/dp/4254128568
  47. 47. 参考 今日使ったPythonコード https://github.com/matsuken92/Qiita_Contents/tree/master/15 min-bayes

×