Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ベイズ統計セミナーVol2

417 views

Published on

ベイズ統計オンラインセミナーで使った資料(に加筆したもの)

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

ベイズ統計セミナーVol2

  1. 1. ベイズ統計セミナー 第2回 Powered by Think Bayes 2017/11/11
  2. 2. 0. [復習]ベイズの定理 事象𝐴, 𝐵に対して、以下の等式が成り立つ。 𝑃 𝐵 𝐴 = 𝑃 𝐴 𝐵 𝑃(𝐵) 𝑃(𝐴) (𝑃(𝐴) ≠ 0)
  3. 3. 1. [例題]クッキー問題 クッキーが入ったボウルが2つある。ボウル1の中にはチョコ レートクッキーが10枚, バニラクッキーが30枚入っている。 また、ボウル2の中にはチョコクッキー、バニラクッキーがそ れぞれ20枚ずつ入っている。 ある人がボウルをランダムに選んでその中からクッキーを一 枚とったらそれはバニラクッキーだった。 選んだボウルがボウル1だった確率を求めよ。
  4. 4. 𝐴 : 取ったクッキーがバニラクッキー 𝐵 : 選んだボウルがボウル1 とすると、求めたい確率は 𝑃 𝐵 𝐴 。ベイズの定理を使うため、𝑃 𝐴 𝐵 , 𝑃 𝐵 , 𝑃(𝐴)を計算する。 𝑃(𝐴) : 80枚(ボウル1とボウル2のクッキーの枚数)の中にバニラクッキーは 50枚(ボウル1とボウル2のバニラクッキーの枚数)なので、 𝑃 𝐴 = 5 8 𝑃(𝐵) :ボウルはランダムに選ぶので𝑃 𝐵 = 1 2 𝑃(𝐴|𝐵) :ボウル1のクッキーの内訳から𝑃 𝐴|𝐵 = 3 4 よってベイズの定理より、𝑃 𝐵 𝐴 = 3/5
  5. 5. 2. 通時的解釈 事象𝐴, 𝐵の代わりに、仮説𝐻と観測されたデータ𝐷を使う 𝑃 𝐵 𝐴 = 𝑃 𝐴 𝐵 𝑃(𝐵) 𝑃(𝐴) (𝑃(𝐴) ≠ 0)
  6. 6. ベイズの定理の応用 - 経験や調査などで立てた仮説を、データを使って裏付けるため に使う! - データを使って仮説が起こる確率とそれに伴って推論した結果 を矯正していく。 𝑃(𝐻) : 仮説𝐻が起こる確率 𝑃(𝐻|𝐷) : 観測したデータ𝐷を元に出した仮説𝐻が起こる確率
  7. 7. 𝑃 𝐻 𝐷 = 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃(𝐷) (𝑃(𝐷) ≠ 0) 𝑃(𝐻) : 事前確率 𝑃(𝐻|𝐷) : 事後確率 𝑃(𝐷|𝐻) : 尤度 𝑃(𝐷) : 正規化定数
  8. 8. 何も条件なしで𝑃 𝐷 を計算していくのは一般的には困難。 ⇨ 尤度と同じく「仮説」があれば計算しやすいが… ⇨互いに排反でいかなる時にもいずれかの仮説に属するような仮説集合 𝐻𝑖 を用いる。 𝑃(𝐷) = 𝑖 𝑃 𝐷 𝐻𝑖 𝑃(𝐻𝑖) これは、仮説集合 𝐻𝑖 をあらかじめ用意していれば 各仮説に対する事前確率・尤度だけ計算すれば事後 確率が自動的に求めることができるのを意味してい る。
  9. 9. ベイズの定理の考え方に基づいた問題解決手順 1. 問題を解くのに適した仮説集合 𝐻𝑖 とデータ𝐷を設定する 2. 文献や経験値などから各仮説に対する事前確率𝑃(𝐻𝑖)を計算する。 3. 各仮説に対する尤度𝑃(𝐷|𝐻𝑖)を計算する。 4. 𝑃 𝐷|𝐻𝑖 𝑃 𝐻𝑖 を計算する。 5. 4.で計算した値をベースに正規化定数を求め、事後確率を計算する。 (6. 求めた事後確率をベースにどういう風に判断するかを決める)
  10. 10. 3. [例題]M&M’S 問題 1994年の袋 1996年の袋 茶:30% 茶:13% 黄:20% 黄:14% 赤:20% 赤:13% 緑:10% 緑:20% 橙:10% 橙:16% 黄褐色:10% 青:24% Think Bayesの1.6を参照。
  11. 11. 1. 問題を解くのに適した仮説集合 𝐻𝑖 とデータ𝐷を設定する。 𝐻1: 袋1は1994年製、 袋2は1996年製 𝐻2: 袋1は1996年製、袋2は1994年製 D: 黄色と緑色のチョコレートを取る。 黄色を取り出した袋を「袋1」とする。
  12. 12. 2. 文献や経験値などから各仮説に対する事前確率𝑃(𝐻𝑖)を計 算する。 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻1 1/2 𝐻2 1/2 特に情報がないので 等確率に設定
  13. 13. 3. 各仮説に対する尤度𝑃(𝐷|𝐻𝑖)を計算する。 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻1 1/2 20 100 ∗ 20 100 𝐻2 1/2 10 100 ∗ 14 100 1994年から緑、 1996年から黄色 が取れる確率 1994年から黄色、 1996年から緑 が取れる確率
  14. 14. 4. 5. 事後確率の計算 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻1 1/2 20 100 ∗ 20 100 200 10000 20 27 𝐻2 1/2 10 100 ∗ 14 100 70 10000 7 27 これが求める確率。
  15. 15. 4. [例題]モンティホール問題 ・今回考えるゲームのルール説明。 扉A, B, Cのうちどれか1つに商品がある。 挑戦者は3つの扉のうち商品がある扉を選択すると商品がもらえる。 ・問題 今、挑戦者は扉Aを選んでいる。その後、司会者は場を盛り上げる ため扉B,Cのうち商品がない扉を開ける。(商品がAにあれば、B,C どれか一つランダムに選んで開けることができる。 もし、この後改めて「司会者が開けていない扉」を選択してもいい といった場合、Aから変更しないか、それともAから変更するか、ど ちらがいいか判断せよ。
  16. 16. Aから変更しないか、それともAから変更するか、どちらがいいか 判断するため、 ・Aにある確率 ・B (or C。司会者が開かなかった扉の方)にある確率 を計算する。
  17. 17. 1. 問題を解くのに適した仮説集合 𝐻𝑖 とデータ𝐷を設定する。 𝐻𝐴: 扉Aに商品がある。 𝐻 𝐵: 扉𝐵に商品がある。 𝐻 𝐶: 扉𝐶に商品がある。 D:司会者が扉Bを開く(扉Bには商品がない) このように仮定する。
  18. 18. 2. 文献や経験値などから各仮説に対する事前確率𝑃(𝐻𝑖)を計 算する。 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻𝐴 1/3 𝐻 𝐵 1/3 𝐻 𝐶 1/3 特に情報がないので 等確率に設定
  19. 19. 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻𝐴 1/3 1/2 𝐻 𝐵 1/3 0 𝐻 𝐶 1/3 1 この場合、 司会者は扉Bか扉Cをランダムに選ら んで開くことができるから。 3. 各仮説に対する尤度𝑃(𝐷|𝐻𝑖)を計算する。
  20. 20. 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻𝐴 1/3 1/2 1/6 1/3 𝐻 𝐵 1/3 0 0 0 𝐻 𝐶 1/3 1 1/3 2/3 4. 5. 事後確率の計算 扉Aから扉Cに切り替 えたほうが早い。
  21. 21. 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻𝐴 1/3 𝑝 𝑝/3 𝑝 𝑝 + 1 𝐻 𝐵 1/3 0 0 0 𝐻 𝐶 1/3 1 1/3 1 𝑝 + 1 この事後確率は商品がAにあった場合の、司会者の 「開ける扉の選ぶためのルール」によって変わる。
  22. 22. 5. 練習問題 According to the CDC, ``Compared to nonsmokers, men who smoke are about 23 times more likely to develop lung cancer and women who smoke are about 13 times more likely.'' If you learn that a woman has been diagnosed with lung cancer, and you know nothing else about her, what is the probability that she is a smoker?
  23. 23. 1. 問題を解くのに適した仮説集合 𝐻𝑖 とデータ𝐷を設定する。 𝐻1: 女性患者は喫煙者。 𝐻2: 女性患者は非喫煙者。 D: 女性患者はガン。 求めたい確率は𝑃(𝐻1|𝐷)。
  24. 24. 2. 文献や経験値などから各仮説に対する事前確率𝑃(𝐻𝑖)を計 算する。 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻1 𝑥 𝐻2 1 − 𝑥 実はネットの文献でここの値は適切に設定できる が計算の都合上、文字を使って計算する。
  25. 25. 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻1 𝑥 13𝑦 𝐻2 1 − 𝑥 𝑦 3. 各仮説に対する尤度𝑃(𝐷|𝐻𝑖)を計算する。 女性の非喫煙者がガンである確率をこうおいた。
  26. 26. 事前確率𝑷(𝑯) 尤度 𝑷(𝑫|𝑯) 𝑷 𝑫 𝑯 𝑷(𝑯) 事後確率𝑷(𝑯|𝑫) 𝐻1 𝑥 13𝑦 13𝑥𝑦 13𝑥 12𝑥 + 1 𝐻2 1 − 𝑥 𝑦 𝑦(1 − 𝑥) 1 − 𝑥 12𝑥 + 1 4. 5. 事後確率の計算 https://www.cdc.gov/tobacco/data_statistics/fact_sheets/adult_data/cig_smoking/index.htm の文献によると、 𝑥 = 0.179なので、 𝑃(𝐻1|𝐷)=0.74
  27. 27. 参考文献 http://allendowney.blogspot.jp/2011/10/all-your-bayes-are- belong-to-us.html http://allendowney.blogspot.jp/2011/10/my-favorite-bayess- theorem-problems.html http://allendowney.blogspot.jp/2011/11/somebody-bet-on- bayes.html https://github.com/AllenDowney/ThinkBayes

×