Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
指数分布とポアソン分布のいけない関係
Next
Download to read offline and view in fullscreen.

2

Share

Download to read offline

MCMCと正規分布の推測

Download to read offline

はじめての統計データ分析勉強会 #2 資料

MCMCと正規分布の推測

  1. 1. はじめての統計データ分析勉強会 【#2】 MCMC と正規分布の推測 藤田 元 (合同会社 カノープス/上智大学)
  2. 2. 今日取り扱う項目 前回の復習(サラッと) マルコフ連鎖モンテカルロ法(MCMC) 事後分布(とその代表値) 予測分布 ベイズ的推測と「『信頼区間』と『確信区間』の違い」 生成量(とそこから導き出される各種指標の分布) ベイズ統計における「仮説検証」
  3. 3. 前回の復習(サラッと) 連続型確率変数における期待値と分散 積率系と分位系 ベイズの定理 無情報事前分布:一様分布 ベイズ統計と頻度論的統計学の考え方の違い
  4. 4. 連続型確率変数における期待値と分散 連続型確率変数: 各値の確率は定義できず確率密度で表される 確率密度関数で確率分布を表現する 期待値:確率密度関数の期待値 式: 分散:確率密度関数の期待値 式: 確率:確率密度関数の面積で表現される
  5. 5. 積率系と分位系の記述統計量 積率系(moment):データの関数の平均 代表値:平均値(mean) 散布度:分散(variance)、標準偏差(SD) 分位系(quantile):順序 代表値:中央値(median)・最頻値(mode) 分位点:四分位点、パーセンタイル点など 積率系は累乗変換に対して不変でない 一次変換には不変
  6. 6. ベイズの定理 ベイズの定理 x=(x1, x2, …, xn) [データ] θ=(θ1, θ2, …, θm) [パラメタ]とするとき 以下のように定義される このとき f(x|θ) を尤度、f(θ) を事前分布とよぶ
  7. 7. 無情報事前分布 ベイズ統計は、事前分布の選択が恣意的であるという批判が あった(主観確率) 無情報事前分布:事前分布が事後分布に出来るだけ景況しな いような確率分布 具体的には:一様分布 事前分布に一様分布を仮定すると、事後分布は尤度のみに影 響をうける
  8. 8. ベイズ統計と頻度論的統計学 頻度論的統計学 ベイズ統計 パラメタ (未知の)固定の値 確率分布 パラメタの推定 最尤推定法(MLE) EAP, MED, MAP データ 確率分布 所与 事前分布 仮定しない 仮定する(※)
  9. 9. マルコフ連鎖モンテカルロ法 略して、MCMC MCMCとは:多変量の確率分布からサンプルを抽出(= 乱数を生成す る)ためのアルゴリズムのことである(岩波データサイエンス 1:17) 事後分布に従う乱数を(大量に)発生させ、事後分布そのものをデー タとして手にする 同時事後分布に従う乱数を、継続的に発生させ第m期に発生した乱数 を、θ(m)と表記する 幾つかの手法がある ギブスサンプリング法(GS法) メトロポリス・ヘイスティング法(MH法) ハミルトニアンモンテカルロ法(HMC法) ここではHMC法を利用する(詳しくは豊田(2015)を参照)
  10. 10. マルコフ連鎖モンテカルロ法 乱数の生成に際しては、パラメタの事前分布として一様分布を仮定 ( µ 〜 U(0,1000), σ 〜U(0,100) ) バーンイン:生成された乱数のうち初期に生成された乱数 → 同時事後 分布に従わない 事後分布の性質を調べるには、バーンイン以降の有効な乱数を用いる (m = B+1, B+2, … , M) チェイン(Chain):乱数列 チェイン数:乱数列の数 図 1-4(p.15)は T=10000 (= [M=(21000-1000)]×5)個の有効な乱数を 用いて描いた散布図 乱数列は、θ(t)(t = 1, 2, …, T) のように表記する トレースプロット:事後分布から乱数が発生しているか視覚的に評価
  11. 11. マルコフ連鎖モンテカルロ法 乱数列の数値的評価 収束判定指標( ):事後分布から乱数が発生しているかを判 定する指標(チェイン間とチェイン内の散らばりを比較する) → チェイン間の散らばりが大きい場合には事後分布から乱数が 発生していないことが疑われる( が望ましい) 有効標本数(neff):生成された乱数が「理想的に無関係である 乱数」の何個分に相当するかの推定値
  12. 12. 事後分布とその代表値 事後分布:データが得られた時のパラメタ(母数)の確率分布 データはMCMCによって得る 母数(パラメタ)に関する情報は、すべて事後分布に含まれる 点推定:母数の事後分布を点で代表させる 3つの代表的な点推定量 EAP(θeap):事後分布の平均値 MED(θmed):事後分布の中央値 MAP(θmap):事後分布の最頻値(最大値) 事後分散・事後標準偏差:事後分布の分散と標準偏差 (post.sd) 事後分布の散布度(分散・標準偏差)が小さいと、それだけ点推定の精度が高いと いうこと 事後標準偏差( , post.sd)は、θ の標準偏差:事後分布がどれだけ で代表されているか、を表現
  13. 13. 事後分布とその代表値 実際に観測できる、EAP( )は、事後分布の平均値であり、推定 値:MCMCをするたびに異なる値になる 一方で真のEAP( )は未知なる固定値 推定量( )の分布を標本分布といい、標本分布の標準偏差を標準 誤差(S.E.)と呼ぶ(推定の精度) 「事後標準偏差」と「標本誤差」の区別 事後標準偏差( )は、事後分布の標準偏差で、標準誤差は標 本分布(複数回 を推定した時の、 の分布の標準偏差) 事後標準偏差も標準誤差も小さいほうが好ましい 事後標準偏差( )が大きい場合 → データ(n)を増やす 標準誤差( )が大きい場合 → 乱数(T)を増やす
  14. 14. 事後分布とその代表値 カーネル密度推定によってデータから確率密度関数を推定
  15. 15. 予測分布 予測分布:将来観測されるであろうデータ x* の確率分布 2種類の予測分布 事後予測分布:f(x*|x) → 事後分布 f(θ|x) による f(x*|θ) の平均 → パラメタ(θ)が与えられた時の x* の分布 → 問題はパラメタ(θ)自体が確率的に変動する → MCMC をおこなうごとに、パラメタの推定値を計算し、そこから事後予測分布を 求める必要がある(x*(t) ~ f(θ(t) )) → 煩雑で取り扱いづらい 条件付き予測分布: → パラメタの推定値( )を所与とした時の未来のデータ x* の条件付き確率 → 点推定値にのみ依存するので、取り扱いやすい
  16. 16. ベイズ的推測 リサーチクエスチョン(RQ)を自覚することが重要 常にRQを自覚し、実質科学的知見を最大限利用すること(cf. 事 前分布・主観確率) どんなRQがありうるのか? RQ1:平均値の点推定(µ の点推定) RQ2:平均値の区間推定(µ の区間推定) RQ3:平均値の片側区間推定 RQ4:標準偏差の点推定・区間推定(σ の点推定) RQ5:予測分布の区間推定( x* の区間推定) → RQ1-4:母集団のパラメタに関する推測 → RQ5:将来のデータの分布に関する推測
  17. 17. ベイズ的推測 平均値(µ)に関する推測 EAP:80.6 S.E.:0.01 post.sd:1.9 2.5%:76.8 5%:77.5 50%:80.6 95%:83.7 97.5%:84.4
  18. 18. ベイズ的推測 平均値(µ)に関する推測 点推定(EAP, MED, MAP): → EAP = MED = MAP = 80.6(RQ1への答え) 区間推定:µ(t) の平均値である は、µ の事前分布の型状にかかわらず 、正規分布に従う → µeap が母平均である母集団からの、µ の無限回の標本抽出と考えるこ とができる(中心極限定理) → 標本分布の2.5%点〜97.5% 点の面積が信頼区間(標準正規分布におい て信頼区間は -1.96×SD 〜 1.96×SD) → SD(標本の標準偏差:S.E.) = 0.01 → 80.6 ± 1.96 × 0.01 → 信頼区間:[80.58, 80.62](95%信頼区間)(RQ2への答え) → 確信区間:[76.8, 84.4](95%確信区間:事後分布の面積が95%)
  19. 19. 「信頼区間」と「確信区間」 信頼区間:「Aの信頼区間」というとき、Aは未 知なる固定点(頻度論的) 標本抽出を無限回おこない、同様の区間構成 をしたとき、そのうち95%の回数(サンプリ ング)は、真値Aを含む 確信区間(信用区間):「Aの確信区間」という ときA自身が分布する(ベイズ的) データから確信区間を計算するとき、パラメ タ自身が95%の確率でその区間に存在する
  20. 20. ベイズ的推測 平均値(σ)に関する推測 EAP:5.6 MED:5.5 MAP:4.7(= MLE) S.E.:0.01 post. sd: 2.5%:3.6 5%:3.8 50%:5.5 95%:9.0 97.5%:10.1
  21. 21. ベイズ的推測 平均値(σ)に関する推測 EAP:80.6 S.E.:(0.02) post.sd:6.4 2.5%:68.0 5%:70.4 50%:80.6 95%:90.9 97.5%:93.3
  22. 22. ベイズ的推測 RQへの答え RQ4: (1) 標準偏差の点推定 [a] EAP:5.6 [b] MED:5.5 [c] MAP:4.7 (2) 標準偏差の区間推定 [a] 確信区間:[3.6, 10.1] RQ5: 予想分布の区間推定 [a] 確信区間:[68.0, 93.3]
  23. 23. ベイズ的推測(2):生成量 生成量:MCMC法による標本(データ)θ(t) の関数 g(θ(t)) θ(t) を原料に作られたものが生成量 ここで g は任意の関数 例:g(θ) のEAP推定量は g(θ(t)) から計算可能 生成量を利用すると以下のRQに答えることが可能 RQ6:分散の点推定・区間推定 RQ7:変動係数の点推定・区間推定 RQ8:効果量の点推定 RQ9:効果量の区間推定・片側区間推定の下限・上限 RQ10:%点の点推定・区間推定 RQ11:基準点未満の測定値が観測される確率 RQ12:基準点との比の点推定・区間推定 推定量・区間推定の考え方は前述と同じ、推定結果は p. 47 表2.4 を参照
  24. 24. ベイズ統計における「仮説検証」 研究仮説の真偽を表現する2値変数を利用すると 、研究仮説(U)が正しい確率を調べることがで きる 頻度論的な仮説検定では、(対立)仮説が正しい 確率を調べることはできなかった 真: :θ(t) に関して研究仮説が真 偽: :それ以外の場合
  25. 25. ベイズ統計における「仮説検証」 「店舗Bの牛丼の具の重さの平均が85」 研究仮説:Uµ<85 > > otherwise
  26. 26. ベイズ統計における「仮説検証」 研究仮説:Uµ<85 Uµ<85 が正しい確率は 98.5% → 研究仮説が正しいこと はほぼ検証された
  • pochi-koma

    Dec. 28, 2017
  • KatoHideyoshi1

    Oct. 21, 2017

はじめての統計データ分析勉強会 #2 資料

Views

Total views

5,750

On Slideshare

0

From embeds

0

Number of embeds

49

Actions

Downloads

20

Shares

0

Comments

0

Likes

2

×