Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ベイズ統計入門

54,507 views

Published on

Published in: Career
  • Hello there! Get Your Professional Job-Winning Resume Here! http://bit.ly/topresum
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • はじめまして。こちらのスライドを統計学の勉強会で一部使わせて頂きました。15ページの部分に間違いがあるので、お知らせいたします。
    正規分布の事前分布が正規分布となっていますが、逆ガンマ分布だそうです。ポアソン分布の事前分布がポアソン分布となっていますが、ガンマ分布だそうです。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

ベイズ統計入門

  1. 1. ベイズ統計学入門 東京大学 三好雄也1
  2. 2. 注意当資料はあくまで文系学生が開催した勉強会用に作成した補助資料です。解釈や前提を間違えている可能性もあるかもしれません。あくまで、ベイズ統計学がどのようなモノなのかを大雑把にイメージするための資料としてご参考ください。特に数式の部分は省略してもよいかと・・・。また当資料はプレゼンを意図して作ったものではないため、プレゼンの作法等を無視していますし、資料だけ読んでも理解しにくいかもしれません。その点ついてもご了承くださいませ。2
  3. 3. 目次1. ベイズ統計学とは2. ベイズの定理3. 自然共役(事前)分布4. モンテカルロ法5. MCMC ギブズサンプリング6. 応用例 ベイジアン線形回帰分析7. 終わりに 3
  4. 4. 数理統計学の分類 母集団 母集団 真の値 確率変動推定 デザイン 推定 漸 近 理 標本 論 標本 確率変動 確定したもの 頻度主義 ベイズ4
  5. 5. ベイズ統計学とは 結果を前提に母集団を予想する、結果から母集団を予想する ⇔ 母集団を前提に、結果から母集団を予想する。 未知母数(パラメータ)はすべて確率変動すると仮定  頻度主義:母集団(確定)から標本(変数)が発生 → 母集団の推測  ベイズ:母集団(主観)から発生した標本(確定)をもとに母集団(変数)を推測 ベイズにおける確率 = 信念の度合い、自信 ベイズの定理を用いる ・・・極論してしまえば最尤法の拡張版 分布全体が推測の対象 ⇔ モデルのパラメータ推定が中心 新しいデータが観測されたらパラメータを逐次的に更新できる 5
  6. 6. 補足統計マップ 倉田一成氏webサイトより抜粋6
  7. 7. 補足データ解析とモデルデータの解析=統計モデリング統計モデルとは観測データのパターンをうまく説明できるモデル 基本は確率分布であり、その確率分布の形を決定するものがパラメータ「推定」=モデルの当てはまりが良くなるようにパラメータを決定すること回帰系モデル GLM:指数関数族 ポワソン回帰 ロジスティック回帰 GLMM(Generalized linear mixed model) …過分散データの分析など 階層ベイズ7
  8. 8. ベイズの定理 1ベイズの定理とは、 p y|H p(H) p(H|y) = p(y) ⇔ 事後情報 = データの情報 + 事前情報y:何らかの情報 H:何らかの仮説p(H) 事前の確信度 仮説Hが正しいという事前の確信度p(y|H) 尤度関数 Hが真の際にデータが得られる尤度p(H|y) 事後の確信度 情報yが得られた後の仮説Hの確信度P(y) 正規化定数 p(θ|y) + p(not θ|y) = 1 とするためのもの8
  9. 9. ベイズの定理 例:カジノ あるカジノにて、ある人が「7だ!」と叫んだとする。その人がダイスをやっている確 率はどのように計算されるか? なお、ダイスは1~36の数字があり、ルーレットは0,00,1~36の38の数字がある。 さらに、そのカジノのダイスとルーレットの比率は7:3であるとする。求めるものは p(ダイス|7)問題文より、p(ダイス) = 7/10、p(ルレ) = 3/10ベイズの定理より p(7|ダイス)p(ダイス) 1/36 × 7/10p(ダイス|7) = = = 0.711 > 0.7 p(y) 1/36×7/10 + 1/38×3/10 9
  10. 10. ベイズの定理 2統計モデルとはある確率変数Yの実現値 y = { y1 , y1 , …yn } から、Yが本来従う確率分布(真の分布)を推定するためのものパラメータとは統計モデルが平均や分散などの特定の値(特性値)に依存するときの、これらの特性値のこと。 正規分布、二項分布、ポワソン分布、ガンマ分布、ベータ分布 ベイズの定理とは p y|θ p(θ) p(θ|y) = ∝ p y|θ p(θ) p(y) ⇔ 事後情報 = データの情報 + 事前情報y:確率変数 θ:パラメータp(θ|y) 事後確率 yが与えられた時のθの確率(密度)関数p(θ) 事前確率 θに関する確率分布p(y|θ) 尤度関数 θが与えられた時のyの確率(密度)関数 情報が増える → その情報を取り入れて事後情報が変化(ベイズ更新) 10
  11. 11. 尤度(関数)とはΩ = {A,B}確率 𝑃Ω (?|X) 𝑃Ω (A|X) + 𝑃Ω (B|X) = 1 ・・・偶数と奇数の目が均等に出るサイコロを振った時の目の予想尤度𝑃Ω (X|?) 𝑃Ω (X|A) + 𝑃Ω (X|B) = 1 ・・・何回かサイコロを振った結果から、サイコロの目の作り方を推測例えば、偶数が出やすいサイコロAと、奇数が出やすいサイコロBがあったとき、どちらのサイコロか分からない状態でサイコロを振ったとする。このとき、偶数が出る傾向があれば、そのサイコロはAである可能性が高い(P(偶数|A) > p(偶数|B))と考えられる。つまり、尤度(関数)とはあるパラメータにおいて、その観測値が得られる確率 → 事前分布に関する関数 11
  12. 12. 尤度と主観確率確率変数Yの確率密度関数をp(y|θ)に従うとする。この時、n回もしくはn個の独立な観測値y = { 𝑦1 , 𝑦2 , …𝑦 𝑛 }が得られたとき、これらの観測値に対する同時確率は n p(y|θ) = i=1 p(yi |θ)尤度とは「あるパラメータにおいて、その観測値が得られる確率」である。ゆえに事後分布を調べるためには、その「あるパラメータ」を設定してやる必要がある。 p y|θ p(θ) … ある分布p(θ)から、その観測値が得られる確率ただし、その「ある分布」の選び方はどうしても主観的となってしまうため、このことが頻度主義の統計学からずっと批判され続けていた。 ⇔ 近年ではこのことがモデルに柔軟性をもたらすと評価されている。12
  13. 13. ベイズの定理 例:くじあるくじがある。このくじを引いてみると、順にはずれ、はずれ、当たりという結果となった。このくじで当たりが出る確率の分布(事後分布)はどのようになっているか。当たりが出る確率θ(0≦θ≦1, 𝑦 𝑖 =1)とする。すなわちはずれが出る確率は1 − 𝜃(𝑦 𝑖 =0)最初の時点ではこのくじに関する情報がないとし、p(θ) = 1 と仮定する 主観的! 一様分布 0から1までの値をとる確率は1/(1-0) 期待値は(1+0)/21人目がはずれだったとき、ベイズの定理より 𝑝1 (𝜃|𝑦1 = 0) ∝ 𝑝 𝑦1 = 0|𝜃 𝑝 𝜃 = 1 − 𝜃2人目がはずれだったとき、𝑝2 (𝜃|𝑦1 , 𝑦2 ) ∝ 𝑝 𝑦1 , 𝑦2 |𝜃 𝑝(𝜃)= 𝑝 𝑦2 |𝑦1 , 𝜃 𝑝(𝑦1 , 𝜃)𝑝(𝜃) = (1 − 𝜃)23人目が当たりだったとき、 𝑝3 (𝜃|𝑦1 , 𝑦2 , 𝑦3 ) ∝ 𝑝 𝑦3 |𝑦1 , 𝑦2 , 𝜃 𝑝 𝑦2 |𝑦1 , 𝜃 𝑝 𝑦1 , 𝜃 𝑝 𝜃 = (1 − 𝜃)2 𝜃 事後分布は左図のようになる。 事前分布を一様分布とした場合、最尤推定値 とベイズ推定値は一致する。 余談となるが、この事前分布のモデルをどう するか決定する方法の1つがベイズファクター 0 0.2 0.4 0.6 0.8 1 13
  14. 14. 事後分布を用いたベイズ統計推論 事後分布や尤度は複雑になる傾向がある 特に離散値ではなく、連続値となると、かなり計算が面倒になる 離散値:サイコロやコイントスなどの1回1回の試行 確率関数p(y) 𝑁  平均 μ = 𝑖 𝑦𝑖 𝑝 𝑦𝑖 𝑁  分散 𝜎 2 = 𝑖 ((𝑦 𝑖 −𝜇)2 𝑝 𝑦 𝑖 ) 連続値:確率密度関数f(y) 𝑁  平均 μ = 𝑖=1(𝑦𝑓 𝑦 )𝑑𝑦 𝑁  分散 𝜎 2 = = 𝑖=1 ((𝑦 − 𝜇)2 𝑓 𝑦 )𝑑𝑦また、ベイズ統計においては難しい事後分布が良く出てくる。1. 自然な共役分布を用いる ← 最初から難しいことはしないと腹をくくる2. MCMCを用いた分析:← 複雑な分布も扱える。事後分布の疑似分布を作成する。 14
  15. 15. 自然共役(事前)分布 計算しやすいモデルを作るべく、事前分布と事後分布が同じ「分布族」になるよう に、事前分布を設定する。→ 自然共役事前分布 尤度 事前分布 事後分布 二項分布 ベータ分布 → ベータ分布 正規分布 正規分布 → 正規分布 正規分布 正規分布 → 逆ガンマ分布 ポアソン分布 ポアソン分布 → ガンマ分布 先ほどのくじの例では、事前分布にベータ分布を選んでやればよい。  事前分布に一様分布を用いるよりも妥当性がある、かつ計算も容易 𝛤(𝑎+𝑏) ベータ分布B(a,b) p(θ) = θ 𝑎−1 (1-θ) 𝑏−1∝ θ 𝑎−1 (1-θ) 𝑏−1 𝛤(𝑎)𝛤(𝑏) 15
  16. 16. 自然共役事前分布 例:くじ 例のくじがある。以前、このくじの当たりの可能性は3回中1回当たりであった。しかしある日、このくじが突然壊れてしまい、当たりの可能性が分からなくなってしまった。そこで、何回かくじを引いてみて、その結果からくじの当たりの確率を推測することにした。この時、当たりが出る確率θの分布はどのようになっているか?当たり(𝑌 = 1とする)が出る確率は𝜃なので、ベルヌーイ試行 p(y|θ) = 𝜃 𝑌 (1 − 𝜃)1−𝑌 𝑛 𝑛 𝑛 𝑦 𝑖 (1 − p(𝑦1 , … , 𝑦 𝑛 |θ) = 𝑖=1 𝜃 𝜃)1−𝑦 𝑖 = 𝜃 𝑖=1 𝑦𝑖 × (1 − 𝜃) 𝑛− 𝑖=1 𝑦 𝑖このとき、事前分布p(𝑦1 , … , 𝑦 𝑛 |θ)はベータ分布に従う。すると、事後分布もベータ分布に従うことが知られている。 𝑛 𝑛 事前分布B(a,b) → 事後分布B(a + 𝑖=1 𝑦𝑖 , b + n - 𝑖=1 𝑦𝑖 )ここで仮に、①10回引いて当たりが5回の場合と②30回引いて当たりが15回の場合の事後分布を記載する。16
  17. 17. ベータ分布の事後分布 ①10回 prior likelihood 事後分布はなだらか 4 posterior =確信度は高くない 3density 2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 17 si-ta
  18. 18. ベータ分布の事後分布 ②30回 事後分布が急 prior =確信度は高い likelihood 4 posterior 3density 2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 18 si-ta
  19. 19. 自然共役事前分布のまとめと補足 適切な事前分布(自然共役事前分布)を仮定、もしくは特定してやれば、事後分布 の計算も容易となる。 ベイズの定理にあるように、 事後情報 = データの情報 + 事前情報 ゆえに、ベータ分布の例で示したように、データ(=試行回数)が多くなればなるほ ど初期(事前情報)への依存が減る。 今回は事前分布ははずれが2回、当たりが1回のベータ分布、尤度はベルヌーイ 試行を繰り返した分布である二項分布とした。 しかし、何ら情報がないときにどのような事前分布を選んだらよいのかという問題 が残る。 対処法の1つとして、ベイズファクターを用いたモデル選択という方法がある。 19
  20. 20. 補足ベイズファクター ある分析対象について、J個のモデル𝑀 𝑖 (i=1,2,…J、パラメータは𝜃 𝑖 )を考える。モデ ル𝑀 𝑖 の下でデータyが出現する確率(≒説明力)は p(y|𝑀 𝑖 ) = 𝜃𝑖 𝑝 y|𝜃 𝑖 , 𝑀 𝑖 𝑝 𝜃 𝑖 𝑀 𝑖 𝑑𝜃 𝑖 i≠kのとき、ベイズファクター𝐵 𝑖𝑘 は p(y| 𝑀 𝑖) 𝐵 𝑖𝑘 = p(y| 𝑀 𝑘 ) この時に 𝐵 𝑖𝑘 >1 であれば、 𝑀 𝑖 の方が優れているということになる。 ベイズファクターとは各モデルが与えられた時の周辺尤度の比例コインを10回投げて、表が6回出たとする。このデータをもとに表がでる確率をθとし、次の2つのモデルを考える。 𝑀 𝑖 : θ=1/2、 𝑀 𝑘 : 一様分布p(θ) = 1このとき、 p(y| 𝑀 𝑖) 10𝐶6 × (0.5)6 (0.5)4 0.205 𝐵 𝑖𝑘 = = 1 = ≒2.25 p(y| 𝑀 𝑘 ) 0 10𝐶6 × 𝜃6(1−𝜃)4 𝑑𝜃 0.091 20
  21. 21. MCMCの前にモンテカルロ法 モンテカルロ法  ある分布に基づいて乱数を発生させること サンプリング方法  独立なサンプリング…逆変換法 採択棄却法、重点サンプリング法 ← 平面などの次元の小さい場合に良く用いられる。  非独立なサンプリング…MCMC ←高次元なパラメータを持つ複雑なモデルに対して、急速に発展 次元の呪い  パラメータ数を増やせば、計算が指数関数的に増加する  最尤法の場合、全ての変数の組み合わせについて尤度を計算する必要がある  さらに、最尤法の場合、初期値に依存して局所解を算出してしまう恐れがある 21
  22. 22. 補足モンテカルロ積分モンテカルロ積分 θの確率密度関数をp(θ)、θのある関数g(θ)とする このとき、E[g(θ)] = p(θ)g(θ) 𝑑θ を大数の法則(L.L.N, Law of Large Numbers)からサンプリングによって求める方法がモンテカルロ積分 1 𝑁 E[g(θ)] = p(θ)g(θ) 𝑑θ ≒ 𝑖=1 𝑔(𝜃 𝑖 ) 𝑁22
  23. 23. モンテカルロサンプリングの例 上は逆変換法、下は採択棄却法を用いたサ 2.0 ンプリング 1.5 各直線を確率密度関数とみて、その確率密度 frequency に従って点をサンプリング 1.0 ⇒ 頻度ごとにヒストグラムを作成 0.5 それぞれの図形を示す数式 0.0 0.0 0.2 0.4 0.6 0.8 1.0 y 三角分布密度関数 1.0 f(x) = 4y(0≦x≦0.5)、4-4y(0.5≦x≦1) 0.8 半円形分布 0.6frequency f(x) = 𝑥(2 2/𝜋 − 𝑥) (0≦x≦ 2 2/𝜋) 0.4 0.2 Rで学ぶベイズ統計学入門の例 0.0 23 0.0 0.5 1.0 1.5 x
  24. 24. MCMC MCMCとはマルコフ連鎖を利用して、確率分布(事後分布等)からサンプリングを 行う方法。近似ベイズ計算 (approximate Bayesian computation, ABC) 言い換えると、「事後分布に従う必ずしも独立でない標本から、エルゴード性を有 するマルコフ連鎖をシミュレートする方法」 Wikiによると、「求める確率分布を均衡分布(不偏分布)として持つマルコフ連鎖 を作成することを基に確率分布のサンプリングを行うアルゴリズムの総称」 特徴  (非既約的条件下で)任意の事後分布に対して適用が可能  収束が早い  サンプリングが容易  所詮は近似に過ぎない これにより、複雑な事後分布の評価が可能になる! ベイズ統計学では、事後分布を求め、そのうえで平均や分散を求めるという手法 も取られる。例えばOLSのβをベイズ統計学で推定する場合、まず𝛽 の事後分布を 調べたのちに、 𝛽 の平均を求めるという手順を踏む(・・・多分)。 24
  25. 25. MCMCのキーワードマルコフ連鎖とは f(𝑥 𝑡 |𝑥1 , 𝑥2 ,…𝑥 𝑡−1 ) = (𝑥 𝑡 |𝑥 𝑡−1 ) 例:ランダムウォーク確率推移行列 𝜋1 𝑡+1 𝑝11 𝑝21 𝜋1 𝑡 = 𝑝 𝑝22 ⇔ 𝜋 𝑡+1 = 𝑃𝜋 𝑡 ⇒ 𝜋 𝑞 = 𝑃 𝑞 𝜋0 𝜋2 𝑡+1 12 𝜋2 𝑡不変分布(定常分布)qを大きくしたときに初期値に依存しないπに収束するときのπ* lim 𝜋 𝑞 = lim 𝑃 𝑞 𝜋0 = π* 𝑞→∞ 𝑞→∞ 1/4 3/4 1/3 例 P= 、 π* = ⇒ π* = Pπ* 3/8 5/8 2/3Pの成分がすべて0ではないことを非既約的という25
  26. 26. MCMCのメカニズム 1 事後分布が不偏分布となるように、マルコフ連鎖を設計・生成する(推移核を推定 する)手法 その推移核の決め方の1つとして、重要とされているのが「詳細つり合い条件」と 「エルゴード性」。 詳細つり合い条件 マルコフ連鎖𝑥1 , 𝑥2 ,…𝑥 𝑡 , 𝑥 𝑡+1 ,… π(x):確率分布 確率推移行列 P π(𝑥 𝑡 ) P(𝑥 𝑡 →𝑥 𝑡+1 ) = π(𝑥 𝑡+1 ) P(𝑥 𝑡+1 →𝑥 𝑡 ) 𝑥𝑡 𝑥 𝑡+1 26
  27. 27. MCMCのメカニズム 2 詳細つり合い条件は推移核を決めるための条件の1つ π(𝑥 𝑡 ) P(𝑥 𝑡 →𝑥 𝑡+1 ) = π(𝑥 𝑡+1 ) P(𝑥 𝑡+1 →𝑥 𝑡 ) これだけでは推移核は1つに決まらない。 そこで、推移核の決め方として有名なのが 1. ギブズ法(熱浴法) 2. メトロポリス法、MH法(メトロポリス・ヘイスティング法) ギブズ法  完全条件付分布からのサンプリングが容易な場合に有効  ただし、「完全条件付分布」が把握できない場合には不適 → メトロポリス  簡単には、一般的な分布の場合に用いられる  パラメータが2個以上の場合にしか適用できない メトロポリス法  事後分布の確率密度の高い候補点が提案されれば必ず移動し、そうでなければ確率密 度の比の確率で移動する  時間がかかるが複雑なモデル(パラメータが多い場合)も扱うことができる 27
  28. 28. ギブズサンプリングのイメージ 1 道具としてのベイズ統計よりある分布の「山」があるとする。このとき、この山からのサンプリングを行いたい。1. まず初期地点Aを適当に設定する。2. 次に、他の変数(ここではy)を固定させ、xだけに着目し、AからBに移動する。3. その次にxを固定させ、yだけに着目し、BからCに移動する。4. 繰り返し5. 最終的に、平面上に山の形に即すように点がプロットされる。 28
  29. 29. ギブズサンプリングのイメージ 2 g(𝜃1 , 𝜃2 )に従う乱数を生成するとする 同時確率分布g(𝜃1 , 𝜃2 )からは乱数を発生させにくいが、条件付き分布g(𝜃1 |𝜃2 )、 g(𝜃2 |𝜃1 )からは容易に乱数を発生させることができる。 01. まず初めに、適当な𝜃1 の初期値𝜃1 を設定する。 0 0 0 12. 次に、g(𝜃2 |𝜃1 ) から𝜃2 を、 g(𝜃1 |𝜃2 )から 𝜃1 を発生させていく。 𝜃 0 , 𝜃1 ,… 𝜃 𝑖𝑡 , 𝜃 𝑖𝑡+1 ,… (i=1,2) は、推移核が①既約性と②非周期性を満たせば、 𝑖 𝑖 定常分布に収束する。 なお、一般的に g(𝜃 𝑖 |𝜃−𝑖 )を完全条件付分布という。 𝑡+1 𝑡 推移カーネルは P(𝜃 𝑡 →𝜃 𝑡+1) = 𝑖=1 g(𝜃 𝑖 |𝜃−𝑖 ) ←あまり着目されない 29
  30. 30. ギブズサンプリングのイメージ 3 互いに相関のない2変量の標準正規分布をギブズサンプリングでプロットしてみる 30
  31. 31. MCMCの例:ギブズある標準正規分布のように見える正規分布から15個の観測値を得た。このときの事後分布を評価する平均μの自然共役事前分布として正規分布、𝜎 2 の自然共役事前分布として逆ガンマ分布を設定する(これを「正規-逆ガンマ事前分布」という)と、以下のようになる。ベイズの定理 p(μ,𝜎 2 |y) ∝ p(y|μ,𝜎 2 )p(μ,𝜎 2 ) = p(y|μ,𝜎 2 ) p(μ |𝜎 2 ) p(𝜎 2 )事前分布 μ|𝜎 2 ~ N( 𝜇 𝑛 , 𝜎 2 /𝑘0 )、 𝜎 2 ~ IG( 𝑟0 /2, 𝑠0 /2) 2 ⇔ N-IG( 𝜇0 , 𝜎0 ; 𝑟0 , 𝑠0 )⇒ 事後分布 μ|𝜎 2 ,y ~ N( 𝜇 𝑛 , 𝜎 2 /𝑘 𝑛 ) 𝜎 2 ~ IG( 𝑟 𝑛 /2 , 𝑠 𝑛 /2 ) 𝑘0 n 𝜇𝑛= 𝜇0 + 𝑘 +𝑛 𝑦 𝑟 𝑛 = 𝑟0 + n 𝑘0 +𝑛 0 𝑘 𝑛 = 𝑘0 + n 𝑠 𝑛 = 𝑠0 + (n-1) ⇔ N-IG( 𝜇 𝑛 , 𝜎 2 ; 𝑟 𝑛 , 𝑠 𝑛 ) 𝑛31
  32. 32. データ以下の15個のデータ0.39, 1.00, -2.86, -1.68, -0.30, -0.75, -0.63, -0.86, 2.72, 0.35, -0.56, 0.18, 0.13, -1.07,2.22 -2 -1 0 1 2 事後分布 N-IG( 𝜇 𝑛 , 𝜎 2 ; 𝑟 𝑛 , 𝑠 𝑛 ) 𝑛 初期値をN-IG ( 0, 1 ; 3, 2)とした 32
  33. 33. 補足ガンマ・逆ガンマ分布 𝜎 2 の事前分布に用いられることが非常に多い ガンマ分布 Ga(a,b) : f(x) ∝ 𝑥 𝑎−1 𝑒 −𝑏𝑥 逆ガンマ分布 IG(a,b) : f(x) ∝ 𝑥 −𝑎−1 𝑒 −𝑏/𝑥 → IG(3,2)で平均1、分散1となる ガンマ分布はaが大きくなると分布の山が左に移動し、bが大きくなるほど、尖度が大きくなる。 逆ガンマは下の図の通り 1.0 a=1,b=1 a=2,b=3 0.8 a=1,b=0.01 0.6 density 0.4 0.2 0.0 33 0 1 2 3 4 5
  34. 34. サンプリング系列34
  35. 35. ヒストグラム μのヒストグラム σ2 のヒストグラム35
  36. 36. ベイジアン線形回帰分析次の線形回帰を考える Y = Xβ + 𝜀 𝑡 、 𝜀 𝑡 ~i.i.d.N(0, σ2 )このとき、最小二乗推定量 𝛽 = (𝑋 ′ 𝑋)−1 𝑋𝑦 , 𝛽 ~ N(β, ,σ2 (𝑋 ′ 𝑋)−1 ) 2 2 𝑒′ 𝑒 𝑒′ 𝑒分散の推定量 σ =s = , ~ 𝜒 2 (n-k) n-k は自由度 𝑛−𝑘 σ 2ベイズの定理より p(β,σ2 |y) ∝ p(y|β,σ2 )p(β,σ2 ) = p(y|β,σ2 ) p(β|σ2 )p(σ2 )変数変換 y → ε p(β,σ2 | ε) ∝ p(ε |β,σ2 ) p(β|σ2 )p(σ2 )事前分布 正規-逆ガンマ分布 β|𝜎 2 ~ N(β0 , 𝜎 2 𝐴−1 ) , 𝜎 2 ~ IG( v0 /2, s0 /2 )事後分布 正規-逆ガンマ分布 N(β*, 𝜎 2 𝛴∗−1 ) ・IG( (v0 + n)/2) , s*/2 ) β*= (𝑋 ′ 𝑋 + 𝐴)−1 (X’Xβ + Aβ0 ) 、𝛴 ∗ = X’X + A s* = s0 + v𝑠 2 + (β0 -β)’( (𝑋 ′ 𝑋)−1 + 𝐴−1 )−1 (β0 -β) 36
  37. 37. 補足変数変換に関してp(β,σ2 |y) ∝ p(y|β,σ2 )p(β,σ2 ) = p(y|β,σ2 )p(β,σ2 )変数変換 y → εp(β,σ2 | y) = p(β,σ2 |ε), p(y |β,σ2 ) = p(ε|β,σ2 )正確には p(y|β,σ2 ) = p(ε|β,σ2 ) Jε→y , Jε→y は変数変換のヤコビアン dεしかし、ε = y-Xβ なので、dyi = 1 よって Jε→y =1 iこのとき n ′ N 1 ε2 1 y-Xβ y-Xβ尤度 p(ε|β,σ2 ) = i=1 exp − 2 = i exp − 2π σ2 2σ 2π σ2 2σ2 37
  38. 38. ベイジアン線形回帰分析の例 Rの場合、事前分布である正規-逆ガンマ分布の特性値(初期値)N(β0 , Σ0 )・ IG(𝑣0 /2, 𝑠0 /2)を設定し、分析するデータを加えてやればよいだけ。 15 10 以下のyを人口的に発生させた 5 Y = 2X + 3 + ε, ε ~ N(0,42 ) 0 このとき、初期値を以下のように定める -6 -4 -2 0 2 4 6 -5 N(2, 16)・IG(0.01,100) -10 y = 1.8773x + 1.5 なお、通常の線形回帰だと -15 Y = 1.8773x + 1.5 library(MCMCpack) regdata <- list(X = c(-5, -4, -3, -2, -0.1, 0, 1, 2, 3, 4, 5),Y = c(-10.6, -4.1, -0.9, -1.8, -5.7, 1.6, 6.3, 5.7, 4.8, 13, 8.2)) # dataset posterior <- MCMCregress(Y~X, data=regdata, mcmc = 10000, b0 = 2, B0 =16, c0 = 0.001, d0 = 100, burnin = 1000) plot(posterior) summary(posterior) 38
  39. 39. 分析結果 139
  40. 40. 分析結果 240
  41. 41. M-Hサンプリング 実際にはギブズサンプリングに必要な「完全条件付分布」が手に入らないこ ともある。 そのような時はM-Hサンプリングを用いる。 説明は省略するが、p30を参照実際には、ギブズもM-Hもある程度「使いどころ」が決まっている(らしい)。  ギブズ → 正規分布(トービット、プロビット)、階層モデルなど  M-H → ロジット分布など41
  42. 42. 終わりに もちろん、ベイズ統計学においても時系列分析やパネルデータ分析は存在してい ます。状態空間におけるベイズ更新とカルマンフィルターなんてジャンルも存在し ているようです。 その際に、複雑な確率密度関数、事後分布が出てきた際に威力を発揮するのが MCMCです。 そのほか、ベイズ統計学としてはナイーブベイズやベイジアンフィルタ、機械学習 という括りではSVM、ニューラルネットなどなど、実務では計量経済学以外の統計 学の手法が多々用いられています。 42

×