ベイズ推論の基礎とシミュレーション法
OUTLINE
・(前半)ベイズモデル
・(中盤)シミュレーション法(MCMC)
・(後半)シュミレーション
本日の発表内容は3部構成です
Hierarchical Bayes Model(階層ベイズモデル)
1-1.そもそもベイズ推論とは何か?
1-2.最尤推定量と事後分布
1-3.線形モデルの拡張と、そのベイズ的記述
1-4.ここまでのまとめ
1-1 そもそもベイズ推論とは?
ベイズによる推論とは?
・ベイズルールは
 「仮説が情報によって更新される」
 ということの関係性を記述している
→ 仮説p(θ)が情報 y が与えられると、p(θ¦ y )に更新される.
ベイズの定理は、
ベイズがつくったが、
一般に拡張したのは、
ラプラスである。
1-2 最尤推定と事後分布
・例を用いて対比します
例 : サイコロで1の目が出る確率θを求める
母集団
θ0
あるサイコロで
1が出る(真の)確率
non - bayesian : MLEによる推定
母集団
θ0
あるサイコロで
1が出る(真の)確率
真のパラメータに従う確率変数から、
実現値として以下が得られたとする.
= (1,2,3,4,3,…,6,3,5)
今、わかっているデータのみで、
最もあり得そうなモデルは何か?
例) Yにベルヌーイ分布を仮定して、最尤法を用いる。
推定量θは確率変数Yの関数であり、
その実現値の1つが、Yに実現値を入れたもの。
non - bayesian : MLEによる推定
・Point Estimation
・MLE
MLE
尤度を最大化するようなパラメータを求める。
対数尤度の最大化に対応する。
【考え方】
真のパラメータが存在して、それを得られた標本から推定する。
つまり、推定されたパラメータは「確率変数」の関数であり、その枠組みのもとで議論を行う。
特に、推定されたパラメータがM推定量の枠組みで議論できる場合には、漸近正規性、一致性など
推定量として良い性質を期待できる。
bayesian : 事後分布の考え方
母集団
あるサイコロで
「1が出る」確率
1/6
仮説:
さいころで1が出るのは
およそ1/6である
θ
p(θ) beta分布
実際にさいころを振ってみると、、、
= (1,2,3,4,3,…,6,3,5)
とデータが得られた。
!
このデータが、仮説θのもとで得られる確率は?
ベイズルールを用いて、
サイコロの1が出る確率を更新する
bayesian : 事後分布の考え方
・Posterior Inference
・Bayes Rule
【考え方】
事後分布は、ベイズのルールから導出される。
事後分布は、パラメータの関数であり、標本の関数ではないことに注意が必要である。
データが得られれば、得られるほど、より正確なパラメータの情報がわかる。
ただし、パラメータの事前分布の決定など、テクニカルな部分もある。
パラメータは確率変数であり、得られたデータから、
パラメータの分布を更新するという考え方。
この場合、パラメータについての推論は、
事後分布に基づいて行う。
事後分布
事前分布
区間推定を比較
・事後分布に基づく推定
観測データに基づく区間が、以下を満たすとき95%
θに対するBayesian coverageという
・MLEなどの点推定
Yに依存する確率的な区間が、θに対する95%
Frequentist Intervalであるとは、以下を満たす場合をいう。
区間推定を比較(点推定)
・Point Estimation
Yに依存する確率的な区間が、θに対する95%
Frequentist Intervalであるとは、以下を満たす場合をいう。
(真の値)
u(Y)
l(Y)
:確率的に動く
:確率的に動く
区間推定(ベイズ)
・Posterior Inference
観測データに基づく区間が、以下を満たすとき95%
θに対するBayesian coverageという
面積 = 0.95
u(y)l(y)
p(Ư̆|y):事後分布
1-3 線形モデルの拡張とそのベイズ的記述
(最初はNon Bayesian)・線形回帰モデルを拡張する話
・ベイズに書き直す話
1-3-1 一般化線形モデル
線形回帰モデル
各点に仮定される
正規分布のばらつきは「一定」
という強い仮定がおかれている
→ 非常に解釈も容易で、使い勝手もよい
→ 分散が一定である仮定しているので、次のページのような問題も起こる。
線形回帰モデルの課題(その1)
データの特徴
・反応変量は負の値を取らない
・反応変量は正の整数である
・Xが大きくなると、Yのばらつきも大きい
各点がポアソン分布に従うと考える方が自然
平均が大きくなれば
分散も大きくなる
という関係性がある。
線形回帰モデルの課題
データの特徴
・反応変量は負の値を取らない
・反応変量は0か1である
・Xが端になると、Yのばらつきは小さい
各点がベルヌーイ分布に従うと考える方が自然
平均
分散
線形回帰モデルの拡張 - 一般化線形モデル
・Yが従う分布を指数型分布族とする。
・説明変数の線形結合を次のように記述。
・  と   をつなぐ関数(リンク関数)を設定する.
g : 単調関数
定義:指数型分布族(Exponential Family)
Y が指数型分布族に従う確率変数であるとは、
一般化線形モデル - ポアソン回帰モデル
・・・ポアソン分布
・・・平均パラメータ
・・・リンク関数
ポアソン回帰モデルでは、
推定値の値が大きくなればなるほど、
予測値の分散も大きくなる.
モデルとして改善しているように見える
一般化線形モデル - ロジスティック回帰モデル
・・・ポアソン分布
・・・平均パラメータ
・・・リンク関数
ロジスティック回帰モデルでは、
推定値の値が大きくなればなるほど、
予測値の分散も大きくなる.
モデルとして改善しているように見える
1-3-2 線形混合モデル
線形混合モデル - 例
3つの地域で繰り返し測定されたデータを考える.
このとき、これらのデータをプロットすると、
左の図のようになった。
しかし、実際のデータをプロットすると、
各地域毎に、データのばらつきは違うことがわかる
このような現象を
・地域差
・個体差
などと呼ぶ
線形混合モデル - 例
・線形混合モデル(Linear Mixed Model)
固定効果 観測誤差
・変量効果(random effect)
地域毎のばらつきをモデルに組み込み、考慮することができるようにす
る。地域が異なれば、データのばらつきも異なるという考え方。
1-3-3 一般化線形混合モデル
線形混合モデル + 一般化線形モデル
一般化線形混合モデルの例:Poisson-Normal
・一般化線形混合モデル(ポアソン分布のケース)
一般化推定方程式(通称GEE)を用いて
数値計算的に推定量を求めることができるが、意外と大変。
glmmMLというパッケージが一般化線形混合モデルを解くパッケージです。
1-3-4 ベイズ的に、モデルを記述する
今までの議論に、対応するようなベイズモデリング
パラメータが確率変数であることに注意
ベイズ的な記述 - その1
・Normal Model
・Poisson Model
注)事前分布は一例です
注)事前分布は一例です
ベイズ的な記述その2
・Normal Model with Random Effect
Random Effectは平均が0の正規分布を仮定しただけで
Fixed Effectに対応するβも分布を持つので、
Random Effect / Fixed Effectという概念の違いはない
注)事前分布は一例です
注)事前分布は一例です
ベイズ的な記述その3
階層的なモデリング
(階層ベイズモデル)
!
もっと複雑にすることも
もちろん可能.
Poisson Normal Model
どうやって推定するか?:事後分布
次の課題
ここまでのまとめ
ベイズか、ノンベイズか?
Bayesian / Non-Bayesian ?
・Bayesianとして考えるべき?
・Non-Bayesianとして考えるべき?
本によっても、人によっても、
分野によっても違うと思います.
ケースバイケースで良いような気がしています.
両方の手法を勉強して、適切な方を使えるように.
ただ、Bayesianにすると、事前情報を組み込んだり、
複雑なモデルでもシミュレーションができるなどの利点もある.
参考文献など
多いので、分けてご紹介します
ここまでの参考文献
Generalized Linear Models, Second Edition
P. McCullagh, John A. Nelder
1989 by Chapman and Hall/CRC
Generalized Linear Models with Random Effects
Youngjo Lee, John A. Nelder, Yudi Pawitan
2006 by Chapman and Hall/CRC
ここまでの参考文献
Bayesian Inference in Statistical Analysis
George E.P. Box, George C. Tiao
George E.P. Box 1973
A First Course in Bayesian Statistical Methods
Hoff, Peter D.
Springer Texts in Statistics 2009
ここまでの参考文献
Bayesian Essentials with R
Marin, Jean-Michel, Robert, Christian
Springer Texts in Statistics 2014
データ解析のための統計モデリング入門
久保拓弥
岩波書店・シリーズ「確率と情報の科学」
Simulation Method(シミュレーション法)
2­1.モチベーション
2­2.モンテカルロ近似
2­3.Markov Chain Monte Carlo
2-4.簡単なシミュレーションとまとめ
2-1.モチベーション
事後分布からサンプリングする!
モチベーション
事後分布の推定において
特段、課題となるのは、
分母の積分である.
この積分を行わずに、事後分布を推定したり、事後分布をもとにした
統計量を算出することができないか?と考えるのは、自然。
※パラメータ数が多くなった場合に、
分母の積分を行うのは、困難である.
モチベーション(Example)
・・・反応変量, n次元ベクトル
・・・説明変数, n p行列
・・・グループのばらつき、n q行列
・・・説明変数のパラメータ
・・・ばらつきのパラメータ
・・・ばらつきのハイパーパラメータ
セットアップ(記号の準備)
モチベーション(Example)
ベイズのルールから、パラメータの事後分布は次のように書き直せる
正規化されていない、事後分布を以下のような記号におく。
Poisson-Normalモデルは、これらを以下のように設定する。
※ばらつきのパラメータもモデルに組み込むならもう少し複雑にする.
さらに、事前分布は次のように分解できる場合を考える.
モチベーション(Example)
・サンプリングモデル
・事前分布
:kとθはGivenであるとする.
:τはGivenとする
ベイズルールの分母の積分項
=
=
「正規化定数」(Normalizing Constant)
(寄り道)Conjugate Prior = 共役事前分布
事後分布が、容易に計算できる場合がある。
→ 「共役(conjugate)」な事前分布の場合。
「共役」= 事後分布が、事前分布と同じ分布(パラメータは異なる)になる場合
・Normal
・Gamma
・Beta
・Dirichlet
・Gamma
・Normal - Normal (mean)
・Poisson - Gamma (mean)
・Bernoulli - Beta (mean)
・Multinomial - Dirichlet
・Normal - Gamma : (dispersion)
【sampling model - Prior】 【Posterior】
2-2.モンテカルロ近似
仮に、事後分布から(独立な)標本が得られたら
モンテカルロ近似
モンテカルロ近似
:f(x)からのサンプル
:f(x)のサポート
このとき(※)は、積分は以下の式で近似できる.
事後分布からサンプルをとれれば、事後分布に基づく
様々な統計量を(近似的に)評価することができる!
→
・・・(※)
2-3.Markov Chain Monte Carlo Method
事後分布の正規化定数を求めずに、サンプリングを行う。
Markov Chain Monte Carlo Method(MCMC)
ここからは、事後分布の正規化を行うことなく、
事後分布からサンプリングを行うための枠組みを説明する。
!
サンプリングを行う手法は、様々な手法がある。
・Accept - Reject Method
・逆関数法
・Adaptive Rejection Sampling
!
今回、扱うのはマルコフ連鎖を用いる枠組みで、
MCMCと呼ばれる手法である。
確率過程        が推移確率 Pのマルコフ連鎖であるとは、任意のnに対して
マルコフ連鎖の定義
を満たすことをいう。
1 3
2
4
【状態遷移図(離散状態空間の場合)】
4つの状態を持つ
マルコフ連鎖.
離散上のマルコフ連鎖は、
有効グラフで記述できる。
→行列で表記できる
マルコフ連鎖(一般的な状態空間)
・不変測度
 任意の      に対して、以下を満たすような、測度π(・)のこと.
・既約的
 任意の     に対して、ある正の整数 n が存在して、以下を満たす.
:確率空間(マルコフ連鎖では、状態空間と呼ぶ)
マルコフ連鎖の性質(一般的な状態空間)
・再帰的
 既約的なマルコフ連鎖が、再帰的であるとは、
 任意の      以下が満たされることである.
と記号を定義すると、
がすべての      に対して成立する.
が に対して成立する.
マルコフ連鎖の性質(一般的な状態空間)
・非周期的
を満たすような、整数    存在しない。
ただし、       
このとき、
マルコフ連鎖の性質(具体例)
推移カーネルが、
右のようなマルコフ連鎖を考える。
すると、このカーネルは、既約的である。
!
さらに、左で定義される不変分布πを持つ。
また、disjointな集合は存在せず非周期的であり、
再帰的であることもわかる。
!
!
【重要な定理】
3つの条件を満たす連鎖には唯一分布が唯一存在し、
それは連鎖の均衡分布となる。
Pを1000回かけた行列
ほぼ等しい
MCMCの根本的な定理(一般状態空間)
Th. Tierney 1994
P を π-irreducible(既約的) で、
πP = π (定常分布) を満たすマルコフ連鎖の推移カーネルとする。
このとき、 P は positive recurrent (正再帰的) であり、
π はカーネル P の唯一の invariant distribution (不変分布) である。
さらに、P が非周期的であるならば、
π-almost all x に対して、次式が成立する.
!
!
ここで、P が Harris recurrent であれば、
任意の x に対して上記の収束が保証される. ※
本当であれば、詳しい話もしたいのですが...
Tierney 1994の定理を満たす推移カーネルとして
「メトロポリス」カーネルという推移カーネルが存在します。
これが一般的なMCMCを実装する際に用いられるの
枠組みを提供するカーネルです。
!
・そのアルゴリズムが「Metropolis - Hastings アルゴリズム」です。
!
しかしながら、時間内にその話をするのは、
なかなか難しいので、今回は、割愛します。
!
→証明等に興味がある場合はゼミでやります(声をかけてください)。
Metropolis Hastings Algorithm (MHアルゴリズム)
Given
1.Generate
2.Take
where
目標分布の比
正規化定数は相殺する
2-4.簡単なシミュレーション&まとめ
t分布からのサンプリングをする
Given
1.Generate
2.Take
where
t分布(自由度10;非心度:1)からの
サンプリング - アルゴリズムの作成
where
qは平均 の正規分布です
分散は適切な値を選ぶ必要があります.
この部分は相殺して = 1
このケースを
「random walk metropolis」
と呼びます.
f は自由度10非心度1のt分布
収束していそうな範囲
収束してなさそうな範囲
MCMCの実行結果(収束のはじまりを見つける)
※今回は、収束を理論的に議論するのはやめます
ここをサンプルに使いましょう!
MCMCの実行結果
MCMCの実行結果 - 自己相関
マルコフ連鎖を用いているので、
サンプル同士には、相関が生じている。
そこで、自己相関を確認し、
適当な区間を空けてサンプルをとる。
一応、20個おきに取れば、自己相関は小さい
※独立ではないが、相関はない方が望ましいのは間違いない
期待値 :1.000
平均値 :1.046
分散  :1.25
標本分散:1.30
MCMCの実行結果 - 統計量
※MCMCによるサンプルサイズ:400個
まとめ
基本的に、適切なカーネルを持つマルコフ連鎖を用いれば、
任意の事後分布から、サンプルを生成することが(理論上は)可能である。
!
※)「事前分布の設定」が結果に影響を与えるため設計には注意が必要である
!
※)「提案分布の設定」はMCMCサンプラーの効率に強く関わる。
  不適切な提案分布を用いると、acceptance rateが著しく低下し、
  非効率なサンプラーになる。
!
※)サンプルは独立ではないので、MCMCのサンプルは自己相関を確認して、
  無相関に近いようなサンプルを用いるべき
Poisson - Normal Modelを設計して
MHアルゴリズムでサンプルを取る
さぁ、シミュレーションのお時間です!
Example - 仮想的な例
ある小地域における、交通事故を防ぐために行った政策の効果を調べたいというケースを考えます。
3つの地域A/B/Cにおいて、1日に起こった交通事故数を、ある期間に渡って繰り返し測定します。
そして興味がある事柄は、以下のテーマです.
「A:政策実施地域における交通事故が政策によって有意に減少したか」.
また、各地域の1つだけ共変量が取られている状況を考えます.
政策実施地域エリアA
エリアB
エリアC
政策未実施地域
政策未実施地域
モデルは
Poisson - Normalが
良さそうですね!
※あくまで例なので、
季節性を考えろとか言わないでください♡
記号の定義
地域を示す.{A,B,C}
期間を示す.{1,2,3,…,400}
ある地域、ある期間の交通事故数
ある地域、ある期間の共変量
共変量と政策実施有無のパラメータ
地域毎のばらつきを表現するパラメータ
データ
set.seed(20150513) #wed seminar date	
library(dummies)	
library(truncnorm)	
library(MASS)	
#simulation	
a = 400	
b = 400	
c = 400	
x = data.frame(	
	x1 = c(runif(a,-2,2), runif(b,-1.8,2.2),runif(c,-3,2.4)),	
	x2 = c(rep(1,a), rep(0,b), rep(0,c))	
)	
x = as.matrix(x)	
z_fac = c(rep("A",a),rep("B",b),rep("C",c))	
z_fac1 = dummy(as.factor(z_fac))	
z = z_fac1[,-1]	
beta = c(0.8,-0.5)	
u = c(rnorm(a,0,0.2),rnorm(b,0,0.3),rnorm(c,0,0.3))	
lambda = exp(x%*%beta + u) #z%*%u は正規分布からの乱数と考えればよい。	
y = rpois(a+b+c,lambda)	
!
#はずれ値の処理	
#rm_num = which(y>10)	
#x = x[-rm_num,]	
#y = y[-rm_num]	
#z = z[-rm_num,]	
!
par(mfcol=c(1,2))	
plot(x[,1],y,xlab="",ylab="",col=as.factor(z_fac))	
plot(x[,2],y,xlab="",ylab="",col=as.factor(z_fac))	
サンプリングモデル
共変量の作成方法
サンプルサイズ
全地域から400個ずつ
パラメータの設定
プロットしてみると...
共変量1 政策実施の有無
1日の交通事故数(仮想)
Metropolis Hastings Algorithm (MHアルゴリズム)
Given
1.Generate
2.Take
where
正規化定数を除いた
事後分布
提案分布は、1期前を平均とする
・Normal(β)
・Truncated Normal(σ)
事後分布
MCMCサンプル:100万個
Burn In :20万個
サンプル間隔:400
サンプルサイズ:2000
事後分布(平均/標準偏差/分位点)
真値 平均 標準偏差 2.5% 50% 97.5%
0.8 0.85 0.02 0.81 0.85 0.90
-0.5 -0.49 0.06 -0.60 -0.48 -0.38
0.3 0.50 0.66 0.09 0.27 2.68
0.3 0.51 0.60 0.12 0.29 2.37
政策による影響は有意なことがわかる.
事後分布に基づく推定値の計算
90%区間
予測分布の平均値(モンテカルロ法で算出)
観測値
区
間
か
ら
は
み
出
た
も
の
シミュレーションを通した課題など
・提案分布を間違えると、なかなかMCMCが収束しない
 →Acceptance rateが1.8%とかになる。
 →非効率.
・サンプルが少ないと、事後分布の分散で大きい箇所があると、
 一気に予測精度が悪くなる
どちらも、MHアルゴリズムのサンプラーの問題.
特に、モデルが複雑な場合、なんとかする必要がある。
参考文献等
参考文献(抜粋/後半)
• P.J.Diggle, J.A.Town, and R.A.Moyeed(1998), Model-based geostatistics, Appl. Statist. 47, Part3, pp299-350 	

• Banerjee, S., Carlin, B., Gelfand, A. (2004). Hierarchical modeling and analysis for spatial data. Boca
Raton, Fla.: Chapman Hall/CRC.	

• Nummelin, E. (1984). General irreducible Markov chains and non-negative operators. Cambridge
University Press. 	

• Rudin, W. (1966). Real and complex analysis. McGraw-Hill. 	

• Robert, C., Casella, G. (2004). Monte Carlo statistical methods (2nd ed.). New York: Springer. 	

• Tierney, L. (1994). Markov Chains for Exploring Posterior Distributions. The Annals of Statistics,
1701-1728. 	

• Ski, M., Kopp, P. (2004). Measure, integral and probability (2nd ed.) p66. London: Springer. 	

• Robert C, Casella G (2004). Monte Carlo statistical methods. Springer Texts in Statistics,second edition.
Springer-Verlag. 	

• Roberts GO, Rosenthal JS (2009). “Examples of adaptive MCMC.” Journal of Computational and
Graphical Statistics, 18(2), 349367. 	

• Gareth O. Roberts and Jeffrey S. Rosenthal(2007), Coupling and Ergodicity of Adaptive Markov Chain
Monte Carlo Algorithms ,Journal of Applied Probability, Vol. 44, No. 2, pp. 458-475
ありがとうございました

ベイズ推論とシミュレーション法の基礎