データ解析のための統計モデリング入門10章前半

「データ解析のための統計モデリング⼊入⾨門」
階層ベイズモデル -‐‑‒ GLMMのベイズモデル化 -‐‑‒
2014/09/30
Akiba Shinya

Title
□
ABOUT ME
秋庭伸也
早稲⽥田⼤大学 -‐‑‒ 機械科学専攻 M2
!
研究：画像認識識 @aki_̲n1wa
バイト：データ分析

Title
□
OUTLINE
○これまでの振り返り
○10.1 例例題：個体差と⽣生存種⼦子数(個体差あり)
○10.2 GLMMの階層ベイズモデル化
○10.3 階層ベイズモデルの推定・予測
○10.3.1 階層ベイズモデルのMCMCサンプリング
○10.3.2 階層ベイズモデルの事後分布推定と予測
○まとめ

Title
□
これまでの振り返り
○6章：GLMの応⽤用範囲をひろげる
⽣生存種⼦子数のモデリング
!
○7章：⼀一般化線形混合モデル(GLMM)
個体差のある統計モデル
!
○9章：GLMのベイズモデル化
ベイズ統計モデルの事後分布の推定
パラメータの点推定
パラメータの事後分布
の推定

Title
□
○6章：GLMの応⽤用範囲をひろげる
⽣生存種⼦子数のモデリング
!
○7章：⼀一般化線形混合モデル(GLMM)
個体差のある統計モデル
!
○9章：GLMのベイズモデル化
ベイズ統計モデルの事後分布の推定
パラメータの事後分布
の推定
パラメータの点推定と事後分布推定ってどんな違いがあるんだっけ？
みどりぼんでは、点推定は最尤推定法、事後分布推定はMCMC。

Title
Name
Date
対数尤度関数
対数尤度
パラメータ
最尤推定法とMCMCのイメージ
最尤推定法では対数尤度度が
⼤大きくなるように、パラメータが更更新される

Title
Name
Date
対数尤度関数
対数尤度
パラメータ

Title
Name
Date
収束！(最大値 or 極小値が求まる)
対数尤度関数
対数尤度
パラメータ

Title
Name
Date
対数尤度関数
対数尤度
そのときのパラメータが推定されたパラメータ
パラメータ

Title
Name
Date
対数尤度
(メトロポリス法)
パラメータをランダムに動かす
パラメータ

Title
Name
Date
対数尤度
パラメータ
対数尤度度が⼤大きくなったら、その⽅方向にパラメータを更更新する

Title
Name
Date
対数尤度
パラメータ
対数尤度度が⼩小さくなったら、ある確率率率で対数尤度度が⼤大きくなるように更更新する

Title
Name
Date
対数尤度
パラメータ
対数尤度度が⼩小さくなったら、ある確率率率で対数尤度度が⼤大きくなるように更更新する
フラフラさせる。対数尤度度が⼤大きいところに移動しやすい

Title
Name
Date
対数尤度
パラメータ
パラメータごとの滞在回数をカウントする

Title
Name
Date
対数尤度
パラメータ
パラメータごとの滞在回数をカウントする
ヒストグラムを作成する

Title
Name
Date
対数尤度
スタート位置
注意点
パラメータ
1ステップごとに相関があるので、ステップ数が⼩小さいと分布に隔たりができる
解決⽅方法
^
収束するまで動かす -‐‑‒> Rの推定値をみる
スタートからある程度度のステップ数を捨てる -‐‑‒> burn-‐‑‒in

Title
Name
Date
最尤推定法は
MCMCは
パラメータの事後分布推定

Title
□
○やりたいこと
10.1 例例題：個体差と⽣生存種⼦子数
種⼦子の⽣生存確率率率のモデリング(個体差あり)
○使⽤用するデータ
架空植物から8個の種⼦子を調べて、その中の⽣生存数をカウントしたデータ
⽣生存種⼦子数
観測された個体数
個体 i
種⼦子数 Ni = 8
⽣生存数 yi = 3
個体数は全部で100個

Title
□
○やりたいこと
10.1 例例題：個体差と⽣生存種⼦子数
種⼦子の⽣生存確率率率のモデリング(個体差あり)
○使⽤用するデータ
架空植物から8個の種⼦子を調べて、その中の⽣生存数をカウントしたデータ
⽣生存種⼦子数
観測された個体数
⿊黒丸:観測データ
⽩白丸:⽣生存確率率率0.504の⼆二項分布
⼆二項分布では観測データのばらつきを
うまく説明できない。

Title
10.2 GLMMの階層ベイズモデル化
種□⼦子⽣生存確率率率qが全個体で共通していると仮定する統計モデルでは、
p.225の図10.1(B)のようなパターンは説明できない。
個体差だけでなく、場所差なども考慮するGLMMの場合は
パラメータの最尤推定が困難になる。
→【ベイズ統計モデルとMCMCサンプリングによる事後分布の推定】
各個体で種⼦子の⽣生存確率率率が
違うかもしれないが、
⽣生存確率率率を全個体共通と
仮定している。

Title
□まずは、個体差だけを考慮したMCMCサンプリング(個体差+場所差は後半)

Title
【□事後分布 ∝ 尤度度関数 × 事前分布】
β：切切⽚片
r i：個体差
尤度度関数は全100個体の⼆二項分布の積。
{
βは全個体に共通のパラメータ
r iは個体差のパラメータ
↑この２つのパラメータの事前分布を指定する。

Title
□
…
βは全個体に共通のパラメータ
平均0, 標準偏差100の正規分布
(無情報事前分布)
β：切切⽚片
r i：個体差
【事後分布 ∝ 尤度度関数 × 事前分布】

Title
□
β：切切⽚片
r i：個体差
…
平均0, 標準偏差 s の正規分布

Title
□
β：切切⽚片
r i：個体差
…
標準偏差 s の事後分布を推定する。
p(s) = (0から10^4までの連続⼀一様分布)

Title
□
β：切切⽚片
r i：個体差
…
標準偏差 s の事後分布を推定する。
事前分布のパラメータに、さらに事前分布が
設定されているベイズ統計モデル
→ 階層ベイズモデル

Title
□
10.3 階層ベイズモデルの推定・予測
○階層ベイズモデルの事後分布

Title
□
尤度度関数

Title
□
尤度度関数のパラメータの事前分布
尤度度関数

Title
□
事前分布のパラメータsの事前分布
尤度度関数
尤度度関数のパラメータの事前分布

BUGSコード
model
{
for (i in 1:N) {
Y[i] ~ dbin(q[i], 8) # 二項分布
logit(q[i]) <- beta + r[i] # 生存確率
}
!
beta ~ dnorm(0, 1.0E-4) # 無情報事前分布
for (i in 1:N) {
r[i] ~ dnorm(0, tau)　 # 階層事前分布
}
!
tau <- 1 / (s * s) # tau は分散の逆数
s ~ dunif(0, 1.0E+4) # 無情報事前分布
}
10.3.1 階層ベイズモデルのMCMCサンプリング
http://www.politicalbubbles.org/bayes_beach/manual14.pdf

BUGSコード
model
{
for (i in 1:N) {
}
!
for (i in 1:N) {
}
!
}
○⽣生存数Y[i]は⼆二項分布
-‐‑‒ サイズ8
-‐‑‒ ⽣生存確率率率q[i]
!
○⽣生存確率率率q[i]は
ロジットリンク関数と
線形予測⼦子 β + r[i]

BUGSコード
model
{
for (i in 1:N) {
}
!
for (i in 1:N) {
}
!
}
○各パラメータの事前分布
-‐‑‒ β はひらべったい正規分布
-‐‑‒ r は標準偏差がsの正規分布
-‐‑‒ sは⼀一様分布

Stanコード
data {
int<lower=0> N;
int<lower=0> y[N];
}
parameters {
real beta;
real r[N];
real<lower=0> s;
}
transformed parameters {
real q[N];
for (i in 1:N) {
q[i] <- inv_logit(beta + r[i]);
}
}
model {
y ~ binomial(8, q);
beta ~ normal(0, 100);
r ~ normal(0, s);
s ~ uniform(0, 1.0E+4);
}

data {
…
}
Stanコード
data {
int<lower=0> N;
int<lower=0> y[N];
}
parameters {
real beta;
real r[N];
real<lower=0> s;
}
real q[N];
for (i in 1:N) {
}
}
model {
y ~ binomial(8, q);
r ~ normal(0, s);
s ~ uniform(0, 1.0E+4);
}
【⼊入⼒力力データ】
データ数
観測データ

parameters {
…
}
Stanコード
data {
int<lower=0> N;
int<lower=0> y[N];
}
parameters {
real beta;
real r[N];
real<lower=0> s;
}
real q[N];
for (i in 1:N) {
}
}
model {
y ~ binomial(8, q);
r ~ normal(0, s);
s ~ uniform(0, 1.0E+4);
}
【推定するパラメータ】
データ数
観測データ
個体ごとのパラメータrはN個

…
}
Stanコード
data {
int<lower=0> N;
int<lower=0> y[N];
}
parameters {
real beta;
real r[N];
real<lower=0> s;
}
real q[N];
for (i in 1:N) {
}
}
model {
y ~ binomial(8, q);
r ~ normal(0, s);
s ~ uniform(0, 1.0E+4);
}
【他のパラメータから
作るパラメータ】
データ数
観測データ
確率率率qは
線形予測⼦子(beta+r[i])で
与えられる

model {
…
}
Stanコード
data {
int<lower=0> N;
int<lower=0> y[N];
}
parameters {
real beta;
real r[N];
real<lower=0> s;
}
real q[N];
for (i in 1:N) {
}
}
model {
y ~ binomial(8, q);
r ~ normal(0, s);
s ~ uniform(0, 1.0E+4);
}
【各パラメータを分布で表現】
データ数
観測データ
確率率率qは
線形予測⼦子(beta+r[i])で
与えられる
normal(平均, 標準偏差);

Title
Name
Date
10.3.2 階層ベイズモデルの事後分布推定と予測
βの事後分布sの事後分布
β, sは全個体共通のパラメータ。

Title
Name
Date
r[i]の事後分布q[i]の分布
r[1], q[1]
r[1]が⼩小さい値をとりやすいと、q[1]の⽣生存確率率率は⼩小さくなる

Title
Name
Date
r[2], q[2]
r[2]が⼤大きい値をとりやすいと、q[2]の⽣生存確率率率は⼤大きくなる

Title
Name
Date
r[3], q[3]
r[3]がゼロ付近だと、q[3]は0.5を中⼼心とした分布となる

Title
Name
Date
yのMCMCサンプル
⿊黒丸：観測データ
⽩白丸：β, sのMCMCサンプルで
予測した各yの平均値
⻘青丸：β, sのMCMCサンプルで
予測した各yの中央値
テキストでは中央値だったけど…
⽣生存数0とかは極端な値をとりやすいので
中央値が⼩小さいものになってしまう…
中央値⽣生存数0のカウントを
ソートしたグラフ

Title
□
まとめ
個体差や場所差などの考慮が必要なGLMMでは、パラメータの最尤推定が難しい
→ MCMCを使ってみよう
事前分布のパラメータに、さらに事前分布が設定されているベイズ統計モデル
→ 階層ベイズモデル

データ解析のための統計モデリング入門10章前半

More Related Content

What's hot

Similar to データ解析のための統計モデリング入門10章前半

データ解析のための統計モデリング入門10章前半