いいからベイズ推定してみる

いいからベイズ推定してみる
広島大学大学院教育学研究科
平川真
第3回Hijiyama.R (2015.11.28)

おしながき
 ベイズ推定について
 ベイズ推定のやりかた
 glmmstan()で遊んでみた

推定法としてのベイズ
 従来の推定法（最尤法、最小二乗法）
> パラメタが定数、データが確率変数と考える
 ベイズ推定
> パラメタが確率変数、データが定数と考える
> 手元のデータからパラメタを推測 (＝不確実性が伴う) する、
という自然な発想

http://norimune.net/708

𝑓(𝜃|𝐷) =
𝑓 𝐷 𝜃 ∗ 𝑓(𝜃)
𝑓(𝐷)
事後分布
尤度事前分布
周辺尤度
あるデータのときの
θの分布
データを得る前の
θの分布

尤度ってなんだ
 あるデータを得たときに、分布のパラメタが特定の値である
ことがどれほど尤もらしいか
> 最尤法: 尤度が最も高い値をパラメタの推定値とする
http://norimune.net/2510

ベイズ推定のいいところ
 事前分布を設定できる
 データが少なくても推定できる
 解析的に解けない複雑なモデルでもいける
 パラメタを確率変数として考える

事前分布を設定できる
 いろんな立場がある
> 豊田（2015）の立場
“公的分析では無情報事前分布を使用し、
尤度への影響を最小限にすべきである (p. 69)”
 おそらく研究実践では無情報事前分布を使うことになる
⇒ 最尤法と変わらないではないか
最尤推定量 = 尤度 * 一様分布

データが少なくても推定できる
とはいえ、
データはあった方が良い

パラメタを確率変数と考える
 頻度主義の区間推定
> 標準誤差: 標本統計量 (≠パラメタ) のちらばり
> 95%信頼区間:「95%の95%CIが真値を含む」という意味
 ベイズ主義の区間推定
> 事後標準偏差: パラメタのちらばり
> 95％信用区間:「真値が含まれる確率が95%」という意味

rstanでt検定的な
サンプリングしたパラメタを利用
して生成量を定義
μ2-μ1>0である確率を求められる

rstanで回帰分析
2番目に簡単なrstanコード
http://qiita.com/hoxo_m/items/ad4ffb091aec535f3125

GLMM
 一般化線形混合モデル
> Generalized Linear Mixed Modeling
> G: 正規分布以外の確率分布を扱える
> M: 固定効果だけでなく変量効果を組み込める
> 線形モデル(LM)を含んでいる
⇒ ベイズ推定でGLMMできたらなぁ（お手軽に）

SappoRo.R #5 (2015.11.14)
 開発者による説明
> http://www.slideshare.net/simizu706/glmmstan-55104119
 youtubeでもみれる
> https://www.youtube.com/watch?v=Kd0pxFq9F6c
> 30分でスライド70枚越を疾走する動画

glmmstanパッケージ
 インストール方法

glmmstanの特徴
 stanコードを生成し、実行してくれる
> stanコードを自力で書かなくても分析できる
> stanコードをみることができるので、コードの書き方の勉
強もできる
 モデル式はglmer()と同じ文法
> glmmstan(y ~ x1+x2+(1|id), data=dat)

glmmstanの遊び方（開発者推奨）
 いろんなモデルをベイズ推定してみる
 慣れたらstanコードを修正してみる
 ハマってきたらstanコードを自分で書いてみる
 興奮してきたら新しい統計モデルを作ってみる

データの説明
 間接的発話の理解傾向を測定する尺度（18項目）
> 状況についての簡単な説明文＋発話
> 発話の字義的意味と間接的意味を呈示し、妥当だと思う解
釈を選択させる（2値）

分析したいこと
 間接的意味を妥当だと思う程度を検討したい
> 妥当だと思う・思わないの2値変数
> 上限がある (n=18) ので二項分布を使ったモデリング
 個人は確率θで間接的意味を妥当だと思う
> 反応数 ~ binomial(θ, n)

反応確率の推定
 結果
間接的意味を妥当
だと判断した数
字義的意味を妥当
だと判断した数
データはこんな感じ→
←確率になおす

個人差を考えたい
 確率θは個人によって異なるだろう（むしろそこが知りたい
> 反応数 ~ binomial (θi, n)
> θiも何らかの確率分布から発生する
⇒ 階層ベイズ！
個人を変量効果として
モデルにいれる

 stanコードをみてみる

 モデルブロックを拡大
変量効果が
ないモデル→
分布をまぜまぜ

 結果
beta →
tau_sd1 →
けっこう大きい

ベータ二項分布
 二項分布のθがベータ分布に従う分布
⇒ 階層モデルと何が違う？

やってみる
うまくいってない。。

項目の違いを考えても構わんのだろう？
 確率θは項目によっても異なるだろう
> 間接的意味がわかりやすい項目
> わかりにくい項目

 データを縦長の型にする
 項目の変量効果もモデルにいれる
分布をまぜまぜ

 結果
95%CIが広くなった

 結果

ASD尺度との関連
 間接的発話の理解における個人差
> 自閉スペクトラム症 (ASD: autism spectrum disorder)
> 定型発達者の中でも、理解が困難な人も
> 過剰に間接的な意味を読み取る人も
⇒ ASD傾向が高い人は字義的解釈を妥当だと判断するだろう

さわりだけ
 rstanarmのインストール
 glmer()の文法
> glmmstan()とかわらない

使える分布
 stan_glmer()
 glmmstan()
擬似○○
過分散が生じたとき

こんな感じ
ちょっと結果がみにくい、かなぁ

いいからベイズ推定してみる

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

いいからベイズ推定してみる