Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データ解析のための勉強会第7章

8,307 views

Published on

データ解析のための勉強会第7章

  1. 1. 第7章 一般化線形混合モデル(GLMM) 「データ解析のための統計モデリング入門」読書会
  2. 2. 所沢義男 • ところさわよしお • twitter:やってません • Facebook:やってません • Yo:DAISUKEI
  3. 3. 今日これだけは覚える •  擬似反復があるならランダム効果を考慮 •  その時、GLMは一般化線形混合モデル (GLMM)になる •  GLMMは計算が面倒
  4. 4. これまでとこれから http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html
  5. 5. 本題へ
  6. 6. 7.1 例題の説明 •  架空植物の各個体から8個の種子をとって くる •  生存種子数は葉数とともにどのように増 大するか •  個体数は100 •  データは本書のサポートサイトから入手 –  以下の条件のもと発生させたデータ(おそらく) •  結実確率→傾き1 切片-4(+ランダム効果)のロジ スティックモデル •  ランダム効果→平均0標準偏差3の正規分布
  7. 7. 図にするとこうなる 死 死 架空植物 ×100 関係が 気になる 葉の数 生存種子数
  8. 8. 元のデータ及び真の曲線 葉の数 生 存 種 子 数
  9. 9. GLMでモデリングしてみる 種子の生存確率 葉の数
  10. 10. GLMでモデリングしてみる > d <- read.csv("http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/ fig/glmm/data.csv", as.is=TRUE) > glm(data=d, cbind(y,N-y)~x, family="binomial") Call: glm(formula = cbind(y, N - y) ~ x, family = "binomial", data = d) Coefficients: (Intercept) x -2.1487 0.5104 Degrees of Freedom: 99 Total (i.e. Null); 98 Residual Null Deviance: 607.4 Residual Deviance: 513.8 AIC: 649.6 切片:-2.1487 傾き:0.5104 ここで 真の切片:-4 真の傾き:1
  11. 11. GLMうまくいかず 欲しかったもの 現実 葉の数 生 存 種 子 数
  12. 12. 全然二項分布じゃない 葉の数4枚の場合の生存種子数と個体数の関係 生存種子数 個 体 数 GLMの 結果から 求めた 二項分布
  13. 13. どうしてこうなった
  14. 14. 7.2 過分散と個体差 •  過分散 –  データから得られる分散が平均から推定される分散に比べて大き すぎる •  過分散とは統計モデリングしている人間の錯誤 –  観測されていない諸要因を無視するなど過度に単純化した仮定 •  観測されていない諸要因とは –  生物的な要因(遺伝子、年齢や履歴)→個体差 –  非生物的な局所環境(局所的な栄養塩類量等)→場所差 –  原因不明のまま影響をうまくとりこむ必要がある
  15. 15. 図にするとこうなる 自然 個体差を 無視 錯誤 無知 傲�慢 過分散 罠
  16. 16. じゃあどうする
  17. 17. 7.3 一般化線形混合モデル 個体差として追加 個体間で独立した正規分布 平均は0 標準偏差はsとして任意に設定 切片にランダム効果を追加→ランダム切片モデル 傾きに追加すれば→ランダム傾きモデル
  18. 18. 個体差で生存確率は変わる 生 存 確 率 葉の数 個体差がプラスの時 個体差がマイナスの時
  19. 19. 線形予測子の構成要素 固定効果 ランダム効果 なにを固定効果として なにをランダム効果と するか?
  20. 20. ちなみにGLMMの色々な呼び名 •  分野によって呼び名が異なる – 階層線形モデル(HLM) – マルチレベルモデル – ランダム効果モデル – 成長曲線モデル •  類書や資料を探すときはGLMM以外にも上 記の名前で検索するとよい
  21. 21. ランダム効果を入れるのは わかったが どうやって計算する
  22. 22. 7.4 一般化線形混合モデルの最尤推定 •  個体差のパラメータを推定するのはナンセンス –  100個体あれば個体差を100個推定することになる •  個体差を積分して各個体の尤度を算出 •  各個体の尤度を個体数分掛け合わせて最尤推定する •  以上の手順は今回のようなシンプルなモデルが限界 –  多くの積分を含む計算は実に面倒 –  本書ではその処方箋としてベイズを用意
  23. 23. 図にするとこうなる 二項分布 正規分布 積分して 1個体分の 尤度 100個体分 掛け合わせて 対数化して 最大にする パラメータを求める 怠惰 諦念 計算負荷高い 二項分布 正規分布 積分して 1個体分の 尤度 二項分布 正規分布 積分して 1個体分の 尤度
  24. 24. GLMMのパラメータを推定 > library(glmmML) > glmmML(data=d, cbind(y, N-y)~x, family = binomial, cluster = id, method="ghq") Call: glmmML(formula = cbind(y, N - y) ~ x, family = binomial, data = d, cluster = id, method = "ghq") coef se(coef) z Pr(>|z|) (Intercept) -4.1296 0.9055 -4.561 5.10e-06 x 0.9903 0.2141 4.625 3.75e-06 Scale parameter in mixing distribution: 2.494 gaussian Std. Error: 0.3093 LR p-value for H_0: sigma = 0: 1.792e-56 Residual deviance: 264.5 on 97 degrees of freedom AIC: 270.5
  25. 25. うまくいっている 真のモデル GLM(青) 葉の数 生 存 種 子 数 GLMM(赤)
  26. 26. GLMMはどんなときに 必要なのか
  27. 27. 7.5 現実のデータ解析にはGLMMが必要 •  今回は過分散でチェックした •  現実には厳密な実験計画を実施した場合 を除いて、擬似反復という状況になり GLMMが必要になることが多い
  28. 28. 反復と擬似反復 •  個体差等が見えてしまうかどうか – みえない:反復 – みえる:擬似反復 •  言い換えればそのデータはネストされてい る(入れ子)か – ネストあり:擬似反復 •  実験計画とは反復にして個体差、場所差を 考えないで良いようにすること – 実験計画法の三原則(局所管理化・反復・無作為化)
  29. 29. 図にするとこうなる 個体に種子がネスト→個体差がみえる 壱 弐
  30. 30. じゃあこの場合は 学校に個人がネスト ↓ 学校差がみえるが固定効果でも良いのでは? モテ モテ モテ 非モテ 非モテ 非モテ K大学 D大学
  31. 31. 固定効果とランダム効果をどう区別するか •  効果の大きさに興味あるんだろうか? →Yes なら固定効果 •  その要因の水準ってのが「効果のばらつきの確率分布」 に由来するものだと考えるのは妥当だろうか? →Yes ならランダム効果 •  要因の水準数が十分多くて分散を推定したいのか? →No ならその要因は固定効果 •  下記URLに他にも区別する目安が9つ紹介されている •  http://hosho.ees.hokudai.ac.jp/~kubo/ce/ RandomEffectsCrawley.html
  32. 32. 7.6 いろいろな分布のGLMM •  過分散で個体差をチェックしたが過分散 が定義できない分布の場合はどうするか – 正規分布やガンマ分布 – 平均と分散が別個に定義される •  過分散はあくまで一例としてとりあげたの みであり、擬似反復が本質的に重要
  33. 33. 図にするとこうなる GGLLMMMM GGLLMM 擬似反復の データ YYeess NNoo
  34. 34. まとめ •  擬似反復があるなら個体差を考慮 •  個体差を考慮した場合、GLMは一般化線形 混合モデル(GLMM)になる •  GLMMは計算が面倒
  35. 35. 最後に
  36. 36. 参考にした情報(書籍) •  医学統計のための線型混合モデル G.Verbeke –  事例が多く解説も丁寧だがSAS –  絶版 •  一般化線形モデル 粕谷英一 –  第6章に一般化線形混合モデルの解説あり。Rの関連 パッケージの詳しい説明があるので手を動かす時に 一読をおすすめする。 •  一般化線形モデル入門 Annette J.Dobson –  第11章にクラスターデータおよび経時データへの対 応としてGLMMが紹介されている。数式で簡潔に表現 されておりわかりやすい。
  37. 37. 参考にした情報(WEB) •  Wolfeyes Bioinformatics –  秀逸な混合分布のアニメーション –  http://yagays.github.io/blog/2012/11/09/glm-mcmc-chp7-2/ –  GLMMとGLMの比較をシミュレーションで –  http://yagays.github.io/blog/2012/11/02/glm-mcmc-chp7/ •  MIZUMOTO LABLOG –  GLMM(ここでは階層線型モデル)についてのわかりやすい資料 あり。また、関連資料がまとまっていてリンク集としても非常 に有用 –  http://mizumot.com/lablog/archives/179

×