データ解析のための勉強会第7章

第7章
一般化線形混合モデル（GLMM）
「データ解析のための統計モデリング入門」読書会

所沢義男
• ところさわよしお
• twitter：やってません
• Facebook：やってません
• Yo：DAISUKEI

今日これだけは覚える
•  擬似反復があるならランダム効果を考慮
•  その時、GLMは一般化線形混合モデル
（GLMM）になる
•  GLMMは計算が面倒

これまでとこれから
http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html

7.1 例題の説明
•  架空植物の各個体から8個の種子をとって
くる
•  生存種子数は葉数とともにどのように増
大するか
•  個体数は１００
•  データは本書のサポートサイトから入手
–  以下の条件のもと発生させたデータ（おそらく）
•  結実確率→傾き1 切片-4（+ランダム効果）のロジ
スティックモデル
•  ランダム効果→平均0標準偏差3の正規分布

図にするとこうなる
死
死
架空植物
×１００
関係が
気になる
葉の数生存種子数

元のデータ及び真の曲線
葉の数
生
存
種
子
数

GLMでモデリングしてみる
種子の生存確率
葉の数

GLMでモデリングしてみる
> d <- read.csv("http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/
ﬁg/glmm/data.csv", as.is=TRUE)
> glm(data=d, cbind(y,N-y)~x, family="binomial")
Call: glm(formula = cbind(y, N - y) ~ x, family = "binomial", data = d)
Coefﬁcients:
(Intercept) x
-2.1487 0.5104
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 607.4
Residual Deviance: 513.8 AIC: 649.6
切片：-2.1487
傾き：0.5104
ここで
真の切片：-4
真の傾き：1

GLMうまくいかず
欲しかったもの
現実
葉の数
生
存
種
子
数

全然二項分布じゃない
葉の数4枚の場合の生存種子数と個体数の関係
生存種子数
個
体
数
GLMの
結果から
求めた
二項分布

7.2 過分散と個体差
•  過分散
–  データから得られる分散が平均から推定される分散に比べて大き
すぎる
•  過分散とは統計モデリングしている人間の錯誤
–  観測されていない諸要因を無視するなど過度に単純化した仮定
•  観測されていない諸要因とは
–  生物的な要因（遺伝子、年齢や履歴）→個体差
–  非生物的な局所環境（局所的な栄養塩類量等）→場所差
–  原因不明のまま影響をうまくとりこむ必要がある

自然
個体差を
無視
錯誤
無知
傲�慢過分散
罠

7.3 一般化線形混合モデル
個体差として追加
個体間で独立した正規分布
平均は０
標準偏差はsとして任意に設定
切片にランダム効果を追加→ランダム切片モデル
傾きに追加すれば→ランダム傾きモデル

個体差で生存確率は変わる
生
存
確
率
葉の数
個体差がプラスの時
個体差がマイナスの時

線形予測子の構成要素
固定効果ランダム効果
なにを固定効果として
なにをランダム効果と
するか？

ちなみにGLMMの色々な呼び名
•  分野によって呼び名が異なる
– 階層線形モデル（HLM）
– マルチレベルモデル
– ランダム効果モデル
– 成長曲線モデル
•  類書や資料を探すときはGLMM以外にも上
記の名前で検索するとよい

ランダム効果を入れるのは
わかったが
どうやって計算する

7.4 一般化線形混合モデルの最尤推定
•  個体差のパラメータを推定するのはナンセンス
–  100個体あれば個体差を100個推定することになる
•  個体差を積分して各個体の尤度を算出
•  各個体の尤度を個体数分掛け合わせて最尤推定する
•  以上の手順は今回のようなシンプルなモデルが限界
–  多くの積分を含む計算は実に面倒
–  本書ではその処方箋としてベイズを用意

二項分布正規分布
積分して
1個体分の
尤度
100個体分
掛け合わせて
対数化して
最大にする
パラメータを求める
怠惰
諦念
計算負荷高い
積分して
1個体分の
尤度
積分して
1個体分の
尤度

GLMMのパラメータを推定
> library(glmmML)
> glmmML(data=d, cbind(y, N-y)~x, family = binomial, cluster = id,
method="ghq")
Call: glmmML(formula = cbind(y, N - y) ~ x, family = binomial, data = d,
cluster = id, method = "ghq")
coef se(coef) z Pr(>|z|)
(Intercept) -4.1296 0.9055 -4.561 5.10e-06
x 0.9903 0.2141 4.625 3.75e-06
Scale parameter in mixing distribution: 2.494 gaussian
Std. Error: 0.3093
LR p-value for H_0: sigma = 0: 1.792e-56
Residual deviance: 264.5 on 97 degrees of freedom AIC: 270.5

うまくいっている
真のモデル
GLM（青）
葉の数
生
存
種
子
数
GLMM（赤）

GLMMはどんなときに
必要なのか

7.5 現実のデータ解析にはGLMMが必要
•  今回は過分散でチェックした
•  現実には厳密な実験計画を実施した場合
を除いて、擬似反復という状況になり
GLMMが必要になることが多い

反復と擬似反復
•  個体差等が見えてしまうかどうか
– みえない：反復
– みえる：擬似反復
•  言い換えればそのデータはネストされてい
る（入れ子）か
– ネストあり：擬似反復
•  実験計画とは反復にして個体差、場所差を
考えないで良いようにすること
– 実験計画法の三原則（局所管理化・反復・無作為化）

個体に種子がネスト→個体差がみえる
壱弐

じゃあこの場合は
学校に個人がネスト
↓
学校差がみえるが固定効果でも良いのでは？
モテ
モテ
モテ
非モテ
非モテ
非モテ
K大学 D大学

固定効果とランダム効果をどう区別するか
•  効果の大きさに興味あるんだろうか?
→Yes なら固定効果
•  その要因の水準ってのが「効果のばらつきの確率分布」
に由来するものだと考えるのは妥当だろうか?
→Yes ならランダム効果
•  要因の水準数が十分多くて分散を推定したいのか?
→No ならその要因は固定効果
•  下記URLに他にも区別する目安が９つ紹介されている
•  http://hosho.ees.hokudai.ac.jp/~kubo/ce/
RandomEffectsCrawley.html

7.6 いろいろな分布のGLMM
•  過分散で個体差をチェックしたが過分散
が定義できない分布の場合はどうするか
– 正規分布やガンマ分布
– 平均と分散が別個に定義される
•  過分散はあくまで一例としてとりあげたの
みであり、擬似反復が本質的に重要

GGLLMMMM
GGLLMM
擬似反復の
データ
YYeess NNoo

まとめ
•  擬似反復があるなら個体差を考慮
•  個体差を考慮した場合、GLMは一般化線形
混合モデル（GLMM）になる
•  GLMMは計算が面倒

参考にした情報（書籍）
•  医学統計のための線型混合モデル G.Verbeke
–  事例が多く解説も丁寧だがSAS
–  絶版
•  一般化線形モデル粕谷英一
–  第6章に一般化線形混合モデルの解説あり。Rの関連
パッケージの詳しい説明があるので手を動かす時に
一読をおすすめする。
•  一般化線形モデル入門 Annette J.Dobson
–  第11章にクラスターデータおよび経時データへの対
応としてGLMMが紹介されている。数式で簡潔に表現
されておりわかりやすい。

参考にした情報（WEB）
•  Wolfeyes Bioinformatics
–  秀逸な混合分布のアニメーション
–  http://yagays.github.io/blog/2012/11/09/glm-mcmc-chp7-2/
–  GLMMとGLMの比較をシミュレーションで
–  http://yagays.github.io/blog/2012/11/02/glm-mcmc-chp7/
•  MIZUMOTO LABLOG
–  GLMM（ここでは階層線型モデル）についてのわかりやすい資料
あり。また、関連資料がまとまっていてリンク集としても非常
に有用
–  http://mizumot.com/lablog/archives/179

データ解析のための勉強会第7章

データ解析のための勉強会第7章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from TokorosawaYoshio

More from TokorosawaYoshio (10)

データ解析のための勉強会第7章