一般化線形混合モデル
GLMM
2018/12/10
東京工業大学 工学院 経営工学系 3年
松井諒生
1
前回
2
今回
3
一般化線形モデル 前提知識
• 大まかな流れ
1.非確率的な変数𝑥𝑖の値が定まる。
2.未知定数αβと𝑥𝑖 によって確率分布関数が定まる。
3.その確率分布に従って観測値𝑦𝑖が得られる。
このサイクルによってデータが1つ得られると仮定して尤もらしいαβ
を推定する。(最尤推定)
定数
パラメータ𝜆𝑖
確率変数𝑦𝑖
確率分布
αβ
非確率変数𝑥𝑖
4
一般化線形混合モデルとは
観測ができていない場所差、個体差などの存在
を考慮した一般化線形モデル。
5
場所差
反復データの収集において、すべて同位置から取れない場合に発
生する差。
例)・同じ馬が走ってもレース場が違うと特徴が変わる
・同じ遺伝子を持つ植物を育てても日なたか日かげかで育ち
方は変わる。
6
個体差
反復データの収集において、すべて同個体から取れない場合に発
生する差。
例)・ある馬一頭のデータのみでは回帰もできない。
・植物を、同じ環境を用意して育てても個体によって育ち方
に差が出る。
7
GLMM 最尤推定
場所差・個体差を表すランダム効果の導入
𝑔(𝜆𝑖) = 𝛼 + 𝛽𝑥𝑖 + 𝑟𝑖
ランダム効果の項=個体差パラメーターはすべての個体で独立
に同じ正規分布に従うと仮定する。(平均0)
∀𝑖 , 𝑟𝑖~𝑁(0, 𝑠2
)
固定効果 ランダム効果ある確率分布のパラ
メータとリンク関数
個体差によって
GLMの予測から多
少はずれてしまう
ことを表す
8
GLMM 最尤推定 𝑟1
𝑟2
𝑟𝑛
従来通り最尤推定すると推
定すべきパラメータが
(観測回数+変数の数+2)個
rの数 βの次元 𝛼, 𝑠2
ここだけを自分
で決定できる
定数
確率変数
パラメータ𝜆𝑖
確率変数𝑦𝑖
正規分布
ある確率分布
ここだけを観測
できる
𝑟𝑖αβ
𝑠2
非確率変数𝑥𝑖
反復
9
GLMM 最尤推定
式に表すと、
𝑔(𝜆𝑖) = 𝛼 + 𝛽𝑥𝑖 + 𝑟𝑖 (𝑟𝑖~𝑁 0, 𝑠2
, 𝑔: リンク関数)
𝐿𝑖(𝑦𝑖) = 𝑓 𝑦𝑖 𝜆𝑖 = 𝑓 𝑦𝑖 𝛼, 𝛽, 𝑟𝑖, 𝑠2
(𝑓: 確率分布関数)
𝐿 =
𝑖
𝐿𝑖 =
𝑖
𝑝 𝑦𝑖 𝛼, 𝛽, 𝑟𝑖, 𝑠2
𝛼, 𝛽, 𝑠2
, 𝑟1, 𝑟2, , , , 𝑟𝑛 に依存する
10
GLMM 最尤推定
𝑟𝑖をそれぞれ一つのパラメータとす
るとパラメーター数が多すぎる。
そこで、𝑟𝑖を確率変数とした確率分
布の期待値をとることで新たに確率
分布を生成できる。
期待値をとると𝑟𝑖は式から消去され
る。
従来通りの推定ができる
定数
パラメータ𝜆𝑖
確率変数𝑦𝑖
確率変数𝑟𝑖によって期待される分布
αβ 𝑠2
非確率変数𝑥𝑖
11
GLMM 最尤推定
つまり、新たな確率分布𝑓′を下のように定義する。
𝑓′
(𝑦𝑖|𝛼, 𝛽, 𝑠2
) =
−∞
∞
𝑓(𝑦𝑖| 𝛼, 𝛽, 𝑟𝑖)𝑝 𝑟𝑖 𝑠2
𝑑𝑟𝑖
12
GLMM 最尤推定
𝑟𝑖
重心
重みづけ関数=𝑟𝑖の頻度
𝑦の頻度
仮に確率分布の変数が𝑟𝑖のみであるとす
ると、𝑝(𝑟𝑖|𝑠2)で重みづけされた確率分
布の重心を求めることに一致する。
数式の意味
13
実際はほかにも変数があるので、それ
ぞれの枠に入っている情報は長さでは
なく関数である。
⇒つまり、確率分布関数の重心を表す
関数を導き出すことに一致する。
GLMM 最尤推定
y
14
GLMM 最尤推定
新たにできた確率分布関数を使うと尤度は以下のように
計算できる。
𝐿𝑖 𝑦𝑖 = 𝑓′
(𝑦𝑖|𝛼, 𝛽, 𝑠2
) =
−∞
∞
𝑓 𝑦𝑖 𝛼, 𝛽, 𝑟𝑖)𝑝 𝑟𝑖 𝑠2
𝑑𝑟𝑖
𝐿 =
𝑖
𝐿𝑖 =
𝑖 −∞
∞
𝑓 𝑦𝑖 𝛼, 𝛽, 𝑟𝑖)𝑝 𝑟𝑖 𝑠2
𝑑𝑟𝑖
15
例題
問) 植物の葉の枚数と種子の生存比率の関係を回帰する。
• 植物の葉を枚数を観測し説明変数xとする。
• 種子をランダムに8つ選び、その生存数を数える。
• データは次ページ
⇒二項分布とできる。(試行数:8)
(一般化線形モデルの資料を参照)
16
データ 散布図
17
一般化線形モデルでの回帰
18
一般化混合線形モデルでの回帰
19
GLM-GLMM比較
20
このように二つの分布を混ぜ合わせるため
一般化混合線形モデルと呼ばれる。
21
参考文献
データ解析のための統計モデリング入門: 一般化線形モデル・階
層ベイズモデル・MCMC
• 著者: 久保拓弥
• 出版社: 岩波書店, シリーズ「確率と情報の科学」
• 編集: 甘利俊一,麻生英樹,伊庭幸人
22

一般化線形モデル