ゼロ切断・過剰モデル
1
2
一般化線形モデルをマスターしよう
予測と確率分布
尤度と最尤法
一般化線形モデル基礎
Devianceと尤度比検定
一般化線形モデル色々
ここまで来た!!
ゼロ切断・過剰モデル、 一般化線形混合モデル
3
こんなデータ扱っていませんか?
病院に来た患者数データ
うちあがったクジラの個体数データ
共通項:ゼロがない
4
こんなデータ扱っていませんか?
病院に来た患者数データ
うちあがったクジラの個体数データ
病院に来なかった人のデータがない
うちあがらなかったクジラのデータがない
普通のポアソン回帰でよいのか?
5
こんなデータ扱っていませんか?
ある会社で1億円以上の取引を行った回数
幻の魚を釣り上げた時の釣獲尾数
共通項:ゼロだらけ
でも、多い時はすごく多い
クジラの目視調査における発見個体数データ
6
今回やること
1.ゼロ切断モデル
2.ゼロ過剰モデル
7
ゼロ切断モデル
ゼロ切断モデル
その前に、確率の復習
{1, 2, 3, 4, 5, 6}
8
条件付き確率
6の倍数になる確率 : 1/6
2の倍数になる確率 : 1/2
2の倍数であるという条件で、
6の倍数になる確率
6の倍数になる確率
2の倍数になる確率
=
1
3
9
ゼロ切断モデル
0にならないという条件付きのポアソン分布
普通のポアソン分布
ポアソン分布において0にならない確率
この確率分布を使用してGLMする
=ゼロ切断モデル
質問どうぞ!
10
実演
11
こんなデータ扱っていませんか?
クジラの目視調査における発見個体数データ
ある会社で1億円以上の取引を繰り返した回数
幻の魚を釣り上げた時の釣獲尾数
なぜこれらはゼロデータが多いのだろう
12
仮説1
クジラの目視調査における発見個体数データ
本当はそこにクジラがいるのに、
うっかり見過ごしちゃった
正しい0 → ほんとにクジラがいない海
偽物の0 → うっかり発見できなかった
13
仮説2
ある会社で1億円以上の取引を繰り返した回数
1億以上の取引ができるまで、
ハードルがある
ハードルを越えた → あとは取引頻度の問題
ハードルを越えられない → ずっと0のまま
14
二つの仮説、二つのモデル
うっかり見過ごしちゃったから0が多い
ハードルを越えなきゃずっと0のまま
偽物の0を判別するモデル
+個体数の多少のモデリング
Zero Inflated Model
0になるか1以上になるかの判別モデル
+個体数の多少のモデリング
Hurdle Model
15
Zero Inflated Model
偽物の0を判別する
0
少しの正の整数
3, 5, 13 ……
たくさんの
偽物の0
本物の0
ポアソン回帰
二項分布のGLM
で判別
16
Hurdle Model
0か1以上かであらかじめ分ける
0
少しの正の整数
3, 5, 13 ……
たくさんの
ゼロ切断モデル
二項分布のGLM
で判別
17
二つの仮説、二つのモデル
Zero Inflated Model
Hurdle Model
偽物の0を判別するモデル
→二項分布とポアソン分布の混合分布
0になるか1以上になるかの判別モデル
→二項分布のGLMとゼロ切断モデルを
別々に分けて使用
質問どうぞ!
18
二項分布のGLMに関する解釈の方法
Zero Inflated Model
Hurdle Model
係数が正ならば、偽物の0になりやすい
→係数が正ならば、0が増える
係数が正ならば、1以上の値になりやすい
→係数が正ならば0が減る
19
おまけ!
負の二項分布
群れてても全然OKなポアソン分布
期待値と分散を別々に計算
→過分散も問題無しのすごい分布
ただし、ポアソンよりも
推定すべきパラメタが一つ増える
20
実演

2 6.ゼロ切断・過剰モデル