2 6.ゼロ切断・過剰モデル

25,011 views

Published on

2013年8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。

2日目
2-6.ゼロ切断・過剰モデル
ゼロがないデータや、0が多すぎるデータを分析する方法を解説します。

サイト作ってます
http://logics-of-blue.com/

Published in: Technology
0 Comments
13 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
25,011
On SlideShare
0
From Embeds
0
Number of Embeds
17,704
Actions
Shares
0
Downloads
0
Comments
0
Likes
13
Embeds 0
No embeds

No notes for slide

2 6.ゼロ切断・過剰モデル

  1. 1. ゼロ切断・過剰モデル 1
  2. 2. 2 一般化線形モデルをマスターしよう 予測と確率分布 尤度と最尤法 一般化線形モデル基礎 Devianceと尤度比検定 一般化線形モデル色々 ここまで来た!! ゼロ切断・過剰モデル、 一般化線形混合モデル
  3. 3. 3 こんなデータ扱っていませんか? 病院に来た患者数データ うちあがったクジラの個体数データ 共通項:ゼロがない
  4. 4. 4 こんなデータ扱っていませんか? 病院に来た患者数データ うちあがったクジラの個体数データ 病院に来なかった人のデータがない うちあがらなかったクジラのデータがない 普通のポアソン回帰でよいのか?
  5. 5. 5 こんなデータ扱っていませんか? ある会社で1億円以上の取引を行った回数 幻の魚を釣り上げた時の釣獲尾数 共通項:ゼロだらけ でも、多い時はすごく多い クジラの目視調査における発見個体数データ
  6. 6. 6 今回やること 1.ゼロ切断モデル 2.ゼロ過剰モデル
  7. 7. 7 ゼロ切断モデル ゼロ切断モデル その前に、確率の復習
  8. 8. {1, 2, 3, 4, 5, 6} 8 条件付き確率 6の倍数になる確率 : 1/6 2の倍数になる確率 : 1/2 2の倍数であるという条件で、 6の倍数になる確率 6の倍数になる確率 2の倍数になる確率 = 1 3
  9. 9. 9 ゼロ切断モデル 0にならないという条件付きのポアソン分布 普通のポアソン分布 ポアソン分布において0にならない確率 この確率分布を使用してGLMする =ゼロ切断モデル 質問どうぞ!
  10. 10. 10 実演
  11. 11. 11 こんなデータ扱っていませんか? クジラの目視調査における発見個体数データ ある会社で1億円以上の取引を繰り返した回数 幻の魚を釣り上げた時の釣獲尾数 なぜこれらはゼロデータが多いのだろう
  12. 12. 12 仮説1 クジラの目視調査における発見個体数データ 本当はそこにクジラがいるのに、 うっかり見過ごしちゃった 正しい0 → ほんとにクジラがいない海 偽物の0 → うっかり発見できなかった
  13. 13. 13 仮説2 ある会社で1億円以上の取引を繰り返した回数 1億以上の取引ができるまで、 ハードルがある ハードルを越えた → あとは取引頻度の問題 ハードルを越えられない → ずっと0のまま
  14. 14. 14 二つの仮説、二つのモデル うっかり見過ごしちゃったから0が多い ハードルを越えなきゃずっと0のまま 偽物の0を判別するモデル +個体数の多少のモデリング Zero Inflated Model 0になるか1以上になるかの判別モデル +個体数の多少のモデリング Hurdle Model
  15. 15. 15 Zero Inflated Model 偽物の0を判別する 0 少しの正の整数 3, 5, 13 …… たくさんの 偽物の0 本物の0 ポアソン回帰 二項分布のGLM で判別
  16. 16. 16 Hurdle Model 0か1以上かであらかじめ分ける 0 少しの正の整数 3, 5, 13 …… たくさんの ゼロ切断モデル 二項分布のGLM で判別
  17. 17. 17 二つの仮説、二つのモデル Zero Inflated Model Hurdle Model 偽物の0を判別するモデル →二項分布とポアソン分布の混合分布 0になるか1以上になるかの判別モデル →二項分布のGLMとゼロ切断モデルを 別々に分けて使用 質問どうぞ!
  18. 18. 18 二項分布のGLMに関する解釈の方法 Zero Inflated Model Hurdle Model 係数が正ならば、偽物の0になりやすい →係数が正ならば、0が増える 係数が正ならば、1以上の値になりやすい →係数が正ならば0が減る
  19. 19. 19 おまけ! 負の二項分布 群れてても全然OKなポアソン分布 期待値と分散を別々に計算 →過分散も問題無しのすごい分布 ただし、ポアソンよりも 推定すべきパラメタが一つ増える
  20. 20. 20 実演

×