1 6.変数選択とAIC

11,206 views

Published on

2013年8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。

1-6.変数選択とAIC
検定とAICを用いて変数選択する方法について説明します。

Published in: Technology

1 6.変数選択とAIC

  1. 1. 変数選択とAIC 1 1日目-第6講 名前:馬場真哉 所属:北大水産 修士課程2年 Webサイト: logics of blue で検索
  2. 2. 2 正規線形モデルの理解のために 統計の基本とt検定 分散分析(ANOVA) 回帰分析と分散分析 PB検定と確率分布 変数選択とAIC 是非 Type II ANOVA、交互作用
  3. 3. 3 変数選択って? 変数選択とは、モデルに入る変数を選ぶ作業です
  4. 4. 4 変数選択 漁獲量 天気 漁獲量 天気
  5. 5. 5 ネコ 漁獲量 天気 ネコのデータはいらない
  6. 6. 6 ネコのデータの是非 ネコ 漁獲量 天気 変数を増やすと、決定係数は増える →モデルの当てはまりは(微量ながら)よくなる
  7. 7. 7 変数選択のご利益 1.実世界に対する理解が深まる 現象の見える化 →漁獲量に効く要因は何? →売り上げに効く要因は何? 2.実世界の模倣ができる 予測ができる
  8. 8. 8 今回の内容 1.変数選択の方法論(検定&AIC)の理解 2.Rを使って変数選択する
  9. 9. 9 検定を使って変数選択 = ナイーブ予測の予測残差 ー 予測値変化モデルの残差 予測値変化モデルの予測残差の大きさ F比 普通の分散分析(回帰分析) 検定とは「予測誤差の比較」である =ナイーブ予測と比べてどれだけ予測残差が減ったか
  10. 10. 10 = モデル①の予測残差 ー モデル②の予測残差 モデル②の予測残差の大きさ F比 検定を使って変数選択 モデル① 変数が少ないモデル モデル② 変数が多いモデル 変数を増やすと残差は“有意に”減った?
  11. 11. 11 ネコのデータの是非 ネコ 漁獲量 天気 変数を増やすと、決定係数は増える →モデルの当てはまりは(微量ながら)よくなる この当てはまりの向上は 誤差の範囲内だと示す
  12. 12. 12 = モデル①の予測残差 ー モデル②の予測残差 モデル②の予測残差の大きさ F比 検定まとめ モデル① 変数が少ないモデル モデル② 変数が多いモデル 変数を入れても残差が“有意” に減らないなら その変数はいらない 変数を増やすと残差は“有意に”減った? 質問どうぞ!
  13. 13. 13 検定結果の解釈 モデル|Y ~ X1 + X2 + Option1 + Option2 モデル|Y ~ X1 ナイーブ予測 モデル|Y ~ X1 + X2 モデル|Y ~ X1 + X2 + Option1 モデル|Y ~ X1 + X2 + Option1 + Option2 予測残差は“有意に”減ったか? 検定 比較・検定 比較・検定
  14. 14. 14 検定結果の解釈 この2種類の検定は意味が違う モデル|Y ~ X1 + X2 + Option1 モデル|Y ~ X1 + X2 + Option1 + Option2 モデル|Y ~ X1 + X2 モデル|Y ~ X1 + X2 + Option2 検定タイプA 検定タイプB
  15. 15. 15 情報量規準の世界 モデルに「良さの指標」があればいい 「良さの指標」がBestなモデルを選べば楽ちん AIC [Akaike’s Information Criterion]
  16. 16. 16 AICとは 未知のデータへの予測誤差が 小さくなるモデルが良いモデル AIC 細かい理屈は明日説明します!! 今日は使い方だけ!!
  17. 17. 17 ネコ 漁獲量 天気 2000年問題 西暦2000年我が家の猫がダイエットしたら サンマの漁獲量が減ってしまった!
  18. 18. 18 ネコ 2000年問題 西暦2000年我が家の猫がダイエットしたら サンマの漁獲量が減ってしまった! でも、ほかの年ではこの関係は続かないだろう
  19. 19. 19 ネコのデータの是非 ネコ 漁獲量 天気 変数を増やすと、決定係数は増える →モデルの当てはまりは(微量ながら)よくなる しかし、 未知データへの当てはまりは 良くならないはず
  20. 20. 20 検定とAIC 検定(当てはまりの向上の有意性の検定) 要因の見える化ができる →必要な要因を用いて将来予測ができる AIC(未知データへの当てはまりの最適化) (未知の)将来予測ができる →予測に必要な変数の見える化ができる 質問どうぞ!
  21. 21. 21 実演
  22. 22. 22 検定とAIC 検定 色々な手法があります →分散分析、t検定、Wald検定、スコア検定 情報量規準 いろいろあります →AIC, AICc, BIC, TIC
  23. 23. ある研究者の日常 この魚の成長には水温が効いているに違いない! AICを使ったらモデルに水温が入ってこなかった 分散分析でもダメだった t検定したが、惜しくもダメ BICを使ったらうまくいった。やったね!!!
  24. 24. ある研究者の日常 この魚の成長には水温が効いているに違いない! AICを使ったらモデルに水温が入ってこなかった 分散分析でもダメだった t検定したが、惜しくもダメ BICを使ったらうまくいった。やったね!!!
  25. 25. 25 さいごに マナーを守って 楽しく明るく統計モデリング 質問どうぞ!

×