変数選択とAIC
1
1日目-第6講
名前:馬場真哉
所属:北大水産 修士課程2年
Webサイト: logics of blue で検索
2
正規線形モデルの理解のために
統計の基本とt検定
分散分析(ANOVA)
回帰分析と分散分析
PB検定と確率分布
変数選択とAIC
是非
Type II ANOVA、交互作用
3
変数選択って?
変数選択とは、モデルに入る変数を選ぶ作業です
4
変数選択
漁獲量 天気
漁獲量 天気
5
ネコ
漁獲量 天気
ネコのデータはいらない
6
ネコのデータの是非
ネコ
漁獲量 天気
変数を増やすと、決定係数は増える
→モデルの当てはまりは(微量ながら)よくなる
7
変数選択のご利益
1.実世界に対する理解が深まる
現象の見える化
→漁獲量に効く要因は何?
→売り上げに効く要因は何?
2.実世界の模倣ができる
予測ができる
8
今回の内容
1.変数選択の方法論(検定&AIC)の理解
2.Rを使って変数選択する
9
検定を使って変数選択
=
ナイーブ予測の予測残差 ー 予測値変化モデルの残差
予測値変化モデルの予測残差の大きさ
F比
普通の分散分析(回帰分析)
検定とは「予測誤差の比較」である
=ナイーブ予測と比べてどれだけ予測残差が減ったか
10
=
モデル①の予測残差 ー モデル②の予測残差
モデル②の予測残差の大きさ
F比
検定を使って変数選択
モデル① 変数が少ないモデル
モデル② 変数が多いモデル
変数を増やすと残差は“有意に”減った?
11
ネコのデータの是非
ネコ
漁獲量 天気
変数を増やすと、決定係数は増える
→モデルの当てはまりは(微量ながら)よくなる
この当てはまりの向上は
誤差の範囲内だと示す
12
=
モデル①の予測残差 ー モデル②の予測残差
モデル②の予測残差の大きさ
F比
検定まとめ
モデル① 変数が少ないモデル
モデル② 変数が多いモデル
変数を入れても残差が“有意” に減らないなら
その変数はいらない
変数を増やすと残差は“有意に”減った?
質問どうぞ!
13
検定結果の解釈
モデル|Y ~ X1 + X2 + Option1 + Option2
モデル|Y ~ X1
ナイーブ予測
モデル|Y ~ X1 + X2
モデル|Y ~ X1 + X2 + Option1
モデル|Y ~ X1 + X2 + Option1 + Option2
予測残差は“有意に”減ったか? 検定
比較・検定
比較・検定
14
検定結果の解釈
この2種類の検定は意味が違う
モデル|Y ~ X1 + X2 + Option1
モデル|Y ~ X1 + X2 + Option1 + Option2
モデル|Y ~ X1 + X2
モデル|Y ~ X1 + X2 + Option2
検定タイプA
検定タイプB
15
情報量規準の世界
モデルに「良さの指標」があればいい
「良さの指標」がBestなモデルを選べば楽ちん
AIC
[Akaike’s Information Criterion]
16
AICとは
未知のデータへの予測誤差が
小さくなるモデルが良いモデル
AIC
細かい理屈は明日説明します!!
今日は使い方だけ!!
17
ネコ
漁獲量 天気
2000年問題
西暦2000年我が家の猫がダイエットしたら
サンマの漁獲量が減ってしまった!
18
ネコ
2000年問題
西暦2000年我が家の猫がダイエットしたら
サンマの漁獲量が減ってしまった!
でも、ほかの年ではこの関係は続かないだろう
19
ネコのデータの是非
ネコ
漁獲量 天気
変数を増やすと、決定係数は増える
→モデルの当てはまりは(微量ながら)よくなる
しかし、
未知データへの当てはまりは
良くならないはず
20
検定とAIC
検定(当てはまりの向上の有意性の検定)
要因の見える化ができる
→必要な要因を用いて将来予測ができる
AIC(未知データへの当てはまりの最適化)
(未知の)将来予測ができる
→予測に必要な変数の見える化ができる
質問どうぞ!
21
実演
22
検定とAIC
検定
色々な手法があります
→分散分析、t検定、Wald検定、スコア検定
情報量規準
いろいろあります
→AIC, AICc, BIC, TIC
ある研究者の日常
この魚の成長には水温が効いているに違いない!
AICを使ったらモデルに水温が入ってこなかった
分散分析でもダメだった
t検定したが、惜しくもダメ
BICを使ったらうまくいった。やったね!!!
ある研究者の日常
この魚の成長には水温が効いているに違いない!
AICを使ったらモデルに水温が入ってこなかった
分散分析でもダメだった
t検定したが、惜しくもダメ
BICを使ったらうまくいった。やったね!!!
25
さいごに
マナーを守って
楽しく明るく統計モデリング
質問どうぞ!

1 6.変数選択とAIC