データ解析のための統計モデリング入門4章

4章 GLMのモデル選択
ー AICとモデルの予測の良さー

観測データ
ポアソン分布
体サイズ x
種子数y
𝑝 𝑦𝑖|𝜆𝑖 =
𝜆𝑖
𝑦𝑖 𝑒𝑥𝑝(−𝜆𝑖)
𝑦𝑖!

候補となるモデルはたくさん
𝑙𝑜𝑔𝜆𝑖 = 𝛽1 + 𝛽2 𝑥𝑖
𝑙𝑜𝑔𝜆𝑖 = 𝛽1
𝑙𝑜𝑔𝜆𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑥𝑖
2
𝑙𝑜𝑔𝜆𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑥𝑖
2 + 𝛽4 𝑥𝑖
3 …

どうやってモデルを決めるのか？
http://www.statsmodels.org/stable/regression.html

最尤推定法
尤度を最大にするようなパラメータの値を探す。
𝐷 = −2𝑙𝑜𝑔𝐿
∗
逸脱度：あてはまりの悪さ（最大対数尤度に-2をかけただけ）
最大対数尤度
逸脱度
統計モデルの（いま手元にある観測データへの）あてはまりの良さ
𝑙𝑜𝑔𝐿
∗
=
𝑖
𝑙𝑜𝑔
𝜆𝑖
𝑦𝑖 𝑒𝑥𝑝(−𝜆𝑖)
𝑦𝑖!

良いモデルとは？
データへのあてはまりが良いもの
が良いモデル

近似直線の次数 M=10
いわゆる過学習
モデルを複雑にすれば観測データへの
『あてはまり』はいくらでも改善できる。

ここで・・
統計モデルをつくる目的っ
てなんだっけ？

統計的推測
n個のデータ
𝑥1, 𝑥2, ・・・𝑥 𝑛
母集団
(真の統計モデル)
統計モデル
𝑝 𝑥|𝜃
観測
データの生成

手もとののデータと統計モデルを使って、
母集団から次に出てくるデータを予測したい
ひいては、
観測される現象の背後にある「しくみ」の特定したい
ということを考えると・・・
たまたま得られたデータへのあてはまりの良さを
追求するのはダメ

予測の良さをどう評価するか？
AIC（Akaike’s information criterion）
予測の良さを重視するモデル選択基準
𝐴𝐼𝐶 = −2 最大対数尤度 − パラメータ数
= −2 𝑙𝑜𝑔𝐿
∗
−𝑘
= D + 2k
AICが一番小さいモデルが良いモデル

4.4〜 AICの式の妥当性の確かめ
（数理統計学でなく具体的な数値例
からのアプローチ）
平均対数尤度：推定されたパラメータを評価用データ
𝐸(𝑙𝑜𝑔𝐿) にあてはめたときの対数尤度の平均値
観測データをパラメータ推定用と
予測の良さ評価用に分ける。
（クロスバリデーション法）
最大対数尤度と平均対数尤度の差（バイアス）の分布
を見ると
→図4.10 標本平均がほぼ1になる

平均対数尤度とAIC
平均対数尤度と最大対数尤度の平均的なずれは
パラメータ数kと同じであると考える。
𝐸 𝑙𝑜𝑔𝐿 = 𝑙𝑜𝑔𝐿
∗
− 𝑘
𝐴𝐼𝐶 = −2 𝑙𝑜𝑔𝐿
∗
−𝑘 = D + 2k
AICは予測の良さをあらわす平均対数尤度
にもとづく統計量である。

Pythonの統計(に使える)ライブラリ
statsmodelsでGLM
http://www.statsmodels.org/stable/glm.html
scikit-learnでGLM
http://scikit-learn.org/stable/modules/linear_model.html
scipyでGLM
https://docs.scipy.org/doc/scipy-0.13.0/reference/generated/scipy.stats.glm.html

データ解析のための統計モデリング入門4章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to データ解析のための統計モデリング入門4章

Similar to データ解析のための統計モデリング入門4章 (20)

データ解析のための統計モデリング入門4章

Editor's Notes