Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
データ解析のための
統計モデリング入門
1
2014. 07. 29.
6章後半 @0kayu
#みどりぼん
japan.R12.6
自己紹介
- @0kayu 岡
- 早稲田大学 M2 機械系
- 研究 機能的脳画像解析
- 来年 アドテク系の会社で働きます
- slide http://www.slideshare.net/
yurieoka37/...
6章 GLMの応用範囲 後半
3
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7...
6章 GLMの応用範囲 後半
4
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7...
これまでの線形予測子
6.5 交互作用項
体サイズ 肥料処理+
交互作用項を追加した線形予測子
!
交互作用項    の考え方
- 植物の体サイズxiと肥料処理の効果fiの「積」の効果
6
6.5 交互作用項
体サイズ 肥料処理+ 交互作用+
肥料処理によって体サイズが変わる
体サイズによって肥料処理の効果が...
7
交互作用項を含めたGLM
glm(cbind(y, N-y)~ x * f, family = binomial, data = d)
または
glm(cbind(y,N-y)~x + f + x:f, family=binomial, d...
8
交互作用項のあり・なし
Coefficients:
(Intercept) x fT
-19.536 1.952 2.022
!
Degrees of Freedom: 99 Total (i.e. Null); 97 Residual
N...
9
交互作用項のあり・なし
ありなし
T
C C
T
T logit(qi)=--17.5 + 1.95 x
C logit(qi)=-19.5 + 1.95 x C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-...
10
交互作用項 β4 の値の比較
β4 (推定値)
T
C C
T
C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.28 x
β4 (推定値) 2
C logit(qi)=-18.5 + 1....
交互作用項はむやみにいれない
- 変数増える→交互作用項の数増える→組み合せ爆発!
AIC の値が大きくなったとき
- 交互作用項を多数含んだ統計モデルのAICが最良
- ? 交互作用の効果を過大推定していないか?
- ? 「個体差」「場所差」...
6章 GLMの応用範囲 後半
12
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6....
13
観測値に対してやりがちなこと
割り算
変数変換
異なる
観測値の平均
14
観測値に対してやりがちなこと
割り算
変数変換
異なる
観測値の平均
なぜだめなのか
情報が失われる
- 例 野球の打率 3割打者
- 1000打数 300 安打
- 10打数 3安打
変換された値の分布… ?
- 分子/分母にそれぞれ誤差が入った数量どうしを割り算
したとしてその確率分布は… ? ?
15
割り算が使われがちな場面
人口密度を求めたいとき
16
平均個体数 λi
面積 Ai
人口密度
例: 植物の人口密度
データ
!
!
!
目的
- 調査地 i における植物個体数の人口密度 が

明るさ xi にどう影響されているか?
17
面積 A
個体数y
明るさ
x
offset 項
18
×人口密度 =
平均個体数
面積
人口密度 =
平均個体数は、
人口密度が正 → exp
明るさxiに依存 → βxi
人口密度
人口密度は、
offset 項
19
exp でまとめて
オフセット項
×人口密度 =
平均個体数は、
係数βがつかない項
線形予測子は、
人口密度のGLM
対数リンク関数 + ポアソン分布
線形予測子
20
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数y
明るさ
x
結果
21
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数y
明るさ
x
6章 GLMの応用範囲 後半
22
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6....
正規分布 (ガウス分布)
連続値データのための確率分布
- 平均値 μ ( )
- 標準偏差(データのばらつき)σ を指定可能
正規分布の確率密度関数
23
正規分布 (Rコード)
24
y <- seq(-5, 5, 0.1)
mfrow(c(1,3))
plot(y, dnorm(y, mean = 0, sd = 1), type =“l”)
plot(y, dnorm(y, mean = 0...
正規分布の確率
25
> pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1)
[1] 0.07914
!
> dnorm(1.5, 0, 1) * 0.6
[1] 0.07771
確率 = 確率密度関数 Δy
最尤推定
yi が,        である確率は、
26
最尤推定
対数尤度は
!
!
連続分布ではσが小さいとき等に、

対数尤度が正の値になったり、AICや逸脱度が負
の値になる場合がある
27
最小二乗法と最尤推定
最小二乗法ではσ=1としているので、第一項が定数
に
28
最小二乗法と一致
6章 GLMの応用範囲 後半
29
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6....
ガンマ分布
確率変数が0以上の連続確率分布
- 確率密度関数
30
例 花と葉っぱ
花の重量 yi と葉の重量 xi の関係
- 花の重量 yi が平均 μi のガンマ分布に従うとする
平均花重量μi のモデル
- 葉重量x_i の単調増加関数
31
線形予測子
平均花重量
!
右辺で、A=exp(a) として
!
対数をとって
32
ガンマ分布のGLM
対数リンク関数 + ガンマ分布
線形予測子
33
glm(y ~ log(x), family = Gamma(link=“log”),data = d)
Coefficients:
(Intercept) log(x)
-...
6章 GLMの応用範囲 後半
34
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6....
6章 GLMの応用範囲 後半
35
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6....
おわり。
Upcoming SlideShare
Loading in …5
×

データ解析のための統計モデリング入門 6.5章 後半

6,725 views

Published on

#みどりぼん

Published in: Science

データ解析のための統計モデリング入門 6.5章 後半

  1. 1. データ解析のための 統計モデリング入門 1 2014. 07. 29. 6章後半 @0kayu #みどりぼん
  2. 2. japan.R12.6 自己紹介 - @0kayu 岡 - 早稲田大学 M2 機械系 - 研究 機能的脳画像解析 - 来年 アドテク系の会社で働きます - slide http://www.slideshare.net/ yurieoka37/65-37454378
  3. 3. 6章 GLMの応用範囲 後半 3 章 適用例 確率分布 リンク関数 ポイント 前半 生存確率の予測 二項分布 logit 6.5 生存確率の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン 対数リンク オフセット 6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定 6.8 確率変数が
 0以上の連続値 ガンマ分布 対数リンク GLMすごい 6.9 ま  と  め
  4. 4. 6章 GLMの応用範囲 後半 4 章 適用例 確率分布 リンク関数 ポイント 前半 生存確率の予測 二項分布 logit 6.5 生存確率の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン 対数リンク オフセット 6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定 6.8 確率変数が
 0以上の連続値 ガンマ分布 対数リンク GLMすごい 6.9 ま  と  め
  5. 5. これまでの線形予測子 6.5 交互作用項 体サイズ 肥料処理+
  6. 6. 交互作用項を追加した線形予測子 ! 交互作用項    の考え方 - 植物の体サイズxiと肥料処理の効果fiの「積」の効果 6 6.5 交互作用項 体サイズ 肥料処理+ 交互作用+ 肥料処理によって体サイズが変わる 体サイズによって肥料処理の効果が変わる
  7. 7. 7 交互作用項を含めたGLM glm(cbind(y, N-y)~ x * f, family = binomial, data = d) または glm(cbind(y,N-y)~x + f + x:f, family=binomial, data=d) Coefficients: (Intercept) x fT x:fT -18.52332 1.85251 -0.06376 0.21634 ! Degrees of Freedom: 99 Total (i.e. Null); 96 Residual Null Deviance: 499.2 Residual Deviance: 122.4 AIC: 273.6
  8. 8. 8 交互作用項のあり・なし Coefficients: (Intercept) x fT -19.536 1.952 2.022 ! Degrees of Freedom: 99 Total (i.e. Null); 97 Residual Null Deviance: 499.2 Residual Deviance: 123 AIC: 272.2 Coefficients: (Intercept) x fT x:fT -18.52332 1.85251 -0.06376 0.21634 ! Degrees of Freedom: 99 Total (i.e. Null); 96 Residual Null Deviance: 499.2 Residual Deviance: 122.4 AIC: 273.6 あり なし
  9. 9. 9 交互作用項のあり・なし ありなし T C C T T logit(qi)=--17.5 + 1.95 x C logit(qi)=-19.5 + 1.95 x C logit(qi)=-18.5 + 1.85 x T logit(qi)=-18.6 + 2.07 x
  10. 10. 10 交互作用項 β4 の値の比較 β4 (推定値) T C C T C logit(qi)=-18.5 + 1.85 x T logit(qi)=-18.6 + 2.28 x β4 (推定値) 2 C logit(qi)=-18.5 + 1.85 x T logit(qi)=-18.6 + 2.07 x
  11. 11. 交互作用項はむやみにいれない - 変数増える→交互作用項の数増える→組み合せ爆発! AIC の値が大きくなったとき - 交互作用項を多数含んだ統計モデルのAICが最良 - ? 交互作用の効果を過大推定していないか? - ? 「個体差」「場所差」が大きく影響してないか? 7章以降の個体差・場所差を考慮したGLMを使う 11 交互作用項の使いかた
  12. 12. 6章 GLMの応用範囲 後半 12 章 適用例 確率分布 リンク関数 ポイント 前半 生存確率の予測 二項分布 logit 6.5 生存確率の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン 対数リンク オフセット 6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定 6.8 確率変数が
 0以上の連続値 ガンマ分布 対数リンク GLMすごい 6.9 ま  と  め
  13. 13. 13 観測値に対してやりがちなこと 割り算 変数変換 異なる 観測値の平均
  14. 14. 14 観測値に対してやりがちなこと 割り算 変数変換 異なる 観測値の平均
  15. 15. なぜだめなのか 情報が失われる - 例 野球の打率 3割打者 - 1000打数 300 安打 - 10打数 3安打 変換された値の分布… ? - 分子/分母にそれぞれ誤差が入った数量どうしを割り算 したとしてその確率分布は… ? ? 15
  16. 16. 割り算が使われがちな場面 人口密度を求めたいとき 16 平均個体数 λi 面積 Ai 人口密度
  17. 17. 例: 植物の人口密度 データ ! ! ! 目的 - 調査地 i における植物個体数の人口密度 が
 明るさ xi にどう影響されているか? 17 面積 A 個体数y 明るさ x
  18. 18. offset 項 18 ×人口密度 = 平均個体数 面積 人口密度 = 平均個体数は、 人口密度が正 → exp 明るさxiに依存 → βxi 人口密度 人口密度は、
  19. 19. offset 項 19 exp でまとめて オフセット項 ×人口密度 = 平均個体数は、 係数βがつかない項 線形予測子は、
  20. 20. 人口密度のGLM 対数リンク関数 + ポアソン分布 線形予測子 20 glm(y ~ x, offset = log(A), family = poisson, data = d) 面積 A 個体数y 明るさ x
  21. 21. 結果 21 glm(y ~ x, offset = log(A), family = poisson, data = d) 面積 A 個体数y 明るさ x
  22. 22. 6章 GLMの応用範囲 後半 22 章 適用例 確率分布 リンク関数 ポイント 前半 生存確率の予測 二項分布 logit 6.5 生存確率の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン 対数リンク オフセット 6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定 6.8 確率変数が
 0以上の連続値 ガンマ分布 対数リンク GLMすごい 6.9 ま  と  め
  23. 23. 正規分布 (ガウス分布) 連続値データのための確率分布 - 平均値 μ ( ) - 標準偏差(データのばらつき)σ を指定可能 正規分布の確率密度関数 23
  24. 24. 正規分布 (Rコード) 24 y <- seq(-5, 5, 0.1) mfrow(c(1,3)) plot(y, dnorm(y, mean = 0, sd = 1), type =“l”) plot(y, dnorm(y, mean = 0, sd = 3), type =“l”) plot(y, dnorm(y, mean = 2, sd = 1), type =“l”)
  25. 25. 正規分布の確率 25 > pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1) [1] 0.07914 ! > dnorm(1.5, 0, 1) * 0.6 [1] 0.07771 確率 = 確率密度関数 Δy
  26. 26. 最尤推定 yi が,        である確率は、 26
  27. 27. 最尤推定 対数尤度は ! ! 連続分布ではσが小さいとき等に、
 対数尤度が正の値になったり、AICや逸脱度が負 の値になる場合がある 27
  28. 28. 最小二乗法と最尤推定 最小二乗法ではσ=1としているので、第一項が定数 に 28 最小二乗法と一致
  29. 29. 6章 GLMの応用範囲 後半 29 章 適用例 確率分布 リンク関数 ポイント 前半 生存確率の予測 二項分布 logit 6.5 生存確率の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン 対数リンク オフセット 6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定 6.8 確率変数が
 0以上の連続値 ガンマ分布 対数リンク GLMすごい 6.9 ま  と  め
  30. 30. ガンマ分布 確率変数が0以上の連続確率分布 - 確率密度関数 30
  31. 31. 例 花と葉っぱ 花の重量 yi と葉の重量 xi の関係 - 花の重量 yi が平均 μi のガンマ分布に従うとする 平均花重量μi のモデル - 葉重量x_i の単調増加関数 31
  32. 32. 線形予測子 平均花重量 ! 右辺で、A=exp(a) として ! 対数をとって 32
  33. 33. ガンマ分布のGLM 対数リンク関数 + ガンマ分布 線形予測子 33 glm(y ~ log(x), family = Gamma(link=“log”),data = d) Coefficients: (Intercept) log(x) -1.0403 0.6833 ! Degrees of Freedom: 49 Total (i.e. Null); 48 Residual Null Deviance: 35.37 Residual Deviance: 17.25 AIC: -110.9
  34. 34. 6章 GLMの応用範囲 後半 34 章 適用例 確率分布 リンク関数 ポイント 前半 生存確率の予測 二項分布 logit 6.5 生存確率の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン 対数リンク オフセット 6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定 6.8 確率変数が
 0以上の連続値 ガンマ分布 対数リンク GLMすごい 6.9 ま  と  め
  35. 35. 6章 GLMの応用範囲 後半 35 章 適用例 確率分布 リンク関数 ポイント 前半 生存確率の予測 二項分布 logit 6.5 生存確率の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン 対数リンク オフセット 6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定 6.8 確率変数が
 0以上の連続値 ガンマ分布 対数リンク GLMすごい 6.9 ↑ この表 ↑
  36. 36. おわり。

×