Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データ解析のための統計モデリング入門3章後半

3,848 views

Published on

Published in: Data & Analytics
  • Be the first to comment

データ解析のための統計モデリング入門3章後半

  1. 1. データ解析のための統計モデリング⼊入⾨門   ⼀一般化線形モデル(GLM)  3.5  ~∼  3.8 Shinya AKiba 2014/06/10
  2. 2. About  me ○研究テーマ     スペースデブリの軌道設計     Deeplearningを⽤用いた画像認識識  <-‐‑‒  いまここ   ○バイト     ALBERT  -‐‑‒  集計、分析のお仕事。最近はクラスタリング。   ○趣味とか     ラグビー、Python、お酒、⿇麻雀 @aki_̲n1wa 秋庭  伸也     早稲⽥田⼤大学  -‐‑‒  機械科学専攻  M2
  3. 3. OUTLINE □これまでの話   □統計モデルの設計     -‐‑‒  3.5  因⼦子型の統計モデル     -‐‑‒  3.6  数量量型  +  因⼦子型の統計モデル   □「あてはまりのよさ」とは   □3.7「何でも正規分布」「何でも直線」には無理理がある   □3.8    まとめ  
  4. 4. OUTLINE □これまでの話   □統計モデルの設計     -‐‑‒  3.5  因⼦子型の統計モデル     -‐‑‒  3.6  数量量型  +  因⼦子型の統計モデル   □「あてはまりのよさ」とは   □3.7「何でも正規分布」「何でも直線」には無理理がある   □3.8    まとめ  
  5. 5. ○2章     -‐‑‒  Rの使い⽅方(summary()、hist()など)     -‐‑‒  統計モデルの選択(ポアソン分布)     -‐‑‒  最尤推定(統計モデルのパラメータ推定) 「データ解析のための統計モデリング入門」サポートWebサイトより引用 http://hosho.ees.hokudai.ac.jp/ kubo/ce/IwanamiBook.html 2章はRで最尤推定を   やってみようという話でした。 これまでの話 ○3章     -‐‑‒  Rの使い⽅方(glm())     -‐‑‒  統計モデルの選択(ポアソン分布)     -‐‑‒  最尤推定(統計モデルのパラメータ推定) メモ:施肥の読み⽅方  -‐‑‒>  せひ
  6. 6. 「データ解析のための統計モデリング入門」サポートWebサイトより引用 http://hosho.ees.hokudai.ac.jp/ kubo/ce/IwanamiBook.html Rの関数:glm()を使って   統計モデルを設計し、   統計モデルごとに対数尤度度を   計算、⽐比較する。 これまでの話 ○2章     -‐‑‒  Rの使い⽅方(summary()、hist()など)     -‐‑‒  統計モデルの選択(ポアソン分布)     -‐‑‒  最尤推定(統計モデルのパラメータ推定) ○3章     -‐‑‒  Rの使い⽅方(glm())     -‐‑‒  glm()で統計モデルの設計     -‐‑‒  統計モデルごとに対数尤度度を⽐比較 (general) linear model : (一般)線形モデル generalized linear model : 一般化線形モデル
  7. 7. OUTLINE □これまでの話   □統計モデルの設計     -‐‑‒  3.5  因⼦子型の統計モデル     -‐‑‒  3.6  数量量型  +  因⼦子型の統計モデル   □「あてはまりのよさ」とは   □3.7「何でも正規分布」「何でも直線」には無理理がある   □3.8    まとめ  
  8. 8. 統計モデルの設計 3.4 3.6で、いろんな説明変数の組み合わせを考える。 線形予測子 体サイズ:x 施肥処理:f 3.4 ○ 3.5 ○ 3.6 ○ ○ 採用する説明変数
  9. 9. 3.5    説明変数が因⼦子型の統計モデル 「種⼦子の数:y  と施肥処理理(有無):f  に関係がある」という仮定 fit.f  <-‐‑‒  glm(y  ~∼  f,  data=d,  family=poisson) 0  (施肥処理理無し)   1  (施肥処理理有り) p.56  本⽂文より   ・「肥料料をやると平均種⼦子数がほんの少しだけ増える」と予測している。 線形予測⼦子: パラメータの推定値: 最大対数尤度: -237.627
  10. 10. 3.6    説明変数が数量量型+因⼦子型の統計モデル 「種⼦子の数:y  と(体サイズ:x、施肥処理理(有無):f)  に関係がある」という仮定 fit.all  <-‐‑‒  glm(y  ~∼  x+f,  data=d,  family=poisson) p.58  本⽂文より   ・このモデルではマイナス(肥料料の効果)だと推定されています。   ! 3.6.1の対数リンク関数については、p.60の図3.8を参照。 線形予測⼦子: パラメータの推定値: 最大対数尤度: -236.294
  11. 11. OUTLINE □これまでの話   □統計モデルの設計     -‐‑‒  3.5  因⼦子型の統計モデル     -‐‑‒  3.6  数量量型  +  因⼦子型の統計モデル   □「あてはまりのよさ」とは   □3.7「何でも正規分布」「何でも直線」には無理理がある   □3.8    まとめ  
  12. 12. 「あてはまりのよさ」とは 3.4  ~∼  3.6で、計算している「あてはまりのよさ」とは??          -‐‑‒>  統計モデルが、観測データにフィットしているか 次数 対数尤度 2 -234.28 3 -234.21 4 -234.12 … … 10 -230.48 (※)「あてはまりのよさ」-‐‑‒>  Goodness  to  fit   参考:http://en.wikipedia.org/wiki/Goodness_̲of_̲fit 線形予測⼦子の次数を増やしていくと…   fit.2  <-‐‑‒  glm(y  ~∼  I(x)+I(x^2)+f,  data  =  d,  family=poisson)   fit.3  <-‐‑‒  glm(y  ~∼  I(x)+I(x^2)+I(x^3)+f,  data  =  d,  family=poisson)   … 次数が増えるにつれて、 対数尤度が大きくなっている→
  13. 13. 次数 対数尤度 2 -234.28 3 -234.21 4 -234.12 … … 10 -230.48 分かったお! とにかく次数を おおきくすればいいお!! 3.4  ~∼  3.6で、計算している「あてはまりのよさ」とは??          -‐‑‒>  統計モデルが、観測データにフィットしているか 線形予測⼦子の次数を増やしていくと…   fit.2  <-‐‑‒  glm(y  ~∼  I(x)+I(x^2)+f,  data  =  d,  family=poisson)   fit.3  <-‐‑‒  glm(y  ~∼  I(x)+I(x^2)+I(x^3)+f,  data  =  d,  family=poisson)   … 次数が増えるにつれて、 対数尤度が大きくなっている→ 「あてはまりのよさ」とは
  14. 14. fit.10  <-‐‑‒  glm(y  ~∼  I(x)+I(x^2)+I(x^3)+I(x^4)+I(x^5)                            +I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,                              data  =  d,  family=poisson) 10次式でモデルを作るお!! 「あてはまりのよさ」とは
  15. 15. 7 8 9 10 11 12 2468101214 d$x d$y くねくねだお.. 「あてはまりのよさ」とは fit.10  <-‐‑‒  glm(y  ~∼  I(x)+I(x^2)+I(x^3)+I(x^4)+I(x^5)                            +I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,                              data  =  d,  family=poisson)
  16. 16. 7 8 9 10 11 12 2468101214 d$x d$y P.60  本⽂文より   ・「妥当なモデル」かどうかは、あてはまりの良良しあし          だけで決まる問題ではありません。   ・数式が現象をどのように表現しているのかという点に          注意しながら統計モデルを設計する。 「あてはまりのよさ」とは fit.10  <-‐‑‒  glm(y  ~∼  I(x)+I(x^2)+I(x^3)+I(x^4)+I(x^5)                            +I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,                              data  =  d,  family=poisson) くねくねだお..
  17. 17. OUTLINE □これまでの話   □統計モデルの設計     -‐‑‒  3.5  因⼦子型の統計モデル     -‐‑‒  3.6  数量量型  +  因⼦子型の統計モデル   □「あてはまりのよさ」とは   □3.7「何でも正規分布」「何でも直線」には無理理がある   □3.8    まとめ  
  18. 18. 3.7「何でも正規分布」「何でも直線」には無理理がある p.61 図3.9 架空データに対するLM, GLMの適用 ! p.62 本文より LM -> 何でも正規分布、x と y は直線関係 GLM(ポアソン分布) -> カウントデータ、yのばらつきは平均とともに増加
  19. 19. 3.7「何でも正規分布」「何でも直線」には無理理がある 何でも正規分布じゃだめか?   -‐‑‒>  実際のデータで試してみましょう。   ! 前回の話   「ポアソン分布に従うもの」-‐‑‒>  サッカーのゴール数では? https://github.com/openfootball/world-cup githubにデータあった↓    World  Cupのゴール数を調べてみよう。
  20. 20. 3.7「何でも正規分布」「何でも直線」には無理理がある 1930年年ウルグアイ⼤大会から2010年年南ア⼤大会までのcup.txtで   ⼀一試合ごとの得点を集計する。(ソビエト、ユーゴスラビアなどは除いています) Histogram of brazil$score1 brazil$score1 Frequency 0 2 4 6 8 05101520 ブラジル代表 データがたくさんあるので   ブラジル代表を使います。
  21. 21. 3.7「何でも正規分布」「何でも直線」には無理理がある Histogram of brazil$score1 brazil$score1 Frequency 0 2 4 6 8 05101520 ブラジル代表 ⽇日本代表 Histogram of japan$score1 japan$score1 Frequency 0 2 4 6 8 05101520 1930年年ウルグアイ⼤大会から2010年年南ア⼤大会までのcup.txtで   ⼀一試合ごとの得点を集計する。(ソビエト、ユーゴスラビアなどは除いています) ちなみにジャパンは
  22. 22. 3.7「何でも正規分布」「何でも直線」には無理理がある 統計モデルの仮定:⼀一試合のゴール数とFIFAランキングのポイント差に関係がある。 team1,score1,pts1,team2,score2,pts2,diff Brazil,1,1242,Algeria,0,858,384 Brazil,0,1242,Argentina,0,1175,67 Brazil,2,1242,Argentina,1,1175,67 Brazil,3,1242,Argentina,1,1175,67 Brazil,2,1242,Australia,0,526,716 Brazil,1,1242,Austria,0,643,599 Brazil,3,1242,Austria,0,643,599 Brazil,4,1242,Bolivia,0,483,759 Brazil,2,1242,Bulgaria,0,425,817 Brazil,3,1242,Cameroon,0,558,684 Brazil,4,1242,Chile,2,1026,216 … 『前処理理したデータ』 (※)1930年年の試合にも現在のポイントを   適⽤用しています…orz。ブラジルは昔から強いからいいかな。 http://www.fifa.com/worldranking/rankingtable/ 2014/06/10時点でのランキング
  23. 23. 3.7「何でも正規分布」「何でも直線」には無理理がある -200 0 200 400 600 800 01234567 x$diff x$score1 1950年ブラジル大会 vs スウェーデン FIFAランキングポイントの差 一試合の得点
  24. 24. 3.7「何でも正規分布」「何でも直線」には無理理がある 統計モデルの仮定:⼀一試合のゴール数とFIFAランキングのポイント差に関係がある。 brazil.lm  <-‐‑‒  lm(d$score1~∼d$diff)   brazil.glm  <-‐‑‒  glm(d$score1~∼d$diff,  family=poisson) -200 0 200 400 600 800 02468 xx -200 0 200 400 600 800 02468 d$diff -200 0 200 400 600 800 02468 d$diff -200 0 200 400 600 800 02468 xx 線形モデル 一般化線形モデル
  25. 25. 3.7「何でも正規分布」「何でも直線」には無理理がある 統計モデルの仮定:⼀一試合のゴール数とFIFAランキングのポイント差に関係がある。 brazil.lm  <-‐‑‒  lm(d$score1~∼d$diff)   brazil.glm  <-‐‑‒  glm(d$score1~∼d$diff,  family=poisson) -200 0 200 400 600 800 02468 xx -200 0 200 400 600 800 02468 d$diff -200 0 200 400 600 800 02468 d$diff -200 0 200 400 600 800 02468 xx 線形モデル 一般化線形モデル マイナスの得点が予測されてしまう
  26. 26. 3.8  まとめ □「あてはまりのよさ」≠「よい統計モデル」     -‐‑‒  あてはまりがよい  -‐‑‒>  対数尤度度が⼤大きい   ! □  観測するデータを説明する妥当なモデルを選ぶ     -‐‑‒  種⼦子データならポアソン分布(が妥当っぽい) よい統計モデルの選び⽅方     -‐‑‒>  4章~∼   パラメータ推定     -‐‑‒>  8章~∼
  27. 27. ご清聴ありがとうございました

×