Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
iAnalysis LLC 最高解析責任者                 倉橋一成                        1
この統計学部の  位置づけ          2
3
Phase I      データの収集・加工         DBの作成・接続           ログの収集  Phase II           Phase IIIデータの可視化             モデル作成  ヒストグラム    ...
データマイニング              Phase I           データの収集・加工             DBの作成・接続               ログの収集      Phase II           Phase I...
データマイニング              Phase I           データの収集・加工             DBの作成・接続               ログの収集      Phase II    データの可視化       ...
データマイニング             Phase IV           効果検証デザイン       A/Bテスト、ランダム化試験            実験計画                        7
データマイニング              Phase I           データの収集・加工             DBの作成・接続               ログの収集      Phase II           Phase I...
第1回一般化線形モデル           9
始める前に        10
謝辞     11
Twitterのキャプチャ                12
Twitterのキャプチャ                13
Twitterのキャプチャ                14
Twitterのキャプチャ                15
提供     16
17
   モデルって?    ◦ ある現象を簡単に説明するもの                       18
   モデルって?    ◦ ある現象を簡単に説明するもの                       19
   モデルって?    ◦ ある現象を簡単に説明するもの                       20
   モデルって?    ◦ ある現象を簡単に説明するもの                       主にModel 1について                                   21
   x    ◦   説明変数    ◦   独立変数    ◦   予測変数    ◦   共変量    ◦   入力   y    ◦   結果変数    ◦   従属変数    ◦   応答変数    ◦   アウトプット    ◦...
結果変数: y        説明変数: x      手法連続値            2値           t検定               3つ以上のカテゴリー   分散分析               連続           線...
結果変数: y        説明変数: x      手法連続値            2値           t検定               3つ以上のカテゴリー   分散分析               連続           線...
   一般線形モデル(GLM)    ◦ 線形単回帰    ◦ 線形重回帰    ◦ (分散分析)   一般化線形モデル(GLIM)    ◦ 線形重回帰    ◦ ロジスティック回帰    ◦ ポアソン回帰                ...
   線形:線のようにまっすぐな性質     y                y = a + bx              誤差                      a: 切片                      b: 傾き ...
E[yi|xi] = a + bxi   xiを条件付けたときのyiの期待値がxiの線形式になっている        yi = a + bxi + ei   それぞれのyiはxiの線形式に誤差を足した値になっている             ...
   誤差の小さいモデルが最も良いモデルだろう   誤差の二乗和が最小になるようなa, bを求める      Σ{yi – (a +      bxi)} 2   上式の目的関数が最小になるa, bを求める   a, bに関して目的関数...
   確率分布を当てはめて「最も尤もらしい」a, bを求める   結果変数(y)または誤差(e)に正規分布を仮定する    yi = a + bxi + ei, ei~N(0, σ2)    E[yi|xi] = a + bxi, yi~N...
   xiを条件付けるとyiは正規分布に従っている                        E[yi|xi] = a + bxi      y                             x                 ...
   yiの分散は同じ               E[yi|xi] = a + bxi      y                   x                                    31
E[yi|xi] = βxi   yiの期待値をモデル化        xi=(x1i, …, xpi)   説明変数はp個ある         β=(β1, …, βp)   パラメータはp個                      ...
E[y] = βX             y: n次元ベクトル             β: p次元ベクトル                X: n×p行列   統計解析の数式を読むときのコツ    ◦ スカラー(単一の値)    ◦ ベク...
   最小二乗法、最尤法ともに同じ結果となる        β=    (XTX)-1XTy        p×1   p×n n×p               p×p        p×n                  p×n    ...
E[y] = βX   一般線形モデル(GLM)   様々なモデルを表現している    ◦ 線形重回帰    ◦ 分散分析(ANOVA)      Xはカテゴリもしくはダミー変数    ◦ 共分散分析(ANCOVA)      Xはカテ...
g(E[y]) = βX   一般化線形モデル(GLIM)   g: リンク関数   y: 連続値    ◦ GLM→恒等変換(変換しない)   y: 2値    ◦ ロジスティック回帰→ロジット変換    ◦ プロビットモデル→プロビ...
   サービス加入者が1ヶ月以内に辞めるかどうか    ◦ 辞める: 1, 辞めない: 0   会社が6ヶ月以内に倒産するかどうか    ◦ 倒産する: 1, 倒産しない: 0   ある人が1年以内に糖尿病になるかどうか    ◦ 糖尿病...
   x: 連続値、y: 2値      y       1       0                   x                       38
   yの推定値が[0, 1]の範囲をはみ出してしまう      y                  E[y] = βX      1      0                               x              ...
   yが[0, 1]の範囲に収まるような変換を行う      y                   logit(E[y]) = βX      1      0                              x        ...
   サービス加入者が課金を行った回数   システムがエラーを起こす回数   喘息の患者が発作を起こした回数                       41
   x: 連続値、y: カウント値      y                      x                          42
   yの推定値が[0, ∞]の範囲をはみ出してしまう      y                          E[y] = βX                            x                       ...
   yが[0, ∞]に収まるような変換を行う      y                           log(E[y]) = βX                             x                    ...
   連続値→正規分布   2値→二項分布   カウント値→ポアソン分布これらは指数型分布族に属するf(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)]                   a(y) = yのとき正準...
一般化線形モデルは指数型分布族の線形モデル         g(E[y]) = βX   yは指数型分布族に従う   分布が決まれば、リンク関数が決まる                        46
尤度: Π{exp[a(y)b(θ) + c(θ) + d(y)]}対数尤度: Σ[a(y)b(θ) + c(θ) + d(y)]偏微分して=0を解くと反復重み付き最小2乗法が求まる   XTWXb(m)         =   XTWz  m...
   重み付き最小二乗法    XTWXb(m)   =     XTWz    b (m) = (XTWX)-1XTWz   通常の最小二乗法     b   =      (X TX)-1   X T   y              ...
   決定定数(R2乗、寄与率)、調整済みR2乗   外れ値の検討   残差プロット   キャリブレーションプロット   ホスマーレメショー統計量   赤池情報量基準                            49
   決定定数(R2乗、寄与率)、調整済みR2乗   外れ値の検討   残差プロット   キャリブレーションプロット   ホスマーレメショー統計量   赤池情報量基準                            50
A   B        51
A   B        52
A   B        53
   Aは赤丸があるとモデルの傾きが大きく変わる   Bは赤丸があってもモデルの傾きは変わらない   一般にてこ比が p/n の2~3倍以上であれば注意が必要   A:外れ値   B:外れ値でない                   ...
A   B        55
A   B        56
回帰モデル        57
回帰モデル       残差プロット        0        0                     58
回帰モデル       残差プロット        0             どのx値でも0を中心に均等にばらつく        0             均等ではない。「パターン」が出ている                        ...
   擬似R2乗   AUC(ロジステック回帰)   尤度比χ2乗検定   AIC                    60
   指数型分布族に対する線形モデルが一般化線形モデル   yが連続値で正規分布を仮定すると一般線形モデル   一般化線形モデルはGLIM、一般線形モデルはGLM   パラメータは尤度を最大化することで推定する    ◦ 最小二乗法、重...
・一般線形モデルの仮定:反応変数が正規分布に従う、反応変数が説明変数の線形式で表現できる、すべての反応は共通の分散をもつ、反応が互いに独立。残差分析でこれをチェックする。歪んでたらBoxCox変換するとか。・ハット行列の対角成分をてこ比と呼ぶ ...
・飽和モデルを立ててから、仮説に応じて項を省略した縮小モデルを検討する・目的変数の分布を仮定→分布の期待値の式を線形に変形・確率を線形モデルで表現したいがそのままやると0-1の範囲に収まらないので、その範囲に収まるようにシュシュの許容値分布の累...
   設立:2011年3月24日   場所:東京都港区南青山2-2-15 ウィン青山 1403   ホームページ:http://ianalysis.jp/   取引先    ◦   製薬会社    ◦   医療系支援・コンサルティング会...
   2011年東京大学博士号取得    ◦ 修士まで:医療系の統計学が中心      疫学、臨床試験    ◦ 博士から:データマイニング分野の研究      統計的学習、機械学習      「統計学博士」は日本にないので「保険学博士...
66
ご清聴有難うございました            67
Upcoming SlideShare
Loading in …5
×

TokyoWebmining統計学部 第1回

18,911 views

Published on

  • Be the first to comment

TokyoWebmining統計学部 第1回

  1. 1. iAnalysis LLC 最高解析責任者 倉橋一成 1
  2. 2. この統計学部の 位置づけ 2
  3. 3. 3
  4. 4. Phase I データの収集・加工 DBの作成・接続 ログの収集 Phase II Phase IIIデータの可視化 モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング円グラフ、棒グラフ 因果推論 地域プロット 4
  5. 5. データマイニング Phase I データの収集・加工 DBの作成・接続 ログの収集 Phase II Phase III データの可視化 モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット 5
  6. 6. データマイニング Phase I データの収集・加工 DBの作成・接続 ログの収集 Phase II データの可視化 仮説 Phase III モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット 6
  7. 7. データマイニング Phase IV 効果検証デザイン A/Bテスト、ランダム化試験 実験計画 7
  8. 8. データマイニング Phase I データの収集・加工 DBの作成・接続 ログの収集 Phase II Phase III データの可視化 モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット TokyoWebmining統計学部 では主にここを教えます 8
  9. 9. 第1回一般化線形モデル 9
  10. 10. 始める前に 10
  11. 11. 謝辞 11
  12. 12. Twitterのキャプチャ 12
  13. 13. Twitterのキャプチャ 13
  14. 14. Twitterのキャプチャ 14
  15. 15. Twitterのキャプチャ 15
  16. 16. 提供 16
  17. 17. 17
  18. 18.  モデルって? ◦ ある現象を簡単に説明するもの 18
  19. 19.  モデルって? ◦ ある現象を簡単に説明するもの 19
  20. 20.  モデルって? ◦ ある現象を簡単に説明するもの 20
  21. 21.  モデルって? ◦ ある現象を簡単に説明するもの 主にModel 1について 21
  22. 22.  x ◦ 説明変数 ◦ 独立変数 ◦ 予測変数 ◦ 共変量 ◦ 入力 y ◦ 結果変数 ◦ 従属変数 ◦ 応答変数 ◦ アウトプット ◦ 出力 ◦ ターゲット 22
  23. 23. 結果変数: y 説明変数: x 手法連続値 2値 t検定 3つ以上のカテゴリー 分散分析 連続 線形単回帰、線形重回帰 カテゴリー、連続 共分散分析2値 カテゴリー 分割表、ロジスティック回帰 連続 ロジステック回帰など カテゴリー、連続 ロジステック回帰3つ以上のカテゴリー カテゴリー 分割表 カテゴリー、連続 名義ロジステック回帰順序 カテゴリー、連続 順序ロジステック回帰カウント値 カテゴリー 対数線形モデル カテゴリー、連続 ポアソン回帰生存時間 カテゴリー、連続 Cox回帰相関のある値、グループ値 カテゴリー、連続 混合効果モデル 23
  24. 24. 結果変数: y 説明変数: x 手法連続値 2値 t検定 3つ以上のカテゴリー 分散分析 連続 線形単回帰、線形重回帰 カテゴリー、連続 共分散分析2値 カテゴリー 分割表、ロジスティック回帰 連続 ロジステック回帰など カテゴリー、連続 ロジステック回帰3つ以上のカテゴリー カテゴリー 分割表 カテゴリー、連続 名義ロジステック回帰順序 カテゴリー、連続 順序ロジステック回帰カウント値 カテゴリー 対数線形モデル カテゴリー、連続 ポアソン回帰生存時間 カテゴリー、連続 Cox回帰相関のある値、グループ値 カテゴリー、連続 混合効果モデル 24
  25. 25.  一般線形モデル(GLM) ◦ 線形単回帰 ◦ 線形重回帰 ◦ (分散分析) 一般化線形モデル(GLIM) ◦ 線形重回帰 ◦ ロジスティック回帰 ◦ ポアソン回帰 25
  26. 26.  線形:線のようにまっすぐな性質 y y = a + bx 誤差 a: 切片 b: 傾き x 26
  27. 27. E[yi|xi] = a + bxi xiを条件付けたときのyiの期待値がxiの線形式になっている yi = a + bxi + ei それぞれのyiはxiの線形式に誤差を足した値になっている 27
  28. 28.  誤差の小さいモデルが最も良いモデルだろう 誤差の二乗和が最小になるようなa, bを求める Σ{yi – (a + bxi)} 2 上式の目的関数が最小になるa, bを求める a, bに関して目的関数を偏微分して「=0」を解く 28
  29. 29.  確率分布を当てはめて「最も尤もらしい」a, bを求める 結果変数(y)または誤差(e)に正規分布を仮定する yi = a + bxi + ei, ei~N(0, σ2) E[yi|xi] = a + bxi, yi~N(a + bxi, σ2) 最尤法でパラメータ推定すると、最小二乗法と同じ解になる 29
  30. 30.  xiを条件付けるとyiは正規分布に従っている E[yi|xi] = a + bxi y x 30
  31. 31.  yiの分散は同じ E[yi|xi] = a + bxi y x 31
  32. 32. E[yi|xi] = βxi yiの期待値をモデル化 xi=(x1i, …, xpi) 説明変数はp個ある β=(β1, …, βp) パラメータはp個 32
  33. 33. E[y] = βX y: n次元ベクトル β: p次元ベクトル X: n×p行列 統計解析の数式を読むときのコツ ◦ スカラー(単一の値) ◦ ベクトル ◦ 行列 の違いをはっきりとさせる 33
  34. 34.  最小二乗法、最尤法ともに同じ結果となる β= (XTX)-1XTy p×1 p×n n×p p×p p×n p×n n×1 p×1 行列とベクトルの混在に慣れよう! 34
  35. 35. E[y] = βX 一般線形モデル(GLM) 様々なモデルを表現している ◦ 線形重回帰 ◦ 分散分析(ANOVA)  Xはカテゴリもしくはダミー変数 ◦ 共分散分析(ANCOVA)  Xはカテゴリと連続変数の混在 35
  36. 36. g(E[y]) = βX 一般化線形モデル(GLIM) g: リンク関数 y: 連続値 ◦ GLM→恒等変換(変換しない) y: 2値 ◦ ロジスティック回帰→ロジット変換 ◦ プロビットモデル→プロビット変換(標準正規分布の逆累積分布関数) ◦ 極地分布のモデル→c log-log関数 y: カウント値 ◦ ポアソン回帰→対数変換 36
  37. 37.  サービス加入者が1ヶ月以内に辞めるかどうか ◦ 辞める: 1, 辞めない: 0 会社が6ヶ月以内に倒産するかどうか ◦ 倒産する: 1, 倒産しない: 0 ある人が1年以内に糖尿病になるかどうか ◦ 糖尿病になる: 1, 糖尿病にならない: 0 37
  38. 38.  x: 連続値、y: 2値 y 1 0 x 38
  39. 39.  yの推定値が[0, 1]の範囲をはみ出してしまう y E[y] = βX 1 0 x 39
  40. 40.  yが[0, 1]の範囲に収まるような変換を行う y logit(E[y]) = βX 1 0 x 40
  41. 41.  サービス加入者が課金を行った回数 システムがエラーを起こす回数 喘息の患者が発作を起こした回数 41
  42. 42.  x: 連続値、y: カウント値 y x 42
  43. 43.  yの推定値が[0, ∞]の範囲をはみ出してしまう y E[y] = βX x 43
  44. 44.  yが[0, ∞]に収まるような変換を行う y log(E[y]) = βX x 44
  45. 45.  連続値→正規分布 2値→二項分布 カウント値→ポアソン分布これらは指数型分布族に属するf(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)] a(y) = yのとき正準形 b(θ): 自然パラメータ 正規、2項、ポアソンは全て正準形 45
  46. 46. 一般化線形モデルは指数型分布族の線形モデル g(E[y]) = βX yは指数型分布族に従う 分布が決まれば、リンク関数が決まる 46
  47. 47. 尤度: Π{exp[a(y)b(θ) + c(θ) + d(y)]}対数尤度: Σ[a(y)b(θ) + c(θ) + d(y)]偏微分して=0を解くと反復重み付き最小2乗法が求まる XTWXb(m) = XTWz m: 反復回数, W: 重み, b: パラメータ, z: yの関数 47
  48. 48.  重み付き最小二乗法 XTWXb(m) = XTWz b (m) = (XTWX)-1XTWz 通常の最小二乗法 b = (X TX)-1 X T y 48
  49. 49.  決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準 49
  50. 50.  決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準 50
  51. 51. A B 51
  52. 52. A B 52
  53. 53. A B 53
  54. 54.  Aは赤丸があるとモデルの傾きが大きく変わる Bは赤丸があってもモデルの傾きは変わらない 一般にてこ比が p/n の2~3倍以上であれば注意が必要 A:外れ値 B:外れ値でない 54
  55. 55. A B 55
  56. 56. A B 56
  57. 57. 回帰モデル 57
  58. 58. 回帰モデル 残差プロット 0 0 58
  59. 59. 回帰モデル 残差プロット 0 どのx値でも0を中心に均等にばらつく 0 均等ではない。「パターン」が出ている 59
  60. 60.  擬似R2乗 AUC(ロジステック回帰) 尤度比χ2乗検定 AIC 60
  61. 61.  指数型分布族に対する線形モデルが一般化線形モデル yが連続値で正規分布を仮定すると一般線形モデル 一般化線形モデルはGLIM、一般線形モデルはGLM パラメータは尤度を最大化することで推定する ◦ 最小二乗法、重み付き最小二乗法が導かれる GLMの回帰診断のうち、外れ値と残差プロットは特に重要 61
  62. 62. ・一般線形モデルの仮定:反応変数が正規分布に従う、反応変数が説明変数の線形式で表現できる、すべての反応は共通の分散をもつ、反応が互いに独立。残差分析でこれをチェックする。歪んでたらBoxCox変換するとか。・ハット行列の対角成分をてこ比と呼ぶ てこ比と標準化残差を組み合わせた指標がCookの距離・説明変数が連続値の場合、当てはめたモデルから予測確率を求め10くらいのグループに分割し成功失敗の度数を算出、これに対してピアソンカイ二乗統計量を計算し適合度の指標とする。これをホズマー・レメショウ統計量と呼ぶ。・線形従属によりアレが特異に近くなり結果としてソレが著しく不安定になる。つまりデータが変わる度にソレが大きく変化する。1からほげを引いてその逆数をとったもの(VIF)でその従属っぷりは判断する。5以上ヤバい。ちなみにほげはある変数をそれ以外の変数で重回帰した時の決定係数。・分散分析は質的変数が定めるカテゴリーの間で連続変数の平均値を比較する統計手法・共分散分析とは、説明変数がダミー変数で表わされる名義変数と共変量と呼ばれる連続変数からなるモデル。分散分析と目的は同じだが、反応に影響をおよぼす共変量をモデルに加え調整を行う。 62
  63. 63. ・飽和モデルを立ててから、仮説に応じて項を省略した縮小モデルを検討する・目的変数の分布を仮定→分布の期待値の式を線形に変形・確率を線形モデルで表現したいがそのままやると0-1の範囲に収まらないので、その範囲に収まるようにシュシュの許容値分布の累積分布関数を用いる。・許容値分布→連結関数の順でいうと、プロビットモデル:正規分布→標準正規分布の逆累積分布関数、ロジスティックモデル:なんかごにょごにょ→ロジット関数。極値分布を許容値分布に使うモデルもありその場合、連結関数はcloglog関数・ 2値データの時最低限確認すること2つ 1.連結関数の妥当性 2.超過分散してないか。後者については逸脱度がデータ数-説明変数よりはるかに大きい値をとっている時に疑う。この問題については目的変数の分散の記述モデルにパラメータφを加えたり、GEEとして扱ったりして対処する。・尤度比カイ二乗統計量:当てはめモデルと最小モデルの対数尤度関数の差から求める。最小モデルの対数尤度関数から当てはめモデルの対数尤度関数を引いたものを最小モデルの対数尤度関数で除したものを擬似R2と呼ぶ。・ポアソン分布は群内の標本平均と標本分散がほぼ同じ値を持つ計数データに対する妥当な確率モデルとして知られている 63
  64. 64.  設立:2011年3月24日 場所:東京都港区南青山2-2-15 ウィン青山 1403 ホームページ:http://ianalysis.jp/ 取引先 ◦ 製薬会社 ◦ 医療系支援・コンサルティング会社 ◦ 広告代理店 ◦ 人材サービス会社 ◦ ソーシャルゲーム会社 ◦ 商社 ◦ 統計解析会社 64
  65. 65.  2011年東京大学博士号取得 ◦ 修士まで:医療系の統計学が中心  疫学、臨床試験 ◦ 博士から:データマイニング分野の研究  統計的学習、機械学習  「統計学博士」は日本にないので「保険学博士」です 2011年iAnalysis設立 ◦ 分析ノウハウをビジネスへ ◦ 溜まっているデータをどうやったら有効活用できるか? Twitter:@isseing333 65
  66. 66. 66
  67. 67. ご清聴有難うございました 67

×