統計学勉強会

  第四回
 @kingqwert
ちょっと前回の復習
ロジット分析
• 生存確率q、ロジット関数
ポワソンモデル
• データが離散値、ゼロ以上の範囲、上限なし、平均=分
  散

• ある個体iにおいて種子数がy_iである確率p(y_i|λ_i)がポ
  ワソン分布に従う




• リンク関数は対数リンク関数
  – Logλ=(線形予測子)
RでGLM

     基本は、
     Result <- glm(formula, data, family, link)



               確率分布               乱数生成            family     リンク関数
離散             二項分布               rbinom()        binomial   logit
               ポワソン分布             rpois()         poisson    log
               負の二項分布             rnbinom()       glm.nb関数   log
連続             ガンマ分布              rgamma()        gamma      log?
               正規分布               rnorm()         gaussian   identity
今回の内容は、実際の使い方、解釈の仕方 etc



•   係数の解釈(ポワソン、ロジット)
•   統計量 (Wald統計量、逸脱度deviance)
•   尤度比検定
•   GLMにおける残差

あたりが今日のメイン
係数の解釈

• ロジット分析
 – オッズ比=exp(線形予測子)
 – リンク関数=ロジットリンク
 – Ex. 病気になるリスクはexp(1.95)=7倍



• ポワソン回帰
 –   平均=exp(線形予測子)
 –   リンク関数=logリンク
 –   Xが1単位上昇すると平均種子数はexp(β2)だけ上昇する
 –   平均種子数はポワソン分布のパラメータ
係数の解釈2


• 線形回帰モデル
 – リンク関数=identityリンク
 – E(Y)=線形予測子
 – Xが1単位上昇するとYの平均がβだけ上昇する。
指数型分布族の平均と分散
• 指数分布族
   – Θ:正準パラメーター
   – Φ:dispersion パラメーター


• 対数尤度 l(θ,Φ;y)=log f(y; θ,Φ)
   – わりと有名な関係式


• 期待値と分散
GLMにおけるパラメタ推定

• 正準パラメーターにθ=g(μ)=βxを代入




• 対数尤度関数をβに関してargmax
 – 対数尤度 l(θ,Φ;y)=log f(y; θ,Φ)
スコア関数
• 対数尤度関数をβに関して1回微分(この式を0として解
  いていく)



• 直感的理解
 – 残差Y-μを0とするような推定量
   • 1次のモーメントのみアジャスト
 – 分散の逆数で重み付け
   • 一般に、分散関数は平均μの関数
 – スカラーからパラメーターの次元に変換するために勾配ベクト
   ルをかける
Βに対する推測
• Βの最尤推定量とその分散(フィッシャー情報量の逆行
  列)に基づく
 – フィッシャー情報量:スコア関数の二次のモーメント=対数尤
   度関数の二階微分の期待値



 –   これらを用いて
 –   Wald検定・信頼区間
 –   スコア検定・信頼区間
 –   尤度比検定・信頼区間
Wald検定
• あるパラメーターβ_k
• 帰無仮説: H0: β_k=0
• Wald検定
  – 検定統計量             ~ 標準正規分布

  – ただし、分母はフィッシャー情報行列の逆行列のdiag要素


• Wald信頼区間
残差逸脱度 Deviance
• モデルの当てはまり:尤度比統計量
 – 今のモデルと飽和モデル(Full model)との比較
   • -2log [仮定したモデルでの最大対数尤度 – 飽和モデルでの最大対数尤度]
   • =



• これにdispersionパラメーターをかけたもの=残差逸脱度


• 正規分布のもとでの残差逸脱度=残差平方和と一致
• 残差逸脱度は残差平方和の正規分布以外の結果変数への
  一般化
 – 二項分布、ポワソン分布ではφ=1
尤度比検定
• 2つのネストしたモデル
  – M0: E(Y)=μ0=β0+β1X
  – M1: E(Y)=μ1=β0+β1X+β2X*X
  – この時、D(M0)≥D(M1)
     • 逸脱度は必ず小さいモデルのほうが大きい


• M0とM1の比較(β2=0の検定)
GLMにおける残差
• 線形モデルと違い、二項分布やポワソン分布は分散が平
  均に依存
 – 二項分布:V(Y)=μ(1-μ)
 – ポワソン分布:V(Y)=μ


• っていうか、正規分布以外では残差e_i=Y_i-μ_iは超使い
  づらい
 – 残差の分散が均一になるように変換する必要あり!
主な残差統計量
• ピアソン残差



• 逸脱度残差

 – d_i=i番目の対象者の逸脱度への寄与


• 目的: 当てはめたモデルが適切ならば、残差に系統的
  なパターンは検出されないはず!

第四回統計学勉強会@東大駒場