# GEE(一般化推定方程式)の理論

11/6 リバイズしました

Published in: Science
1. 1. GEE(一般化推定方程式)の理論 -Liang and Zeger, Biometorika 1986 の行間を読む- 宜保光一郎 2015/11/6
2. 2. http://magazine.j hsph.edu/2002/fa ll/Accolades.html http://www.jhsph.edu /faculty/directory/prof ile/3859/scott-zeger
3. 3. はじめに • このスライドは医学統計において重要な発展 の一つである一般化推定方程式(GEE)の理論 的な解説を目的としています。 • 原著はA4の3Pくらいで解説していますが、非 専門家が読むにはかなりつらいので、行間を 埋めるように心がけました。 • 数式の展開は結構面倒くさいので、もしかし たら表記にちょっとした誤りがあるかもしれま せん(limが抜けてたり、ベクトルがボルド体に なっていなかったりetc.)。
4. 4. PubMedにコメントもついている • 機械学習領域で著名なTibshiraniがPubMed にコメントを付けている http://www.ncbi.nlm.nih.go v/pubmed/3719049
5. 5. Overview • 全体を俯瞰すると、一般化線形モデルの拡 張である擬似尤度法(Wedderburn 1976)をさ らに拡張したものといえる。 • まずは、①一般化線形モデルのおさらいをし て、②擬似尤度法、③GEEと進めていく
6. 6. 概念図 GLM Quasi-likelihood GEE 制約 ①アウトカムの分布が指数分 布族(の同時分布) ②アウトカムがそれぞれ独立 ①を取り払う ②を取り払う
7. 7. Notation 1 • Yi: i={1,2,..,N}番目の対象のアウトカム(反応変 数) • Xi：p×1の共変量ベクトル • Ex. “X1”は1番目の対象の共変量ベクトルを示す • μi: i番目の対象の期待値=E[Yi|Xi1,Xi2,..,Xip] • Var(Yi): i番目の反応変数の分散 • β: p×1の回帰係数ベクトル • パラメータ(μ、β)の推定値にはハット(^)をつける • 確率変数はY, 𝜇, 𝜷, である
8. 8. 復習：一般化線形モデルのステップ • 一般化線形モデルは以下のステップを踏みパラメー タβを推定する。(最尤推定法) • ① Yi の確率分布を仮定する(ex.2値なら2項分布な ど)。 • ② Yiの期待値に対する回帰モデルを立てる(リンク 関数hを介在させる)。 • • ③ ①より尤度関数を作り、②を代入する。この尤度 関数を最大化するようなβを決定すればそれが最尤 推定量 𝛽である。対数をとった尤度関数をβについて 偏微分し、その関数(スコア関数)の根を求める。 ( ) (1)T i ih  X β
9. 9. 復習：最尤推定の一般例 • 一般化線形モデルでは反応変数の確率分布 は全て指数分布族を考えている。そして指数 分布族は全て以下の形で書ける • ここでΘは興味のあるパラメーター、φは拡散パラメーター • また、 が導か れる。さて、Yiがすべて独立であるとき尤度関 数は ( ) exp[{ ( ) ( )} ]i i i i if y y a b y     ( ) '( ), ( ) "( ) /i i i i iE y a Var y a      1 2 1 ( ; , ,.., ) ( ) N N i i L y y y f y   
10. 10. 復習：最尤推定の一般例 • さてこの尤度関数を最大にするβを求めたい のだが、このままだとやりにくいので対数を とって和の形にする。その後βについて偏微 分し、極値をみつければ良い(高校数学！) ここで、βはp×1のベクトル • この対数尤度関数を偏微分したものをスコア 関数といい、一般的に次で示される ( ; ,.., ) log 0i Nl y y L      β β 1 1 ( ) { ( )} ( ) (2) N i i i i i U Var Y y        β β
11. 11. 復習：最尤推定の一般例 • スコア関数＝0としたスコア方程式を解いて、 最尤推定量 𝜷を求める。 • この最尤推定量にはいくつかの望ましい性質 がある。 1. 一致性(Ｎ→∞につれて、推定量が真値に近づ く) 2. 漸近正規性(N→∞につれて、推定量の分布が 正規分布となる)
12. 12. 最尤法の問題点 • 一般化線形モデルにおける最尤法の問題と して、①アウトカムの分布が指数分布族では 無いとき、②アウトカムがそれぞれ独立では 無いとき、が挙げられる。 • 今から述べる擬似尤度は①の制約を取り払 い、GEEはさらに②の制約を(限定的ではある が)取り払うような拡張をしていると解される。
13. 13. 擬似尤度(Wedderburn,1974) • アウトカムの分布が指数分布族以外である場合 の有名な例が、ポアソン回帰モデルにおける過 分散(over-dipersion)の問題である • カウントデータに対するポアソン回帰のあてはめ では、アウトカムの真の分布がポアソン分布で は無いために、分散の過剰評価が生じやすいこ とが知られる。 • ならば、アウトカムの分布は考えなければ良い、 というアイディアが擬似尤度の考え方である。
14. 14. 擬似尤度(Wedderburn,1974) • Yの分布が指数分布族であれば、 • より、両者の関係性が一意 に決まる。これを次に示す。 • 擬似尤度の考え方ではある重みViをVar(Yi)の 代わりとして考える。つまり、 とおく。 ( ) '( ),i i iE Y a   ( ) "( ) /i iVar Y a   ( ) ( ) /i iVar Y    ( ) / (3)i iV    ν()はある関数
15. 15. 擬似尤度(Wedderburn,1974) • 擬似尤度の仮定を整理すると 1. (1)式 • この仮定をもとに、以下の方程式を解くことに よって定まる 𝛽を擬似尤度推定量とする。 ( )T i ih  X β ( ) /i iV    1 1 ( ) ( ) { ( )} 0 (4) N Ti QR i i i i U V Y          β β
16. 16. 擬似尤度(Wedderburn,1974) • (4)式はスコア方程式(2)に非常によく似ている。 • このため(4)式は擬似スコア方程式ともよばれ る。よく似せているので、この重みViがもし、 Var(Yi)と一致している(=Yが指数分布族)なら ば、これはスコア方程式(2)と同一のものにな る。 • さて、この擬似尤度方程式を解いて得られる 推定量 𝛽の性質を調べてみる。
17. 17. 擬似尤度推定量の性質 • 実は最尤推定量と同様な望ましい性質(一致性 と漸近正規性)があると分かる。 • これを証明してみる。定石に従って、テーラー展 開からの中心極限定理、大数の法則を使う 0 1 1 0 1 0 1 0 1 1 1 1 1 ˆ( ) ( , ) lim (5) 1 ( ) ( ), 1 ( ) ( ) ( ) F N N Ti i i N Ti i i i i N N C where C I I I i I V N i I V Var Y V N                              β β 0 β β β β
18. 18. 漸近正規性と一致性の証明 • UQR( 𝜷)を真値𝜷0のまわりでテーラー展開し、N→∞ほど十分 大きく、正則条件を満たしていると(limは明示したりしなかっ たりです) 0 0 0 0 1 0 0 1 1 1 0 × ×1 ˆ ˆ( ) ( ) { ( ) }( ) (1) 1 1 ˆ ˆ( ) { ( ) } ( ) (1) ( ) 0 1 1ˆ( ) { ( ) } ( ) (1) * (1) 1 1 { ( ) } , ( ) QR QR QR p QR QR p QR QR QR p p QR QR p p p U U U o U U N o U NN N U U o N N o where U U N N                                   0 0 0 0 β β β β β β β β β β β β β β β β β β β β β β β β β H B H β B β β Q
19. 19. 漸近正規性の証明 • →Cont’d • 補足：Aには”1/N*∑”という形が現れ、これは標本平均と考え られるから大数の法則により期待値(定数)に収束する。 • Bには「1/√N*∑」が現れ、中心極限定理が使える。 1 1 1 0 1 0 1 1 { ( ) } lim [ ( ) ( )] (1) 1 1 ( ) lim [( ) ( )] ~ ˆ( ) ~ N Ti QR i i i N i N Ti QR i i i N i U V Y N N Op U V Y N N Normal N Normal distribution                               0β β H β β β β B β β β β
20. 20. 一致性の証明 • 漸近正規性は確認されたので、平均と分散を求める 0 1 1 1 1 0 0 0 0 1 1 1 1 ˆ[ ( )] [ (1)] (1)* [ ] (1), 1 1 [ ] [ {( ) ( )}] {( ) [ ]} ˆ[ ( )] ˆ ˆ ˆ[ ( )] [{ ( )}{ ( )} ] [ (1)] [ ] , T N N T Ti i i i i i i i i i T E N E op Op E op E E V Y V E Y N N E N Var N E N N E op E                                         T T T β β HB B B β β 0 β β 0 β β β β β β H BB H H BB H H 1 1 1 1 [ ( ) ( )] [( ) ( )] N Ti i i i i Ti i i i V Y N E V Y                  β β β β H と E[BBT]に分解
21. 21. 一致性の証明(cont’d) 1 2 1 1 1 1 1 1 1 1 1 [( ) ( )] [( ) ( ) ( ) ( ) ( ) ( ) { ( )}] { ( ) ( )} ( ) ( ) 1 lim ( ) ( ) Ti i i i T Ti i i i i i i i i iT Ti i i i T Ti i i i i i N Ti i i N i E V Y E V Y V V V Y V Y V V V N                                                                      H β β β β β β β β 0 0 β β β β H β β Hは対称行列
22. 22. 一致性の証明(cont’d) 1 1 1 1 1 1 1 1 0 0 1 0 1 [ ] lim [( ) [( )( ) ] ( )] 1 lim [( ) ( ) ( ) ˆ[ ( )] [ ] ˆ( )~ ( , ) 1 lim ( ) ( N T T Ti i i i i i i i N i N Ti i i i i N i Ti i N E V E Y Y V N V Var Y V N Var N E N N where V N                                           T -1 -1 0 1 0 -1 -1 0 1 0 BB β β β β β β H BB H I I I β β 0 I I I I β1 1 1 1 1 ), 1 lim [( ) ( ) ( )] N i i N Ti i i i i N i V Var Y V N                  β I β β
23. 23. サンドイッチ推定量 • 𝜷の分散の推定量は という風にはさま れた形で生じるためサンドイッチ推定量と呼 ばれる。 • もしYiが指数分布族であれば、前述したように この 𝜷は最尤推定量と同一になる -1 -1 0 1 0I I I 1 0 1 1 1 0 1 0 1ˆ( )~ ( , )N N             I I I I I β β 0 フィッシャー情報行列
24. 24. 演算 • 一般化線形モデルと同様に、陽に計算するこ とは困難な場合が多いから、反復計算を行っ て求める。 • 結局は(4)式を解けばいいので、求根法のス コアアルゴリズム(ニュートンラプソン法の一 種)や反復重み付き最小二乗法を使えばよい。
25. 25. まとめ：擬似尤度 • 擬似尤度はアウトカムの確率分布を必要とし ない。要求するのは重みViとμiとの関係 • その関係も実際に計算(反復計算)するときに は陽に示す必要はない • もし、真のアウトカムの確率分布が指数分布 族の同時分布であった場合は、その推定量 は最尤推定量と一致する • そのため、一般化線形モデルの純粋な拡張 といえる
26. 26. GEE = 擬似尤度の拡張 • 今までは、アウトカムYiは全て独立であるとい う仮定をしてきた。 • ここからは、繰り返し測定データのようにアウ トカムに何らかの相関構造がある状況を想定 しよう。 • 前述したように、このようなYiの同時分布を見 つけるのは至難であり、分布の仮定が必要な い擬似尤度の考え方を応用してみる
27. 27. Notation 2 • アウトカムYi={Yi1,..,Yij,..,Yini } • j={1,..,ni} :the number within a subject • i={1,..,N} :the number of subjects • E[Yi]= μiはni×1ベクトル • Cov[Yi] は共分散成分もあり • Yi同士は独立とする • Yiの同時分布は仮定しない • 𝜷 𝐺はGEEでの推定量 ( )T i ihμ X β
28. 28. GEE • 擬似尤度方程式(4)をそのまま持って来よう • 問題はCov(Yi)を暗示するViに相関構造が存在する ことである。この相関構造を決定するパラメーターを αとしてさらに考えてみる。 1 1 0 ( ), ( ) N T i i i i i i i i i where D S          D V S Y μ β β
29. 29. GEE • 対称行列であるViは対角行列Aと相関行列Ri(α)に一般に分 解できる。たとえば相関構造が”exchangeable”のときの例を 示す 1/2 1/2 1 ( ) / ( ) 0 { ( )}, 0 ( ) 1 ( ) 1 , 1 i i i i in i where diag                                                 i V A R A A μ R α α L M O M L
30. 30. GEE • 前スライドの式の構造をもう少し詳しくみてみる と、対角行列Aは擬似尤度のときの仮定・式(3)を 意味していることが分かる。 • 相関行列Ri(α)は相関構造を示すパラメータ行列 αに依存している。 • ”exchangeable”であれば成分がすべて同一の値となる し、”autoregrresive”なら行列の成分同士の距離に応じ た値となる • GEEではこの相関行列Ri(α)を「作業」相関行列呼 び、ユーザーが指定することになる。
31. 31. GEE • さて、この「作業」相関行列は、アウトカムYiの真 の相関行列を暗示したいのだが、実務上これが アプリオリに分かっている状況は考えにくい。 • なので、この作業相関行列がたとえ初期設定で 多少間違っていても、パラメーターβが正確に推 定されることを期待したい。 • ここまでまとめると、GEE(一般化推定方程式)とし て、次の方程式を考え、βを推定することとする。 ただし、これはαにも依存する
32. 32. GEE 1 1 1/2 1/2 ( , ) 0 (6) ( ), ( ) / , ( ), { ( )} N T GEE i i i i i i i i i i i U where diag                  i D V S μ D V A R A S Y μ β β A μ • Di, A, Si はβに依存し、Ri(α)はαに依存している • ここまで準備した上で、この方程式を解いたパラ メータβの推定量の性質を調べてみる。 • αについては作業相関行列をユーザーが指定す ることで決定される。
33. 33. Theorem • 以下のweak conditionsを仮定し i. ii. iii. • この条件のもと推定量 𝛽 𝐺は • これを証明する ˆ( ) (1), ; ˆ( ) (1), ; ˆ( , ) ( , ), (1) p p p N O given and N O given H which is O             α α β β α β Y β 1 1 0 0 1 0 1 1 1 0 1 1 1 ˆ( ) ~ ( , ) 1 1 lim , lim ( ) ] G N N T T i i i i i i i i N N i i N N where Cov N N              β β 0 M M M M D V D M D V Y V D
34. 34. Theorem-Proof • 一般化推定方程式(6)の構成要素はα、β、Θ であるので前述したweak conditions(弱条件) のもとで以下のように表すことができる • 次にα*を次の式で導入しておく 1 ˆˆ[ , { , ( )}] 0 (7) N i i U    β α β β * ˆˆ( ) { , ( )}α β α β β
35. 35. Proof • α*をαまわりでテーラー展開 * * * * * * 1 1 * { , ( )} ( , ) ( , ) / ( ) (1) (1) 1 lim (1) arg 1 ˆˆ ˆ ˆ[ { , ( )} ( , ) ( , ) ] ˆ1 ˆ ˆ ˆ[( ) { , ( )} ( , ) ] i i i N T i i i N i U U U N op NN N op op Lawof L e Numbers N N N partial derivati                                     β α β β α β α α α α P Q R Q D V S R α β β α β α β α α β β α β α Q Q ˆ * ˆˆ ˆ ˆ{ , ( )} ( , )ˆ. : { , ( )} lim ˆ (1) vedef Op The weak conditions               α α β β α β β β R Q
36. 36. Proof(cont’d) • 左辺(√Nで割った(7)式)は結局P*と漸近的に一致す る • 中心極限定理よりP*は漸近的に正規分布となる • またその期待値と分散は • と比較容易に導出できる * * 1 1 1 { , ( )} [ ] , { , ( )} [ ] lim{ ( ) } i N i T T i i i i i N i U E N U Var Cov N          β α β 0 β α β D V Y V D
37. 37. Proof(cont’d) • α*の一致性と漸近正規性が分かったので本命の 𝛽 𝐺 について同様に議論する • 擬似尤度の項で行ったことと同様の式変形で、 • これを示すことができる。 * 1 * 0 1 1 1 1ˆ( ) { [ , ( )] } [ , ( ) ] (1) N N G i i p i i N U U o N N             β β0 0β β β β β α β β α β β 1 1 0 0 1 0 1 1 1 0 1 1 1 ˆ( ) ~ ( , ) 1 1 lim , lim ( ) ] G N N T T i i i i i i i i N N i i N N where Cov N N              β β 0 M M M M D V D M D V Y V D
38. 38. まとめ：GEE • Yiの期待値に関する回帰式(1)式と作業相関 行列を規定すると(つまりパラメータαを規定 する)、一般化推定方程式GEE=(6)式を解くこ とで得られる 𝜷 𝐺は一致性と漸近正規性を持 つ。 • もし作業相関行列がCov(Yi)の相関構造部分 と同一であれば、最尤推定と同一の結果とな る。そうでないとしても後述する数値的な接近 法でロバストな推定量が得られる。
39. 39. GEEの計算 • (7)式は陽にはとけないが、結局は求根法な ので、フィッシャースコアアルゴリズムなどで 数値的に接近することができる。 • しかし、求めるべきは 𝜷 𝐺だけでなく 𝛼も推定し なければならないので、2段階法で解く • 通常は残差を用いて 𝜶の推定をする。 • この方法における 𝜶は一致性を持つことは容 易に示すことができる(略)
40. 40. Modified Fisher Scoring algorhythm • この式を反復して収束まで続ける • (フィッシャースコアアルゴリズムはニュートンラフソン法の尤 度計算における改良版です) 1 1 1 1 1 1 ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ{ ( ) ( ) ( )] } { ( ) ( ) ( )]} N N T T j j i j i j i j i j i j i j i i          β β D β V β D β D β V β S β% %
41. 41. おまけ：GEE V.S. mixed-model • GEEと比較して語られるのが混合効果モデル であるが、アウトカムが離散値の場合はこの 両者の推定値が異なる(というか解釈が異な る)ことが知られている。 • なぜこういうことがおきるかというと、一言で いえば「リンク関数が挟まっているから」 [ ( )] ( [ ])E g Y g E Y
42. 42. おまけ：GEE V.S. mixed-model • GEEは”marginal (population-averaged) mean”で GLMMは”conditional (subject-specific) mean”が 推定される • 詳しくは https://perswww.kuleuven.be/~u0018341/documents/ldasc1 2Budapest.pdf ˆarg : ( ) ˆ: ( | ) ˆ, ( | 0) T i i G T i i i M i i T i i i M M inal mean E Y X Conditional mean E Y b X Z b specifically E Y b X        
43. 43. まとめ • 一般化推定方程式はアウトカムが独立でな い状況(繰り返し測定やクラスターのあるデー タなど)で威力を発揮する手法である • また作業相関行列をmisspecifyしてもある程 度のロバストな推定ができる • 混合モデルとの比較はアウトカムが離散値の 場合、推定量の解釈が異なってくる(もし暇が あれば、なぜこうなるのかのスライドも作る予 定)
44. 44. まとめ GLM Quasi-likelihood GEE 制約 ①アウトカムの分布が指数分 布族(の同時分布) ②アウトカムがそれぞれ独立 ①を取り払う ②を取り払う