Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.                                            Upcoming SlideShare
×

# GEE(一般化推定方程式)の理論

15,442 views

Published on

11/6 リバイズしました

Published in: Science
• Full Name
Comment goes here.

Are you sure you want to Yes No
Your message goes here Are you sure you want to  Yes  No
Your message goes here

### GEE(一般化推定方程式)の理論

1. 1. GEE(一般化推定方程式)の理論 -Liang and Zeger, Biometorika 1986 の行間を読む- 宜保光一郎 2015/11/6
2. 2. http://magazine.j hsph.edu/2002/fa ll/Accolades.html http://www.jhsph.edu /faculty/directory/prof ile/3859/scott-zeger
3. 3. はじめに • このスライドは医学統計において重要な発展 の一つである一般化推定方程式(GEE)の理論 的な解説を目的としています。 • 原著はA4の3Pくらいで解説していますが、非 専門家が読むにはかなりつらいので、行間を 埋めるように心がけました。 • 数式の展開は結構面倒くさいので、もしかし たら表記にちょっとした誤りがあるかもしれま せん(limが抜けてたり、ベクトルがボルド体に なっていなかったりetc.)。
4. 4. PubMedにコメントもついている • 機械学習領域で著名なTibshiraniがPubMed にコメントを付けている http://www.ncbi.nlm.nih.go v/pubmed/3719049
5. 5. Overview • 全体を俯瞰すると、一般化線形モデルの拡 張である擬似尤度法(Wedderburn 1976)をさ らに拡張したものといえる。 • まずは、①一般化線形モデルのおさらいをし て、②擬似尤度法、③GEEと進めていく
6. 6. 概念図 GLM Quasi-likelihood GEE 制約 ①アウトカムの分布が指数分 布族(の同時分布) ②アウトカムがそれぞれ独立 ①を取り払う ②を取り払う
7. 7. Notation 1 • Yi: i={1,2,..,N}番目の対象のアウトカム(反応変 数) • Xi：p×1の共変量ベクトル • Ex. “X1”は1番目の対象の共変量ベクトルを示す • μi: i番目の対象の期待値=E[Yi|Xi1,Xi2,..,Xip] • Var(Yi): i番目の反応変数の分散 • β: p×1の回帰係数ベクトル • パラメータ(μ、β)の推定値にはハット(^)をつける • 確率変数はY, 𝜇, 𝜷, である
8. 8. 復習：一般化線形モデルのステップ • 一般化線形モデルは以下のステップを踏みパラメー タβを推定する。(最尤推定法) • ① Yi の確率分布を仮定する(ex.2値なら2項分布な ど)。 • ② Yiの期待値に対する回帰モデルを立てる(リンク 関数hを介在させる)。 • • ③ ①より尤度関数を作り、②を代入する。この尤度 関数を最大化するようなβを決定すればそれが最尤 推定量 𝛽である。対数をとった尤度関数をβについて 偏微分し、その関数(スコア関数)の根を求める。 ( ) (1)T i ih  X β
9. 9. 復習：最尤推定の一般例 • 一般化線形モデルでは反応変数の確率分布 は全て指数分布族を考えている。そして指数 分布族は全て以下の形で書ける • ここでΘは興味のあるパラメーター、φは拡散パラメーター • また、 が導か れる。さて、Yiがすべて独立であるとき尤度関 数は ( ) exp[{ ( ) ( )} ]i i i i if y y a b y     ( ) '( ), ( ) "( ) /i i i i iE y a Var y a      1 2 1 ( ; , ,.., ) ( ) N N i i L y y y f y   
10. 10. 復習：最尤推定の一般例 • さてこの尤度関数を最大にするβを求めたい のだが、このままだとやりにくいので対数を とって和の形にする。その後βについて偏微 分し、極値をみつければ良い(高校数学！) ここで、βはp×1のベクトル • この対数尤度関数を偏微分したものをスコア 関数といい、一般的に次で示される ( ; ,.., ) log 0i Nl y y L      β β 1 1 ( ) { ( )} ( ) (2) N i i i i i U Var Y y        β β
11. 11. 復習：最尤推定の一般例 • スコア関数＝0としたスコア方程式を解いて、 最尤推定量 𝜷を求める。 • この最尤推定量にはいくつかの望ましい性質 がある。 1. 一致性(Ｎ→∞につれて、推定量が真値に近づ く) 2. 漸近正規性(N→∞につれて、推定量の分布が 正規分布となる)
12. 12. 最尤法の問題点 • 一般化線形モデルにおける最尤法の問題と して、①アウトカムの分布が指数分布族では 無いとき、②アウトカムがそれぞれ独立では 無いとき、が挙げられる。 • 今から述べる擬似尤度は①の制約を取り払 い、GEEはさらに②の制約を(限定的ではある が)取り払うような拡張をしていると解される。
13. 13. 擬似尤度(Wedderburn,1974) • アウトカムの分布が指数分布族以外である場合 の有名な例が、ポアソン回帰モデルにおける過 分散(over-dipersion)の問題である • カウントデータに対するポアソン回帰のあてはめ では、アウトカムの真の分布がポアソン分布で は無いために、分散の過剰評価が生じやすいこ とが知られる。 • ならば、アウトカムの分布は考えなければ良い、 というアイディアが擬似尤度の考え方である。
14. 14. 擬似尤度(Wedderburn,1974) • Yの分布が指数分布族であれば、 • より、両者の関係性が一意 に決まる。これを次に示す。 • 擬似尤度の考え方ではある重みViをVar(Yi)の 代わりとして考える。つまり、 とおく。 ( ) '( ),i i iE Y a   ( ) "( ) /i iVar Y a   ( ) ( ) /i iVar Y    ( ) / (3)i iV    ν()はある関数
15. 15. 擬似尤度(Wedderburn,1974) • 擬似尤度の仮定を整理すると 1. (1)式 • この仮定をもとに、以下の方程式を解くことに よって定まる 𝛽を擬似尤度推定量とする。 ( )T i ih  X β ( ) /i iV    1 1 ( ) ( ) { ( )} 0 (4) N Ti QR i i i i U V Y          β β
16. 16. 擬似尤度(Wedderburn,1974) • (4)式はスコア方程式(2)に非常によく似ている。 • このため(4)式は擬似スコア方程式ともよばれ る。よく似せているので、この重みViがもし、 Var(Yi)と一致している(=Yが指数分布族)なら ば、これはスコア方程式(2)と同一のものにな る。 • さて、この擬似尤度方程式を解いて得られる 推定量 𝛽の性質を調べてみる。
17. 17. 擬似尤度推定量の性質 • 実は最尤推定量と同様な望ましい性質(一致性 と漸近正規性)があると分かる。 • これを証明してみる。定石に従って、テーラー展 開からの中心極限定理、大数の法則を使う 0 1 1 0 1 0 1 0 1 1 1 1 1 ˆ( ) ( , ) lim (5) 1 ( ) ( ), 1 ( ) ( ) ( ) F N N Ti i i N Ti i i i i N N C where C I I I i I V N i I V Var Y V N                              β β 0 β β β β
18. 18. 漸近正規性と一致性の証明 • UQR( 𝜷)を真値𝜷0のまわりでテーラー展開し、N→∞ほど十分 大きく、正則条件を満たしていると(limは明示したりしなかっ たりです) 0 0 0 0 1 0 0 1 1 1 0 × ×1 ˆ ˆ( ) ( ) { ( ) }( ) (1) 1 1 ˆ ˆ( ) { ( ) } ( ) (1) ( ) 0 1 1ˆ( ) { ( ) } ( ) (1) * (1) 1 1 { ( ) } , ( ) QR QR QR p QR QR p QR QR QR p p QR QR p p p U U U o U U N o U NN N U U o N N o where U U N N                                   0 0 0 0 β β β β β β β β β β β β β β β β β β β β β β β β β H B H β B β β Q
19. 19. 漸近正規性の証明 • →Cont’d • 補足：Aには”1/N*∑”という形が現れ、これは標本平均と考え られるから大数の法則により期待値(定数)に収束する。 • Bには「1/√N*∑」が現れ、中心極限定理が使える。 1 1 1 0 1 0 1 1 { ( ) } lim [ ( ) ( )] (1) 1 1 ( ) lim [( ) ( )] ~ ˆ( ) ~ N Ti QR i i i N i N Ti QR i i i N i U V Y N N Op U V Y N N Normal N Normal distribution                               0β β H β β β β B β β β β
20. 20. 一致性の証明 • 漸近正規性は確認されたので、平均と分散を求める 0 1 1 1 1 0 0 0 0 1 1 1 1 ˆ[ ( )] [ (1)] (1)* [ ] (1), 1 1 [ ] [ {( ) ( )}] {( ) [ ]} ˆ[ ( )] ˆ ˆ ˆ[ ( )] [{ ( )}{ ( )} ] [ (1)] [ ] , T N N T Ti i i i i i i i i i T E N E op Op E op E E V Y V E Y N N E N Var N E N N E op E                                         T T T β β HB B B β β 0 β β 0 β β β β β β H BB H H BB H H 1 1 1 1 [ ( ) ( )] [( ) ( )] N Ti i i i i Ti i i i V Y N E V Y                  β β β β H と E[BBT]に分解
21. 21. 一致性の証明(cont’d) 1 2 1 1 1 1 1 1 1 1 1 [( ) ( )] [( ) ( ) ( ) ( ) ( ) ( ) { ( )}] { ( ) ( )} ( ) ( ) 1 lim ( ) ( ) Ti i i i T Ti i i i i i i i i iT Ti i i i T Ti i i i i i N Ti i i N i E V Y E V Y V V V Y V Y V V V N                                                                      H β β β β β β β β 0 0 β β β β H β β Hは対称行列
22. 22. 一致性の証明(cont’d) 1 1 1 1 1 1 1 1 0 0 1 0 1 [ ] lim [( ) [( )( ) ] ( )] 1 lim [( ) ( ) ( ) ˆ[ ( )] [ ] ˆ( )~ ( , ) 1 lim ( ) ( N T T Ti i i i i i i i N i N Ti i i i i N i Ti i N E V E Y Y V N V Var Y V N Var N E N N where V N                                           T -1 -1 0 1 0 -1 -1 0 1 0 BB β β β β β β H BB H I I I β β 0 I I I I β1 1 1 1 1 ), 1 lim [( ) ( ) ( )] N i i N Ti i i i i N i V Var Y V N                  β I β β
23. 23. サンドイッチ推定量 • 𝜷の分散の推定量は という風にはさま れた形で生じるためサンドイッチ推定量と呼 ばれる。 • もしYiが指数分布族であれば、前述したように この 𝜷は最尤推定量と同一になる -1 -1 0 1 0I I I 1 0 1 1 1 0 1 0 1ˆ( )~ ( , )N N             I I I I I β β 0 フィッシャー情報行列
24. 24. 演算 • 一般化線形モデルと同様に、陽に計算するこ とは困難な場合が多いから、反復計算を行っ て求める。 • 結局は(4)式を解けばいいので、求根法のス コアアルゴリズム(ニュートンラプソン法の一 種)や反復重み付き最小二乗法を使えばよい。
25. 25. まとめ：擬似尤度 • 擬似尤度はアウトカムの確率分布を必要とし ない。要求するのは重みViとμiとの関係 • その関係も実際に計算(反復計算)するときに は陽に示す必要はない • もし、真のアウトカムの確率分布が指数分布 族の同時分布であった場合は、その推定量 は最尤推定量と一致する • そのため、一般化線形モデルの純粋な拡張 といえる
26. 26. GEE = 擬似尤度の拡張 • 今までは、アウトカムYiは全て独立であるとい う仮定をしてきた。 • ここからは、繰り返し測定データのようにアウ トカムに何らかの相関構造がある状況を想定 しよう。 • 前述したように、このようなYiの同時分布を見 つけるのは至難であり、分布の仮定が必要な い擬似尤度の考え方を応用してみる
27. 27. Notation 2 • アウトカムYi={Yi1,..,Yij,..,Yini } • j={1,..,ni} :the number within a subject • i={1,..,N} :the number of subjects • E[Yi]= μiはni×1ベクトル • Cov[Yi] は共分散成分もあり • Yi同士は独立とする • Yiの同時分布は仮定しない • 𝜷 𝐺はGEEでの推定量 ( )T i ihμ X β
28. 28. GEE • 擬似尤度方程式(4)をそのまま持って来よう • 問題はCov(Yi)を暗示するViに相関構造が存在する ことである。この相関構造を決定するパラメーターを αとしてさらに考えてみる。 1 1 0 ( ), ( ) N T i i i i i i i i i where D S          D V S Y μ β β
29. 29. GEE • 対称行列であるViは対角行列Aと相関行列Ri(α)に一般に分 解できる。たとえば相関構造が”exchangeable”のときの例を 示す 1/2 1/2 1 ( ) / ( ) 0 { ( )}, 0 ( ) 1 ( ) 1 , 1 i i i i in i where diag                                                 i V A R A A μ R α α L M O M L
30. 30. GEE • 前スライドの式の構造をもう少し詳しくみてみる と、対角行列Aは擬似尤度のときの仮定・式(3)を 意味していることが分かる。 • 相関行列Ri(α)は相関構造を示すパラメータ行列 αに依存している。 • ”exchangeable”であれば成分がすべて同一の値となる し、”autoregrresive”なら行列の成分同士の距離に応じ た値となる • GEEではこの相関行列Ri(α)を「作業」相関行列呼 び、ユーザーが指定することになる。
31. 31. GEE • さて、この「作業」相関行列は、アウトカムYiの真 の相関行列を暗示したいのだが、実務上これが アプリオリに分かっている状況は考えにくい。 • なので、この作業相関行列がたとえ初期設定で 多少間違っていても、パラメーターβが正確に推 定されることを期待したい。 • ここまでまとめると、GEE(一般化推定方程式)とし て、次の方程式を考え、βを推定することとする。 ただし、これはαにも依存する
32. 32. GEE 1 1 1/2 1/2 ( , ) 0 (6) ( ), ( ) / , ( ), { ( )} N T GEE i i i i i i i i i i i U where diag                  i D V S μ D V A R A S Y μ β β A μ • Di, A, Si はβに依存し、Ri(α)はαに依存している • ここまで準備した上で、この方程式を解いたパラ メータβの推定量の性質を調べてみる。 • αについては作業相関行列をユーザーが指定す ることで決定される。
33. 33. Theorem • 以下のweak conditionsを仮定し i. ii. iii. • この条件のもと推定量 𝛽 𝐺は • これを証明する ˆ( ) (1), ; ˆ( ) (1), ; ˆ( , ) ( , ), (1) p p p N O given and N O given H which is O             α α β β α β Y β 1 1 0 0 1 0 1 1 1 0 1 1 1 ˆ( ) ~ ( , ) 1 1 lim , lim ( ) ] G N N T T i i i i i i i i N N i i N N where Cov N N              β β 0 M M M M D V D M D V Y V D
34. 34. Theorem-Proof • 一般化推定方程式(6)の構成要素はα、β、Θ であるので前述したweak conditions(弱条件) のもとで以下のように表すことができる • 次にα*を次の式で導入しておく 1 ˆˆ[ , { , ( )}] 0 (7) N i i U    β α β β * ˆˆ( ) { , ( )}α β α β β
35. 35. Proof • α*をαまわりでテーラー展開 * * * * * * 1 1 * { , ( )} ( , ) ( , ) / ( ) (1) (1) 1 lim (1) arg 1 ˆˆ ˆ ˆ[ { , ( )} ( , ) ( , ) ] ˆ1 ˆ ˆ ˆ[( ) { , ( )} ( , ) ] i i i N T i i i N i U U U N op NN N op op Lawof L e Numbers N N N partial derivati                                     β α β β α β α α α α P Q R Q D V S R α β β α β α β α α β β α β α Q Q ˆ * ˆˆ ˆ ˆ{ , ( )} ( , )ˆ. : { , ( )} lim ˆ (1) vedef Op The weak conditions               α α β β α β β β R Q
36. 36. Proof(cont’d) • 左辺(√Nで割った(7)式)は結局P*と漸近的に一致す る • 中心極限定理よりP*は漸近的に正規分布となる • またその期待値と分散は • と比較容易に導出できる * * 1 1 1 { , ( )} [ ] , { , ( )} [ ] lim{ ( ) } i N i T T i i i i i N i U E N U Var Cov N          β α β 0 β α β D V Y V D
37. 37. Proof(cont’d) • α*の一致性と漸近正規性が分かったので本命の 𝛽 𝐺 について同様に議論する • 擬似尤度の項で行ったことと同様の式変形で、 • これを示すことができる。 * 1 * 0 1 1 1 1ˆ( ) { [ , ( )] } [ , ( ) ] (1) N N G i i p i i N U U o N N             β β0 0β β β β β α β β α β β 1 1 0 0 1 0 1 1 1 0 1 1 1 ˆ( ) ~ ( , ) 1 1 lim , lim ( ) ] G N N T T i i i i i i i i N N i i N N where Cov N N              β β 0 M M M M D V D M D V Y V D
38. 38. まとめ：GEE • Yiの期待値に関する回帰式(1)式と作業相関 行列を規定すると(つまりパラメータαを規定 する)、一般化推定方程式GEE=(6)式を解くこ とで得られる 𝜷 𝐺は一致性と漸近正規性を持 つ。 • もし作業相関行列がCov(Yi)の相関構造部分 と同一であれば、最尤推定と同一の結果とな る。そうでないとしても後述する数値的な接近 法でロバストな推定量が得られる。
39. 39. GEEの計算 • (7)式は陽にはとけないが、結局は求根法な ので、フィッシャースコアアルゴリズムなどで 数値的に接近することができる。 • しかし、求めるべきは 𝜷 𝐺だけでなく 𝛼も推定し なければならないので、2段階法で解く • 通常は残差を用いて 𝜶の推定をする。 • この方法における 𝜶は一致性を持つことは容 易に示すことができる(略)
40. 40. Modified Fisher Scoring algorhythm • この式を反復して収束まで続ける • (フィッシャースコアアルゴリズムはニュートンラフソン法の尤 度計算における改良版です) 1 1 1 1 1 1 ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ{ ( ) ( ) ( )] } { ( ) ( ) ( )]} N N T T j j i j i j i j i j i j i j i i          β β D β V β D β D β V β S β% %
41. 41. おまけ：GEE V.S. mixed-model • GEEと比較して語られるのが混合効果モデル であるが、アウトカムが離散値の場合はこの 両者の推定値が異なる(というか解釈が異な る)ことが知られている。 • なぜこういうことがおきるかというと、一言で いえば「リンク関数が挟まっているから」 [ ( )] ( [ ])E g Y g E Y
42. 42. おまけ：GEE V.S. mixed-model • GEEは”marginal (population-averaged) mean”で GLMMは”conditional (subject-specific) mean”が 推定される • 詳しくは https://perswww.kuleuven.be/~u0018341/documents/ldasc1 2Budapest.pdf ˆarg : ( ) ˆ: ( | ) ˆ, ( | 0) T i i G T i i i M i i T i i i M M inal mean E Y X Conditional mean E Y b X Z b specifically E Y b X        
43. 43. まとめ • 一般化推定方程式はアウトカムが独立でな い状況(繰り返し測定やクラスターのあるデー タなど)で威力を発揮する手法である • また作業相関行列をmisspecifyしてもある程 度のロバストな推定ができる • 混合モデルとの比較はアウトカムが離散値の 場合、推定量の解釈が異なってくる(もし暇が あれば、なぜこうなるのかのスライドも作る予 定)
44. 44. まとめ GLM Quasi-likelihood GEE 制約 ①アウトカムの分布が指数分 布族(の同時分布) ②アウトカムがそれぞれ独立 ①を取り払う ②を取り払う