SlideShare a Scribd company logo
1 of 29
Download to read offline
東京大学医学系研究科
 博士課程 倉橋一成
   曝露
    ◦ 興味のある疾患に関係してそうな因子
   曝露効果の指標
    ◦ リスク比,リスク差,オッズ比
    ◦ 発症率比,発症率差
   疾病頻度の指標
    ◦ 有病(Prevalence),発生(Incidence)
   集団
    ◦ リスク集団(At Risk)
    ◦ 閉じた集団,固定した集団,開いた集団




                               東京大学   医学系研究科   2
   リスク集団(Population At Risk)
    ◦ まだ興味のある疾病に罹患しておらず,将来その疾病に罹
      患する可能性のある人たち
   閉じた集団(Closed Population)
    ◦ 転出について閉じており,死亡によってのみ減少
   固定した集団(Fixed Population)
    ◦ あるイベントにより固定され,以降増える事がない
   開いた集団(Open Population)
    ◦ 出生,転入,死亡,転出などにより変化する




                            東京大学   医学系研究科   3
   リスク集団であるコホートを対象とする
    ◦ コホート:閉じておりかつ固定した集団
    ◦ At Risk,Closed and Fixed Population
   研究開始時に定義した集団を前向きに追跡
    ◦ Perspective Study
   曝露効果の指標
    ◦ リスク差,リスク比
    ◦ 発症率比,発症率差




                                    東京大学    医学系研究科   4
曝
 露
 あ
 り
 群



     曝
     露
     な
     し
     群



研究開始                     研究終了



         東京大学   医学系研究科          5
発症
           曝露                            合計
                     +        -
             +       A        C          N1
             -       B        D          N2
   確率モデル: A ~ Bi ( N1 , P ) , ~ Bi ( N 2 , P2 )
                          1   B
    ◦ 独立な二項分布を仮定
   リスクの最尤推定量
      P = A N1 , P2 = B N 2
      ˆ
       1
                 ˆ


                                  東京大学   医学系研究科    6
   二項分布の最尤推定量を求める

    Bi ( N , P ) から,実現値 r が得られた場合の尤度は
          N Cr P (1 − P )
                            N −r
=L              r                  であり,対数尤度は

     = log N Cr + r log P + ( N − r ) log (1 − P ) である.
      l
                          ∂l r N − r となる.
        このときスコア関数は          =       −
                          ∂P P 1 − P
                      r N −r   を解いて, P = r N
                                     ˆ
    よって最尤推定量は           −    =
                             0                            となる.
                      ˆ 1− P
                      P    ˆ


                                         東京大学   医学系研究科           7
A B             A N1 AN 2
   リスク差:   −       リスク比:      =
          N1 N 2          B N 2 BN1
    ◦ 最尤推定量をそのまま使う


   これらの指標の信頼区間を計算したい
    ◦ 誤差(分散)を評価する
    ◦ デルタ法




                         東京大学   医学系研究科   8
   確率変数の関数の漸近分散はデルタ法で求める

       確率変数      X の関数 T ( X ) の漸近分散を知りたい.
           E [ X ] = µ , V [ X ] = σ 2 とする.
        T ( X ) を X = µ の周りでテイラー展開すると,
                                                   ( X − µ ) T ′′ µ +
                                                        2

             T ( X ) T ( µ ) + ( X − µ )T ′( µ ) +
                   =                                             ( )
                                                       2!
                    ≈ T ( µ ) + ( X − µ )T ′( µ )

    となるので, E T ( X )  ≈ T ( µ ) , V T ( X )  ≈ T ′ ( µ )       σ 2 である.
                                                               2
                                            


                                               東京大学   医学系研究科                  9
   リスク差(RD)はデルタ法を使わなくても求められる

           V  RD  = V  P − P2  =
            ˆ   ˆ      ˆ ˆ ˆ            (
                                       P 1− P
                                       ˆ
                                        1
                                            ˆ
                                             1   ) + P (1 − P ) =
                                                     ˆ
                                                       2
                                                            ˆ
                                                                 2   AC BD
                                                                        +
                       1                N1              N2       N13 N 23

    リスク比(RR)はデルタ法を使う
     ◦ 確率変数を最尤推定量に置き換える
                                   V P 
                                    ˆ ˆ          V  P2 
                                                  ˆ ˆ
 ˆ
    ( )
V log RR  = V log P − log P2  =
        ˆ
          
               ˆ
                 
                     ˆ
                      1
                             ˆ        1   +
                                 ˆ ˆ 2 ˆ ˆ 2 AN BN
                                                    
                                                     =
                                                       C
                                                           +
                                                             D    1 1 1 1
                                                                 = − + −
                                    E  P  E  P2 
                                        1    
                                                         1     2  A N1 B N 2




                                                       東京大学      医学系研究科         10
   生起確率の最尤推定量の期待値は
        E  P  E [= NP N P
        =   ˆ
                 R N] =

    ◦ 不偏推定量になっている
   生起確率の最尤推定量の分散は
    V  ˆ V [
       P  = R N ] = (1 − P ) N 2 =1 − P ) N
                    NP             P(

    ◦ Fisher情報量の逆数
    ◦ クラメル・ラオの不等式より最小分散を満たす
    ◦ 一様最小分散不偏推定量(UMVUE)


                                東京大学   医学系研究科   11
   Fisher情報量とは
     ◦ 定義:スコア関数を二乗して期待値をとる
    以下のものと等しい
     ◦ スコア関数を微分してマイナスを付けて期待値をとる
     ◦ スコア関数の分散
    証明はスコア関数の期待値が0であることを利用
                         ∂2                      ∂ L′ ( X , θ ) 
E  −l ′′ ( X , θ )  = 2 log ( L ( X , θ ) )  =
                    E −                      E −                
                          ∂θ                      ∂θ L ( X , θ ) 

             { L′ ( X , θ )}2 + L ( X , θ ) L′′ ( X , θ )     L′ ( X , θ )  2 
                                                                                   L′′ ( X , θ ) 
         = E                                              
                                                          = E                                     = E {l ( X , θ )} 
                                                                                                                      2
                                                                                +E                 
                           {L ( X ,θ )}                       L ( X ,θ )        L ( X ,θ ) 
                                                                                                                       
                                          2
                                                                            




                                                                    東京大学     医学系研究科                                         12
   疑似データ
                      発症
          曝露                            合計
                    +          -
            +      200       24800 25000
            -      300       59700 60000
   曝露あり2.5万人,曝露なし6万人を追跡
         200   300                      200 ⋅ 60000
リスク差:        −      =×10−2
                    0.3        リスク比:                = 1.6
        25000 60000                     300 ⋅ 25000




                                 東京大学   医学系研究科              13
   漸近分散を計算する
                     200 ⋅ 24800         300 ⋅ 59700
    リスク差の漸近分散:                       +                    4 ×10−7
                                                          =
                     ( 25000 )           ( 60000 )
                                 3                    3



                          1    1    1    1
    対数リスク比の漸近分散:            −     +   −      = 8.28 ×10−3
                         200 25000 300 60000


   漸近分散から信頼区間を求める
    リスク差の95%信頼区間: 0.3 × 10−3 ± 1.96 × 4 × 10−7 = 4.24 )
                                               (1.76,

    リスク比の95%信頼区間: 1.6 × e ±1.96×         8.28×10−3
                                                     (1.34,1.91)
                                                     =




                                                     東京大学   医学系研究科   14
data data;     input exposure ivent weight;   cards;
 1 1 200
 1 0 24800
 0 1 300
 0 0 59700
 ;
run;


proc freq data=data order=data;
     tables exposure*ivent/ nocol nopercent relrisk riskdiff measures;
     weight weight;   run;




                                              東京大学     医学系研究科            15
The FREQ Procedure
   Table of exposure by ivent
 exposure      ivent
Frequency|
Row Pct |         1|       0| Total
---------+--------+--------+
         1 |   200 | 24800 | 25000
          |    0.80 | 99.20 |
---------+--------+--------+
         0 |   300 | 59700 | 60000
          |    0.50 | 99.50 |
---------+--------+--------+
 Total          500    84500    85000




                                 東京大学   医学系研究科   16
Column 1 Risk Estimates
                                       (Asymptotic) 95%            (Exact) 95%
                 Risk          ASE     Confidence Limits       Confidence Limits
-----------------------------------------------------------------------------
Row 1            0.0080       0.0006     0.0069     0.0091        0.0069     0.0092
Row 2            0.0050       0.0003     0.0044     0.0056        0.0045     0.0056
Total            0.0059       0.0003     0.0054     0.0064        0.0054     0.0064
Difference       0.0030       0.0006     0.0018     0.0042

                  Estimates of the Relative Risk (Row1/Row2)
        Type of Study                    Value       95% Confidence Limits
        -----------------------------------------------------------------
        Case-Control (Odds Ratio)       1.6048        1.3411           1.9204
        Cohort (Col1 Risk)              1.6000        1.3387           1.9123
        Cohort (Col2 Risk)              0.9970        0.9957           0.9982



                                                           東京大学    医学系研究科             17
   ランダム化研究
    ◦ 因果的解釈
     曝露を受けると発症者が「リスク差」人増える
     曝露を受けるとリスクが「リスク比」倍になる
   コホート研究
    ◦ 記述的解釈
     曝露を受けた群は「リスク差」人多い
     曝露を受けた群は「リスク比」倍多い




                      東京大学   医学系研究科   18
   The goal of all research is to obtain valid evidence
    regarding the hypothesis under study. Ideally, we
    would want the quality of evidence from
    nonexperimental research to be as high as that
    obtainable from a well designed experiment, had one
    been possible. (Rothman and Greenlad, 1998)
   全ての研究のゴールは、仮設に対するもっともな証拠
    を得ることである。我々は非実験研究と正しく計画さ
    れた実験研究の証拠が同等の質であることを望んで
    いる。


                                 東京大学   医学系研究科             19
   古典的に言われいる必要条件
    ◦ Yの原因になっている
    ◦ 比較群の間で分布が異なっている
    ◦ X、Y間の中間変数ではない
   DAG (directed acyclic graph)理論からの定義
    ◦ XとYがconditional d-separationである場合に条件付ける変数
      d-separation: X-Y間にopen passが存在しない状況
      open pass: X-Y間にcolliderが存在しないパス
      collider: Xからの矢印とYからの矢印が向かい合っている変数




                            東京大学   医学系研究科         20
Z               W              Z

  X                     Y       X                       Y

Z: collider                  Z: confounder
Closed pass                  Open pass
Unconditional d-separation   conditional d-separation




                                 東京大学   医学系研究科              21
   交絡を調整しなくてはならない
    ◦ Simpsonのパラドックス(Simpson, 1951)

                  生存 死亡 合計
           非治療      6  6 12
                                  ⇒リスク比: 1
           治療      20 20 40
    男性                      女性
          生存 死亡 合計                    生存 死亡 合計
    非治療     4  3  7         非治療         2  3  5
    治療      8  5 13         治療         12 15 27

            ⇒リスク比: 0.897                 ⇒リスク比: 0.926



                               東京大学   医学系研究科            22
   どの結果を信じるか?
    ◦   全体の結果
    ◦   層別した結果
    ◦   両方
    ◦   わからない
   DAGを描いて交絡変数を調整できている結果を信じる
    ◦ 実験研究に近い、因果関係を表しているだろう




                    東京大学   医学系研究科   23
   交絡変数で層に分ける
   各層の結果を要約した指標を求める
   要約指標を曝露の効果と考える
    ◦ サブグループ解析とは異なる
     層ごとに解析し、各層での推定値を求める




                      東京大学   医学系研究科   24
   交絡変数がカテゴリカル
   第k層の分割表
             発症   非発症        合計
       暴露    Xk   nk-Xk      nk
       非暴露   Yk   mk-Yk      mk
       合計                    Nk


   これがK個出てくる



                    東京大学   医学系研究科   25
   各層で不偏な推定関数(Uk)を考える
    ◦ リスク差: E[(P1k-P0k)-δ]=0
    ◦ リスク比: E[P1k-φP0k ]=0
    ◦ オッズ比:E[P1k(1-P0k)-ΨP0k(1-P1k)]=0
   各層の推定関数の重み付け和を推定方程式とする
    ◦ ∑kWMHkUk=0
    ◦ WMHk=(nkmk/Nk)
   MH推定量、漸近分散
    ◦ リスク差:Sato分散
    ◦ リスク比:Greenland and Robins 1985
    ◦ オッズ比:RBG分散

                                    東京大学   医学系研究科   26
   交絡変数が連続量
   変数が多い、カテゴリが多い
    ◦ 層別すると層の人数が減り、推定できない
   モデルを仮定したロジスティック回帰を行う
    ◦ オッズに対するモデル
    ◦ 乗法モデル(ロジットスケールで加法モデル)
    ◦ オッズが説明変数の指数関数的に増加
     かなり仮定が厳しい




                     東京大学   医学系研究科   27
   オッズは指数関数的に増加する?
    ◦ 連続変数のまま
   オッズは階段状に変化する?
    ◦ カテゴリ分けする
   変化は定式化できない?
    ◦ スプライン回帰




                    東京大学   医学系研究科   28
   分割表で2群に分けている
    ◦ 曝露群では常に一定の曝露を受けていると仮定
    ◦ 実際は時間と共に変わっているはず
   曝露カテゴリに分ける
   時間依存性共変量としてモデル化




                    東京大学   医学系研究科   29

More Related Content

What's hot

Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random ForestSatoshi Kato
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
ベイズ推定の概要@広島ベイズ塾
ベイズ推定の概要@広島ベイズ塾ベイズ推定の概要@広島ベイズ塾
ベイズ推定の概要@広島ベイズ塾Yoshitake Takebayashi
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networkstm1966
 
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Joe Suzuki
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足Hiromasa Ohashi
 
Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Hiroki Itô
 
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ーDiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ーTakashi Yamane
 
深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシンYuta Sugii
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用Hiroki Iida
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Yuki Matsubara
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSamplingdaiki hojo
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリングAkira Miyazawa
 

What's hot (20)

coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random Forest
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
ベイズ推定の概要@広島ベイズ塾
ベイズ推定の概要@広島ベイズ塾ベイズ推定の概要@広島ベイズ塾
ベイズ推定の概要@広島ベイズ塾
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networks
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
 
Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法
 
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ーDiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
 
深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 

Similar to コホート研究 isseing333

086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定t2tarumi
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定t2tarumi
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Koji Sekiguchi
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定t2tarumi
 
複雑ネットワーク 第4章 古典的なグラフ
複雑ネットワーク 第4章 古典的なグラフ複雑ネットワーク 第4章 古典的なグラフ
複雑ネットワーク 第4章 古典的なグラフShintaro Takemura
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...Y-h Taguchi
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定t2tarumi
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデルshow you
 
Jokyonokai
JokyonokaiJokyonokai
Jokyonokainwpmq516
 
Jokyonokai
JokyonokaiJokyonokai
Jokyonokainwpmq516
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filterSatoshi Minakuchi
 
Cvim chapter4-5-ken_hide
Cvim chapter4-5-ken_hideCvim chapter4-5-ken_hide
Cvim chapter4-5-ken_hidekenhide
 

Similar to コホート研究 isseing333 (20)

086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
複雑ネットワーク 第4章 古典的なグラフ
複雑ネットワーク 第4章 古典的なグラフ複雑ネットワーク 第4章 古典的なグラフ
複雑ネットワーク 第4章 古典的なグラフ
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
Prml 4.3.6
Prml 4.3.6Prml 4.3.6
Prml 4.3.6
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデル
 
Jokyonokai
JokyonokaiJokyonokai
Jokyonokai
 
Jokyonokai
JokyonokaiJokyonokai
Jokyonokai
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filter
 
Cvim chapter4-5-ken_hide
Cvim chapter4-5-ken_hideCvim chapter4-5-ken_hide
Cvim chapter4-5-ken_hide
 
Re revenge chap03-1
Re revenge chap03-1Re revenge chap03-1
Re revenge chap03-1
 
2013 03 25
2013 03 252013 03 25
2013 03 25
 
PRML Chapter5.2
PRML Chapter5.2PRML Chapter5.2
PRML Chapter5.2
 

More from Issei Kurahashi

おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンスIssei Kurahashi
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるためにIssei Kurahashi
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Issei Kurahashi
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋Issei Kurahashi
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回Issei Kurahashi
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333Issei Kurahashi
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333Issei Kurahashi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333Issei Kurahashi
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Issei Kurahashi
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333Issei Kurahashi
 

More from Issei Kurahashi (18)

おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
 
iAnalysis NY視察
iAnalysis NY視察 iAnalysis NY視察
iAnalysis NY視察
 
おしゃスタV
おしゃスタVおしゃスタV
おしゃスタV
 
平方和の分解
平方和の分解平方和の分解
平方和の分解
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
データ解析
データ解析データ解析
データ解析
 

Recently uploaded

ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdfストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdfmasakisaito12
 
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店ssuserfb441f
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)KayaSuetake1
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipYasuyoshi Minehisa
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdfssuser80a51f
 
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ 株式会社
 
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfmasakisaito12
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチユニパー株式会社
 

Recently uploaded (8)

ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdfストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
 
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadership
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf
 
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
 
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
 

コホート研究 isseing333

  • 2. 曝露 ◦ 興味のある疾患に関係してそうな因子  曝露効果の指標 ◦ リスク比,リスク差,オッズ比 ◦ 発症率比,発症率差  疾病頻度の指標 ◦ 有病(Prevalence),発生(Incidence)  集団 ◦ リスク集団(At Risk) ◦ 閉じた集団,固定した集団,開いた集団 東京大学 医学系研究科 2
  • 3. リスク集団(Population At Risk) ◦ まだ興味のある疾病に罹患しておらず,将来その疾病に罹 患する可能性のある人たち  閉じた集団(Closed Population) ◦ 転出について閉じており,死亡によってのみ減少  固定した集団(Fixed Population) ◦ あるイベントにより固定され,以降増える事がない  開いた集団(Open Population) ◦ 出生,転入,死亡,転出などにより変化する 東京大学 医学系研究科 3
  • 4. リスク集団であるコホートを対象とする ◦ コホート:閉じておりかつ固定した集団 ◦ At Risk,Closed and Fixed Population  研究開始時に定義した集団を前向きに追跡 ◦ Perspective Study  曝露効果の指標 ◦ リスク差,リスク比 ◦ 発症率比,発症率差 東京大学 医学系研究科 4
  • 5. 曝 露 あ り 群 曝 露 な し 群 研究開始 研究終了 東京大学 医学系研究科 5
  • 6. 発症 曝露 合計 + - + A C N1 - B D N2  確率モデル: A ~ Bi ( N1 , P ) , ~ Bi ( N 2 , P2 ) 1 B ◦ 独立な二項分布を仮定  リスクの最尤推定量 P = A N1 , P2 = B N 2 ˆ 1 ˆ 東京大学 医学系研究科 6
  • 7. 二項分布の最尤推定量を求める Bi ( N , P ) から,実現値 r が得られた場合の尤度は N Cr P (1 − P ) N −r =L r であり,対数尤度は = log N Cr + r log P + ( N − r ) log (1 − P ) である. l ∂l r N − r となる. このときスコア関数は = − ∂P P 1 − P r N −r を解いて, P = r N ˆ よって最尤推定量は − = 0 となる. ˆ 1− P P ˆ 東京大学 医学系研究科 7
  • 8. A B A N1 AN 2  リスク差: − リスク比: = N1 N 2 B N 2 BN1 ◦ 最尤推定量をそのまま使う  これらの指標の信頼区間を計算したい ◦ 誤差(分散)を評価する ◦ デルタ法 東京大学 医学系研究科 8
  • 9. 確率変数の関数の漸近分散はデルタ法で求める 確率変数 X の関数 T ( X ) の漸近分散を知りたい. E [ X ] = µ , V [ X ] = σ 2 とする. T ( X ) を X = µ の周りでテイラー展開すると, ( X − µ ) T ′′ µ + 2 T ( X ) T ( µ ) + ( X − µ )T ′( µ ) + = ( ) 2! ≈ T ( µ ) + ( X − µ )T ′( µ ) となるので, E T ( X )  ≈ T ( µ ) , V T ( X )  ≈ T ′ ( µ ) σ 2 である. 2     東京大学 医学系研究科 9
  • 10. リスク差(RD)はデルタ法を使わなくても求められる V  RD  = V  P − P2  = ˆ ˆ ˆ ˆ ˆ ( P 1− P ˆ 1 ˆ 1 ) + P (1 − P ) = ˆ 2 ˆ 2 AC BD +    1  N1 N2 N13 N 23  リスク比(RR)はデルタ法を使う ◦ 確率変数を最尤推定量に置き換える V P  ˆ ˆ V  P2  ˆ ˆ ˆ  ( ) V log RR  = V log P − log P2  = ˆ  ˆ  ˆ 1 ˆ  1 +  ˆ ˆ 2 ˆ ˆ 2 AN BN   = C + D 1 1 1 1 = − + − E  P  E  P2   1   1 2 A N1 B N 2 東京大学 医学系研究科 10
  • 11. 生起確率の最尤推定量の期待値は E  P  E [= NP N P = ˆ   R N] = ◦ 不偏推定量になっている  生起確率の最尤推定量の分散は V  ˆ V [  P  = R N ] = (1 − P ) N 2 =1 − P ) N NP P( ◦ Fisher情報量の逆数 ◦ クラメル・ラオの不等式より最小分散を満たす ◦ 一様最小分散不偏推定量(UMVUE) 東京大学 医学系研究科 11
  • 12. Fisher情報量とは ◦ 定義:スコア関数を二乗して期待値をとる  以下のものと等しい ◦ スコア関数を微分してマイナスを付けて期待値をとる ◦ スコア関数の分散  証明はスコア関数の期待値が0であることを利用  ∂2   ∂ L′ ( X , θ )  E  −l ′′ ( X , θ )  = 2 log ( L ( X , θ ) )  =   E − E −   ∂θ   ∂θ L ( X , θ )   { L′ ( X , θ )}2 + L ( X , θ ) L′′ ( X , θ )    L′ ( X , θ )  2      L′′ ( X , θ )  = E  = E  = E {l ( X , θ )}  2  +E   {L ( X ,θ )}    L ( X ,θ )    L ( X ,θ )    2      東京大学 医学系研究科 12
  • 13. 疑似データ 発症 曝露 合計 + - + 200 24800 25000 - 300 59700 60000  曝露あり2.5万人,曝露なし6万人を追跡 200 300 200 ⋅ 60000 リスク差: − =×10−2 0.3 リスク比: = 1.6 25000 60000 300 ⋅ 25000 東京大学 医学系研究科 13
  • 14. 漸近分散を計算する 200 ⋅ 24800 300 ⋅ 59700 リスク差の漸近分散: + 4 ×10−7 = ( 25000 ) ( 60000 ) 3 3 1 1 1 1 対数リスク比の漸近分散: − + − = 8.28 ×10−3 200 25000 300 60000  漸近分散から信頼区間を求める リスク差の95%信頼区間: 0.3 × 10−3 ± 1.96 × 4 × 10−7 = 4.24 ) (1.76, リスク比の95%信頼区間: 1.6 × e ±1.96× 8.28×10−3 (1.34,1.91) = 東京大学 医学系研究科 14
  • 15. data data; input exposure ivent weight; cards; 1 1 200 1 0 24800 0 1 300 0 0 59700 ; run; proc freq data=data order=data; tables exposure*ivent/ nocol nopercent relrisk riskdiff measures; weight weight; run; 東京大学 医学系研究科 15
  • 16. The FREQ Procedure Table of exposure by ivent exposure ivent Frequency| Row Pct | 1| 0| Total ---------+--------+--------+ 1 | 200 | 24800 | 25000 | 0.80 | 99.20 | ---------+--------+--------+ 0 | 300 | 59700 | 60000 | 0.50 | 99.50 | ---------+--------+--------+ Total 500 84500 85000 東京大学 医学系研究科 16
  • 17. Column 1 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits ----------------------------------------------------------------------------- Row 1 0.0080 0.0006 0.0069 0.0091 0.0069 0.0092 Row 2 0.0050 0.0003 0.0044 0.0056 0.0045 0.0056 Total 0.0059 0.0003 0.0054 0.0064 0.0054 0.0064 Difference 0.0030 0.0006 0.0018 0.0042 Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------------------------------------------------------------- Case-Control (Odds Ratio) 1.6048 1.3411 1.9204 Cohort (Col1 Risk) 1.6000 1.3387 1.9123 Cohort (Col2 Risk) 0.9970 0.9957 0.9982 東京大学 医学系研究科 17
  • 18. ランダム化研究 ◦ 因果的解釈  曝露を受けると発症者が「リスク差」人増える  曝露を受けるとリスクが「リスク比」倍になる  コホート研究 ◦ 記述的解釈  曝露を受けた群は「リスク差」人多い  曝露を受けた群は「リスク比」倍多い 東京大学 医学系研究科 18
  • 19. The goal of all research is to obtain valid evidence regarding the hypothesis under study. Ideally, we would want the quality of evidence from nonexperimental research to be as high as that obtainable from a well designed experiment, had one been possible. (Rothman and Greenlad, 1998)  全ての研究のゴールは、仮設に対するもっともな証拠 を得ることである。我々は非実験研究と正しく計画さ れた実験研究の証拠が同等の質であることを望んで いる。 東京大学 医学系研究科 19
  • 20. 古典的に言われいる必要条件 ◦ Yの原因になっている ◦ 比較群の間で分布が異なっている ◦ X、Y間の中間変数ではない  DAG (directed acyclic graph)理論からの定義 ◦ XとYがconditional d-separationである場合に条件付ける変数  d-separation: X-Y間にopen passが存在しない状況  open pass: X-Y間にcolliderが存在しないパス  collider: Xからの矢印とYからの矢印が向かい合っている変数 東京大学 医学系研究科 20
  • 21. Z W Z X Y X Y Z: collider Z: confounder Closed pass Open pass Unconditional d-separation conditional d-separation 東京大学 医学系研究科 21
  • 22. 交絡を調整しなくてはならない ◦ Simpsonのパラドックス(Simpson, 1951) 生存 死亡 合計 非治療 6 6 12 ⇒リスク比: 1 治療 20 20 40 男性 女性 生存 死亡 合計 生存 死亡 合計 非治療 4 3 7 非治療 2 3 5 治療 8 5 13 治療 12 15 27 ⇒リスク比: 0.897 ⇒リスク比: 0.926 東京大学 医学系研究科 22
  • 23. どの結果を信じるか? ◦ 全体の結果 ◦ 層別した結果 ◦ 両方 ◦ わからない  DAGを描いて交絡変数を調整できている結果を信じる ◦ 実験研究に近い、因果関係を表しているだろう 東京大学 医学系研究科 23
  • 24. 交絡変数で層に分ける  各層の結果を要約した指標を求める  要約指標を曝露の効果と考える ◦ サブグループ解析とは異なる  層ごとに解析し、各層での推定値を求める 東京大学 医学系研究科 24
  • 25. 交絡変数がカテゴリカル  第k層の分割表 発症 非発症 合計 暴露 Xk nk-Xk nk 非暴露 Yk mk-Yk mk 合計 Nk  これがK個出てくる 東京大学 医学系研究科 25
  • 26. 各層で不偏な推定関数(Uk)を考える ◦ リスク差: E[(P1k-P0k)-δ]=0 ◦ リスク比: E[P1k-φP0k ]=0 ◦ オッズ比:E[P1k(1-P0k)-ΨP0k(1-P1k)]=0  各層の推定関数の重み付け和を推定方程式とする ◦ ∑kWMHkUk=0 ◦ WMHk=(nkmk/Nk)  MH推定量、漸近分散 ◦ リスク差:Sato分散 ◦ リスク比:Greenland and Robins 1985 ◦ オッズ比:RBG分散 東京大学 医学系研究科 26
  • 27. 交絡変数が連続量  変数が多い、カテゴリが多い ◦ 層別すると層の人数が減り、推定できない  モデルを仮定したロジスティック回帰を行う ◦ オッズに対するモデル ◦ 乗法モデル(ロジットスケールで加法モデル) ◦ オッズが説明変数の指数関数的に増加  かなり仮定が厳しい 東京大学 医学系研究科 27
  • 28. オッズは指数関数的に増加する? ◦ 連続変数のまま  オッズは階段状に変化する? ◦ カテゴリ分けする  変化は定式化できない? ◦ スプライン回帰 東京大学 医学系研究科 28
  • 29. 分割表で2群に分けている ◦ 曝露群では常に一定の曝露を受けていると仮定 ◦ 実際は時間と共に変わっているはず  曝露カテゴリに分ける  時間依存性共変量としてモデル化 東京大学 医学系研究科 29