Rで学ぶ観察データでの因果推定

18,997 views

Published on

20120310 TokyoR#21 で発表した資料です。誤りや不正確な部分がありましたら、twitter ID: Hiro_macchan までご連絡下さい。当該資料は、いくつかのサイトの資料を引用しています。参考文献はスライドの最後に記載しました。

0 Comments
14 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
18,997
On SlideShare
0
From Embeds
0
Number of Embeds
11,224
Actions
Shares
0
Downloads
89
Comments
0
Likes
14
Embeds 0
No embeds

No notes for slide

Rで学ぶ観察データでの因果推定

  1. 1. Rで学ぶ観察データでの因果推定 2012/03/10 Tokyo.R #21 Hiro_macchan
  2. 2. 自己紹介• Hiroki Matsui(RPT,MPH)• 出身:琵琶湖 住まい:千葉 職場:都内赤 門• 御嫁様候補探しています。• 専門:リハビリテーション、臨床疫学・医療 経済学• 元理学療法士(リハビリ屋)→研究者• Rは趣味程度に利用→現在は、仕事で利用未熟者ですので間違い等は指摘して下さい。• Twitter: Hiro_macchan (できれば、お手柔らかに。。)2012/03/10 TokyoR #21 2
  3. 3. 前回のあらすじ• TokyoR #18 LT枠• アウトカムリサーチに触れる。• 操作変数に関する説明を行う。• あえなく撃沈 ↓• 焼き土下座 Fig.1: 当時の心境2012/03/10 TokyoR #21 3
  4. 4. 本日お伝えしたいことRを使って2012/03/10 TokyoR #21 4
  5. 5. 本日お伝えしたいことRを使って前回よりも、もう少し体系的に2012/03/10 TokyoR #21 5
  6. 6. 本日お伝えしたいことRを使って前回よりも、もう少し体系的に観察データのバイアスを調整した上で2012/03/10 TokyoR #21 6
  7. 7. 本日お伝えしたいことRを使って前回よりも、もう少し体系的に観察データのバイアスを調整した上で因果効果を推計したい!!2012/03/10 TokyoR #21 7
  8. 8. 本日お伝えしたいことRを使って前回よりも、もう少し体系的に観察データのバイアスを調整した上で因果効果を推計したい!! んだけどなぁ。。。2012/03/10 TokyoR #21 8
  9. 9. Agenda• 因果効果とは• 介入研究と観察研究• 観察研究のバイアス調整• 操作変数法の紹介• Rでの実行例• Reference2012/03/10 TokyoR #21 9
  10. 10. Agenda• 因果効果とは• 介入研究と観察研究• 観察研究のバイアス調整• 操作変数法の紹介• Rでの実行例• Reference2012/03/10 TokyoR #21 10
  11. 11. 因果効果って?• ある対象群への、ある介入の効果を考え る。 同一対象 介入した場合の効果 介入しなかった場合の効果 因果効果: 現実的には測定不可能2012/03/10 TokyoR #21 11
  12. 12. 因果効果って? 曝露群(z=1) 非曝露群(z=0) 曝露結果 曝露結果 非曝露結果 非曝露結果2012/03/10 TokyoR #21 12
  13. 13. Agenda• 因果効果とは• 介入研究と観察研究• 観察研究のバイアス調整• 操作変数法の紹介• Rでの実行例• Reference2012/03/10 TokyoR #21 13
  14. 14. 介入研究と観察研究• 介入研究 – 実際に対象に介入を行う。 – 介入方法は実験者が決定できる。 – 無作為割り付けなどランダム化が可能。 – お高い、倫理面での配慮が必要• 観察研究 – 対象者の調査観察データを取得する。 – ランダム化不可能 – (介入研究に比べて、)お安い、倫理面配慮は小 さくてすむ。2012/03/10 TokyoR #21 14
  15. 15. 介入研究と観察研究 介入を行う群(z=1) 介入を行わない群(z=0) 介入した場合の 介入した場合の結果 結果(欠測) 介入しなかった場合 介入しなかった の結果(欠測) 場合の結果2012/03/10 TokyoR #21 15
  16. 16. 介入研究と観察研究 曝露群(z=1) 非曝露群(z=0) 曝露結果 曝露結果 非曝露結果 非曝露結果2012/03/10 TokyoR #21 16
  17. 17. 介入研究と観察研究2012/03/10 TokyoR #21 17
  18. 18. Agenda• 因果効果とは• 介入研究と観察研究• 観察研究のバイアス調整• 操作変数法の紹介• Rでの実行例• Reference2012/03/10 TokyoR #21 18
  19. 19. 観察研究におけるバイアス調整• 観察研究で因果効果を検証する場合、共 変量によるバイアスは常に問題になる。 Out(Exposure) Out(Reference) 年齢 様々な背 年齢 景因子が 性別 そもそも 異なる 性別 年収 年収2012/03/10 TokyoR #21 Etc… Etc… 19
  20. 20. 観察研究におけるバイアス調整2012/03/10 TokyoR #21 20
  21. 21. 観察研究におけるバイアス調整• “強く無視できる割り当て”条件 – 割り当てはあくまで共変量のみに依存し、結 果変数には依存しない。• Unmeasured confounder の問題 – 未測定の共変量が存在した場合、この条件を 満たさないため、推計はバイアスされる。 Instrumental Variable(操作変数) 操作変数を用いて、未知の交絡因子などを調 整2012/03/10 TokyoR #21 21
  22. 22. Agenda• 因果効果とは• 介入研究と観察研究• 観察研究のバイアス調整• 操作変数法の紹介• Rでの実行例• Reference2012/03/10 TokyoR #21 22
  23. 23. 操作変数 Outcome Exposure 操作変数• 外生的に決定• 検証するExposureと関連• 検証するExposureを介する以外にはOutcome と関連しない計量経済分野でずいぶん昔から使われている手法。2012/03/10 TokyoR #21 23
  24. 24. 様々な操作変数• お薬←RCTでの無作為割り付け• リハビリ時期←脳梗塞発症曜日• 専門医治療←症例居住地の周辺専門医分布• 薬のCM←地域単位での薬のCM/全CM2012/03/10 TokyoR #21 24
  25. 25. 操作変数を使たOutcome推計 X:共変量 Y:Out come Z:Exp osure w:操作変 数2012/03/10 TokyoR #21 25
  26. 26. Agenda• 因果効果とは• 介入研究と観察研究• 観察研究のバイアス調整• 操作変数法の紹介• Rでの実行例• Reference2012/03/10 TokyoR #21 26
  27. 27. Rでの実行例• Rで2SLSをやってみましょう!• パッケージはsem(CRANにありま す。)• 関数はTSLS()を使いましょう。こちらのサイトを参考にしています。EconWiki(Rを使って計量経済分析) http://sugi-shun.com/econwiki/index.php?EconWikiEconometric analysis of cross section and panel data(著:Jeffrey M. Wooldridge)の演習問題を解いています。2012/03/10 TokyoR #21 27
  28. 28. Rでの実行例dat <- read.csv(“card2.csv”)attach(dat)#最初に、OLSをやってみる。#教育年数を増やせば時給は増えるのか?#教育年数に関連する個人の能力が測定できていない。#教育年数を増やせば、時給が上がるかはわからない。summary(lm(lwage ~ educ + exper + expersq + black + south + smsa + reg661 +reg662+reg663+reg664+reg665 + reg666+ reg667+ reg668+ smsa66))2012/03/10 TokyoR #21 28
  29. 29. Rでの実行例Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 4520654 325451 13.890 < 2e-16 ***educ 52784 15917 3.316 0.000924 ***exper 62347 30140 2.069 0.038671 * ・・・(略)・・・smsa66 -139095 88486 -1.572 0.116071---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1694000 on 2994 degrees of freedomMultiple R-squared: 0.009425, Adjusted R-squared: 0.004462F-statistic: 1.899 on 15 and 2994 DF, p-value: 0.019122012/03/10 TokyoR #21 29
  30. 30. Rでの実行例#次に操作変数を使ってみる。summary(tsls(lwage ~ educ + exper + expersq + black + south + smsa + reg661 + reg662+reg663+reg664+reg665 + reg666+reg667+reg668+smsa66,~ nearc4 + exper + expersq + black + south + smsa + reg661 + reg662+reg663+reg664+reg665+reg666+reg667 +reg668+smsa66))2012/03/10 TokyoR #21 30
  31. 31. Rでの実行例 2SLS Estimates Model Formula: lwage ~ educ + exper + expersq + black + south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + smsa66 Instruments: ~nearc4 + exper + expersq + black + south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + smsa66 ・・・・(略)・・・・・・ Estimate Std. Error t value Pr(>|t|) (Intercept) 5597534 4088944 1.36894 0.1711 educ -10586 240381 -0.04404 0.9649 ・・・・(略)・・・・・ reg668 85977 221783 0.38766 0.6983 smsa66 -130494 94504 -1.38083 0.1674 Residual standard error: 1698340.0224 on 2994 degrees of freedom2012/03/10 TokyoR #21 31
  32. 32. 操作変数を利用する上で• Weak instrument の問題 – 操作変数と介入(z)の間の関連が弱い場合、推計がうまく行 かない。 – 相関の確認や、モデルの特定化テスト等でチェックが必 要?• 操作変数の汚染(?)について – 操作変数がアウトカムと関連してしまうと、推計がうまく 行かない。 – こちらのチェックは難しい。• 2SLSは連続変数に対応 – Bivariate probit model など(R でもパッケージ有り)• 操作変数の発見について – これが一番難しい。 – パネルデータがあるなら、そっちを使った方が正解かも。2012/03/10 TokyoR #21 32
  33. 33. 使いどころについて• 介入研究が行いにくい領域に於いて利用 する。• 値段の問題 – 大きすぎて介入研究を行いにくい政策運用な ど• 倫理的問題 – すでに手法が定着してしまった治療法 – 中々切れない取引先の効果2012/03/10 TokyoR #21 33
  34. 34. Agenda• 因果効果とは• 介入研究と観察研究• 観察研究のバイアス調整• 操作変数法の紹介• Rでの実行例• Reference2012/03/10 TokyoR #21 34
  35. 35. Reference1.DTCの広告効果 Liu Q, Gupta S. The Impact of Direct-to-Consumer Advertising of Prescription Drugs on Physician Visits and Drug Requests: Empirical Findings and Public Policy Implications. SSRN eLibrary [Internet]. [cited 2011 Oct 20];Available from: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=18048542. ベイズ使った操作変数法 Kleibergen F, Zivot E. Bayesian and classical approaches to instrumental variable regression. Journal of Econometrics. 2003;114(1):29–72.3. 操作変数使った早期リハビリのアウトカム(拙著) Matsui H, Hashimoto H, Horiguchi H, Yasunaga H, Matsuda S. An exploration of the association between very early rehabilitation and outcome for the patients with acute ischaemic stroke in Japan: a nationwide retrospective cohort survey. BMC health services research. 2010;10(1):213.4. 参考図書 崇宏星野. 調査観察データの統計科学―因果推論・選択バイアス・データ融合. 岩波書店; 2009. 245 p.2012/03/10 TokyoR #21 35
  36. 36. Reference 5.傾向スコアに関する里さんの資料 http://www.slideshare.net/yokkuns/r-9387843 6.EconWiki(Rを使って計量経済分析) http://sugi-shun.com/econwiki/index.php?EconWiki 7. Econometric analysis of cross section and panel data(2nd Ed) Jeffrey M. Wooldridge2012/03/10 TokyoR #21 36

×