Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

02 「重回帰分析」の入門

23,926 views

Published on

心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会http://blue.zero.jp/yokumura/Rhtml/session05.html
での発表資料です。

Published in: Education

02 「重回帰分析」の入門

  1. 1. 公益社団法人日本心理学会第5回「心理・医学系研究者のための による統計学の研究会」 「重回帰分析」の入門 MULTIPLE LINEAR REGRESSION 2012年4月7日       リウマチ膠原病内科 吉田和樹
  2. 2. 本日の発表内容回帰分析とは?よく使われる回帰分析、他の分析との関係重回帰分析の原理とモデルの仮定交互作用とは?Rでの重回帰分析、仮定の検証、交互作用の入れ方
  3. 3. 回帰REGRESSIONとは?t検定やANOVAは群間に差があるかどうかを検定する。 data(thuesen) 2.0 ●相関係数は2つの変数の関連 ● ● 1.5 ● ● ● ●● ● ● short.velocity ●● ● ● ● ●● ● ● ● ● ● 1.0 ●の強さをみる。 0.5 0.0 0 5 10 15 20 data(thuesen) blood.glucose回帰では一つ以上の変数の値 2.0 ● ● ● 1.5 ● ● ●からアウトカムを予測する。 ●● ● ● short.velocity ●● ● ● ● ●● ● ● ● ● ● 1.0 ● 0.5 0.0 0 5 10 15 20 blood.glucose
  4. 4. モデル式で考えるRで使われるモデルの表記の方法アウトカム変数 ∼ 説明変数Aアウトカム変数 ∼ 説明変数A + 説明変数B + 説明変数Cアウトカム変数 ∼ 説明変数A + 説明変数B + A:B
  5. 5. SCALES/尺度についてRatio scale/比尺度: 絶対温度, 身長, 体重, 回数Interval scale/間隔尺度: 摂氏温度Ordinal scale/順序尺度: 癌のステージNominal scale/名義尺度: 疾患の有無, 都道府県 Stevens SS. On the Theory of Scales of Measurement. Science 1946;103:677-80.
  6. 6. 連続変数 VS 離散変数 連続変数Continuous 無限に値がある variable 離散変数 Discrete 飛び飛び variable
  7. 7. Ratio IntervalConti nu Ordinal uso Nominal Di scr e te Kleinbaum et al
  8. 8. 身長 体重 絶対温度 Ratio 回数 摂氏温度 IntervalCo 華氏温度nti さいころの目 nu log変換年齢 テニスの世界ランキング Ordinal uso 癌のステージ 疾患の有無 Nominal Di 出身都道府県 scr 性別 e te Kleinbaum et al
  9. 9. 各種手法とモデル式t-test: 間隔/比尺度 ∼ 名義尺度(2グループ)ANOVA: 間隔/比尺度 ∼ 名義尺度(≥3グループ)ANCOVA: 間隔/比尺度 ∼ 名義(≥3) + 間隔/比 + ...Correlation: 間隔/比尺度 ∼ 間隔/比尺度Linear regression: 間隔/比尺度 ∼ Any + Any + ...
  10. 10. アウトカム変数 アウトカム変数 二変量解析 多変量解析 の種類 の例 相関係数, 回帰分析, t 間隔/比尺度 血圧, 体重, 温度 重回帰分析, ANOVA 検定, ANOVA 死亡, 癌発症, χ2検定, Fisher’s, t検定, 傾向 ロジスティック回帰 二値名義尺度 のχ2検定, Mann-Whitney ICU入室 分析 疾患のstage, 傾向のχ2検定, Mann- Proportional odds 順序尺度 Whittney, Spearman相関係数 regression 症状の重症度 死亡原因, χ2検定, ANOVA, Multinomial logistic名義尺度(>2値) regression がんの発生部位 Kruskal-Wallis 死亡までの時間,time to outcome Log-rank検定 比例ハザードモデル 癌発症までの時間 感染の回数, Poisson回帰分析, negative Poisson回帰分析, negative 回数 binomial regression binomial regression 入院回数 新規感染症の発生率, Poisson回帰分析, negative 発生率 z scores binomial regression 交通事故の発生率 Katz MH. Multivariable Analysis.
  11. 11. 重回帰分析の仕組み
  12. 12. 単回帰分析の仕組み data(thuesen) 2.0 ●library(ISwR)よりdata(thuesen) ● ● 1.5 ● ● ● ●● ● ● short.velocity ●● ● ● ● ●● ● ● ● ● ● 1.0 ●心筋収縮速度 ∼ 血糖(mmol/L)との 0.5データ。 0.0 0 5 10 15 20これを線形関数(一次関数)で説明(近 blood.glucose似)し、回帰直線(regression line)を引きたい。
  13. 13. 単回帰分析の仕組み data(thuesen) 2.0 ● ● ● 1.5 ● ● ● ●●yi = α + βxi + εi ● ● short.velocity ●● ● ● ● ●● ● ● ● ● ● 1.0 ● 一次関数α: 切片 (intercept) 傾き 0.5 0.0 0 5 10 15 20β: 係数(regression coefficient, slope) blood.glucoseεi: 残差(residuals), N(0, σ2)の正規分布, 説明できない誤差
  14. 14. 単回帰分析の仕組み data(thuesen) 2.0 ● ● ●残差の平方和 1.5 ● ● ● ●● ● ● short.velocity ●● ● ● ● ●● ● ● ● ● ● 1.0を最小にするようなα, βを選ぶ。 ● 0.5least square method 最小二乗法 0.0 0 5 10 15 20 blood.glucose 共分散の式の分子 分散の式の分子
  15. 15. 重回帰分析の仕組みy = α + β1x1 + β2x2 + β3x3 + ε (3変数の場合)同様に実測値と予測値の差の二乗の合計(残差の平方和)を最小化するβjβjが偏回帰係数(partial regression coefficient)xjが単独で 1 上昇するときのyの変化量である
  16. 16. 行列計算で解かれる β0 β1 β2 β3http://online.stat.psu.edu/online/development/stat501/08multiple/07multiple_matrix.html
  17. 17. よく使われる回帰分析重回帰分析: “lm()”ロジスティック回帰分析: “glm(family=binomial)”比例ハザードモデル: “coxph()”ポアソン回帰分析: “glm(family=poisson)”→ いろいろあるが使い分けはアウトカム変数の型による。
  18. 18. アウトカム変数 アウトカム変数 二変量解析 多変量解析 の種類 の例 相関係数, 回帰分析, t 間隔/比尺度 血圧, 体重, 温度 重回帰分析, ANOVA 検定, ANOVA 死亡, 癌発症, χ2検定, Fisher’s, t検定, 傾向 ロジスティック回帰 二値名義尺度 のχ2検定, Mann-Whitney ICU入室 分析 疾患のstage, 傾向のχ2検定, Mann- Proportional odds 順序尺度 Whittney, Spearman相関係数 regression 症状の重症度 死亡原因, χ2検定, ANOVA, Multinomial logistic名義尺度(>2値) regression がんの発生部位 Kruskal-Wallis 死亡までの時間,time to outcome Log-rank検定 比例ハザードモデル 癌発症までの時間 感染の回数, Poisson回帰分析, negative Poisson回帰分析, negative 回数 binomial regression binomial regression 入院回数 新規感染症の発生率, Poisson回帰分析, negative 発生率 z scores binomial regression 交通事故の発生率 Katz MH. Multivariable Analysis.
  19. 19. アウトカム変数の変形Linear regression: Y = α + β1x1 + β2x2 + β3x3Logistic regression:ln(p/1-p) = ln(Pr(Y=1) / Pr(Y=0)) = α + β1x1 + β2x2 + β3x3Poisson regression: ln(Y) = α + β1x1 + β2x2 + β3x3Cox regression: ln(h(t) / h0(t)) = α + β1x1 + β2x2 + β3x3
  20. 20. モデルの仮定と検証
  21. 21. モデルの仮定x軸のどの値においてもyの値は正規分布(Normality)かつ分散が等しく(Homoscedasticity)、お互いに独立(Independence)。(t検定やANOVAの仮定と同じ)xが増えるとyは直線的に増える wikipedia(Linearity)残差(Residuals)を評価
  22. 22. 交互作用とは 参考: Gordis, Epidemiology
  23. 23. 交互作用Interaction2と3をあわせて7になったり、逆に4になったりするのが交互作用!!数学的な交互作用モデルは生物学的な相互作用を必ずしも意味しない
  24. 24. イメージ運動や食事に気をつけていない人は平均寿命が65歳だった運動のみをしている人は平均寿命が70歳だった健康な食事のみをしている人は平均寿命が70歳だったじゃあ、両方とも気をつけている人はどうか?
  25. 25. 数式化:交互作用無し運動や食事に気をつけていない人は平均寿命が65歳だった運動のみをしている人は平均寿命が70歳だった健康な食事のみをしている人は平均寿命が70歳だった予測平均寿命 = 65 + 運動の有無 * 5 + 健康な食事の有無 * 5 有り = 1, 無し = 0とする
  26. 26. 8075 食事よい群70 食事だめ群6560運動なし 運動あり
  27. 27. 交互作用があると例1: 運動をして健康な食事をしている人は寿命がいずれでもない人とより15年長かった → positive interaction例2: 運動をして健康な食事をしている人は寿命がいずれでもない人とより7年長かった → negative interaction
  28. 28. 80 食事よい群7570 食事だめ群6560運動なし 運動あり
  29. 29. 食事だめ 食事よい8075 80で予想した75より高い706560運動なし 運動あり 予測平均寿命 = 65 + 5*運動 + 5*食事 + 5*運動*食事 両方1のときだけ有効な交互作用項
  30. 30. 食事だめ 食事よい8075706560運動なし 運動あり
  31. 31. 食事だめ 食事よい80 72で予想した75より低い75706560運動なし 運動あり 予測平均寿命 = 65 + 5*運動 + 5*食事 - 3*運動*食事 両方1のときだけ有効な交互作用項
  32. 32. 予想される値とは何か? Risk factor A - +Risk - 3.0 9.0factor B + 15.0 ?
  33. 33. ADDITIVE MODEL足し算モデル Risk factor A - + Risk +6 - 3.0 9.0factor +12 B + 15.0 21.0 +18
  34. 34. MULTIPLICATIVE MODELかけ算モデル Risk factor A - + Risk ×3 - 3.0 9.0factor ×5 B + 15.0 45.0 ×15
  35. 35. 交互作用と尺度の関係名義尺度A * 名義尺度B の時: 場合分けになり2×2表になる間隔/比尺度A * 名義尺度B の時: 2本の傾きの異なるグラフ間隔/比尺度A * 間隔/比尺度B の時: 傾きが連続的に変化する面 Dalgaard
  36. 36. 間隔/比尺度 * 名義尺度の交互作用の場合 名義尺度 交互作用があると 傾きも変わる 交互作用がないと 切片のみ変化して 平行移動 X軸: 間隔/比尺度
  37. 37. いつ交互作用を検討するかデータを見る前にどの交互作用を検討するか決めておけ!a priori, based on: Clinical relevance: 結果が世の中に役に立つものを! Plausibility: 原理的にあり得るものを! Grobbee
  38. 38. やり過ぎは禁物急性心筋 塞が疑われた患者でaspirin(抗血小板薬)とstreptokinase(血栓溶解薬)の効果を検討したISIS-2 study(1980)Aspirinは生命予後を改善した!しかし、星座ごとに検討すると双子座と天 座の患者ではaspirinで予後が悪化。星座はaspirinの効果に対する交互作用をもつ! Grobbee
  39. 39.  でやってみる
  40. 40. GINZBERGcar パッケージのGinzbergデータセット82名の被検者での下記の3つの連続変数データ adjsimp: 単純性。何でも白黒つけようとする傾向。 adjfatal: 運命論。運命に対して人は無力と考える傾向。 adjdep: ベックの抑うつ自己評価尺度。
  41. 41. data(Ginzberg)pairs(Ginzberg[,4:6])
  42. 42. ## Model without interactionlm.ginz <- lm(data = Ginzberg, adjdep ~ adjsimp + adjfatal)summary(lm.ginz)Call:lm(formula = adjdep ~ adjsimp + adjfatal, data = Ginzberg)Residuals: Min 1Q Median 3Q Max-0.70946 -0.25204 -0.05741 0.21882 1.15001Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2492 0.1054 2.365 0.020501 *adjsimp 0.3663 0.1004 3.649 0.000471 ***adjfatal 0.3845 0.1004 3.829 0.000256 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.3812 on 79 degrees of freedomMultiple R-squared: 0.4332,! Adjusted R-squared: 0.4188F-statistic: 30.19 on 2 and 79 DF, p-value: 1.823e-10
  43. 43. ## Model without interactionlm.ginz <- lm(data = Ginzberg, adjdep ~ adjsimp + adjfatal)summary(lm.ginz)Call:lm(formula = adjdep ~ adjsimp + adjfatal, data = Ginzberg)Residuals: Min 1Q Median 3Q Max-0.70946 -0.25204 -0.05741 0.21882 1.15001 adjdep = 0.2492 + 0.3663*adjsimp + 0.3845*adjfatalCoefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2492 0.1054 2.365 0.020501 *adjsimp 0.3663 0.1004 3.649 0.000471 ***adjfatal 0.3845 0.1004 3.829 0.000256 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.3812 on 79 degrees of freedomMultiple R-squared: 0.4332,! Adjusted R-squared: 0.4188F-statistic: 30.19 on 2 and 79 DF, p-value: 1.823e-10
  44. 44. ## Model with interactionlm.ginz.int <- lm(data = Ginzberg, adjdep ~ adjsimp + adjfatal + adjsimp:adjfatal)summary(lm.ginz.int)Call:lm(formula = adjdep ~ adjsimp + adjfatal + adjsimp:adjfatal, data = Ginzberg)Residuals: Min 1Q Median 3Q Max-0.58251 -0.23705 -0.05099 0.17981 1.21560Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -0.1366 0.2023 -0.676 0.501319adjsimp 0.7736 0.2083 3.714 0.000381 ***adjfatal 0.7218 0.1811 3.987 0.000150 ***adjsimp:adjfatal -0.3168 0.1430 -2.216 0.029607 *---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.3721 on 78 degrees of freedomMultiple R-squared: 0.4668,! Adjusted R-squared: 0.4463F-statistic: 22.76 on 3 and 78 DF, p-value: 1.103e-10
  45. 45. ## Model with interactionlm.ginz.int <- lm(data = Ginzberg, adjdep ~ adjsimp + adjfatal + adjsimp:adjfatal)summary(lm.ginz.int)Call:lm(formula = adjdep ~ adjsimp + adjfatal + adjsimp:adjfatal, data = Ginzberg)Residuals: Min 1Q Median 3Q Max-0.58251 -0.23705 -0.050990.7736*adjsimp + 0.7218*adjfatal adjdep = -0.1366 + 0.17981 1.21560Coefficients: - 0.3168*adjsimp*adjfatal Estimate Std. Error t value Pr(>|t|)(Intercept) -0.1366 0.2023 -0.676 0.501319adjsimp 0.7736 0.2083 3.714 0.000381 ***adjfatal 0.7218 0.1811 3.987 0.000150 ***adjsimp:adjfatal -0.3168 0.1430 -2.216 0.029607 *---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.3721 on 78 degrees of freedomMultiple R-squared: 0.4668,! Adjusted R-squared: 0.4463F-statistic: 22.76 on 3 and 78 DF, p-value: 1.103e-10
  46. 46. ## Model diagnosticslayout(matrix(1:4, ncol = 2, byrow = TRUE))plot(lm.ginz.int)layout(1) Residuals vs Fitted Normal Q-Q 4 71 71 Standardized residuals 1.0 70 3 63 70 63 Residuals 2 0.5 1 0.0 0 -0.5 -1 0.5 1.0 1.5 -2 -1 0 1 2 Fitted values Theoretical Quantiles Scale-Location Residuals vs Leverage 71 4 71 Standardized residuals Standardized residuals 63 70 3 1.5 2 80 1 1.0 0.5 1 0 0.5 65 0.5 -1 1 Cooks distance 0.0 -2 0.5 1.0 1.5 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Fitted values Leverage
  47. 47. Residuals vs Fitted X軸に関わらず残差 71残差(予測値と実測値のずれ) 1.0 がゼロ周囲に均等に 63 70 ばらけているか? Residuals 0.5 0.0 -0.5 Linearity 0.5 1.0 1.5 Homoscedasticity Fitted values アウトカム変数の予測値 lm(adjdep adjsimp + adjfatal + adjsimp:adjfatal)
  48. 48. Normal Q-Q 4 残差が正規分布して 71 Standardized residuals いるかどうかをみ 3 70 63標準化した残差 る。正規分布なら斜 2 めの線にのっかる。 1 0 -1 -2 -1 0 1 2 Normality Theoretical Quantiles lm(adjdep adjsimp + adjfatal + adjsimp:adjfatal)
  49. 49. Scale-Location標準化した残差の絶対値の平方根 71 X軸に関わらず残差が 70 Standardized residuals 1.5 63 均等にばらけているか? 1.0 0.5 0.0 0.5 1.0 1.5 Homoscedasticity Fitted values アウトカム変数の予測値 lm(adjdep adjsimp + adjfatal + adjsimp:adjfatal)
  50. 50. Residuals vs Leverage 4 影響の大きいは 71 Standardized residuals 3 ずれ値の検出標準化した残差 2 80 1 0.5 1 0 65 -1 0.5 1 Cooks distance Cookの距離 -2 0.0 0.1 0.2 0.3 0.4 0.5 0.6 変な組み合わせ Leverage てこ比 lm(adjdep adjsimp + adjfatal + adjsimp:adjfatal) の説明変数
  51. 51. Dalgaard P. Introductory Statistics with R. 2nd Ed. 2008. Springer.Gordis L. Epidemiology. 4th Ed. 2011. Elsevir.Grobbee DE. Clinical Epidemiology. 1st Ed. 2009. Jones and Bartlett.Kabacoff RI. R in Action. 1st Ed. 2011. Manning.Katz MH. Multivariable Analysis: A practical guide for clinicians and public healthresearchers. 3rd Ed. 2011. Cambridge.Kleinbaum. Applied Regression Analysis and Other Multivariable Methods. 4th Ed.2008. Brooks/Cole.KogoLab. アイスクリーム統計学 http://kogolab.chillout.jp/elearn/icecream/ 2003.Pagano M, Gauvreau K. Principles of Biostatistics. 2nd Ed. 2000. Brooks/Cole.Rothman KJ. Epidemiology: An introduction. 1st Ed. 2002. Oxford University Press.Toyoda H. 回帰分析入門 -Rで学ぶ最新データ解析- 2012. 東京図書.Matsuoka S. 初心者による初心者のためのロジスティック回帰分析. 2011. 本会 第一回Tsuchiya M. 初心者による初心者のための線形混合モデル. 2011. 本会 第二回Tsuchiya M. 初心者による初心者のための量的データの二変量解析. 2011. 本会 第三回
  52. 52. おまけ学習方法などについて
  53. 53. 背景初期研修: 2年総合内科: 2年リウマチ膠原病内科: 3年間 研修病院で研修医がよく働くので比較的勉強時間はとりやすい 外来は長期フォローでデータを取りやすい 生物学的抗リウマチ薬の実地臨床での効果副作用のまとめなどしてい います。
  54. 54. その他の背景数学はあまり得意でなかったプログラミングはLinuxのshell scriptで若干経験ありなので、統計の勉強は”R言語の学習”として入ることで興味を持てた
  55. 55. 学習方法最初はsupervisorの先生に他のパッケージで解析してもらった結果をRで再現して学習他のデータにも応用できるように統計手法の選び方をまずは学習統計手法の適切な使用を目指してその原理や仮定などを学習中医学研究においては
  56. 56. 導入に有用だった資料ハンバーガー統計学 (web) 生物統計と心理統計で頻用される手法がやや異なるので Rの生物統計本ではこれがよかった。原著は2版に改訂。アイスクリーム統計学 (web) 多変量解析の実践的な正しい使い方(手法の選び方, 変数 R-Tips (web) の選び方, etc)の本。原著は3版に改訂。木原ら訳。他の 木原訳本シリーズも良書ぞろい。
  57. 57.

×