重回帰分析入門
株式会社オルトメディコ 市川周平
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会2
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会3
重回帰分析 (Multiple Regression) とは
 複数の変数と1つのアウトカムの関係性を評価する
統計手法
※ 用語の統一
 複数の変数
説明変数 (explanatory variable)
独立変数 (independent variable)
Regressor
 1つのアウトカム
基準変数 (criterion variable)
従属変数 (dependent variable)
アウトカム (outcome)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会4
関係性の評価
 相関係数
 2変数間の類似性の度合いを表す
 因果関係は表現できない
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会5
r = 0.190
関係性の評価
 単回帰分析
 独立変数が従属変数をどの程度説明できるか、定量的に評
価
 因果関係の存在を仮定し、その妥当性を検証
 重回帰分析
 単回帰分析の独立変数側が複数になったもの
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会6
残差 (residual)
最小二乗法
残差の二乗和が最小に
なるように回帰曲線を設定
回帰直線
(regression line)
(重) 回帰分析を何のために使う?
 質問
太郎さんは、結婚資金500万円を貯めるため、毎月、一定の
金額を貯金しています。
 2012年1月の貯金残高は100万円でした。
 2013年1月の貯金残高は220万円でした。
Q1. 太郎さんは毎月いくら貯金していますか?
⇒法則性の検証、現象の説明 (explanation)
Q2. 太郎さんが結婚資金を準備できるのはいつだと予測さ
れますか?
⇒予測 (prediction)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会7
数学的なお話
 単回帰分析
Y = β0 + β1X1 + ε
 重回帰分析
Y = β0 + β1X1 + β2X2 + … + βnXn + ε
cf. 2way ANOVAの概念モデル
Y = f1(X1) + f2(X2) + f1*2(X1*X2) + E
!! ANOVA familyと線形回帰は、General Linear Modelで
統合された
※ Generalized Linear Modelは別物なので注意
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会8
Y : 従属変数
Xk : 独立変数
β0 : 切片
βk : 係数
ε : 残差
Y : 従属変数
Xk : 独立変数
fk : 要因関数(効果)
E : 誤差
結果の読み方
 独立変数の影響力
 モデルの説明力
例) 独立変数を10個投入し、うち1つがぎりぎり有意でし
た。
このモデルは妥当でしょうか?
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会9
結果の読み方
 独立変数の影響力
 偏回帰係数 (b)
ӧ 独立変数にかけられる重み
ӧ 独立変数が、従属変数に対してどの程度影響を与え
ているかを表す
 標準偏回帰係数 (β)
ӧ SD=1にそろえて標準化した偏回帰係数
ӧ 偏回帰係数は独立変数の平均値に依存する=単位
変換の影響を受ける
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会10
結果の読み方
 モデルの説明力
 重決定係数 (R2)
ӧ 回帰分析の精度、あるいは回帰式の当てはまりの具
合を表す
 自由度調整済み重決定係数 (adjusted R2)
ӧ モデル分析の精度は、N数が大きければ大きいほど
高くなる
Q. N=10のデータのR2とN=100のデータのR2を同じに扱
えるか?
⇒ N数を調整した決定係数を用いる
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会11
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会12
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会13
独立変数
従属変数
Rで実践!
 手順
1. carパッケージをインストールする
> install.packages(“car”)
2. carライブラリを使えるようにする
> library(car)
3. Davisデータセットを使えるようにする
> data(Davis)
4. 回帰を行う
> MR <- lm(repwt ~ weight + height, data = Davis)
5. 結果を出力する
> summary(MR)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会14
結果
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会15
残差
係数
モデルの説明力
glm関数でも似たようなことができる
 手順
1. GLM <- lm(repwt ~ weight + height, data = Davis)
2. summary(GLM)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会16
決定係数等が
算出されない
係数は
lmと同じ
重回帰分析の前提
 正規性
 独立変数がどのような値をとっても、従属変数は正規分
布する
 等分散性
 独立変数がどのような値をとっても、従属変数の分散は
異ならない
 独立性
 独立変数と従属変数は独立している
 直線性
 独立変数の変化に対し、従属変数は直線的に増加する
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会17
多重共線性
 多重共線性
 独立変数間の強い相関のこと
 βの値が歪む
ӧ βが過小評価 / 過大評価される
 多重共線性の指標 : VIF (Variance Inflation
Factors)
 VIF > 10 なら多重共線性が起きている
 DAAGパッケージのvif関数を用いる
ӧ > MR <- lm(repwt ~ weight + height, data = Davis)
ӧ > summary(MR)
ӧ > vif(MR)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会18
VIFの確認
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会19
VIFが10未満
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会20
二値データとは
 カテゴリカルデータの一種
 2種類の値のうち、いずれか一方のみをとる
 性別 : 男性, 女性
 コイントスの結果 : 表, 裏
 二肢法への回答 : はい, いいえ
 患者と診断されたか : 患者, 健常者
 介入を受けたか : 介入群, コントロール
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会21
どうして二値データを使うの?
 従属変数をよりよく説明するため
=モデルの説明力を上げるため
 交絡要因を炙り出し、結果にかかるバイアスを
解消するため
⇐ Simpson's Paradox
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会22
Simpson’s Paradox
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会23
Fox J (2008)
男女それぞれの
回帰直線は右上がり
男女を合わせた回帰直
線は右下がり
二値データを用いた重回帰分析?
 直観的には……
 独立変数側が離散データになるのであれば、ANOVAを
適応するべきでは?
!! ANOVA familyと線形回帰は、General Linear
Modelで統合された
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会24
重回帰分析でも、二値データや離散データを
独立変数とすることができる
(重) 回帰分析で二値データを扱うために
1. カテゴリカルデータをダミー変数にコードする
 男性: 1, 女性: 0
 患者: 1, 健常者: 0
 介入群: 1, コントロール: 0
2. ダミー変数を独立変数に投入し、(重) 回帰分析を
実施する
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会25
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会26
独立変数
従属変数
Rで実践!
 手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. sexをダミーデータに変換する
> male <- ifelse(Davis$sex == “M”, 1, 0)
3. 回帰を行う
> MR2 <- lm(repwt ~ male + weight, data = Davis)
4. 結果を出力する
> summary(MR2)
5. プロットする
> plot(effect(“weight:male”, MR2, xlevels =
list(weight=40:120),multiline = TRUE, ylab =
“repwt(kg)”, rug = FALSE))
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会27
この方法だと、プロットに失敗する
結果
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会28
ダミー変数を作らなくても……
 統計パッケージの場合、カテゴリーデータを作成し
なくても、解析してくれることが多い
⇒ ソフトのクセに合わせて選択すれば良い
 plot(effect())は、ダミー変数を自作すると上手く動
かない、ような気がする
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会29
ダミー変数を作らずにやってみよう
 手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. 回帰を行う
> MR3 <- lm(repwt ~ sex + weight, data = Davis)
3. 結果を出力する
> summary(MR3)
4. プロットする
> plot(effect(“weight:sex”, MR3, xlevels =
list(weight=40:120),multiline = TRUE, ylab =
“repwt(kg)”, rug = FALSE))
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会30
結果:ダミー変数不使用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会31
グラフ:ダミー変数不使用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会32
結果を比較してみる
 ダミー不使用 (sex) とダミー使用 (male) の結果は
等しい
 単回帰と比較すると、R2が0.08ほど上昇
 単回帰と比較すると、Weightの係数が低下
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会33
male sex 単回帰
β_Intercept 23.520 23.520 15.759
β_weight 0.570 0.570 0.753
β_sex 9.751 9.751
R2 0.782 0.782 0.698
数学的なお話
 重回帰分析
Y = β0 + β1X1 + γDi + εi
 D=0のとき
Y = β0 + β1X1 + εi
 D=1のとき
Y = (β0 + γ) + β1X1 + εi
 注意
 二値変数は分散に意味がないため、標準化偏回帰係数
が解釈不能
→ 偏回帰係数を用いましょう
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会34
Y : 従属変数
Xk : 独立変数
β0 : 切片
βk : 係数
Di : ダミー変数
γ : ダミー変数の係数
ε : 残差
repwt(kg)
weight
D=1 D=0
数学的なお話
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会35
1
β1
γ
1
β1
β0 + γ
β0
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会36
交互作用とは
 交互作用なし (Additive)
 交互作用あり (Multiplicative)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会37
30
40
50
60
70
80
90
100
repwt(kg)
weight
D=1 D=0
30
40
50
60
70
80
90
100
repwt(kg)
weight
D=1 D=0
30
40
50
60
70
80
90
100
repwt(kg)
weight
D=1 D=0
2本のグラフが
平行
2本のグラフが
平行ではない
Rでの表現形
 主効果 (Additive)
 A + B + ... + N
 交互作用 (Multiplicative)
 A + B + A*B + ...
 A:B (結果での表記など)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会38
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weight 計測された体重 (kg)
ӧ height 計測された身長 (cm)
ӧ repwt 自己申告された体重 (kg)
ӧ repht 自己申告された身長 (cm)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会39
独立変数
従属変数
Rで実践!
 手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. 回帰を行う
> MR4 <- lm(repwt ~ sex + weight + sex*weight,
data = Davis)
3. 結果を出力する
> summary(MR4)
4. プロットする
> plot(effect(“weight:sex”, MR4, xlevels =
list(weight=40:120),multiline = TRUE, ylab =
“repwt(kg)”, rug = FALSE))
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会40
結果:二値データを含む交互作用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会41
グラフ:二値データを含む交互作用項
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会42
結果を比較してみる
 ダミーなしとダミーありの結果は等しい
 単回帰と比較すると、R2が0.08ほど上昇
 単回帰と比較すると、Weightの係数が低下
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会43
Interaction Additive 単回帰
β_Intercept 41.323 23.520 15.759
β_weight 0.264 0.570 0.753
β_sex -39.964 9.751
β_sex*weight 0.725
R2 0.887 0.782 0.698
数学的なお話
 重回帰分析
Y = β0 + βiXi + γDi + δ(XiDi) + εi
 D=0のとき
Y = β0 + β1X1 + εi
 D=1のとき
Y = (β0 + γ) + (β1 + δ)X1 + εi
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会44
Y : 従属変数
Xk : 独立変数
β0 : 切片
βk : 係数
Di : ダミー変数
γ : ダミー変数の係数
δ : 交互作用項の係数
ε : 残差
repwt(kg)
weight
D=1 D=0
数学的なお話
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会45
1
β1+δ
1
β1
β0 + γ
β0
3水準以上のカテゴリーデータについて
 (水準数-1) 個のダミーデータを作成
 何故、(水準数) 個のダミーデータを作らない?
 Baseline : Y = β0 + β1X1 + εi
 Additive : Y = (β0 + γ) + β1X1 + εi
 Multiplicative : Y = (β0 + γ) + (β1 + δ)X1 + εi
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会46
カテゴリー D1 D2
Intervention 1 0
Positive Control 0 1
Negative Control 0 0
連続データ同士の交互作用
 独立変数X1と、その交互作用X1*X2とは、相関が高
くなりやすい
⇒ 多重共線性が生じやすい
 dataset : Davis
 sex 性別 (F: female, M: male)
 weight 計測された体重 (kg)
 height 計測された身長 (cm)
 repwt 自己申告された体重 (kg)
 repht 自己申告された身長 (cm)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会47
独立変数
従属変数
連続データ同士の交互作用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会48
r = 0.745
結果:連続変数同士の交互作用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会49
多重共線性が
発生
連続データ同士の交互作用
 高い確率で多重共線性が生じるため、注意が必要
 多重共線性回避のための手段
 中心化 ←最近では否定されつつある
 変数を絞る ←モデルやプロトコルとの相談
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会50
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会51
今回使ったパッケージ
 car
 データセットDavis
 DAAG
 多重共線性の検証
 関数 : vif
 effects
 交互作用データのプロット
 plot(effect(...))
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会52
注意点
 Davisは欠損値や外れ値、入力ミスを含む
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会53
引用文献・参考文献
 Dalal DK and Zickar MJ : Some common myths about
centering predictor variables in moderated multiple
regression and polynomial regression. Organiz Res
Methods 2012 ; 15 : 339-362.
 Fox J : Effect Displays in R for Generalised Linear
Models. J Stat Soft 2003 ; 8 : 1-18.
 Gromping U : Relative importance fro linear regression
in R : The package relaimpo. J Stat Soft 2006 ; 17 : 1-
27
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会54
参考図書
 Fox J : Dummy-variable Regression. in Fox J : Applied
regression analysis and generalized models. Willey,
2008.
 Kelley K and Maxwell S E. Multiple regression. in G. R.
Hancock & R. O. Mueller (Eds.), The reviewer's guide to
quantitative methods in the social sciences (pp. 281-
298). New York: Routledge.
 Concato J, Feinstein AR, Holford TR : Predicting values
from one or more variable. in Lang TA, Secic M (Eds.),
How to Report Statistics in Medicine. 85-101, ACP
Press 2006.
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会55
参考図書
 大橋靖雄 2013 : わかりやすい医学統計の報告
- 医学論文作成のためのガイドライン (第2版)
 安藤正人 2011 : マルチレベル分析入門
 General LM (ANOVA, MR, et al)
⇒ Generalized LM
⇒ Generalized LMM
 より高次の解析法への橋渡しとして
 舟尾暢男 2009 : The R Tips
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会56
FIN
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会

03 「重回帰分析」の入門