SlideShare a Scribd company logo
1 of 134
基礎から学ぶ回帰分析
#3: 相関と回帰
中島有希大
2022 年 6 月 16 日
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 1 / 134
1 連続セミナーについて
2 相関関係
3 単回帰分析
4 重回帰分析
5 予測
6 モデルの前提と推定量の性質
7 モデルのチェック
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 2 / 134
連続セミナーについて
Section 1
連続セミナーについて
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 3 / 134
連続セミナーについて
連続セミナーの目的
2022 年 4 月から月に 1 回全 3 回で確率から回帰分析までを学ぶ
ソフトの使い方や p < 0.05 だから有意!などという安易な統計と
のかかわりではなく, 言葉や数式を通して, 回帰分析はどのような
ことをしているのかを学ぶ
3 回しかないのでエッセンスだけを伝えていきます
最もシンプルな方法である線形回帰モデルを学ぶが,多くの発展
的なモデルに通じる重要な分析方法
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 4 / 134
連続セミナーについて
本日のセミナーのゴール
相関関係とは何かを学ぶ
回帰分析とはどのようなことをしているのかを理解する
回帰分析のチェック方法について知る
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 5 / 134
連続セミナーについて
確率
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 6 / 134
連続セミナーについて
統計的推測
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 7 / 134
連続セミナーについて
回帰分析
8
10
12
14
4 5 6 7
x
y
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 8 / 134
連続セミナーについて
=======================================================================================================
Dependent variable:
-----------------------------------------------------------------------------------
y
OLS normal
(1) (2) (3)
-------------------------------------------------------------------------------------------------------
x 1.702 1.752 1.702
(1.232, 2.171) (1.243, 2.260) (1.232, 2.171)
t = 7.102 t = 6.749 t = 7.102
p = 0.00001 p = 0.00003 p = 0.00001
z 0.171
(-0.390, 0.732)
t = 0.599
p = 0.561
Constant 1.629 1.404 1.629
(-0.812, 4.069) (-1.205, 4.013) (-0.812, 4.069)
t = 1.308 t = 1.055 t = 1.308
p = 0.214 p = 0.313 p = 0.214
-------------------------------------------------------------------------------------------------------
Observations 15 15 15
R2 0.795 0.801
Adjusted R2 0.779 0.768
Log Likelihood -18.772
Residual Std. Error 0.850 (df = 13) 0.872 (df = 12)
F Statistic 50.437 (df = 1; 13) (p = 0.00001) 24.153 (df = 2; 12) (p = 0.0001)
Akaike Inf. Crit. 41.545
Residual Deviance 9.392 (df = 13)
Null Deviance 45.829 (df = 14)
=======================================================================================================
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 9 / 134
相関関係
Section 2
相関関係
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 10 / 134
相関関係 ピアソンの積率相関係数
Subsection 1
ピアソンの積率相関係数
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 11 / 134
相関関係 ピアソンの積率相関係数
相関関係
ある 2 変数において, 一方の変数が大きいときにもう一方の変数
も大きく, 一方の変数が小さいときにはもう一方の変数も小さい
時, この 2 変数には正の相関関係があるという
ある 2 変数において, 一方の変数が大きいときにもう一方の変数
は小さく, 一方の変数が小さいときにもう一方の変数は大きい時,
この 2 変数には負の相関関係があるという
相関関係はただちに因果関係を意味しないことに注意
一方の変数を変化させたときに, もう一方の変数の値が変化するか
はわからない
相関関係は線形的な関係のみを捉えることができるため, 相関関係
がなくても因果関係があることもありえる
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 12 / 134
相関関係 ピアソンの積率相関係数
相関関係のグラフ化
2 変数を散布図に表し, A と C にデータが集まっていれば正の相
関関係, B と D にデータが集まっていれば負の相関関係がある
x の平均と y の平均を中心に 4 つの領域を分けている
A
B
C D
(x > x)Ç(y > y)
(x < x)Ç(y > y)
(x < x)Ç(y < y) (x > x)Ç(y < y)
-
y
+
- x +
x
y
図 1: 2 変数の関係のグラフ化
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 13 / 134
相関関係 ピアソンの積率相関係数
散布図と 4 つの領域
2 変数間の関係を調べるために, A, B, C, D のどの領域にデータが
あるのかを考える
4 つの領域は次の性質があることを利用する
𝐴 = (𝑥 > 𝑥) ∩ (𝑦 > 𝑦) = (𝑥 − 𝑥)(𝑦 − 𝑦) > 0
𝐵 = (𝑥 < 𝑥) ∩ (𝑦 > 𝑦) = (𝑥 − 𝑥)(𝑦 − 𝑦) < 0
𝐶 = (𝑥 < 𝑥) ∩ (𝑦 < 𝑦) = (𝑥 − 𝑥)(𝑦 − 𝑦) > 0
𝐷 = (𝑥 > 𝑥) ∩ (𝑦 < 𝑦) = (𝑥 − 𝑥)(𝑦 − 𝑦) < 0
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 14 / 134
相関関係 ピアソンの積率相関係数
標本共分散
2 変数間の関係は次の式で標本共分散 (sample covariance) を求め,
測ることができる1
𝑦 を 𝑥 に置き換えると 1 変数の分散 𝑠2
𝑥 となる
共分散は 2 変数のスケール (分散) によって異なる
共分散が正のときには正の相関が, 負のときには負の相関がある
𝑐𝑜𝑣(𝑥, 𝑦) と書かれることもある
𝑠𝑥𝑦 = 𝑐𝑜𝑣(𝑥, 𝑦) = 1
𝑛 ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
= 1
𝑛 ∑
𝑛
𝑖=1
(𝑥𝑖𝑦𝑖 − 𝑥𝑦𝑖 − 𝑥𝑖𝑦 + 𝑥𝑦)
= 1
𝑛 {∑
𝑛
𝑖=1
𝑥𝑖𝑦𝑖 − 𝑛𝑥𝑦}
1
多重和の展開 (𝑥 = ∑ 𝑥𝑖
𝑛
) と ∑ 𝑎 = 𝑛𝑎 に注意
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 15 / 134
相関関係 ピアソンの積率相関係数
不偏共分散
2 変数間の関係は次の式で不偏共分散を求め, 測ることができる
̂
𝜎𝑥𝑦 = 1
𝑛−1 ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 16 / 134
相関関係 ピアソンの積率相関係数
ピアソンの積率相関係数
共分散を各変数の標本標準偏差の積で除したものをピアソンの積
率相関係数 (Pearson product-moment correlation coefficient) という
単純に相関係数と呼ぶことも多い
𝑟𝑥𝑦 > 0 のときに正の相関が, 𝑟𝑥𝑦 < 0 のときに負の相関があると
いい, 𝑟𝑥𝑦 が 0 近辺のときに無相関という
不偏分散, 標本分散のどちらを用いても相関係数は同じ
𝑟𝑥𝑦 =
𝑠𝑥𝑦
𝑠𝑥𝑠𝑦
=
1
𝑛 ∑(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
√ 1
𝑛 ∑(𝑥𝑖−𝑥)2√ 1
𝑛 ∑(𝑦𝑖−𝑦)2
= ∑(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
√∑(𝑥𝑖−𝑥)2√∑(𝑦𝑖−𝑦)2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 17 / 134
相関関係 ピアソンの積率相関係数
標準化変数とピアソンの積率相関係数
標準化された 2 変数の共分散はピアソンの積率相関係数と一致す
る2
𝑟𝑥𝑦 = 1
𝑛 ∑
𝑛
𝑖=1
{(𝑥𝑖−𝑥
𝑠𝑥
− 1
𝑛 ∑
𝑛
𝑖=1
𝑥𝑖−𝑥
𝑠𝑥
) (𝑦𝑖−𝑦
𝑠𝑦
− 1
𝑛 ∑
𝑛
𝑖=1
𝑦𝑖−𝑦
𝑠𝑦
)}
= 1
𝑛 ∑
𝑛
𝑖=1
{(𝑥𝑖−𝑥
𝑠𝑥
− 0) (𝑦𝑖−𝑦
𝑠𝑦
− 0)}
= 1
𝑛 ∑
𝑛
𝑖=1
𝑥𝑖−𝑥
𝑠𝑥
𝑦𝑖−𝑦
𝑠𝑦
2
標準化された変数の平均は 0 であることに注意
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 18 / 134
相関関係 ピアソンの積率相関係数
ピアソンの積率相関係数の性質
ピアソンの積率相関係数は次の性質を持つ
1 定数 𝑎, 𝑏, 𝑐, 𝑑 に対して 𝑥𝑖 → 𝑎𝑥𝑖 + 𝑏, 𝑦𝑖 → 𝑐𝑦𝑖 + 𝑑 と変換すると,
𝑎𝑐 > 0 のとき 𝑟𝑎𝑥+𝑏,𝑐𝑦+𝑑 = 𝑟𝑥𝑦 となり, 𝑎𝑐 < 0 のとき
𝑟𝑎𝑥+𝑏,𝑐𝑦+𝑑 = −𝑟𝑥𝑦 となる
2 標準化された 𝑥𝑖 と 𝑦𝑖 の共分散は相関係数と一致する
3 相関係数は, −1 ≤ 𝑟𝑥𝑦 ≤ 1 を満たす
4 ベクトル a = (𝑥1 − 𝑥, … , 𝑥𝑛 − 𝑥), b = (𝑦1 − 𝑦, … , 𝑦𝑛 − 𝑦) のなす
角 𝜃 を考えると 𝑟𝑥𝑦 = 𝑐𝑜𝑠(𝜃) となる
5 ピアソンの積率相関係数は不偏推定量ではなく, 母集団の相関係
数と比較してやや小さく算出される
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 19 / 134
相関関係 ピアソンの積率相関係数
2 変数の関係と散布図
2 つの連続値の関係を捉えるためには, 散布図 (scatter plot) に表
すのが良い
散布図は x 軸と y 軸の該当する位置にポイントを描画する
2 変数に原因と結果の関係を仮定できる場合には, 原因と考えて
いる変数を x 軸に, 結果と考えている変数を y 軸に設定する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 20 / 134
相関関係 ピアソンの積率相関係数
相関係数とグラフのイメージ
0.5 0.75 1
-0.25 0 0.25
-1 -0.75 -0.5
-3 -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 3
-3 -2 -1 0 1 2 -3 -2 -1 0 1 2 -3 -2 -1 0 1 2
-2 -1 0 1 2 -2 0 2 -3 -2 -1 0 1 2
-2
-1
0
1
2
-3
-2
-1
0
1
2
-2
-1
0
1
2
3
-2
0
2
-2
0
2
-2
-1
0
1
2
3
-2
-1
0
1
2
-3
-2
-1
0
1
2
-2
0
2
x
y
図 2: 相関係数とグラフのイメージ
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 21 / 134
相関関係 ピアソンの積率相関係数
2 変数に関係はあるが無相関な例
circle quadratic sin
図 3: 2 変数に関係はあるが無相関な例
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 22 / 134
相関関係 ピアソンの積率相関係数
見せかけの相関
本来は何の関係もないにも関わらずたまたま相関があるようなデ
ータが得られることがある
これを見せかけの相関という
(Link) では, さまざまな見せかけの相関の例が示されている
個人的にはニコラス・ケイジの映画出演本数とプールでの溺死者
数の相関が好み
相関や因果を分析する際には必ず理論的な背景は何かを意識する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 23 / 134
相関関係 ピアソンの積率相関係数
ピアソンの積率相関係数の t 検定 1
帰無仮説を 𝑟 = 0 とし, 相関関係があるかどうかを検定する
検定統計量 𝑇
𝑇 =
|𝑟𝑥𝑦|
√
𝑛 − 2
√1 − 𝑟2
𝑥𝑦
検定統計量の従う分布: t 分布 (自由度 𝜈 は 𝑛 − 2)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 24 / 134
相関関係 ピアソンの積率相関係数
ピアソンの積率相関係数の t 検定 2
信頼区間
相関係数に対してフィッシャーの z 変換 (逆双曲線正接関数:
arctanh) を行い, 区間を求め, 逆双曲線正接関数の逆関数である双
曲線正接関数 (tanh) で再変換し, 信頼区間を求める
𝑧 =
1
2
ln
1 + 𝑟
1 − 𝑟
exp {2 × (𝑧 + 𝑧𝛼
2
√ 1
𝑛−3 )} − 1
exp {2 × (𝑧 + 𝑧𝛼
2
√ 1
𝑛−3 )} + 1
≤ 𝜌 ≤
exp {2 × (𝑧 + 𝑧1− 𝛼
2
√ 1
𝑛−3 )} − 1
exp {2 × (𝑧 + 𝑧1− 𝛼
2
√ 1
𝑛−3 )} + 1
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 25 / 134
単回帰分析
Section 3
単回帰分析
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 26 / 134
単回帰分析 散布図と回帰直線
Subsection 1
散布図と回帰直線
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 27 / 134
単回帰分析 散布図と回帰直線
散布図に線を引く
ある 2 変数 𝑥, 𝑦 の散布図を描き, その 2 変数の関係を表す直線を
引きたい
𝑦 を応答変数, 𝑥 を説明変数などと呼ぶ
ピアソンの積率相関係数も直線の関係 (1 次関数)
直線以外の関係はこの授業の範囲外
𝑦 = 𝛼 + 𝛽𝑥
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 28 / 134
単回帰分析 散布図と回帰直線
最小二乗法
直線と実測値との差が最も小さい線が良いのではないか
しかし, 差が正の場合と負の場合で打ち消し合ってしまう
絶対値は数学上扱いづらい
直線と実測値との差の 2 乗を利用する
直線と実測値の差の 2 乗の合計が最も小さくなるようにする 𝛼, 𝛽
を求めることを (通常) 最小二乗法 (Ordinary Least Squares
regressio: OLS) という
説明変数が 1 つの線形回帰分析を単回帰分析 (simple linear
regression analysis) と呼び, 説明変数が 2 つ以上の線形回帰分析を重
回帰分析 (multiple linear regression analysis) と呼ぶ
回帰分析によって求められた直線を回帰直線という
̂
𝛼, ̂
𝛽 = arg min
𝑎,𝑏
𝑛
∑
𝑖=1
{𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖)}2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 29 / 134
単回帰分析 散布図と回帰直線
散布図と様々な直線
9
11
13
4 5 6 7
x
y
図 4: 散布図と様々な直線
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 30 / 134
単回帰分析 散布図と回帰直線
散布図と回帰直線及び実測値との差
-2
0
2
4
-1 0 1 2
x
y
図 5: 散布図と回帰直線及び実測値との差
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 31 / 134
単回帰分析 散布図と回帰直線
各直線と実測値の差の 2 乗の和
0
5
10
orange red green blue
直
線
と
実
測
値
の
差
の
2
乗
図 6: 各直線と実測値の差の 2 乗の和
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 32 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
Subsection 2
定数項と回帰係数, 残差の求め方
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 33 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
定数項と回帰係数の求め方 1
単回帰分析は次のように数式で表すことができる
𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑢𝑖
𝑎 は定数項 (intercept, constant term) であり, 𝑥 が 0 の時の 𝑦 の値
𝑎 = 𝑦 − 𝑏𝑥
𝑏 は説明変数 𝑥 の回帰係数 (regression coefficient) であり, 𝑥 が 1 単
位増減したときに, 𝑦 がどの程度増減するかを示す
𝑏 =
𝑠𝑥𝑦
𝑠2
𝑥
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 34 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
回帰分析と残差
𝑢𝑖 は残差 (residual) であり, 回帰直線上にある理論上の値 ( ̂
𝑦) と実
測値の差を表す
残差が総じて小さい時, 分析に利用した統計モデルは手元のデー
タをよく説明できている
𝑢𝑖 = 𝑦𝑖 − ̂
𝑦𝑖 = 𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 35 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
残差はなぜあるのか
1 モデルが正しくない
真の関係が直線でないなど
説明変数が不足している
物が落ちる速度を考えるときに, 空気抵抗を考えなければ理論値と
実測値に誤差が生じるのと同じ
ただし, 物理と同じくすべての説明変数を網羅しなくても実社会に
おいて役に立つことも多い
2 本来すべてのものには偶然性を含むため, 残差はあって当然
→ コイン投げは, 空気抵抗や力の加減などを完全にコントロールすれ
ば必ず同じ結果を得られるのか, それとも偶然な要素を含むのか
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 36 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
定数項と回帰係数を求めるための準備
以降残差平方和を偏微分するため, 残差平方和は以下のように展
開できることを確認しておく
𝑢2
𝑖 = ∑
𝑛
𝑖=1
(𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖))2
= ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2
= ∑
𝑛
𝑖=1
(𝑦2
+ 𝑎2
+ 𝑏2
𝑥2
𝑖 − 2𝑎𝑦𝑖 + 2𝑎𝑏𝑥𝑖 − 2𝑏𝑥𝑖𝑦𝑖)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 37 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
定数項の求め方
残差平方和 ∑ 𝑢2
𝑖 を定数項 𝑎 で偏微分した結果を 0 と置き, これ
を解くと定数項が求まる
残差平方和を定数項の関数と捉えれば下に凸な関数となるため, 最
小となる点で傾きが 0 となる
𝜕 ∑
𝑛
𝑖=1
𝑢2
𝑖
𝜕𝑎
=
𝜕 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2
𝜕𝑎
= 0
−2
𝑛
∑
𝑖=1
(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖) = 0
𝑛𝑎 = ∑
𝑛
𝑖=1
𝑦𝑖 − 𝑏 ∑
𝑛
𝑖=1
𝑥𝑖
𝑎 = 𝑦 − 𝑏𝑥
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 38 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
回帰係数の求め方 1
残差平方和 ∑ 𝑢2
𝑖 を回帰係数 𝑏 で偏微分した結果を 0 と置き, こ
れを解くと回帰係数が求まる
𝜕 ∑
𝑛
𝑖=1
𝑢2
𝑖
𝜕𝑏
=
𝜕 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2
𝜕𝑏
= 0
−2
𝑛
∑
𝑖=1
(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)𝑥𝑖 = 0
𝑏
𝑛
∑
𝑖=1
𝑥2
𝑖 = ∑
𝑛
𝑖=1
𝑦𝑖𝑥𝑖 − 𝑎 ∑
𝑛
𝑖=1
𝑥𝑖
𝑏
𝑛
∑
𝑖=1
𝑥2
𝑖 = ∑
𝑛
𝑖=1
𝑦𝑖𝑥𝑖 − (𝑦 − 𝑏𝑥) ∑
𝑛
𝑖=1
𝑥𝑖
𝑏 (
𝑛
∑
𝑖=1
𝑥2
𝑖 − 𝑥
𝑛
∑
𝑖=1
𝑥𝑖) = ∑
𝑛
𝑖=1
𝑦𝑖𝑥𝑖 − 𝑦 ∑
𝑛
𝑖=1
𝑥𝑖
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 39 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
回帰係数の求め方 2
左辺の ∑ 𝑥2
𝑖 − 𝑥 ∑ 𝑥𝑖 は次のように展開できる
𝑛
∑
𝑖=1
𝑥2
𝑖 − 𝑥
𝑛
∑
𝑖=1
𝑥𝑖 = ∑
𝑛
𝑖=1
𝑥2
𝑖 − 2𝑥 ∑
𝑛
𝑖=1
𝑥𝑖 + 𝑥 ∑
𝑛
𝑖=1
𝑥𝑖
= ∑
𝑛
𝑖=1
𝑥2
𝑖 − 2𝑥 ∑
𝑛
𝑖=1
𝑥𝑖 + 𝑥(𝑛𝑥)
= ∑
𝑛
𝑖=1
𝑥2
𝑖 − 2𝑥 ∑
𝑛
𝑖=1
𝑥𝑖 + 𝑛𝑥2
= ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)2
1
𝑛
(
𝑛
∑
𝑖=1
𝑥2
𝑖 − 𝑥
𝑛
∑
𝑖=1
𝑥𝑖) = 1
𝑛 ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)2
= 𝑠2
𝑥
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 40 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
回帰係数の求め方 3
右辺の ∑ 𝑦𝑖𝑥𝑖 − 𝑦 ∑ 𝑥𝑖 は次のように展開できる
𝑛
∑
𝑖=1
𝑦𝑖𝑥𝑖 − 𝑦
𝑛
∑
𝑖=1
𝑥𝑖 = ∑
𝑛
𝑖=1
𝑦𝑖𝑥𝑖 − 𝑥 ∑
𝑛
𝑖=1
𝑦𝑖 − 𝑦 ∑
𝑛
𝑖=1
𝑥𝑖 + 𝑥 ∑
𝑛
𝑖=1
𝑦𝑖
= ∑
𝑛
𝑖=1
𝑦𝑖𝑥𝑖 − 𝑥 ∑
𝑛
𝑖=1
𝑦𝑖 − 𝑦 ∑
𝑛
𝑖=1
𝑥𝑖 + 𝑛𝑥𝑦
= ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
1
𝑛
𝑛
∑
𝑖=1
𝑦𝑖𝑥𝑖 − 𝑦
𝑛
∑
𝑖=1
𝑥𝑖 = 1
𝑛 ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) = 𝑠𝑥𝑦
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 41 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
回帰係数の求め方 4
これまでの式展開を整理する
𝑏 (
𝑛
∑
𝑖=1
𝑥2
𝑖 − 𝑥
𝑛
∑
𝑖=1
𝑥𝑖) = ∑
𝑛
𝑖=1
𝑦𝑖𝑥𝑖 − 𝑦 ∑
𝑛
𝑖=1
𝑥𝑖
𝑏
𝑛
∑
𝑖=1
(𝑥𝑖 − 𝑥)2
= ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑏 =
∑
𝑛
𝑖=1
(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
∑
𝑛
𝑖=1
(𝑥𝑖−𝑥)2
=
1
𝑛 ∑
𝑛
𝑖=1
(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
1
𝑛 ∑
𝑛
𝑖=1
(𝑥𝑖−𝑥)2
=
𝑠𝑥𝑦
𝑠2
𝑥
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 42 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
定数項と回帰係数を連立方程式で解く
偏微分して 0 と置いた式を整理して連立方程式として解くことも
できる
{
𝑎𝑛 + 𝑏 ∑ 𝑥𝑖 = ∑ 𝑦𝑖
𝑎 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥2
𝑖 = ∑ 𝑥𝑖𝑦𝑖
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 43 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
定数項と回帰係数を行列として解く 1
連立方程式で解けるなら当然行列の問題として解くことができる
行列の形で書いた式を正規方程式という
(
𝑛 ∑ 𝑥𝑖
∑ 𝑥𝑖 ∑ 𝑥2
𝑖
) (
𝑎
𝑏
) = (
∑ 𝑦𝑖
∑ 𝑥𝑖𝑦𝑖
)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 44 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
定数項と回帰係数を行列として解く 2
左辺の行列の逆行列を両辺に左からかけると解が得られる
(
𝑎
𝑏
) = 1
𝑛 ∑ 𝑥2
𝑖 −(∑ 𝑥𝑖)2 (
∑ 𝑥2
𝑖 − ∑ 𝑥𝑖
− ∑ 𝑥𝑖 𝑛
) (
∑ 𝑦𝑖
∑ 𝑥𝑖𝑦𝑖
)
= 1
𝑛 ∑ 𝑥2
𝑖 −(∑ 𝑥𝑖)2 (
∑ 𝑥2
𝑖 ∑ 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑥𝑖𝑦𝑖
𝑛 ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 45 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
回帰直線と標本平均
推定値 ̂
𝑦𝑖 について数式を整理する
回帰直線は, 説明変数 𝑥𝑖 が 𝑥 の時, 応答変数 𝑦𝑖 の標本算術平均 𝑦
を通る
̂
𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖
= 𝑦 − 𝑏𝑥 + 𝑏𝑥𝑖
= 𝑦 + 𝑏(𝑥𝑖 − 𝑥)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 46 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
8
10
12
14
4 5 6 7
x
y
図 7: 回帰直線と標本平均
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 47 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
変数の標準化と回帰係数
応答変数と説明変数の双方を標準化することで, 元の単位に左右
されずに判断できる
説明変数が標準偏差 1 つ分変化したときに, 応答変数の標準偏差が
どの程度変化するかを示す
両変数を標準化して求めた回帰係数は相関係数と一致
定数項 𝑎 は 0 となる
𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑢𝑖
= 𝑦 + 𝑏(𝑥𝑖 − 𝑥)
𝑦𝑖 − 𝑦 = 𝑏(𝑥𝑖 − 𝑥) + 𝑢𝑖
=
𝑠𝑥𝑦
𝑠2
𝑥
(𝑥𝑖 − 𝑥) + 𝑢𝑖
𝑦𝑖 − 𝑦
𝑠𝑦
=
𝑠𝑥𝑦
𝑠𝑥𝑠𝑥𝑠𝑦
(𝑥𝑖 − 𝑥) + 𝑢𝑖
𝑠𝑦
= 𝑟𝑥𝑦
𝑥𝑖−𝑥
𝑠𝑥
+ 𝑢𝑖
𝑠𝑦
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 48 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
-1
0
1
2
-1 0 1 2
x
y
図 8: 回帰直線と変数の標準化
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 49 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
ダミー変数
本来は数値化できない名義尺度の変数を分析する際には, ダミー
変数 (dummy variable) を利用する
便宜上, 男性を 0, 女性を 1 などとして数値化して分析する
ダミー変数を説明変数とする単回帰分析は定数項がダミー変数が
0 の平均, 回帰係数はダミー変数間の平均値の差となる
回帰係数の検定の結果は Student の t 検定と一致する
̂
𝑦 = 𝑎 + 𝑏𝑥𝑖 = {
̂
𝑦 = 𝑎 𝑥𝑖が 0 の時
̂
𝑦 = 𝑎 + 𝑏 𝑥𝑖が 1 の時
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 50 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
残差の平均
最小二乗法は残差の 2 乗和を最小化するが, 残差の平均は 0
となる
偏差 (実測値とその平均の差) の平均は 0
𝑢𝑖 = 𝑦𝑖 − ̂
𝑦𝑖
= 𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖)
= (𝑦𝑖 − 𝑦) − 𝑏(𝑥𝑖 − 𝑥)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 51 / 134
単回帰分析 定数項と回帰係数, 残差の求め方
残差と説明変数は無相関
残差と説明変数は無相関であり, 共分散 𝑠𝑢𝑥 も 0 となる
残差は 𝑦𝑖 から説明変数の影響を取り除いた量となる
𝑛
∑
𝑖=1
(𝑢𝑖 − 𝑢)(𝑥𝑖 − 𝑥) = ∑
𝑛
𝑖=1
𝑢𝑖(𝑥𝑖 − 𝑥) − 𝑢 ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)
= ∑
𝑛
𝑖=1
𝑢𝑖(𝑥𝑖 − 𝑥)
= ∑
𝑛
𝑖=1
{(𝑦𝑖 − 𝑦) − 𝑏(𝑥𝑖 − 𝑥)}(𝑥𝑖 − 𝑥)
= ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) − 𝑏 ∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 52 / 134
重回帰分析
Section 4
重回帰分析
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 53 / 134
重回帰分析
シンプソンのパラドクス
2 変数間で相関関係があったとしても, 各層に分割して分析をし
た場合には, 全体を分析した際とは別の結果になることがある
第 3 の変数 (グループを表す変数等でも良い) が x と y に影響し, x
は y のみに影響している場合などがある
x
z
y
図 9: シンプソンのパラドクス
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 54 / 134
重回帰分析
シンプソンのパラドクスのグラフの例
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4
x
y
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4
x
y
1 2 3 4 5
0.0 0.5 1.0 1.50 1.75 2.00 2.25 2.50 2.50 2.75 3.00 3.25 3.6 3.8 4.0 4.2 4.4 4.5 4.8 5.1 5.4
1.25
1.50
1.75
2.00
0.8
1.2
1.6
0.4
0.8
1.2
1.6
0.3
0.6
0.9
1.2
-0.5
0.0
0.5
1.0
x
y
図 10: シンプソンのパラドクス
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 55 / 134
重回帰分析
重回帰分析と残差の最小化
単回帰分析ではうまく現象が説明できないことが多い
シンプソンのパラドクスなど
複数の説明変数を加えた重回帰分析のほうが汎用性が高い
基本は単回帰分析の延長
重回帰分析においては, 下記の残差平方和を最小化する解を
求める
ここで 𝑘 は説明変数の数である
𝑎 は 𝑏0 などのように表されることも多い
𝑘 = 2 の場合は, 残差平方和の最も小さい平面を探索していること
になる
̂
𝛼, ̂
𝛽1, ⋯ , ̂
𝛽𝑘 = arg min
𝑎,𝑏1,⋯,𝑏𝑘
𝑛
∑
𝑖=1
{𝑦𝑖 − (𝑎 + 𝑏1𝑥𝑖,1 + ⋯ + 𝑏𝑘𝑥𝑖,𝑘)2
}
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 56 / 134
重回帰分析
重回帰分析と行列
重回帰分析は行列と線形代数を利用すると比較的容易に解くこと
ができる
定数項は説明変数が 1 の回帰係数だと捉えると説明変数と同時に
求められる
y = ⎡
⎢
⎣
𝑦1
⋮
𝑦𝑛
⎤
⎥
⎦
, x = ⎡
⎢
⎣
1 𝑥11 ⋯ 𝑥1𝑘
⋮ ⋮ ⋮ ⋮
1 𝑥𝑛1 ⋯ 𝑥𝑛𝑘
⎤
⎥
⎦
, ̂
𝛽
𝛽
𝛽 =
⎡
⎢
⎣
̂
𝛽0
⋮
̂
𝛽𝑘
⎤
⎥
⎦
, u = ⎡
⎢
⎣
𝑢1
⋮
𝑢𝑛
⎤
⎥
⎦
行列を使えば重回帰分析は次のように表せる
̂
y = x𝛽
𝛽
𝛽 で表された式を計画行列という
y = x ̂
𝛽
𝛽
𝛽 + u
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 57 / 134
重回帰分析
偏回帰係数の推定
行列を用いると偏回帰係数は次のように求めることができる
̂
𝛽 ̂
𝛽 ̂
𝛽 = (x𝑇
x)−1
x𝑇
y
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 58 / 134
重回帰分析
偏回帰係数の導出 1
残差平方和をまず行列を用いて整理する
𝐸 = ∑
𝑛
𝑖
(𝑦𝑖 − ̂
𝑦𝑖)2
= ∑
𝑛
𝑖
(𝑦𝑖 − x ̂
𝛽
𝛽
𝛽)2
= (y − x ̂
𝛽
𝛽
𝛽)𝑇
(y − x ̂
𝛽
𝛽
𝛽)
= y𝑇
y − y𝑇
x ̂
𝛽
𝛽
𝛽 − (x ̂
𝛽
𝛽
𝛽)𝑇
y + (x ̂
𝛽
𝛽
𝛽)𝑇
x ̂
𝛽
𝛽
𝛽
= y𝑇
y − ̂
𝛽
𝛽
𝛽
𝑇
(x𝑇
y) − ( ̂
𝛽
𝛽
𝛽
𝑇
x𝑇
)y + ̂
𝛽
𝛽
𝛽
𝑇
x𝑇 ̂
𝛽
𝛽
𝛽
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 59 / 134
重回帰分析
偏回帰係数の導出 1
整理した残差平方和を偏微分する
𝜕𝐸
𝜕 ̂
𝛽
𝛽
𝛽
= −2x𝑇
y + (x𝑇
x + (x𝑇
x)𝑇
) ̂
𝛽
𝛽
𝛽
= −2x𝑇
y + 2x𝑇
x ̂
𝛽
𝛽
𝛽 = 0
よって次式が得られる
x𝑇
x ̂
𝛽
𝛽
𝛽 = x𝑇
y
x𝑇
x に逆行列が存在すれば, x𝑇
y に逆行列を左からかけることで
偏回帰係数が得られる
̂
𝛽
𝛽
𝛽 = (x𝑇
x)−1
x𝑇
y
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 60 / 134
重回帰分析
偏回帰係数の解釈
偏回帰係数は他の変数の影響を取り除いた (コントロールした) 回
帰係数を算出している
偏微分の意味から考えるとわかりやすい
他の変数が一定の時, ある説明変数が 1 単位増加したときに, 応答
変数がどの程度増減するかを示している
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 61 / 134
重回帰分析
残差のパラメーター
残差の 2 乗の和を残差平方和 (residual sum of squares, RSS) という
𝑅𝑆𝑆 =
𝑛
∑
𝑖=1
𝑢2
𝑖 =
𝑛
∑
𝑖=1
{𝑦𝑖 − ( ̂
𝛼 + ̂
𝛽𝑥𝑖)}2
標本から得られた残差の 2 乗 𝑢𝑖 からパラメーター (母集団の残差
の 2 乗)𝜎 を推定するには下記のように求める
推定された ̂
𝜎 は不偏推定量である
ここで 𝑘 は説明変数の数
̂
𝜎2
=
1
𝑛 − 𝑘 − 1
𝑛
∑
𝑖=1
𝑢2
𝑖 =
1
𝑛 − 𝑘 − 1
𝑅𝑆𝑆
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 62 / 134
重回帰分析 最尤推定法
Subsection 1
最尤推定法
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 63 / 134
重回帰分析 最尤推定法
最尤推定法とは
最小二乗法以外にも定数項や回帰係数を推定する方法がある
今回は最尤推定法 (maximum likelihood method) について扱う
最尤推定法とは, 今ある標本データを得られる確率が最も高い確
率分布のパラメーターを推定する方法
データから最も尤もらしいパラメーターを推定する
最尤推定法と最小二乗法の大きな違いの 1 つは確率分布を仮定す
ること
確率分布を想定するため, 正規分布以外の確率分布を使うことで様
々な種類の応答変数を分析できるようになる
最尤推定法において重要なのは尤度関数
定数項, 回帰係数, 誤差項ともに最小二乗法と一致する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 64 / 134
重回帰分析 最尤推定法
最尤推定法とモデル式
最尤推定法による線形単回帰分析は次のように数式で表すことが
できる
𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑢𝑖, 𝑢𝑖 ∼ 𝑁(0, 𝜎2
)
最小二乗法との大きな違いは, 誤差項に正規性を仮定すること
𝑢𝑖, 𝑖.𝑖.𝑑 ∼ 𝑁(0, 𝜎2
)
応答変数 𝑦𝑖 は誤差項 𝑢𝑖 の線形関数のため, 予測値 ̂
𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖
も正規分布する
𝑦𝑖, 𝑖.𝑖.𝑑 ∼ 𝑁(𝑎 + 𝑏𝑥𝑖, 𝜎2
)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 65 / 134
重回帰分析 最尤推定法
0.0
0.2
0.4
0.6
-4 -2 0 2 4
X
y
図 11: 最尤推定法のイメージ
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 66 / 134
重回帰分析 最尤推定法
応答変数の確率密度関数
応答変数 𝑦𝑖 は正規分布することから, 確率密度関数を用いて次の
ように表せる
𝑓(𝑦𝑖|𝛼, 𝛽, 𝜎2
) =
1
√
2𝜋𝜎2
exp {−
(𝑦 − 𝛼 − 𝛽𝑥𝑖)2
2𝜎2
}
応答変数 𝑦𝑖 を確率変数, パラメーター 𝛼, 𝛽, 𝜎 を定数とすると 𝑦𝑖
の同時確率密度関数は次のように書ける
𝑓(𝑦1, ⋯ , 𝑦𝑛 ∶ 𝛼, 𝛽, 𝜎) = 𝑓(𝑦1) ⋯ 𝑓(𝑦𝑛)
= (2𝜋𝜎2
)− 𝑛
2 exp {− 1
2𝜎2 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖)2
}
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 67 / 134
重回帰分析 最尤推定法
尤度関数
最尤推定法では, データを得られる確率が最も高い確率分布のパ
ラメーターを推定するため, 確率密度関数の逆を考える
データ (確率変数の実現値) を所与と考え, パラメーターを変数の
ように考える
これを尤度関数 (likelihood function) という
尤度関数の値が最大となるパラメーターを得る方法が最尤推定法
𝐿(𝛼, 𝛽, 𝜎2
) = (2𝜋𝜎2
)− 𝑛
2 exp {−
∑
𝑛
𝑖=1
(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖)2
2𝜎2
}
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 68 / 134
重回帰分析 最尤推定法
最尤推定と偏微分
尤度関数の値が最大となるパラメーターを得るには偏微分して 0
と置く
ただし, これを解くのよりも尤度関数を対数変換したほうが解き
やすい
𝜕𝐿
𝜕𝛼
= 0,
𝜕𝐿
𝜕𝛽
= 0,
𝜕𝐿
𝜕𝜎2
= 0
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 69 / 134
重回帰分析 最尤推定法
対数尤度関数
偏微分がより簡単な対数尤度関数を用いる
もちろん, 対数変換の前後でパラメーターの推定値は同じである
log 𝐿 = −
𝑛
2
log(2𝜋) −
𝑛
2
log 𝜎2
−
∑
𝑛
𝑖=1
(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖)2
2𝜎2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 70 / 134
重回帰分析 最尤推定法
対数尤度関数と偏微分
最尤推定量を求めるために, 対数尤度関数を偏微分して 0 と置く
上の 2 式から 𝛼, 𝛽 が求められ, 最小二乗推定量と一致する
𝜕 log 𝐿
𝜕𝛼
= 1
𝜎2 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖)
𝜕 log 𝐿
𝜕𝛽
= 1
𝜎2 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖)𝑥𝑖
𝜕 log 𝐿
𝜕𝜎2
= − 𝑛
2𝜎2 + 1
2𝜎4 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖)2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 71 / 134
重回帰分析 最尤推定法
重回帰分析の対数尤度関数
重回帰分析の場合にも行列を用いれば同様に対数尤度関数を次の
ように表すことができる
log 𝐿 = −
𝑛
2
log(2𝜋) −
𝑛
2
log 𝜎2
−
∑
𝑛
𝑖=1
(𝑦
𝑦
𝑦 − 𝑥𝛽
𝑥𝛽
𝑥𝛽)𝑇
(𝑦
𝑦
𝑦 − 𝑥𝛽
𝑥𝛽
𝑥𝛽)2
2𝜎2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 72 / 134
予測
Section 5
予測
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 73 / 134
予測
予測区間
得られたデータセットに対する推論よりも新しいデータセットに
対する予測が重要となる場合が多い
得られたデータよりも母集団に興味があるのであれば, 新しいデー
タセットに対する予測のほうが重要
新しいデータ 𝑥0 から新しいデータに対する予測値 ̂
𝑦0 は次のよう
に推定できる
̂
𝑦0 = ̂
𝛼 + ̂
𝛽𝑥0
予測区間を (1 − 𝜆)100% 区間とすると予測区間は次式で求める
𝑥0 が元のデータの平均 𝑥 より離れるほど区間は広くなる
̂
𝑦0 ± 𝑡𝑛−2, 𝜆
2
√
𝑛
∑
𝑖=0
{
(𝑦𝑖 − ̂
𝑦𝑖)2
𝑛 − 2
}√1 +
1
𝑛
+
(𝑥0 − 𝑥)2
∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 74 / 134
予測
重回帰分析と予測区間
重回帰分析の場合には以下のように予測区間を推定できる
𝑥0
𝑥0
𝑥0 は 𝑘 列の新しいデータの説明変数ベクトルである
̂
𝑦
𝑦
𝑦0 ± 𝑡𝑛−𝑘−1, 𝜆
2
̂
𝜎√1 + 𝑥
𝑥
𝑥𝑇
0 (𝑥
𝑥
𝑥𝑇𝑥
𝑥
𝑥)−1𝑥
𝑥
𝑥0
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 75 / 134
予測
6
8
10
12
14
16
4 5 6 7
x
y
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 76 / 134
モデルの前提と推定量の性質
Section 6
モデルの前提と推定量の性質
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 77 / 134
モデルの前提と推定量の性質 モデルの前提
Subsection 1
モデルの前提
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 78 / 134
モデルの前提と推定量の性質 モデルの前提
回帰分析の前提
回帰分析には大きく 5 つの前提がある
1 誤差項の期待値は 0 である
2 各残差の 2 乗の期待値は定数 𝜎2
である
3 各残差間の共分散は 0 である
4 説明変数は指定変数, もしくは所与である
5 誤差項は正規分布する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 79 / 134
モデルの前提と推定量の性質 モデルの前提
誤差項の期待値は 0
誤差項の期待値は 0 であるとは次のように表記できる
残差を表す誤差項は平均をみれば 0 となる
𝔼[𝑢𝑖] = 0
説明変数が指定変数, もしくは所与であれば, 次のように表すこと
もできる
𝑎 + 𝑏𝑥𝑖 は 𝑦𝑖 の平均的な大きさを説明しようとしている
𝔼[𝑦𝑖|𝑥𝑖] = 𝑎 + 𝑏𝑥𝑖
説明変数に重要な変数が欠落している場合, この前提は満たさ
れない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 80 / 134
モデルの前提と推定量の性質 モデルの前提
各残差の 2 乗の期待値は 𝜎2
各残差の 2 乗の期待値は 𝜎2
であるとは次のように表記できる
𝔼[𝑢2
𝑖 ] = 𝕍(𝑢𝑖) = 𝕍(𝑦𝑖) = 𝜎2
各観察によらず, 誤差の 2 乗の期待値は一定である
応答変数や説明変数によって誤差が変化しない
不均一分散ではない
𝔼[𝑢2
𝑖 ] ≠ 𝜎2
𝑖
x と y の関係が線形でない場合などには均一分散の前提は満たさ
れない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 81 / 134
モデルの前提と推定量の性質 モデルの前提
各残差間の共分散は 0
各残差間の共分散は 0 であるとは次のように表記できる
下記では 𝑖 ≠ 𝑗 であり, 𝑖, 𝑗 = 1, ⋯ , 𝑛 である
𝑐𝑜𝑣(𝑢𝑖, 𝑢𝑗) = 𝔼[𝑢𝑖𝑢𝑗] = 𝑐𝑜𝑣(𝑦𝑖, 𝑦𝑗) = 0
時系列データや空間データは自己相関 (auto-correlation) している
ため, しばしばこの前提は満たされない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 82 / 134
モデルの前提と推定量の性質 モデルの前提
説明変数は指定変数, もしくは所与
説明変数は指定変数であるとは, 分析者が説明変数を操作できる
ということである
この前提は社会科学の場合にはしばしば満たされないが, 所与で
あるとの仮定がおければ分析上問題はない
当然であるが, 最低でも応答変数よりも前に値が確定する変数の
みを説明変数として利用しなくてはならない
応答変数が説明変数に影響を与える場合や説明変数同士で影響を
与えあっている場合などはこの前提が満たされない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 83 / 134
モデルの前提と推定量の性質 モデルの前提
誤差項は正規分布
誤差項は正規分布であるとは次のように示される
𝑢𝑖 ∼ 𝑁(0, 𝜎2
)
誤差項が正規分布しないことはあるが, しばしば仮定が満たされ
ないほどではない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 84 / 134
モデルの前提と推定量の性質 最小二乗推定量の性質
Subsection 2
最小二乗推定量の性質
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 85 / 134
モデルの前提と推定量の性質 最小二乗推定量の性質
最小二乗推定量の性質
最小二乗推定量は好ましい 5 つの性質がある
1 最小二乗推定量は不偏推定量である
2 最小二乗推定量は最良線形不偏推定量である
3 最小二乗推定量は最小分散不偏推定量である
4 最小二乗推定量は一致推定量である
5 最小二乗推定量は正規分布する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 86 / 134
モデルの前提と推定量の性質 最小二乗推定量の性質
最小二乗推定量は不偏推定量
最小二乗推定量は不偏推定量である
このためには仮定 1. 誤差項の期待値は 0 及び 4. 説明変数は所与
を満たす必要がある
𝔼[𝑎] = 𝛼, 𝔼[𝑏] = 𝛽
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 87 / 134
モデルの前提と推定量の性質 最小二乗推定量の性質
最小二乗推定量は最良線形不偏推定量
最小二乗推定量は最良線形不偏推定量 (best linear unbiased
estimator, BLUE) である
線形不偏推定量のうち, 分散が最小である
仮定は 1 から 4 まですべて満たす必要がある
ガウス・マルコフの仮定
ガウス・マルコフの仮定をもう少し丁寧に説明すれば下記が必要
y = 𝑥𝛽
𝑥𝛽
𝑥𝛽 + u と線形で関係している
サンプルは無作為抽出している
説明変数に変動があり, 説明変数間で完全な線形関係がないこと
x を条件としたとき, 誤差項の期待値は 0
x を条件としたとき, 分散は均一
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 88 / 134
モデルの前提と推定量の性質 最小二乗推定量の性質
最小二乗推定量は最小分散不偏推定量
最小二乗推定量は最小分散不偏推定量 (minimum variance unbiased
esimator, MVUE) である
すべての不偏推定量のうち, 分散が最小である
仮定は 1 から 5 まですべてを満たす必要がある
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 89 / 134
モデルの前提と推定量の性質 最小二乗推定量の性質
最小二乗推定量は一致推定量
最小二乗推定量は一致推定量である
一致性を持つためには下記の十分条件がある
特に上記は漸近的不偏性と呼ばれる
lim
𝑛→∞
𝐸[ ̂
𝜃] = 𝜃
lim
𝑛→∞
𝑉 𝑎𝑟( ̂
𝜃) = 0
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 90 / 134
モデルの前提と推定量の性質 最小二乗推定量の性質
最小二乗推定量は正規分布
仮定 5 が満たされれば, 最小二乗推定量も正規分布する
̂
𝛼 ∼ 𝑁 (𝛼, 𝜎 ( 1
𝑛 +
̄
𝑋2
∑ 𝑥2
𝑖
))
̂
𝛽 ∼ 𝑁 (𝛽, 𝜎
∑ 𝑥2
𝑖
)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 91 / 134
モデルの前提と推定量の性質 最尤推定量の性質
Subsection 3
最尤推定量の性質
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 92 / 134
モデルの前提と推定量の性質 最尤推定量の性質
最尤推定量の NICE な特性
最小二乗法の 5 つの前提を満たす時, 最尤推定量も最小二乗法の
性質を持つ
最尤推定量は NICE な特性を持つ
𝜃
𝜃
𝜃 を 𝑝 × 1 のパラメーターベクトル, ̂
𝜃
𝜃
𝜃 を 𝜃
𝜃
𝜃 の最尤推定量とする
1 漸近正規性 (asynmptotic Normality)
̂
𝜃
𝜃
𝜃 の漸近的分布は正規分布になる
2 不変性 (Invariance)
𝑔(𝜃) を 𝜃 の任意の関数とすると, 𝑔(𝜃) の最尤推定量は 𝑔( ̂
𝜃) で与え
られる
3 一致性 (Consistency)
最尤推定量の漸近正規性が成り立つならば, 最尤推定量の一致性も
成り立つ
4 漸近効率 (有効) 性 (asymptotic Efficiency)
漸近不偏推定量の中で分散が最小
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 93 / 134
モデルのチェック
Section 7
モデルのチェック
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 94 / 134
モデルのチェック 回帰係数
Subsection 1
回帰係数
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 95 / 134
モデルのチェック 回帰係数
回帰係数と検定 1(単回帰)
帰無仮説を 𝑏 = 0 とし, 回帰係数が 0 と異なるかどうかを検定す
る
検定統計量 𝑇
一番右の式の分母を ̂
𝛽 の標準誤差という
𝑇 =
̂
𝛽√∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)2
√
̂
𝜎2
=
̂
𝛽
√ ̂
𝜎2
∑
𝑛
𝑖=1
(𝑥𝑖−𝑥)2
検定統計量の従う分布: t 分布 (自由度 𝜈 は 𝑛 − 2)
説明変数がダミー変数の場合, スチューデントの t 検定と一
致する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 96 / 134
モデルのチェック 回帰係数
回帰係数と検定 2(単回帰)
信頼区間
̂
𝛽 ± 𝑡𝑛−2, 𝛼
2
√
̂
𝜎2
∑
𝑛
𝑖=1
(𝑥𝑖 − 𝑥)2
信頼区間に 0 が含まれれば帰無仮説を受容し, 含まれなければ帰
無仮説を棄却して対立仮説を採択する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 97 / 134
モデルのチェック 回帰係数
回帰係数と検定 1(重回帰)
帰無仮説を 𝑏 = 0 とし, 回帰係数が 0 と異なるかどうかを検定す
る
検定統計量 𝑇
ここで 𝑅2
𝑗 とは 𝑗 番目の説明変数をのぞいた説明変数で 𝑥𝑗 を回帰
した際の重相関係数 (決定係数, 後述)
𝑇 =
̂
𝛽𝑗√∑
𝑛
𝑖=1
(𝑥𝑗𝑖 − 𝑥𝑗)2√(1 − 𝑅2
𝑗 )
√
̂
𝜎2
=
̂
𝛽𝑗
√ ̂
𝜎2
∑
𝑛
𝑖=1
(𝑥𝑗𝑖−𝑥𝑗)2(1−𝑅2
𝑗 )
検定統計量の従う分布: t 分布 (自由度 𝜈 は 𝑛 − 𝑘 − 1)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 98 / 134
モデルのチェック 回帰係数
回帰係数と検定 2
信頼区間
̂
𝛽𝑗 ± 𝑡𝑛−𝑘−1, 𝛼
2
√
̂
𝜎2
∑
𝑛
𝑖=1
(𝑥𝑗𝑖 − 𝑥𝑗)2(1 − 𝑅2
𝑗 )
信頼区間に 0 が含まれれば帰無仮説を受容し, 含まれなければ帰
無仮説を棄却して対立仮説を採択する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 99 / 134
モデルのチェック モデル全体
Subsection 2
モデル全体
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 100 / 134
モデルのチェック モデル全体
決定係数 1
モデルがデータをどれだけ説明できているか (当てはまっている
か) を示す指標に決定係数 (determination coefficient) がある
通常 𝑅2
で表される
決定係数は様々な角度から論じることができる
予測値 ̂
𝑦𝑖 と実測値 𝑦𝑖 の相関係数の 2 乗
回帰係数が 0 の場合と比較して, どれだけ残差平方和が小さくなっ
ているかを比で表し, 1 から引く
説明変数 𝑥𝑖 と応答変数 𝑦𝑖 の相関係数の 2 乗
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 101 / 134
モデルのチェック モデル全体
決定係数 2
説明変数が応答変数に全く寄与しない場合, 回帰係数は 0 となる
この場合も回帰直線は 𝑦 を通ることから, 定数項は 𝑦 となる
( ̂
𝑦𝑖 = 𝑦)
回帰係数が 0 の場合と比較して, どれだけ残差平方和が小さくな
っているかを比で表し, 1 から引いて計算する
残差が 0(モデルが完全にデータを説明する) の場合, 決定係数は 1
となり, 回帰係数が 0 の時決定係数も 0 となる
𝑅2
= 1 −
∑
𝑛
𝑖=1
{𝑦𝑖 − ( ̂
𝛼 + ̂
𝛽𝑥𝑖)}2
∑
𝑛
𝑖=1
(𝑦𝑖 − 𝑦)2
= 1 −
1
𝑛 ∑
𝑛
𝑖=1
𝑢2
𝑖
1
𝑛 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝑦)2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 102 / 134
モデルのチェック モデル全体
自由度調整済み決定係数
決定係数は説明変数が増えるほど, 1 に近づく
説明変数の数に応じてペナルティを科す
説明変数の数に応じて自由度が変わるため, 自由度を考慮した決
定係数を自由度調整済み決定係数 (adjusted determination
coefficient) という
これは残差の不偏推定量を応答変数の分散の不偏推定量で除し
ている
ただし, 近年は決定係数の使用は懐疑的な意見が多い
𝑎𝑑𝑗.𝑅2
= 1 −
1
𝑛−𝑘−1 ∑
𝑛
𝑖=1
𝑢2
𝑖
1
𝑛−1 ∑
𝑛
𝑖=1
(𝑦𝑖 − 𝑦)2
= 1 −
𝑛 − 1
𝑛 − 𝑘 − 1
(1 − 𝑅2
)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 103 / 134
モデルのチェック モデル全体
LOOCV
LOOCV(leave-one-out cross-validation, 1 個抜き交差検証法)
1 つだけ分析用のデータから除外し, 残りのデータでモデルを作成
し, 除外したデータを予測する
これをデータの数だけ繰り返す
予測の精度を予測値と実測値との差の 2 乗の平均の平方根
1
𝑁
√∑
𝑁
𝑖
( ̂
𝑦(𝑖) − 𝑦𝑖)2 や差の絶対値の平均 1
𝑁 ∑
𝑁
𝑖
| ̂
𝑦(𝑖)
− 𝑦𝑖| の指標
がよく用いられる
予測値と実測値の相関係数を 2 乗して決定係数が求められること
もある
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 104 / 134
モデルのチェック モデル全体
回帰式の適合度検定
分析モデルが有用であるかを 2 値的に判断するためには, 回帰式
の適合度検定 (F 検定) を利用する
すべての回帰係数 (𝛽1, ⋯ , 𝛽𝑘) は 0 であることを帰無仮説とする
1 つでも回帰係数が 0 でなければ帰無仮説は棄却される
検定統計量 𝑇
𝑇 =
𝑅2
1 − 𝑅2
𝑛 − 𝑘 − 1
𝑘
検定統計量の従う分布: F 分布 (自由度 𝜈1, 𝜈2 は 𝑘, 𝑛 − 𝑘 − 1)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 105 / 134
モデルのチェック 残差の分析
Subsection 3
残差の分析
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 106 / 134
モデルのチェック 残差の分析
t 検定及び決定係数と残差の関係
回帰係数の t 検定や決定係数のみで結果を判断してしまうと関係
を誤って判断する可能性がある
次スライドに Anscombe(1973) で紹介された例をグラフ化し
ている
完全に一致はしないが, 4 例すべてで定数項は 3, 回帰係数は 0.5
t 値は回帰係数で 2.67, 回帰係数で 4.24
決定係数は 0.67
F 値は多少ばらつきがあるが 18 弱ですべて p 値は 1% 未満
単回帰分析なら散布図を書けばよいが, 重回帰分析では判断が
難しい
残差の分析を行うことで, 分析に問題がないかチェックする
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 107 / 134
モデルのチェック 残差の分析
3 4
1 2
5 10 15 5 10 15
5.0
7.5
10.0
12.5
5.0
7.5
10.0
12.5
x
y
図 12: Anscombe の例
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 108 / 134
モデルのチェック 残差の分析
残差のチェック
残差の検定などもあるが, ここではグラフ化することで残差をチ
ェックする方法について解説する
グラフ化は基本的に散布図を利用する
残差のチェック方法は様々あるが, 今回は下記を紹介する
予測値
残差
てこ比
Cook の距離
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 109 / 134
モデルのチェック 残差の分析
残差と予測値のプロット
残差は応答変数の大きさによらず一定であることが前提とされた
それをチェックするために, 予測値を x 軸に, 残差を y 軸に残差を
プロットすることでチェックできる
応答変数の大きさによって系統的な残差が発生している (2 次の
関係など) かをチェックする
全体的に均一に分布していれば問題ない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 110 / 134
モデルのチェック 残差の分析
Toyota Corolla
Pontiac Firebird Fiat 128
-5.0
-2.5
0.0
2.5
5.0
7.5
10 15 20 25
Fitted values
Residuals
Residuals vs Fitted
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 111 / 134
モデルのチェック 残差の分析
標準化した残差の平方根と予測値のプロット
同様に標準化した残差の絶対値の平方根を y 軸にとってプロット
することもある
ここでも同様に残差が均一に分布しているかをチェックする
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 112 / 134
モデルのチェック 残差の分析
Toyota Corolla
Pontiac Firebird Fiat 128
0.4
0.8
1.2
10 15 20 25
Fitted values
Standardized
residuals
Scale-Location
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 113 / 134
モデルのチェック 残差の分析
正規 Q-Q プロット
残差が正規分布していることは最尤推定法の基本の 1 つである
これをチェックする方法の 1 つが正規 Q-Q プロット (normal Q-Q
plot)
x 軸に理論的な標準正規分布, y 軸に標準化した残差をプロッ
トする
一直線上に一致していれば残差は正規分布していると考えられる
x 軸は次のように計算される
ただし, 添字 𝑖 は標準化した残差を昇順で並び替えたときのインデ
ックスである
調整定数 𝑎, 𝑏 はそれぞれ −3/8, 1/4 などがよく利用される
Φ−1
(
𝑖 + 𝑎
𝑛 + 𝑏
)
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 114 / 134
モデルのチェック 残差の分析
Toyota Corolla
Pontiac Firebird
Fiat 128
-1
0
1
2
-2 -1 0 1 2
Theoretical Quantiles
Standardized
residuals
Normal Q-Q
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 115 / 134
モデルのチェック 残差の分析
標準化した残差とてこ比のプロット
てこ比 (leverage) とは, 各観測がモデルの当てはめに与える影響の
大きさを示す
外れ値などはてこ比が大きくなる
てこ比はまず影響行列 (influence matrix)𝐻 を考える
影響行列 𝐻 の第 𝑖 対角成分 ℎ𝑖,𝑖 が観測 𝑖 のてこ比
てこ比は 0 から 1 の間の値を取る
てこ比は説明変数からのみ算出されるため, 説明変数と残差との関
係をチェックできる
𝐻 = 𝑥
𝑥
𝑥(𝑥
𝑥
𝑥𝑇
𝑥
𝑥
𝑥)−1
𝑥
𝑥
𝑥𝑇
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 116 / 134
モデルのチェック 残差の分析
Toyota Corolla
Pontiac Firebird
Lotus Europa
-1
0
1
2
0.0 0.1 0.2 0.3
Leverage
Standardized
Residuals
Residuals vs Leverage
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 117 / 134
モデルのチェック 残差の分析
Cook の距離とてこ比のプロット
Cook の距離は各観測がどれだけ推定に影響を与えるかを示す
観測 𝑘 のクックの距離 𝑑𝑘 は観測 𝑘 を除いて回帰分析を行い, その
予測値 ̂
𝑦∗
𝑖 とすべてのデータを用いて回帰分析した際の係数との差
に関する値
Cook の距離は 0.5 以上だと大きいと言われている
𝑑𝑘 =
1
𝑝 ̂
𝜎2
𝑛
∑
𝑖=1,𝑖≠𝑘
( ̂
𝑦∗
𝑖 − ̂
𝑦𝑖)2
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 118 / 134
モデルのチェック 残差の分析
Toyota Corolla
Pontiac Firebird
Lotus Europa
0.00
0.05
0.10
0.15
0.0 0.1 0.2 0.3
Leverage
Cook's
distance
Cook's dist vs Leverage
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 119 / 134
モデルのチェック 多重共線性
Subsection 4
多重共線性
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 120 / 134
モデルのチェック 多重共線性
多重共線性
説明変数間の相関が高すぎると偏回帰係数の分散が大きくなりす
ぎてしまう
極度に大きい場合には符号が逆転する
説明変数間で強い相関があることを多重共線性 (multi collinearity)
という
説明変数間の関係とは単純な相関関係だけではなく, 別の説明変
数を合計したもの (𝑥𝑗 + 𝑥𝑘) なども含む
完全な線形関係が存在する場合, 最小二乗法の場合には 𝑥
𝑥
𝑥𝑇
𝑥
𝑥
𝑥 が正
則でなくなるため, 解けなくなる
完全な線形関係がある場合, どちらの影響になのかを識別
(identification) できない
ダミー変数のすべての値を説明変数とすると完全な線形関係が生
じ, 分析できない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 121 / 134
モデルのチェック 多重共線性
VIF
そこで分散拡大要因 (variance inflation factor: VIF) を考える
各説明変数の VIF は, 各説明変数 𝑥𝑗 を応答変数とし, それ以外の
説明変数を説明変数とした重回帰分析の決定係数 𝑅2
𝑗 を利用する
𝑉 𝐼𝐹𝑗 =
1
1 − 𝑅2
𝑗
VIF は 10 を超えると危険だと言われている
偏回帰係数に興味がある場合には多重共線性の問題は無視できな
いが, 予測に興味がある場合には多重共線性は大きな問題とはな
らない
完全な線形関係がある場合には, 係数を算出できないため問題
は残る
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 122 / 134
モデルのチェック モデル選択
Subsection 5
モデル選択
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 123 / 134
モデルのチェック モデル選択
モデル選択の必要性
説明変数が複数ある場合, 様々なモデルを作成し, 比較する場合が
ある
説明変数はすべて投入するのが良いのか, それとも一部を投入す
るほうが良いのかを検討する
ただし, 基本は理論的にどのようなモデルが良いのかを検討する
ことが大切であり, その後に情報量規準などを用いて統計的にモ
デル選択することを考える
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 124 / 134
モデルのチェック モデル選択
AIC と BIC
よく利用される情報量基準として, AIC と BIC がある
赤池の情報量基準 (Akaike information criteria: AIC)
特に予測に力点を置く場合に利用される
最大対数尤度を 𝐿∗
, パラメーターの数を 𝑝 と表す
𝐴𝐼𝐶 = −2𝐿∗
+ 2𝑝
ベイジアン情報量基準 (Bayesian information criteria: BIC)
特に正しいの説明変数の組み合わせに力点を置く場合に利用
される
𝐵𝐼𝐶 = −2𝐿∗
+ 𝑝 log 𝑛
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 125 / 134
モデルのチェック モデル選択
赤池の情報量基準
真の構造を再現し, 真の説明変数から真の回帰係数を求めるのは
難しい
統計モデルはあくまでモデルであり, 近似に過ぎない
真の分布の推定ではなく, 将来得られるデータのできるだけ精確
に予測することを目指す
この観点からモデルを考える基準を赤池の情報量基準という
モデルが規定する予測分布 𝑓(𝑥) と真の分布 𝑔(𝑥) との近さをカル
バックーライブラー (Kullback-Leibler) 情報量で評価する
単に推定値と実測値の誤差ではない
情報量基準は予測分布と真の分布の差の大きさ (近さ) を表してい
るため, 値の小さなモデルほどよいモデルであると考えられる
ただし, 絶対的な基準はなく, あくまで相対的なものとなる
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 126 / 134
モデルのチェック モデル選択
ベイジアン情報量規準
BIC は周辺尤度 (エビデンス) の近似推定量となっている
ベイジアンと名前がついているが, ベイズ推定ではなく最尤推定
をすることで求められる
真のモデルが含まれるとき, そのモデルを適切に選択することが
できる
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 127 / 134
モデルのチェック モデル選択
どのような説明変数を含むべきか
ある説明変数の偏回帰係数は, 他の変数を一定としたときにどの
程度応答変数に影響を与えるかを示すものであった
どのような説明変数を含めるかで偏回帰係数の解釈も変化する
例えば応答変数は賃金であり, 教育が説明変数である
職業を説明変数に加え, コントロールすることを考える
職業を入れない場合は, どのような職業に就くかに関わらず教育が
賃金に与える影響を求める
職業を入れた場合は, 職業が一定の場合に教育が賃金に与える影響
を求める
医者や弁護士などの職業は賃金を上昇させると考えられ, それには
教育は大きな要素となるが, 教育によってそのような職業が選択で
きるという影響は考慮できなくなる
同じ職業の中でも教育によって賃金が変化するという関係に興味
があれば良い
興味のある説明変数の意味を明確にするためにコントロールすべ
き変数はなるべく含む
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 128 / 134
モデルのチェック モデル選択
説明変数とコントロール変数
何を説明変数とし, 何をコントロール変数とすべきかは様々な議
論がある
有向非巡回グラフ DAG(Directed Acyclic Graph) を利用すると判断
しやすい
DAG を基礎とした因果推論である Pearl 流の因果推論における日本
の第一人者の 1 人は理工学部の黒木学教授
詳細は割愛するが, バックドア基準に従って次のコントロール変数
を統制する
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 129 / 134
モデルのチェック モデル選択
説明変数 X と応答変数 Y の双方に影響を与えている変数 Z が存
在する場合には, Z を必ずコントロール変数に追加する
X Z
Y
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 130 / 134
モデルのチェック モデル選択
説明変数 X が変数 Z に, 変数 X が応答変数 Y の双方に影響を与え
ている場合には, Z をコントロール変数に追加すると説明変数 X
の効果はうまく分析できない
X Z
Y
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 131 / 134
モデルのチェック モデル選択
説明変数 X と応答変数 Y の双方が変数 Z に影響を与えている場
合には, Z をコントロール変数に追加すると説明変数 X の効果は
うまく分析できない
X
Y
Z
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 132 / 134
モデルのチェック モデル選択
コントロール変数の解釈
興味のある説明変数の推定するために加えたコントロールすべき
変数をコントロール変数という
コントロール変数の偏回帰係数も解釈すべきだという指摘がある
が果たして正しいか?
説明変数の意味を明確にするためにコントロール変数を投入して
いるが, 各コントロール変数の意味を明確にするための変数まで
投入しているとは限らない
大切なのは興味のある説明変数の解釈であり, コントロール変数の
解釈ではないし, 場合によっては解釈するべきではない
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 133 / 134
モデルのチェック モデル選択
=======================================================================================================
Dependent variable:
-----------------------------------------------------------------------------------
y
OLS normal
(1) (2) (3)
-------------------------------------------------------------------------------------------------------
x 1.702 1.698 1.702
(1.232, 2.171) (1.207, 2.189) (1.232, 2.171)
t = 7.102 t = 6.783 t = 7.102
p = 0.00001 p = 0.00002 p = 0.00001
z 0.042
(-0.556, 0.639)
t = 0.137
p = 0.894
Constant 1.629 1.663 1.629
(-0.812, 4.069) (-0.922, 4.248) (-0.812, 4.069)
t = 1.308 t = 1.261 t = 1.308
p = 0.214 p = 0.232 p = 0.214
-------------------------------------------------------------------------------------------------------
Observations 15 15 15
R2 0.795 0.795
Adjusted R2 0.779 0.761
Log Likelihood -18.772
Residual Std. Error 0.850 (df = 13) 0.884 (df = 12)
F Statistic 50.437 (df = 1; 13) (p = 0.00001) 23.324 (df = 2; 12) (p = 0.0001)
Akaike Inf. Crit. 41.545
Residual Deviance 9.392 (df = 13)
Null Deviance 45.829 (df = 14)
=======================================================================================================
中島有希大 基礎から学ぶ回帰分析 2022 年 6 月 16 日 134 / 134

More Related Content

Similar to 第6回スキル養成講座 講義スライド

2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12)
2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12) 2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12)
2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12) Akira Asano
 
反応性と解釈可能性の評価
反応性と解釈可能性の評価反応性と解釈可能性の評価
反応性と解釈可能性の評価Senshu University
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuHideyuki Takahashi
 
データ解析・統計講座②
データ解析・統計講座②データ解析・統計講座②
データ解析・統計講座②uenotsutomu
 
実験計画法入門 Part 3
実験計画法入門 Part 3実験計画法入門 Part 3
実験計画法入門 Part 3haji mizu
 
20200605 oki lecture4
20200605 oki lecture420200605 oki lecture4
20200605 oki lecture4Takuya Oki
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 

Similar to 第6回スキル養成講座 講義スライド (7)

2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12)
2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12) 2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12)
2022年度秋学期 応用数学(解析) 第14回 測度論ダイジェスト(1) ルベーグ測度と完全加法性 (2023. 1. 12)
 
反応性と解釈可能性の評価
反応性と解釈可能性の評価反応性と解釈可能性の評価
反応性と解釈可能性の評価
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manu
 
データ解析・統計講座②
データ解析・統計講座②データ解析・統計講座②
データ解析・統計講座②
 
実験計画法入門 Part 3
実験計画法入門 Part 3実験計画法入門 Part 3
実験計画法入門 Part 3
 
20200605 oki lecture4
20200605 oki lecture420200605 oki lecture4
20200605 oki lecture4
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 

More from keiodig

Dig17高校生部門賞_Dreamer.pdf
Dig17高校生部門賞_Dreamer.pdfDig17高校生部門賞_Dreamer.pdf
Dig17高校生部門賞_Dreamer.pdfkeiodig
 
Dig17審査員特別賞_三匹の子豚.pdf
Dig17審査員特別賞_三匹の子豚.pdfDig17審査員特別賞_三匹の子豚.pdf
Dig17審査員特別賞_三匹の子豚.pdfkeiodig
 
Dig17未来創造賞_KIM.pdf
Dig17未来創造賞_KIM.pdfDig17未来創造賞_KIM.pdf
Dig17未来創造賞_KIM.pdfkeiodig
 
Dig17カカクコム賞_海老アヒージョ.pdf
Dig17カカクコム賞_海老アヒージョ.pdfDig17カカクコム賞_海老アヒージョ.pdf
Dig17カカクコム賞_海老アヒージョ.pdfkeiodig
 
Dig17優秀賞_3軒目のタランチュラ.pdf
Dig17優秀賞_3軒目のタランチュラ.pdfDig17優秀賞_3軒目のタランチュラ.pdf
Dig17優秀賞_3軒目のタランチュラ.pdfkeiodig
 
Dig17最優秀賞_MotherLake
Dig17最優秀賞_MotherLakeDig17最優秀賞_MotherLake
Dig17最優秀賞_MotherLakekeiodig
 
第36回勉強会講義スライド
第36回勉強会講義スライド第36回勉強会講義スライド
第36回勉強会講義スライドkeiodig
 
第12回スキル養成講座 講義スライド
第12回スキル養成講座 講義スライド第12回スキル養成講座 講義スライド
第12回スキル養成講座 講義スライドkeiodig
 
第11回スキル養成講座 講義スライド
第11回スキル養成講座 講義スライド第11回スキル養成講座 講義スライド
第11回スキル養成講座 講義スライドkeiodig
 
第10回スキル養成講座資料
第10回スキル養成講座資料第10回スキル養成講座資料
第10回スキル養成講座資料keiodig
 
高校生部門賞_勝ちまくり同盟
高校生部門賞_勝ちまくり同盟高校生部門賞_勝ちまくり同盟
高校生部門賞_勝ちまくり同盟keiodig
 
審査員特別賞_藤代ファンクラブ
審査員特別賞_藤代ファンクラブ審査員特別賞_藤代ファンクラブ
審査員特別賞_藤代ファンクラブkeiodig
 
未来創造賞_こしガーヤ
未来創造賞_こしガーヤ未来創造賞_こしガーヤ
未来創造賞_こしガーヤkeiodig
 
一休賞_#ひとやすみ。
一休賞_#ひとやすみ。一休賞_#ひとやすみ。
一休賞_#ひとやすみ。keiodig
 
優秀賞_JR志村
優秀賞_JR志村優秀賞_JR志村
優秀賞_JR志村keiodig
 
最優秀賞_チームコルテ
最優秀賞_チームコルテ最優秀賞_チームコルテ
最優秀賞_チームコルテkeiodig
 
第9回スキル養成講座講義資料
第9回スキル養成講座講義資料第9回スキル養成講座講義資料
第9回スキル養成講座講義資料keiodig
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
第7回スキル養成講座講義スライド
第7回スキル養成講座講義スライド第7回スキル養成講座講義スライド
第7回スキル養成講座講義スライドkeiodig
 
07_こもり唄.pdf
07_こもり唄.pdf07_こもり唄.pdf
07_こもり唄.pdfkeiodig
 

More from keiodig (20)

Dig17高校生部門賞_Dreamer.pdf
Dig17高校生部門賞_Dreamer.pdfDig17高校生部門賞_Dreamer.pdf
Dig17高校生部門賞_Dreamer.pdf
 
Dig17審査員特別賞_三匹の子豚.pdf
Dig17審査員特別賞_三匹の子豚.pdfDig17審査員特別賞_三匹の子豚.pdf
Dig17審査員特別賞_三匹の子豚.pdf
 
Dig17未来創造賞_KIM.pdf
Dig17未来創造賞_KIM.pdfDig17未来創造賞_KIM.pdf
Dig17未来創造賞_KIM.pdf
 
Dig17カカクコム賞_海老アヒージョ.pdf
Dig17カカクコム賞_海老アヒージョ.pdfDig17カカクコム賞_海老アヒージョ.pdf
Dig17カカクコム賞_海老アヒージョ.pdf
 
Dig17優秀賞_3軒目のタランチュラ.pdf
Dig17優秀賞_3軒目のタランチュラ.pdfDig17優秀賞_3軒目のタランチュラ.pdf
Dig17優秀賞_3軒目のタランチュラ.pdf
 
Dig17最優秀賞_MotherLake
Dig17最優秀賞_MotherLakeDig17最優秀賞_MotherLake
Dig17最優秀賞_MotherLake
 
第36回勉強会講義スライド
第36回勉強会講義スライド第36回勉強会講義スライド
第36回勉強会講義スライド
 
第12回スキル養成講座 講義スライド
第12回スキル養成講座 講義スライド第12回スキル養成講座 講義スライド
第12回スキル養成講座 講義スライド
 
第11回スキル養成講座 講義スライド
第11回スキル養成講座 講義スライド第11回スキル養成講座 講義スライド
第11回スキル養成講座 講義スライド
 
第10回スキル養成講座資料
第10回スキル養成講座資料第10回スキル養成講座資料
第10回スキル養成講座資料
 
高校生部門賞_勝ちまくり同盟
高校生部門賞_勝ちまくり同盟高校生部門賞_勝ちまくり同盟
高校生部門賞_勝ちまくり同盟
 
審査員特別賞_藤代ファンクラブ
審査員特別賞_藤代ファンクラブ審査員特別賞_藤代ファンクラブ
審査員特別賞_藤代ファンクラブ
 
未来創造賞_こしガーヤ
未来創造賞_こしガーヤ未来創造賞_こしガーヤ
未来創造賞_こしガーヤ
 
一休賞_#ひとやすみ。
一休賞_#ひとやすみ。一休賞_#ひとやすみ。
一休賞_#ひとやすみ。
 
優秀賞_JR志村
優秀賞_JR志村優秀賞_JR志村
優秀賞_JR志村
 
最優秀賞_チームコルテ
最優秀賞_チームコルテ最優秀賞_チームコルテ
最優秀賞_チームコルテ
 
第9回スキル養成講座講義資料
第9回スキル養成講座講義資料第9回スキル養成講座講義資料
第9回スキル養成講座講義資料
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
第7回スキル養成講座講義スライド
第7回スキル養成講座講義スライド第7回スキル養成講座講義スライド
第7回スキル養成講座講義スライド
 
07_こもり唄.pdf
07_こもり唄.pdf07_こもり唄.pdf
07_こもり唄.pdf
 

第6回スキル養成講座 講義スライド