4. 相関係数correlation coefficient
相関係数とは相関の程度を示す指標のことで、もっともよく用いられるのは、「ピアソ
ンの積率相関係数product-moment correlation coefficientであり、単に相関係数と
いうときには通常これをさしている。
[注]パラメトリック:前もって母集団の分布型を仮定しておくこと。
例えば、正規分布を仮定した上でデータにフィットするよう平均・分散を調整する。
相関係数
r=
=
変数Xと変数Yの共分散
変数Xの標準偏差*変数Yの標準偏差
å (x - x )(y - y )/ n
å (x - x / n) å (y - y
)
å (x - x (y - y )
å (x - x ()y - y )
i
i
2
i
=
i
i
)
/n
i
2
i
2
2
i
で定義される。相関係数はつねに[-1~1]の範囲にある。
上式の分子はxの偏差とyの偏差を同時に考えたときの全データについての平均であ
り、これを共分散covarianceと呼ぶ。
4
9. 最小二乗法を使った展開式
(上式) na + (å xi )b = å y i
n
{
L = å y i - (bx i + a
2
)
}
i =1
= å ( y i - bx i - a
2
(
)
)
= å y 2 i - 2 y i bx i - 2 ay i + b 2 x i + 2 abx i + a 2
2
変数 a 以外は定数項の 2次式と捉え、 a で偏微分して 0とおくと、
0 = å (- 2 y i + 2bx i + 2 a
å y = å a + å bx
i
(å +
(下式) xi a )
n
i
= na + (å xi )b
(å x
{
L = å y i - (bx i + a
)
2
i
)
b = å xi y i
2
)
}
i =1
(
)
= å y 2 i - 2 y i bx i - 2 ay i + b 2 x i + 2 abx i + a 2
2
変数 b 以外は定数項の 2次式と捉え、 b で偏微分して 0とおくと、
(
0 = å - 2 y i x i + 2bx i + 2 ax i
2
å x y = å ax + å bx
i
i
i
2
i
= (å xi a )
+
(å x
)
2
i
b
)
10. 直線のあてはめ(2)
回帰方程式
得られたa,bによる1次式をyのx上への回帰方程式 regression equation、bはその傾
きslopeで、偏回帰係数 partial regression coefficientと呼ぶ。
決定係数coefficient of determination
回帰と相関には、つながりがある。あてはめられた回帰直線の傾き、つまり回帰係数
は、
å (xi - x )( yi - y )
b=
å (x - x
i
2
※次頁の展開式参照
)
と表される。
相関係数の定義と比べると、bとrの間には
2
Sy
å ( yi - y )
=r
b=r
2
Sx
å (xi - x )
の関係が成立する。相関係数rはxとyの間の直線関係のあてはまりのよさという意味
をもつ。理論値との残差residualについて、
åd
2
i
(
ˆ
= å ( yi - yi ) = 1 - r 2
2
)å ( y - y )
2
i
が成り立つから、rの2乗が1に近いほど理論値に近づく。
10
11. 回帰係数の展開式
最小二乗法で求めた正規方程式から、
傾き b =
å x y - nx y を用いて
å x - nx
i
i
2
2
b=
i
å (x - x )( y - y )が求まるまでの展開式
å (x - x )
i
2
i
(分子)
)
å (x - x ( y - y =) å (x y - x y - x y
= å x y -å x y - å x y + å x y
= å x y -nx y - nx y + nx y
= å x y - nx y
i
i
i
i
i
i
i
i
i
+ xy
i
i
i
i
i
(分母)
(xi - x 2 )= å (xi 2 - 2 xi x + x 2
å
= å xi - å 2 xi x + å x 2
2
= å xi - 2nx × x + nx 2
2
= å xi - nx 2
2
i
)
)