Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
回帰分析
浅川伸一 asakawa@ieee.org
目 次
1 基本仮定 2
2 解法 2
2.1 ベクトル幾何学的解法 . . . . . . . . . . . . . . . . . . . . . . 2
2.2 別解 1. 最小 2...
1 基本仮定
y = Xβ + ϵ (X = {x1, x2, . . . , xp}).
y を従属変数, X = {x1, x2, . . . , xp} を独立変数, β を回帰係数, ϵ を誤差項
または残差 という.
仮定 1 E (...
2.2 別解 1. 最小 2 乗解
誤差の 2 乗和 |ϵ|
2
を最小にする.
|ϵ|
2
= (y − Xβ)
⊤
(y − Xβ)
= y⊤
y − 2β⊤
X⊤
y + β⊤
(
X⊤
X
)
β,
だから
∂ |ϵ|
2
∂β
= −...
射影ベクトルである. この平均偏差ベクトルの長さの 2 乗 |x|
2
を
データ数で割ったものは
1
n
|x|
2
=
1
n
(x, x) =
1
n
n∑
1
(x − x )
2
= s2
x,
平均偏差ベクトルをもちいると x と ...
ゆえに
(
α
β
)
=


y −
Sxy
S2
x
x
Sxy
S2
x

 .
つまり
yi = α + βxi + ϵi
= y − β x + βxi + ϵi,
あるいは,
yi − y = β (xi − x ) + ϵ...
4 重回帰
4.1 重相関係数
重相関係数とは, 実測値 y と予測値 y = Xβ = X
(
X⊤
X
)−1
X′
y との
相関係数をいう.
Ry y
=
(y · y)
|y| |y|
=
y⊤
X
(
X⊤
X
)−1
X′
y
√...
ゆえに
β1 =
Sy
S1
·
r1y − r12r2y
1 − r2
12
β2 =
Sy
S2
·
r2y − r12r1y
1 − r2
12
.
これを用いれば重相関係数の 2 乗は,
R2
y y
=
|y|
2
|y|
2 =
|...
=
S2
1 SyS2ry2 − SyS1ry1S1S2r12
S2
1 S2
2 − S2
1 S2
2 − S2
1 S2
2 r2
12
=
S2
1 SyS2 (ry2 − ry1r12)
S2
1 S2
2 (1 − r2
12)
=...
y⊤
x2/1 = y⊤
(
I − x1
(
x1
⊤
x1
)−1
x1
′
)
x2
= y⊤
x2 −
(
y⊤
x1
)
(x1x2)
x⊤
1 x1
= ry2SyS2 −
ry1SyS1r12S1S2
S2
1
= SyS2 (r...
形に書けるとき, 線形推定量であるという. y が確率変数であることから, そ
の線形推定量 β も確率変数となって, 期待値を導出できる.
β =
(
X⊤
X
)−1
X⊤
y
=
(
X⊤
X
)−1
X⊤
(Xβ + ϵ)
= β +
...
5.3 残差の推定
従属変数の実測値 y と予測値 y = Xβ との差 e = y − y を残差とい
う. 誤差項 ϵ は測定不可能な母数であり, ϵ はその推計値である. 誤差 ϵ
とその分散 σ2
には次の性質がある. 以下では L
(...
のように書けるので, 誤差分散は,
V (e) = E
(
ee⊤
)
= P ⊥
X E
(
ϵϵ⊤
)
P ⊥
X
= P ⊥
X σ2
IP ⊥
X
= σ2
P ⊥
X P ⊥
X
= σ2
P ⊥
X .
別解. 一般に 2 次形式 ...
1. 回帰パラメータ b の期待値
b =
sxy
sx
=
1
n
∑
(xi − x ) (yi − y )
1
n
∑
(xi − x )
2 .
上式に, yi − y = β (xi − x ) + ϵi を代入すると
b =
sxy...
∑
(xi − x ) は定数とみなして,
= E
{ 1
n2
∑
(xi − x )
2
ϵ2
+ 2 1
n
∑
i̸=j
∑
(xi − x ) (xj − x ) ϵϵ
1
n
∑
(xi − x )
2 1
n
∑
(xi − x ...
ゆえに
V
(
e⊤
e
)
=
n
n − 2
s2
y
(
1 − r2
xy
)
.
6 区間推定, 検定
整理すると, 回帰モデル y = Xβ + ϵ において
y ∼ N
(
Xβ, σ2
I
)
, rank X = p
の最小 ...
以上の議論から,

 β − β
√
σ2
(
X⊤
X
)−1


2
は, 自由度 p の χ2
分布にしたがう.
β = 0 を検定することを考えた場合. もし母集団において β = 0 ならば(す
なわち帰無仮説 H0 : β ...
6.2 回帰係数の検定
個々の回帰係数については,
(
X⊤
X
)−1
の i 番目の対角要素を aii
と表記す
ると
βi − βi
σ
√
aii
∼ N
(
0, 12
)
,
e⊤
e
σ2
=
(n − p) s2
e
σ2
∼ ...
が成り立つことから,
β
⊤
x ±
√
p Fα
p,n−p x⊤
(
X⊤
X
)−1
x,
6.4 予測値の区間推定
説明変数 x = xa が得られたとき, 対応する従属変数は
ya = x⊤
a β + ϵa,
と予測できる. また,...
ここに, y は, データから全体の平均を引いた平均偏差ベクトルである. X は,
1 と 0 だけからなる n1 + n2 行 2 列の行列であり, このような行列を計画行
列 と呼ぶことがある (n1,n2 はそれぞれの群のデータ数). た...
=
















x 1 − X
x 1 − X
...
x 1 − X
x 2 − X
x 2 − X
...
x 2 − X
















...
この式は, 2 群の母平均値の差の t 検定の公式そのものである.
同様の方法を用いれば, 3 群以上の平均値間の差の検定, すなわち 1 要因の
分散分析を導くことは容易である. すなわち, 1 と 0 とからなる計画行列 X
の列数を水準数...
Upcoming SlideShare
Loading in …5
×

回帰

267 views

Published on

第2回 TensorFlowと機械学習に必要な数学を基礎から学ぶ会資料 回帰編

Published in: Science
  • Be the first to comment

  • Be the first to like this

回帰

  1. 1. 回帰分析 浅川伸一 asakawa@ieee.org 目 次 1 基本仮定 2 2 解法 2 2.1 ベクトル幾何学的解法 . . . . . . . . . . . . . . . . . . . . . . 2 2.2 別解 1. 最小 2 乗解 . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3 別解 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 単回帰 4 3.1 ベクトル幾何学的解法 . . . . . . . . . . . . . . . . . . . . . . 4 3.2 最小 2 乗解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4 重回帰 6 4.1 重相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 4.2 偏回帰係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 4.3 偏相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.4 部分相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 5 パラメータの推定 9 5.1 回帰係数の期待値 . . . . . . . . . . . . . . . . . . . . . . . . . 9 5.2 回帰係数の分散 . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5.3 残差の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 5.4 別解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6 区間推定, 検定 15 6.1 相関係数の検定 . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.2 回帰係数の検定 . . . . . . . . . . . . . . . . . . . . . . . . . . 17 6.3 回帰係数の区間推定 . . . . . . . . . . . . . . . . . . . . . . . 17 6.4 予測値の区間推定 . . . . . . . . . . . . . . . . . . . . . . . . . 18 6.5 応用例. t 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1
  2. 2. 1 基本仮定 y = Xβ + ϵ (X = {x1, x2, . . . , xp}). y を従属変数, X = {x1, x2, . . . , xp} を独立変数, β を回帰係数, ϵ を誤差項 または残差 という. 仮定 1 E (ϵ) = 0. 仮定 2 V (ϵ) = σ2 I. 仮定 3 rank (X) = p. 仮定 4 誤差項 ϵi はそれぞれ独立に N ( 0, σ2 ) に従う. 2 解法 2.1 ベクトル幾何学的解法 誤差項 ϵ は回帰モデルによって説明されない部分である. この ϵ のノルム を最小にするよに β を定める. すなわち |ϵ| 2 = |y − Xβ| 2 → min. これは L (X) 上へ y を射影することに相当する. この射影は X ( X⊤ X )−1 X′ y に よって与えられる. これによって y = Xβ = X ( X⊤ X )−1 X′ y. すなわち β = ( X′ X )−1 X′ y. β を β の 最小 2 乗推定量 という. X によって張られる線形部分空間 L (X) への射影行列 X ( X⊤ X )−1 X′ を P と表現すれば回帰式は y = P y + ϵ, となる. さらに ϵ = y − P y = (I − P ) y, すなわち, 回帰式を射影行列によ る独立変数ベクトルの分解 y = P y + (I − P ) y, と考えることができる. 2
  3. 3. 2.2 別解 1. 最小 2 乗解 誤差の 2 乗和 |ϵ| 2 を最小にする. |ϵ| 2 = (y − Xβ) ⊤ (y − Xβ) = y⊤ y − 2β⊤ X⊤ y + β⊤ ( X⊤ X ) β, だから ∂ |ϵ| 2 ∂β = −2X⊤ y + 2X⊤ Xβ = 0 X⊤ Xβ = X⊤ y これを解いて, β = ( X′ X )−1 X′ y. 2.3 別解 2. 誤差ベクトルと予測ベクトル y = Xβ とは直交するからその内積は 0 で ある. ((Xβ) · (y − Xβ)) = 0 β⊤ X⊤ y − β⊤ X⊤ Xβ = 0. これを解いて, β = ( X′ X )−1 X′ y. 平均偏差ベクトル n 個のデータからなる n 次元ベクトル x = (x1, x2, . . . , xn) ⊤ , y = (y1, y2, . . . , yn) ⊤ の個々の要素から平均値を引いたベクトル を平均偏差ベクトルという.      x1 − x x2 − x ... xn − x      ,      y1 − y y2 − y ... yn − y      , この平均偏差ベクトルの意味を考える. すべての要素が 1 であるベ クトル 1 = ( n 個 1, 1, . . . , 1 )⊤ によって張られる部分空間 L (1) への射 影行列をつくると P = 1 ( 1⊤ 1 )−1 1⊤ =    1/n · · · 1/n ... ... ... 1/n · · · 1/n    とな る. この射影行列に右から y を乗ずると, P y = ( y , y , . . . , y ) ⊤ となる. したがって, 平均偏差ベクトルは, y − y 1 = y − P y = (I − P ) y すなわち, 平均偏差ベクトルとは L (1) の補空間への 3
  4. 4. 射影ベクトルである. この平均偏差ベクトルの長さの 2 乗 |x| 2 を データ数で割ったものは 1 n |x| 2 = 1 n (x, x) = 1 n n∑ 1 (x − x ) 2 = s2 x, 平均偏差ベクトルをもちいると x と y との相関係数は rxy = Sxy SxSy = (x · y) |x| |y| = cos θxy 3 単回帰 説明変数, 被説明変数とも 1 個の場合を単回帰という. 回帰モデルは y = xβ + ϵ である. 3.1 ベクトル幾何学的解法 平均偏差ベクトルを用いれば β = ( x⊤ x )−1 x⊤ y = ∑ (x − x ) (y − y ) ∑ (x − x ) 2 = Sxy S2 x . あるいは, 平均偏差ベクトルを用いなくても, すべての要素が 1 である n 次 元ベクトル (1) をもちいて X = (1, x) ⊤ とする. さらに, β = (α, β) を用い て改めて回帰方程式を y = Xβ + ϵ, とおく, このとき β = ( X⊤ X )−1 X⊤ y = ( 1⊤ 1 1⊤ x 1⊤ x x⊤ x )−1 ( 1⊤ y x⊤ y ) = ( n ∑ x ∑ x ∑ x2 )−1 ( ∑ y ∑ xy ) = 1 n ∑ x2 − ( ∑ x) 2 ( ∑ x2 − ∑ x − ∑ x n ) ( ∑ y ∑ xy ) = 1 n2S2 x ( n ( S2 x + x 2 ) −n x −n X n ) ( ∑ y ∑ xy ) = 1 S2 x ( S2 x + x 2 − x − x 1 ) ( y Sxy + x y ) = 1 S2 x ( y ( S2 x + x 2 ) − x (Sxy + x y ) Sxy + x y − x y ) . 4
  5. 5. ゆえに ( α β ) =   y − Sxy S2 x x Sxy S2 x   . つまり yi = α + βxi + ϵi = y − β x + βxi + ϵi, あるいは, yi − y = β (xi − x ) + ϵi. データから平均値を引いた値の回帰と定数 α を含めた回帰は同じものである. この場合, α = y − β x である. 3.2 最小 2 乗解 i 番目のデータを yi = β xi + α + ϵi (i = 1, 2, . . . , n) yi − y = β (xi − x ) + ϵi (i = 1, 2, . . . , n), とする. 実測値 yi と予測値 βxi + α との差の 2 乗 (yi − βxi − α) 2 = ϵ2 i を 全データについて加算した 2 乗和 n∑ i (yi − βxi − α) 2 = n∑ i ϵ2 i = Q, を, 回帰パラメータ α, β についてそれぞれ偏微分して 0 とおく,   ∂Q ∂α ∂Q ∂β   = ( −2 ∑ (yi − βxi − α) −2 ∑ xi (yi − βxi − α) ) = ( 0 0 ) ( ∑ yi −β ∑ xi −nα ∑ xiyi −β ∑ x2 i −α ∑ xi ) = ( 0 0 ) . これを α, β について解くと, α = y − β x . さらに, ∑ xiyi − β ∑ x2 i − ( y − β x ) n x = 0 β (∑ x2 i − n ( x ) 2 ) = ∑ xiyi − n x y βns2 x = nsxy β = sxy s2 x . 5
  6. 6. 4 重回帰 4.1 重相関係数 重相関係数とは, 実測値 y と予測値 y = Xβ = X ( X⊤ X )−1 X′ y との 相関係数をいう. Ry y = (y · y) |y| |y| = y⊤ X ( X⊤ X )−1 X′ y √ y⊤ y √ y⊤X ( X⊤ X )−1 X′ X ( X⊤ X )−1 X′ y = y⊤ X ( X⊤ X )−1 X′ y √ y⊤ y √ y⊤X ( X⊤ X )−1 X′ y = √ y⊤X ( X⊤ X )−1 X′ y √ y⊤ y = |y| |y| . 重相関係数の範囲は (0 ≤ R ≤ 1) であることに注意. 4.2 偏回帰係数 説明変数に対する係数を偏回帰係数という. たとえば説明変数が 2 個のと き y = β1x1 + β2x2 + e = Xβ + e β = ( X′ X )−1 X′ y = ( (x1 · x1) (x1 · x2) (x2 · x1) (x2 · x2) )−1 ( (x1 · y) (x2 · y) ) = ( |x1| 2 |x1| |x2| cos θ12 |x1| |x2| cos θ12 |x2| 2 )−1 ( |x1| |y| cos θ1y |x2| |y| cos θ2y ) = 1 |x1| 2 |x2| 2 (1 − r2 12) ( |x2| 2 − |x1| |x2| r12 − |x1| |x2| r12 |x1| 2 ) × ( |x1| |y| r1y |x2| |y| r2y ) = 1 |x1| 2 |x2| 2 (1 − r2 12) ( |x1| |x2| 2 |y| (r1y − r12r2y) |x1| 2 |x2| |y| (r2y − r12r1y) ) =    |y| |x1| r1y − r12r2y 1 − r2 12 |y| |x2| r2y − r12r1y 1 − r2 12    . 6
  7. 7. ゆえに β1 = Sy S1 · r1y − r12r2y 1 − r2 12 β2 = Sy S2 · r2y − r12r1y 1 − r2 12 . これを用いれば重相関係数の 2 乗は, R2 y y = |y| 2 |y| 2 = |Xβ| 2 |y| 2 = y⊤ X ( X⊤ X )−1 X⊤ y y⊤ y = ( x⊤ 1 y, x⊤ 2 y ) ( x⊤ 1 x1 x⊤ 1 x2 x⊤ 2 x1 x⊤ 2 x2 )−1 ( x⊤ 1 y x⊤ 2 y ) y⊤ y = ( x⊤ 1 y, x⊤ 2 y ) ( x⊤ 2 x2 −x⊤ 1 x2 −x⊤ 2 x1 x⊤ 1 x1 ) ( x⊤ 1 y x⊤ 2 y ) |x1| 2 |x2| 2 |y| 2 (1 − r2 12) = S2 y1S2 2 − 2S12Sy1Sy2 + S2 y2S2 1 S2 yS2 1 S2 2 (1 − r2 12) = r2 y1S2 yS2 1 S2 2 − 2r12ry1ry2S2 1 S2 2 S2 y + r2 y2S2 yS2 1 S2 2 S2 yS2 1 S2 2 (1 − r2 12) = r2 y1 + r2 y2 − 2r12ry1ry2 1 − r2 12 . 偏回帰係数の意味付けは以下のとおり. x1 で張られる空間の補空間への射影 行列を P ⊥ 1 = [ I − x1 ( x1 ⊤ x1 )−1 x1 ′ ] , と表現する. これに x2 をかけたベクトル, すなわち x1 の補空間への x2 の 射影ベクトルを考える. 説明変数 y とこのベクトル P ⊥ 1 x2 との間で回帰を 考えると回帰式は y = β2/1P ⊥ 1 x2 + ϵ, となる. 回帰係数は β2/1 = ( y · P ⊥ 1 x2 ) P ⊥ 1 x2 , で与えられるから, ( y · P ⊥ 1 x2 ) = (x2 · y) − (y · x1) (x1 · x2) (x1 · x1) P ⊥ 1 x2 2 = x2 [ I − x1 ( x1 ⊤ x1 )−1 x1 ′ ] x2 = (x2 · x2) − (x2 · x1) (x1 · x2) (x1 · x1) , β2/1 = (x1 · x1) (y · x2) − (y · x1) (x1 · x2) (x1 · x1) (x1 · x1) (x2 · x2) − (x1 · x2) 2 (x1 · x1) 7
  8. 8. = S2 1 SyS2ry2 − SyS1ry1S1S2r12 S2 1 S2 2 − S2 1 S2 2 − S2 1 S2 2 r2 12 = S2 1 SyS2 (ry2 − ry1r12) S2 1 S2 2 (1 − r2 12) = Sy S2 ry2 − ry1r12 1 − r2 12 , となって重回帰における偏相関係数に一致する. 4.3 偏相関係数 x, y の両ベクトルから第 3 のベクトル z の影響を取り除いた相関係 数を偏相関係数という. x から z の影響を取り除いたベクトルを x⊥ z = x − z ( z⊤ z )−1 z′ x, y から z の影響を取り除いたベクトルを y⊥ z = y − z ( z⊤ z )−1 z′ y と表記することにすると, rx/z·y/z = ( x⊥ z · y⊥ z ) x⊥ z y⊥ z = x⊤ ( I − z ( z⊤ z )−1 z′ )⊤ ( I − z ( z⊤ z )−1 z′ ) y √ x⊤ ( I − z (z⊤z) −1 z′ ) x √ y⊤ ( I − z (z⊤z) −1 z′ ) y = x⊤ ( I − z ( z⊤ z )−1 z′ ) y √ x⊤ x − ( x⊤ z )2 z⊤ z √ y⊤ y − ( y⊤ z )2 z⊤ z = x⊤ y − ( x⊤ z ) ( x⊤ y ) z⊤ z√ S2 x − r2 xzS2 xS2 z S2 z √ S2 y − r2 yzS2 yS2 z S2 z = rxySxSy − rxzSxSzryzSySz S2 z SxSy √ 1 − r2 xz √ 1 − r2 yz = SxSy (rxy − rxzryz) SxSy √ 1 − r2 xz √ 1 − r2 yz = rxy − ryzrxz √ 1 − r2 xz √ 1 − r2 yz . 4.4 部分相関係数 x2 から x1 の影響を取り除いた場合の x2 と y との相関係数. x2/1 = ( I − x1 ( x1 ⊤ x1 )−1 x1 ′ ) x2. 8
  9. 9. y⊤ x2/1 = y⊤ ( I − x1 ( x1 ⊤ x1 )−1 x1 ′ ) x2 = y⊤ x2 − ( y⊤ x1 ) (x1x2) x⊤ 1 x1 = ry2SyS2 − ry1SyS1r12S1S2 S2 1 = SyS2 (ry2ry1r12) . x2/1 = √ x⊤ 2 [ I − x1 (x1 ⊤x1) −1 x1 ′ ] x2 = x⊤ 2 x2 − ( x⊤ 1 x2 )2 x⊤ 1 x1 = √ S2 2 − r2 12S2 1 S2 2 S2 1 = S2 √ 1 − r2 12. ゆえに, ry·2/1 = ( y · x2/1 ) |y| x2/1 = SyS2 (ry2 − ry1r12) SyS2 √ 1 − r2 12 = ry2 − r12ry1 √ 1 − r2 12 . 重相関係数の 2 乗を次のように分解する. R2 yy = r2 y1 + r2 y2 − 2ry1ry2r12 1 − r2 12 = r2 y1 ( 1 − r2 12 ) + r2 y2 − 2ry1ry2r12 + r2 y1r2 12 1 − r2 12 = r2 y1 + (ry2 − ry1r12) 2 1 − r2 12 . 右辺第 2 項は 部分相関係数である. すなわち, 重回帰において, 説明変数を 増加させるとき, もし ry2 = ry1r12 ならば重相関係数は増加しない. 一般に, 次の式が成り立つ. R2 yy = r2 y1 + r2 y2/1 + r2 y3/12 + r2 y4/123 + · · · 5 パラメータの推定 5.1 回帰係数の期待値 すでに見たとおり, 回帰係数 β の最小 2 乗推定量は, ( X′ X )−1 X′ y で与 えられる. ( X⊤ X )−1 X⊤ = C とおけば, β = Cy である. 統計量が Cy の 9
  10. 10. 形に書けるとき, 線形推定量であるという. y が確率変数であることから, そ の線形推定量 β も確率変数となって, 期待値を導出できる. β = ( X⊤ X )−1 X⊤ y = ( X⊤ X )−1 X⊤ (Xβ + ϵ) = β + ( X⊤ X )−1 X⊤ ϵ. これをもちいて, E ( β ) = E ( β + ( X⊤ X )−1 X⊤ ϵ ) = E (β) + E (( X⊤ X )−1 X⊤ ϵ ) = E (β) + ( X⊤ X )−1 X⊤ E (ϵ) = β. あるいは, E ( β ) = ( X⊤ X )−1 X⊤ E (y) = ( X⊤ X )−1 X⊤ Xβ = β. つまり, 標本回帰パラメータは母集団回帰パラメータに一致する. すなわち, 最小 2 乗推定量の β は不偏推定量でもある. 5.2 回帰係数の分散 回帰係数 β の期待値は, 不偏推定量であるが, 分散は不偏推定量とはなら ない. V ( β ) = E ( β − β ) ( β − β )⊤ = E [ ( X⊤ X )−1 X⊤ ϵ {( X⊤ X )−1 X⊤ ϵ }⊤ ] = E [( X⊤ X )−1 X⊤ ϵϵ⊤ X ( X⊤ X )−1 ] = ( X⊤ X )−1 X⊤ E ( ϵϵ⊤ ) X ( X⊤ X )−1 = ( X⊤ X )−1 X⊤ σ2 IX ( X⊤ X )−1 = σ2 I ( X⊤ X )−1 X⊤ X ( X⊤ X )−1 = σ2 ( X⊤ X )−1 . 仮定 4. ϵi ∼ N ( 0, σ2 ) より, ϵ ∼ N ( 0, σ2 I ) ゆえに, β ∼ N ( β, σ2 ( X⊤ X )−1 ) , をえる. これをもちいて, 回帰係数の推定, 検定を行うことが可能となる. そ のためには, 母数 σ2 の推定値を求めなければならない. 10
  11. 11. 5.3 残差の推定 従属変数の実測値 y と予測値 y = Xβ との差 e = y − y を残差とい う. 誤差項 ϵ は測定不可能な母数であり, ϵ はその推計値である. 誤差 ϵ とその分散 σ2 には次の性質がある. 以下では L ( X⊥ ) への射影行列を I − X ( X⊤ X )−1 X′ = P ⊥ X と表す. P ⊥ X は rank P ⊥ X = tr P ⊥ X = tr In − tr X ( X⊤ X )−1 X′ = n − tr ( X⊤ X )−1 X⊤ X = n − tr Ip = n − p. 1. E (e) = 0. e = [ I − X ( X⊤ X )−1 X′ ] y = [ I − X ( X⊤ X )−1 X′ ] (Xβ + ϵ) = [ I − X ( X⊤ X )−1 X′ ] ϵ = P ⊥ X ϵ. E (e) = P ⊥ X E (ϵ) = 0. 2. Cov ( e, β ) = 0. Cov ( e, β ) = E [ P ⊥ X ϵϵ⊤ X ( X⊤ X )−1 ] = P ⊥ X E ( ϵϵ⊤ ) X ( X⊤ X )−1 = P ⊥ X σ2 IX ( X⊤ X )−1 = σ2 P ⊥ X X ( X⊤ X )−1 = 0. 3. V (e) = σ2 [ I − X ( X⊤ X )−1 X′ ] . ||e||2 = ee⊤ = ( y − Xβ )⊤ ( y − Xβ ) = y⊤ y − 2β ⊤ X⊤ y + β ⊤ X⊤ Xβ = y⊤ y − β ⊤ X⊤ y = y⊤ [ I − X ( X⊤ X )−1 X′ ] y, 11
  12. 12. のように書けるので, 誤差分散は, V (e) = E ( ee⊤ ) = P ⊥ X E ( ϵϵ⊤ ) P ⊥ X = P ⊥ X σ2 IP ⊥ X = σ2 P ⊥ X P ⊥ X = σ2 P ⊥ X . 別解. 一般に 2 次形式 x⊤ Ax = tr Axx⊤ が成り立つから E ( e⊤ e ) = tr P ⊥ X σ2 I = σ2 tr P ⊥ X = σ2 (n − p) . 従って, σ2 の不偏推定量は s2 e = e⊤ e n − p , で与えられる. 4. X⊤ e = 0. すなわち, ϵ ∼ N ( 0, σ2 I ) のとき e ∼ N ( 0, σ2 P ⊥ X ) = N ( 0, σ2 [ I − X ( X⊤ X )−1 X′ ]) , に従う. 5.4 別解 以上のことをベクトル表記を用いずに求めることを考える. 一般の場合の 求めるのは複雑になるので, ここでは単回帰の場合のみ記す. yi = β xi + α + ϵi (i = 1, 2, . . . , n) yi − y = β (xi − x ) + ϵi (i = 1, 2, . . . , n), において, 標本回帰パラメータ a,b から母集団回帰パラメータ α, β を推定 する. 仮定: E (ϵi) = 0, V (ϵi) = σ2 ϵ . すなわち Y ≈ ( α + β x, σ2 ϵ ) 12
  13. 13. 1. 回帰パラメータ b の期待値 b = sxy sx = 1 n ∑ (xi − x ) (yi − y ) 1 n ∑ (xi − x ) 2 . 上式に, yi − y = β (xi − x ) + ϵi を代入すると b = sxy sx = 1 n ∑ (xi − x ) (β (xi − x ) + ϵi) 1 n ∑ (xi − x ) 2 = β 1 n ∑ (xi − x ) 2 + 1 n ∑ ϵi (xi − x ) 1 n ∑ (xi − x ) 2 = β + 1 n ∑ (xi − x ) 1 n ∑ (xi − x ) 2 ϵi. ゆえに E(b) = E ( β + 1 n ∑ (xi − x ) 1 n ∑ (xi − x ) 2 ϵi ) = E (β) + 1 n ∑ (xi − x ) 1 n ∑ (xi − x ) 2 E (ϵi) = β. 2. 回帰パラメータ a の期待値 E(a) = E ( y − b x ) = E ( y ) − E (b x ) = E ( y ) − x E(b) = E ( y ) − β x . ところで, x , y は, 母集団において y = α + β x + ϵ となるから E ( y ) = E (α + β x + ϵ) = E (α) + E (β x ) + E (ϵ) = α + β x . 従って E (α) = α + β x − β x = α. 3. 回帰パラメータ b の分散の期待値 V (b − β) = E (b − β) 2 = E ( β + 1 n ∑ (xi − x ) 1 n ∑ (xi − x ) 2 ϵ − β )2 = E ( 1 n ∑ (xi − x ) 1 n ∑ (xi − x ) 2 ϵ )2 . 13
  14. 14. ∑ (xi − x ) は定数とみなして, = E { 1 n2 ∑ (xi − x ) 2 ϵ2 + 2 1 n ∑ i̸=j ∑ (xi − x ) (xj − x ) ϵϵ 1 n ∑ (xi − x ) 2 1 n ∑ (xi − x ) 2 } = (x1− x )2 n2 E ( ϵ2 1 ) + (x1− x )2 n2 E ( ϵ2 2 ) + · · · + (xn− x )2 n2 E ( ϵ2 n ) { 1 n ∑ (xi − x ) 2 }2 = 1 n2 ∑ (xi − x ) 2 { 1 n ∑ (xi − x ) 2 }2 σ2 ϵ = ∑ (xi − x ) 2 {∑ (xi − x ) 2 }2 σ2 ϵ = σ2 ϵ ∑ (xi − x ) 2 . 4. 回帰パラメータ a の分散 V (a) = V ( y − b x ) = V ( y ) + V (b x ) − 2Cov ( y , b x ) = σ2 ϵ n + σ2 ϵ ∑ (xi − x ) 2 x 2 − 2E [(y − E ( y )) (b − β) x ] = σ2 ϵ n + σ2 ϵ ∑ (xi − x ) 2 x 2 = ( 1 n + x 2 ∑ (xi − x ) 2 ) σ2 ϵ . 5. 残差分散 s2 e = 1 n ∑ (yi − yi) 2 = 1 n ∑ {yi − (α + βxi)} 2 = 1 n ∑ {yi − ( y − β x + βxi)} 2 = 1 n ∑ {(yi − y ) + β (xi − x )} 2 = S2 y − 2βSxy + β2 S2 x = S2 y − 2 Sxy S2 x Sxy + ( Sxy S2 x )2 S2 x = S2 y − S2 xy S2 x = S2 y − S2 xs2 yr2 xy S2 x = S2 y ( 1 − r2 xy ) . 14
  15. 15. ゆえに V ( e⊤ e ) = n n − 2 s2 y ( 1 − r2 xy ) . 6 区間推定, 検定 整理すると, 回帰モデル y = Xβ + ϵ において y ∼ N ( Xβ, σ2 I ) , rank X = p の最小 2 乗推定量 β = ( X′ X )−1 X′ y は, 正規分布 N ( β, σ2 ( X⊤ X )−1 ) にしたがう. β の分散共分散は, 誤差分散 σ2 の不偏推定量 s2 をもちいて, s2 ( X⊤ X )−1 と推定される. すなわち, 個々の回帰係数 βi の標準偏差(y が確率変数であ るために, 回帰係数の推定値も確率変動する)は ( X⊤ X )−1 の個々の要素を ( aij ) とすれば, s √ aii となる. 6.1 相関係数の検定 独立変数の 2 乗和を y⊤ y = (y + e) ⊤ (y + e) = y⊤ y + e⊤ e = β ⊤ X⊤ Xβ + e⊤ e = y⊤ X ( X⊤ X )−1 X′ y + y⊤ [ I − X ( X⊤ X )−1 X′ ] y = y⊤ P y + y⊤ (I − P ) y, ( P = X ( X⊤ X )−1 X′ ) . と分解すれば, 総変動平方和 y⊤ y は, 説明変数 X によって説明される変動 平方和(右辺第 1 項)と残差平方和(右辺第 2 項)とに分解できることを意 味する. さらにそれぞれの自由度でわったものは χ2 分布する. ここに, 右辺 第 1 項のランクは p であり, 第 2 項のランクは n − p である. 一般に x ∼ N (0, I) のとき x⊤ x を k 個の 2 次形式の和と して x⊤ x = x⊤ Q1x + x⊤ Q2x + · · · + x⊤ Qkx, と表すと, In = Q1 + Q2 + · · · + Qk, Rn = L (Q1) ⊕ L (Q2) ⊕ · · · ⊕ L (Qk) , ならば, x⊤ Qix はたがいに独立に自由度 ni の χ2 (ni) 分布に従 う. このことをコクラン Cochran の定理という. 15
  16. 16. 以上の議論から,   β − β √ σ2 ( X⊤ X )−1   2 は, 自由度 p の χ2 分布にしたがう. β = 0 を検定することを考えた場合. もし母集団において β = 0 ならば(す なわち帰無仮説 H0 : β = 0 を仮定すれば), 上式に β = 0 を代入して,   β σ ( X⊤ X )− 1 2   2 =   ( X⊤ X )1 2 ( X′ X )−1 X′ y σ   2 = (( X′ X )−1 X′ y )⊤ ( X⊤ X ) ( X′ X )−1 X′ y σ2 = y⊤ X ( X⊤ X )−1 ( X⊤ X ) ( X′ X )−1 X′ y σ2 = y⊤ X ( X⊤ X )−1 X′ y σ2 = y⊤ PXy σ2 , は, 自由度 p の χ2 分布にしたがう. (β ̸= 0 ならば χ2 分布ではない). 同 様に, e⊤ e σ2 = ( y − Xβ )2 σ2 = y⊤ [ I − X ( X⊤ X )−1 X′ ] y σ2 = y⊤ P ⊥ X y σ2 , は, 自由度 n − p の χ2 分布であるから, 帰無仮説 H0 : β = 0 のもとでは, 両 式の比は F 分布に従う. さらに, y⊤ X ( X⊤ X )−1 X′ y p e⊤ e n − p = y⊤ y y⊤ y p e⊤ e y⊤ y (n − p) = R2 p 1 − R2 n − p , のように変形できる. すなわち, この式によって相関係数の検定が可能となる. 単回帰の場合の別解 y = 1α + xβ + ϵ, であるから, 帰無仮説 H0 : β = 0 ならばコクランの定理より, y⊤ x ( x⊤ x )−1 x′ y e⊤ e n − 2 = ( y⊤ x )2 x⊤ x S2 y ( 1 − r2 xy ) n − 2 , は自由度 1,n − 2 の F 分布である. F 分布と t 分布との関係より y⊤ x |x| Sy √ 1 − r2 xy √ n − 2 = SxSyrxy √ n − 2 SxSy √ 1 − r2 xy = rxy √ n − 2 √ 1 − r2 xy , は自由度 n − 2 の t 分布に従う. 16
  17. 17. 6.2 回帰係数の検定 個々の回帰係数については, ( X⊤ X )−1 の i 番目の対角要素を aii と表記す ると βi − βi σ √ aii ∼ N ( 0, 12 ) , e⊤ e σ2 = (n − p) s2 e σ2 ∼ χ2 (n − p) だから, βi − βi se √ aii ∼ t (n − p), である. このことを利用して回帰係数の有意性検定が可能となる. 単回帰の場合は, H0 : β = 0 として, Syrxy Sx √ nS2 y ( 1 − r2 xy ) n − 2 √ 1 nS2 x = rxy √ n − 2 √ 1 − r2 xy , となる. つまり, 単回帰の場合の回帰係数の検定は相関係数の検定と一致する. 6.3 回帰係数の区間推定 個々の回帰係数の信頼区間は, 検定の項と同様に, βi − βi se √ aii ∼ t (n − p), より P ( βi − βi se √ aii ≤ t α/2 n−p ) = 1 − α, だから, βi = βi ± t α/2 n−pse √ aii, で与えられる. 一方, 複数の回帰係数全体の信頼区間の同時推定は, W = ( β − β )⊤ ( X⊤ X )−1 ( β − β ) σ2 / p e⊤ e σ2 / (n − p) = ( β − β )⊤ ( X⊤ X )−1 ( β − β ) σ2 / p (n − p) s2 e σ2 / (n − p) = ( β − β )⊤ ( X⊤ X )−1 ( β − β ) p s2 e , が自由度 p, n − p の F 分布にしたがうことと, 一般に, [( β − β )⊤ x ]2 x⊤ ( X⊤ X )−1 x ≤ ( β − β )⊤ ( X⊤ X )−1 ( β − β ) , 17
  18. 18. が成り立つことから, β ⊤ x ± √ p Fα p,n−p x⊤ ( X⊤ X )−1 x, 6.4 予測値の区間推定 説明変数 x = xa が得られたとき, 対応する従属変数は ya = x⊤ a β + ϵa, と予測できる. また, E (ya) = E (ya) = x⊤ a β, V (ya) = x⊤ a E ( β ) xa = σ2 x⊤ a ( X⊤ X )−1 xa. すなわち, 予測の誤差 ya − ya = −x⊤ a ( β − β ) + ϵa, は正規分布 N ( 0, σ2 [ xa ( X⊤ X )−1 xa + 1 ]) にしたがう. これは, e⊤ e σ2 = (n − p) s2 e σ2 と独立だから, ya − ya se √ xa ( X⊤ X )−1 xa , は自由度 n − p の t 分布にしたがう. ya の 100 (1 − α) % の信頼区間は, P ( |ya − ya| ≤ t α/2 n−pse √ xa ( X⊤ X )−1 xa + 1 ) = 1 − α. ya = ya ± t α/2 n−pse √ xa ( X⊤ X )−1 xa + 1 , で与えられる. 6.5 応用例. t 検定 ここでは通常の t 検定が回帰分析の特殊な場合であることを示そう. 2 群 のデータを 1 つのベクトルとして次のように表現する. y =                 x11 − X x12 − X ... ... x1n1 − X x21 − X x22 − X ... ... x2n2 − X                 , X = {x1, x2} =                1 0 1 0 ... ... 1 0 0 1 0 1 ... ... 0 1                . 18
  19. 19. ここに, y は, データから全体の平均を引いた平均偏差ベクトルである. X は, 1 と 0 だけからなる n1 + n2 行 2 列の行列であり, このような行列を計画行 列 と呼ぶことがある (n1,n2 はそれぞれの群のデータ数). たとえば, X の第 1 列は, データが 1 番目の群に属するとき 1 をとり, そうでなければ 0 であ るベクトルである. データを上記のように表現し, 正規回帰モデルの仮定 1 ∼ 4 が成り立って いるとする. このようにすると, t 検定を適用すべきデータが, 回帰モデルの 表現を与えられることが分かる. すなわち, y = Xβ + ϵ, あるいは, L (X) へ の射影行列 ( P = X ( X⊤ X )−1 X′ ) を用いて, y = P y + (I − P ) y と表 現可能である. これによって, 2 群の母平均値の差の検定は, 回帰モデルにお ける回帰式の有意性検定と同一であることが導かれた. コクランの定理より, y⊤ y σ2 = y⊤ P y σ2 + y⊤ (I − P ) y σ2 において, 右辺の各項は それぞれ独立に χ2 分布に従うから,  帰無仮説 H0 : β = 0 のもとでは, y⊤ P y σ2 1 y⊤ (I − P ) y σ2 n − 2 は自由度 1, n− の F 分布に従い, その開平は自由度 n − 2 の t 分布となる. さて, X ( X⊤ X )−1 X′ は次のようになる.               1/n1 1/n1 · · · 1/n1 1/n1 1/n1 · · · 1/n1 ... ... ... ... 1/n1 1/n1 · · · 1/n1 0 0 1/n2 · · · 1/n2 ... ... ... 1/n2 · · · 1/n2               したがって, y = P y + (I − P ) y 19
  20. 20. =                 x 1 − X x 1 − X ... x 1 − X x 2 − X x 2 − X ... x 2 − X                 +                 x11 − x 1 x12 − x 1 ... x1n1 − x 1 x21 − x 2 x22 − x 2 ... x2n2 − x 2                 , である. 上式に左から y⊤ を乗じた場合, y⊤ P y = n1 ( x 1 − X )2 + n2 ( x 2 − X )2 = n1 ( x 2 1 + X 2 − 2 x 1 X ) + n2 ( x 2 2 + X 2 − 2 x 2 X ) = n1 x 2 1 + n1 X 2 − 2n1 x 1 X + n2 x 2 2 + n2 X 2 − 2n2 x 2 X = n1 x 2 1 + n2 x 2 2 + (n1 + n2) X 2 − 2 (n1 x 1 + n2 x 2) X = n1 x 2 1 + n2 x 2 2 + (n1 + n2) ( n1 x 1 + n2 x 2 n1 + n2 )2 −2 (n1 x 1 + n2 x 2) n1 x 1 + n2 x 2 n1 + n2 = n1 x 2 1 + n2 x 2 2 − (n1 x 1 + n2 x 2) 2 n1 + n2 = 1 n1 + n2 { (n1 + n2) n1 x 2 1 + (n1 + n2) n2 x 2 2 −n2 1 x 2 1 − n2 2 x 2 2 − 2n1n2 x 1 x 2 } = 1 n1 + n2 {n2 1 x 2 1 + n2 2 x 2 2 + n1n2 x 2 1 + n1n2 x 2 2 −n2 1 x 2 1 − n2 2 x 2 2 − 2n1n2 x 1 x 2} = n1n2 n1 + n2 ( x 2 1 + x 2 2 − 2 x 1 x 2 ) = n1n2 n1 + n2 ( x 1 − x 2) 2 . 一方, y⊤ (I − P ) y = n1∑ i (x1i − x 1) 2 + n2∑ i (x2i − x 2) 2 = n1S2 1 + n2S2 2 , であるから, 結局, t = √ n1n2 n1+n2 ( x 1 − x 2) √ n1S2 1 + n2S2 2 n1 + n2 − 2 = x 1 − x 2 √ n1 + n2 n1n2 · n1S2 1 + n2S2 2 n1 + n2 − 2 . 20
  21. 21. この式は, 2 群の母平均値の差の t 検定の公式そのものである. 同様の方法を用いれば, 3 群以上の平均値間の差の検定, すなわち 1 要因の 分散分析を導くことは容易である. すなわち, 1 と 0 とからなる計画行列 X の列数を水準数だけ用意すればよい. この意味において分散分析(さらに実 験計画法も)は回帰分析の自然な拡張とみなすことができる. ツマリ回帰分析ト通常ノ統計的推論トハ同一ノ用語デ統一的ニ説明デキマ シタトサ, メデタシ, メデタシ. 21

×