6. 3.2 線形回帰モデルと最小二乗法
• 行列Xによる最小二乗法の書き直し
6
11 1 01
21 2 12
1
1
1
, ,
1
p
p
N Np pN
x x y
x x y
X y
x x y
( )
T
RSS y X y X
学習データ一個分
2
( )
2
( )
2
T
T
T
RSS
X y X
RSS
X X
7. 3.2 線形回帰モデルと最小二乗法
ここで、Xが列フルランク⇔ が正定値
( が0以外の零点を持つかどうか)であり、
このとき、RSSの一次微分=0から最適解βは
と一意に求まる
7
T
X X
1
ˆ T T
X X X y
0 0
ˆ ˆ( ) 1 T
f x x サンプル に対する予測値0x
1
ˆˆ
( )T T
y X
X X X X y
訓練データ全体に対する予測値
2 T T
Xv v X Xv
(3.8)
9. 3.2 線形回帰モデルと最小二乗法
• 推定パラメータ の分散共分散行列について
– 観測値 は無相関、分散 をもち、 は固定値、とする
9
ˆ
2
1 1 1 1
1 1
1 2
ˆ ˆ ˆ ˆ ˆ( ) ( ( ))( ( ))
ˆ ˆ ˆ ˆ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( )
T
T T
T T T T T T T T
T T T T T
T
Var E E E
E E E
E X X X yy X X X E X X X y E y X X X
X X X E yy E y E y X X X
X X
1 2ˆ( ) ( )T
Var X X
(3.8)
2
( ) ( ( ))( ( )) ( ) ( )
( ) ( ) ( )
( ) ( )
T T T
T
T
E yy E y E y y E y E y E y
Var y E y E y
I E y E y
iy ix
11. (3.9)
3.2 線形回帰モデルと最小二乗法
• Yの条件付き期待値が について線形で、期待値周り
の偏差が加法的に正規分布に従うとする。つまり、
• このYの各要素は互いに無相関で分散 、 は固定値
– の分散は(3.8)と同様
– より、
したがって、
11
1, , pX X
1
0
1
( | , , )p
p
j j
j
Y E Y X X
X
2
(0, )N
2
ix
ˆ
1 1 1ˆ ( ) ( ) ( )T T T T T T
X X X Y X X X X X X X
ˆ( )E
(3.10)1 2ˆ ( ,( ) )T
N X X
18. 3.2.2 ガウス=マルコフの定理
• 最小二乗推定量はBLUEである
– Best(最良 つまり以下の条件を満たす中で最小分散)
– Linear(観測値の線形結合で推定する)
– Unbiased(不偏 推定値の期待値=真値)
– Estimator(推定量)
– 最良線形不偏推定量、ともいう
18
( の線形関数すべてを不偏に推定)ˆ( )T T
E a a (3.18)
( 以外の線形不偏推定量 に対して
⇒ より推定量の分散が小さい)
T
c y
(3.19)
ˆT
a ( )T T
E c y a
ˆ( ) ( )T T
Var a Var c y
31. (3.44)
3.4.1 リッジ回帰
• (3.41)を行列により書き直すと、
• これを で微分して=0を解くと、リッジ回帰の解が求まる
• は半正定、 は正定(λ>0)より、逆行列は必ず存在
– リッジ回帰が初めて登場したときはこのことが重要視され、(3.44)が
定義とされた
31
( ) ( ) ( )T T
RSS y X y X (3.43)
( )
2 2( )
T T T T T T T
T T
RSS y y X X y X X y
X y X X I
1ˆ ( )T T
ridge X X I X y
T
X X I
35. 3.4.1 リッジ回帰の特異値分解による表現
• 特異値分解から、以下が計算できる(訓練データ全体に対応す
る推定値の計算)
• はyの正規直交基底Uについての座標( はそのj番目)
• (3.47)は、yの 成分を 倍に縮小(<1)して出力し
ていることを表している
• Xの特異値 が小さいほど、 成分は縮小される
35
3.4.1 リッジ回帰の特異値分解による表現(p78~)
ˆ T
lsX UU y (3.46)
1
2
2
1
ˆ T T
ridge
p
j T
j j
j j
X X X X I X y
d
u u y
d
(3.47)
T
U y
T
ju y
2 2
/ ( )j jd d ju
jd ju
36. 3.4.1 リッジ回帰の特異値分解による表現(p78~)
• Xの特異値が小さい、とはどのようなことか?
⇒Xの主成分とつながりがある
• 入力データの共分散行列は で、また(3.45)から
これは の(N倍を無視すればSの)固有値分解である。
– 固有ベクトル (Vの第i列)はXの第i主成分とも呼ばれる
– 第1主成分 は、 がXの列ベクトルが張る空間の中で最も大き
な標本分散を持つ方向である
36
/T
S X X N
2T T
X X VD V (3.48)
T
X X
iv
1v 1 1z Xv
上記標本分散=
2
1 1 1( ) ( ) /Var z Var Xv d N (3.49)
1 1 1
1 1
( ) /
/
T
T T T
Var Xv Xv Xv N
v VDU UDV v N