1
第三回「統計的学習の基礎」読書会
第3章前半(3.1~3.4) 6/14
ベック和穂
自己紹介
• HN:mimikaki
• 所属:㈱コンピュータマインド
– 顧客企業の画像処理、データ分析(非統計的)
– LM法や最小二乗法を使う程度
– 統計的推論もかじり始めた
• 元数学科の人
– 代数幾何とか計算代数とか
2
お詫び2点
• 準備終わりませんでしたm(_ _)m
– 3.2.3と3.2.4(単回帰+グラムシュミット=重回帰)
– 3.4.4最小角回帰(相関が最大の変数から徐々に)
• 次回(再来週)不参加なので次々回でやります(7/5)
3
としても同じ
3.2 線形回帰モデルと最小二乗法
• 定義(線形回帰モデル)
• 未知パラメータについて線形、というのがポイント
4
0
1
( )
p
j j
j
f X X 

  
jX : 任意の入力(既知)
j : 未知パラメータ
0
0
1
( )
p
j j
j
X
f X X 


 
3.2 線形回帰モデルと最小二乗法
• 最小二乗法による解法
訓練データ:
からβを求めたい
最小二乗法では、残差平方和の最小化を最適解とする
(residual sum of squares)
5
 
2
1
2
0
1 1
( ) ( )
N
i i
i
pN
i ij j
i j
RSS y f x
y x

 

 
 
 
   
 

 
1, ,{( , )}i i i Nx y   1( , , )T
i i ipx x x 
 min ( )RSS


3.2 線形回帰モデルと最小二乗法
• 行列Xによる最小二乗法の書き直し
6
11 1 01
21 2 12
1
1
1
, ,
1
p
p
N Np pN
x x y
x x y
X y
x x y




    
    
      
    
       
    


    

   ( )
T
RSS y X y X    
学習データ一個分
 
2
( )
2
( )
2
T
T
T
RSS
X y X
RSS
X X




 

  



 
3.2 線形回帰モデルと最小二乗法
ここで、Xが列フルランク⇔ が正定値
( が0以外の零点を持つかどうか)であり、
このとき、RSSの一次微分=0から最適解βは
と一意に求まる
7
T
X X
 
1
ˆ T T
X X X y


 0 0
ˆ ˆ( ) 1 T
f x x  サンプル に対する予測値0x
1
ˆˆ
( )T T
y X
X X X X y




訓練データ全体に対する予測値
2 T T
Xv v X Xv
(3.8)
3.2 線形回帰モデルと最小二乗法
• 以上の計算がうまくいかない場合とその対処法
要は、 が計算できないケース
– の間に線形従属な関係がある( など)
基底削除などして従属性を解除すればよい
– 完全な従属でなくとも非常に似通った基底関数が存在すると、計算
が不安定になる(誤差大)という問題も
基底の直行化によってある程度避けられる(3.2.3節)
– p > Nのケース
(二次関数 の推定には3点以上のデータが欲しい )
pを減らす、または正則化(5.3節、18章)
8
1
( )T
X X 
 ix 2 13x x
2
y ax bx c  
3.2 線形回帰モデルと最小二乗法
• 推定パラメータ の分散共分散行列について
– 観測値 は無相関、分散 をもち、 は固定値、とする
9
ˆ
2

 
     
 
1 1 1 1
1 1
1 2
ˆ ˆ ˆ ˆ ˆ( ) ( ( ))( ( ))
ˆ ˆ ˆ ˆ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( )
T
T T
T T T T T T T T
T T T T T
T
Var E E E
E E E
E X X X yy X X X E X X X y E y X X X
X X X E yy E y E y X X X
X X
    
  

   
 

  
 
 
 

1 2ˆ( ) ( )T
Var X X 
 (3.8)
 
2
( ) ( ( ))( ( )) ( ) ( )
( ) ( ) ( )
( ) ( )
T T T
T
T
E yy E y E y y E y E y E y
Var y E y E y
I E y E y
   
 
 
iy ix
3.2 線形回帰モデルと最小二乗法
• (観測値yの分散)の推定
は の不偏推定量( )
10
2

 
22
1
1
ˆ ˆ
1
N
i i
i
y y
N p


 
 

2
  2 2
ˆE  
(3.9)
3.2 線形回帰モデルと最小二乗法
• Yの条件付き期待値が について線形で、期待値周り
の偏差が加法的に正規分布に従うとする。つまり、
• このYの各要素は互いに無相関で分散 、 は固定値
– の分散は(3.8)と同様
– より、
したがって、
11
1, , pX X
1
0
1
( | , , )p
p
j j
j
Y E Y X X
X

  

 
  

2
(0, )N 
2
 ix
ˆ
1 1 1ˆ ( ) ( ) ( )T T T T T T
X X X Y X X X X X X X    
  
ˆ( )E  
(3.10)1 2ˆ ( ,( ) )T
N X X  

3.2 線形回帰モデルと最小二乗法
•
は自由度(N-p-1)のカイ2乗分布に従う
• と は独立
• これらの性質は仮説検定や の信頼区間推定に使う
12
(3.11)
2 2 2
1
ˆ( 1) N pN p       
2
ˆˆ
ˆ
3.2 線形回帰モデルと最小二乗法
• の検定
まずは、標準化スコア(Zスコア)を求める
この値は自由度(N-p-1)のt分布に従うため、絶対値が大きいときは帰無仮説
を棄却する。
が既知の場合は を置き換えると は標準正規分布に従う
また、標本数が増えると(>100~)t分布と標準正規分布との差はほぼ無視できるように
なる(下図 図3.3)
13
0j 
(3.12)
ˆ
ˆ
j
j
j
z
v


 1
( )T
X X 
0j 
 ˆ jz
jv は の第j対角成分
1j N pz t  
3.2 線形回帰モデルと最小二乗法
• 係数の優位性の検定
(k個の変数をモデルから除外できるか?) ⇔ 対応するβが0か?
以下のF統計量を用いる:
RSS1は除外前の(p1+1)個の変数による最小二乗近似の残差二乗和
RSS0は(p1-p0)個を除外した(p0+1)個の変数による残差二乗和
分母,分子はそれぞれ大きい方、小さいほうの分散の推定値
小さいモデルが正しいという帰無仮説の下では、このFは分布 に従う
• (3.12)の は、モデルから を取り除いた時のF値と一致(演習3.1)
• Nが大きくなると の分位点は のものに近づく
• (3.13)分母は に等しい
• (3.13)分子は・・・?
14
(3.13)
0 1 1 0
1 1
( ) / ( )
/ ( 1)
RSS RSS p p
F
RSS N p
 

 
2
1
ˆ
1 0 1, 1p p N pF   
jz j
1 0 1, 1p p N pF    1 0
2
1 0/ ( )p p p p  
3.2 線形回帰モデルと最小二乗法
• (3.10)式 からβの(1-2α)信頼区間を求める
ことができる
– は正規分布の パーセント点である(%⇒σ)
– よって、 がほぼ95%信頼区間となる( )
15
1 2ˆ ( ,( ) )T
N X X  

(3.14) (1 ) 1/2 (1 ) 1/2ˆ ˆˆ ˆ,j j j jz v z v 
    
 
(1 )(1 )
z 
1 0.025
1.96z 

1 0.05
1.645z 

ˆ ˆ2 ( )se 
1/2ˆ ˆ( )j jse v 
3.2.1 例:前立腺がん
• 前立腺全摘出手術を受けようとしている患者の抗原のレベル
と臨床的尺度の相関の調査用データ(表3.2)
– Zスコアは(3.12)の通り、その変数を取り除いた際の影響度を示す
– lcavolは強い影響力を持っており、lweightやsviも同様
– 絶対値が2より大きいZスコアは5%水準で有意(この例では67個の標
本と9個のパラメータがあり、分布 の0.025裾分位点は±2.002)
– 別表によるとlcpはlcavolと相関が高いため(0.692)、高いZスコアを持
つものの、 lcavolを含めたモデルではさほど重要ではない。
16
67 9t 
3.2.1 例:前立腺がん
• 表3.2から、Zスコアの小さい4変数(age、lcp、gleason,
pgg45)を取り除くF検定を行うと、
となり、有意差は確認できなかった。
• 目的変数lpsaの平均を推定に用いた際の評価誤差(基準誤
り率)は1.057
• 最小二乗推定による評価誤差は0.521であった
– 線形モデルで基準誤り率を約50%改善できたことになる
– この後紹介するいくつかの推定方法でこの例を取り扱う
17
1.67F  4,67 9Pr( 1.67) 0.17F   
3.2.2 ガウス=マルコフの定理
• 最小二乗推定量はBLUEである
– Best(最良 つまり以下の条件を満たす中で最小分散)
– Linear(観測値の線形結合で推定する)
– Unbiased(不偏 推定値の期待値=真値)
– Estimator(推定量)
– 最良線形不偏推定量、ともいう
18
( の線形関数すべてを不偏に推定)ˆ( )T T
E a a  (3.18)
( 以外の線形不偏推定量 に対して
⇒ より推定量の分散が小さい)
T
c y 
(3.19)
ˆT
a  ( )T T
E c y a 
ˆ( ) ( )T T
Var a Var c y 
3.2.2 ガウス=マルコフの定理
• Θを推定する際の統計量 の平均二乗誤差は、
となる。第一項は分散、第二項はバイアスの二乗である。最小二乗推定量
はすべての線形不偏推定量の中で最も小さい平均二乗誤差がガウスマル
コフによって示されているが、より小さい平均二乗誤差を持つ不変でない推
定量が存在する可能性はある。
そのような推定量では、少しのバイアスの増加によって分散を大きく減少さ
せており、実際の問題にそのような推定量が用いられることは多い。
この後の項で、そのような推定量の例をいくつか取り扱う。(変数選択、リッジ
回帰、Lassoなど)
7章では、バイアスと分散の適切なバランスについて詳しく説明する。
19
2
2
MSE( ) [( ) ]
Var( ) [ ( )]
E
E
  
  
 
  
 
 

(3.20)
3.3 3.4 おしながき
• 最小二乗推定において算出された係数を減らしたり、0にす
ることで予測性能が向上することがある
• 予測変数を減らしてモデルをシンプルにしたい、という考え方
も存在する
• 3.3節「変数選択」
– 最小二乗法の次元を効率よく削減するための手法について
• 最良変数組み合わせ選択
• 前向き/後向き漸次的選択
• 前向き段階的選択
• 3.4節「縮小推定」
– 次元は変えずに係数を減らす話
• リッジ回帰
• Lasso
• 最小角回帰
20
3.3.1 最良変数組み合わせ選択
• 各kに対して最も残差の少ないk変数の組み合わせを選択
• kごとの残差最小値を見比べてkを決定する
– AICなどによって決めたりする
– 詳しくは7章
• 組み合わせが膨大になるため、pは30~40程度が限界
21
例:前立腺がん
3.3.2 前向き漸次的選択法
• 一個目の変数として、切片(バイアス項)を必ず入れる
• 二つ目以降は、最も残差を小さくする変数を順番に追加する
(greedyアルゴリズム)
• デメリット
– 全探索ではないので”準最適解”しか求まらない
• メリット
– 速い p>>Nでも問題なく計算可能
– 統計学的理由 最良選択よりも低分散高バイアス
22
3.3.2 後向き漸次的選択法
• 全説明変数を含めたモデルから始める
• ダメな子(いなくても残差があまり増えない)からはじく
– N>pの場合しか使用不可(or変数減らしても残差0のままになる)
– Zスコアが最小のものは除外候補(演習3.10)
23
手法比較
24
T
Y X   • の線形回帰を人工データに基づいて実行
– これまでの3手法はどれも大差ない
3.3.3 前向き段階的
近似(この後説明)
3.3.3 前向き段階的回帰
1. データ及び予測変数を中心化(全体から平均を引く)しておく
2. 予測変数βは0で初期化
3. 毎回、データ残差と相関の大きい変数を選択し(過去との重
複を許す)、残差との単回帰係数をβに加算
4. 3を残差と相関を持つ変数がなくなるまで繰り返す
• ある変数がモデルに追加されても、他の変数の予測変数は
更新されない
• 処理を終わるには非常に長い繰り返し回数が要求される
– 先ほどの表の例では相関が10^-4以下になるまで1000回繰り返した
– 高次元のケースでは好都合らしい(⇒3.8.1節)
25
3.3.4 例:前立腺がん
表3.3 様々な変数選択手法と縮小推定法で求めた係数と評価誤差。空欄はモデル
から外されたことを示す
※モデル選択には10分割CV + 1標準誤差法(7.10節)を用いた
(最小予測誤差から1標準誤差内の最小変数のモデルを選択)
26
最小
二乗法
最良部分
選択
リッジ
回帰
Lasso
主成分
回帰
部分最小
二乗法
邦訳版の誤訳? 次回今回
3.4 縮小推定
• 次元は変えずに係数を減らす話
– リッジ回帰
– Lasso
– 最小角回帰
• 変数を入れる/入れないの2択ではなく、より連続的なモデル
選択
27
3.4.1 リッジ回帰
• 残差二乗和そのものではなく、回帰係数の二乗和を加えたも
のの最小化を行う
– (≧0)は縮小度を決めるパラメータであり、大きく取ると が小さく
なる
– ニューラルネットでは荷重減衰(weight decay)と呼ばれる
28
2
2
0
1 1 1
ˆ arg min
p pN
ridge i ij j j
i j j
y x

    
  
   
     
   
  
 
(3.41)
3.4.1 リッジ回帰
• リッジ回帰は以下のようにも書くことができる
– (3.41)の と(3.42)の には1対1の対応がある
– モデル中に似た変数が多く含まれる場合、変数同士打ち消しあうこと
で係数の推定は不安定になり、分散は増大するが、このように係数
の大きさに制約をかけることによって解消される。
29
2
0
1 1
ˆ arg min
pN
ridge i ij j
i j
y x

  
 
   
    
   
  (3.42)
2
1
p
j
j
t

subject to
t
3.4.1 リッジ回帰
• リッジ回帰の解は入力変数の大きさに対して不変でないため
(3.41)を解く前に入力変数を標準化しておく必要がある
– 目的変数に定数を足しても、推定も同じようにはズレない
–
–
• これ以降は、入力変数はすべて中心化されており、入力の
行列Xは(p+1)行ではなくp行であるとする
• 切片は罰則項からも除外される
30
i iy y y 
ij ij ijx x x 
本には明確な記載はないように見えますが
、中心化だけでなく、標準偏差で割る操作
も本の意図に含まれているのでは?
という指摘を頂いています(6/15追記)
(3.44)
3.4.1 リッジ回帰
• (3.41)を行列により書き直すと、
• これを で微分して=0を解くと、リッジ回帰の解が求まる
• は半正定、 は正定(λ>0)より、逆行列は必ず存在
– リッジ回帰が初めて登場したときはこのことが重要視され、(3.44)が
定義とされた
31
( ) ( ) ( )T T
RSS y X y X        (3.43)
 ( )
2 2( )
T T T T T T T
T T
RSS y y X X y X X y
X y X X I
      
 

 
    
 
   

1ˆ ( )T T
ridge X X I X y  
 
T
X X I
3.4.1 リッジ回帰
• λを変化させたときの前立腺がんの推定パラメータ の変化
• は”有効自由度”と呼ばれる(後述)
32
ˆ
ridge
2
2
1
df ( )
p
j
j j
d
d





  
最小二乗法による
推定結果
0 
3.4.1 リッジ回帰
• リッジ回帰は適切に選択した事前分布に基づく事後分布の
平均値、あるいは最頻値、としても書ける(p77右下)
– 証明は演習3.6に丸投げ
– 意味が読み取れませんでした
• 入力が正規直交している場合、リッジ推定量は最小二乗推
定量の定数倍に過ぎない
33
ˆ ˆ / (1 )ridge   
3.4.1 リッジ回帰の特異値分解による表現(p78~)
• 中心化された入力行列Xの特異値分解によりいくつかの知見が
得られる
U,Vは直行行列(列ベクトル同士の内積が0または1)、
Uの列ベクトルはXの列空間を、Vの行空間はXの行空間を張る
DはXの特異値 を対角成分に持つ対角行列
によって以下のように書くことができる。
(特異値分解の一般論、証明略)
以下、 , が成立するとする
34
T
X UDV
, :D V p p, :X U N p
1 0pd d  
(3.45)
T T
pV V VV I  2T T
D U UD D
こっちはあまり自明ではないかも
なら成立
T
pU U I
N>pを仮定?
3.4.1 リッジ回帰の特異値分解による表現
• 特異値分解から、以下が計算できる(訓練データ全体に対応す
る推定値の計算)
• はyの正規直交基底Uについての座標( はそのj番目)
• (3.47)は、yの 成分を 倍に縮小(<1)して出力し
ていることを表している
• Xの特異値 が小さいほど、 成分は縮小される
35
3.4.1 リッジ回帰の特異値分解による表現(p78~)
ˆ T
lsX UU y  (3.46)
 
1
2
2
1
ˆ T T
ridge
p
j T
j j
j j
X X X X I X y
d
u u y
d
 



 


 (3.47)
T
U y
T
ju y
2 2
/ ( )j jd d ju
jd ju
3.4.1 リッジ回帰の特異値分解による表現(p78~)
• Xの特異値が小さい、とはどのようなことか?
⇒Xの主成分とつながりがある
• 入力データの共分散行列は で、また(3.45)から
これは の(N倍を無視すればSの)固有値分解である。
– 固有ベクトル (Vの第i列)はXの第i主成分とも呼ばれる
– 第1主成分 は、 がXの列ベクトルが張る空間の中で最も大き
な標本分散を持つ方向である
36
/T
S X X N
2T T
X X VD V (3.48)
T
X X
iv
1v 1 1z Xv
上記標本分散=
2
1 1 1( ) ( ) /Var z Var Xv d N  (3.49)
 1 1 1
1 1
( ) /
/
T
T T T
Var Xv Xv Xv N
v VDU UDV v N


3.4.1 リッジ回帰の特異値分解による表現(p78~)
• 図3.9に2次元データの散布図と主成分が書かれている
– データは第一主成分の方向に最も分散している(右上方向)
– リッジ回帰は、分散のより小さい方向の係数を抑え、分散が大きくなる
可能性を抑える
37
3.4.1 リッジ回帰の特異値分解による表現(p78~)
• 図3.7に推定予測誤差とリッジ回帰の有効自由度との関係が示されている
– 通常、p変数の推定の自由度は、p
– リッジ回帰の場合、全変数に少しずつ制約をかける形であり、自由度を減らす=変
数のいくつかが0になる、とはならない
– λ=0(正則化なし)のとき自由度はp
– λ=∞のとき、自由度は0
– 切片の分はカウントしない
– 3.4.4と7.4~7.6で詳細に論じる
– 前立腺の例では線形二乗回帰よりも
評価誤差が減少
38
1
2
2
1
df( ) [ ( ) ]
( )
T T
p
j
j j
tr X X X I X
d
tr H
d

 



 
 


(3.50)
3.4.2 Lasso
• Lasso推定は以下のように定義される(変数はすべて中心化)
39
2
0
1 1
ˆ arg min
pN
lasso i ij j
i j
y x

  
 
   
    
   
  (3.51)
1
p
j
j
t

subject to
2
0
1 1
ˆ arg min
pN
ridge i ij j
i j
y x

  
 
   
    
   
  (3.42)
2
1
p
j
j
t

subject to
リッジ回帰(再掲)
3.4.2 Lasso
• Lasso推定は以下のようにも書ける(ラグランジュ形式)
40
2
0
1 1 1
ˆ argmin
p pN
lasso i ij j j
i j j
y x

    
  
   
     
   
   (3.52)
2
2
0
1 1 1
ˆ arg min
p pN
ridge i ij j j
i j j
y x

    
  
   
     
   
   (3.41)
リッジ回帰(再掲)
3.4.2 Lasso
• リッジ回帰のような単純な解析解は得られない
• 解を得るためには2次計画問題(1次制約+目的関数が2次)
を解く必要がある
• 制約の性質上、tを小さくすると係数のいくつかは完全に0
• tを ととると、lasso推定量は最小二乗法に一致
• とすると、係数は平均で約50%縮小する
– 縮小特性の詳細は3.4.4で扱う
41
0
1
ˆ
p
ls
j
j
t 

 
0 / 2t t
3.4.2 Lasso
42
1
ˆ/
p
ls
j
j
s t 

 • ごとの予測誤差推定値、それぞれの係数
– 3章で紹介する手法の中では2番目に優秀(CVによる予測誤差ベース)
– 係数変化は区分的に線形(⇒3.4.4)
図3.7 図3.10
3.4.3 考察:部分集合選択、リッジ回帰、Lasso
• 入力行列Xが正規直交している場合:
– リッジ回帰は一律に1/(1+λ)倍
• (3.6)式と(3.44)式からすぐわかる
– Lassoは絶対値が減る方向に最大λ動く
– 部分集合選択では第M番目の係数より小さいものは0にする
43
3.4.3 考察:部分集合選択、リッジ回帰、Lasso
• 直交しない場合のイメージ図(図3.12):
– Lasso回帰の制約は のひし形
– リッジ回帰の制約は の円形状
– 二乗誤差の等高線 (楕円になる)と最初に接するところが推定値
– 頂点のあるLasso回帰は解がSparseになりやすい
• 高次元の場合はよりSparseになりやすい
44
1 2 t  
2 2 2
1 2 t  
45

カステラ本勉強会 第三回