統計的学習の基礎 3章前半

カステラ本
（3章前半）
サイバーエージェント
アドテク本部 AI Lab
宮西一徳

第３章回帰のための線形手法の前半
3.4.3まで
図は原著より引用

線形回帰モデル
(x1, y1) . . . (xN , yN )
訓練データ
から、βを推定したい。
最小二乗法で、残差平方和を最小化するのが一般的な方法
→ 入力X、未知のパラメータβで出力Yを予測するモデル
線形回帰モデルと最小二乗法
XがN×(p+1)行列、YがN次元ベクトルとすると、
residual
sum-of-squares

RSSが最小となるときのβを知りたい
RSSをβで微分して0になるときの βが求める推定値
(3.6)
(3.7)
(3.8)
分散共分散行列
なので、以下の多変量正規分布に従う
(3.10)
（σ2
: 観測値yi
の分散）

σ2
の推定値
分散の不偏推定量は RSS/自由度
全変動=回帰変動+残差変動
全変動の自由度: N-1（標本数-1）
回帰変動の自由度: p（入力データの次元数）
残差変動の自由度は N-1-p
誤差項の分散の不偏推定量は、
これがσ2
（観測値yi
の分散）の不偏推定量になる
(3.9)
これのεの分散を推定した値
観測値の分散ではない

特定の係数を0にできるかの検定
Zスコア（標準化スコア）= 数値から平均値を引いて標準偏差で割ったもの z=(x-μ)/s
j番目の係数の分散は σ2
vj
→ 標準偏差はσ√vj vj
はのj番目の対角成分
平均を0としたときのZスコアは、
βj
=0 という帰無仮説のもとt検定。→ zj
の絶対値が大きいときは棄却する。

複数の係数を同時に0にできるかの検定
F統計量
分子は、p0
からp1
にパラメータを増やしたときの残差二乗和の差分
分母は、σ2
の推定値
という分布に従う

例：前立腺癌
説明変数間の相関
lcavolとlcpが目的変数lpsaと強い相関
lcavolとlcpの間にも強い相関
各係数のZスコア
（絶対値が2を超えると0にできない）
lcavolが強い影響
lweightとsviも同様
lcpは重要ではない（lcavolが入ってると）
[引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]

例：前立腺癌
各係数のZスコア
（絶対値が2を超えると0にできない）
F統計量で同時に複数の変数を除外できるか検定
age, lcp, gleason, pgg45を除外する場合、
このときのp値が0.17となり有意ではない。

ガウス=マルコフ定理
バイアスを犠牲にして分散を小さくできれば、
MSEがより小さくなる不偏ではない推定量が存在する可能性がある
ex. 変数選択やリッジ回帰で係数を縮小したり0にしたり
全ての線形不偏推定量の中で、最小二乗推定量が最も小さい平均二乗誤差(MSE)を持つ
MSEは、分散とバイアスに分解することができる。

単回帰から重回帰
切片のない1変数モデルの最小二乗推定量と残差は
ベクトル表記
切片と1変数のモデルについて
1. x=β0
1+ε → 残差
2. y=β1
z +ε
残差=説明変数で説明できない=説明変数と残差に相関がない=直交する
この場合の残差Zは、Xから切片の影響を除外したもの
ステップ1のβ0
の推定値がxの平均値となるので、残差zは
個人的な解釈
このβ1
の推定値が

単回帰から重回帰
説明変数の数をpに増やした場合、
z0
~ zj-1
を使ってxj
を推定する回帰をして、
最小二乗推定量βj
と残差zj
を求める。
pまで繰り返して、最後はyを推定する回帰で βp
を求める。
これをグラム=シュミットの直交化法という

変数選択
● 最良変数組み合わせ選択
● 前向き/後向き漸次的選択法
● 前向き段階的回帰

変数選択（最良変数組み合わせ選択）
変数の部分集合の総当たりでいいのを見つける
部分集合の大きさkは大きいほどいいので、kを決めるには別の基準が必要になる。
→ 一般的には、「期待予測誤差を最小化する最も小さいモデルを選択する」

変数選択（前向き/後向き漸次的選択法）
● 前向き
○ 切片から始めて、最もいい推定結果になる説明変数を順次加えていく。
○ 準最適解しか求められない
○ 説明変数の数がデータ数より多くても計算可能
○ 制約された探索のため、低分散高バイアス
● 後向き
○ フルセットの説明変数から始めて、影響の小さい変数を順次除去していく。
○ 説明変数の数がデータ数より少ないときしか無理

変数選択（前向き段階的回帰）
● 切片をyの平均値、その他の係数を全て0でスタート
● 残差と最も相関の大きい変数を選択し、残差に対する単回帰係数を求めて、その変数の係数に加える。
● 残差と相関を持つ変数がなくなるまで繰り返す。
● 説明変数の数以上繰り返す必要があり遅い。けどなんかいいらしい。→3.8.1で説明

変数選択（比較）
前向き/後向きはほぼ同じ。
前向き段階的回帰は選択回数が多め。
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]

縮小推定
変数選択は、変数を使うか使わないかを選ぶ（離散的）
→ 分散が大きくなって、予測誤差が減りにくい。
縮小推定を使うと、この問題は起こらない。

縮小推定（リッジ回帰）(1/7)
パラメータの大きさに罰則を課す。
残差二乗
和
罰則項 = 係数の二乗和
こう書くこともできる↓
λとtが一対一に対応する何か
説明変数間に相関があると、
それらの変数に対して、
正負の大きな係数が割り当てられて、不安定になる。（多
重共線性）
リッジ回帰では、係数の大きさに制約を課しているので、こ
の問題は起きない。

❖ 説明変数の大きさの影響を受けるので、標準化する必要がある。
➢ 平均0、分散1になるように変換する
❖ 罰則項に切片は入れない
➢ 切片に罰則を課すと、目的変数の原点の選び方に依存してしまうから。

中心化 → とすると、切片β0
はyの平均で推定できる →
残りの係数は切片なしのリッジ回帰で推定できるので、
行列形式で書くと、
(3.43)
このときのリッジ回帰の解は、
(3.6)
ちなみに、
最小二乗法での解は、
比べると、
の対角成分にλ≧0を加えている
→ 特異行列にならなくなるので、必ず逆行列が求まる。

Xの特異値分解
U(N×p)はXの列空間、
V(p×p)はXの行空間、
D(p×p)の対角成分はXの特異値
■ 最小二乗法の解
■ リッジ回帰の解
← dはXの特異値で、d2
が小さいとより強く縮小される。

→ 第一主成分と呼ぶ
→ （Xの固有値分解）
ここで、Vの列ベクトルは、固有ベクトル vj
でXの主成分方向とも呼ばれる
第一主成分方向v1は、 z1
=Xv1
がXの列ベクトルの線形結合の中で最も大きい分散を持ち
となり、z1
は
特異値d1
, d2
,..., dj
の順に小さくなっていき、小さい特異値はXの列空間上で分散が小さくなる。
前のページの、
Xの特異値 d2
が小さいとより強く縮小される。
リッジ回帰は、小さい特異値の方向の成分を
強く縮小する

二次元データを主成分方向に射影してプロットした図
大きい主成分=分散が大きい
小さい主成分=分散が小さい
リッジ回帰は分散が小さい方向の成分を縮小する
予測変数は応答変数に応じて変化するはず
→ 応答変数は入力の分散が大きい方向に最も変化しやすいはず

リッジ回帰の有効自由度
説明変数の数がpとすると、通常自由度は p
リッジ回帰では、λの制約を受けるので
それに対応した自由度が↑の有効自由度
λ=0のとき df(λ)=p
λ→∞のとき df(λ)→0
例、df(λ)=5 のとき推定予測誤差が最小→

縮小推定（lasso）
リッジ回帰でL2だった罰則をL1にしたもの
tを小さくすると、いくつかの係数を0にできる
→ 変数選択が可能
tは、リッジ回帰と同様、期待推定誤差の推定値を最
小化するように適応的に決めればいい
調整パラメータに対応する係数の変化
リッジは係数が0にならないが、lassoは sを0に近づけると0になる。

部分集合選択、リッジ、lassoの考察(1/4)
の符号にあわせて(sign)
max( , 0)

lasso リッジ回帰
lassoの場合、頂点で交わると一方のパラメータが0になる
高次元になると頂点とか辺が増えて、複数のパラメータが0になるケースが増える

罰則のところ一般化すると
qを変えたときの制約領域
q=1のときlassoで、2のときリッジ [ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]

q=1, 2 以外のときも試したくなるが、経験上分散が大きくなってよくない。
lassoとリッジの折衷案としてElasticNetが提案された
罰則項→
lassoのように変数を選択し、
リッジのように相関のある変数の係数を縮
小する。
Lq
罰則よりも計算コストが小さい

統計的学習の基礎 3章前半

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 統計的学習の基礎 3章前半

Similar to 統計的学習の基礎 3章前半 (20)

Recently uploaded

Recently uploaded (14)

統計的学習の基礎 3章前半