統計的学習の基礎 3章後半

カステラ本
（3章後半）
サイバーエージェント
アドテク本部 AI Lab
宮西一徳

第３章回帰のための線形手法の後半
3.4.4以降
図は原著より引用

1. 初期化: 予測変数は標準化して、残差は平均と
の差、係数は全て0
2.rと一番相関の高い予測変数xj
を見つける
3.βj
を0から最小二乗係数=xj
･rの方向へ
　他の変数xk
と残差の相関がxj
と同じになるまで
4.βj
とβk
を最小二乗係数の方向へ
　他の変数xl
と残差の相関と同じになるまで
最小角回帰
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]

最小角回帰
残差
Xから残差への回帰係数は
の時、
係数の更新は
（αは他の変数が同じ相関を持つまでの度合い）
L1弧長を定義する
β(α)をαで微分するとδだけ残る
= 係数を更新したときの変化分
なので、L1弧長は変化分のL1ノルムを足し合わせた
もの ≒ 係数変化の大きさ??

最小角回帰
変数を追加していくと、
相関係数の絶対値が減っていく

最小角回帰
lassoと比較すると似てる。
係数が0をまたぐとき異なっていて、
経路が得られるように最小角回帰の
step4を↓のように修正した。
係数が0になったとき、
それ対応する変数を使用済み
リストから除外して再計算する

最小角回帰
式(3.56)と式(3.58)を比較して、
βと内積の符号が一致するとき同じだが、それ以外で
は違ってくる
→ 0をまたぐときにグラフが違っていた原因はこれ
(3.56)
(3.57)
(3.58)
使用済み変数集合Aとして、
使用済み変数と残差との内積は、
lassoのラグランジュ形式
ベクトル形式で書くと
βで微分して0とおくと

最小角回帰
合計L1
弧長に対する平均標準誤差(MSE)
のグラフ
黒の前向き漸次的回帰が、
早い段階で過学習して精度が悪い。
黄色の前向き段階的回帰は、
収束が遅いが性能は良い。
最小角回帰(LAR)もlassoも、
前向き段階的回帰と同様。

最小角回帰およびlassoの自由度方程式
適合させるベクトル
の自由度を定義する
予測値と観測値の標本共分散
dfが大きくなるほど、fittingが難しくなる

入力に対して線形変換を行う方法
変数選択の話
● 主成分回帰
● 部分最小二乗法

主成分回帰
主成分を線形結合とする
主成分は直交しているので、単回帰の和で表される

主成分回帰
リッジ回帰との関係
・リッジ回帰: 主成分の係数を、固有値の大きさに応じて縮小させる
・主成分回帰: 主成分の小さい方からp-M個を除去する

部分最小二乗法
直交化をM個まで実行する。
（全てやると通常の最小二乗法）
主成分回帰は分散が大きくなるように
部分最小二乗法は、分散が大きく、応
答変数と相関が高い方向へ

選択法と縮小法の比較2つの入力変数X1
とX2
の相関係数がρ
各係数β1
とβ2
の変化をグラフ化
リッジ回帰は連続的に推移する
部分最小二乗法と主成分回帰は、途中で急
に変化するが、ほぼリッジと似た推移
最良部分集合選択は行き過ぎてから戻る
lassoは中間
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]FIGURE 3.18

選択法と縮小法の比較
どれも似た推移
部分最小二乗法と主成分回帰は、今回もほ
ぼリッジと似た推移
リッジ回帰は連続的な推移なので好ましい
lassoはリッジと最良部分集合選択の中間的
な性質
■まとめ

関連するアルゴリズムについて
● 逐次前向き段階的回帰
● 区分的線形解追跡アルゴリズム
● ダンツィク選択器
● グループlasso

逐次前向き段階的回帰
残差と最も相関の高い変数の係数を更新（更新幅=ε）
残差rと最も相関の高いxを見つける
係数と残差を更新する
残差と説明変数の相関がなくなるまで繰り返す

逐次前向き段階的回帰
ε=0.01のときの係数軌跡 ε→ 0 の場合の係数経路 → lassoと同じ

区分的線形解追跡アルゴリズム
...

ダンツィク選択器
はL∞
ノルムで、ベクトル要素の絶対値の最大値
lassoの二乗誤差損失を最大絶対値で置き換えた形
現在の残差と全ての説明変数との内積の最大値を最小化しようとする。
↔ lassoは、残差と使用済み変数との内積を維持しつつ残差二乗和を減少させるように更新する
lassoに比べると内積の最大値は小さくなることが多い。
全ての説明変数との内積=選択済みの変数以外も含むだから相関が低い変数も含んでしまうので予
測誤差が大きくなることがある

グループlasso
同じグループの説明変数を同時に縮小・選択する

lassoの性質
係数について、lassoの縮小は非ゼロ係数の推定に対して0に向かうバイアスをかける。
標本数が増えても、推定値が真値に収束するとは限らない。
→ 非ゼロ係数の特定のためだけにlassoを使って、選択された変数で線形モデルを当てはめる方法もアリ
　当てはめるモデルにlassoを使うこともできて、緩和lassoという。
　（2段目のlassoでは、係数はそれほど縮小されない。）
大きな係数をあまり縮小しないように罰則関数を変えるバージョンもある
→ 「平滑打ち切り絶対偏差(SCAD)罰則」と呼ばれる
をに置き換える。
大きなβに対する縮小幅
を減少させる

lassoの性質
SCADは非凸なので計算が困難
そこで、適応的lasso
という重み付き罰則
これを使うと、凸性を残しつつ、一致性を持った係数推定ができる。

総当たり座標最適化
lasso解を、単純な座標降下法で求める。
の罰則パラメータλを固定して、パラメータ一つずつについて
他のパラメータの値を固定して最適化を行う。
βj
を分離して
部分残差を目的変数とした1変数lassoとみなせる。
更新式は、
係数が収束するまで、更新式を各変数に順に適用していくと、lasso推定値が得られる。

統計的学習の基礎 3章後半

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (9)

統計的学習の基礎 3章後半