[読会]A critical review of lasso and its derivatives for variable selection under dependence among covariates

A critical review of LASSO and its derivatives for
variable selection under dependence among
covariates
Laura Freijeiro-González et al, 2020

概要
特徴量（変数）選択器としてのLASSOの特性研究
複数のシナリオでLASSOが上手く働かない場合を主に見ている
n >= p, p > nの両方（n: サンプルサイズ, p: 変数数）
対応策も言及

モチベーション
データを正しく説明し不要なノイズを避けるために変数選択を適用することが多
い
p > nのコンテキストでは、推定と予測が難しいため統計学の重要な課題
これを解決するためにLASSOが良く使われる
けど、LASSOには欠点もあるので欠点を知って適切なLASSO亜種を使いましょう

良くやる例
import lightgbm as lgb

from sklearn.pipeline import Pipeline

from sklearn.feature_selection import SelectFromModel

from sklearn.linear_model import Lasso
class SelectF(SelectFBase):

def __init__(self, X, y):

self._select_features(X, y)

def _select_features(self, X, y):

regressor = Lasso(alpha=3)

sfm = SelectFromModel(regressor)

sfm.fit(X, y)

self.sfm = sfm

def transform(self, X):

return X.loc[:, self.sfm.get_support()]

pip_lgb = Pipeline([("sf", SelectF(X_train, y_train)),

('es', lgb.LGBMRegressor(**params)),])

Notation
: 共変量数
: 目的変数
: 共変量
: 回帰モデル（線形とはいっていない）
: ノイズ
: 線形回帰モデルの回帰係数 ( )
この論文の議論では切片は考えない
p
Y
X
p
X = (X
, ..., X
) ∈
1 p
T
Rp
m(X)
ϵ ∼ Nn(0, σ )
2
β ∈ Rp

Notation
回帰モデル（一般）
線形回帰モデル
この論文では線形回帰を中心に考える
Y = m(X) + ϵ
Y = Xβ + ϵ

回帰の課題
線形回帰一般課題
線形回帰の場合の解は無限に存在する
連立法定式考えてみればｽｸﾞﾜｶﾙ
β

回帰の課題
LASSOの課題
LASSOはモデルの解釈や変数選択の実行が容易
しかし、その良好な動作を保証するためには，共変量行列と標本サイズに関する
いくつかの厳密な仮定が必要
Meinshausen and Bühlmann (2010) 参照
ごく一部の共変量に相関がある場合には正しい共変量選択と冗長性の排除が上手
く出来ない
Su et al. (2017) 参照
この辺をシミュレーションで見ていく

LASSO概要
線形回帰モデルではいくつかの共変量が不要な場合が多い
これらのシナリオではベクトルが疎であると仮定
ノイズの多いものを避けて重要な共変量を探索
アイデアは、何らかの方法で共変量を比較
=> 最も重要なものだけを選択
=> 無関係な情報を破棄
=> 予測の誤差を可能な限り小さく保つことができる方法論を得る
個の可能なサブモデルが出来てしまう
AIC(Akaike (1998))やBIC(Schwarz et al. (1978))が使えるか...？
情報量基準のアプローチは計算量が多くサンプリング特性の導出が難しく不安定
従って情報量基準はの次元が大きいシナリオには適していない
β
2p
p

LASSO概要
そこでOLSに不要な共変量がある場合に損失が大きくなるペナルティ項を加える
ノルムによるペナルティを追加したのがLASSO
損失関数が大体凸になるので解きやすい
の場合でも少なくとも1つの解が常に存在することを保証
Tibshirani (2013)を参照
をガウス分布と仮定すると、はの意味でフィットした係数がペナルテ
ィを受ける最尤推定値として解釈できる
L
1
p > n
ϵ βL
1
L
1

LASSO概要
OLS
=
β
^OLS
min
{Σ
(y −
β i=1
n
i Σ
x
β
) } (3)
j=1
p
ij j
2
ノルムによるペナルティ追加
=
β
^L
1
min
{Σ
(y −
β i=1
n
i Σ
x
β
) +
j=1
p
ij j
2
λΣ
∣β
∣} (6)
j=1
p
j
は正則化パラメタ
L
1
λ(> 0)

LASSOの課題1 - 推定器として
1. 化だと最大個のパラメタを選択しがち
2. 罰則項によってバイアス付与しがち
1.の問題よりより高い予測誤差を生み出す
OLSの損失を基にして解析すると以下のをに潰すというバイアスがあること
がわかる
=
β
^
j
L
1
sign(
)(∣
∣ −
β
^
j
OLS
β
^
j
OLS
λ)
+
は係数の符号, は値が負の場合ににする処理
2.のバイアスを取り除くために係数個分を設定したadaptive LASSOがある
Zou (2006), Huang et al. (2008), Van de Geer et al. (2011) 参照
p > n n
λ β
j 0
sign(⋅ ) (⋅ )
+ 0
λ

LASSOの課題2 - 変数選択器として
変数選択の結果がブレがち
共変量間に強い多重共線性がある場合にランダムで共変量を選びがち
スパースでなないけどこの問題を解決しているのがRidge regression (Hoerl and
Kennard (1970))とか Elastic Net (Zou and Hastie (2005))
一貫性に必要な条件
計画行列の“neighborhood stability condition” (Meinshausen et al. (2006)).
これは"irrepresentable condition"に相当(Zhao and Yu (2006); Zou (2006);
Yuan and Lin (2007)) <- (9)式みてね
n > s log(p), s = ∣S∣, S = {j : β =
j  0}
X

Bühlmann and Van De Geer (2011)の引用
計画行列があまりにも "不格好"で、の "より小さい"部分行列内で
の線型従属関係が強すぎる場合近傍安定性または表現不可能な条件(9)式
は成立しない
固有値ゼロだと情報ない
ランダムに解を出しているのと変わらない
疎なベクトルの "非ゼロ要素の復元"のために十分な情報と適切な特性
があることを保証する必要がある。これは、関連する共変量係数が、ゼ
ロのものと区別できるように十分に大きいことを必要とするく
非ゼロのに以下の条件が必要
inf
∣β
∣ >>
j∈S j
s log(p)/n
これを満たすのは非現実的でありがち
X X
β
β
j

変数選択器の一貫性を担保する手法が以下
random LASSO (Wang et al. (2011))
algorithm based on subsampling
stability selection method mixed with randomized LASSO of Meinshausen and
Bühlmann (2010)

LASSOノイズのっけがち
ノイズをのっけずに重要な共変量の正しいサブセットを選択することができ
ない
変数選択の偽陽性率と真陽性率の間にトレードオフが存在
FDP(λ) = and TPP(λ) =
∣j :
λ = 0∣ ∨ 1
β
j
^ 
F(λ)

s ∨ 1
T(λ)
は間違ってゼロにしなかった係数の数
は正しくゼロにしなかった係数の数
これらはペナルティがもたらす
他のペナルティ項では発生しない問題
F(λ) = ∣j ∈ S :
(λ) = 0∣
β
^j 
T(λ) = ∣j ∈ S :
(λ) = 0∣
β
^j 
a ∨ b = max{a, b}
L
1

以下の手法で回避できる
boLASSO procedure (see Bach (2008))
thresholded LASSO (Zhou (2010))
the stability selection method (see Meinshausen and Bühlmann (2010))
the use of knockoffs (see Hofner et al. (2015), Weinstein et al. (2017), Candes
et al. (2018) and Barber et al. (2019))
これらではまだを克服できない...
p > n

LASSOの課題4 - ハイパーパラメタ選択
を適切に調整する必要あり
が大きすぎるとのすべての係数がヌルになる
逆にゼロに近いとノイズの多い共変量の係数がゼロにならない
理論解析としてはBühlmann and Van De Geer (2011), Fan et al. (2012), Reid et al.
(2016)
現実的な方法として次の3つがある（引用: Homrighausen and McDonald (2018)）
一般化された情報基準（AICまたはBICのような）の最小化
リサンプリング手順（クロスバリデーションまたはブートストラップのよう
な）
LASSOの最適化問題の再構成
λ
λ
β
^L
1

LASSOの課題4 - ハイパーパラメタ選択
変数選択のためにはを大きくするのだがノイズがのるので重要な変数に対する係
数が過小評価されて本来ゼロになって欲しい係数がゼロにならないことも...
結局実践ではクロスバリデーション使ってることが多い
Homrighausen and McDonald (2018) 参照
λ

vanilla LASSOの性能検証
共通設定
、の組み合わせ
性能は500回平均値
シナリオ1 （直交設計）=多重共線性なし

p = 100
n = 25, 50, 100, 200, 400 s = 10, 15, 20
p > s > 0
β =
1 ⋯ = β =
s 1.25
β
=
s+1 ⋯ = β
=
p 0
X ∼ N
(0, I
)
n p

シナリオ2 (ブロックによる依存性)

where and for all pairs (j, k)
except if mod10 = mod10 , in that case , taking
p > s
β
=
1 ⋯ = β
=
s 1
β
=
s+1 ⋯ = β
=
p 0
X ∼ N
(0, Σ)
n σ =
jj 1 σ =
jk cov(X
, X
) =
j k 0
(j) (k) σ =
jk ρ ρ = 0.5, 0.9

シナリオ3 (Toeplitz共分散)=全共変量が相関

p > s > 0

in the places where

共変量の相関関係を変えた亜種を2つ用意
X ∼ Nn(0, Σ)
β
=
j 0.5 β =
 0.
σ =
jk ρ for j, k =
∣j−k∣
1, ..., p and ρ = 0.5, 0.9

数が多すぎるので詳細省略（3章読んで）
面白そうな所だけ抜粋

飛び飛びの相関がある場合（シナリオ2）スパースにしてくれない

全ての共変量に相関がある場合まあまいい感じにスパースにしてくれる

LASSOの進化版比較
手法についてはTable.6を見る（数が多いので割愛）
図も多いので割愛
パッと見多くのシナリオでAdaptivLASSOが強い

共変量選択の指針
シナリオ1
多重共線性が存在しない場合LASSOは不要な共変量を選択する（ノイズを追
加する）という意味でうまくいかない
ノイズ追加のコストを払って完全集合を復元（真のは漏れなく選
択）
adaptive LASSO (Zou (2006)), relaxed LASSO (Meinshausen (2007)), Dantzig
selector (Candes et al. (2007)), distance correlation algorithm (Febrero-Bande
et al. (2019))がワークしてた
S β =
 0

共変量選択の指針
シナリオ2, シナリオ3
adaptive LASSO (Zou (2006)), distance correlation algorithm (Febrero-Bande et
al. (2019))がまあまあ上手くいってた（が集合の全ての要素を選択出来てい
ない場合もあった）
S

Appendix
実装あるの？
https://github.com/alvaromc317/asgl
https://towardsdatascience.com/an-adaptive-lasso-63afca54b80d
https://github.com/hichamjanati/mutar

[読会]A critical review of lasso and its derivatives for variable selection under dependence among covariates

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [読会]A critical review of lasso and its derivatives for variable selection under dependence among covariates

Similar to [読会]A critical review of lasso and its derivatives for variable selection under dependence among covariates (10)

More from shima o

More from shima o (20)

[読会]A critical review of lasso and its derivatives for variable selection under dependence among covariates