4. なぜl1 正則化はスパースなのか?
Linear regression に限定するがGLM 一般に拡張可能
! 目的関数はminwRSS(w) + λ∥w∥1 ⇔ LASSO: minwRSS(w)s.t. λ∥w∥1 ≤ B
! B 小→ λ 大
! これは, Quadratic program (QP) となっている.
! ちなみにminwRSS(w) + λ∥w∥22
⇔ RIDGE: minwRSS(w)s.t. λ∥w∥22
≤ B
Figure: 13.3; l1 (left) vs l2 (right) regularization
Daisuke Yoneoka Sparse linear models October 20, 2014 4 / 21
5. Optimality conditions for lasso
Lasso はnon-smooth optimization (微分不可能最適化) の例.
目的関数はminwRSS(w) + λ∥w∥1
! 第一項の微分は∂
∂wj
RSS(w) = ajwj − cj .
ただしaj = 2
"n
i=1 x2
ij, cj = 2
"n
i=1 xij(yi − wT−
jxi,−j)
# $% &
j とj なしの残差の内積
! cj はj 番目の特徴量がy の予測にどれだけ関連しているかを表現
! 全体の劣微分は
∂wj f(w) = (ajwj − cj) + λ∂wj ∥w∥1 =
⎧⎪⎨
⎪⎩
{ajwj − cj − λ} if wj < 0
[−cj − λ,−cj + λ] if wj = 0
{ajwj − cj + λ} if wj > 0
Matrix form で書くと, XT (Xw − y)j # $% &
RSS の微分の部分
∈
⎧⎪⎨
⎪⎩
{−λ} if wj < 0
[−λ, λ] if wj = 0
{λ} if wj > 0
Daisuke Yoneoka Sparse linear models October 20, 2014 5 / 21
6. Optimality conditions for lasso (Cont. 2)
cj の値によって∂wj f(w) = 0 の解として定義されるˆ wj の値は3パターン
! cj < −λ: 特徴量は残差と強く負の相関, 劣微分はˆ wj =
cj + λ
aj
< 0 において0.
! cj ∈ [−λ, λ]: 特徴量は残差と弱く相関, 劣微分はˆ wj = 0 において0.
! cj > −λ: 特徴量は残差と強く相関, 劣微分はˆ wj =
cj − λ
aj
> 0 において0.
つまり、ˆ wj (cj) =
⎧⎪⎪⎪⎪⎨
⎪⎪⎪⎪⎩
cj + λ
aj
if cj < −λ
0 if cj ∈ [−λ, λ]
cj − λ
if cj > λ
aj
⇔ ˆ wj (cj) = soft(
cj
aj
;
λ
aj
)
ただし、soft はsoft thresholding で定義はsoft(a; δ) ≡ sign(a)(|a|−δ)+
Daisuke Yoneoka Sparse linear models October 20, 2014 6 / 21