More Related Content Similar to 2014年5月14日_水曜セミナー発表内容_FINAL (20) More from Tomoshige Nakamura (20) 2014年5月14日_水曜セミナー発表内容_FINAL3. 文献
B. Efron, T. Hastie, I. Johnstone, R. Tibshirani (2004). LEAST
ANGLE REGRESSION
H. Zou and T. Hastie (2005). Regularization and variable selection
via the elastic net
H. Zou, T. Hastie, and R. Tibshirani (2006). Sparse principal
component analysis.
R. Tibshirani (1996). Regression Shrinkage and Selection via the
Lasso
T. Hastie, R. Tibshirani, J. Friedman (2009). The Elements of
Statistical Learning 2nd Edition
G. James, D. Witten, T. Hastie R. Tibshirani (2014). An
Introduction to Statistical Learning
3 / 66
4. 導入 - 回帰モデルとは何か?
線形回帰モデル, 変数選択法, 縮小推定法
Lasso - L1 型正則化による、縮小推定と変数選択
Elastic Net - Lasso に変わる新たな手法
まとめ
今後の研究について
4 / 66
6. 導入 — 教師あり学習問題
教師あり学習の問題設定
予測したい変数:目的変数 Y (回帰・判別で異なる)を決める。
Y を説明する変数:説明変数 Xn×p = (X1, ..., Xp) を決める。
教師データ(トレーニングデータ)が (x1, y1), · · · , (xN , yN ) が与
えられる。これらは、変数の観測値。
教師あり学習の目的
教師データを用いて未知の現象をモデル化する。
説明変数が目的変数に与える影響を理解する。
未知のデータ(入力)に対して、結果(出力)を予測する。
6 / 66
7. 導入 — 回帰の例
前立腺がんのデータ
前立腺がんのデータは、Stamey(1989) の調査で得られたもの.
調査対象は、大規模な前立腺駆除を 受けた男性.
調査目的 1:「前立腺の特定の抗体レベルと、医学的な測定値の間
の関係性」を調べること.
調査目的 2:「医学的な測定値から、前立腺の特定抗体のレベルを
予測する」こと
目的変数: log(前立腺の特定の抗体レベル)(lpsa) である。
説明変数:log(がんの大きさ)(lcavol)、log(前立腺の重さ)(lweight)、
年齢、log(良性の 前立腺肥大量)(lbph)、貯精嚢の侵入 (svi)、
lod(カプセルの浸透)(lcp)、グリーソスコア (gleason)、グリーソン
スコアが 4 と 5 であるものの割合 (pgg45)。
学習用データが 67 個の観測データと、30 個のテストデータ.
7 / 66
8. 導入|回帰の例
lcavol lweight age ... gleason pgg45 lpsa train
1 -0.58 2.77 50 ... 6 0 -0.43 TRUE
2 -0.99 3.32 58 ... 6 0 -0.16 TRUE
3 -0.51 2.69 74 ... 7 20 -0.16 TRUE
4 -1.20 3.28 58 ... 6 0 -0.16 TRUE
5 0.75 3.43 62 ... 6 0 0.37 TRUE
6 -1.05 3.23 50 ... 6 0 0.77 TRUE
7 0.74 3.47 64 ... 6 0 0.77 FALSE
8 0.69 3.54 58 ... 6 0 0.85 TRUE
9 -0.78 3.54 47 ... 6 0 1.05 FALSE
10 0.22 3.24 63 ... 6 0 1.05 FALSE
11 0.25 3.60 65 ... 6 0 1.27 TRUE
12 -1.35 3.60 63 ... 6 0 1.27 TRUE
Table: 前立腺がんのデータ(lpsa = 腫瘍の重さ), 最初の8つが説明
変数.
8 / 66
10. 導入|回帰の例 → 抽象化
目的変数をすべての変数で説明する
Y = lpsa : 目的変数
X = (lcavol, lweight, age, ..., gleason, pgg45) : 説明変数
train = TRUE, FALSE:教師 or テスト
Y を X で説明するモデルは、以下のように考えられる。
Y = f(X) + ε (1)
ε は誤差ベクトル
一般的には平均 0、分散 σ2 の正規分布に従うと仮定する。
10 / 66
12. 導入 - 回帰モデルとは何か?
線形回帰モデル, 変数選択法, 縮小推定法
Lasso - L1 型正則化による、縮小推定と変数選択
Elastic Net - Lasso に変わる新たな手法
まとめ
今後の研究について
12 / 66
14. 線形回帰モデル
線形回帰法は目的変数 Yn×1 を、説明変数 Xn×p = (X1, ..., Xp) の線形
結合。
f(X) = β0 +
p
j=i
Xjβj (3)
教師データが与えられたときに、パラメータ β の推定量は、残差二乗和
(RSS)の最小化によって得られる。
残差二乗和は、以下のように表される。
RSS(β) =
N
i=1
(yi − f(xi))
=
N
i=1
⎛
⎝yi − β0 −
p
j=1
xijβj
⎞
⎠
2
= (y − Xβ)T
(y − Xβ)
14 / 66
15. 線形回帰モデル
最小自乗推定量 (OLSE)
推定量 ˆβ は、RSS(β) を β で偏微分したものを 0 とおけば
よい。
ˆβ = (XT
X)−1
XT
y (4)
Y の推定量は、β を用いて
ˆy = X ˆβ = X(XT
X)−1
XT
y = Hy (5)
H は X の張る線形部分空間への射影行列である。
推定量の検定
残差に正規性を仮定する。
回帰係数の推定値が 0 であるかの仮説検定を行うことがで
きる
15 / 66
24. 縮小推定法|リッジ回帰
リッジ回帰(Ridge Regression)とは?
Hoerl and Lennnard(1970) で提案された手法。
回帰係数を求める際に XT
X を XT
X を XT
X + λI に置き換える
というアイデア。
ˆβ = (XT
X)−1
XT
y → ˆβridge = (XT
X + λI)−1
XT
y (8)
推定量は、残差二乗和にペナルティー(正則化項)を付けることに
対応する。
ˆβridge = arg min
β
⎧
⎪⎨
⎪⎩
N
i=1
⎛
⎝yi − β0 −
p
j=1
xijβj
⎞
⎠
2
+ λ
p
j=1
β2
j
⎫
⎪⎬
⎪⎭
= arg min
β
(y − Xβ)T
(y − Xβ) + λ||β||2
2 (9)
24 / 66
25. 縮小推定法|リッジ回帰
同等な式として、次のものがある。
ˆβridge = arg min
β
||y − Xβ||2
, subject to
p
j=1
β2
j ≤ t. (10)
ベイズ的な解釈
最小自乗法は、尤度 yi|β ∼ N(β0 + xiβ, σ2
)、β に無情報事前分布
を仮定した場合の、事後分布 β|y の最大化問題に対応する。
リッジ回帰は、尤度 yi|β ∼ N(β0 + xiβ, σ2
)、事前分布
β ∼ N(0, τ2
) としたとき、事後分布 β|y の最大化問題に対応する。
また、λ = σ2
/τ2
である。
25 / 66
26. 縮小推定法|リッジ回帰
リッジ回帰の主成分分析的な解釈
X の特異値分解 X = UDV T
を考える.
U : N × p, V : p × p の直交行列.D : p × p の対角行列.
X ˆβols = X(XT
X)−1
XT
y
= UUT
y
=
p
j=1
ujuT
j y
X ˆβridge = X(XT
X + λI)−1
XT
y
= UD(D2
+ λI)DUT
y
=
p
j=1
uj
d2
j
d2
j + λ
uT
j y
26 / 66
28. ここまでのまとめ
一般的に線形回帰法は目的変数 Yn×1 を、説明変数 Xn×p = (X1, ..., Xp)
の線形結合で説明する方法である。このような方法のうち最も基本的な
ものの1つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係
数の推定値 (OLS 推定量) は以下のように表される。
ˆβ(OLS) = (XT
X)−1
XT
y (11)
回帰における重要な 2 つの視点
データの予測精度 - 学習データで構築したモデルが、未知のデー
タが得られたとき、結果をどの程度の精度で予測できるか。
モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的
変数に対して影響の大きい説明変数のみで、モデルを構築できて
いるか。
一般的に、OLS 推定量は両方の面で優れていない。→ 改善策
28 / 66
29. ここまでのまとめ
一般的に線形回帰法は目的変数 Yn×1 を、説明変数 Xn×p = (X1, ..., Xp)
の線形結合で説明する方法である。このような方法のうち最も基本的な
ものの1つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係
数の推定値 (OLS 推定量) は以下のように表される。
ˆβ(OLS) = (XT
X)−1
XT
y (11)
回帰における重要な 2 つの視点
データの予測精度 - 学習データで構築したモデルが、未知のデー
タが得られたとき、結果をどの程度の精度で予測できるか。
モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的
変数に対して影響の大きい説明変数のみで、モデルを構築できて
いるか。
一般的に、OLS 推定量は両方の面で優れていない。→ 改善策
28 / 66
30. ここまでのまとめ
予測精度の向上
リッジ回帰:回帰係数の L2 ノルムの 2 乗に制約を加え、残
差二乗和を最小化する
利点:回帰係数を縮小推定することで予測精度が向上する
欠点:説明変数をすべてモデルに取り込む
説明変数の選択
変数増加法・変数減少法・最良変数選択法:AIC などを基準
にして、逐次説明変数を選択しモデルを構築する。
利点:説明変数が少ないモデルを構築することができる。
欠点:連続的な説明変数の選択ができない。
欠点:計算コストが大きい。
29 / 66
31. ここまでのまとめ
予測精度の向上
リッジ回帰:回帰係数の L2 ノルムの 2 乗に制約を加え、残
差二乗和を最小化する
利点:回帰係数を縮小推定することで予測精度が向上する
欠点:説明変数をすべてモデルに取り込む
説明変数の選択
変数増加法・変数減少法・最良変数選択法:AIC などを基準
にして、逐次説明変数を選択しモデルを構築する。
利点:説明変数が少ないモデルを構築することができる。
欠点:連続的な説明変数の選択ができない。
欠点:計算コストが大きい。
29 / 66
32. 導入 - 回帰モデルとは何か?
線形回帰モデル, 変数選択法, 縮小推定法
Lasso - L1 型正則化による、縮小推定と変数選択
Elastic Net - Lasso に変わる新たな手法
まとめ
今後の研究について
30 / 66
33. Lasso - L1 正則化
Lasso とは
Lasso:Least Absolute Shrinkage and Selection Operator
Tibshirani(1996)
回帰係数の L1 ノルムに制約を課したもとで、残差二乗和を
最小化する。
特徴
回帰係数を縮小推定し、その過程で変数の選択を行う。
回帰法の 2 つの重要な視点を同時に満たすような手法の 1 つ。
31 / 66
34. Lasso - L1 正則化
定義 (Lasso)
Xn×p は説明変数の行列。説明変数はそれぞれ標準化されている。
yn×1 は目的変数のベクトル。平均が 0 に調整されている。
Lasso の推定量は、λ > 0 のもとで
ˆβ(Lasso) = arg min
β
||y − Xβ||2
+ λ|β|1 , |β|1 =
p
j=1
|βj| (12)
または、
ˆβ(lasso) = arg min
β
||y − Xβ||2
, subject to
p
j=1
|βj| ≤ t. (13)
32 / 66
35. Lasso - L1 正則化
p=2 の場合の Lasso の性質
簡単のため、説明変数の個数を 2 つとする
説明変数を x1, x2 とし、相関係数を xT
1 x2 = ρ とする。
ここで、ˆβ1(ols) > 0, ˆβ2(ols) > 0 とすると、Lasso の推定量は、(13)
から、以下のように得られる。
ˆβ1 = ˆβ1(ols) −
λ
2(1 + ρ) +
ˆβ2 = ˆβ2(ols) −
λ
2(1 + ρ) +
ただじ、x+ は x > 0 のとき x、x ≤ 0 のとき 0 とする。
Lasso は各回帰係数を同じ大きさだけ減らして推定する。
減らした結果 0 以下になった推定量を 0 にする。
λ の値によって、縮小推定をしながら、変数選択をする性質を持つ。
33 / 66
36. Lasso - L1 正則化
p=2 の場合の Lasso の性質
上のスライドの結果と ˆβ1 + ˆβ2 = t を用いると、ρ を式から消去す
ることができて、Lasso の推定量は
ˆβ1(lasso) =
t
2
+
ˆβ1(ols) − ˆβ2(ols)
2
+
ˆβ2(lasso) =
t
2
−
ˆβ1(ols) − ˆβ2(ols)
2
+
Lasso の推定量は説明変数間の相関の影響を受けない
34 / 66
37. Lasso - L1 正則化
Ridge 回帰の場合
p = 2 の場合の、リッジ回帰の推定量は
ˆβ1 =
1
(1 + λ)2 − ρ2
(1 + λ − ρ2
)ˆβ1(ols) + λρˆβ2(ols)
ˆβ2 =
1
(1 + λ)2 − ρ2
λρˆβ1(ols) + (1 + λ − ρ2
)ˆβ2(ols)
Ridge 回帰の推定量は変数間の相関に影響される.
35 / 66
38. Lasso - ベイズ的な解釈
Lasso のベイズ的な解釈
Lasso の推定量は、βj の事前分布にラプラス分布を仮定。
f(βj) =
1
2τ
exp −
|βj|
τ
Figure: 2 重指数分布と正規分布のプロット (0.26,1.74 で交わる)
36 / 66
39. Lasso - Least Angle Regression
Lasso を解くためのアルゴリズム:LARS 法
Lasso を数値に解くことためには、計算コストが大きく
O(2p)(指数時間)である (Tibshirani 1996)
Lasso が扱う問題は p が大きい事例が多いので、指数的に計
算量が大きくなる方法では対応できない。
LARS(Efron 2004) のアルゴリズムは計算コスト O(p3 + np2)
(多項式時間)で解くことができる。
LARS : Least Angle Regression
詳しくは卒論に書いてありますが、今回は紹介に留めます。
37 / 66
41. Lasso の課題
Lasso の問題点
p ≫ n 問題 (West et al. 2001):p ≫ n の状況において、説明
変数が p 個あった場合でも、Lasso が選択できる説明変数の個
数は n 個である(分散共分散行列のランクが n になるため)。
グループ化効果がない:Lasso は変数間の相関を考慮できな
い。高い相関を持ついくつかの変数があるとき、それらをグ
ループ化された変数とよび、Lasso は、その中から 1 つしか
モデルに取り込むことはできない。
n > p での問題:説明変数間の相関が高い場合には、グルー
プ化変数を無視する性質によってリッジ回帰よりも予測精度
が悪くなることがある。
39 / 66
42. Lasso の課題
Lasso が課題になる具体的な例
白血病の人の遺伝子データ, Golub et al. Science(1999)。
データのサンプル数 72 個, 説明変数の数 7129 個.(p ≫ n
問題)
遺伝子データでは、一般的に p ≈ 10000 で、サンプル数
n < 100 である。
遺伝子データでは、一般的に遺伝子同士の結合 (”Pathway”)
が似通っていることから、説明変数同士の相関が高いことが
多く、グループ化された変数が存在する。
→ 解決策の1つとして、(Na¨ıve) Elastic Net がある。
40 / 66
43. 導入 - 回帰モデルとは何か?
線形回帰モデル, 変数選択法, 縮小推定法
Lasso - L1 型正則化による、縮小推定と変数選択
Elastic Net - Lasso に変わる新たな手法
まとめ
今後の研究について
41 / 66
44. Elastic Net
定義 (Na¨ıve Elastic Net : Na¨ıve ENet)
λ1 > 0, λ2 > 0 として、
ˆβ(Naive ENet) = arg min
β
||y − Xβ||2
+ λ2||β||2
+ λ1|β|1
または、0 ≤ α ≤ 1 として、これと同値な式
ˆβ(Naive ENet) = arg min
β
||y −Xβ||2
, s.t. (1−α)|β|1 +α||β||2
≤ t (14)
を Na¨ıve ENet の推定量と定義する。
Na¨ıve ENet の特徴
λ1 → 0 とするとリッジ回帰.λ2 → 0 とすると Lasso になる.
推定量の計算は、次のスライドのように定義の式を変形すること
で Lasso と同様に LARS で解くことができる。
42 / 66
45. Elastic Net
Na¨ıve ENet の解法
まず、以下のように X∗
と、y∗
を定義する。
X∗
(n+p)×p = (1 + λ2)−1/2 X√
λ2Ip
y∗
(n+p) =
y
0
(15)
ここで、γ = λ1/ (1 + λ2), β∗
= (1 + λ2)β とすると、次が成り立つ
ため Lasso 同様に LARS 法で解くことができる。
ˆβ(Naive ENet) = arg min
β
||y∗
− X∗
β∗
||2
+ γ|β∗
|1
以上より、
ˆβ(Naive ENet) =
1
√
1 + λ2
ˆβ∗
(15) から、X のランクが p になり、p ≫ n 問題を解消できること
が示される。
43 / 66
46. Elastic Net 続き : グループ化効果
一般的に罰則付きの最小 2 乗推定量は、J(β) を罰則項として次のように表される。
ˆβ = arg min
β
|y − Xβ|2
+ λJ(β) (16)
ここで、β = (β1, · · · , βi, · · · , βj, · · · , βp)、β
′
= (β1, · · · , βj, · · · , βi, · · · , βp) とし
て、J(β) = J(β
′
) が成立することを仮定する。すると、次の補題が示せる。
補題
xi = xj (i, j ∈ 1, 2, · · · , p) であると仮定する。
(a) J(·) が狭義凸関数であるならば、 ˆβi = ˆβj が全ての λ > 0 に対して成り立つ。
(b) J(β) = |β|1 であるならば、ˆβi
ˆβj ≥ 0 かつ、 ˆβ∗ は方程式 (7) の異なる最小の値であ
り、全ての s ∈ [0, 1] に対して、以下が成立する。
ˆβ∗
k =
⎧
⎨
⎩
ˆβk if k ̸= i and k ̸= j,
(ˆβi + ˆβj) · (s) if k = i
(ˆβi + ˆβj) · (1 − s) if k = j
→ Lasso の罰則はグループ化効果を持たないことが示せる。一方の Elastic Net の罰則は
グループ化効果を持つことが示唆される。
44 / 66
47. Elastic Net 続き : グループ化効果
定理
データセット (y, X) とパラメータ (λ1, λ2) が与えられたとき、
ˆβ(λ1, λ2) を Na¨ıve elastic net の推定量とする。ここで、
ˆβi(λ1, λ2)ˆβj(λ1, λ2) > 0 と仮定し、以下で Dλ1,λ2 (i, j) を定義
する。
Dλ1,λ2 (i, j) =
1
|y|1
|ˆβi(λ1, λ2) − ˆβj(λ1, λ2)|
このとき、ρ = xT
i xj(xi と xj の相関係数) とすると、以下が成り
立つ。
Dλ1,λ2 (i, j) ≤
1
λ2
2(1 − ρ)
相関係数によって係数の差の絶対値は押さえ込まれる。ρ = 1
とすると、2 つの回帰係数の推定量が一致することがわかる。
→ Na¨ıve ENet はグループ化効果を持つ。
45 / 66
48. Elastic Net 続き
Na¨ıve ENet の課題と Elastic Net の定義
課題:経験的に、Na¨ıve ENet は良いパフォーマンス示さない
ことが知られている。
原因:リッジ回帰と Lasso のによって、回帰係数の推定値が
2 重に縮小されているため。
対処:リッジ回帰の回帰係数の縮小分である 1/(1 + λ2) をリ
スケーリングで解消。
以下を、Elastic Net の推定値とする。
ˆβ (ENet) = (1 + λ2) ˆβ (Na¨ıve ENet) (17)
→ 具体的な解析結果へ
46 / 66
49. 補足|リッジ回帰の作用素
リッジ回帰の作用素の性質
リッジ回帰の作用素 R.
R = (XT
X + λ2I)−1
XT
ここで、XT X が相関行列なので、R は次式
R =
1
1 + λ2
R∗
=
1
1 + λ2
⎛
⎜
⎜
⎝
1 ρ12
1+λ2
· · ·
ρ1p
1+λ2
1 · · · · · ·
1
ρp−1,p
1+λ2
1
⎞
⎟
⎟
⎠
−1
XT
(18)
λ を大きくすれば、単回帰に近づくことがわかる。
47 / 66
50. Elastic Net : 例:前立腺がんのデータ
Figure: Erastic Net | λ = 1 として、elastic net を実行した結果
48 / 66
51. Elastic Net : 例:前立腺がんのデータ
Figure: Erastic Net | λ = 100 として、elastic net を実行した結果
49 / 66
52. Elastic Net : 例:前立腺がんのデータ
Figure: Erastic Net | λ = 0.01 として、elastic net を実行した結果
50 / 66
53. 相関行列に関係する
lcavol lweight age lbph svi lcp gleason pgg45
lpsa 0.73 0.49 0.23 0.26 0.56 0.49 0.34 0.45
lcavol lweight age lbph svi lcp gleason pgg45
lcavol 1.00 0.30 0.29 0.06 0.59 0.69 0.43 0.48
lweight 0.30 1.00 0.32 0.44 0.18 0.16 0.02 0.07
age 0.29 0.32 1.00 0.29 0.13 0.17 0.37 0.28
lbph 0.06 0.44 0.29 1.00 -0.14 -0.09 0.03 -0.03
svi 0.59 0.18 0.13 -0.14 1.00 0.67 0.31 0.48
lcp 0.69 0.16 0.17 -0.09 0.67 1.00 0.48 0.66
gleason 0.43 0.02 0.37 0.03 0.31 0.48 1.00 0.76
pgg45 0.48 0.07 0.28 -0.03 0.48 0.66 0.76 1.00
51 / 66
54. 具体的な解析:前立腺がんのデータより
8 つの臨床的尺度を説明変数。目的変数は前立腺のある抗体
の量の対数をとったもの。
Table: 前立腺がんのデータ:各方法別の比較
Method Parameter Test Prediction Error Variables Selectied
OLS 0.522 すべて
リッジ回帰 λ = 1 0.517 すべて
Lasso s = 0.35 0.471 (1,2,4,5,8)
Na¨ıve elastic net λ = 1, s = 0.74 0.450 (1,2,4,5,6,7,8)
Elastic net λ = 1000, s = 0.18 0.349 (1,2,5,6,8)
λ はリッジの罰則の重みを表し、s は LASSO の罰則の重みを
表している。また、λ > 0、0 < s < 1 である。
このケースにおいては、Elastic Net は他のどの方法よりも優
れた結果を残している。
52 / 66
60. 音声データの解析結果
解析結果:音声データの特徴の抽出
変数増加法は、音声の特徴をうまく抽出できていない。
LASSO, (Na¨ıve) ENet は音声の特徴を抽出しているが、
LASSO はグループ化効果を持たないため、特徴に取りこぼ
しがある。
ENet, Na¨ıve ENet は特徴をを取りこぼしなくモデルに取り込
んでいる。
Table: 音素解析:用いた 4 つの変数選択法で選択された変数
手法 選択された変数
変数増加法 2 4 8 9 12 13 21 22 30 32 38 40 41 42 48 55 56 58 60 63 67 71 77 80 122 124 153
154 159 161 176 180 182 185 187 197 200 201 204 218 224 226 227 231 242 251 256
Lasso 4 23 37 40 42 43 44 45 47 48 49 53 59 62 63 64 65 93 103 132
141 152 167 184 211 222 223 231 234 235 238 241
Na¨ıve elastic net 9 19 23 26 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56
57 58 59 60 61 62 63 64 65 66 69 85 92 100 109 224 227 228 231 247
Elastic net 4 23 37 38 39 40 41 42 43 44 45 46 47 48 49 52 53 54 55 56 57 58 59 60 61 62 63 64
65 79 221 223 231 232 234 236 246 251 253 254 255 256
58 / 66
62. 導入 - 回帰モデルとは何か?
線形回帰モデル, 変数選択法, 縮小推定法
Lasso - L1 型正則化による、縮小推定と変数選択
Elastic Net - Lasso に変わる新たな手法
まとめ
今後の研究について
60 / 66
63. まとめ
今回は、回帰の基本的なお話から、L1 正則化法までをお話し
しました。
L1 正則化が本格的に使われ始めたのは、LARS(Efron et., al
2004) のアルゴリズムがつくられた以降で、未だ発展段階。
L1 正則化は、「変数の選択」と「予測精度の向上」の両方を
同時に達成する手法で解釈可能なモデルを与えるという点が
優れている。
一方で、課題も存在しており計算量の多さと、「チューニング
パラメータ」の選択法については未だ定まった方法はない。
今後、上記のような課題は抱えつつも、優れた側面を持つ L1
正則化は現場で遺伝子の発現解析や、マーケティングデータ
の予測への応用が期待されている。
また L1 正則化には、様々な応用手法が提案されており、興味
のある方は Regression Shrinkage and selection via the lasso:
a retrospective(Tibshirani 2011) に概要が記されている。
61 / 66
64. 導入 - 回帰モデルとは何か?
線形回帰モデル, 変数選択法, 縮小推定法
Lasso - L1 型正則化による、縮小推定と変数選択
Elastic Net - Lasso に変わる新たな手法
まとめ
今後の研究について
62 / 66
66. 参考文献
B. Efron, T. Hastie, I. Johnstone, R. Tibshirani (2004).
LEAST ANGLE REGRESSION
H. Zou and T. Hastie (2005). Regularization and variable
selection via the elastic net
H. Zou, T. Hastie, and R. Tibshirani (2006). Sparse principal
component analysis.
R. Tibshirani (1996). Regression Shrinkage and Selection via
the Lasso
T. Hastie, R. Tibshirani, J. Friedman (2009). The Elements
of Statistical Learning 2nd Edition
G. James, D. Witten, T. Hastie R. Tibshirani (2014). An
Introduction to Statistical Learning
64 / 66