20140512_水曜セミナードラフトv1

モデルの予測精度と解釈を巡る話題
L1 正則化による変数選択と縮小推定法
中村知繁
慶應義塾大学大学院理工学研究科 M1(南研)
May 12, 2014

目次
イントロダクション - 研究背景
Lasso - L1 型正則化による、縮小推定と変数選択
Elastic Net - Lasso に変わる新たな手法
SPCA - スパース主成分分析
まとめ
今後の研究について
2 / 91

文献
B. Efron, T. Hastie, I. Johnstone, R. Tibshirani (2004). LEAST
ANGLE REGRESSION
H. Zou and T. Hastie (2005). Regularization and variable selection
via the elastic net
H. Zou, T. Hastie, and R. Tibshirani (2006). Sparse principal
component analysis.
R. Tibshirani (1996). Regression Shrinkage and Selection via the
Lasso
T. Hastie, R. Tibshirani, J. Friedman (2009). The Elements of
Statistical Learning 2nd Edition
G. James, D. Witten, T. Hastie R. Tibshirani (2014). An
Introduction to Statistical Learning
3 / 91

まとめ
4 / 91

研究背景 — モチベーション
まず、回帰モデルの導入の内容のイメージを共有するために、以下に例
を列挙する。
気温、放射量、風速によってオゾン濃度の変化をモデル化する。
ワインの成分から、ワインの質を予測する
前立腺がんになりやすいリスク因子を特定する
log-priodgram に基づいて、音声を分離する
過去のマーケティングデータから、時期の売り上げを予測する
心臓病のリスクを、人の属性・食事・医学的な尺度から予測する。
5 / 91

研究背景 — 教師あり学習問題
予測したい変数：目的変数 Y
Y を説明する変数：説明変数 Xn×p = (X1, ..., Xp)
回帰問題においては、Y は量的な変数である。（ex. 価格, 血圧,
など）
判別問題においては、Y は有限な集合の中の値を取る。（ex. 生存/
死亡, 細胞サンプルの種類など）
教師データ（トレーニングデータ）が (x1, y1), · · · , (xN , yN ) と与
えられる。これらは、上のような変数の観測値。
6 / 91

研究背景｜目的
これらの教師データに基づいて、以下のようなことを試みる：
未知のテストケースを精度よく予測する。
結果に対して、どの変数が、どのように影響しているのかを
理解する。
予測と推論の質を、評価する。
7 / 91

研究背景｜例
オゾンの濃度に対して、気温、風速、太陽からの放射量がどのように影
響するのかをモデル化する。（ソース：1973 年 5 月 9 月のニューヨーク
のオゾン濃度と起床変数の関係）
8 / 91

研究背景｜例
オゾン濃度 vs 風速、日最高気温、日光放射線量で単回帰を行った結果。
緑の線は回帰直線。これらの 3 つの変数を同時に用いれば、より良いモ
デルが構築できる可能性がある。そこで、以下のようにモデルを構築
する。
ozone ≈ f(wind, radiation, temperature) (1)
Figure: ozone 濃度を、各変数毎に単回帰した。
9 / 91

研究背景｜例
ここで、ozone は目的変数で、予測する対象である。一般的には Y を用
いて表す。
一方で、wind, radiation, temperature は”特徴ベクトル”, ”入力”, ”説明
変数”となる。これらを X = (X1, X2, X3) と表す。すると、モデルは以
下のように表せる。
Y = f(X) + ε (2)
と表すことができる。ここで、ε は誤差ベクトルで、一般的には平均 0、
分散 σ2
の正規分布に従うと仮定する。
10 / 91

研究背景｜ f(X) の評価基準 1
f(X) が良いモデルであれば、新たな入力 X = xnew に対して、Y
を予測することができるようになる。
X の要素のうち、Y を表すために重要な要素と、逆に関係ない要
素を理解できる。
f の複雑性に依存するが、Y に対して、どの要素が強く影響してい
るのかを理解することは（一応）できる。
11 / 91

理想的な f(X) とは何か？特に、X が与えられたときの、f(X) の値と
して何が妥当なのかを考える。上記の図において X = 4 に対して Y が
取りうる値として妥当なものは、以下であることがわかる。
f(4) = E(Y |X = 4) (3)
そして、このような f(X) = E(Y |X = x) を回帰関数と呼ぶ。
Figure: ozone 濃度を、各変数毎に単回帰した。
12 / 91

回帰関数 f(X) は、平均自乗予測誤差に基づく、Y の最適な/理想
の予測量である。即ち、f(X) = E(Y |X = x) が、全ての関数 g の
中で、E[(Y − g(X))2
|X = x] 最小にする関数である。
ε = Y − f(x) は、これ以上小さくできない最小の誤差を表す。即
ち、仮に f(x) がわかったとしても、予測には誤差が伴うことを意
味する。これは、X = x であるときに観測される Y の実現値は一
般的に分布から得られるためである。
全ての f(x) の推定量 ˆf(x) に対して、
E[(Y − ˆf(X))2
|X = x] = [f(x) − ˆf(x)]2
+ V ar(ε) (4)
となり、1 項目はいくらでも小さくすることができるが、第 2 項は
小さくすることができない。
13 / 91

研究背景｜線形回帰モデル
線形回帰モデルは、以下のようなモデルである。
fL(X) = β0 + β1X1 + · · · + βpXp (5)
線形回帰モデルは、p + 1 個のパラメータ β1, β2, · · · , βp によって
特徴付けられるモデルである。
教師データに対して、モデルを当てはめることでパラメータ
β1, β2, · · · , βp を推定する
線形回帰モデルは（未知の）真のモデルの解釈可能な近似としての
役割を果たすが、真の正しいモデルは（ほとんどの場合）与えない。
14 / 91

研究背景｜線形回帰モデル (例)
Figure: 上図は線形モデル ˆfL(X) = ˆβ0 + ˆβ1X を当てはめた結果．下図
は 3 次のモデル ˆfC(X) = ˆβ0 + ˆβ1X + β2X2
+ ˆβ3X3
を当てはめた結果
15 / 91

研究背景｜より柔軟なモデル (例)
Figure: モデルは ˆf30(X) = ˆβ0 + ˆβ1X + ˆβ2X2
+ ˆβ3X3
+ · · · + ˆβ30X30
を
当てはめた結果
16 / 91

研究背景｜トレードオフ
予測精度 vs モデルの解釈
- 線形モデルはモデルの解釈が容易であるが、高次元モデルを用い
た場合解釈が難しくになる。
- 一方で予測精度は、後者の方が（一般的に）高い（※汎化能力に
ついては、次元の呪いは考慮する必要がある）。
”Good Fit” vs Over-ﬁt, Under-ﬁt
- 正しく当てはまっていることを、どのようにして確認するか？
簡素なモデル vs 変数が多いモデル
- 全ての変数を用いた変数が多いモデルで予測するよりも、少ない
変数のみを含む単純なモデルの方を好む場合がある。
17 / 91

研究背景｜トレードオフ
Figure: Hastie, Tibshirani(2009), Interpretability vs Flexibility
18 / 91

研究背景｜モデル精度の評価
教師データ Tr= {xi, yi}N
1 にモデル ˆf(x) を当てはめたとき、
パフォーマンスを以下のように測ることにする
Tr について、平均自乗誤差を計算することができる。
MSET r = Avei∈T r[yi − ˆf(xi)]2
(6)
しかしながら、この結果は Over-ﬁt したモデルにより
大きなバイアスがかかっている。
そこで、可能ならば、新たなテストデータ Te= {xi, yi}M
1 に対し
て、以下を計算する。
MSET e = Avei∈T e[yi − ˆf(xi)]2
(7)
19 / 91

研究背景｜モデル精度の評価
Figure: 黒の曲線が真のモデル; 左図は柔軟性に応じた当てはめ曲線の変
化を表す。右図は柔軟性を変化させた際の MSE の大きさを表す。黒色
の線が Tr への当てはめ結果、赤色の線が Te への当てはめ結果である。
20 / 91

研究背景｜モチベーション
複雑で予測精度の良いものより、解釈可能な簡素なモデルが好ま
れることがある。
今後は高次元データがどんどん増えて、データの次元は大きく
なる。
目的変数と説明変数の関係性を、簡素なモデルで記述することに
は価値が出てくる。
その解決策の 1 つである、L1 正則化について研究したのが卒業
論文。
ただし主に、線形回帰モデルに焦点を当てる。
その他の方法への拡張（多項回帰や、ロジスティック回帰、主成分
分析、カーネル法）は扱っていないが、一般に拡張可能。
時間が許せば、主成分分析への拡張を扱う。
21 / 91

一般的に線形回帰法は目的変数 Yn×1 を、説明変数 Xn×p = (X1, ..., Xp)
の線形結合で説明する方法である。
f(X) = β0 +
p
j=i
Xjβj (8)
一般に、教師データが与えられたとき、パラメータ β の推定量は、最小
自乗法によって求められる。最小自乗法は、残差二乗和（RSS）を最小
にする方法である。残差二乗和は、
RSS(β) =
N
i=1
(yi − f(xi))
=
N
i=1
⎛
⎝yi − β0 −
p
j=1
xijβj
⎞
⎠
2
= (y − Xβ)T
(y − Xβ)
22 / 91

よって、β の推定量である ˆβ は、RSS(β) を β で偏微分したものを 0 と
おけばよく、結果は以下のようになる。これを「最小自乗推定量
（OLSE）」と呼ぶ。
ˆβ = (XT
X)−1
XT
y (9)
よって、Y の推定量は、この β を用いて
ˆy = X ˆβ = X(XT
X)−1
XT
y = Hy (10)
と表せる。ここで、H は X の張る線形部分空間への射影行列である。
(補足) ベイズ的解釈では、最小自乗法は、β は無情報事前分布、
Y |β ∼ N(Xβ, σ2
) のもとでの β|Y, X の事後分布最大化と解釈できる。
すると、事後分布の最大化問題は Y |β の最尤推定問題に帰着し、結果は
一致する。
23 / 91

この他、OLS 推定量に対しては、その推定量の有意性を確かめるための
t 検定や、F 検定、更には推定値の信頼区間、また回帰係数の推定値が満
たす性質であるガウス-マルコフの定理などがあるがここでは割愛する。
24 / 91

研究背景｜例：前立腺ガンデータ
説明変数。目的変数は前立腺のある抗体の量の対数をとったもの。
目的変数：前立腺のある抗体の量の対数をとったもの
説明変数：8 つの臨床的な尺度（腫瘍の重さなど）
25 / 91

研究背景｜例：前立腺ガンデータ
回帰した結果は、以下のようになる。
有意な変数は lcavol, lweight, svi である。
これ以外は t 検定の結果、有意ではない。
Figure: 回帰した結果
26 / 91

研究背景｜回帰モデルの重要な視点
最小自乗推定量では、十分ではない大きな 2 つの理由.
モデル解釈の側面：変数の数が非常に大きい場合には、強い影響を
持つ、いくつかの変数でモデルを構築したいと考える。細かな部
分を切り捨て、外観を捉えることを考える。
→変数選択法（subset selection）
モデルの予測精度：最小自乗推定量は、一般的にバイアスが小さい
が、分散は大きくなる傾向がある。そこで、小さなバイアスを犠牲
にして、分散を大きく下げることを考える。
→縮小推定法（Shrinkage Method）
27 / 91

研究背景｜ Subset Selection
変数選択法（Subset Selection）
概要
最良変数選択法（Best Subset Selection）
変数増加法（Forward Stepwise Selection）
変数増減法（Forward and Backward Stepwise Selection）
FS 法（Forward Stagepwise Selection）
28 / 91

研究背景｜変数選択法
以下では、一般的な線形回帰モデルを考える。
最良変数選択法
全ての変数の組み合わせのモデルに対して、AIC を計算しその中で
最も小さいモデルを選択する方法。ただし、計算量の問題がある。
p ≈ 40 が限界。組み合わせ数は 1012
になる。
変数増加（減少）法
変数増加法は、まず null モデルから始めて、ある基準に基づいて、
変数を 1 つずつ加えていく手法。変数減少法は Full モデルから始め
て、ある基準に基づいて、変数を 1 つずつ削っていく手法である。
基準としては、F 値, AIC, マローズ Cp 基準などが使われることが
多い。
29 / 91

研究背景｜変数選択法
変数増減法
変数増加法、減少法を組み合わせた手法で、上記の手法の改良版。
最初は null モデルからスタートして増加法を用いた後、次に減少
法を用いる。これを繰り返して、収束するまで続ける方法。
FS 法
上記のような変数を取り込む・削るというプロセスではなく、null
モデルから始めて、目的変数と相関の大きい変数の回帰係数を決
められた大きさのステップに従って増加・減少させる。
30 / 91

研究背景｜ Shrinkage Method
Shrinkage Method（縮小推定法）
概要
リッジ回帰（L2 正則化法）
31 / 91

研究背景｜ Shrinkage Method
変数選択法は、変数を捨てることで「解釈可能な」モデルを提供
する。
結果的に、予測精度は向上するが、推定値の分散は大きいままで
ある．
この理由は、変数選択法が非連続的なプロセスであるためである。
縮小推定は、バイアスを少し増加させ、推定値の分散を下げる．
これにより、推定精度を改善する方法．
32 / 91

研究背景｜ Ridge Regression
Hoerl and Lennnard(1970) で提案された手法。元々は、回帰係数を求め
る際に XT
X が不安定である場合の問題を解消するために、XT
X を
XT
X + λI に置き換えるというアイデアから生まれた。
ˆβ = (XT
X)−1
XT
y → ˆβridge = (XT
X + λI)−1
XT
y (11)
この推定量は、残差二乗和にペナルティー（正則化項）を付けることに
対応する。
ˆβridge = arg min
β
⎧
⎪⎨
⎪⎩
N
i=1
⎛
⎝yi − β0 −
p
j=1
xijβj
⎞
⎠
2
+ λ
p
j=1
β2
j
⎫
⎪⎬
⎪⎭
= arg min
β
(y − Xβ)T
(y − Xβ) + λ||β||2
2 (12)
33 / 91

これと同等な式として以下がある。ここで λ と t は 1 対 1 に対応する
（ただし、
p
j=1 βols
j < t の場合は除く）。
ˆβridge = arg min
β
||y − Xβ||2
, subject to
p
j=1
β2
j ≤ t. (13)
（補足:ベイズ的な解釈）
リッジ回帰は、尤度 yi|β ∼ N(β0 + xiβ, σ2
)、事前分布 β ∼ N(0, τ2
) と
したとき、事後分布 β|y の最大化問題に対応する。また、λ = σ2
/τ2
で
ある。
34 / 91

より、詳しくリッジ回帰の性質を確認するために、X の特異値分解
X = UDV を考える。ここで、U : N × p, V : p × p とすれば、U の列
ベクトルは X の列空間、V の列ベクトルは行空間に張っている。
D : p × p の対角行列で、その対角成分は d11 ≥ d22 ≥ · · · ≥ dpp ≥ 0 で
ある。すると、
ˆβols = X(XT
X)−1
XT
y
= UUT
y
=
p
j=1
ujuT
j y
ˆβridge = X(XT
X + λI)−1
XT
y
= UD(D2
+ λI)DUT
y
=
p
j=1
uj
d2
j
d2
j + λ
uT
j y
35 / 91

リッジ回帰が回帰係数を縮小推定していることがわかる。
縮小推定の性質
XT
X = V D2
V T
において、vj は行列 X の第 j 番目の主成分で
ある。
主成分方向に縮小を行い、分散が小さい方向ほど大きな縮小がか
かるというのがリッジ回帰である。
36 / 91

研究背景｜まとめ
一般的に線形回帰法は目的変数 Yn×1 を、説明変数 Xn×p = (X1, ..., Xp)
の線形結合で説明する方法である。このような方法のうち最も基本的な
ものの１つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係
数の推定値 (OLS 推定量) は以下のように表される。
ˆβ(OLS) = (XT
X)−1
XT
y (14)
回帰における重要な 2 つの視点
データの予測精度 - 学習データで構築したモデルが、未知のデー
タが得られたとき、結果をどの程度の精度で予測できるか。
モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的
変数に対して影響の大きい説明変数のみで、モデルを構築できて
いるか。
一般的に、OLS 推定量は両方の面で優れていない。→ 改善策
37 / 91

研究背景｜まとめ
予測精度の向上
リッジ回帰：回帰係数の L2 ノルムの 2 乗に制約を加え、残
差二乗和を最小化する
利点：回帰係数を縮小推定することで予測精度が向上する
欠点：説明変数をすべてモデルに取り込む
説明変数の選択
変数増加法・変数減少法・最良変数選択法：AIC などを基準
にして、逐次説明変数を選択しモデルを構築する。
利点：説明変数が少ないモデルを構築することができる。
欠点：連続的な説明変数の選択ができない。
欠点：計算コストが大きい。
38 / 91

まとめ
39 / 91

Lasso
Lasso とは
Lasso：Least Absolute Shrinkage and Selection Operator
Tibshirani(1996)
回帰係数の L1 ノルムに制約を課したもとで、残差二乗和を
最小化する。
特徴
回帰係数を縮小推定し、その過程で変数の選択を行う。
回帰法の 2 つの重要な視点を同時に満たすような手法の 1 つ。
40 / 91

Lasso 続き
定義 (Lasso)
Xn×p は説明変数の行列。説明変数はそれぞれ標準化されている。
yn×1 は目的変数のベクトル。平均が 0 に調整されている。
Lasso の推定量は、λ > 0 のもとで
ˆβ(Lasso) = arg min
β
||y − Xβ||2
+ λ|β|1 , |β|1 =
p
j=1
|βj| (15)
または、
ˆβ(lasso) = arg min
β
||y − Xβ||2
, subject to
p
j=1
|βj| ≤ t. (16)
λ と t は 1 対 1 に対応する。Osborne(2000）
41 / 91

Lasso 続き
p=2 の場合の Lasso の性質
簡単のため、説明変数の個数を 2 つとする
説明変数を x1, x2 とし、相関係数を xT
1 x2 = ρ とする。
ここで、ˆβ1(ols) > 0, ˆβ2(ols) > 0 とすると、Lasso の推定量は、(16)
から、以下のように得られる。
ˆβ1 = ˆβ1(ols) −
λ
2(1 + ρ) +
ˆβ2 = ˆβ2(ols) −
λ
2(1 + ρ) +
ただじ、x+ は x > 0 のとき x、x ≤ 0 のとき 0 とする。
Lasso は各回帰係数を同じ大きさだけ減らして推定する。
減らした結果 0 以下になった推定量を 0 にする。
λ の値によって、縮小推定をしながら、変数選択をする性質を持つ。
42 / 91

Lasso 続き
p=2 の場合の Lasso の性質
上のスライドの結果と ˆβ1 + ˆβ2 = t を用いると、ρ を式から消去す
ることができて、Lasso の推定量は
ˆβ1(lasso) =
t
2
+
ˆβ1(ols) − ˆβ2(ols)
2
+
ˆβ2(lasso) =
t
2
−
ˆβ1(ols) − ˆβ2(ols)
2
+
Lasso の推定量は説明変数間の相関の影響を受けない
43 / 91

Lasso 続き
Lasso を解くためのアルゴリズム：LARS 法
Lasso を数値に解くことためには、計算コストが大きく
O(2p)（指数時間）である (Tibshirani 1996)
Lasso が扱う問題は p が大きい事例が多いので、指数的に計
算量が大きくなる方法では対応できない。
LARS(Efron 2004) のアルゴリズムは計算コスト O(p3 + np2)
（多項式時間）で解くことができる。
LARS : Least Angle Regression
詳しくは卒論に書いてありますが、ここでは紹介に留めます。
44 / 91

Lasso 続き
シュミレーション : Lasso の性質の確認
以下に従う、2 つの独立な乱数を 100 個生成する。
z1 ∼ U(0, 20) z2 ∼ U(0, 20)
これらの潜在的な変数を用いて、観測された説明変数を次のよう
に定義する。
x1 = z1 + ϵ1 x2 = −z1 + ϵ2 x3 = z1 + ϵ3
x4 = z2 + ϵ4 x5 = −z2 + ϵ5 x6 = z2 + ϵ6
また、目的変数ベクトルを y = z1 + 0.1 × z2 + ϵ7 とする
ϵi は観測誤差である。標準正規分布から、乱数を 100 個生成した。
データ (X, y) に Lasso を当てはめて推定値求めると次の図になる。
45 / 91

Lasso 続き : シュミレーション結果
Figure: 左図:Lasso の解のパス図：横軸は |β|1/ max |β|1 の大きさ (制約
の大きさ)、縦軸は回帰係数の推定量
46 / 91

Lasso の課題
Lasso の問題点
p ≫ n 問題 (West et al. 2001)：p ≫ n の状況において、説明
変数が p 個あった場合でも、Lasso が選択できる説明変数の個
数は n 個である（分散共分散行列のランクが n になるため）。
グループ化効果がない：Lasso は変数間の相関を考慮できな
い。高い相関を持ついくつかの変数があるとき、それらをグ
ループ化された変数とよび、Lasso は、その中から 1 つしか
モデルに取り込むことはできない。
n > p での問題：説明変数間の相関が高い場合には、グルー
プ化変数を無視する性質によってリッジ回帰よりも予測精度
が悪くなることがある。
47 / 91

Lasso の課題続き
Lasso が課題になる具体的な例
白血病の人の遺伝子データ, Golub et al. Science(1999)。
データのサンプル数 72 個, 説明変数の数 7129 個．(p ≫ n
問題)
遺伝子データでは、一般的に p ≈ 10000 で、サンプル数
n < 100 である。
遺伝子データでは、一般的に遺伝子同士の結合 (”Pathway”)
が似通っていることから、説明変数同士の相関が高いことが
多く、グループ化された変数が存在する。
→ 解決策の１つとして、(Na¨ıve) Elastic Net がある。
48 / 91

まとめ
49 / 91

Elastic Net
定義 (Na¨ıve Elastic Net : Na¨ıve ENet)
λ1 > 0, λ2 > 0 として、
ˆβ(Naive ENet) = arg min
β
||y − Xβ||2
+ λ2||β||2
+ λ1|β|1
または、0 ≤ α ≤ 1 として、これと同値な式
β
||y −Xβ||2
, s.t. (1−α)|β|1 +α||β||2
≤ t (17)
を Na¨ıve ENet の推定量と定義する。
Na¨ıve ENet の特徴
λ1 → 0 とするとリッジ回帰．λ2 → 0 とすると Lasso になる．
推定量の計算は、次のスライドのように定義の式を変形すること
で Lasso と同様に LARS で解くことができる。
50 / 91

Elastic Net 続き
Na¨ıve ENet の解法
まず、以下のように X∗
と、y∗
を定義する。
X∗
(n+p)×p = (1 + λ2)−1/2 X√
λ2Ip
y∗
(n+p) =
y
0
(18)
ここで、γ = λ1/ (1 + λ2), β∗
= (1 + λ2)β とすると、次が成り立つ
ため Lasso 同様に LARS 法で解くことができる。
β
||y∗
− X∗
β∗
||2
+ γ|β∗
|1
以上より、
ˆβ(Naive ENet) =
1
√
1 + λ2
ˆβ∗
(18) から、X のランクが p になり、p ≫ n 問題を解消できること
が示される。
51 / 91

Elastic Net 続き : グループ化効果
一般的に罰則付きの最小 2 乗推定量は、J(β) を罰則項として次のように表される。
ˆβ = arg min
β
|y − Xβ|2
+ λJ(β) (19)
ここで、β = (β1, · · · , βi, · · · , βj, · · · , βp)、β
′
= (β1, · · · , βj, · · · , βi, · · · , βp) とし
て、J(β) = J(β
′
) が成立することを仮定する。すると、次の補題が示せる。
補題
xi = xj (i, j ∈ 1, 2, · · · , p) であると仮定する。
(a) J(·) が狭義凸関数であるならば、 ˆβi = ˆβj が全ての λ > 0 に対して成り立つ。
(b) J(β) = |β|1 であるならば、ˆβi
ˆβj ≥ 0 かつ、 ˆβ∗ は方程式 (7) の異なる最小の値であ
り、全ての s ∈ [0, 1] に対して、以下が成立する。
ˆβ∗
k =
⎧
⎨
⎩
ˆβk if k ̸= i and k ̸= j,
(ˆβi + ˆβj) · (s) if k = i
(ˆβi + ˆβj) · (1 − s) if k = j
→ Lasso の罰則はグループ化効果を持たないことが示せる。一方の Elastic Net の罰則は
グループ化効果を持つことが示唆される。
52 / 91

Elastic Net 続き : グループ化効果
定理
データセット (y, X) とパラメータ (λ1, λ2) が与えられたとき、
ˆβ(λ1, λ2) を Na¨ıve elastic net の推定量とする。ここで、
ˆβi(λ1, λ2)ˆβj(λ1, λ2) > 0 と仮定し、以下で Dλ1,λ2 (i, j) を定義
する。
Dλ1,λ2 (i, j) =
1
|y|1
|ˆβi(λ1, λ2) − ˆβj(λ1, λ2)|
このとき、ρ = xT
i xj(xi と xj の相関係数) とすると、以下が成り
立つ。
Dλ1,λ2 (i, j) ≤
1
λ2
2(1 − ρ)
相関係数によって係数の差の絶対値は押さえ込まれる。ρ = 1
とすると、2 つの回帰係数の推定量が一致することがわかる。
→ Na¨ıve ENet はグループ化効果を持つ。
53 / 91

Elastic Net 続き : シュミレーション (続き)
Figure: 左:Lasso．右:Erastic Net — 横軸は |β|1/ max |β|1 の大きさ、縦
軸は回帰係数の推定量。Lasso には、グループ化効果は見て取れないが、
Elastic Net からはグループ化効果確認できる
54 / 91

Elastic Net 続き
Na¨ıve ENet の課題と Elastic Net の定義
課題：経験的に、Na¨ıve ENet は良いパフォーマンス示さない
ことが知られている。
原因：リッジ回帰と Lasso のによって、回帰係数の推定値が
2 重に縮小されているため。
対処：リッジ回帰の回帰係数の縮小分である 1/(1 + λ2) をリ
スケーリングで解消。
以下を、Elastic Net の推定値とする。
ˆβ (ENet) = (1 + λ2) ˆβ (Na¨ıve ENet) (20)
→ 具体的な解析結果へ
55 / 91

具体的な解析：前立腺がんのデータより
8 つの臨床的尺度を説明変数。目的変数は前立腺のある抗体
の量の対数をとったもの。
Table: 前立腺がんのデータ：各方法別の比較
Method Parameter Test Prediction Error Variables Selectied
OLS 0.522 すべて
リッジ回帰 λ = 1 0.517 すべて
Lasso s = 0.35 0.471 (1,2,4,5,8)
Na¨ıve elastic net λ = 1, s = 0.74 0.450 (1,2,4,5,6,7,8)
Elastic net λ = 1000, s = 0.18 0.349 (1,2,5,6,8)
λ はリッジの罰則の重みを表し、s は LASSO の罰則の重みを
表している。また、λ > 0、0 < s < 1 である。
このケースにおいては、Elastic Net は他のどの方法よりも優
れた結果を残している。
56 / 91

推定値のパス図
Figure: 左図:Lasso の解のパス図．右図:Elastic Net の解のパス図
57 / 91

音声認識への応用
音声認識とは
音素認識 (音声認識) は、ヒトの話す音声言語をコンピューターによって解析し、話
している内容を文字データとして取り出す方法。
具体的には、大量の発話を記録した学習用データから音声の特徴を蓄積し、入力さ
れた音声信号と、蓄積された特徴を比較して、最も特徴の近い文字を認識結果とし
て出力する
モチベーション
音素判別における課題：波形が類似している 2 つの音を分離する場合、分離精度が
悪くなる。
今回は機械で見分ける上で難しいとされる”aa”と”ao”という 2 つの音を、回帰法
によって分離する。その際、用いた手法の精度を比較と、特徴の抽出ができてい
るかを確認する。
用いる手法は、最小自乗法、リッジ回帰、変数増加法、LASSO、Elastic Net。
58 / 91

音声データの解析
データと解析手法
50 名の男性の連続的な発話から、”aa”の音声データと、”ao”の音
声データを抽出した、それぞれのサンプル数は 695 個と 1022 個で
ある。
説明変数は各周波数毎で、256 個ある。目的変数は以下のように
した。
Y =
1 (音声データが”aa”であるとき)
0 (音声データが”ao”であるとき)
各手法の分離精度は、”aa”と”ao”のデータをランダムに 4 分割し、
3 つを学習用データ、1 つをテスト用データとするクロスバリデー
ション法を用いて、平均正答率で測る。
また、特徴の抽出においては、全データを用いてモデルを構築する
際に取り込まれる説明変数を、そのモデルが取り込む選択する特
徴とした。
59 / 91

音声データの解析結果
解析結果：予測精度
解析結果を見ると、説明変数を選択する手法を用いた方が、
分離能力は向上することがわかる。
説明変数を選択する手法の中でも、変数増加法よりも
LASSO 及び、(Na¨ıve)ENet の方がより予測精度ではより良い
パフォーマンスを示している。
Table: 音素解析：方法別の結果比較
手法パラメータ正答率選択された変数の数
最小二乗法 0.698 すべて
変数増加法 0.768 47
リッジ回帰 λ = 2.0 0.704 すべて
Lasso s = 0.09 0.794 32
Na¨ıve elastic net λ = 1, s = 0.31 0.797 43
Elastic net λ = 1000, s = 0.30 0.808 42
60 / 91

音声データの特徴の抽出
特徴の抽出とは
特徴集合（説明変数）のうち、”意味のある”部分集合だけを選択する手法。今回のケース
では、音声のどの部分が分離する際のポイントとなる箇所をきちんとモデルに組み込めて
いるかをみている。
Figure: ”aa”と”ao”の音素の Log-Periodgram を 100 個ずつプロット
している。ここでは、40-70 の周波数の領域が音声データの特徴として
みることができる。
61 / 91

音声データの解析結果
解析結果：音声データの特徴の抽出
変数増加法は、音声の特徴をうまく抽出できていない。
LASSO, (Na¨ıve) ENet は音声の特徴を抽出しているが、
LASSO はグループ化効果を持たないため、特徴に取りこぼ
しがある。
ENet, Na¨ıve ENet は特徴をを取りこぼしなくモデルに取り込
んでいる。
Table: 音素解析：用いた 4 つの変数選択法で選択された変数
手法選択された変数
変数増加法 2 4 8 9 12 13 21 22 30 32 38 40 41 42 48 55 56 58 60 63 67 71 77 80 122 124 153
154 159 161 176 180 182 185 187 197 200 201 204 218 224 226 227 231 242 251 256
Lasso 4 23 37 40 42 43 44 45 47 48 49 53 59 62 63 64 65 93 103 132
141 152 167 184 211 222 223 231 234 235 238 241
Na¨ıve elastic net 9 19 23 26 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56
57 58 59 60 61 62 63 64 65 66 69 85 92 100 109 224 227 228 231 247
Elastic net 4 23 37 38 39 40 41 42 43 44 45 46 47 48 49 52 53 54 55 56 57 58 59 60 61 62 63 64
65 79 221 223 231 232 234 236 246 251 253 254 255 256
62 / 91

まとめ
63 / 91

Sparse Principal Component Analysis
Sparse Principal Component Analysis
スパース主成分分析
64 / 91

Background — Principal Component Analysis
主成分分析は、外的基準のない多次元データの基本的な解析
法（教師なし学習法の 1 つ）
p 個の変数がある場合に、それらの持つ情報をある m 個の合
成指標に縮約する手法の１つ。
実際の応用では、新たな合成指標の解釈を考えて、その解釈
をもとに個体の特徴を分析する。
例としては、よく 5 教科の試験の得点をもとに、学生を分類
する事例が出される。
この他、画像解析、遺伝子解析などのデータを分類・特徴づ
けする際に用いられている。
65 / 91

Background — Problem Principal Component Analysis
主成分分析の課題は、変数が多くなるときに軸の解釈が困難にな
ることがあげられる。
”Two Case Studies in the Application of Principal Component
Analysis”(J.N.R.Jeﬀers 1987)
主成分分析の結果解釈の困難性が指摘。
理解を助けるため、”ワイン”のデータを用いて PCA と SPCA の違
いを理解する
66 / 91

Data — Wine
今回用いるデータは 2 つある。
イタリアの同じ地域で栽培される異なる３つのブドウの品種から
作られたワインの科学成分のデータ。（wine）
標本数:178 個, 変数: 13 個．各変数は科学成分の濃度やアルコール
の強さなどを示す．
各ワインには、正解のクラスが与えられている。（全クラスサンプ
ル数はほぼ同じ）
67 / 91

Data — Principal Component Analysis
wine1 のデータを用いて、各クラスの傾向、次元を縮約して確認し
たい。
主成分分析を、wine1 のデータに対して実行する（用いるのは相関
行列）。
68 / 91

Figure: PCA Analysis for wine data
69 / 91

Variable Comp.1 Comp.2 Comp.3 Comp.4
Alcohol -0.14 -0.48 -0.21 -0.02
Malic acid 0.25 -0.22 0.09 0.54
Ash 0.00 -0.32 0.63 -0.21
Alcalinity of ash 0.24 0.01 0.61 0.06
Magnesium -0.14 -0.30 0.13 -0.35
Total phenols -0.39 -0.07 0.15 0.20
Flavanoids -0.42 0.00 0.15 0.15
Nonﬂavanoid phenols 0.30 -0.03 0.17 -0.20
Proanthocyanins -0.31 -0.04 0.15 0.40
Color intensity 0.09 -0.53 -0.14 0.07
Hue -0.30 0.28 0.09 -0.43
diluted wines -0.38 0.16 0.17 0.18
Proline -0.29 -0.36 -0.13 -0.23
Adj Variance(%) 36.2 19.2 11.1 7.1
Cum Adj Variance(%) 36.2 55.4 66.5 73.6
70 / 91

Problem — Principal Component Analysis
Is it interpretable?? , unn...it’s diﬃcult
結果の解釈をする際には、主成分ベクトルをスパース化したい！
しかし、主成分分析は「回帰」ではないが...
主成分分析は、「リッジ回帰の問題」として定式化できる。
よって、L1 正則化項によって elastic net の問題へ帰着．
71 / 91

Theory — Principal Component Analysis
X ∈ Rn×p
として、X の特異値分解を X = UDV T
とする。
このとき、UD を主成分、V を主成分に対応する”loadings”と呼ぶ。
PCA は、情報のロスが最小になるように主成分を構成する．
主成分同士は無相関であり、”loadings”同士は直交する．
別の定式化は...
ak = arg max aT
k (XT
X)ak (21)
subject to aT
k ak = 1 and aT
h ak = 0(j ̸= k) (22)
ここに追加で、以下の罰則をかけると SCoTLASS という方法にな
る．（計算量が爆発する）
p
j=1
|akj| ≤ t (23)
72 / 91

Rewrite — Principal Component Analysis
実は、PCA は Zi = UiDii としてリッジ回帰で書き直すことがで
きる。
ˆβridge = arg min
β
||Zi − Xβ||2
2 + λ||β||2
2 (24)
この解は
ˆβridge = (XT
X + λI)−1
XT
(XVi) = Vi
Dii
D2
ii + λ
(25)
となるので、
ˆvi = ˆβridge/||ˆβridge|| = Vi (26)
これによって、PCA とリッジ回帰と対応させることができた。
73 / 91

Why Ridge Fomura? — Principal Component Analysis
リッジ回帰にしている理由は？
n > p で、X がフルランクの場合には、λ = 0 としても問題はない。
n < p の場合が問題で、回帰の解が一意に定まらなくなる。
(XT
X) の逆行列が存在しない。
一方で、n < p の場合に PCA の解は一意に定まるのでここの対応
を考える必要がある。
よって、リッジ回帰にするのが妥当．
74 / 91

Deﬁne — Sparse Principal Component Analysis
よって、先ほどの式に L1 正則化を行うと、
ˆβridge = arg min
β
||Zi − Xβ||2
2 + λ||β||2
2 + λ1||β||1 (27)
これによって、ˆβ がスパースな解として求まる。
この解は naive enet の解であるが、ˆvi はリスケーリングを施すの
で気にする必要はない。
これを解く方法は、LARS-EN(Zou and Hastie 2005) で提案されて
いる．
75 / 91

Sparse Principal Components based on the SPCA
Criterion1
しかしながら、先ほどの方法では主成分は PCA のまま UiDii であ
る。これを推定する方法を次に提案する。
2 段階の探索的な解析を行い、スパース PCs の近似を与える。
定理
第 1 主成分から、第 k 主成分までを考える。ここで、
Ap×k = [α1, · · · , αk]、Bp×k = [β1, · · · , βk] とすると、すべての λ > 0
に対して、AT
A = Ik×k の条件の下で、
( ˆA, ˆB) = arg min
A,B
n
i=1
||xi − ABT
xi||2
+ λ j = 1k
||βj||2
(28)
を解くと、ˆβj ∝ Vj (j = 1, · · · , p) となる。
76 / 91

Criterion2
ここで、以下の等式に注意すると、
n
i=1
||xi − ABT
xi||2
= ||X − XBAT
||2
F (29)
A は直交行列なので、シュミットの直交化で正規直交基底行列 A⊥
を取り、直交行列 [A; A⊥]p×p を作ることができる。
すると、上記の右辺は次のように変形できる。
||X − XBAT
||2
F = ||XA⊥||2
F + ||XA − XB||2
F
= ||XA⊥||2
F +
k
j=1
||Xαj − Xβj||2
F
よって、次の式を最小化すれば解を得る
77 / 91

Criterion3
A が与えられたもとで、最適な B は、次を最小化することで得ら
れる。
arg min
B
k
j=1
||Xαj − Xβj||2
+ λ||βj||2
つまり、k 個の独立したリッジ回帰の問題を解くことと同じである。
そして、この式に AT
A = Ik の条件の下で、L1 正則化を行った結
果がスパース主成分分析の解になる。
( ˆA, ˆB) = arg min
A,B
n
i=1
||xi − ABT
xi||2
+ λ
k
j=1
||βj||2
+
k
j=1
λ1,j||βj||1
(30)
78 / 91

Numerical Solution1
A が与えられたもとでの B の最小化
各 j に対して、Y ∗
j = Xαj とする。このとき、 ˆB は elastic net の推
定量となる。
ˆβj = arg min
βj
||Y ∗
j − Xβj||2
+ λ||βj||2
+ λ1,j||βj||1 (31)
B が与えられたもとでの A の最小化
B が与えられているとき罰則項は無視することができる。
AT
A = Ik×k のもとで次式を最小化すればよい。
n
i=1
||xi − ABT
xi||2
= ||X − XBAT
||2
(32)
この解は、Procrustes rotation によって与えられる。
(XT
X)B = UDV T
と特異値分解を行うと、 ˆA = UV T
となる。
79 / 91

アルゴリズム — Numerical Solution2
1. A に初期値 V [, 1 : k]（k 個の主成分）を与える．
2. A を固定して、B について elastic net の問題を j = 1, 2, · · · , p につ
いて解く．
ˆβj = arg min
βj
||Y ∗
j − Xβj||2
+ λ||βj||2
+ λ1,j||βj||1 (33)
3. B を固定して、XT
XB を特異値分解して、UDV T
を求めて、
A = UV T
で更新する．
4. 2 と 3 のステップを収束するまで繰り返す。
5. ˆVj =
βj
||βj || (j = 1, · · · , k) を計算し、主成分ベクトルを求める。
80 / 91

全分散の調整 — Adjusted Total Variance
1. スパース化したため、各主成分は相関しており、”loadings”は直交
しない。
2. そのため、全分散は各主成分ベクトルの分散の和として表すこと
ができない。
3. 以下では、SPCA で求めた主成分を ˆZi として全分散の計算方法を
考える。
4. ˆZi(i = 1, · · · , k) が求められていて、Zk+1 の分散を考える場合に
は、各 ˆZi(i = 1, · · · , k) が Zk+1 に与える影響を取り除いた分散を
考えれば良いので、 ˆZi(i = 1, · · · , k) で構成される射影行列を
H1,··· ,k とすると、
ˆZk+1·1,··· ,k = ˆZk+1 − H1,··· ,k
ˆZk+1 (34)
5. が調整済みの主成分となり、この分散を計算すれば良いことにな
る。つまり、全分散は
k
j=1
|| ˆZj·,1,··· ,j−1||2
(35)
81 / 91

Example — Sparse PCA
Figure: Sparse PCA Analysis for wine data
82 / 91

Example — Sparse PCA
Variable PC1 PC2 PC3 PC4
Alcohol 0.00 0.55 0.00 0.00
Malic acid 0.00 0.00 0.00 -0.74
Ash 0.00 0.05 0.79 0.00
Alcalinity of ash 0.00 -0.09 0.61 0.00
Magnesium 0.00 0.33 0.00 0.00
Total phenols -0.41 0.00 0.00 0.00
Flavanoids -0.57 0.00 0.00 0.00
Nonﬂavanoid phenols 0.28 0.00 0.09 0.00
Proanthocyanins -0.36 0.00 0.00 0.00
Color intensity 0.00 0.54 0.00 0.00
Hue -0.11 0.00 0.00 0.68
diluted wines -0.54 0.00 0.00 0.00
Proline -0.04 0.54 0.00 0.00
Number of non zero 7 6 3 2
Adj Variance(%) 27.7 16.8 10.9 7.5
Cum Adj Variance(%) 27.7 44.5 55.4 62.9 83 / 91

Lap up — Sparse PCA
【利点】
スパース主成分分析は、主成分を解釈するという視点からは
有用であることがわかる。
変数の選択によって、重要な情報を抽出しやすくなる。
【課題】
分散の犠牲。分散のロスは情報のロス。
L1 罰則項の決定方法が不明確（L1 正則化全体の課題）．
【応用】
遺伝子発現の解析
マーケティングデータの解析... など
84 / 91

まとめ
85 / 91

まとめ
今回は、回帰の基本的なお話から、L1 正則化法までをお話し
しました。
L1 正則化が本格的に使われ始めたのは、LARS(Efron et., al
2004) のアルゴリズムがつくられた以降で、未だ発展段階。
L1 正則化は、「変数の選択」と「予測精度の向上」の両方を
同時に達成する手法で解釈可能なモデルを与えるという点が
優れている。
一方で、課題も存在しており計算量の多さと、「チューニング
パラメータ」の選択法については未だ定まった方法はない。
今後、上記のような課題は抱えつつも、優れた側面を持つ L1
正則化は現場で遺伝子の発現解析や、マーケティングデータ
の予測への応用が期待されている。
また L1 正則化には、様々な応用手法が提案されており、興味
のある方は Regression Shrinkage and selection via the lasso:
a retrospective(Tibshirani 2011) に概要が記されている。
86 / 91

まとめ
87 / 91

終わりに
謝辞
今日は、卒業論文で研究した L1 正則化について 1 歩踏み込
んだ話題をお話ししました．
少々早口で、聞き取りにくかった箇所があるかと思います
が、ご容赦ください。
今後の研究や活動など
現在の研究は、遺伝子発現のデータからどのようにして「ノ
イズ」と「意味のあるシグナル」を分離するのかという研究
をしています。用いているのは、GLM や LMM などです。
（次回は遺伝子発現関連の、お話をさせていただきます）
最近は、現場に入って医療データの解析（年間医療費予測・検
診データによる患者のクラスタリングなど...）をやってます。
88 / 91

参考文献
B. Efron, T. Hastie, I. Johnstone, R. Tibshirani (2004).
LEAST ANGLE REGRESSION
H. Zou and T. Hastie (2005). Regularization and variable
selection via the elastic net
H. Zou, T. Hastie, and R. Tibshirani (2006). Sparse principal
component analysis.
R. Tibshirani (1996). Regression Shrinkage and Selection via
the Lasso
T. Hastie, R. Tibshirani, J. Friedman (2009). The Elements
of Statistical Learning 2nd Edition
G. James, D. Witten, T. Hastie R. Tibshirani (2014). An
Introduction to Statistical Learning
89 / 91

ご清聴ありがとうございました
90 / 91

補足 - パス図の見方
91 / 91

20140512_水曜セミナードラフトv1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (19)

Similar to 20140512_水曜セミナードラフトv1

Similar to 20140512_水曜セミナードラフトv1 (20)

More from Tomoshige Nakamura

More from Tomoshige Nakamura (20)

Recently uploaded

Recently uploaded (20)

20140512_水曜セミナードラフトv1