3. 文献
B. Efron, T. Hastie, I. Johnstone, R. Tibshirani (2004). LEAST
ANGLE REGRESSION
H. Zou and T. Hastie (2005). Regularization and variable selection
via the elastic net
H. Zou, T. Hastie, and R. Tibshirani (2006). Sparse principal
component analysis.
R. Tibshirani (1996). Regression Shrinkage and Selection via the
Lasso
T. Hastie, R. Tibshirani, J. Friedman (2009). The Elements of
Statistical Learning 2nd Edition
G. James, D. Witten, T. Hastie R. Tibshirani (2014). An
Introduction to Statistical Learning
3 / 91
33. 研究背景| Ridge Regression
Hoerl and Lennnard(1970) で提案された手法。元々は、回帰係数を求め
る際に XT
X が不安定である場合の問題を解消するために、XT
X を
XT
X + λI に置き換えるというアイデアから生まれた。
ˆβ = (XT
X)−1
XT
y → ˆβridge = (XT
X + λI)−1
XT
y (11)
この推定量は、残差二乗和にペナルティー(正則化項)を付けることに
対応する。
ˆβridge = arg min
β
⎧
⎪⎨
⎪⎩
N
i=1
⎛
⎝yi − β0 −
p
j=1
xijβj
⎞
⎠
2
+ λ
p
j=1
β2
j
⎫
⎪⎬
⎪⎭
= arg min
β
(y − Xβ)T
(y − Xβ) + λ||β||2
2 (12)
33 / 91
34. 研究背景| Ridge Regression
これと同等な式として以下がある。ここで λ と t は 1 対 1 に対応する
(ただし、
p
j=1 βols
j < t の場合は除く)。
ˆβridge = arg min
β
||y − Xβ||2
, subject to
p
j=1
β2
j ≤ t. (13)
(補足:ベイズ的な解釈)
リッジ回帰は、尤度 yi|β ∼ N(β0 + xiβ, σ2
)、事前分布 β ∼ N(0, τ2
) と
したとき、事後分布 β|y の最大化問題に対応する。また、λ = σ2
/τ2
で
ある。
34 / 91
35. 研究背景| Ridge Regression
より、詳しくリッジ回帰の性質を確認するために、X の特異値分解
X = UDV を考える。ここで、U : N × p, V : p × p とすれば、U の列
ベクトルは X の列空間、V の列ベクトルは行空間に張っている。
D : p × p の対角行列で、その対角成分は d11 ≥ d22 ≥ · · · ≥ dpp ≥ 0 で
ある。すると、
ˆβols = X(XT
X)−1
XT
y
= UUT
y
=
p
j=1
ujuT
j y
ˆβridge = X(XT
X + λI)−1
XT
y
= UD(D2
+ λI)DUT
y
=
p
j=1
uj
d2
j
d2
j + λ
uT
j y
35 / 91
49. Lasso の課題
Lasso の問題点
p ≫ n 問題 (West et al. 2001):p ≫ n の状況において、説明
変数が p 個あった場合でも、Lasso が選択できる説明変数の個
数は n 個である(分散共分散行列のランクが n になるため)。
グループ化効果がない:Lasso は変数間の相関を考慮できな
い。高い相関を持ついくつかの変数があるとき、それらをグ
ループ化された変数とよび、Lasso は、その中から 1 つしか
モデルに取り込むことはできない。
n > p での問題:説明変数間の相関が高い場合には、グルー
プ化変数を無視する性質によってリッジ回帰よりも予測精度
が悪くなることがある。
47 / 91
50. Lasso の課題 続き
Lasso が課題になる具体的な例
白血病の人の遺伝子データ, Golub et al. Science(1999)。
データのサンプル数 72 個, 説明変数の数 7129 個.(p ≫ n
問題)
遺伝子データでは、一般的に p ≈ 10000 で、サンプル数
n < 100 である。
遺伝子データでは、一般的に遺伝子同士の結合 (”Pathway”)
が似通っていることから、説明変数同士の相関が高いことが
多く、グループ化された変数が存在する。
→ 解決策の1つとして、(Na¨ıve) Elastic Net がある。
48 / 91
67. Background — Principal Component Analysis
主成分分析は、外的基準のない多次元データの基本的な解析
法(教師なし学習法の 1 つ)
p 個の変数がある場合に、それらの持つ情報をある m 個の合
成指標に縮約する手法の1つ。
実際の応用では、新たな合成指標の解釈を考えて、その解釈
をもとに個体の特徴を分析する。
例としては、よく 5 教科の試験の得点をもとに、学生を分類
する事例が出される。
この他、画像解析、遺伝子解析などのデータを分類・特徴づ
けする際に用いられている。
65 / 91
68. Background — Problem Principal Component Analysis
主成分分析の課題は、変数が多くなるときに軸の解釈が困難にな
ることがあげられる。
”Two Case Studies in the Application of Principal Component
Analysis”(J.N.R.Jeffers 1987)
主成分分析の結果解釈の困難性が指摘。
理解を助けるため、”ワイン”のデータを用いて PCA と SPCA の違
いを理解する
66 / 91
73. Problem — Principal Component Analysis
Is it interpretable?? , unn...it’s difficult
結果の解釈をする際には、主成分ベクトルをスパース化したい!
しかし、主成分分析は「回帰」ではないが...
主成分分析は、「リッジ回帰の問題」として定式化できる。
よって、L1 正則化項によって elastic net の問題へ帰着.
71 / 91
74. Theory — Principal Component Analysis
X ∈ Rn×p
として、X の特異値分解を X = UDV T
とする。
このとき、UD を主成分、V を主成分に対応する”loadings”と呼ぶ。
PCA は、情報のロスが最小になるように主成分を構成する.
主成分同士は無相関であり、”loadings”同士は直交する.
別の定式化は...
ak = arg max aT
k (XT
X)ak (21)
subject to aT
k ak = 1 and aT
h ak = 0(j ̸= k) (22)
ここに追加で、以下の罰則をかけると SCoTLASS という方法にな
る.(計算量が爆発する)
p
j=1
|akj| ≤ t (23)
72 / 91
75. Rewrite — Principal Component Analysis
実は、PCA は Zi = UiDii としてリッジ回帰で書き直すことがで
きる。
ˆβridge = arg min
β
||Zi − Xβ||2
2 + λ||β||2
2 (24)
この解は
ˆβridge = (XT
X + λI)−1
XT
(XVi) = Vi
Dii
D2
ii + λ
(25)
となるので、
ˆvi = ˆβridge/||ˆβridge|| = Vi (26)
これによって、PCA とリッジ回帰と対応させることができた。
73 / 91
76. Why Ridge Fomura? — Principal Component Analysis
リッジ回帰にしている理由は?
n > p で、X がフルランクの場合には、λ = 0 としても問題はない。
n < p の場合が問題で、回帰の解が一意に定まらなくなる。
(XT
X) の逆行列が存在しない。
一方で、n < p の場合に PCA の解は一意に定まるのでここの対応
を考える必要がある。
よって、リッジ回帰にするのが妥当.
74 / 91
79. Sparse Principal Components based on the SPCA
Criterion2
ここで、以下の等式に注意すると、
n
i=1
||xi − ABT
xi||2
= ||X − XBAT
||2
F (29)
A は直交行列なので、シュミットの直交化で正規直交基底行列 A⊥
を取り、直交行列 [A; A⊥]p×p を作ることができる。
すると、上記の右辺は次のように変形できる。
||X − XBAT
||2
F = ||XA⊥||2
F + ||XA − XB||2
F
= ||XA⊥||2
F +
k
j=1
||Xαj − Xβj||2
F
よって、次の式を最小化すれば解を得る
77 / 91
80. Sparse Principal Components based on the SPCA
Criterion3
A が与えられたもとで、最適な B は、次を最小化することで得ら
れる。
arg min
B
k
j=1
||Xαj − Xβj||2
+ λ||βj||2
つまり、k 個の独立したリッジ回帰の問題を解くことと同じである。
そして、この式に AT
A = Ik の条件の下で、L1 正則化を行った結
果がスパース主成分分析の解になる。
( ˆA, ˆB) = arg min
A,B
n
i=1
||xi − ABT
xi||2
+ λ
k
j=1
||βj||2
+
k
j=1
λ1,j||βj||1
(30)
78 / 91
81. Numerical Solution1
A が与えられたもとでの B の最小化
各 j に対して、Y ∗
j = Xαj とする。このとき、 ˆB は elastic net の推
定量となる。
ˆβj = arg min
βj
||Y ∗
j − Xβj||2
+ λ||βj||2
+ λ1,j||βj||1 (31)
B が与えられたもとでの A の最小化
B が与えられているとき罰則項は無視することができる。
AT
A = Ik×k のもとで次式を最小化すればよい。
n
i=1
||xi − ABT
xi||2
= ||X − XBAT
||2
(32)
この解は、Procrustes rotation によって与えられる。
(XT
X)B = UDV T
と特異値分解を行うと、 ˆA = UV T
となる。
79 / 91
82. アルゴリズム — Numerical Solution2
1. A に初期値 V [, 1 : k](k 個の主成分)を与える.
2. A を固定して、B について elastic net の問題を j = 1, 2, · · · , p につ
いて解く.
ˆβj = arg min
βj
||Y ∗
j − Xβj||2
+ λ||βj||2
+ λ1,j||βj||1 (33)
3. B を固定して、XT
XB を特異値分解して、UDV T
を求めて、
A = UV T
で更新する.
4. 2 と 3 のステップを収束するまで繰り返す。
5. ˆVj =
βj
||βj || (j = 1, · · · , k) を計算し、主成分ベクトルを求める。
80 / 91
91. 参考文献
B. Efron, T. Hastie, I. Johnstone, R. Tibshirani (2004).
LEAST ANGLE REGRESSION
H. Zou and T. Hastie (2005). Regularization and variable
selection via the elastic net
H. Zou, T. Hastie, and R. Tibshirani (2006). Sparse principal
component analysis.
R. Tibshirani (1996). Regression Shrinkage and Selection via
the Lasso
T. Hastie, R. Tibshirani, J. Friedman (2009). The Elements
of Statistical Learning 2nd Edition
G. James, D. Witten, T. Hastie R. Tibshirani (2014). An
Introduction to Statistical Learning
89 / 91