スパース推定概観:モデル・理論・応用 
y 鈴木 大慈 
yTokyo Institute of Technology 
Department of Mathematical and Computing Sciences 
2014 年9 月15 日 
統計連合大会@東京大学 
1 / 56
Outline 
1 スパース推定のモデル 
2 いろいろなスパース正則化 
3 スパース推定の理論 
n ≫ p の理論 
n ≪ p の理論 
4 高次元線形回帰の検定 
5 スパース推定の最適化手法 
2 / 56
高次元データでの問題意識 
ゲノムデータ 
金融データ 
協調フィルタリング 
コンピュータビジョン 
音声認識 
次元d = 10000 の時,サンプル数n = 1000 で推定ができるか? 
どのような条件があれば推定が可能か? 
何らかの低次元性(スパース性) を利用. 
3 / 56
歴史: スパース推定の手法と理論 
1992 Donoho and Johnstone Wavelet shrinkage 
(Soft-thresholding) 
1996 Tibshirani Lasso の提案 
2000 Knight and Fu Lasso の漸近分布 
(n ≫ p) 
2006 Candes and Tao, 圧縮センシング 
Donoho (制限等長性,完全復元,p ≫ n) 
2009 Bickel et al., Zhang 制限固有値条件 
(Lasso のリスク評価, p ≫ n) 
2013 van de Geer et al., スパース推定における検定 
Lockhart et al. (p ≫ n) 
これ以前にも反射法地震探査や画像雑音除去,忘却付き構造学習にL1 正則化は使われて 
いた.詳しくは田中利幸(2010) を参照. 4 / 56
Outline 
1 スパース推定のモデル 
2 いろいろなスパース正則化 
3 スパース推定の理論 
n ≫ p の理論 
n ≪ p の理論 
4 高次元線形回帰の検定 
5 スパース推定の最適化手法 
5 / 56
高次元データ解析 
サンプル数≪ 次元 
バイオインフォテキストデータ画像データ 
6 / 56
高次元データ解析 
サンプル数≪ 次元 
× 古典的数理統計学:サンプル数≫ 次元 
バイオインフォテキストデータ画像データ 
6 / 56
スパース推定 
サンプル数≪ 次元 
無駄な情報を切り落とす→スパース性 
Lasso 推定量 
R. Tsibshirani (1996). Regression shrinkage and selection via the lasso. 
J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267{288. 
引用数:10185 (2014 年5 月25 日) 
7 / 56
変数選択の問題(線形回帰) 
デザイン行列X = (Xij ) 2 Rnp. 
p (次元) ≫ n (サンプル数). 
真のベクトル
2 Rp: 非ゼロ要素の個数がたかだかd 個(スパース). 
モデル: Y = X
+ : 
(Y ; X) から
を推定. 
実質推定しなくてはいけない変数の数はd 個→変数選択. 
8 / 56
変数選択の問題(線形回帰) 
デザイン行列X = (Xij ) 2 Rnp. 
p (次元) ≫ n (サンプル数). 
真のベクトル
2 Rp: 非ゼロ要素の個数がたかだかd 個(スパース). 
モデル: Y = X
+ : 
(Y ; X) から
を推定. 
実質推定しなくてはいけない変数の数はd 個→変数選択. 
Mallows' Cp, AIC: 
^
MC = argmin
2Rp 
∥Y  X
∥2 + 22∥
∥0 
ただし∥
∥0 = jfj j
j̸= 0gj. 
→ 2p 個の候補を探索.NP-困難. 
8 / 56
Lasso 推定量 
Mallows' Cp 最小化: ^
MC = argmin
2Rp 
∥Y  X
∥2 + 22∥
∥0: 
問題点: ∥
∥0 は凸関数ではない.連続でもない.沢山の局所最適解. 
→ 凸関数で近似. 
Lasso [L1 正則化] 
^
Lasso = argmin
2Rp 
∥Y  X
∥2 + ∥
∥1 
ただし∥
∥1 = 
Σp 
j=1 
j
j j. 
→ 凸最適化! 
L1 ノルムはL0 ノルムの[1; 1]p にお 
ける凸包(下から抑える最大の凸関数) 
L1 ノルムは要素数関数のLovasz 拡張 
9 / 56
Lasso 推定量のスパース性 
p = n, X = I の場合. 
^
Lasso = argmin
2Rp 
1 
2 
∥Y
∥2 + C∥
∥1 
) ^
Lasso;i = argmin 
b2R 
1 
2 
(yi  b)2 + Cjbj 
= 
{ 
sign(yi )(yi  C) (jyi j  C) 
0 (jyi j  C): 
小さいシグナルは0 に縮小される→スパース! 
10 / 56
Lasso 推定量のスパース性 
^
= arg min
2Rp 
1 
n 
∥X
Y ∥22+ n 
Σp 
j=1 
j
j j: 
11 / 56
スパース性の恩恵 
^
= arg min
2Rp 
1 
n 
∥X
Y ∥22 
+ n 
Σp 
j=1 
j
j j: 
Theorem (Lasso の収束レート) 
ある条件のもと,定数C が存在して高い確率で次の不等式が成り立つ: 
∥ ^
∥22 
 C 
dlog(p) 
n 
: 
※次元が高くても,たかだかlog(p) でしか効いてこない.実質的な次元 
d が支配的. 
(「ある条件」については後で詳細を説明) 
12 / 56
Outline 
1 スパース推定のモデル 
2 いろいろなスパース正則化 
3 スパース推定の理論 
n ≫ p の理論 
n ≪ p の理論 
4 高次元線形回帰の検定 
5 スパース推定の最適化手法 
13 / 56
Lasso を一般化 
Lasso: 
min
2Rp 
1 
n 
Σn 
i=1 
⊤ 
i
)2 + ∥
∥| {z }1 
(yi  x 
正則化項 
: 
14 / 56
Lasso を一般化 
Lasso: 
min
2Rp 
1 
n 
Σn 
i=1 
⊤ 
i
)2 + ∥
∥| {z }1 
(yi  x 
正則化項 
: 
一般化したスパース正則化推定法: 
min 
w2Rp 
1 
n 
Σn 
i=1 
ℓ(zi ;
) +  (
): 
L1 正則化項以外にどのような正則化項が有用であろうか? 
14 / 56
L1 正則化によってスパースになる理由: 
座標軸に沿って尖っている. 
正則化項の尖り方を工夫することで様々なスパース性が得られる. 
15 / 56
グループ正則化 
C 
Σ 
g2G 
∥
g∥ 
重複なし重複あり 
グループ内すべての変数が同時に0 になりやすい. 
より積極的にスパースにできる. 
応用例:ゲノムワイド相関解析 
16 / 56
グループ正則化の応用例 
マルチタスク学習Lounici et al. (2009) 
T 個のタスクで同時に推定: 
y(t) 
i 
 x(t)⊤ 
i
(t) (i = 1; : : : ; n(t); t = 1; : : : ;T): 
min
(t) 
ΣT 
t=1 
n(t) Σ 
i=1 
(yi  x(t)⊤ 
i
(t))2 + C 
Σp 
k=1 
∥(
(1) 
k ; : : : ;
(T) 
k )∥ 
| {z } 
グループ正則化 
: 
b(1)b(2) b(T) 
*URXS 
*URXS 
؞؞؞؞؞؞ 
*URXS 
タスク間共通で非ゼロな変数を選択 
17 / 56
グループ正則化の応用例 
マルチタスク学習Lounici et al. (2009) 
T 個のタスクで同時に推定: 
y(t) 
i 
 x(t)⊤ 
i
(t) (i = 1; : : : ; n(t); t = 1; : : : ;T): 
min
(t) 
ΣT 
t=1 
n(t) Σ 
i=1 
(yi  x(t)⊤ 
i

Sparse estimation tutorial 2014