Sparse estimation tutorial 2014

スパース推定概観：モデル・理論・応用
y 鈴木　大慈
yTokyo Institute of Technology
Department of Mathematical and Computing Sciences
2014 年9 月15 日
統計連合大会@東京大学
1 / 56

Outline
1 スパース推定のモデル
2 いろいろなスパース正則化
3 スパース推定の理論
n ≫ p の理論
n ≪ p の理論
4 高次元線形回帰の検定
5 スパース推定の最適化手法
2 / 56

高次元データでの問題意識
ゲノムデータ
金融データ
協調フィルタリング
コンピュータビジョン
音声認識
次元d = 10000 の時，サンプル数n = 1000 で推定ができるか？
どのような条件があれば推定が可能か？
何らかの低次元性(スパース性) を利用．
3 / 56

歴史: スパース推定の手法と理論
1992 Donoho and Johnstone Wavelet shrinkage
(Soft-thresholding)
1996 Tibshirani Lasso の提案
2000 Knight and Fu Lasso の漸近分布
(n ≫ p)
2006 Candes and Tao, 圧縮センシング
Donoho (制限等長性，完全復元，p ≫ n)
2009 Bickel et al., Zhang 制限固有値条件
(Lasso のリスク評価, p ≫ n)
2013 van de Geer et al., スパース推定における検定
Lockhart et al. (p ≫ n)
これ以前にも反射法地震探査や画像雑音除去，忘却付き構造学習にL1 正則化は使われて
いた．詳しくは田中利幸(2010) を参照. 4 / 56

Outline
n ≫ p の理論
n ≪ p の理論
5 / 56

高次元データ解析
サンプル数≪ 次元
バイオインフォテキストデータ画像データ
6 / 56

高次元データ解析
× 古典的数理統計学：サンプル数≫ 次元
バイオインフォテキストデータ画像データ
6 / 56

スパース推定
無駄な情報を切り落とす→スパース性
Lasso 推定量
R. Tsibshirani (1996). Regression shrinkage and selection via the lasso.
J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267{288.
引用数：10185 (2014 年5 月25 日)
7 / 56

変数選択の問題（線形回帰）
デザイン行列X = (Xij ) 2 Rnp.
p (次元) ≫ n (サンプル数).
真のベクトル

2 Rp: 非ゼロ要素の個数がたかだかd 個(スパース).
モデル: Y = X

を推定．
実質推定しなくてはいけない変数の数はd 個→変数選択．
8 / 56

を推定．
実質推定しなくてはいけない変数の数はd 個→変数選択．
Mallows' Cp, AIC:
^

j̸= 0gj.
→ 2p 個の候補を探索．NP-困難．
8 / 56

Lasso 推定量
Mallows' Cp 最小化: ^

∥0 は凸関数ではない．連続でもない．沢山の局所最適解．
→ 凸関数で近似．
Lasso [L1 正則化]
^

j j.
→ 凸最適化！
L1 ノルムはL0 ノルムの[1; 1]p にお
ける凸包(下から抑える最大の凸関数)
L1 ノルムは要素数関数のLovasz 拡張
9 / 56

Lasso 推定量のスパース性
p = n, X = I の場合．
^

Lasso;i = argmin
b2R
1
2
(yi b)2 + Cjbj
=
{
sign(yi )(yi C) (jyi j C)
0 (jyi j C):
小さいシグナルは0 に縮小される→スパース！
10 / 56

Lasso 推定量のスパース性
^

j j:
Theorem (Lasso の収束レート)
ある条件のもと，定数C が存在して高い確率で次の不等式が成り立つ：
∥ ^

∥22
C
dlog(p)
n
:
※次元が高くても，たかだかlog(p) でしか効いてこない．実質的な次元
d が支配的．
（「ある条件」については後で詳細を説明）
12 / 56

Outline
n ≫ p の理論
n ≪ p の理論
13 / 56

Lasso を一般化
Lasso:
min

∥| {z }1
(yi x
正則化項
:
14 / 56

∥| {z }1
(yi x
正則化項
:
一般化したスパース正則化推定法:
min
w2Rp
1
n
Σn
i=1
ℓ(zi ;

):
L1 正則化項以外にどのような正則化項が有用であろうか？
14 / 56

L1 正則化によってスパースになる理由：
座標軸に沿って尖っている．
正則化項の尖り方を工夫することで様々なスパース性が得られる．
15 / 56

グループ正則化
C
Σ
g2G
∥

g∥
重複なし重複あり
グループ内すべての変数が同時に0 になりやすい．
より積極的にスパースにできる．
応用例：ゲノムワイド相関解析
16 / 56

グループ正則化の応用例
マルチタスク学習Lounici et al. (2009)
T 個のタスクで同時に推定:
y(t)
i
x(t)⊤
i

(t) (i = 1; : : : ; n(t); t = 1; : : : ;T):
min

(t)
ΣT
t=1
n(t) Σ
i=1
(yi x(t)⊤
i

(T)
k )∥
| {z }
グループ正則化
:
b(1)b(2) b(T)
*URXS
*URXS
؞؞؞؞؞؞
*URXS
タスク間共通で非ゼロな変数を選択
17 / 56

Sparse estimation tutorial 2014

More Related Content

What's hot

Viewers also liked

Similar to Sparse estimation tutorial 2014

More from Taiji Suzuki

Sparse estimation tutorial 2014