スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

スパースモデリング、スパース
コーディングとその数理
全脳アーキテクチャ若手の会第11回勉強会 2015/11/19
東京理科大学3年神野成海
1

目次
イントロダクション
教師あり学習の導入
正則化
推定アルゴリズム
圧縮センシング
脳とスパースコーディングの関係
2

目次
正則化
3

自己紹介
• 神野成海
• 東京理科大学理学部数理情報科学科3年
• スパースモデリング歴2ヶ月
4

スパース（疎）とは？
• スパースなベクトル：
0
0
0
0
1
0
• スパースな行列：
1 0 0
0 2 0
0 0 2
密ではなく疎らな状態 5

スパースモデリングとは？
1. 問題が複雑
2. データが少ない
解が疎（スパース）と仮定して推定解を得る手法
6

スパースコーディングとは？
• ある情報を少ない基底でスパースに表現する情報表現
7
少数の細胞が発火
おばあさんの顔を認知
脳はスパースコーディングをしている？

今日する話
8
スパースモデリング
Lasso [Tibshirani,1996]
Lars [Efron et al.,2004]
座標降下法 [Friedman et al.,2007;2010]
圧縮センシング [Candès et al.,2006]
ブラックホールの観測シミュレーション [Honma et al.,2014]
スパースコーディング
Barlowの仮説 [Barlow,1972]
V1の過完備性 [Barlow,1981]
一次視覚野における基底表現 [Olshansen and Field,1996]

目次
正則化
9

機械学習とは？
• 機械に学習アルゴリズムと学習用データを与えて
ある能力を学習の中で獲得させる手法
脳っぽい
10

機械学習の種類
• 教師あり学習←今日はこの話をします
• 教師なし学習
• 強化学習
11

教師あり学習とは？
• ある入力𝑥𝑖に対する教師𝑦𝑖を与えて、未知の入力
𝑥 𝑛𝑒𝑤に対してもっともらしい𝑦 𝑝𝑟𝑒𝑑を予測する
𝑦 𝑝𝑟𝑒𝑑を予測する
12
𝑥𝑖, 𝑦𝑖を与えて学習 𝑥 𝑛𝑒𝑤を入力

教師あり学習で出来ること
• 回帰問題
• 分類問題
etc...
今日は回帰問題（線形回帰）を題材にしてお話しします
13

線形回帰とは？
• ある関数𝑓 𝑥 に従うデータ点
𝑥1
⋮
𝑥 𝑁
,
𝑦1
⋮
𝑦 𝑁
を与える
• 既知の関数∅1(𝑥), … , ∅ 𝑀(𝑥)を与える
• 𝑓 𝑥 を 𝑗=1
M
𝑤𝑗∅ 𝑗(𝑥)で近似する良い𝑤𝑗を推定
14

線形和のベクトル表現
φ(𝑥) =
∅1(𝑥)
⋮
∅ 𝑀(𝑥)
, 𝑤 =
𝑤1
⋮
𝑤 𝑀
とおけば
𝑗=1
𝑀
𝑤𝑗∅ 𝑗(𝑥) = 𝑤 𝑇φ(𝑥)
と表せる（簡単のため今後は𝑤 𝑇φ(𝑥)で表す）
15

線形回帰の問題設定
• データ数： 𝑁
• 入力データ： 𝒙 = 𝑥1, … , 𝑥 𝑁
𝑇
• 出力データ：𝒚 = 𝑦1, … , 𝑦 𝑁
𝑇
• 特徴量：φ(𝑥) = ∅1(𝑥), … , ∅ 𝑀(𝑥) 𝑇（𝑀次元）
• パラメータ：𝑤（𝑀次元）
𝑦を𝑤 𝑇
φ(𝑥)でモデル化する良い𝑤を推定する
16

線形回帰の例
未知関数 𝑦 = sin 𝑥 (+𝜀)（εは観測誤差）に従うデータ
𝑥𝑖, 𝑦𝑖 𝑖=1
𝑁
を基にsin 𝑥 を∅ 𝑗(𝑥) = 𝑥 𝑗
𝑗 = 1, … , 10 の線形和
でモデル化
目標値：
𝑤 𝑇
= 1,0, −
1
3!
, 0,
1
5!
, 0, −
1
7!
, 0,
1
9!
, 0
sin 𝑥 ≈ 𝑤 𝑇
φ(𝑥) =
𝑥1
1!
−
𝑥3
3!
+
𝑥5
5!
−
𝑥7
7!
+
𝑥9
9!
17結果、未知の𝑥から𝑦を予測できる

線形回帰を解く（最小二乗法）
• データ 𝑥𝑖, 𝑦𝑖 𝑁個、特徴ベクトルφ(𝒙)（𝑀次元）を用意
• 𝒚を𝒘 𝑇
φ(𝑥)で近似するため
• 誤差関数
𝐸 𝐷 =
1
2
𝑖=1
𝑁
𝑦𝑖 − 𝒘 𝑇
φ(𝑥𝑖) 2
を最小化する𝒘を求める
18

誤差関数の行列表現
• 計画行列
Φ =
∅1(𝑥1) ⋯ ∅ 𝑗(𝑥1) ⋯ ∅ 𝑀(𝑥1)
⋮ ⋮ ⋮
∅1(𝑥𝑖) ⋯ ∅ 𝑗(𝑥𝑖) ⋯ ∅ 𝑀(𝑥𝑖)
⋮ ⋮ ⋮
∅1(𝑥 𝑁) ⋯ ∅ 𝑗(𝑥 𝑁) ⋯ ∅ 𝑀(𝑥 𝑁)
とおけば、
𝐸 𝐷 =
1
2
𝑖=1
𝑁
𝑦𝑖 − 𝒘 𝑇φ(𝑥𝑖) 2 =
1
2
𝒚 − Φ𝒘 2
2
と表せる（簡単のため今後は 𝒚 − Φ𝒘 2
2
で表す）
19

最小二乗法（𝑀 < 𝑁）
• Φ𝒘は𝑁次元ベクトル空間の
（𝑀次元）部分空間𝑆上に存在
• 𝐸 𝐷 の最小化
⇔𝒚とΦ𝒘の距離の最小化
Φ𝒘
𝑆
φ(𝑥 𝟏)
φ(𝑥 𝟐)
𝒚
（図は𝑁 = 3, 𝑀 = 2）
𝑀 < 𝑁のとき解が一意に存在する
20
線分の長さ= 𝐸 𝐷

最小二乗法（𝑀 ≥ 𝑁）
1. 𝑀 ≥ 𝑁（特徴ベクトルの次元数≥データ数）
⇒ 𝐲とΦ𝒘の距離が0になる
⇔誤差関数が0になる
⇒データに依存してしまう（過学習）
2. φ 𝑗(𝑥)が線形従属
⇒解が複数存在、逆行列の計算ができない
𝑀 ≥ 𝑁だとうまくいかない
21

過学習とは？
• 訓練データに対して学習されているが、未知デー
タに対しては適合できていない状態
（𝑀 < 𝑁でも𝑀が大きいと過学習しやすい）
過学習していない過学習している
22

目次
正則化
23

過学習を防ぐには？（正則化）
• 誤差関数𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
に
• 正則化項𝑅 𝒘 を付け加えることで
• 解を一意に求めることができる
24
（誤差項）（正則化項）
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ 𝑅 𝒘
正則化

正則化項の種類
1. L2正則化（𝑅 𝒘 =
1
2
λ 𝑗 𝑤𝑗
2）
2. L0正則化（𝑅 𝒘 = λ 𝑗 𝐼 𝑤𝑗 ≠ 0 ）
3. L1正則化（𝑅 𝒘 = λ 𝑗 𝑤𝑗 ）
etc…
今日はこの3つを中心に紹介します
25

L2正則化の定義
• 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
に
• 正則化項
1
2
λ 𝒘 2
2
=
1
2
λ 𝑗 𝑤𝑗
2
を付け加える
26
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+
1
2
λ 𝒘 2
2
L2正則化

L2正則化の推定解
• 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+
1
2
λ 𝒘 2
2
の最小化
⇔
𝑑
𝑑𝒘
𝐸 𝐷 = 0
⇔𝒘∗ = (λI + Φ 𝑇Φ)−1Φ 𝑇 𝒚 （𝒘∗:最適解）
λI + Φ 𝑇
Φは正則なため、
1. λI + Φ 𝑇Φ −1が（実時間で）計算できる
2. 縮小推定により過学習を防げる
27

縮小推定とは？
• 𝒘 が小さくなるよう𝒘を推定することによって過
学習を抑えることができる
• L2正則化、L0正則化、L1正則化による推定は全て
縮小推定
28

L2正則化の別表現
• 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+
1
2
λ 𝒘 2
2
の最小化は
min
𝒘
1
2
||𝒚 − Φ𝒘||2 , subject to
1
2
𝒘 2
2
≤ η
のラグランジュ形式
29
𝑤1
𝑤2
𝒘∗
◎は𝐸 𝐷 の等高線
○内は
1
2
𝒘 2
2
≤ ηの実行可能領域図は𝒘 =
𝑤1
𝑤2
𝑟 = 2η
○内で𝐸 𝐷 を最小化する点は
○と◎が接する𝒘∗

• 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
に
• 正則化項λ 𝑗 𝐼 𝑤𝑗 ≠ 0 を付け加える
𝐼 𝑤𝑗 ≠ 0 =
1 𝑤𝑗 ≠ 0
0 𝑤𝑗 = 0
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ λ
𝑗
𝐼 𝑤𝑗 ≠ 0
L0正則化
30

• 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝑗 𝐼 𝑤𝑗 ≠ 0 の最小化
⇔0と推定される𝑤𝑗の組合せで場合分けして解く
⇒𝒘∗ = 0, … , 0, 𝑤𝑗
∗, 0, … , 0
𝑇
1. ベクトルの成分に0が多くなる（スパース推定してく
れる）
3. 組み合わせ最適化問題になるため計算量が爆発
31

1. 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
に
2. 正則化項λ 𝒘 1 = λ 𝑗 𝑤𝑗 を付け加える
32
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝒘 1
L1正則化

• 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝒘 1の最小化
⇔
𝑑
𝑑𝒘
𝐸 𝐷 = 0（？）
33
λ 𝒘 1は𝑤𝑗 = 0のとき微分不可能
𝑀 = 1のとき

Active Set
• 𝑤𝑗
∗が非0となる𝑗を集めた集合をActive Setと呼ぶ
𝐴 = 𝑗 ∈ 1, … , 𝑀 : 𝑤𝑗
∗
≠ 0
34

𝐸 𝐷 を𝑤𝑗で微分 (𝑗 ∈ 𝐴)
•
𝜕
𝜕𝑤 𝑗
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝒘 1
= −φ 𝑗
𝑇
𝒚 − Φ𝒘 + λ sign 𝑤𝑗 𝑤𝑗 ≠ 0
• 𝒘 = 𝒘∗のとき
𝜕𝐸 𝐷
𝜕𝑤 𝑗
= 0より
φ 𝑗
𝑇
𝒚 − Φ𝒘∗
= λ sign 𝑤𝑗
∗
(∀𝑗 ∈ 𝐴)
φ 𝑗
𝑇 𝒚 − Φ𝒘∗ = φ 𝑗′
𝑇 𝒚 − Φ𝒘∗ = λ (∀𝑗, 𝑗′ ∈ 𝐴)
35
+1 or − 1

λと𝒘の関係（1/3）
• λが十分に大きいとき、
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝒘 1
を最小化する𝒘は零ベクトル
λが十分に大きいとき𝒘∗は零ベクトル
36

1. 非０の推定値𝑤𝑗1
∗を得るまで連続的にλを小さくする
⇒𝑗1はActive Setに入る
2. さらにλを小さくすると、非０の推定値𝑤𝑗2
∗が現れる
（途中𝑤𝑗1
≠ 0ならば）
φ 𝑗1
𝑇 𝒚 − Φ𝒘∗ = φ 𝑗2
𝑇 𝒚 − Φ𝒘∗ = λ
37

3. さらにλを小さくすると、非0の推定値𝑤𝑗3
∗が現れる
（途中𝑤𝑗1
, 𝑤𝑗2
≠ 0ならば）
λ = φ 𝑗1
𝑇 𝒚 − Φ𝒘∗
= φ 𝑗2
= φ 𝑗3
38

𝜕𝐸 𝐷
𝜕𝑤 𝑗
= 0 𝒘=𝒘∗を𝑤𝑗
∗
(𝑗 ∈ 𝐴)で解く(1/3)
•
𝜕
𝜕𝑤 𝑗
1
2
𝒚 − Φ𝒘 2
2
= −φ 𝑗
𝑇 𝒚 − Φ𝒘
• −φ 𝑗
= −φ 𝑗
𝑇 𝒚 −
𝑘≠𝑗
𝑤 𝑘
∗
φ 𝑘 − 𝑤𝑗
∗
φ 𝑗 = 0
を𝑤𝑗
∗
で解く
𝑤𝑗
∗
= φ 𝑗
𝑇 𝒚 −
𝑘≠𝑗
𝑤 𝑘
∗
φ 𝑘
φ 𝑗
𝑇 𝑟𝑗は最小二乗推定解 39
𝒚 − 𝑘≠𝑗 𝑤 𝑘
∗
φ 𝑘 = 𝑟𝑗とおくと

𝜕𝐸 𝐷
𝜕𝑤 𝑗
∗
(𝑗 ∈ 𝐴)で解く(2/3)
•
𝜕
𝜕𝑤 𝑗
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝒘 1
= −φ 𝑗
𝑇
𝒚 − Φ𝒘 + λ sign 𝑤𝑗 𝑤𝑗 ≠ 0
• −φ 𝑗
𝑇 𝒚 − Φ𝒘∗ + λ sign 𝑤𝑗
∗
= −φ 𝑗
𝑇 𝒚 −
𝑘≠𝑗
𝑤 𝑘
∗
φ 𝑘 − 𝑤𝑗
∗
φ 𝑗 + λ sign 𝑤𝑗
∗
= −φ 𝑗
𝑇
𝑟𝑗 − 𝑤𝑗
∗
φ 𝑗 + λ sign 𝑤𝑗
∗
= 0
を𝑤𝑗
∗
で解く
𝑤𝑗
∗
= φ 𝑗
𝑇 𝑟𝑗 − λ sign 𝑤𝑗
∗
40

𝜕𝐸 𝐷
𝜕𝑤 𝑗
∗
(𝑗 ∈ 𝐴)で解く(3/3)
• 𝑤𝑗
∗
= φ 𝑗
𝑇 𝑟𝑗 − λ sign 𝑤𝑗
∗
= S φ 𝑗
𝑇
𝑟𝑗, λ （ソフト閾値処理）
• 𝑆 φ 𝑗
𝑇 𝑟𝑗, λ = sign φ 𝑗
𝑇 𝑟𝑗 φ 𝑗
𝑇 𝑟𝑗 − λ +
=
φ 𝑗
𝑇 𝑟𝑗 − λ
φ 𝑗
𝑇 𝑟𝑗 + λ
0
41
if φ 𝑗
𝑇 𝑟𝑗 > 0 and λ < φ 𝑗
𝑇 𝑟𝑗
if φ 𝑗
𝑇 𝑟𝑗 < 0 and λ < φ 𝑗
𝑇 𝑟𝑗
if λ > φ 𝑗
𝑇 𝑟𝑗
φ 𝑗
𝑇
𝑟𝑗
𝑤𝑗
∗
λ
−λ
λ
λ
L1正則化による推定解は
最小二乗推定解から
λを引くor0にしたもの
L1正則解
最小二乗推定解

• 推定解はソフト閾値処理により
42
1. スパース推定してくれる

L1正則化の別表現
• 𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝒘 1は
min
𝒘
1
2
||𝒚 − Φ𝒘||2 , subject to 𝒘 1 ≤ η
のラグランジュ形式
43
𝑤2
𝑤1
𝒘∗
◎は
1
2
||𝒚 − Φ𝒘||2
の等高線
◇内は 𝒘 1 ≤ ηの実行可能領域
図は𝒘 =
𝑤1
𝑤2
η
◇内で𝐸 𝐷 を最小化する点は
◇と◎が接する𝒘∗

L2正則化項とL1正則化項の凸性
44
L2正則化項とL1正則化項は凸性を持っている
⇒効率的なアルゴリズムを適用可能
𝑀 = 1のとき

Ｌ１正則化とＬ２正則化の比較
45
L2正則化 L1正則化
L1正則化はスパース推定してくれる

スパースモデリングの具体例
1. 問題が複雑
2. データが少ない
解が疎（スパース）と仮定して推定解を得る
46

問題が複雑でデータが少ないとは？
1. 問題が複雑 ⇒変数が多い
2. データが少ない ⇒解くための情報が少ない
47
不良設定問題
1 = 2𝑥1 + 𝑥2のとき、
𝑥1, 𝑥2 は？
解が一意に定まらない

解がスパースと仮定する
• 1 = 2𝑥1 + 𝑥2を解く
• 𝑥1, 𝑥2 はスパースと仮定する（𝑥1 = 0?, 𝑥2 = 0?）
• これをL2、L0、L1正則化で解いてみる
48

L2正則化の場合
• 𝐸 𝐷 =
1
2
1 − 2𝑥1 − 𝑥2
2 +
1
2
λ 𝑥1
2
+ 𝑥2
2
の最小化
•
𝑥1
𝑥2
∗
= (λI +
2
1
2 1 )−1 2
1
=
2
λ+5
1
λ+5
解は一意だがスパースでない
49

• 𝐸 𝐷 =
1
2
1 − 2𝑥1 − 𝑥2
2 + λ 𝑗 𝐼 𝑥𝑗 ≠ 0 の最小化
• 非0の値で場合分け
• 𝑥1 = 0のときで計算
• 𝑥2 = 0のときで計算
• 𝑥1 = 0, 𝑥2 = 0のときで計算
組み合わせ最適化問題となり計算量が指数時間なので実際の問
題には適用できない
50

• 𝐸 𝐷 =
1
2
1 − 2𝑥1 − 𝑥2
2 + λ 𝑥1 + λ 𝑥2 の最小化
• λ = 1のとき、
𝑥1
𝑥2
∗
=
3
8
0
スパースに推定してくれる
計算時間は推定アルゴリズムに依存
51

目次
正則化
Lassoの推定アルゴリズム
スパースモデリングの応用
52

Lasso(Least Absolute Shrinkage
and Selection Operator)
𝐸 𝐷 =
1
2
𝒚 − Φ𝒘 2
2
+ λ 𝒘 1（L1正則化）
• 1996年にTibshiraniが提案
• スパース推定をしてくれる
• 凸性を有しているので実時間で推定可能
• 現在のスパースモデリング研究の礎
最小二乗法にL1正則化項をつけたものをLassoと呼ぶ
53

Lassoの派生形
• Lasso [Tibshirani,1996]
• Elastic Net [Zou and Hastie,2005]
• Group Lasso[Yuan and Lin,2006]
• Fused Lasso[Tibshirani et al.,2005]
• Adaptive Lasso[Zou,2006]
• Graphical Lasso[Friedman et al.,2008]
etc…
Lassoをベースとした新しい手法が複数提案されている
54

Lassoの推定アルゴリズム
• Shooting algorithm[Fu,1998]
• LARS[Efron et al.,2004]
• 座標降下法[Friedman et al.,2007]
• 交互方向乗数法[Boyd et al.,2011]
55

LARS(Least angle regression)
• 2004年にEfonが提案
• φ 𝑗
𝑇 𝒚 − Φ𝒘∗ = φ 𝑗′
𝑇 𝒚 − Φ𝒘∗ に注目して作
られたLassoの推定アルゴリズム
• 推定値を原点から最小二乗推定値に近づける
• 非0の推定値を一つずつ増やす
56

使用済み説明変数
• 𝑤𝑗
∗が一度でも非0となったφ 𝑗を使用済み説明変数と呼ぶ
𝐵 = 𝑗 ∈ 1, … , 𝑀 : 𝑤𝑗
∗
≠ 0（一度でも）
57

LARSのアルゴリズム（1/6）
• 予測値𝑦0 = 0からスタート
• （𝒚は中心化、φは基準化）
58
φ1
φ2
𝒚
𝑦0
𝑤 =
0
0
𝑦0 = φ1 φ2 𝑤 =
0
0

• 𝒚 − 𝑦0と内積の絶対値が一番大きいφ 𝑗1
を見つける
• （𝑗1を𝐵に入れる）
⇒この場合はφ1
59
φ1
φ2
𝒚
𝑦0
𝑤 =
0
0
𝑦0 = φ1 φ2 𝑤 =
0
0
𝐵 = {1}

• 𝑤1を 𝒚 − 𝑦0
′
2が小さくなる方向に移動させる
• （ 𝒚 − 𝑦0
′
とφ1の内積の絶対値は小さくなる）
60
φ1
φ2
𝒚
𝑦0
𝒘 =
𝑤1
∗
0
𝑦0
′
= φ1 φ2 𝒘 =
φ1 𝑤1
∗
φ2 𝑤1
∗
𝐵 = {1}
𝑦0
′

• 𝒚 − 𝑦1 φ1 = 𝒚 − 𝑦1 φ 𝑗 となる他の説明変数φ 𝑗2
を
見つける
• （𝑗2を𝐵に入れる）
⇒この場合はφ2
61
φ1
φ2
𝒚
𝑦0
𝒘 =
𝑤1
∗
0
𝑦1 = φ1 φ2 𝒘 =
φ1 𝑤1
∗
φ2 𝑤1
∗
𝐵 = {1,2}
𝑦1

• 𝒚 − 𝑦1
′
φ1 = 𝒚 − 𝑦1
′
φ2 を保ったまま、𝑤1, 𝑤2を
𝒚 − 𝑦1
′
62
φ1
φ2
𝒚
𝑦0
𝒘 =
𝑤1
∗
𝑤2
∗
𝑦1
′
= φ1 φ2 𝒘
𝜇1
′
=
φ1 𝑤1
∗
+ φ1 𝑤2
∗
φ2 𝑤1
∗
+ φ2 𝑤2
∗
𝐵 = {1,2} 𝑦1
𝑦1
′

LARSのアルゴリズム(6/6)
1. 予測値𝑦0 = 0からスタート
2. 𝒚 − 𝑦0と内積の絶対値が一番大きいφ 𝑗1
を見つける
3. 𝑤𝑗1
を 𝒚 − 𝑦0
′
4. 𝒚 − 𝑦1 φ 𝑗1
= 𝒚 − 𝑦1 φ 𝑗2
となる他の説明変数φ 𝑗2
を
見つける
5. 𝒚 − 𝑦1
′
φ 𝑗1
= 𝒚 − 𝑦1
′
φ 𝑗2
を保ったまま、𝑤𝑗1
, 𝑤𝑗2
を
𝒚 − 𝑦1
′
4,5を繰り返し𝒘∗を推定
63

LARSとLassoの違い
• LARS：非0と推定された
推定値が再び0と推定さ
れても予測値ベクトルの
方向は変化しない
• Lasso：非0と推定された
推定値が再び0と推定さ
れると予測値ベクトルの
方向は変化する
64
LARSとLassoは一致しない

LARS-Lasso
• LARSに以下の修正を加える
非ゼロの係数𝑤𝑗が再び0になった場合、𝑗を使用済み説
明変数から取り除き、予測値を再計算して方向を修正
する
• 計算量：最小二乗法と同じ
• コレスキー分解：𝑂 𝑝3 +
𝑛𝑝2
2
• ＱＲ分解：𝑂 𝑛𝑝2
𝑝が大きいと計算量がかなり大きくなる
65

座標降下法
• 1998年にFu先生がShooting algorithmを提案（流行らない）
• 2007年にFriedman達が発展（流行る）
• Shooting algorithmの再発見
• λを固定し、パラメータ毎に他のパラメータを固定して最適化
66

座標降下法のアルゴリズム
1. λを固定し 𝒘 = 𝟎とする
2. For 𝑗 = 1, … , 𝑀
1. 𝑟𝑗を計算する。
2. 𝑤𝑗 ← 𝑆 φ 𝑗
𝑇 𝑟𝑗, λ
3. 収束条件を満たすまでfor文を繰り返す
アルゴリズムが単純、現在大流行
67

座標降下法の収束条件
• 定理（Tseng,2001)
次で表される関数の最小化問題を考える
𝑓 𝒘 = 𝑔 𝒘 +
𝑗=1
𝑀
ℎ𝑗 𝑤𝑗
ただし、𝑔 𝒘 ：微分可能かつ凸関数、ℎ𝑗 𝑤𝑗 ：凸関数
このとき、座標降下法は𝑓の最小値に収束する
• ただしFused Lassoなどは収束条件を満たさない
• 代わりに交互乗数法が使われ、流行りはじめている
68

目次
正則化
代表的なスパース推定法
69

ブラックホールの形はわからない
70
これらは全て想像図

ブラックホールを観測するには？
• ブラックホールは重力が非常に大きいため光も吸
い込む
• ブラックホールの周りにあるガスは吸い込まれると
き光を放ち、これをブラックホールシャドウと言う
ブラックホールシャドウを観測
71

電波干渉計によるイメージング
• 本間希樹（VLBI観測所)さんらがブラックホールの
観測に挑戦
• 電波望遠鏡をまばらに配置し巨大な望遠鏡を作る
（電波干渉計）
• 電波干渉計によりブラックホールを観測
• 電波望遠鏡が配置されたところでしかデータが取
れないためデータが不足
圧縮センシングを使う
72

電波干渉計が観測できる範囲
73
• M-87にあるとされるブラックホールを地球上の6つ
の電波望遠鏡で観測する場合
曲線の範囲しか観測できない
⇔データ不足

圧縮センシング(Candes and Tao,2006)
• 高次元（𝑀）の原信号𝑥が𝑁 × 𝑀行列𝐴 𝑁 < 𝑀
により𝑦 = 𝐴𝑥(+ε)と線形変換されているとき（ε は
観測誤差）、 𝑥がスパースと仮定して少ない（𝑁）観
測𝑦と𝐴から原信号𝑥を予測する
74
𝑦 ≈ 𝐴𝑥（既知）（既知）（未知）
スパースな画像を復元できる

ブラックホールの観測
• ブラックホールの原画像データ
𝑥（高次元）
• 電波干渉計により得られる情報
𝑦 = 𝐴𝑥 + ε（低次元）
𝑥をスパースと仮定して圧縮センシングを行う
75

圧縮センシングとLasso推定
圧縮センシング Lasso推定
原信号𝑥（𝑀次元）パラメータ𝑤（𝑀次元）
行列𝐴 𝑁×𝑀(𝑁 < 𝑀) 計画行列Φ 𝑁×𝑀 (𝑁 < 𝑀)
観測𝑦（𝑁次元）出力𝑦（𝑁次元）
𝑥はスパースと仮定 𝑤はスパースと仮定
𝑦 ≈ 𝐴𝑥 𝑦 ≈ Φ𝑤
76
圧縮センシングの問題はLasso推定で解ける

Lassoを使った実験結果
• M-87のブラックホールを模した画像を使い実験
77
原画像 Lasso推定従来の手法
Lassoは原画像の特徴を捉えている

目次
正則化
79

スパースコーディング仮説
• ニューロンが、感覚入力を少数のニューロンの発
火によって表現しているという仮説
• 今回は、視覚野におけるスパースコーディングを
題材として進める
80

3つの情報表現の関係性
81
集団細胞仮説おばあさん細胞仮説スパースコーディング仮説
1対11対多 1対少
認知と神経活動の関係は
スパースコーディング仮説は
集団細胞仮説とおばあさん細胞仮説の中間

Barlowの仮説(1972)
• 感覚神経系のニューロンにおいて、情報処理過程
の後半に位置するニューロンが、前半に位置する
ニューロンに比べて活動が鈍いことを観測
⇒神経系が情報を処理するとき、処理が進むほど
高次の情報を表現するのではないか？
82
処理の前半のニューロンの表現処理の後半のニューロンの表現
情報処理

V1の過完備性(1981)
• 画像を表現するために入力の次元数（ピクセル数）より大
きい数の細胞を用意することでスパースコーディングを可
能にしている
83
外側膝状体（LGN）とV1の単純型細胞を比較
多くの基底を用意することでスパー
スに表現しても情報が落ちない
LGNの入力よりV1の4層にある
単純型細胞の方が多い

一次視覚野における基底表現
（Olshausen and Field,1996)
• 一次視覚野の単純型細胞には局所性、方位選択性、
周波数選択性がある
• 教師なし学習をにより自然画像から一次視覚野の３
つの性質を持つ基底を学習するアルゴリズムを提案
84
1. 局所性
2. 方位選択性
3. 周波数選択性

局所性
• どの位置のエッジに反応するか
85
局所性がある

方位選択性
• どの向きのエッジに反応するか
86
方位選択性がある

周波数選択性
• どの太さのエッジに反応するか
87

• 主成分分析により自然画像から基底を学習したが
局所性を持たなかった
⇒一次視覚野の基底表現と異なる
88
一次視覚野は主成分分析をしていない
主成分分析から得られた基底

• 自然画像：𝐼 𝑥, 𝑦
• 単純型細胞𝑗の基底表現：φ 𝑗(𝑥, 𝑦)
• 単純型細胞𝑗の活性:𝑎𝑗
• 自然画像を基底と活性の線形和で近似
𝐼 𝑥, 𝑦 ≈
𝑗
𝑎𝑗 φ 𝑗(𝑥, 𝑦)
89

• 活性𝑎𝑗のスパース性を最大化する基底を探す
𝐸 = − preserve information − λ sparseness of 𝑎𝑗
を最小化するφ 𝑗 𝑎𝑗を求める最適化問題を解いた
90

• preserve informationは𝐼 𝑥, 𝑦 と 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦)の
近似精度
• preserve information
= −
𝑥,𝑦
𝐼 𝑥, 𝑦 −
𝑗
2
最小二乗誤差を選んだ
91

• sparseness of 𝑎𝑗は𝑎𝑗のスパース性
• sparseness of 𝑎𝑗
= −
𝑗
𝑆
𝑎𝑗
𝜎
• 𝜎：スケーリング定数
• 𝑆 𝑥 :いろいろな関数で実験した
• 𝑆 𝑥 = −𝑒−𝑥2
, 𝐿𝑜𝑔 1 + 𝑥2
, 𝑥
どの関数も似た結果を導いた
92

• 𝑆 𝑥 = 𝑥 、 𝜎 = 1のとき、
• 𝐸 = − preserve information − λ sparseness of 𝑎𝑗
=
𝑥,𝑦
𝐼 𝑥, 𝑦 −
𝑗
2
+ λ
𝑗
𝑎𝑗
Lassoの誤差関数と同じ
93

• スパース性を最大化する
ことで得られた基底は局
所性、方位選択性、周波
数選択性をもつ
• 一次視覚野の単純型細胞
には局所性、方位選択性、
94
一次視覚野の基底表現は
スパース性を最大化した結果では？
スパース性を最大化して求めた基底

一次視覚野とスパースコーディング
• 過完備性を持つ（多くの基底を用意）
• V1は局所性、方位選択性、周波数選択性を持ち、ス
パース性最大化によって得られた基底と似ている
一次視覚野はスパースコーディングをしているのでは？
95

スパースコーディングの好ましい性質
• 同数のニューロンでより多くの容量を記憶可能
• 過完備性＋スパース性：密で複雑な自然画像を
コーディングすることで、数学的に取り扱いやすい
• 低次のスパース表現を組み合わせることによって
高次の概念を階層的に表現できる
• 発火頻度が少ないため省エネルギー
⇒以上のような仮説に始まってそれを支持する証拠
を集めてきた
96

最新の反駁
• Anton Spanne , Henrik Jörntell
• “Questioning the role of sparse coding in the
brain”(Trends in Neurosciences,2015)
次の2つの点をはじめとしたさまざまな観点からス
パースコーディングの正当性を疑問視
⇒覚せい状態における視覚野の非スパース性
(Berkes,2009)
⇒スパース性最大化という問題設定への疑問：脳
はスパースコーディングを目標としていない？
97

スパースモデリングの今後
• 脳と関係があるかもしれないという仮説からス
パースモデリングは注目を集めた
• 脳がスパースコーディングをしているかはまだ分
からない
• スパースモデリングは圧縮センシングを初めとして、
様々な分野で応用が可能、現在注目を集めている
今後の理論的、実験的研究に期待
98

まとめ
• Lassoがスパース性を獲得することを説明した
• Lassoの代表的な推定アルゴリズム（LARS,座標降
下法）を扱った
• ブラックホールの復元シミュレーションを通して、圧
縮センシングが画像復元に使用されることを説明
した
• スパースコーディング仮説に対する証拠と反論を
概観した
99

参考文献（1/6)
• Spanne, A., & Jörntell, H. (2015). Questioning the role of sparse coding in the
brain. Trends in neurosciences, 38(7), 417-427.
• [Barlow,1981]Barlow, H. B. (1981). The Ferrier Lecture, 1980: Critical limiting
factors in the design of the eye and visual cortex. Proceedings of the Royal
Society of London B: Biological Sciences, 212(1186), 1-34.
• [Barlow,1972]Barlow, H. B. (2009). Single units and sensation: a neuron doctrine
for perceptual psychology?. Perception, (38), 795-8.
• [Boyd et al,2011]Boyd, S., Parikh, N., Chu, E., Peleato, B., & Eckstein, J. (2011).
Distributed optimization and statistical learning via the alternating direction
method of multipliers. Foundations and Trends® in Machine Learning, 3(1), 1-
122.
• [Candès et al.,2006]Candès, E. J., Romberg, J., & Tao, T. (2006). Robust
uncertainty principles: Exact signal reconstruction from highly incomplete
frequency information.Information Theory, IEEE Transactions on, 52(2), 489-509.
• [Efron et al.,2004]Efron, B., Hastie, T., Johnstone, I., & Tibshirani, R. (2004). Least
angle regression. The Annals of statistics, 32(2), 407-499.
100

参考文献（2/6）
• [Friedman et al,2007]Friedman, J., Hastie, T., Höfling, H., & Tibshirani, R. (2007).
Pathwise coordinate optimization. The Annals of Applied Statistics, 1(2), 302-332.
• [Friedman et al.,2008]Friedman, J., Hastie, T., & Tibshirani, R. (2008). Sparse
inverse covariance estimation with the graphical lasso. Biostatistics, 9(3), 432-
441.
• [Friedman et al.,2010]Friedman, J., Hastie, T., & Tibshirani, R. (2010).
Regularization paths for generalized linear models via coordinate
descent. Journal of statistical software, 33(1), 1.
• [Fu,1998]Fu, W. J. (1998). Penalized regressions: the bridge versus the
lasso. Journal of computational and graphical statistics, 7(3), 397-416.
• Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for
nonorthogonal problems. Technometrics, 12(1), 55-67.
• [Honma et al.2014]Honma, M., Akiyama, K., Uemura, M., & Ikeda, S. (2014).
Super-resolution imaging with radio interferometry using sparse
modeling. Publications of the Astronomical Society of Japan, psu070.
101

• [Olshausen et al.,1996]Olshausen, B. A., & Field, D. J.(1996). Emergence of
simple-cell receptive field properties by learning a sparse code for natural
images. Nature, 381(6583), 607-609.
• [Olshausen et al.,1997]Olshausen, B. A., & Field, D. J. (1997). Sparse coding with
an overcomplete basis set: A strategy employed by V1?. Vision research, 37(23),
3311-3325.
• [Olshausen et al.,2004]Olshausen, B. A., & Field, D. J. (2004). Sparse coding of
sensory inputs.Current opinion in neurobiology, 14(4), 481-487.
• [Spanne et al.,2015]Spanne, A., & Jörntell, H. (2015). Questioning the role of
sparse coding in the brain. Trends in neurosciences, 38(7), 417-427.
• [Tibshirani,1996]Tibshirani, R. (1996). Regression shrinkage and selection via the
lasso. Journal of the Royal Statistical Society. Series B (Methodological), 267-288.
• [Tibshirani et al.,2005]Tibshirani, R., Saunders, M., Rosset, S., Zhu, J., & Knight, K.
(2005). Sparsity and smoothness via the fused lasso. Journal of the Royal
Statistical Society: Series B (Statistical Methodology), 67(1), 91-108.
102

参考文献(4/6)
• [Yuan and Lin,2006]Yuan, M., & Lin, Y. (2006). Model selection and estimation in
regression with grouped variables. Journal of the Royal Statistical Society: Series
B (Statistical Methodology), 68(1), 49-67.
• [Zou and Hastie,2005]Zou, H., & Hastie, T. (2005). Regularization and variable
selection via the elastic net. Journal of the Royal Statistical Society: Series B
(Statistical Methodology), 67(2), 301-320.
• [Zou,2006]Zou, H. (2006). The adaptive lasso and its oracle properties. Journal
of the American statistical association, 101(476), 1418-1429.
103

• 池田思朗、本間希樹、植村誠.スパースモデリングと天文学.応用数理 25(1),
15-19, 2015-03-25
• 植木優夫、田宮元.ゲノムワイド関連解析の統計学的問題点とその解決.医学
のあゆみ第230巻12号(2009年9月19日号)(1079-1080)
• 岡田真人.大脳皮質視覚野の情報表現を眺める(研究詳解) (特集地図を描く・
風景を眺める--主成分分析・多次元尺度法とその周辺).統計数理 49(1), 9-21,
2001
• 樺島祥介.圧縮センシングへの統計力学的アプローチ.日本神経回路学会誌 =
The Brain & neural networks 17(2), 70-78, 2010-06-05
• 川野秀一、廣瀬慧、立石正平、小西貞則.回帰モデリングとL1正則化法の最近
の展開.日本統計学会誌第 39 巻, 第 2 号, 2010 年 3 月 211 頁 ∼ 242 頁
• 田中利幸 .圧縮センシングの数理.電子情報通信学会基礎・境界ソサイエティ
Fundamentals Review 4(1), 39-47, 2010
• 寺島裕樹.脳の画像・音声処理戦略を解き明かすスパースモデリング(<特集>
画像と音声処理のスパースモデリングとデータ駆動科学の創成).映像情報メ
ディア学会誌 : 映像情報メディア 68(12), 897-901, 2014-12-01 104

• 廣瀬慧.Lassoタイプの正則化法に基づくスパース推定法を用いた超高次元
データ解(高次元量子トモグラフィにおける統計理論的なアプローチ).数理解析
研究所講究録.1908, 57-77, 2014-08
• 三村和史.圧縮センシング : 疎情報の再構成とそのアルゴリズム (時間周波数
解析の理論とその理工学的応用).数理解析研究所講究録 1803, 26-56, 2012-
08
105

参考書
• 2015年度統計関連学会連合大会チュートリアルセッション
• Trevor Hastie, Robert Tibshirani, Jerome Friedman[著]、統計的学習の基礎、共立出版、2014年
• C.M.ビショップ[著]、パターン認識と機械学習、シュプリンガージャパン(株)、2007年
• 甘利俊一、外川敬介[著]、脳科学大事典、朝倉書店、2000年
• 岡谷貴之[著]、深層学習、講談社、2015年
106

参考資料（HP）
• スパースモデリングの深化と高次元データ駆動科学の創成 http://sparse-modeling.jp/
• 岡田研究室 http://mns.k.u-tokyo.ac.jp/index.php
• 天文屋のためのHow to スパースモデリング http://home.hiroshima-u.ac.jp/uemuram/?page_id=234
• 数理助教の会 http://jokyos.blogspot.jp/
• Lasso-Lars（ぽんのブログ） http://ameblo.jp/p630/entry-11610675456.html
• 脳とネットワーク/The Swingy Brain http://blog.livedoor.jp/brain_network/archives/50968197.html
• GATAG http://www.gatag.net/
• ブラックホールシャドウとkerrパラメータ http://www.phyas.aichi-
edu.ac.jp/~takahasi/Project_H_pdf/BHH130629/takada130629.pdf
• 関数解析の基礎とウェーブレット http://wwwcs.ce.nihon-u.ac.jp/lab/moritaleb224w.pdf
• 過完備基底関数系による関数近似とその近似精度について
http://www.murata.eb.waseda.ac.jp/noboru.murata/paper/mura98_sice_dst.pdf
• Sparse coding スパース符号化 http://www.mbs.med.kyoto-u.ac.jp/cortex/24_Sparse_coding.pdf
• Vision in Brains and Machines http://redwood.berkeley.edu/bruno/talks/olshausen-VSS-talk-slides.pdf
• http://blog.csdn.net/solomon1558/article/details/40951781
• 脳科学辞典
• Wikipedia
107

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

Similar to スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会) (20)

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)