Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

54,468 views

Published on

WBA若手の会が第11回勉強会で発表するスライドです

Published in: Science
  • Be the first to comment

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

  1. 1. スパースモデリング、スパース コーディングとその数理 全脳アーキテクチャ若手の会 第11回勉強会 2015/11/19 東京理科大学3年 神野成海 1
  2. 2. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 2
  3. 3. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 3
  4. 4. 自己紹介 • 神野成海 • 東京理科大学 理学部 数理情報科学科3年 • スパースモデリング歴2ヶ月 4
  5. 5. スパース(疎)とは? • スパースなベクトル: 0 0 0 0 1 0 • スパースな行列: 1 0 0 0 2 0 0 0 2 密ではなく疎らな状態 5
  6. 6. スパースモデリングとは? 1. 問題が複雑 2. データが少ない 解が疎(スパース)と仮定して推定解を得る手法 6
  7. 7. スパースコーディングとは? • ある情報を少ない基底でスパースに表現する情報表現 7 少数の細胞が発火 おばあさんの顔を認知 脳はスパースコーディングをしている?
  8. 8. 今日する話 8 スパースモデリング Lasso [Tibshirani,1996] Lars [Efron et al.,2004] 座標降下法 [Friedman et al.,2007;2010] 圧縮センシング [Candès et al.,2006] ブラックホールの観測シミュレーション [Honma et al.,2014] スパースコーディング Barlowの仮説 [Barlow,1972] V1の過完備性 [Barlow,1981] 一次視覚野における基底表現 [Olshansen and Field,1996]
  9. 9. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 9
  10. 10. 機械学習とは? • 機械に学習アルゴリズムと学習用データを与えて ある能力を学習の中で獲得させる手法 脳っぽい 10
  11. 11. 機械学習の種類 • 教師あり学習←今日はこの話をします • 教師なし学習 • 強化学習 11
  12. 12. 教師あり学習とは? • ある入力𝑥𝑖に対する教師𝑦𝑖を与えて、未知の入力 𝑥 𝑛𝑒𝑤に対してもっともらしい𝑦 𝑝𝑟𝑒𝑑を予測する 𝑦 𝑝𝑟𝑒𝑑を予測する 12 𝑥𝑖, 𝑦𝑖を与えて学習 𝑥 𝑛𝑒𝑤を入力
  13. 13. 教師あり学習で出来ること • 回帰問題 • 分類問題 etc... 今日は回帰問題(線形回帰)を題材にしてお話しします 13
  14. 14. 線形回帰とは? • ある関数𝑓 𝑥 に従うデータ点 𝑥1 ⋮ 𝑥 𝑁 , 𝑦1 ⋮ 𝑦 𝑁 を与える • 既知の関数∅1(𝑥), … , ∅ 𝑀(𝑥)を与える • 𝑓 𝑥 を 𝑗=1 M 𝑤𝑗∅ 𝑗(𝑥)で近似する良い𝑤𝑗を推定 14
  15. 15. 線形和のベクトル表現 φ(𝑥) = ∅1(𝑥) ⋮ ∅ 𝑀(𝑥) , 𝑤 = 𝑤1 ⋮ 𝑤 𝑀 とおけば 𝑗=1 𝑀 𝑤𝑗∅ 𝑗(𝑥) = 𝑤 𝑇φ(𝑥) と表せる(簡単のため今後は𝑤 𝑇φ(𝑥)で表す) 15
  16. 16. 線形回帰の問題設定 • データ数: 𝑁 • 入力データ: 𝒙 = 𝑥1, … , 𝑥 𝑁 𝑇 • 出力データ:𝒚 = 𝑦1, … , 𝑦 𝑁 𝑇 • 特徴量:φ(𝑥) = ∅1(𝑥), … , ∅ 𝑀(𝑥) 𝑇(𝑀次元) • パラメータ:𝑤(𝑀次元) 𝑦を𝑤 𝑇 φ(𝑥)でモデル化する良い𝑤を推定する 16
  17. 17. 線形回帰の例 未知関数 𝑦 = sin 𝑥 (+𝜀)(εは観測誤差)に従うデータ 𝑥𝑖, 𝑦𝑖 𝑖=1 𝑁 を基にsin 𝑥 を∅ 𝑗(𝑥) = 𝑥 𝑗 𝑗 = 1, … , 10 の線形和 でモデル化 目標値: 𝑤 𝑇 = 1,0, − 1 3! , 0, 1 5! , 0, − 1 7! , 0, 1 9! , 0 sin 𝑥 ≈ 𝑤 𝑇 φ(𝑥) = 𝑥1 1! − 𝑥3 3! + 𝑥5 5! − 𝑥7 7! + 𝑥9 9! 17結果、未知の𝑥から𝑦を予測できる
  18. 18. 線形回帰を解く(最小二乗法) • データ 𝑥𝑖, 𝑦𝑖 𝑁個、特徴ベクトルφ(𝒙)(𝑀次元)を用意 • 𝒚を𝒘 𝑇 φ(𝑥)で近似するため • 誤差関数 𝐸 𝐷 = 1 2 𝑖=1 𝑁 𝑦𝑖 − 𝒘 𝑇 φ(𝑥𝑖) 2 を最小化する𝒘を求める 18
  19. 19. 誤差関数の行列表現 • 計画行列 Φ = ∅1(𝑥1) ⋯ ∅ 𝑗(𝑥1) ⋯ ∅ 𝑀(𝑥1) ⋮ ⋮ ⋮ ∅1(𝑥𝑖) ⋯ ∅ 𝑗(𝑥𝑖) ⋯ ∅ 𝑀(𝑥𝑖) ⋮ ⋮ ⋮ ∅1(𝑥 𝑁) ⋯ ∅ 𝑗(𝑥 𝑁) ⋯ ∅ 𝑀(𝑥 𝑁) とおけば、 𝐸 𝐷 = 1 2 𝑖=1 𝑁 𝑦𝑖 − 𝒘 𝑇φ(𝑥𝑖) 2 = 1 2 𝒚 − Φ𝒘 2 2 と表せる(簡単のため今後は 𝒚 − Φ𝒘 2 2 で表す) 19
  20. 20. 最小二乗法(𝑀 < 𝑁) • Φ𝒘は𝑁次元ベクトル空間の (𝑀次元)部分空間𝑆上に存在 • 𝐸 𝐷 の最小化 ⇔𝒚とΦ𝒘の距離の最小化 Φ𝒘 𝑆 φ(𝑥 𝟏) φ(𝑥 𝟐) 𝒚 (図は𝑁 = 3, 𝑀 = 2) 𝑀 < 𝑁のとき解が一意に存在する 20 線分の長さ= 𝐸 𝐷
  21. 21. 最小二乗法(𝑀 ≥ 𝑁) 1. 𝑀 ≥ 𝑁(特徴ベクトルの次元数≥データ数) ⇒ 𝐲とΦ𝒘の距離が0になる ⇔誤差関数が0になる ⇒データに依存してしまう(過学習) 2. φ 𝑗(𝑥)が線形従属 ⇒解が複数存在、逆行列の計算ができない 𝑀 ≥ 𝑁だとうまくいかない 21
  22. 22. 過学習とは? • 訓練データに対して学習されているが、未知デー タに対しては適合できていない状態 (𝑀 < 𝑁でも𝑀が大きいと過学習しやすい) 過学習していない 過学習している 22
  23. 23. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 23
  24. 24. 過学習を防ぐには?(正則化) • 誤差関数𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に • 正則化項𝑅 𝒘 を付け加えることで • 解を一意に求めることができる 24 (誤差項) (正則化項) 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 𝑅 𝒘 正則化
  25. 25. 正則化項の種類 1. L2正則化 (𝑅 𝒘 = 1 2 λ 𝑗 𝑤𝑗 2) 2. L0正則化 (𝑅 𝒘 = λ 𝑗 𝐼 𝑤𝑗 ≠ 0 ) 3. L1正則化 (𝑅 𝒘 = λ 𝑗 𝑤𝑗 ) etc… 今日はこの3つを中心に紹介します 25
  26. 26. L2正則化の定義 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に • 正則化項 1 2 λ 𝒘 2 2 = 1 2 λ 𝑗 𝑤𝑗 2 を付け加える 26 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 1 2 λ 𝒘 2 2 L2正則化
  27. 27. L2正則化の推定解 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 1 2 λ 𝒘 2 2 の最小化 ⇔ 𝑑 𝑑𝒘 𝐸 𝐷 = 0 ⇔𝒘∗ = (λI + Φ 𝑇Φ)−1Φ 𝑇 𝒚 (𝒘∗:最適解) λI + Φ 𝑇 Φは正則なため、 1. λI + Φ 𝑇Φ −1が(実時間で)計算できる 2. 縮小推定により過学習を防げる 27
  28. 28. 縮小推定とは? • 𝒘 が小さくなるよう𝒘を推定することによって過 学習を抑えることができる • L2正則化、L0正則化、L1正則化による推定は全て 縮小推定 28
  29. 29. L2正則化の別表現 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 1 2 λ 𝒘 2 2 の最小化は min 𝒘 1 2 ||𝒚 − Φ𝒘||2 , subject to 1 2 𝒘 2 2 ≤ η のラグランジュ形式 29 𝑤1 𝑤2 𝒘∗ ◎は𝐸 𝐷 の等高線 ○内は 1 2 𝒘 2 2 ≤ ηの実行可能領域図は𝒘 = 𝑤1 𝑤2 𝑟 = 2η ○内で𝐸 𝐷 を最小化する点は ○と◎が接する𝒘∗
  30. 30. L0正則化の定義 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に • 正則化項λ 𝑗 𝐼 𝑤𝑗 ≠ 0 を付け加える 𝐼 𝑤𝑗 ≠ 0 = 1 𝑤𝑗 ≠ 0 0 𝑤𝑗 = 0 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝑗 𝐼 𝑤𝑗 ≠ 0 L0正則化 30
  31. 31. L0正則化の推定解 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝑗 𝐼 𝑤𝑗 ≠ 0 の最小化 ⇔0と推定される𝑤𝑗の組合せで場合分けして解く ⇒𝒘∗ = 0, … , 0, 𝑤𝑗 ∗, 0, … , 0 𝑇 1. ベクトルの成分に0が多くなる(スパース推定してく れる) 2. 縮小推定により過学習を防げる 3. 組み合わせ最適化問題になるため計算量が爆発 31
  32. 32. L1正則化の定義 1. 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に 2. 正則化項λ 𝒘 1 = λ 𝑗 𝑤𝑗 を付け加える 32 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 L1正則化
  33. 33. L1正則化の推定解 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1の最小化 ⇔ 𝑑 𝑑𝒘 𝐸 𝐷 = 0(?) 33 λ 𝒘 1は𝑤𝑗 = 0のとき微分不可能 𝑀 = 1のとき
  34. 34. Active Set • 𝑤𝑗 ∗が非0となる𝑗を集めた集合をActive Setと呼ぶ 𝐴 = 𝑗 ∈ 1, … , 𝑀 : 𝑤𝑗 ∗ ≠ 0 34
  35. 35. 𝐸 𝐷 を𝑤𝑗で微分 (𝑗 ∈ 𝐴) • 𝜕 𝜕𝑤 𝑗 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 = −φ 𝑗 𝑇 𝒚 − Φ𝒘 + λ sign 𝑤𝑗 𝑤𝑗 ≠ 0 • 𝒘 = 𝒘∗のとき 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0より φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = λ sign 𝑤𝑗 ∗ (∀𝑗 ∈ 𝐴) φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗′ 𝑇 𝒚 − Φ𝒘∗ = λ (∀𝑗, 𝑗′ ∈ 𝐴) 35 +1 or − 1
  36. 36. λと𝒘の関係(1/3) • λが十分に大きいとき、 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 を最小化する𝒘は零ベクトル λが十分に大きいとき𝒘∗は零ベクトル 36
  37. 37. λと𝒘の関係(2/3) 1. 非0の推定値𝑤𝑗1 ∗を得るまで連続的にλを小さくする ⇒𝑗1はActive Setに入る 2. さらにλを小さくすると、非0の推定値𝑤𝑗2 ∗が現れる ⇒𝑗2はActive Setに入る (途中𝑤𝑗1 ≠ 0ならば) φ 𝑗1 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗2 𝑇 𝒚 − Φ𝒘∗ = λ 37
  38. 38. λと𝒘の関係(3/3) 3. さらにλを小さくすると、非0の推定値𝑤𝑗3 ∗が現れる ⇒𝑗3はActive Setに入る (途中𝑤𝑗1 , 𝑤𝑗2 ≠ 0ならば) λ = φ 𝑗1 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗2 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗3 𝑇 𝒚 − Φ𝒘∗ 38
  39. 39. 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0 𝒘=𝒘∗を𝑤𝑗 ∗ (𝑗 ∈ 𝐴)で解く(1/3) • 𝜕 𝜕𝑤 𝑗 1 2 𝒚 − Φ𝒘 2 2 = −φ 𝑗 𝑇 𝒚 − Φ𝒘 • −φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = −φ 𝑗 𝑇 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 − 𝑤𝑗 ∗ φ 𝑗 = 0 を𝑤𝑗 ∗ で解く 𝑤𝑗 ∗ = φ 𝑗 𝑇 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 φ 𝑗 𝑇 𝑟𝑗は最小二乗推定解 39 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 = 𝑟𝑗とおくと
  40. 40. 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0 𝒘=𝒘∗を𝑤𝑗 ∗ (𝑗 ∈ 𝐴)で解く(2/3) • 𝜕 𝜕𝑤 𝑗 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 = −φ 𝑗 𝑇 𝒚 − Φ𝒘 + λ sign 𝑤𝑗 𝑤𝑗 ≠ 0 • −φ 𝑗 𝑇 𝒚 − Φ𝒘∗ + λ sign 𝑤𝑗 ∗ = −φ 𝑗 𝑇 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 − 𝑤𝑗 ∗ φ 𝑗 + λ sign 𝑤𝑗 ∗ = −φ 𝑗 𝑇 𝑟𝑗 − 𝑤𝑗 ∗ φ 𝑗 + λ sign 𝑤𝑗 ∗ = 0 を𝑤𝑗 ∗ で解く 𝑤𝑗 ∗ = φ 𝑗 𝑇 𝑟𝑗 − λ sign 𝑤𝑗 ∗ 40
  41. 41. 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0 𝒘=𝒘∗を𝑤𝑗 ∗ (𝑗 ∈ 𝐴)で解く(3/3) • 𝑤𝑗 ∗ = φ 𝑗 𝑇 𝑟𝑗 − λ sign 𝑤𝑗 ∗ = S φ 𝑗 𝑇 𝑟𝑗, λ (ソフト閾値処理) • 𝑆 φ 𝑗 𝑇 𝑟𝑗, λ = sign φ 𝑗 𝑇 𝑟𝑗 φ 𝑗 𝑇 𝑟𝑗 − λ + = φ 𝑗 𝑇 𝑟𝑗 − λ φ 𝑗 𝑇 𝑟𝑗 + λ 0 41 if φ 𝑗 𝑇 𝑟𝑗 > 0 and λ < φ 𝑗 𝑇 𝑟𝑗 if φ 𝑗 𝑇 𝑟𝑗 < 0 and λ < φ 𝑗 𝑇 𝑟𝑗 if λ > φ 𝑗 𝑇 𝑟𝑗 φ 𝑗 𝑇 𝑟𝑗 𝑤𝑗 ∗ λ −λ λ λ L1正則化による推定解は 最小二乗推定解から λを引くor0にしたもの L1正則解 最小二乗推定解
  42. 42. L1正則化の推定解 • 推定解はソフト閾値処理により 42 1. スパース推定してくれる 2. 縮小推定により過学習を防げる
  43. 43. L1正則化の別表現 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1は min 𝒘 1 2 ||𝒚 − Φ𝒘||2 , subject to 𝒘 1 ≤ η のラグランジュ形式 43 𝑤2 𝑤1 𝒘∗ ◎は 1 2 ||𝒚 − Φ𝒘||2 の等高線 ◇内は 𝒘 1 ≤ ηの実行可能領域 図は𝒘 = 𝑤1 𝑤2 η ◇内で𝐸 𝐷 を最小化する点は ◇と◎が接する𝒘∗
  44. 44. L2正則化項とL1正則化項の凸性 44 L2正則化項とL1正則化項は凸性を持っている ⇒効率的なアルゴリズムを適用可能 𝑀 = 1のとき
  45. 45. L1正則化とL2正則化の比較 45 L2正則化 L1正則化 L1正則化はスパース推定してくれる
  46. 46. スパースモデリングの具体例 1. 問題が複雑 2. データが少ない 解が疎(スパース)と仮定して推定解を得る 46
  47. 47. 問題が複雑でデータが少ないとは? 1. 問題が複雑 ⇒変数が多い 2. データが少ない ⇒解くための情報が少ない 47 不良設定問題 1 = 2𝑥1 + 𝑥2のとき、 𝑥1, 𝑥2 は? 解が一意に定まらない
  48. 48. 解がスパースと仮定する • 1 = 2𝑥1 + 𝑥2を解く • 𝑥1, 𝑥2 はスパースと仮定する(𝑥1 = 0?, 𝑥2 = 0?) • これをL2、L0、L1正則化で解いてみる 48
  49. 49. L2正則化の場合 • 𝐸 𝐷 = 1 2 1 − 2𝑥1 − 𝑥2 2 + 1 2 λ 𝑥1 2 + 𝑥2 2 の最小化 • 𝑥1 𝑥2 ∗ = (λI + 2 1 2 1 )−1 2 1 = 2 λ+5 1 λ+5 解は一意だがスパースでない 49
  50. 50. L0正則化の場合 • 𝐸 𝐷 = 1 2 1 − 2𝑥1 − 𝑥2 2 + λ 𝑗 𝐼 𝑥𝑗 ≠ 0 の最小化 • 非0の値で場合分け • 𝑥1 = 0のときで計算 • 𝑥2 = 0のときで計算 • 𝑥1 = 0, 𝑥2 = 0のときで計算 組み合わせ最適化問題となり計算量が指数時間なので実際の問 題には適用できない 50
  51. 51. L1正則化の場合 • 𝐸 𝐷 = 1 2 1 − 2𝑥1 − 𝑥2 2 + λ 𝑥1 + λ 𝑥2 の最小化 • λ = 1のとき、 𝑥1 𝑥2 ∗ = 3 8 0 スパースに推定してくれる 計算時間は推定アルゴリズムに依存 51
  52. 52. 目次 イントロダクション 教師あり学習の導入 正則化 Lassoの推定アルゴリズム スパースモデリングの応用 脳とスパースコーディングの関係 52
  53. 53. Lasso(Least Absolute Shrinkage and Selection Operator) 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1(L1正則化) • 1996年にTibshiraniが提案 • スパース推定をしてくれる • 凸性を有しているので実時間で推定可能 • 現在のスパースモデリング研究の礎 最小二乗法にL1正則化項をつけたものをLassoと呼ぶ 53
  54. 54. Lassoの派生形 • Lasso [Tibshirani,1996] • Elastic Net [Zou and Hastie,2005] • Group Lasso[Yuan and Lin,2006] • Fused Lasso[Tibshirani et al.,2005] • Adaptive Lasso[Zou,2006] • Graphical Lasso[Friedman et al.,2008] etc… Lassoをベースとした新しい手法が複数提案されている 54
  55. 55. Lassoの推定アルゴリズム • Shooting algorithm[Fu,1998] • LARS[Efron et al.,2004] • 座標降下法[Friedman et al.,2007] • 交互方向乗数法[Boyd et al.,2011] 55
  56. 56. LARS(Least angle regression) • 2004年にEfonが提案 • φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗′ 𝑇 𝒚 − Φ𝒘∗ に注目して作 られたLassoの推定アルゴリズム • 推定値を原点から最小二乗推定値に近づける • 非0の推定値を一つずつ増やす 56
  57. 57. 使用済み説明変数 • 𝑤𝑗 ∗が一度でも非0となったφ 𝑗を使用済み説明変数と呼ぶ 𝐵 = 𝑗 ∈ 1, … , 𝑀 : 𝑤𝑗 ∗ ≠ 0(一度でも) 57
  58. 58. LARSのアルゴリズム(1/6) • 予測値𝑦0 = 0からスタート • (𝒚は中心化、φは基準化) 58 φ1 φ2 𝒚 𝑦0 𝑤 = 0 0 𝑦0 = φ1 φ2 𝑤 = 0 0
  59. 59. LARSのアルゴリズム(2/6) • 𝒚 − 𝑦0と内積の絶対値が一番大きいφ 𝑗1 を見つける • (𝑗1を𝐵に入れる) ⇒この場合はφ1 59 φ1 φ2 𝒚 𝑦0 𝑤 = 0 0 𝑦0 = φ1 φ2 𝑤 = 0 0 𝐵 = {1}
  60. 60. LARSのアルゴリズム(3/6) • 𝑤1を 𝒚 − 𝑦0 ′ 2が小さくなる方向に移動させる • ( 𝒚 − 𝑦0 ′ とφ1の内積の絶対値は小さくなる) 60 φ1 φ2 𝒚 𝑦0 𝒘 = 𝑤1 ∗ 0 𝑦0 ′ = φ1 φ2 𝒘 = φ1 𝑤1 ∗ φ2 𝑤1 ∗ 𝐵 = {1} 𝑦0 ′
  61. 61. LARSのアルゴリズム(4/6) • 𝒚 − 𝑦1 φ1 = 𝒚 − 𝑦1 φ 𝑗 となる他の説明変数φ 𝑗2 を 見つける • (𝑗2を𝐵に入れる) ⇒この場合はφ2 61 φ1 φ2 𝒚 𝑦0 𝒘 = 𝑤1 ∗ 0 𝑦1 = φ1 φ2 𝒘 = φ1 𝑤1 ∗ φ2 𝑤1 ∗ 𝐵 = {1,2} 𝑦1
  62. 62. LARSのアルゴリズム(5/6) • 𝒚 − 𝑦1 ′ φ1 = 𝒚 − 𝑦1 ′ φ2 を保ったまま、𝑤1, 𝑤2を 𝒚 − 𝑦1 ′ 2が小さくなる方向に移動させる 62 φ1 φ2 𝒚 𝑦0 𝒘 = 𝑤1 ∗ 𝑤2 ∗ 𝑦1 ′ = φ1 φ2 𝒘 𝜇1 ′ = φ1 𝑤1 ∗ + φ1 𝑤2 ∗ φ2 𝑤1 ∗ + φ2 𝑤2 ∗ 𝐵 = {1,2} 𝑦1 𝑦1 ′
  63. 63. LARSのアルゴリズム(6/6) 1. 予測値𝑦0 = 0からスタート 2. 𝒚 − 𝑦0と内積の絶対値が一番大きいφ 𝑗1 を見つける 3. 𝑤𝑗1 を 𝒚 − 𝑦0 ′ 2が小さくなる方向に移動させる 4. 𝒚 − 𝑦1 φ 𝑗1 = 𝒚 − 𝑦1 φ 𝑗2 となる他の説明変数φ 𝑗2 を 見つける 5. 𝒚 − 𝑦1 ′ φ 𝑗1 = 𝒚 − 𝑦1 ′ φ 𝑗2 を保ったまま、𝑤𝑗1 , 𝑤𝑗2 を 𝒚 − 𝑦1 ′ 2が小さくなる方向に移動させる 4,5を繰り返し𝒘∗を推定 63
  64. 64. LARSとLassoの違い • LARS:非0と推定された 推定値が再び0と推定さ れても予測値ベクトルの 方向は変化しない • Lasso:非0と推定された 推定値が再び0と推定さ れると予測値ベクトルの 方向は変化する 64 LARSとLassoは一致しない
  65. 65. LARS-Lasso • LARSに以下の修正を加える 非ゼロの係数𝑤𝑗が再び0になった場合、𝑗を使用済み説 明変数から取り除き、予測値を再計算して方向を修正 する • 計算量:最小二乗法と同じ • コレスキー分解:𝑂 𝑝3 + 𝑛𝑝2 2 • QR分解:𝑂 𝑛𝑝2 𝑝が大きいと計算量がかなり大きくなる 65
  66. 66. 座標降下法 • 1998年にFu先生がShooting algorithmを提案(流行らない) • 2007年にFriedman達が発展(流行る) • Shooting algorithmの再発見 • λを固定し、パラメータ毎に他のパラメータを固定して最適化 66
  67. 67. 座標降下法のアルゴリズム 1. λを固定し 𝒘 = 𝟎とする 2. For 𝑗 = 1, … , 𝑀 1. 𝑟𝑗を計算する。 2. 𝑤𝑗 ← 𝑆 φ 𝑗 𝑇 𝑟𝑗, λ 3. 収束条件を満たすまでfor文を繰り返す アルゴリズムが単純、現在大流行 67
  68. 68. 座標降下法の収束条件 • 定理(Tseng,2001) 次で表される関数の最小化問題を考える 𝑓 𝒘 = 𝑔 𝒘 + 𝑗=1 𝑀 ℎ𝑗 𝑤𝑗 ただし、𝑔 𝒘 :微分可能かつ凸関数、ℎ𝑗 𝑤𝑗 :凸関数 このとき、 座標降下法は𝑓の最小値に収束する • ただしFused Lassoなどは収束条件を満たさない • 代わりに交互乗数法が使われ、流行りはじめている 68
  69. 69. 目次 イントロダクション 教師あり学習の導入 正則化 代表的なスパース推定法 圧縮センシング 脳とスパースコーディングの関係 69
  70. 70. ブラックホールの形はわからない 70 これらは全て想像図
  71. 71. ブラックホールを観測するには? • ブラックホールは重力が非常に大きいため光も吸 い込む • ブラックホールの周りにあるガスは吸い込まれると き光を放ち、これをブラックホールシャドウと言う ブラックホールシャドウを観測 71
  72. 72. 電波干渉計によるイメージング • 本間希樹(VLBI観測所)さんらがブラックホールの 観測に挑戦 • 電波望遠鏡をまばらに配置し巨大な望遠鏡を作る (電波干渉計) • 電波干渉計によりブラックホールを観測 • 電波望遠鏡が配置されたところでしかデータが取 れないためデータが不足 圧縮センシングを使う 72
  73. 73. 電波干渉計が観測できる範囲 73 • M-87にあるとされるブラックホールを地球上の6つ の電波望遠鏡で観測する場合 曲線の範囲しか観測できない ⇔データ不足
  74. 74. 圧縮センシング(Candes and Tao,2006) • 高次元(𝑀)の原信号𝑥が𝑁 × 𝑀行列𝐴 𝑁 < 𝑀 により𝑦 = 𝐴𝑥(+ε)と線形変換されているとき (ε は 観測誤差) 、 𝑥がスパースと仮定して少ない(𝑁)観 測𝑦と𝐴から原信号𝑥を予測する 74 𝑦 ≈ 𝐴𝑥(既知) (既知) (未知) スパースな画像を復元できる
  75. 75. ブラックホールの観測 • ブラックホールの原画像データ 𝑥(高次元) • 電波干渉計により得られる情報 𝑦 = 𝐴𝑥 + ε(低次元) 𝑥をスパースと仮定して圧縮センシングを行う 75
  76. 76. 圧縮センシングとLasso推定 圧縮センシング Lasso推定 原信号𝑥(𝑀次元) パラメータ𝑤(𝑀次元) 行列𝐴 𝑁×𝑀(𝑁 < 𝑀) 計画行列Φ 𝑁×𝑀 (𝑁 < 𝑀) 観測𝑦(𝑁次元) 出力𝑦(𝑁次元) 𝑥はスパースと仮定 𝑤はスパースと仮定 𝑦 ≈ 𝐴𝑥 𝑦 ≈ Φ𝑤 76 圧縮センシングの問題はLasso推定で解ける
  77. 77. Lassoを使った実験結果 • M-87のブラックホールを模した画像を使い実験 77 原画像 Lasso推定従来の手法 Lassoは原画像の特徴を捉えている
  78. 78. 今後の研究に期待 78
  79. 79. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 79
  80. 80. スパースコーディング仮説 • ニューロンが、感覚入力を少数のニューロンの発 火によって表現しているという仮説 • 今回は、視覚野におけるスパースコーディングを 題材として進める 80
  81. 81. 3つの情報表現の関係性 81 集団細胞仮説 おばあさん細胞仮説スパースコーディング仮説 1対11対多 1対少 認知と神経活動の関係は スパースコーディング仮説は 集団細胞仮説とおばあさん細胞仮説の中間
  82. 82. Barlowの仮説(1972) • 感覚神経系のニューロンにおいて、情報処理過程 の後半に位置するニューロンが、前半に位置する ニューロンに比べて活動が鈍いことを観測 ⇒神経系が情報を処理するとき、処理が進むほど 高次の情報を表現するのではないか? 82 処理の前半のニューロンの表現 処理の後半のニューロンの表現 情報処理
  83. 83. V1の過完備性(1981) • 画像を表現するために入力の次元数(ピクセル数)より大 きい数の細胞を用意することでスパースコーディングを可 能にしている 83 外側膝状体(LGN)とV1の単純型細胞を比較 多くの基底を用意することでスパー スに表現しても情報が落ちない LGNの入力よりV1の4層にある 単純型細胞の方が多い
  84. 84. 一次視覚野における基底表現 (Olshausen and Field,1996) • 一次視覚野の単純型細胞には局所性、方位選択性、 周波数選択性がある • 教師なし学習をにより自然画像から一次視覚野の3 つの性質を持つ基底を学習するアルゴリズムを提案 84 1. 局所性 2. 方位選択性 3. 周波数選択性
  85. 85. 局所性 • どの位置のエッジに反応するか 85 局所性がある
  86. 86. 方位選択性 • どの向きのエッジに反応するか 86 方位選択性がある
  87. 87. 周波数選択性 • どの太さのエッジに反応するか 87 周波数選択性がある
  88. 88. 一次視覚野における基底表現 (Olshausen and Field,1996) • 主成分分析により自然画像から基底を学習したが 局所性を持たなかった ⇒一次視覚野の基底表現と異なる 88 一次視覚野は主成分分析をしていない 主成分分析から得られた基底
  89. 89. 一次視覚野における基底表現 (Olshausen and Field,1996) • 自然画像:𝐼 𝑥, 𝑦 • 単純型細胞𝑗の基底表現:φ 𝑗(𝑥, 𝑦) • 単純型細胞𝑗の活性:𝑎𝑗 • 自然画像を基底と活性の線形和で近似 𝐼 𝑥, 𝑦 ≈ 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦) 89
  90. 90. 一次視覚野における基底表現 (Olshausen and Field,1996) • 活性𝑎𝑗のスパース性を最大化する基底を探す 𝐸 = − preserve information − λ sparseness of 𝑎𝑗 を最小化するφ 𝑗 𝑎𝑗を求める最適化問題を解いた 90
  91. 91. 一次視覚野における基底表現 (Olshausen and Field,1996) • preserve informationは𝐼 𝑥, 𝑦 と 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦)の 近似精度 • preserve information = − 𝑥,𝑦 𝐼 𝑥, 𝑦 − 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦) 2 最小二乗誤差を選んだ 91
  92. 92. 一次視覚野における基底表現 (Olshausen and Field,1996) • sparseness of 𝑎𝑗は𝑎𝑗のスパース性 • sparseness of 𝑎𝑗 = − 𝑗 𝑆 𝑎𝑗 𝜎 • 𝜎:スケーリング定数 • 𝑆 𝑥 :いろいろな関数で実験した • 𝑆 𝑥 = −𝑒−𝑥2 , 𝐿𝑜𝑔 1 + 𝑥2 , 𝑥 どの関数も似た結果を導いた 92
  93. 93. 一次視覚野における基底表現 (Olshausen and Field,1996) • 𝑆 𝑥 = 𝑥 、 𝜎 = 1のとき、 • 𝐸 = − preserve information − λ sparseness of 𝑎𝑗 = 𝑥,𝑦 𝐼 𝑥, 𝑦 − 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦) 2 + λ 𝑗 𝑎𝑗 Lassoの誤差関数と同じ 93
  94. 94. 一次視覚野における基底表現 (Olshausen and Field,1996) • スパース性を最大化する ことで得られた基底は局 所性、方位選択性、周波 数選択性をもつ • 一次視覚野の単純型細胞 には局所性、方位選択性、 周波数選択性がある 94 一次視覚野の基底表現は スパース性を最大化した結果では? スパース性を最大化して求めた基底
  95. 95. 一次視覚野とスパースコーディング • 過完備性を持つ(多くの基底を用意) • V1は局所性、方位選択性、周波数選択性を持ち、ス パース性最大化によって得られた基底と似ている 一次視覚野はスパースコーディングをしているのでは? 95
  96. 96. スパースコーディングの好ましい性質 • 同数のニューロンでより多くの容量を記憶可能 • 過完備性+スパース性:密で複雑な自然画像を コーディングすることで、数学的に取り扱いやすい • 低次のスパース表現を組み合わせることによって 高次の概念を階層的に表現できる • 発火頻度が少ないため省エネルギー ⇒以上のような仮説に始まってそれを支持する証拠 を集めてきた 96
  97. 97. 最新の反駁 • Anton Spanne , Henrik Jörntell • “Questioning the role of sparse coding in the brain”(Trends in Neurosciences,2015) 次の2つの点をはじめとしたさまざまな観点からス パースコーディングの正当性を疑問視 ⇒覚せい状態における視覚野の非スパース性 (Berkes,2009) ⇒スパース性最大化という問題設定への疑問:脳 はスパースコーディングを目標としていない? 97
  98. 98. スパースモデリングの今後 • 脳と関係があるかもしれないという仮説からス パースモデリングは注目を集めた • 脳がスパースコーディングをしているかはまだ分 からない • スパースモデリングは圧縮センシングを初めとして、 様々な分野で応用が可能、現在注目を集めている 今後の理論的、実験的研究に期待 98
  99. 99. まとめ • Lassoがスパース性を獲得することを説明した • Lassoの代表的な推定アルゴリズム(LARS,座標降 下法)を扱った • ブラックホールの復元シミュレーションを通して、圧 縮センシングが画像復元に使用されることを説明 した • スパースコーディング仮説に対する証拠と反論を 概観した 99
  100. 100. 参考文献(1/6) • Spanne, A., & Jörntell, H. (2015). Questioning the role of sparse coding in the brain. Trends in neurosciences, 38(7), 417-427. • [Barlow,1981]Barlow, H. B. (1981). The Ferrier Lecture, 1980: Critical limiting factors in the design of the eye and visual cortex. Proceedings of the Royal Society of London B: Biological Sciences, 212(1186), 1-34. • [Barlow,1972]Barlow, H. B. (2009). Single units and sensation: a neuron doctrine for perceptual psychology?. Perception, (38), 795-8. • [Boyd et al,2011]Boyd, S., Parikh, N., Chu, E., Peleato, B., & Eckstein, J. (2011). Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends® in Machine Learning, 3(1), 1- 122. • [Candès et al.,2006]Candès, E. J., Romberg, J., & Tao, T. (2006). Robust uncertainty principles: Exact signal reconstruction from highly incomplete frequency information.Information Theory, IEEE Transactions on, 52(2), 489-509. • [Efron et al.,2004]Efron, B., Hastie, T., Johnstone, I., & Tibshirani, R. (2004). Least angle regression. The Annals of statistics, 32(2), 407-499. 100
  101. 101. 参考文献(2/6) • [Friedman et al,2007]Friedman, J., Hastie, T., Höfling, H., & Tibshirani, R. (2007). Pathwise coordinate optimization. The Annals of Applied Statistics, 1(2), 302-332. • [Friedman et al.,2008]Friedman, J., Hastie, T., & Tibshirani, R. (2008). Sparse inverse covariance estimation with the graphical lasso. Biostatistics, 9(3), 432- 441. • [Friedman et al.,2010]Friedman, J., Hastie, T., & Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent. Journal of statistical software, 33(1), 1. • [Fu,1998]Fu, W. J. (1998). Penalized regressions: the bridge versus the lasso. Journal of computational and graphical statistics, 7(3), 397-416. • Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55-67. • [Honma et al.2014]Honma, M., Akiyama, K., Uemura, M., & Ikeda, S. (2014). Super-resolution imaging with radio interferometry using sparse modeling. Publications of the Astronomical Society of Japan, psu070. 101
  102. 102. 参考文献(3/6) • [Olshausen et al.,1996]Olshausen, B. A., & Field, D. J.(1996). Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381(6583), 607-609. • [Olshausen et al.,1997]Olshausen, B. A., & Field, D. J. (1997). Sparse coding with an overcomplete basis set: A strategy employed by V1?. Vision research, 37(23), 3311-3325. • [Olshausen et al.,2004]Olshausen, B. A., & Field, D. J. (2004). Sparse coding of sensory inputs.Current opinion in neurobiology, 14(4), 481-487. • [Spanne et al.,2015]Spanne, A., & Jörntell, H. (2015). Questioning the role of sparse coding in the brain. Trends in neurosciences, 38(7), 417-427. • [Tibshirani,1996]Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), 267-288. • [Tibshirani et al.,2005]Tibshirani, R., Saunders, M., Rosset, S., Zhu, J., & Knight, K. (2005). Sparsity and smoothness via the fused lasso. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(1), 91-108. 102
  103. 103. 参考文献(4/6) • [Yuan and Lin,2006]Yuan, M., & Lin, Y. (2006). Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1), 49-67. • [Zou and Hastie,2005]Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(2), 301-320. • [Zou,2006]Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American statistical association, 101(476), 1418-1429. 103
  104. 104. 参考文献(5/6) • 池田思朗、本間希樹、植村誠.スパースモデリングと天文学.応用数理 25(1), 15-19, 2015-03-25 • 植木優夫、田宮元.ゲノムワイド関連解析の統計学的問題点とその解決.医学 のあゆみ 第230巻12号(2009年9月19日号)(1079-1080) • 岡田真人.大脳皮質視覚野の情報表現を眺める(研究詳解) (特集 地図を描く・ 風景を眺める--主成分分析・多次元尺度法とその周辺).統計数理 49(1), 9-21, 2001 • 樺島祥介.圧縮センシングへの統計力学的アプローチ.日本神経回路学会誌 = The Brain & neural networks 17(2), 70-78, 2010-06-05 • 川野秀一、廣瀬慧、立石正平、小西貞則.回帰モデリングとL1正則化法の最近 の展開.日本統計学会誌 第 39 巻, 第 2 号, 2010 年 3 月 211 頁 ∼ 242 頁 • 田中利幸 .圧縮センシングの数理.電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review 4(1), 39-47, 2010 • 寺島 裕樹.脳の画像・音声処理戦略を解き明かすスパースモデリング(<特集> 画像と音声処理のスパースモデリングとデータ駆動科学の創成).映像情報メ ディア学会誌 : 映像情報メディア 68(12), 897-901, 2014-12-01 104
  105. 105. 参考文献(6/6) • 廣瀬 慧.Lassoタイプの正則化法に基づくスパース推定法を用いた 超高次元 データ解(高次元量子トモグラフィにおける統計理論的なアプローチ).数理解析 研究所講究録.1908, 57-77, 2014-08 • 三村和史.圧縮センシング : 疎情報の再構成とそのアルゴリズム (時間周波数 解析の理論とその理工学的応用).数理解析研究所講究録 1803, 26-56, 2012- 08 105
  106. 106. 参考書 • 2015年度統計関連学会連合大会チュートリアルセッション • Trevor Hastie, Robert Tibshirani, Jerome Friedman[著]、統計的学習の基礎、共立出版、2014年 • C.M.ビショップ[著]、パターン認識と機械学習、シュプリンガージャパン(株)、2007年 • 甘利俊一、外川敬介[著]、脳科学大事典、朝倉書店、2000年 • 岡谷貴之[著]、深層学習、講談社、2015年 106
  107. 107. 参考資料(HP) • スパースモデリングの深化と高次元データ駆動科学の創成 http://sparse-modeling.jp/ • 岡田研究室 http://mns.k.u-tokyo.ac.jp/index.php • 天文屋のためのHow to スパースモデリング http://home.hiroshima-u.ac.jp/uemuram/?page_id=234 • 数理助教の会 http://jokyos.blogspot.jp/ • Lasso-Lars(ぽんのブログ) http://ameblo.jp/p630/entry-11610675456.html • 脳とネットワーク/The Swingy Brain http://blog.livedoor.jp/brain_network/archives/50968197.html • GATAG http://www.gatag.net/ • ブラックホールシャドウとkerrパラメータ http://www.phyas.aichi- edu.ac.jp/~takahasi/Project_H_pdf/BHH130629/takada130629.pdf • 関数解析の基礎とウェーブレット http://wwwcs.ce.nihon-u.ac.jp/lab/moritaleb224w.pdf • 過完備基底関数系による関数近似と その近似精度について http://www.murata.eb.waseda.ac.jp/noboru.murata/paper/mura98_sice_dst.pdf • Sparse coding スパース符号化 http://www.mbs.med.kyoto-u.ac.jp/cortex/24_Sparse_coding.pdf • Vision in Brains and Machines http://redwood.berkeley.edu/bruno/talks/olshausen-VSS-talk-slides.pdf • http://blog.csdn.net/solomon1558/article/details/40951781 • 脳科学辞典 • Wikipedia 107

×