Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節

1,803 views

Published on

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ)の勉強会の資料です。

3.3節と3.4節のスライドです。

Published in: Data & Analytics
  • Be the first to comment

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節

  1. 1. スパース性に基づく機械学習 3.3〜3.4節 機械学習プロフェッショナルシリーズ @St_Hakky
  2. 2. 自己紹介と告知 • Twitter : @St_Hakky • ブログ:http://st-hakky.hatenablog.com/ • 関西で機械学習勉強会を実施中!! • 団体のモットー: • 圧倒的スピード感で大量の書物と論文をぶった切る • 「えっ、まだ読んでないの?」と煽り奉り、輪講会を乱立させる • 過去のイベント例 • PRML輪講会、PRML上巻/下巻一気読み • データ解析のための統計モデリング入門の輪講会 • わかりやすいパターン認識(続)の輪講会 • 参加したい方は、Facebookのグループにまずは参加を。 • URL :https://www.facebook.com/groups/1767916400127792/
  3. 3. スパース性に基づく機械学習の 3.3〜3.4節をやります
  4. 4. コンテンツ • 3.3 : 人口データを用いた説明 • 3.4 : 文献に関する補遺
  5. 5. 人口データを用いた説明 • 実際にデータを用いて𝑙1ノルム正則化の効果を示す。 • 効果を示すために、以下を行う 1. パラメータの生成 2. 入力データの生成 3. 出力値の生成 4. 損失関数の設定
  6. 6. データの生成方法 • 𝑑 : 200次元 • 𝒘∗:真の回帰係数ベクトル • 最初のk=10個の要素が非ゼロで、残りの要素がゼロになるように ランダムに選ぶ • 𝑛をサンプル数として、𝑋 ∈ ℝ 𝑛 ×dを次スライドのように生成 する
  7. 7. 𝑋 ∈ ℝ 𝑛 ×d の生成方法 • 𝑋の各列について以下のように処理をする。 • 初めのk列:真の回帰係数ベクトルと直交するベクトルと弱い相関 を持つ正規分布から生成 • 残りのdーk列:相関のない正規分布から生成
  8. 8. 出力𝑦の生成方法 • 最後に、出力𝑦を以下の式で生成 • ξ : n次元のベクトルで各要素が独立同一に標準正規分布 𝑁(0,1)に従って生成
  9. 9. 損失関数 • 今回の生成モデルでは、𝑖番目のサンプル𝑦𝑖は𝒙𝒊 𝑻 𝒘∗ を平均 とする正規分布に従う。これにより、損失関数は、以下が 考えられる。
  10. 10. 比較の対象とする手法 • 比較の対象とする手法は、以下の通りである。 • 𝐿1 (𝑙1ノルム正則化付き最小二乗法) • 𝐿2 (𝑙2ノルム正則化付き最小二乗法:リッジ回帰) • 𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘 • 2𝑠𝑡𝑒𝑝𝑠 • 𝑂𝑝𝑡𝑖𝑜𝑚𝑎𝑙 (二乗回帰モデル) • 上記の手法についてそれぞれ説明する
  11. 11. 𝐿1(𝑙1ノルム正則化付き最小二乗法) • 𝑙1ノルム正則化付き最小二乗法と等しい • 正則化パラメータはλ = λ0/ 𝑛とし、λ0は10−3~103の区間 を対数線形に20等分した値を候補として用い、この中で得 られた最小の誤差を示す
  12. 12. 𝐿2 (𝑙2ノルム正則化付き最小二乗法:リッジ回帰) • この手法では、以下の最適化問題の解として得られる • 正則化パラメータはλ = λ0/ 𝑛とし、λ0は10−6~106の区間 を対数線形に20等分した値を候補として用い、この中で得 られた最小の誤差を示す
  13. 13. 𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘 • この手法では、初めにL2の解を得た後、重みベクトル 𝒘の 絶対値の大きい順にk個の係数を残して、残りをゼロに打 ち切る
  14. 14. 2𝑠𝑡𝑒𝑝𝑠 • この手法は、各変数𝑗 = 1, … , 𝑑ごとに1変数相関 1/𝑛 𝑖=1 𝑛 𝑦𝑖 𝑥𝑖𝑗を計算し、相関の絶対値の大きい順にk個の 変数を選んだ後、このk変数に対してL2の解を得る
  15. 15. Optiomal (二乗回帰モデル) • この手法は、初めのk変数だけが回帰に関係すると言うこ とを事前知識として与えられている二乗回帰モデル。L2と 同様に、𝑙2ノルム正則化を用いる
  16. 16. 各手法のテスト誤差の結果 縦軸:訓練データと同分布 からサンプルした1000個 のテスト点に対する平均 二乗誤差 横軸:サンプル数
  17. 17. 各手法の結果 • 最も性能が良い:Optimal • 事前知識として、どの要素が非ゼロであるべきなのか がわかっているため、当たり前といえば当たり前 • 2番目に性能がいいもの: L1 • L1はいくつの非ゼロ要素があるかも、d=200変数のうち のどの要素が非ゼロであるかもわかっていないことに 注意 • テスト誤差が最大値の1/2を下回るのはn=50の付近 • これは、理論的に予想される𝑘𝑙𝑜𝑔(𝑑) ≃ 53に近い
  18. 18. 各手法の結果 • 3番目に性能が良いもの:2𝑠𝑡𝑒𝑝𝑠と𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘 • どちらも非ゼロ要素の数k=10を知っていることを仮定 • 最も性能が悪いもの:L2 • テスト誤差が最大値の1/2を下回るのは、n=200と250 の間
  19. 19. 重みベクトルの結果の比較 サンプル数n=150における 真の重みベクトルと描く手 法を用いて得られた重み ベクトルの比較
  20. 20. 重みベクトルの結果の比較 • L2:全ての200変数が非ゼロ要素 • L1:非ゼロ要素70程度 • 予測性能を犠牲にして、大きな正則化パラメータλを選ぶことで、より非 ゼロを減らすことができる • L1とOptimal: • 最初の10変数と真のパラメータを比較すると、L1は係数間の大乗関係も 含めてほぼ理想的に推定できている • 得られた係数はL1の方がやや絶対値が小さい。これは𝑙1ノルムによる推 定バイアスであり、ノルムが非ゼロ要素の数だけでなく、係数の絶対値に 比例することに起因 • Largest-kと2steps: • 正しい非ゼロ係数を捉えているが、無関係な変数にも反応してい るため、誤差が大きくなっている。
  21. 21. 文献に関する補遺 • 画像処理で著名なRudin[70]によれば𝑙1ノルム最小化の歴 史はガリレオやラプラスに遡る • 𝑙1ノルム最小化を用いて信号と雑音の分離が可能であるこ とを示した(Logan [27]) • Logan [27]の論文の核心は「信号とそのフーリエ変換は同時にス パースになることはない」という点 • DonohoとStarkによって不確定性原理として証明済[27]
  22. 22. 文献に関する補遺 • スパース信号の推定のための𝑙1ノルム最小化は地球物理 学、電波天文学など、フーリエ変換と分光法を用いた計測 を行う分野で同時多発的に提案されてきた[54,60,71,74] • 1990年代には、統計学者のDonoho[17]やTibshirani[78]に よって整理・体系化 • また、同時期に計算神経科学の分野で有名なOlshausenと Fieldによるスパースコーディングの研究[61]がある
  23. 23. 文献に関する補遺 • 2000年代に入っても以下のような研究が行われて きました。 • 機械学習の分野(ベイズ理論):Girolami[35], Tipping[79], Palmer[62] • 機械学習の分野(サポートベクトルマシン): Mangasarian[55], Zhu[89] • 圧縮センシング理論:Candes[10] • 核磁気共鳴画像法(MRI):Candes[53] • このように今またスパース性が注目されている
  24. 24. 参考文献 • [10] Candès, Emmanuel J., Justin Romberg, and Terence Tao. "Robust uncertainty principles: Exact signal reconstruction from highly incomplete frequency information." IEEE Transactions on information theory 52.2 (2006): 489-509. • http://ieeexplore.ieee.org/document/1580791/?arnumber=1580791&tag=1 • [17] Chen, S. S., D. L. Donoho, and M. A. Saunders. "Atomic decomposition by basis pursuit: SIA M Journal on Scientific Computing, 20, 33–61." (1998): S1064827596304010. • https://web.stanford.edu/group/SOL/papers/BasisPursuit-SIGEST.pdf • [27] Donoho, David L., and Philip B. Stark. "Uncertainty principles and signal recovery." SIAM Journal on Applied Mathematics 49.3 (1989): 906-931. • http://circuit.ucsd.edu/~massimo/ECE287C/Handouts_files/DohonoStark.pdf
  25. 25. 参考文献 • [35] Girolami, Mark. "A variational method for learning sparse and overcomplete representations." Neural computation 13.11 (2001): 2517-2532. • http://www.mitpressjournals.org/doi/abs/10.1162/089976601753196003# .WHjLXraLS_A • [52] Logan, Benjamin Franklin. Properties of high-pass signals. 1965. • [53] Lustig, Michael, David Donoho, and John M. Pauly. "Sparse MRI: The application of compressed sensing for rapid MR imaging." Magnetic resonance in medicine 58.6 (2007): 1182-1195. • http://onlinelibrary.wiley.com/doi/10.1002/mrm.21391/full
  26. 26. 参考文献 • [54] Mammone, R., and G. Eichmann. "Restoration of discrete Fourier spectra using linear programming." JOSA 72.8 (1982): 987-992. • https://www.osapublishing.org/josa/abstract.cfm?uri=josa-72-8-987 • [55] Mangasarian, Olvi L. "Generalized support vector machines." Advances in Neural Information Processing Systems (1999): 135-146. • http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.7044&rep=r ep1&type=pdf • [60] Oldenburg, D. W., T. Scheuer, and S. Levy. "Recovery of the acoustic impedance from reflection seismograms." Geophysics 48.10 (1983): 1318-1337. • http://library.seg.org/doi/abs/10.1190/1.1441413
  27. 27. 参考文献 • [62] Palmer, Jason, et al. "Variational EM algorithms for non-Gaussian latent variable models." Advances in neural information processing systems. 2005. • http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2005_803.pdf • [70] Rudin, Leonid I., Stanley Osher, and Emad Fatemi. "Nonlinear total variation based noise removal algorithms." Physica D: Nonlinear Phenomena 60.1 (1992): 259-268. • http://www.sciencedirect.com/science/article/pii/016727899290242F • [71] Santosa, Fadil, and William W. Symes. "Linear inversion of band- limited reflection seismograms." SIAM Journal on Scientific and Statistical Computing 7.4 (1986): 1307-1330. • http://epubs.siam.org/doi/abs/10.1137/0907087
  28. 28. 参考文献 • [74] Schwarz, U. J. "Mathematical-statistical description of the iterative beam removing technique (method CLEAN)." Astronomy and Astrophysics 65 (1978): 345-356 • http://adsabs.harvard.edu/full/1978A%26A....65..345S • [78] Tibshirani, Robert. "Regression shrinkage and selection via the lasso." Journal of the Royal Statistical Society. Series B (Methodological) (1996): 267-288. • http://www.jstor.org/stable/pdf/2346178.pdf • [79] Tipping, Michael E. "Sparse Bayesian learning and the relevance vector machine." Journal of machine learning research 1.Jun (2001): 211-244. • http://www.jmlr.org/papers/v1/tipping01a.html
  29. 29. 参考文献 • [89] Zhu, Ji, et al. "1-norm support vector machines." Advances in neural information processing systems 16.1 (2004): 49-56. • https://books.google.co.jp/books?hl=ja&lr=lang_ja%7Clang_en&id=0F- 9C7K8fQ8C&oi=fnd&pg=PA49&dq=1- norm+support+vector+machines+zhu+rosset+hastie+&ots=THLum0X950& sig=Jr9HBdtGJuQPb94rbnAQb2VTe3w&redir_esc=y#v=onepage&q=1- norm%20support%20vector%20machines%20zhu%20rosset%20hastie&f=fals e
  30. 30. おしまい

×