Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

Deep Learning勉強会の輪読資料
Jun 5, 2015
Reading "Why regularized Auto-Encoders learn Sparse Representation?" by Arpit et al.

  • Be the first to comment

論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

  1. 1. "Why regularized Auto-Encoders learn Sparse Representation?" @ DL Hacks paper reading session 2015/06/05 東京大学大学院工学系研究科 技術経営戦略学専攻 松尾研究室 黒滝 紘生 kurotaki@weblab.t.u-tokyo.ac.jp
  2. 2. 目次 2 1. Introduction 2. Auto-Encoders and Sparse Representation 3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS) 4. Empirica Analysis and Observations 5. Conclusion
  3. 3. 目次 3 1. Introduction 2. Auto-Encoders and Sparse Representation 3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS) 4. Empirica Analysis and Observations 5. Conclusion
  4. 4. 概要 ・基本情報 - Why regularized Auto-Encoders learn Sparse Representation? - Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju Department of Computer Science SUNY Buffalo - http://arxiv.org/pdf/1505.05561.pdf ・論文の内容 - AEで学習した素性が、なぜsparseになるのか、形式的な分析をした。 - sparseになる十分条件を与え、既存のAEがそれを満たすことを示した。 - 正則化項と、活性化関数の、両方が関係していることがわかった。 - 分析に基づいて、よりsparseになりやすい、新たな活性化関数を提案した。 4
  5. 5. 筆者について 5http://www.acsu.buffalo.edu/~devansha/
  6. 6. 先行研究 ・経験的 / 実験的に、sparsenessを得るための条件を示している研究はある - Why does the unsupervised pretraning encourage moderate-sparseness? [Li, 2013] - Zero-bias autoencoders and the benefits of co-adapting features [Memisevic, 2014] (ICLR) - Rectified linear units improve restricted boltzmann machines [Nair, 2010] (ICML) ・しかし、形式的(formally)に、なぜAutoencoderがsparseな表現を得られるのか を分析した論文は、筆者の知る限り、見つかっていない。 ・これは、目的関数が、非線形、非凸の場合の分析が難しいためであるが、 筆者らはこれに挑戦している。 6
  7. 7. 論文の構成 2. Auto-Encoders and Sparse Representation 2.1 Part I: What encourages sparsity during Auto-Encoder training? ・Auto-Encoder(AE)が、Sparseな表現を学習する条件を、定式化 した 2.2 Part II: Do existing Auto-Encoders learn Sparse Representation? ・既存のAEが、2.1の条件を満たすことを示した 3. Improving Bias Gradient of ReLU with Rectified Softplus (ReS) 2.1の分析を活かして、新しい活性化関数を提案した 4. Empirical Analysis and Observations 2と3の内容を、実験によって確かめた 7
  8. 8. 目次 8 1. Introduction 2. Auto-Encoders and Sparse Representation 3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS) 4. Empirica Analysis and Observations 5. Conclusion
  9. 9. Auto-Encoderの数式 9 隠れ層 再構成層 正則化なしの AEの誤差関数 正則化有りの AEの誤差関数
  10. 10. AEがSparseな表現を学習する、とは? ・得られた表現がsparseである = hidden unitの値が小さい = pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK 10 隠れ層の 活性化前 (pre-activation) 正則化有りの AEの誤差関数
  11. 11. AEがSparseな表現を学習するための条件 1/2 ・得られた表現がsparseである = hidden unitの値が小さい = pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK 11 隠れ層の 活性化前 (pre-activation) 正則化有りの AEの誤差関数 かつ と が成り立つ。 ならば
  12. 12. AEがSparseな表現を学習するための条件 2/2 ・得られた表現がsparseである = hidden unitの値が小さい = pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK 12 隠れ層の 活性化前 (pre-activation) 正則化有りの AEの誤差関数 かつ と が成り立つ。 ならば bias gradientが正 jは、隠れ層のユニット番号 データの平均がゼロ pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。 以降、「どうやってbias gradientを正にするか」が焦点になる。 ( は、λを一定以上に上げると、効果が減るので、考えなくてよい。)
  13. 13. "AEがSparseな表現を学習するための条件"の系 ・この後の、Auto-Encoderに対する証明では、 前ページの定理を直接使わずに、こちらの系(Corollary)の方を使う。 13 隠れ層の 活性化前 (pre-activation) 正則化有りの AEの誤差関数 系1. 活性化関数S_eが単調増加、かつ、正則化項の形が ならば、前ページの条件が成り立つ。 系2. 活性化関数S_eが単調増加で凸、かつ、正則化項の形が ならば、前ページの条件が成り立つ。 と が成り立つ。 pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。 つまり
  14. 14. 条件を満たす活性化関数 ・ReLU、Softplus、前ページの系1や系2の「単調増加で凸関数」を満たす。 ・Sigmoidは、一般には満たさない。 - しかし、AEでは、凸関数の部分しか使われない。結果としてsparseになる - これは、4章の実験で示される。 ・Maxout、tanhは、満たさない。 14 系1. 活性化関数S_eが単調増加、かつ、正則化項の形が ならば、前ページの条件が成り立つ。 系2. 活性化関数S_eが単調増加で凸、かつ、正則化項の形が ならば、前ページの条件が成り立つ。 と が成り立つ。 pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。 つまり
  15. 15. 条件を満たす活性化関数 ・ReLU、Softplus、Sigmoidのような、「単調増加で凸関数」かつ「負の無限大を 取ると、ゼロになる」ような性質をもっている活性化関数を使うと、 発火しないユニットがどんどん増えていく。(de-activationが進む) ・「負の無限大でゼロ」の中でも、「ほとんどゼロ」より「完全にゼロ」の方が、 性能が優れていることが、他の研究で明らかになっている。(hard zero) ・上の3つの中では、ReLUがhard zeroを強制する性質をもっている。 ・hard zeroが実際に効いていることは、4章の実験でも確認される。 15
  16. 16. 条件を満たす活性化関数の性質 ・ReLUの場合 - 系1(単調増加)と系2(単調増加&凸関数)の条件を満たす - 2次微分をもたないので、系2のR項の条件を満たさず、sparsityが下がる - hard zeroを強制する ・Softplusの場合 - 系1と2を満たす - ただし、hard zeroを強制しない ・sigmoidの場合 - 系1を無条件で満たすが、系2は満たしていない - ただし、後述の実験によれば、AEはsigmoidの凸関数の部分だけを使って いる - hard zeroを強制しない - Theorem1の2番目が適用しにくい (割愛) 16
  17. 17. 既存のAEが条件を満たす証明 ・系1と系2は、「活性化関数」と「正則化項」の組み合わせに関する条件 ・いま、「どの活性化関数を使えばよいか」はわかった ・では、どの活性化関数&正則化項の組み合わせを使えばよいのか? 17 系1. 活性化関数S_eが単調増加、かつ、正則化項の形が ならば、前ページの条件が成り立つ。 系2. 活性化関数S_eが単調増加で凸、かつ、正則化項の形が ならば、前ページの条件が成り立つ。 と が成り立つ。 pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。 つまり
  18. 18. 既存のAEが条件を満たす証明 Denoising AE (DAE) → 系2 Contractive AE (CAE) → 系2 Merginalized Denoising AE (mDAE) → 系2 Sparse AE (SAE) → 系1 によって、条件を満たすことを示した。(割愛) ・DAEは、そのままでは正則化項が分離されていない。 2次のTaylor展開によって分離することで、解析できた。 ・SAEでは、ρ=0を仮定したときについて示した。 18
  19. 19. 目次 19 1. Introduction 2. Auto-Encoders and Sparse Representation 3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS) 4. Empirica Analysis and Observations 5. Conclusion
  20. 20. 新しい活性化関数、Rectified Softplus (ReS) ・Maxoutとtanhは、sparsityを保証しない。 ・ReLUは、系2の場合にbias gradを持たないので、sparsityが下がる。 ・softplusとsigmoidは、hard zeroを作らない。 ・そこで、筆者らは、新たな活性化関数として、 Rectified Softplus(ReS)を提案した。 ・ReSは、 20
  21. 21. 目次 21 1. Introduction 2. Auto-Encoders and Sparse Representation 3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS) 4. Empirical Analysis and Observations 5. Conclusion
  22. 22. 実験 ・実験は、MNISTとCIFAR-10の全データで行われた。 ・二乗和誤差と、linear decodingを用いた。 ・バイアス項はゼロで初期化した。 ・各訓練データから、平均値を引いた。 22
  23. 23. 実験1 : AEにおけるSigmoid関数の性質 AEにおけるSigmoid関数が、 ・実際には、系2の条件(単調増加の凸関数)を満たす ・sigmoidのlinearな部分のみを使っている ことを示すため、 ・ 系2の条件を満たしているユニットの数をカウントした。 (図はなし) ・値が0.1 < h_j <= 0.9 の範囲になっている隠れユニットの%を計測した (下 図) 23
  24. 24. 実験2 : 正則化係数の影響、活性化関数の比較 1/2 ・直感的には、正則化係数が高ければ、pre-activationが減少する ・しかし、CAE/mDAEと、ReLUの組み合わせでは、不安定 ・活性化関数の観点では、正則化項からのbias grad.がなく、誤差関数に頼っている からと考えられる 24
  25. 25. 実験2 : 正則化係数の影響、活性化関数の比較 2/2 ・この推測を、平均と分散の直接計測で示した。 ・ReLUで、biasのgrad.が低く、平均が高く保たれてしまっていると確認できる 25
  26. 26. 実験3 : AEの目的関数の、正則化係数への感度比較 ・目的関数が、正則化係数の変化でどういう影響を受けるか ・正則化係数の増加と共に、発火しているユニット数が減少してほしい(sparsity) ・しかし、CAEとmDAEでは、正則化係数の増加に対して不安定 (ReLU以外でも) ・目的関数の観点では、係数がnon-linearに効いてくるから 26
  27. 27. 実験4 : True Sparsity(hard zero)の効果 ・教師あり学習に、True Sparsityが貢献するのかどうかを、実験した ・単層AEの教師無し学習の効力に注目するため、fine-tuneは行わなかった ・AEで得られた素性に、SVMをかけて、MNISTのラベリングで教師データと比較 1) CAE / mDAEについて、ReLUはSigmoid / Softplusより誤差が大きい。 これは、true sparsityよりも、bias grad.がない方が大きいと考えられる。 2) DAE / SAEで、ReLUはSigmoid / Softplusより誤差が小さい。 これは、true sparsityが効いているからと考えられる。 3) ReSは全体的に性能が良い。 27
  28. 28. 目次 28 1. Introduction 2. Auto-Encoders and Sparse Representation 3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS) 4. Empirica Analysis and Observations 5. Conclusion
  29. 29. まとめ (論文の貢献) ・Autoencoderの理論面からの分析を行った。 ・新しい活性化関数/正則化が、sparsityをもたらすか予測するための、新たな方法を 作った。 ・分析面 a) encode側のbias grad.が正になるようなAE正則化は、sparsityをもたらす b) 活性化関数が、単調増加 / 凸関数 / 負の無限大で0 だと、sparsityをもたらす c) 既存のAEの正則化は、sparsityの条件を満たす。 d) 新たな活性化関数Rectified Softplus(ReS)を提案した。 ・実験面 a) AEは、シグモイド関数のconvexな部分のみを使っている b) ReLUは、CAE / mDAEと組み合わせると、bias grad.が無いため、 sparsityに欠ける。 c) DAE / SAEは、CAE / mDAEに比べて、sparsityの正則化項係数への 感度が低い。 d) DAEは、mDAEよりもsparsityが高い。1次と2次の効果を共に 捉えているから。 29
  30. 30. 参考文献 [Arpit 2015] Why Regularized Auto-Encoders learn Sparse Representation? Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju. http://arxiv.org/abs/1505.05561 [Li, 2013] Unsupervised Pretraining Encourages Moderate-Sparseness. Jun Li, Wei Luo, Jian Yang, Xiaotong Yuan. http://arxiv.org/abs/1312.5813 [Memisevic, 2014] Zero-bias autoencoders and the benefits of co-adapting features. Kishore Konda, Roland Memisevic, David Krueger. http://arxiv.org/abs/1402.3337 [Nair, 2010] Rectified linear units improve restricted boltzmann machines. Vinod Nair, Geoffrey E. Hinton. ICML 2010. 30

    Be the first to comment

    Login to see the comments

  • tomohiromito

    Feb. 2, 2017

Deep Learning勉強会の輪読資料 Jun 5, 2015 Reading "Why regularized Auto-Encoders learn Sparse Representation?" by Arpit et al.

Views

Total views

8,703

On Slideshare

0

From embeds

0

Number of embeds

6,738

Actions

Downloads

8

Shares

0

Comments

0

Likes

1

×