Successfully reported this slideshow.
Your SlideShare is downloading. ×

深層学習による非滑らかな関数の推定

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
深層学習の数理
深層学習の数理
Loading in …3
×

Check these out next

1 of 44 Ad

More Related Content

Slideshows for you (20)

Similar to 深層学習による非滑らかな関数の推定 (20)

Advertisement

Recently uploaded (20)

深層学習による非滑らかな関数の推定

  1. 1. 深層学習による ⾮滑らかな関数の推定 2018/01/31 統計数理セミナー 今泉 允聡 (統計数理研究所)
  2. 2. このスライドは M.Imaizumi, K.Fukumizu “Deep Neural Networks Learn Non-Smooth Functions Effectively”, http://arxiv.org/abs/1802.04474 の内容を扱っています。
  3. 3. 概要 Statistical Estimation for Non-Smooth Functions by Deep Neural Networks 今泉允聡(統計数理研究所) トピック 深層学習(多層ニューラルネットワーク;DNN) 目的 DNNが他手法より高い性能を発揮する原因を究明する ・回帰(教師有り学習)の一手法 ・他手法より高い性能を発揮 他手法:カーネル法・シリーズ法など...カーネル法・フーリエ法など
  4. 4. 概要 Statistical Estimation for Non-Smooth Functions by Deep Neural Networks 他手法の性能 << DNNの性能 主張 推定対象の関数 がある非滑らかな性質を持つとき アプローチ 回帰関数の推定の理論解析 関数の推定問題 Yi = f⇤ (Xi) + ✏i 未知関数  を n 個の観測    から推定(Xi, Yi)f⇤ 既存理論: が滑らかなら他手法が最適精度を達成 より広い関数族の推定理論が必要 f⇤ 今泉允聡(統計数理研究所) f⇤
  5. 5. 導⼊:深層学習
  6. 6. 深層学習の成功 • 深層学習(多層ニューラルネット;DNN)の成功 技術的課題が 存在 2012 2016 なぜDNNが他⼿法より⾼性能なのか? ⇒ 原理の解明はまだ発展途上 計算機の 発達 データの 膨⼤化 〜2000 基礎研究 ブレイクスルー 実⽤化の発展 画像解析コンペで 他⼿法を上回る 精度を発揮 例1:AlphaGo 例2:⾃動運転
  7. 7. 深層学習 深層学習はどういう原理で性能が出るのか、分かっていない → 実⽤化が⾮効率・危険なものになる。 実⽤化の進展には、原理の理解に基づく運⽤が必要 危険な運⽤ 失敗したが、 原因は不明! 信頼できる システムが 作れない ⾮効率な運⽤ 必要なパラメタ数が 分からない とりあえず⼤量に! 計算コストの膨⼤化 機械学習界隈のオープンクエッション
  8. 8. 理論的な試みの例(⼀部) • 最適化理論 • 局所解の性質 Choromanska+ (2015 AISTATS) • 最適化の簡単さ Kawaguchi (2017 NIPS) • 近似理論 • 表現⼒解析 Yarotsky (2017 NN) • 層とノードの関係 Safran+ (2017 ICML) • 統計・学習理論 • 汎化誤差の再考 Zhang+ (2017 ICLR) • 層のスペクトル解析 Suzuki (2018 AISTATS) DNNの原理理解はまだまだ発展途上
  9. 9. 深層学習が解く問題 • 推定量 𝑓" ∈ ℱ%% による誤差 を評価 真の関数(未知) 𝑓∗ : [0,1]- → ℝ データの生成分布 Y = 𝑓∗ 𝑋 + 𝜖 𝑛個のi.i.d.観測 𝑋6, 𝑌6 689 : ℱ%%:DNNで表現できる関数の集合 ※分類問題( 𝑌 が離散値)の場合でも同じフレームに当てはまる 回帰による関数の推定 k ˆf f⇤ k2
  10. 10. DNNモデル 設定値 𝐿: 変換の回数(層の数), 𝑑ℓ: 中間変数の次元 𝜂: ℝ@ℓ → ℝ@ℓ: 活性化関数(後述), ℓ = 1, … , 𝐿 各層での変換 𝑓ℓ 𝑥 ≔ 𝜂 𝐴ℓ 𝑥 + 𝑏ℓ , ℓ = 1, … , 𝐿 (𝐴ℓ: 𝑑ℓ×𝑑ℓG9の⾏列パラメタ, 𝑏ℓ: 𝑑ℓ次元のパラメタ) 合成関数でモデルを定義 ℱ%% ≔ 𝑓 𝑥 = 𝑓H ∘ 𝑓HG9 ∘ ⋯∘ 𝑓9 𝑥
  11. 11. DNNの定式化 𝜂はReLU関数を主に考える 𝜂 𝑥 = (max 𝑥9,0 ,… ,max 𝑥-,0 ) DNNの図( 𝐿 = 6) 𝑓ℓ 𝑥 ≔ 𝜂 𝐴ℓ 𝑥 + 𝑏ℓ 一回の変換が一層に対応 丸の数が中間変数の次元数 𝑥 𝜂 𝑥 0
  12. 12. 深層学習が解く問題 • 興味がある問題 • なぜDNNによる推定量 𝑓" ∈ ℱ%% は が ⼩さいのか? 真の関数(未知) 𝑓∗ : [0,1]- → ℝ データの生成分布 Y = 𝑓∗ 𝑋 + 𝜖 𝑛個のi.i.d.観測 𝑋6, 𝑌6 689 : ℱ%%:DNNで表現できる関数の集合 回帰による関数の推定 k ˆf f⇤ k2
  13. 13. 統計理論によるアプローチ • 現状、統計理論により分かっていること 既存の理論的結果 𝑓∗ が滑らか(微分可能)であるとき, DNN以外にも 多くの⼿法(カーネル法, シリーズ法, NN(not deep)など) が最適精度を達成する。 カーネル法 𝑓"(𝑥) = ∑ 𝛼S 𝐾(𝑥, 𝑋S)S 𝐾 𝑥, 𝑥′ : カーネル関数 直交シリーズ法 𝑓"(𝑥) = ∑ 𝛼S 𝜙S 𝑥S 𝜙S 𝑥 : 基底関数(e.g. フーリエ) メジャーな他手法
  14. 14. 統計理論によるアプローチ • 現状、統計理論により分かっていること 𝑓∗ が滑らかなとき、理論上ではDNNは優越できない 既存の理論的結果(Stone (1982, AS)) 𝑓∗ : 0,1 - → ℝ がβ回微分可能であるとき, 多くの⼿法による 推定量 𝑓" は精度 を達成する。これはminimax最適な収束レートである。 E h k ˆf f⇤ k2 2 i = O ⇣ n 2 /(2 +D) ⌘
  15. 15. 本研究のアプローチ
  16. 16. ⾮滑らかな関数 • ⾮滑らかな関数の推定を評価する 滑らかな関数の空間 既存理論の対象 深層学習は性能的 優位を持たない ある⾮滑らかな関数空間 𝓕X 実際の深層学習 モデルで 表現される関数 (例は後述) 𝒇∗ 関数全体の空間 𝑓∗ が⾮滑らかなら、DNNの優位性を証明できる?
  17. 17. 研究の背景 • DNNを統計・学習理論で解析する論⽂ • Suzuki, T. (2018). Fast learning rate of deep learning via a kernel perspective. JMLR W&CP (AISTATS). • Schmidt-Hieber, J. (2017). Nonparametric regression using deep neural networks with ReLU activation function. arXiv. • Neyshabur, B., Tomioka, R., & Srebro, N. (2015). Norm- based capacity control in neural networks. JMLR W&CP (COLT). • Sun, S., Chen, W., Wang, L., & Liu, T. Y. (2015). Large margin deep neural networks: theory and algorithms, arXiv. • ⾮滑らかな構造は主たる関⼼ではない
  18. 18. 考える⾮滑らか関数 ⼆次元⼊⼒を持つ関数の例 (台 0,1 Zが3つに分割されている) 区分上で滑らかな関数 Piecewise Smooth Function 関数の台が複数の区分に分割 各区分の上で、関数は滑らか 区分の境界上で関数は⾮滑らか 関数のプロット 𝑥9 𝑥Z 𝑓 𝑥9, 𝑥Z
  19. 19. 区分上で滑らかな関数の定式化 • 定式化の流れ • 1. [0,1]-上の滑らかな関数 • 2. [0,1]-に含まれる区分 • 1. [0,1]- 上の滑らかな関数 • 準備:ヘルダーノルム • 定義:ヘルダー空間 G[✓`](x) = x(`) , where x` is defined inductively as x(0) := x, x(`0) := ⌘(A`0 x(`0 1) + b`0 ), for `0 = 1, ..., ` 1, where ⌘ is an element-wise ReLU function, i.e., ⌘(x) = (max{0, x1}, ..., max{0, x Here, we define that c(✓) denotes a number of non-zero parameters in ✓. 1.2. Characterization for True functions. We consider a piecewise smooth functions for characterizing f⇤. To this end, we introduce a formation of some set of functions. Smooth Functions Secondly, a set for smooth functions is introduced. With ↵ > 0, let us define the H¨older norm kfkH := max |a|b c sup x2[ 1,1]D |@a f(x)| + max |a|=b c sup x,x02[ 1,1]D |@af(x) @af(x0)| |x x0| b c , and also H ([ 1, 1]d) be the H¨older space such that H = H ([ 1, 1]D ) := f : [ 1, 1]D ! R |kfkH  CH , where CH is some finite constant. Date: January 13, 2018. H = H ([0, 1]D ) = f : [0, 1]D ! R|kfkH < 1
  20. 20. ℝ- [0,1]- 境界線関数 𝒃 𝐽個に分割した円周の変形で得られる。 𝛼回微分可能。 区分上で滑らかな関数の定式化 • 2. [0,1]- に含まれる区分 • 準備:区分の滑らかな境界線 • 𝑆-G9: 𝐷次元空間内の球⾯, 𝑆̅-G9: 𝐷次元空間内の球⾯ • 𝑉9,… , 𝑉c:ℝ-内の分割, 𝐹S:𝑆̅-G9 → 𝑉S : 滑らかな写像 ℬc,f ≔ 𝑏: 𝑆-G9 → ℝ- 𝑖𝑛𝑗𝑒𝑐𝑡𝑖𝑣𝑒, 𝑏@ ∘ 𝐹S ∈ 𝐻f , 𝑑 ∈ 𝐷 , 𝑗 ∈ 𝐽 𝑏𝑆-G9
  21. 21. 区分上で滑らかな関数の定式化 • 2. [0,1]- に含まれる区分 • 境界線の内部を 𝐼(⋅) で表現するとする • 関数の台の部分集合の族 ℛc,f ≔ 𝐼 𝑏 ∩ 0,1 - : 𝑏 ∈ ℬc,f Boundary Fragment 集合族(の拡張) Dudley (1974 JAT) 𝐼 𝑏 境界線は折点を除いて𝛼回微分可能 𝛼 = 2のとき、[0,1]-内の全ての凸集合 族で稠密
  22. 22. 区分上で滑らかな関数 • 性質 • 0,1 - 上の関数 • 𝑀 個の区分を持つとする • 1s(𝑥)は集合𝑅上の指⽰関数(𝑥 ∈ 𝑅のとき1を返す) • 集合𝑅uの境界は𝛼回微分可能 • 集合上の関数𝑓uは𝛽回微分可能 ℱc,w,f,x = y 𝑓u 𝑥 1sz 𝑥 u∈ w : 𝑓u ∈ 𝐻x , 𝑅u ∈ ℛc,f
  23. 23. 区分上で滑らかな関数 • 𝑀個の台の部分集合+関数に分解できるとする 関数のプロット 𝑥9 𝑥Z 𝑓 𝑥9, 𝑥Z 部分集合𝑅9 𝑀 = 3の例:3つの部分集合上で、 それぞれ滑らかな関数を考える 部分集合𝑅Z 部分集合𝑅|
  24. 24. ⼆種類の推定量 • ⾮ベイズ推定量 • 洗練された多くの最適化アルゴリズムが使える • ⾮凸最適化なので、⼤域最適解を得るのが困難 𝑓"H ≔ argmin •∈ℱ‚‚ ∑ 𝑌6 − 𝑓 𝑋6 Z: 689 経験損失最⼩化 ◎ × ※ ここでは大域最適解が求まっているとして議論する
  25. 25. ⼆種類の推定量 • ベイズ推定量 • ⾮凸最適化の問題が発⽣しない • 計算量は⽐較的⼤きい 事前分布 Π… 𝑓 for 𝑓 ∈ ℱ%% Π… はNNの⾮ゼロパラメタ(固定)に⼀様分布 事後分布 dΠ… 𝑓|𝐷 ∝ exp −∑ 𝑌6 − 𝑓 𝑋6 Z 6∈ : 𝜎GZ dΠ… 𝑓 𝐷 = 𝑋6, 𝑌6 6∈[:]: データセット, 𝜎Z : ノイズ分散 推定量 𝑓"Œ ≔ ∫ 𝑓𝑑Π…(𝑓|𝐷) ベイズ事後平均 ◎ ×
  26. 26. 理論的結果
  27. 27. 主結果1 • ⾮ベイズ推定量は以下のレートを持つ 𝑓∗ ∈ ℱw,c,f,x とする。層が𝑂• 1 + x - + f Z-GZ で⾮ゼロパラメタ 数がΘ 𝑛 ‘ ’“”‘ + 𝑛 ‘•– —”‘•– のDNNのうち、以下を⾼確率で満たす ものが存在する: 定理1 ⼀項⽬:滑らかな関数 𝑓 ∈ 𝐻x の推定レート ⼆項⽬:区分の境界関数 𝑏 ∈ ℬc,f の推定レート 𝑂• は対数項を省略したランダウ記法 k ˆfL f⇤ k2 L2 = ˜O ⇣ max n n 2 /(2 +D) , n ↵/(↵+D 1) o⌘
  28. 28. 主結果2 • ベイズ推定量も同様のレートを持つ 𝑓∗ ∈ ℱw,c,f,x とする。層が𝑂• 1 + x - + f Z-GZ で⾮ゼロパラメタ 数がΘ 𝑛 ‘ ’“”‘ + 𝑛 ‘•– —”‘•– のDNNのうち、以下を満たすものが存 在する: 定理2 DNNによる両推定量は、同じレートで 区分上で滑らかな関数を⼀致推定できる E h k ˆfB f⇤ k2 L2 i = ˜O ⇣ max n n 2 /(2 +D) , n ↵/(↵+D 1) o⌘
  29. 29. DNNの最適性の結果 • なおこのレートは、区分上で滑らかな関数を推定 する上での最適レートである • これを 収束レートのminimax下限といい、達成でき る精度の理論的な限界値を表現している。 𝑓̅ を任意の推定量とする。このとき、ある定数 𝐶 > 0 が存在 し、以下の不等式が成⽴する: 定理3 inf ¯f sup f⇤2FM,J,↵, E ⇥ k ¯f f⇤ k2 L2 ⇤ > C max n n 2 /(2 +D) , n ↵/(↵+D 1) o
  30. 30. 他⼿法に関する命題 • いくつかの他⼿法は⾮滑らかな関数が表現できない • 𝑓∗ ∈ ℱc,w,f,xのような⾮滑らかな関数は、上記カーネルに よるRKHSでは表現できない 𝑓"š をカーネル法による推定量とする。カーネル関数は Gaussian or 多項式カーネルとする。 ある𝑓∗ ∈ ℱc,w,f,xと定数𝐶š > 0が存在し、以下が成⽴する: 命題1 E h k ˆfK f⇤ k2 L2 i ! CK > 0.
  31. 31. 他⼿法に関する命題 • 表現⼒が⾼い⼿法も、精度が悪化する。 • フーリエ基底は𝑓∗ ∈ ℱc,w,f,xを表現できるが、表現 に必要な基底の数が多いため、精度が下がる。 𝑓"› を直交シリーズ法による推定量とし、基底関数はフーリ エ or 三⾓関数基底とする。ある𝑓∗ ∈ ℱw,c,f,xが存在し、パ ラメタ𝜅 > max − Zx Zx•- , − f f•-G9 のもと以下が成⽴する: 命題2 E h k ˆfF f⇤ k2 L2 i > Cn
  32. 32. これらの結果から⾔えること • 真の関数が⾮滑らか(区分上で滑らか)のとき • DNNが理論上の最適精度を達成 • 他⼿法は⼀致性 or 最適性を持たないので、DNNが 優越する性能を持つ。 • DNNが前述の精度を達成するには • 層の数は、次元と滑らかさの⽐ x - + f Z-GZ に⽐例する 数と、追加の数層があれば⼗分 • パラメタはデータ数の劣線形 Θ 𝑛 ‘ ’“”‘ + 𝑛 ‘•– —”‘•– 必要
  33. 33. なぜDNNは良いのか?
  34. 34. なぜDNNが優越する? • ①. 活性化関数を⽤いると 1s 𝑥 , 𝑅 ∈ ℛf,c を表現可 • 活性化(ReLU)関数の差はステップ関数を近似 • 滑らかな関数 𝑓 ∈ 𝐻x も近似できる • Yarotsky(2017 NN)が良い近似⽅法を提案 • ステップ関数と滑らかな関数の合成は、集合上の指⽰関 数になる (Peterson+ (2017 arXiv)による定式化) ー = =∘ 合成関数
  35. 35. なぜDNNが優越する? • ②. DNNの多層構造(=合成関数)が、その集合 上の関数の効率的な表現を可能にする • この表現が少ないパラメタ数(層の数)でできる • ⇒有限のデータからでも良い精度で推定できる • 対して、他⼿法はそのような構造を持っていない • ⇒例:フーリエ級数による推定は、こういう関数を表現する のに多くのパラメタを必要とする 例 1~2層⽬:境界線 3~4層⽬:ステップ関数 5~6層⽬:集合上の関数
  36. 36. 簡易な実験
  37. 37. ⾮滑らかな関数の表現 • DNNは⾮滑らかな関数を表現できる 真の関数(未知) 関数の推定量 ※真の関数から⽣成した𝑛 = 1500のデータを⽤いて、変換4層・ノード12個 を持つDNNと、100個の初期値を⽤いて推定。
  38. 38. 予測精度の⽐較 • 上記の⾮滑らかな関数 を、DNNおよび他⼿法 を⽤いて推定 • DNNが良い精度を達成 • 他⼿法は⾮滑らかな構 造を表現しづらいので 制度が悪い
  39. 39. まとめ
  40. 40. まとめ • ⽬的 • DNNが良い性能を発揮する原理を究明する • 結果 • 真の関数が区分上で滑らかのとき、DNNが最適性 を持ち、他の⼿法を優越することを明らかにした • 最適精度を発揮するために必要なDNNの構造(層 の数、パラメタの数)を明らかにした なぜDNNが他⼿法より⾼性能なのか? ⼀要因:データを⽣成する関数が⾮滑らかだから
  41. 41. 理論の発展と展望 推定誤差やデータの正則条件が明らかになる →統計的推論が可能に(検定や信頼区間) 原理の理解に基づいた深層学習の運⽤の実現 正則条件成⽴の検定効率的なモデル選択法 とりあえず⼤量の 層とノード! このデータなら ノードは3個でい いよ データの特徴の抽出 深層学習が 失敗した! 正則条件の検定など データのここが 原因だった 対策しよう
  42. 42. ご静聴ありがとうございました。
  43. 43. 参照論⽂ • Stone, C. J. (1982). Optimal global rates of convergence for nonparametric regression. The annals of statistics, 1040-1053. • Suzuki, T. (2018). Fast learning rate of deep learning via a kernel perspective. JMLR W&CP (AISTATS). • Schmidt-Hieber, J. (2017). Nonparametric regression using deep neural networks with ReLU activation function. arXiv. • Neyshabur, B., Tomioka, R., & Srebro, N. (2015). Norm-based capacity control in neural networks. JMLR W&CP (COLT). • Sun, S., Chen, W., Wang, L., & Liu, T. Y. (2015). Large margin deep neural networks: theory and algorithms, arXiv. • Choromanska, A., Henaff, M., Mathieu, M., Arous, G. B., & LeCun, Y. (2017) The loss surfaces of multilayer networks. JMLR W&CP (AISTATS). • Kawaguchi, K. (2016). Deep learning without poor local minima. In Advances in Neural Information Processing Systems. • Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks. Neural Networks, 94, 103-114. • Safran, I., & Shamir, O. (2017). Depth-width tradeoffs in approximating natural functions with neural networks. JMLR W&CP (ICML). • Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2016). Understanding deep learning requires rethinking generalization. ICLR. • Xu, A., & Raginsky, M. (2017). Information-theoretic analysis of generalization capability of learning algorithms. In Advances in Neural Information Processing Systems.
  44. 44. 画像 • いらすとや • http://www.irasutoya.com

×