深層学習による
⾮滑らかな関数の推定
2018/01/31 統計数理セミナー
今泉 允聡 (統計数理研究所)
このスライドは
M.Imaizumi, K.Fukumizu
“Deep Neural Networks Learn Non-Smooth Functions
Effectively”, http://arxiv.org/abs/1802.04474
の内容を扱っています。
概要
Statistical Estimation for Non-Smooth Functions
by Deep Neural Networks
今泉允聡(統計数理研究所)
トピック 深層学習(多層ニューラルネットワーク;DNN)
目的
DNNが他手法より高い性能を発揮する原因を究明する
・回帰(教師有り学習)の一手法
・他手法より高い性能を発揮
他手法:カーネル法・シリーズ法など...カーネル法・フーリエ法など
概要
Statistical Estimation for Non-Smooth Functions
by Deep Neural Networks
他手法の性能 << DNNの性能
主張
推定対象の関数 がある非滑らかな性質を持つとき
アプローチ 回帰関数の推定の理論解析
関数の推定問題
Yi = f⇤
(Xi) + ✏i
未知関数  を n 個の観測    から推定(Xi, Yi)f⇤
既存理論: が滑らかなら他手法が最適精度を達成
より広い関数族の推定理論が必要
f⇤
今泉允聡(統計数理研究所)
f⇤
導⼊:深層学習
深層学習の成功
• 深層学習(多層ニューラルネット;DNN)の成功
技術的課題が
存在
2012 2016
なぜDNNが他⼿法より⾼性能なのか?
⇒ 原理の解明はまだ発展途上
計算機の
発達
データの
膨⼤化
〜2000
基礎研究 ブレイクスルー 実⽤化の発展
画像解析コンペで
他⼿法を上回る
精度を発揮
例1:AlphaGo
例2:⾃動運転
深層学習
深層学習はどういう原理で性能が出るのか、分かっていない
→ 実⽤化が⾮効率・危険なものになる。
実⽤化の進展には、原理の理解に基づく運⽤が必要
危険な運⽤
失敗したが、
原因は不明!
信頼できる
システムが
作れない
⾮効率な運⽤
必要なパラメタ数が
分からない
とりあえず⼤量に!
計算コストの膨⼤化
機械学習界隈のオープンクエッション
理論的な試みの例(⼀部)
• 最適化理論
• 局所解の性質 Choromanska+ (2015 AISTATS)
• 最適化の簡単さ Kawaguchi (2017 NIPS)
• 近似理論
• 表現⼒解析 Yarotsky (2017 NN)
• 層とノードの関係 Safran+ (2017 ICML)
• 統計・学習理論
• 汎化誤差の再考 Zhang+ (2017 ICLR)
• 層のスペクトル解析 Suzuki (2018 AISTATS)
DNNの原理理解はまだまだ発展途上
深層学習が解く問題
• 推定量 𝑓" ∈ ℱ%% による誤差 を評価
真の関数(未知) 𝑓∗
: [0,1]-
→ ℝ
データの生成分布 Y = 𝑓∗
𝑋 + 𝜖
𝑛個のi.i.d.観測 𝑋6, 𝑌6 689
:
ℱ%%:DNNで表現できる関数の集合
※分類問題( 𝑌	が離散値)の場合でも同じフレームに当てはまる
回帰による関数の推定
k ˆf f⇤
k2
DNNモデル
設定値
𝐿: 変換の回数(層の数), 𝑑ℓ: 中間変数の次元
𝜂: ℝ@ℓ → ℝ@ℓ: 活性化関数(後述), ℓ = 1, … , 𝐿
各層での変換
𝑓ℓ 𝑥 ≔ 𝜂 𝐴ℓ 𝑥 + 𝑏ℓ , ℓ = 1, … , 𝐿
(𝐴ℓ: 𝑑ℓ×𝑑ℓG9の⾏列パラメタ, 𝑏ℓ: 𝑑ℓ次元のパラメタ)
合成関数でモデルを定義
ℱ%% ≔ 𝑓 𝑥 = 𝑓H ∘ 𝑓HG9 ∘ ⋯∘ 𝑓9 𝑥
DNNの定式化
𝜂はReLU関数を主に考える
𝜂 𝑥 = (max 𝑥9,0 ,… ,max 𝑥-,0 )
DNNの図( 𝐿 = 6)
𝑓ℓ 𝑥 ≔ 𝜂 𝐴ℓ 𝑥 + 𝑏ℓ
一回の変換が一層に対応
丸の数が中間変数の次元数
𝑥
𝜂 𝑥
0
深層学習が解く問題
• 興味がある問題
• なぜDNNによる推定量 𝑓" ∈ ℱ%% は が
⼩さいのか?
真の関数(未知) 𝑓∗
: [0,1]-
→ ℝ
データの生成分布 Y = 𝑓∗
𝑋 + 𝜖
𝑛個のi.i.d.観測 𝑋6, 𝑌6 689
:
ℱ%%:DNNで表現できる関数の集合
回帰による関数の推定
k ˆf f⇤
k2
統計理論によるアプローチ
• 現状、統計理論により分かっていること
既存の理論的結果
𝑓∗
が滑らか(微分可能)であるとき, DNN以外にも
多くの⼿法(カーネル法, シリーズ法, NN(not deep)など)
が最適精度を達成する。
カーネル法 𝑓"(𝑥) = ∑ 𝛼S 𝐾(𝑥, 𝑋S)S
𝐾 𝑥, 𝑥′ : カーネル関数
直交シリーズ法 𝑓"(𝑥) = ∑ 𝛼S 𝜙S 𝑥S
𝜙S 𝑥 : 基底関数(e.g. フーリエ)
メジャーな他手法
統計理論によるアプローチ
• 現状、統計理論により分かっていること
𝑓∗
が滑らかなとき、理論上ではDNNは優越できない
既存の理論的結果(Stone (1982, AS))
𝑓∗
: 0,1 -
→ ℝ がβ回微分可能であるとき, 多くの⼿法による
推定量 𝑓" は精度
を達成する。これはminimax最適な収束レートである。
E
h
k ˆf f⇤
k2
2
i
= O
⇣
n 2 /(2 +D)
⌘
本研究のアプローチ
⾮滑らかな関数
• ⾮滑らかな関数の推定を評価する
滑らかな関数の空間
既存理論の対象
深層学習は性能的
優位を持たない
ある⾮滑らかな関数空間 𝓕X
実際の深層学習
モデルで
表現される関数
(例は後述)
𝒇∗
関数全体の空間
𝑓∗
が⾮滑らかなら、DNNの優位性を証明できる?
研究の背景
• DNNを統計・学習理論で解析する論⽂
• Suzuki, T. (2018). Fast learning rate of deep learning via a
kernel perspective. JMLR W&CP (AISTATS).
• Schmidt-Hieber, J. (2017). Nonparametric regression using
deep neural networks with ReLU activation function. arXiv.
• Neyshabur, B., Tomioka, R., & Srebro, N. (2015). Norm-
based capacity control in neural networks. JMLR W&CP
(COLT).
• Sun, S., Chen, W., Wang, L., & Liu, T. Y. (2015). Large
margin deep neural networks: theory and algorithms, arXiv.
• ⾮滑らかな構造は主たる関⼼ではない
考える⾮滑らか関数
⼆次元⼊⼒を持つ関数の例
(台 0,1 Zが3つに分割されている)
区分上で滑らかな関数
Piecewise Smooth Function
関数の台が複数の区分に分割
各区分の上で、関数は滑らか
区分の境界上で関数は⾮滑らか
関数のプロット
𝑥9
𝑥Z
𝑓 𝑥9, 𝑥Z
区分上で滑らかな関数の定式化
• 定式化の流れ
• 1.	[0,1]-上の滑らかな関数
• 2.	[0,1]-に含まれる区分
• 1. [0,1]-
上の滑らかな関数
• 準備:ヘルダーノルム
• 定義:ヘルダー空間
G[✓`](x) = x(`)
,
where x` is defined inductively as
x(0)
:= x,
x(`0)
:= ⌘(A`0 x(`0 1)
+ b`0 ), for `0
= 1, ..., ` 1,
where ⌘ is an element-wise ReLU function, i.e., ⌘(x) = (max{0, x1}, ..., max{0, x
Here, we define that c(✓) denotes a number of non-zero parameters in ✓.
1.2. Characterization for True functions. We consider a piecewise smooth
functions for characterizing f⇤. To this end, we introduce a formation of
some set of functions.
Smooth Functions Secondly, a set for smooth functions is introduced.
With ↵ > 0, let us define the H¨older norm
kfkH := max
|a|b c
sup
x2[ 1,1]D
|@a
f(x)| + max
|a|=b c
sup
x,x02[ 1,1]D
|@af(x) @af(x0)|
|x x0| b c
,
and also H ([ 1, 1]d) be the H¨older space such that
H = H ([ 1, 1]D
) := f : [ 1, 1]D
! R |kfkH  CH ,
where CH is some finite constant.
Date: January 13, 2018.
H = H ([0, 1]D
) = f : [0, 1]D
! R|kfkH < 1
ℝ-
[0,1]-
境界線関数 𝒃
𝐽個に分割した円周の変形で得られる。 𝛼回微分可能。
区分上で滑らかな関数の定式化
• 2.	[0,1]-
に含まれる区分
• 準備:区分の滑らかな境界線
• 𝑆-G9: 𝐷次元空間内の球⾯, 𝑆̅-G9: 𝐷次元空間内の球⾯
• 𝑉9,… , 𝑉c:ℝ-内の分割, 𝐹S:𝑆̅-G9 → 𝑉S : 滑らかな写像
ℬc,f ≔ 𝑏: 𝑆-G9
→ ℝ-
𝑖𝑛𝑗𝑒𝑐𝑡𝑖𝑣𝑒, 𝑏@ ∘ 𝐹S ∈ 𝐻f
, 𝑑 ∈ 𝐷 , 𝑗 ∈ 𝐽 	
𝑏𝑆-G9
区分上で滑らかな関数の定式化
• 2.	[0,1]-
に含まれる区分
• 境界線の内部を 𝐼(⋅) で表現するとする
• 関数の台の部分集合の族
ℛc,f ≔ 𝐼 𝑏 ∩ 0,1 -
: 𝑏 ∈ ℬc,f
Boundary Fragment 集合族(の拡張)
Dudley (1974 JAT)
𝐼 𝑏
境界線は折点を除いて𝛼回微分可能
𝛼 = 2のとき、[0,1]-内の全ての凸集合
族で稠密
区分上で滑らかな関数
• 性質
• 0,1 -
上の関数
• 𝑀 個の区分を持つとする
• 1s(𝑥)は集合𝑅上の指⽰関数(𝑥 ∈ 𝑅のとき1を返す)
• 集合𝑅uの境界は𝛼回微分可能
• 集合上の関数𝑓uは𝛽回微分可能
ℱc,w,f,x = y 𝑓u 𝑥 1sz
𝑥
u∈ w
: 𝑓u ∈ 𝐻x
, 𝑅u ∈ ℛc,f
区分上で滑らかな関数
• 𝑀個の台の部分集合+関数に分解できるとする
関数のプロット
𝑥9
𝑥Z
𝑓 𝑥9, 𝑥Z
部分集合𝑅9
𝑀 = 3の例:3つの部分集合上で、
それぞれ滑らかな関数を考える
部分集合𝑅Z
部分集合𝑅|
⼆種類の推定量
• ⾮ベイズ推定量
• 洗練された多くの最適化アルゴリズムが使える
• ⾮凸最適化なので、⼤域最適解を得るのが困難
𝑓"H
≔ argmin
•∈ℱ‚‚
∑ 𝑌6 − 𝑓 𝑋6
Z:
689
経験損失最⼩化
◎
×
※ ここでは大域最適解が求まっているとして議論する
⼆種類の推定量
• ベイズ推定量
• ⾮凸最適化の問題が発⽣しない
• 計算量は⽐較的⼤きい
事前分布 Π… 𝑓 for 𝑓 ∈ ℱ%%
Π…	はNNの⾮ゼロパラメタ(固定)に⼀様分布
事後分布 dΠ… 𝑓|𝐷 ∝ exp −∑ 𝑌6 − 𝑓 𝑋6
Z
6∈ : 𝜎GZ
dΠ… 𝑓
𝐷 = 𝑋6, 𝑌6 6∈[:]: データセット, 𝜎Z
: ノイズ分散
推定量 𝑓"Œ ≔ ∫ 𝑓𝑑Π…(𝑓|𝐷)
ベイズ事後平均
◎
×
理論的結果
主結果1
• ⾮ベイズ推定量は以下のレートを持つ
𝑓∗
∈ ℱw,c,f,x とする。層が𝑂• 1 +
x
-
+
f
Z-GZ
で⾮ゼロパラメタ
数がΘ 𝑛
‘
’“”‘ + 𝑛
‘•–
—”‘•– のDNNのうち、以下を⾼確率で満たす
ものが存在する:
定理1
⼀項⽬:滑らかな関数 𝑓 ∈ 𝐻x
の推定レート
⼆項⽬:区分の境界関数 𝑏 ∈ ℬc,f の推定レート
𝑂• は対数項を省略したランダウ記法
k ˆfL
f⇤
k2
L2 = ˜O
⇣
max
n
n 2 /(2 +D)
, n ↵/(↵+D 1)
o⌘
主結果2
• ベイズ推定量も同様のレートを持つ
𝑓∗
∈ ℱw,c,f,x とする。層が𝑂• 1 +
x
-
+
f
Z-GZ
で⾮ゼロパラメタ
数がΘ 𝑛
‘
’“”‘ + 𝑛
‘•–
—”‘•– のDNNのうち、以下を満たすものが存
在する:
定理2
DNNによる両推定量は、同じレートで
区分上で滑らかな関数を⼀致推定できる
E
h
k ˆfB
f⇤
k2
L2
i
= ˜O
⇣
max
n
n 2 /(2 +D)
, n ↵/(↵+D 1)
o⌘
DNNの最適性の結果
• なおこのレートは、区分上で滑らかな関数を推定
する上での最適レートである
• これを 収束レートのminimax下限といい、達成でき
る精度の理論的な限界値を表現している。
𝑓̅ を任意の推定量とする。このとき、ある定数 𝐶 > 0 が存在
し、以下の不等式が成⽴する:
定理3
inf
¯f
sup
f⇤2FM,J,↵,
E
⇥
k ¯f f⇤
k2
L2
⇤
> C max
n
n 2 /(2 +D)
, n ↵/(↵+D 1)
o
他⼿法に関する命題
• いくつかの他⼿法は⾮滑らかな関数が表現できない
• 𝑓∗
∈ ℱc,w,f,xのような⾮滑らかな関数は、上記カーネルに
よるRKHSでは表現できない
𝑓"š
をカーネル法による推定量とする。カーネル関数は
Gaussian or 多項式カーネルとする。
ある𝑓∗
∈ ℱc,w,f,xと定数𝐶š > 0が存在し、以下が成⽴する:
命題1
E
h
k ˆfK
f⇤
k2
L2
i
! CK > 0.
他⼿法に関する命題
• 表現⼒が⾼い⼿法も、精度が悪化する。
• フーリエ基底は𝑓∗
∈ ℱc,w,f,xを表現できるが、表現
に必要な基底の数が多いため、精度が下がる。
𝑓"›
を直交シリーズ法による推定量とし、基底関数はフーリ
エ or 三⾓関数基底とする。ある𝑓∗
∈ ℱw,c,f,xが存在し、パ
ラメタ𝜅 > max −
Zx
Zx•-
, −
f
f•-G9
のもと以下が成⽴する:
命題2
E
h
k ˆfF
f⇤
k2
L2
i
> Cn
これらの結果から⾔えること
• 真の関数が⾮滑らか(区分上で滑らか)のとき
• DNNが理論上の最適精度を達成
• 他⼿法は⼀致性 or 最適性を持たないので、DNNが
優越する性能を持つ。
• DNNが前述の精度を達成するには
• 層の数は、次元と滑らかさの⽐
x
-
+
f
Z-GZ
に⽐例する
数と、追加の数層があれば⼗分
• パラメタはデータ数の劣線形 Θ 𝑛
‘
’“”‘ + 𝑛
‘•–
—”‘•– 必要
なぜDNNは良いのか?
なぜDNNが優越する?
• ①. 活性化関数を⽤いると 1s 𝑥 , 𝑅 ∈ ℛf,c	を表現可
• 活性化(ReLU)関数の差はステップ関数を近似
• 滑らかな関数 𝑓 ∈ 𝐻x
も近似できる
• Yarotsky(2017 NN)が良い近似⽅法を提案
• ステップ関数と滑らかな関数の合成は、集合上の指⽰関
数になる (Peterson+ (2017 arXiv)による定式化)
ー =
=∘
合成関数
なぜDNNが優越する?
• ②. DNNの多層構造(=合成関数)が、その集合
上の関数の効率的な表現を可能にする
• この表現が少ないパラメタ数(層の数)でできる
• ⇒有限のデータからでも良い精度で推定できる
• 対して、他⼿法はそのような構造を持っていない
• ⇒例:フーリエ級数による推定は、こういう関数を表現する
のに多くのパラメタを必要とする
例
1~2層⽬:境界線
3~4層⽬:ステップ関数
5~6層⽬:集合上の関数
簡易な実験
⾮滑らかな関数の表現
• DNNは⾮滑らかな関数を表現できる
真の関数(未知) 関数の推定量
※真の関数から⽣成した𝑛 = 1500のデータを⽤いて、変換4層・ノード12個
を持つDNNと、100個の初期値を⽤いて推定。
予測精度の⽐較
• 上記の⾮滑らかな関数
を、DNNおよび他⼿法
を⽤いて推定
• DNNが良い精度を達成
• 他⼿法は⾮滑らかな構
造を表現しづらいので
制度が悪い
まとめ
まとめ
• ⽬的
• DNNが良い性能を発揮する原理を究明する
• 結果
• 真の関数が区分上で滑らかのとき、DNNが最適性
を持ち、他の⼿法を優越することを明らかにした
• 最適精度を発揮するために必要なDNNの構造(層
の数、パラメタの数)を明らかにした
なぜDNNが他⼿法より⾼性能なのか?
⼀要因:データを⽣成する関数が⾮滑らかだから
理論の発展と展望
推定誤差やデータの正則条件が明らかになる
→統計的推論が可能に(検定や信頼区間)
原理の理解に基づいた深層学習の運⽤の実現
正則条件成⽴の検定効率的なモデル選択法
とりあえず⼤量の
層とノード!
このデータなら
ノードは3個でい
いよ
データの特徴の抽出
深層学習が
失敗した!
正則条件の検定など
データのここが
原因だった
対策しよう
ご静聴ありがとうございました。
参照論⽂
• Stone, C. J. (1982). Optimal global rates of convergence for nonparametric regression.
The annals of statistics, 1040-1053.
• Suzuki, T. (2018). Fast learning rate of deep learning via a kernel perspective. JMLR
W&CP (AISTATS).
• Schmidt-Hieber, J. (2017). Nonparametric regression using deep neural networks with
ReLU activation function. arXiv.
• Neyshabur, B., Tomioka, R., & Srebro, N. (2015). Norm-based capacity control in neural
networks. JMLR W&CP (COLT).
• Sun, S., Chen, W., Wang, L., & Liu, T. Y. (2015). Large margin deep neural networks:
theory and algorithms, arXiv.
• Choromanska, A., Henaff, M., Mathieu, M., Arous, G. B., & LeCun, Y. (2017) The loss
surfaces of multilayer networks. JMLR W&CP (AISTATS).
• Kawaguchi, K. (2016). Deep learning without poor local minima. In Advances in Neural
Information Processing Systems.
• Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks. Neural
Networks, 94, 103-114.
• Safran, I., & Shamir, O. (2017). Depth-width tradeoffs in approximating natural functions
with neural networks. JMLR W&CP (ICML).
• Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2016). Understanding deep
learning requires rethinking generalization. ICLR.
• Xu, A., & Raginsky, M. (2017). Information-theoretic analysis of generalization capability
of learning algorithms. In Advances in Neural Information Processing Systems.
画像
• いらすとや
• http://www.irasutoya.com

深層学習による非滑らかな関数の推定