12. 汎化誤差の分解 [Bottou+11][得居15]
12
近似誤差 推定誤差 最適化誤差
θ* : 汎化誤差最⼩解 argminθ E (θ)
θ^ : 訓練誤差最⼩解 argminθ E^(θ)
θ0 : アルゴリズムで実際に得られたパラメータ
L. Bottou and O. Bousquet, “The tradeoffs of large scale learning,” In
Optimization for Machine Learning, MIT Press, pp. 351‒368, 2011.
最適化から⾒たディープラーニングの考え⽅,
得居 誠也, オペレーションズ・リサーチ : 経営の科学 60(4), 191-197, 2015-04-01
E(✓0) = E(✓⇤
) +
h
E(ˆ✓) E(✓⇤
)
i
+
h
E(✓0) E(ˆ✓)
i
14. Tomaso Poggioの問題提起
[Poggio+16]
14
Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2016). Why and When Can
Deep--but Not Shallow--Networks Avoid the Curse of Dimensionality: a Review. arXiv
preprint arXiv:1611.00740.
https://mcgovern.mit.edu/principal-investigators/tomaso-poggio
15. 近似誤差 推定誤差最適化誤差
E(✓0) = E(✓⇤
) +
h
E(ˆ✓) E(✓⇤
)
i
+
h
E(✓0) E(ˆ✓)
i
仮説集合は本物の分布をどのくらい
近似する能⼒があるか?
16. Tomaso Poggioの問題提起
[Poggio+16]
16
Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2016). Why and When Can
Deep--but Not Shallow--Networks Avoid the Curse of Dimensionality: a Review. arXiv
preprint arXiv:1611.00740.
https://mcgovern.mit.edu/principal-investigators/tomaso-poggio
17. 普遍性定理 ([Cybenko+89] etc..)
Note
• 定義域の[-1, 1]dはコンパクト空間に拡張できる
• [Cybenko+89]以降⾊々なバリエーションで証明されている
• [Cybenko+89]ではHahn-Banachの定理とRieszの表現定理を使う。
• Nielsenによる証明が構成的で平易
17
Cybenko., G. (1989) "Approximations by superpositions of sigmoidal
functions", Mathematics of Control, Signals, and Systems, 2 (4), 303-314
http://neuralnetworksanddeeplearning.com
隠れ層1層で活性化関数がシグモイド関数のNN全体は、
supノルムに関して、C([-1, 1]d)の中で稠密
19. Sum-Product Network [Domingos+11]
• 2種類のノードを交互に積み上げたネットワーク
• ⼊⼒の重み付き和を出⼒するノード
• ⼊⼒の積を取るノード
• 歴史的には分配関数を効率よく計算できるグラフィカルモデル
は何かという問いから考えられた(らしい)
19
Poon, H. and Domingos, P. (2011). Sum-product networks: A new
deep architecture. In UAIʼ2011, Barcelona, Spain.
20. 層を深くするメリット[Delalleau+11]
• ⾼さ2n段、各ノードが2⼊⼒のSum-product network (=⼊⼒
数4n)を2段のSum-product Networkで実現するには、1段⽬の
掛け算ノードが少なくとも22^n-1個必要 (Collorary 1)
20
Delalleau, Olivier, and Yoshua Bengio. "Shallow vs. deep sum-product
networks." Advances in Neural Information Processing Systems. 2011.
Proposition 3でも別のタイプの多層
Sum-product networkで似た主張を⽰す
多層では O(M) 個のパラメータで表現
できるが、2段では O(exp(M)) 個のパ
ラメータが必要な関数が存在する
22. 近似誤差 推定誤差 最適化誤差
E(✓0) = E(✓⇤
) +
h
E(ˆ✓) E(✓⇤
)
i
+
h
E(✓0) E(ˆ✓)
i
訓練誤差を最⼩にする理想の解と実
際のアルゴリズムで得られる現実の
解はどのくらい違うか?
23. Tomaso Poggioの問題提起
[Poggio+16]
23
Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2016). Why and When Can
Deep--but Not Shallow--Networks Avoid the Curse of Dimensionality: a Review. arXiv
preprint arXiv:1611.00740.
https://mcgovern.mit.edu/principal-investigators/tomaso-poggio
28. 深層モデルの損失関数のsaddle point
[Dauphin+14]
• 臨界点における損失関数の値と指数は正の相関がある
• 損失関数の⼤きな所にある臨界点はほとんどsaddle pointでは?
• saddle pointで停留しない勾配法を提案
28
Dauphin, Yann N., et al. "Identifying and attacking the saddle point problem in high-dimensional
non-convex optimization." Advances in neural information processing systems. 2014.
29. 物理モデルへの帰着
ニューラルネットや⼊⼒に適当な仮定を置くことで、損失関数
を適当な物理モデルのハミルトニアンの形に帰着させる
• ランダムガウシアンモデル [Bray+07]
• Spherical spin glass モデル [Choromanska+15]
ランダム⾏列理論やが使える⼀⽅で、仮定が現実的ではないと
いう批判もある([Kawaguchi16]など)
29
Bray, Alan J., and David S. Dean. "Statistics of critical points of gaussian fields on
large-dimensional spaces." Physical review letters 98.15 (2007): 150201.
Choromanska, Anna, et al. "The Loss Surfaces of Multilayer Networks." AISTATS.
2015.
38. 38
Tomaso Poggio, Qianli
Liao, Theory II:
Landscape of the
Empirical Risk in Deep
Learning,
arXiv:1703.09833
Poggioらは、実験結果
から損失関数は右図
(A)のような形をして
いるという仮説を⽰し
ている[Poggio+17]
39. 近似誤差 推定誤差 最適化誤差
E(✓0) = E(✓⇤
) +
h
E(ˆ✓) E(✓⇤
)
i
+
h
E(✓0) E(ˆ✓)
i
汎化誤差と訓練誤差にはどのくらい
の違いがあるか?
40. Tomaso Poggioの問題提起
[Poggio+16]
40
Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2016). Why and When Can
Deep--but Not Shallow--Networks Avoid the Curse of Dimensionality: a Review. arXiv
preprint arXiv:1611.00740.
https://mcgovern.mit.edu/principal-investigators/tomaso-poggio