ベイズ最適化によるハイパーパラメータ探索についてざっくりと解説しました。
今回紹介する内容の元となった論文
Bergstra, James, et al. "Algorithms for hyper-parameter optimization." 25th annual conference on neural information processing systems (NIPS 2011). Vol. 24. Neural Information Processing Systems Foundation, 2011.
https://hal.inria.fr/hal-00642998/
ベイズ最適化によるハイパーパラメータ探索についてざっくりと解説しました。
今回紹介する内容の元となった論文
Bergstra, James, et al. "Algorithms for hyper-parameter optimization." 25th annual conference on neural information processing systems (NIPS 2011). Vol. 24. Neural Information Processing Systems Foundation, 2011.
https://hal.inria.fr/hal-00642998/
Robustness of classifiers_from_adversarial_to_random_noiseKeisuke Hosaka
NIPS2016の論文
「Fawzi, A., Moosavi-Dezfooli, S.-M., & Frossard, P. (2016). Robustness of classifiers: from adversarial to random noise. In NIPS (pp. 1624–1632).」
のまとめ資料(論文をほぼ日本語に訳した程度)
* Satoshi Hara and Kohei Hayashi. Making Tree Ensembles Interpretable: A Bayesian Model Selection Approach. AISTATS'18 (to appear).
arXiv ver.: https://arxiv.org/abs/1606.09066#
* GitHub
https://github.com/sato9hara/defragTrees
5. 紹介する論⽂
• J. Bergstra, R. Bardenet, Y. Bengio, and B. Kegl. Algorithms for
hyper-parameter optimization, NIPS, 24:2546–2554, 2011.
• J. Bergstra, D. Yamins, and D. D. Cox. Making a science of model
search: Hyperparameter optimization in hundreds of dimensions
for vision architectures, In Proc. ICML, 2013a.
4
※2つめの論文は1つ目を整理し、新しいアプリケーションを紹介したものです。
本資料ではこちらの論文については実験結果のみ紹介します。
17. 参考:Gaussian Processとは
• Definition(Wikipedia(en)より)
– A Gaussian process is a statistical distribution Xt, t ∈ T, for which any
finite linear combination of samples has a joint Gaussian distribution. More
accurately, any linear functional applied to the sample function Xt will give a
normally distributed result.
• 実際上の意味
– (⾮可算)無限次元正規分布と捉えて良い。
– 多次元正規分布からのサンプルはベクトルになるが、
Gaussian Processからのサンプルは関数になる。
16
25. EIの最適化⽅法(過去提案された⽅法)
• Bardenet&Kegl,2010ではCross-Entropy法の派⽣を使っている。
• 詳細は省くものの概略は以下の通り。
1. Cross-Entropy法によってEIが良いパラメータを探索。
2. EIの多峰性を考慮し、Cross-Entropy法のサンプリングに⽤いる分布として
mixtureを⽤いる。
3. mixtureを⽤いたCross-Entropy法の更新式がclosed-formで得られるのでそれ
を使う。
24
R. Bardenet and B. Kegl. Surrogating the surrogate: accelerating
Gaussian Process optimization with mixtures. In ICML, 2010.
53. 著者が挙げていたHyperopt(TPE)の問題点
• The TPE algorithm is conspicuously deficient in optimizing each
hyperparameter independently of the others.
• It is almost certainly the case that the optimal values of some
hyperparameters depend on settings of others.
• Algorithms such as SMAC (Hutter et al., 2011) that can represent such
interactions might be significantly more effective optimizers than TPE.
• It might be possible to extend TPE to profitably employ non-factorial joint
densities P(config|score).
52