Successfully reported this slideshow.
Upcoming SlideShare
×

# 機械学習モデルのハイパパラメータ最適化

14,099 views

Published on

MIRU2018 のチュートリアルで発表された資料です。

Published in: Engineering
• Full Name
Comment goes here.

Are you sure you want to Yes No
• Be the first to comment

### 機械学習モデルのハイパパラメータ最適化

2. 2. Copyright © GREE, Inc. All Rights Reserved. • 尾崎 嘉彦 • グリー株式会社　エンジニア • Webゲーム開発 -> 機械学習 • 産総研　特定集中研究専門員 • ブラックボックス最適化 • 微分フリー最適化 • ハイパパラメータ最適化 発表者の紹介
5. 5. Copyright © GREE, Inc. All Rights Reserved. 機械学習におけるハイパパラメータ モデル自身や学習に関わる手法が持つ，性能に影響を及ぼす調整可能なパラメータ x t ln λ = −18 0 1 −1 0 1 x t ln λ = 0 0 1 −1 0 1 正則化項のはたらき (Bishop, 2006) Adam optimizer (Kingma and Ba 2015)
6. 6. Copyright © GREE, Inc. All Rights Reserved. モデルの複雑化に伴いハイパパラメータ数も増加 手作業や簡単な手法では細かい調整が手に負えない状況 7x7conv,64,/2 pool,/2 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,128,/2 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,256,/2 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,512,/2 3x3conv,512 3x3conv,512 3x3conv,512 3x3conv,512 3x3conv,512 avgpool fc1000 image 3x3conv,512 3x3conv,64 3x3conv,64 pool,/2 3x3conv,128 3x3conv,128 pool,/2 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 pool,/2 3x3conv,512 3x3conv,512 3x3conv,512 pool,/2 3x3conv,512 3x3conv,512 3x3conv,512 3x3conv,512 pool,/2 fc4096 fc4096 fc1000 image output size:112 output size:224 output size:56 output size:28 output size:14 output size:7 output size:1 VGG-1934-layerplain 7x7conv,64,/2 pool,/2 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,64 3x3conv,128,/2 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,128 3x3conv,256,/2 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,256 3x3conv,512,/2 3x3conv,512 3x3conv,512 3x3conv,512 3x3conv,512 3x3conv,512 avgpool fc1000 image 34-layerresidual Residual Network (He et al. 2016)
8. 8. Copyright © GREE, Inc. All Rights Reserved. ハイパパラメータ最適化問題の定式化 性能指標（損失関数）を最小化するブラックボックス最適化と考えるのが標準的 Minimize f(λ) subject to λ ∈ Λ. 自分たちが観測できるのは，ノイズを伴った目的関数値のみ 目的関数が数式の形で明示的には与えられない fϵ(λ) = f(λ) + ϵ, ϵ iid ∼ N(0, σ2 n)
13. 13. Copyright © GREE, Inc. All Rights Reserved. • Strong Anytime Performance • 厳しい制約のもとで，良い性能が得られること • Strong Final Performance • 緩い制約のもとで，非常に良い設定が得られること • Effective Use of Parallel Resources • 効率的に並列化できること • Scalability • 非常に多くのパラメータ数でも問題なく扱うことができること • Robustness & Flexibility • 目的関数値の観測ノイズや非常にセンシティブなパラメータに対して， 頑健かつ柔軟であること ハイパパラメータ最適化手法が満たすべき要件 (Falkner et al. 2018a) 全てを満たすのは難しいため，現実には目的に応じて取捨選択が必要
14. 14. Copyright © GREE, Inc. All Rights Reserved. 手法の分類 Dodge et al. (2017) λk {(λi , f(λi ))}k−1 i=1 λk {λi }k−1 i=1 • ベイズ最適化など • 目的関数値を活用して効率的に最適化 • 評価回数を少なく抑えられる傾向 • グリッドサーチやランダムサーチなど • 目的関数値に対する依存性がないため，リソースの許す限り並列評価が可能 • CPU時間に対する課金が主流のクラウド計算資源と相性がよい • ウォールクロックタイムを少なく抑えられる傾向
20. 20. Copyright © GREE, Inc. All Rights Reserved. 低実効次元性 (Low Effective Dimensionality) モデル性能にとって重要なパラメータは少数であるためグリッドサーチは非効率， またデータセット毎にそれらは異なる (Bergstra et al. 2012) Important parameter Unimportantparameter Important parameter Unimportantparameter f(λ1, λ2) = g(λ1) + h(λ2) ≈ g(λ1)
21. 21. Copyright © GREE, Inc. All Rights Reserved. • Hutter et al. (2014) • functional ANOVAによるアプローチで重要なハイパパラメータを特定 • Fawcett and Hoos (2016) • 2つの設定間で最もパフォーマンスに貢献しているパラメータを調べるablation analysis • Biedenkapp et al. (2017) • サロゲートを用いることでablation analysisを高速化 • van Rijn and Hutter (2017a, b) • functional ANOVAを用いて大規模にデータセット間のハイパパラメータ重要性を分析 重要なハイパパラメータの特定 近年の研究動向
25. 25. Copyright © GREE, Inc. All Rights Reserved. λ⁰ λ2 λ¹ λic λc λoc λr λe Reﬂect: λr = λc + δr (λc − λn ) where λc = n−1 i=0 λi /n Nelder-Mead法 (Nelder and Mead 1965)
29. 29. Copyright © GREE, Inc. All Rights Reserved. λ⁰ λ2 λ¹ λic λ1s λoc λr λe λ2s Shrink: λ0 + γs (λi − λ0 ) : i = 0, . . . , n} Nelder-Mead法 (Nelder and Mead 1965)
46. 46. Copyright © GREE, Inc. All Rights Reserved. • 標準的な選択 係数の選択 0 < γs < 1, −1 < δic < 0 < δoc < δr < δe γs = 1 2 , δic = −1 2 , δoc = 1 2 , δr = 1 and δe = 2 γs = 1 − 1 n , δic = − 3 4 + 1 2n , δoc = 3 4 − 1 2n , δr = 1, δe = 1 + 2 n where n ≥ 2 • 適応的な係数 (Gao and Han 2012) Nelder-Mead法 (Nelder and Mead 1965)
48. 48. Copyright © GREE, Inc. All Rights Reserved. ベイズ最適化 • ベイズ最適化 • サロゲートをベイズ的に構築するSMBOの総称 • 　　　　　　を考えるP(fϵ(λ) | λ) • サロゲートの種類 • ガウス過程 (GP) • 最も標準的，有名な実装はSpearmint (Snoek et al. 2012) • ランダムフォレスト • SMAC (Hutter et al. 2011) • Tree Parzen Estimator (TPE) (Bergstra et al. 2011) • 実装はHyperopt • 　　　　　　　　　　　を考える • DNN (Snoek et al. 2015) P(λ | fϵ(λ)), P(fϵ(λ)) • Sequential Model-based Optimization (SMBO) • 反復的に関数評価とサロゲート（目的関数のモデル）の更新を繰り返す手法の総称 • ベイズ最適化や信頼領域法 (Ghanbari and Scheinberg 2017)
49. 49. Copyright © GREE, Inc. All Rights Reserved. • ガウス分布 • スカラ，ベクトル上の分布 • ガウス過程 • 関数上の分布 ベイズ最適化 ガウス過程回帰に基づく方法 −1 −0.5 0 0.5 1 −3 −1.5 0 1.5 3 ガウス過程からのサンプル (Bishop, 2006)
52. 52. Copyright © GREE, Inc. All Rights Reserved. • ARD squared exponential kernel • ARD Matérn 5/2 kernel • カーネルのハイパパラメータはデータから動的に決める • 経験ベイズ (Bishop 2006) • Markov Chain Monte Carlo (MCMC) (Snoek et al. 2012) 共分散関数（カーネル）の選択 (Snoek et al. 2012) kse(λ, λ′ ) = θ0 exp(− 1 2 r2 (λ, λ′ )), r2 (λ, λ′ ) = D d=1 (λd − λ′ d)2 /(θd )2 k52(λ, λ′ ) = θ0 (1 + 5r2(λ, λ′) + 5 3 r2 (x, λ′ )) exp(− 5r2(λ, λ′)) ベイズ最適化
53. 53. Copyright © GREE, Inc. All Rights Reserved. ベイズ最適化 PRML 6章，カーネルのハイパパラメータの影響 (Bishop 2006) (1.00, 4.00, 0.00, 0.00) −1 −0.5 0 0.5 1 −3 −1.5 0 1.5 3 (9.00, 4.00, 0.00, 0.00) −1 −0.5 0 0.5 1 −9 −4.5 0 4.5 9 (1.00, 64.00, 0.00, 0.00) −1 −0.5 0 0.5 1 −3 −1.5 0 1.5 3 (1.00, 0.25, 0.00, 0.00) −1 −0.5 0 0.5 1 −3 −1.5 0 1.5 3 (1.00, 4.00, 10.00, 0.00) −1 −0.5 0 0.5 1 −9 −4.5 0 4.5 9 (1.00, 4.00, 0.00, 5.00) −1 −0.5 0 0.5 1 −4 −2 0 2 4 k(λ, λ′ ) = θ0 exp − θ1 2 ∥λ − λ′ ∥2 + θ2 + θ3 λ⊤ λ′
54. 54. Copyright © GREE, Inc. All Rights Reserved. ベイズ最適化 mとkを決めれば，過去の観測から未観測点の関数値を予測できる ガウス分布の性質とSchurの公式から導出される (Rasmussen and Williams 2005; Bishop 2006) データがないとまともに予測できないので，ランダムサーチなどでデータを集めて初期化しておく P(fϵ(λt+1 ) | λ1 , λ2 , . . . , λt+1 ) = N(µt(λt+1 ), σ2 t (λt+1 ) + σ2 n), µt(λt+1 ) = k⊤ [K + σ2 nI]−1 [f(λ1 ) f(λ2 ) · · · f(λt )]⊤ , σ2 t (λt+1 ) = k(λt+1 , λt+1 ) − k⊤ [K + σ2 nI]−1 k where k = [k(λt+1 , λ1 ) k(λt+1 , λ2 ) · · · k(λt+1 , λt )]⊤ , K = ⎡ ⎢ ⎣ k(λ1 , λ1 ) · · · k(λ1 , λt ) ... ... ... k(λt , λ1 ) · · · k(λt , λt ) ⎤ ⎥ ⎦ .
56. 56. Copyright © GREE, Inc. All Rights Reserved. ベイズ最適化 次に評価する点の選び方 • 獲得関数と呼ばれる指標を最大化する点を次に評価する点として選ぶ • 獲得関数は探索と知識利用のトレードオフを担う • サロゲートの分散が大きい点を評価（探索） • サロゲートの平均が小さい点を評価（知識利用） aUCB(λ) = −µ(λ) + ξσ(λ) • 例：GP-Upper Confidence Bound (GP-UCB) (Srinivas 2012)  解きたいのは損失最小化問題なので-µ(λ) • Probability of Improvement (PI)， Expected Improvement (EI)， Predictive Entropy Search (PES) など色々あり，探索性能に大きく影響
58. 58. Copyright © GREE, Inc. All Rights Reserved. サロゲートの計算量削減 近年の研究動向 [K + σ2 nI]−1 • ガウス過程回帰のボトルネック： • 近似計算 (Quiñonero-Candela et al. 2007; Titsias 2009) • 計算量が相対的に少ないサロゲート • ランダムフォレスト (Hutter et al. 2011) • DNN (Snoek et al. 2015)
59. 59. Copyright © GREE, Inc. All Rights Reserved. • Shah and Ghahramani (2015) • Parallel Predictive Entropy Search • Gonzalez et al. (2016) • Local Penalization • Kathuria et al. (2016) • DPP sampling • Kandasamy et al. (2018) • 非同期並列Thompson sampling • この他にも沢山 • Bergstra et al. (2011); Snoek et al. (2012); Contal et al. (2013); Desautels et al. (2014); Daxberger and Low (2017); Wang et al. (2017, 2018a); Rubin (2018) ベイズ最適化の並列化 近年の研究動向
61. 61. Copyright © GREE, Inc. All Rights Reserved. その他の手法 適用事例報告がある主なもの • CMA-ES • Watanabe and Le Roux (2014); Loshchilov and Hutter (2016) • Particle Swarm Optimization (PSO) • Meissner et al. (2006); Lin et al. (2009); Lorenzo et al. (2017); Ye (2017) • Genetic Algorithm (GA) • Leung et al. (2003); Young et al. (2015) • Differential Evolution (DE) • Fu et al. (2016a,b) • 強化学習 • Hansen (2016); Bello et al. (2017); Dong et al. (2018) • 勾配法 (※ブラックボックス最適化でない，連続パラメータのみ) • Maclaurin et al. (2015); Luketina et al. (2016); Pedregosa (2016); Franceschi (2017a,b,c, 2018a,b)
63. 63. Copyright © GREE, Inc. All Rights Reserved. • Domhan et al. (2015) • 11種類の基底関数の重み付き線形和で学習曲線をモデル化 • ベイジアンネットワークを使用 (Klein et al. 2016) • 過去のデータを活用 (Chandrashekaran and Lane 2017) 早期終了 エポック数に対する学習曲線を予測し，良い性能を達成する見込みのない学習を停止 fcomb = k i=1 wi fi (λ | θi) + ϵ, ϵ ∼ N(0, σ2 ), k i=1 wi = 1, ∀wi , wi ≥ 0
64. 64. Copyright © GREE, Inc. All Rights Reserved. • 異なる解像度でハイパパラメータ最適化後，functional ANOVAにより重要なパラメータを分析 • 多くの重要なパラメータとその値は解像度に依らず同じ (e.g. 学習率，バッチサイズ) • 解像度の影響を受けるものは直後にmax-poolingを伴う畳込み層の数など（poolingすると 解像度が減るため）-> 高解像度化した際の適切な初期値は低解像度の場合から推測する • 32×32で750回評価，64×64で500回評価，128×128で250回評価を行いハイパパラメータ最 適化しても精度は落ちず，128×128で1500回評価するよりも早く終わる Increasing Image Sizes (IIS) (Hinz et al. 2018) 低解像度の画像を用いてハイパパラメータを最適化を始め，徐々に解像度を上げていく
65. 65. Copyright © GREE, Inc. All Rights Reserved. • Successive Halving (Jamieson and Talwalkar 2015) • 複数のハイパパラメータ設定候補を評価 • 下位候補を棄却，リソースを上位候補に多く割当て直して評価を継続 • 課題 • 候補数をnリソースをBとしたとき，nとB/nの適切なトレードオフは非自明 Hyperband (Li et al. 2016) リソース (e.g. 学習時間，教師データ数) を適応的に割り当てる
66. 66. Copyright © GREE, Inc. All Rights Reserved. Hyperband (Li et al. 2016) 提案手法：グリッドサーチのようにnとB/nのトレードオフを複数試す ランダムサーチやベイズ最適化と組み合わせる (Bertrand et al. 2017; Falkner et al. 2018; Wang et al. 2018)
67. 67. Copyright © GREE, Inc. All Rights Reserved. • 仮説：近いデータセットに対するハイパパラメータ最適化結果は似ている • e.g. 学習データが増えたので，モデルを再学習する場合 • メタ特徴量 • ハンドメイド • シンプルな特徴量（e.g. データ数，次元数，クラス数） • 統計学や情報理論に基づく特徴 （e.g. 分布の歪度） • ランドマーク特徴（決定木などシンプルな機械学習モデルの性能） • 深層学習 (Kim et al. 2017a,b) • 近いデータセットのハイパパラメータ最適化結果で手法を初期化しウォームスタート • PSO (Gomes et al. 2012) • GA (Reif et al. 2012) • ベイズ最適化 (Bardenet et al. 2013; Yogatama and Mann 2014; Feurer et al. 2014,2015,2018; Kim et al. 2017a,b) メタ学習とウォームスタート 近年の研究動向
68. 68. Copyright © GREE, Inc. All Rights Reserved. • Sampling (Arnold and Beyer 2006) • 設定をn回評価し，平均値を取る • Threshold Selection Equipped with Re-evaluation  (Markon et al. 2001; Beielstein and Markon 2002; Jin and Branke 2005; Goh and Tan 2007; Gießen and Kötzing 2016) • 目的関数値が最良値をしきい値以上改善した場合にsampling • Value Suppression (Wang et al. 2018b) • best-k設定が一定期間更新されないときにbest-k設定をsamplingし，関数値を修正 ノイズ対策 近年の研究動向
70. 70. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 以下を5つの手法でハイパパラメータ最適化する Name Description Range x1 Learning rate (= 0.1x1 ) [1, 4] x2 Momentum (= 1 − 0.1x2 ) [0.5, 2] x3 L2 weight decay [0.001, 0.01] x∗ 4 FC1 units [256, 1024] Integer parameters are marked with ∗ . データセット：MNIST ネットワーク：LeNet，Batch-Normalized Maxout Network in Network タスク：文字認識（10クラス分類） Name Description Range x1 Learning rate (= 0.1x1 ) [0.5, 2] x2 Momentum (= 1 − 0.1x2 ) [0.5, 2] x3 L2 weight decay [0.001, 0.01] x4 Dropout 1 [0.4, 0.6] x5 Dropout 2 [0.4, 0.6] x6 Conv 1 initialization deviation [0.01, 0.05] x7 Conv 2 initialization deviation [0.01, 0.05] x8 Conv 3 initialization deviation [0.01, 0.05] x9 MMLP 1-1 initialization deviation [0.01, 0.05] x10 MMLP 1-2 initialization deviation [0.01, 0.05] x11 MMLP 2-1 initialization deviation [0.01, 0.05] x12 MMLP 2-2 initialization deviation [0.01, 0.05] x13 MMLP 3-1 initialization deviation [0.01, 0.05] x14 MMLP 3-2 initialization deviation [0.01, 0.05] Batch-Normalized Mahout Network in Network (Chang and Chen 2015) MMLP (Maxout Multi Layer Perceptron) LeNet (LeCun et al. 1998) MNIST (LeCun and Cortes, 2010)
71. 71. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 文字認識 (LeNet) 結果 Mean loss of all executions for each method per iteration (LeNet)
72. 72. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 文字認識 (LeNet) 結果 Method mean loss min loss Random search 0.005411 (±0.001413) 0.002781 Bayesian optimization 0.004217 (±0.002242) 0.000089 CMA-ES 0.000926 (±0.001420) 0.000047 Coordinate-search method 0.000052 (±0.000094) 0.000002 Nelder-Mead method 0.000029 (±0.000029) 0.000004 Method mean accuracy (%) accuracy with min loss (%) Random search 98.98 (±0.08) 99.06 Bayesian optimization 99.07 (±0.02) 99.25 CMA-ES 99.20 (±0.08) 99.30 Coordinate-search method 99.26 (±0.05) 99.35 Nelder-Mead method 99.24 (±0.04) 99.28
73. 73. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 文字認識 (Batch-Normalized Mahout Network in Network) 結果 Mean loss of all executions for each method per iteration (Batch-Normalized Maxout Network in Network)
74. 74. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 文字認識 (Batch-Normalized Mahout Network in Network) 結果 Method mean loss min loss Random search 0.045438 (±0.002142) 0.042694 Bayesian optimization 0.045636 (±0.001197) 0.044447 CMA-ES 0.045248 (±0.002537) 0.042250 Coordinate-search method 0.045131 (±0.001088) 0.043639 Nelder-Mead method 0.044549 (±0.001079) 0.043238 Method mean accuracy (%) accuracy with min loss (%) Random search 99.56 (±0.02) 99.58 Bayesian optimization 99.47 (±0.05) 99.59 CMA-ES 99.49 (±0.14) 99.59 Coordinate-search method 99.48 (±0.04) 99.53 Nelder-Mead method 99.53 (±0.00) 99.54
75. 75. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) データセット：Adience benchmark ネットワーク：Gil and Tal (2015) タスク： (1)性別推定（2クラス分類） (2)年齢層推定（8クラス分類） Name Description Range x1 Learning rate (= 0.1x1 ) [1, 4] x2 Momentum (= 1 − 0.1x2 ) [0.5, 2] x3 L2 weight decay [0.001, 0.01] x4 Dropout 1 [0.4, 0.6] x5 Dropout 2 [0.4, 0.6] x∗ 6 FC 1 units [512, 1024] x∗ 7 FC 2 units [256, 512] x8 Conv 1 initialization deviation [0.01, 0.05] x9 Conv 2 initialization deviation [0.01, 0.05] x10 Conv 3 initialization deviation [0.01, 0.05] x11 FC 1 initialization deviation [0.001, 0.01] x12 FC 2 initialization deviation [0.001, 0.01] x13 FC 3 initialization deviation [0.001, 0.01] x14 Conv 1 bias [0, 1] x15 Conv 2 bias [0, 1] x16 Conv 3 bias [0, 1] x17 FC 1 bias [0, 1] x18 FC 2 bias [0, 1] x∗ 19 Normalization 1 localsize (= 2x19 + 3) [0, 2] x∗ 20 Normalization 2 localsize (= 2x20 + 3) [0, 2] x21 Normalization 1 alpha [0.0001, 0.0002] x22 Normalization 2 alpha [0.0001, 0.0002] x23 Normalization 1 beta [0.5, 0.95] x24 Normalization 2 beta [0.5, 0.95] Integer parameters are marked with ∗ . Adience benchmark (Eran et al. 2014)
76. 76. Copyright © GREE, Inc. All Rights Reserved. 性別推定結果 Mean loss of all executions for each method per iteration (gender classification CNN) CNNのハイパパラメータ最適化 (Ozaki et al. 2017)
77. 77. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 性別推定結果 Method mean loss min loss Random search 0.001732 (±0.000540) 0.000984 Bayesian optimization 0.00183 (±0.000547) 0.001097 CMA-ES 0.001804 (±0.000480) 0.001249 Coordinate-search method 0.002240 (±0.001448) 0.000378 Nelder-Mead method 0.000395 (±0.000129) 0.000245 Method mean accuracy (%) accuracy with min loss (%) Random search 87.93 (±0.24) 88.21 Bayesian optimization 88.07 (±0.27) 87.85 CMA-ES 88.20 (±0.38) 88.55 Coordinate-search method 87.04 (±0.52) 87.72 Nelder-Mead method 88.38 (±0.47) 88.83
78. 78. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 年齢層推定結果 Mean loss of all executions for each method per iteration (age classification CNN)
79. 79. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 年齢層推定結果 Method mean loss min loss Random search 0.035694 (±0.006958) 0.026563 Bayesian optimization 0.024792 (±0.003076) 0.020466 CMA-ES 0.031244 (±0.010834) 0.016952 Coordinate-search method 0.032244 (±0.006109) 0.024637 Nelder-Mead method 0.015492 (±0.002276) 0.013556 Method mean accuracy (%) accuracy with min loss (%) Random search 57.18 (±0.96) 57.90 Bayesian optimization 56.28 (±1.68) 57.19 CMA-ES 57.17 (±0.80) 58.19 Coordinate-search method 55.06 (±2.31) 56.98 Nelder-Mead method 56.72 (±0.50) 57.42
80. 80. Copyright © GREE, Inc. All Rights Reserved. CNNのハイパパラメータ最適化 (Ozaki et al. 2017) 局所探索法が良い結果を出せた理由はなにか 仮説：目的関数が多くの良質な局所解を持つ？ ->肯定的な結果（NMは異なる局所解に収束も，良い性能） Parallel coordinates plot of the optimized hyperparameters of the gender classification CNN • Olof (2018)による追試 • NMはCNNに対して確かに上手くいく，RNNに対しては微妙 • 平均的にはCNN/RNNいずれもTPEが良かった (ベイズ最適化でもGPの方は全然ダメだった) • 実験を通して最良の結果を見つけたのはCNN/RNNいずれについてもNM • CNNに共通するロス関数の性質がRNNでは成り立たないと指摘 • Snoek et al. (2012)らの実験ではGPを用いたベイズ最適化が，TPEより優れていたと報告
81. 81. Copyright © GREE, Inc. All Rights Reserved. 計算実験 様々な課題 • 基本的にどの論文も提案手法が一番という結論を主張する • 提案手法は念入りにチューニングしてあるものと考える • 再現性の問題 • 手法の実装（ソースコード公開），ランダム性及びチューニング • 十分な計算リソースが手元にない • モデルの評価結果を記録した表形式のデータセット (Klein et al. 2018) • 実験設定がまちまち • HPOLib (Eggensperger et al. 2013) • 手法比較の方法 • 基準（e.g. 精度，AUC）と順位付けの手法 (Dewancker et al. 2016) • 検証データへの過学習 • 実用においてはデータセットをtraining / validation / testの3つに分割して おきチューニング後の性能がtestにおいて乖離し過ぎていないか確認
83. 83. Copyright © GREE, Inc. All Rights Reserved. 結論 これから熱くなると予想するトピック • 脱グリッドサーチ • ランダムサーチをはじめとする他の手法を使用 • 状況に応じて利点と欠点を考慮 • 自分と近い実験設定の論文を参考 • 研究トピック • 最適化手法 • 関連手法 (e.g. 重要なパラメータの特定，学習曲線予測) • 再現性の担保やベンチマークの整備 • 応用 (AutoML e.g. CASH problem，モデルアーキテクチャ探索)  Combined Algorithm Selection and Hyperparameter Optimization (CASH)
85. 85. Copyright © GREE, Inc. All Rights Reserved. Coordinate Search法 Maximal positive basisを活用した探索 (Conn et al., 2009; Audet and Hare, 2017) D⊕ D⊕ = {±ei : i = 1, 2, . . . , n}
86. 86. Copyright © GREE, Inc. All Rights Reserved. Coordinate Search法 λ0 ∈ Λ(⊂ Rn ) δ0 ∈ R with δ > 0 ϵ ∈ [0, ∞) λ0
87. 87. Copyright © GREE, Inc. All Rights Reserved. Coordinate Search法 Pk = {λk + δk d : d ∈ D⊕} f(λ) < f(λk ) λ ∈ Pk λ0 λ
89. 89. Copyright © GREE, Inc. All Rights Reserved. Coordinate Search法 λ0 λ1 Pk = {λk + δk d : d ∈ D⊕} f(λ) < f(λk ) λ ∈ Pk
91. 91. Copyright © GREE, Inc. All Rights Reserved. Coordinate Search法 λ0 λ1 λ2 λ3 Pk = {λk + δk : d ∈ D⊕} f(λ) < f(λk ) λ ∈ Pk
96. 96. Copyright © GREE, Inc. All Rights Reserved. Coordinate Search法 Pros and Cons • 局所解を見つける能力 • 並列化は部分的にのみ可能 • 座標軸に沿い反復的に探索を行うため次元数に対して低スケーラブル • 大域的な探索を行わないため，悪質な局所解に陥るリスク 収束性や失敗する例，改良した手法などはConn et al. (2009); Audet and Hare (2017)
99. 99. Copyright © GREE, Inc. All Rights Reserved. Coordinate Search法 探索の戦略 (Audet and Hare 2017) • Opportunistic polling • 良いものが見つかった時点で採用 • 固定された順番 • 完全にランダム • 直前に改善した方向からスタート • Complete polling（スケールしない） • 反復の度に全ての候補を評価して最良の値を選択
100. 100. Copyright © GREE, Inc. All Rights Reserved. • Weighted Hamming distance kernel (Hutter et al. 2011) ベイズ最適化 カテゴリ的パラメータを扱うためのカーネル kmixed(λ, λ′ ) = exp(rcont + rcat), rcont(λ, λ′ ) = l∈Λcont (−θl(λl − λ′ l)2 ), rcat(λ, λ′ ) = l∈Λcat −θl(1 − δ(λl, λ′ l)). where δ is the Kronecker delta function
101. 101. Copyright © GREE, Inc. All Rights Reserved. • Conditional kernel (Lévesque et al. 2017) • 条件的パラメータのための別のカーネル (Swersky et al. 2014) ベイズ最適化 条件パラメータを扱うためのカーネル kc(λ, λ′ ) = k(λ, λ′ ) if λc = λ′ c ∀c ∈ C 0 otherwise where C is the set of indices of active conditional hyperparameters
102. 102. Copyright © GREE, Inc. All Rights Reserved. ベイズ最適化 具体的なガウス過程回帰の計算 µ1(λ2 ) = k(λ2 , λ1 )f(λ1 ) µ2(λ3 ) = k(λ3 , λ1 ) k(λ3 , λ2 ) 1 k(λ1 , λ2 ) k(λ2 , λ1 ) 1 −1 f(λ1 ) f(λ2 ) = 1 1 − k(λ1, λ2)2 k(λ3 , λ1 ) k(λ3 , λ2 ) 1 −k(λ1 , λ2 ) −k(λ2 , λ1 ) 1 f(λ1 ) f(λ2 ) = 1 1 − k(λ1, λ2)2 k(λ3 , λ1 ) − k(λ2 , λ1 )k(λ3 , λ2 ) k(λ3 , λ2 ) − k(λ2 , λ1 )k(λ3 , λ1 ) f(λ1 ) f(λ2 ) = 1 1 − k(λ1, λ2)2 (k(λ3 , λ1 ) − k(λ2 , λ1 )k(λ3 , λ2 ))f(λ1 ) + (k(λ3 , λ2 ) − k(λ2 , λ1 )k(λ3 , λ1 ))f(λ2 ) λ1 λ2 λ3 k(λ, λ′ ) = exp −1 2 ∥λ − λ′ ∥2 k(λ3 , λ1 ) k(λ2 , λ1 ) k(λ3 , λ2 ) f(λ1 ) f(λ3 )
103. 103. Copyright © GREE, Inc. All Rights Reserved. • Probability of Improvement (PI) (Kushner 1964) • Expected Improvement (EI) (Mockus et al. 1978) • 改善量を加味，よく使われる • Predictive Entropy Search (PES) (Henrández- Lobato et al. 2014) • 情報量を最大化 ベイズ最適化 獲得関数の補足 aPI = P(f(λ) ≤ f(λ∗ ) − ξ) = φ f(λ∗ ) − ξ − µ(λ) σ(λ) λ∗ Φ ξ PIの可視化 (Brochu et al. 2010) ※この図は最大化問題のため左式とは少し異なる
104. 104. Copyright © GREE, Inc. All Rights Reserved. ベイズ最適化 獲得関数の最大化手法 • 獲得関数最大化自体が非凸大域的最適化 • 最適化手法 • Brochu (2010) • DIRECT (Jones et al. 1993) • Bergstra (2011) • Estimation of Distribution (EDA) (Larraanaga and Lozano 2011) • Covariance Matrix Adaptation Evolution Strategy (CMA- ES) (Hansen 2006)
105. 105. Copyright © GREE, Inc. All Rights Reserved. • 多腕バンディット • 複数の候補から最も良いものを逐次的に探す • スロットマシンの累積報酬最大化問題 • ハイパパラメータ最適化は連続 / 無限腕バンディットや最適腕識別として考えられる • ベイズ最適化は平均ケースを考えている • バンディットは最悪ケースのリグレット最小化を考えるのが一般的 • 関連研究 • Srinivas et al. (2010, 2012); Bull (2011); Kandasamy et al. (2015, 2017)など ベイズ最適化と多腕バンディットの繋がり 近年の研究動向