Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

3,240 views

Published on

勉強会で枠が余ったら話そうと思ってたけどお蔵入りしたスライド。せっかく作ったので供養も兼ねてアップロード

Published in: Technology

NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

  1. 1. NIPS 2016論文紹介 Riemannian SVRG: Fast Stochastic Optimization on Riemannian Manifolds Takami Sato 2017/02/03NIPS2016論文紹介 1 Authors: Hongyi Zhang, Sashank J. Reddi and Suvrit Sra
  2. 2. 論文諭旨 • SVRGをリーマン多様体上の最適化に拡張(RSVRG) • 測地的凸関数の場合で、線形収束することを証明 – 先行研究はGDの線形収束、SGDの劣線形収束 • 測地的非凸関数場合で、局所解に劣線形収束することを証明 – 先行研究は𝑂(1/𝜖2)だが本論文は𝑂(1/𝜖) • 勾配のノルムの上界が定数で抑えられる(Gradient Dominated)場合、 非凸でも大域的最適解に線形収束することを証明 • 主固有ベクトルを求める問題がGradient Dominatedな、 リーマン多様体上の最適化になることを証明 • PCAとRiemman centroidを求める問題に対して、 数値実験でRSVRGの優位性を検証 2017/02/03NIPS2016論文紹介 2
  3. 3. リーマン多様体上での最適化 基本的にこの資料を参考にしました 2017/02/03NIPS2016論文紹介 3 http://www.slideshare.net/Suurist/hiroyuki-sato-62489428 議事録もある http://suuri.st/portfolio/%E4%BD%90%E8%97%A4%E5%AF%9B%E4%B9%8B
  4. 4. モチベーション 制約ありの最適化問題を、リーマン多様体上で制約なし最適化にしたい 2017/02/03NIPS2016論文紹介 4 制約あり最適化 リーマン多様体上の最適化 制約として考えずに、空間を曲げてしまう n-1次元球面
  5. 5. リーマン多様体とは 2017/02/03NIPS2016論文紹介 5 リーマン多様体 (Riemannian manifold) 可微分多様体Mが、M上の各点における接空間に内積が与えられている場合 多様体 • 局所的にユークリッド空間とみなせる※空間 • 遠くはわからんが、生活する分には不自由ない空間的な雰囲気 • 昔の人は、平面上に住んでると思っていたがとくに不自由はなし 可微分 • なめらか • 局所的なユークリッド空間を滑らかになるように繋ぎ合わせた ※ユークリッド空間と同相
  6. 6. リーマン多様体とは 2017/02/03NIPS2016論文紹介 6 リーマン多様体 (Riemannian manifold) 可微分多様体Mが、M上の各点における接空間に内積が与えられている場合 接空間(tangent space)に内積 • 多様体で“ちゃんとした”距離を定義したい • 接空間(各点の方向微分が貼る空間を集めた空間)が内積空間だ(計量が入ってる)と良い ユークリッド空間 上の滑らかな曲線𝑐の長さは以下 (始点を0、終点を1で表した曲線) 微分の長さが定義が必要 → 接空間で内積が定義
  7. 7. いろんなリーマン多様体とは 2017/02/03NIPS2016論文紹介 7 ドーナツ型 (よくあるRPGのマップ) 多様体に対して、接空間 ( ) が外側みたいに見えますが 多様体は外側の空間なしに定義することができます。不思議! (ただし、閉多様体はユークリッド空間に埋め込める) 球面
  8. 8. 有限和 SGDは各反復でサンプルを母集団からサンプリング 降下方向の分散が大きい 収束させるためにステップサイズで調整するため収束が遅い ステップサイズ固定: 定数項が残って収束しない ステップサイズ減少: sub-linear収束 普通データサイズ有限なんだし、分散押さえて評価できるんじゃね? (Variance Reduction テクニック) 線形収束証明できたわ 2017/02/03NIPS2016論文紹介 8 ← これがSVRG
  9. 9. SVRGが解ける問題 2017/02/03NIPS2016論文紹介 9 𝑓𝑖は平滑(smooth)かつ強凸(strongly convex) ※後述 ※強凸性より ここだけなら 線形収束 こいつのせいで 収束が遅い
  10. 10. SVRGとは 正確には、 2017/02/03NIPS2016論文紹介 10 SAG 『線形収束したぞ』 SVRG 『降下方向が、 勾配の普遍推定量になるようにしたぞ』 SAGA 『SAGとSVRGの中間的なの作ったぞ』
  11. 11. 各反復の計算方法 𝑥𝑡+1 = 𝑥𝑡 − 𝛼 1 𝑛 ℎ𝑖 𝑡 𝑛 𝑖=1 𝑤𝑖𝑡ℎ ℎ 𝑡 𝑖 = 𝛻𝑓𝑖 𝑥𝑡 𝑖𝑓 𝑖 = 𝑖 𝑡 ℎ𝑖 𝑡−1 (𝑖𝑓 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒) 2017/02/03NIPS2016論文紹介 11 𝑥𝑡+1 = 𝑥𝑡 − 𝛼 1 𝑛 𝛻𝑓𝑖 𝑥 𝑛 𝑖=1 + 1 𝑛 𝛻𝑓𝑖 𝑡 (𝑥𝑡) − 𝛻𝑓𝑖 𝑡 𝑥 𝑥𝑡+1 = 𝑥𝑡 − 𝛼 1 𝑛 ℎ𝑖 𝑡 𝑛 𝑖=1 + 𝛻𝑓𝑖(𝑡) − ℎ𝑖 𝑡 𝑡 SAG (Stochastic Average Gradient) SVRG (Stochastic Variance Reduction Gradient) SAGA (略称謎) 各反復データ一個選んで降下方向を更新 適当なタイミングで𝛻𝑓𝑖 𝑥 をn個計算して、さらに各反復データ一個選んで降下方向を更新 SVRGの全部の勾配計算するところも、各反復で推定
  12. 12. 分散縮小(Variance Reduction) ある確率変数の分散を、相関のある別の確率変数で下げる。 MCMC法とかで使われてた手法らしい 2017/02/03NIPS2016論文紹介 12 𝑍 𝛼 = 𝛼 𝑋 − 𝑌 + 𝐸(𝑌) 𝐸(𝑍 𝛼) = 𝛼𝐸 𝑋) + 1 − 𝛼 𝐸(𝑌期待値 𝛼 = 1なら Xの普遍推定量 𝑉(𝑍 𝛼) = 𝛼2(𝑉 𝑋) + 𝑉 𝑌 − 2𝑐𝑜𝑣(𝑋, 𝑌 )分散 𝛼 < 1なら 分散減少(SAG) SVRG: X ≔ 𝛻𝑓𝑖 𝑡 𝑥 𝑡 , 𝑌 = 𝛻𝑓𝑖 𝑡 𝑥
  13. 13. 収束性の速さ 最適化手法の良さを、 ε精度を得るまでの計算量のオーダーで評価 2017/02/03NIPS2016論文紹介 13 劣線形収束(sublinear convergence) 1反復で1定割合で誤差が減る場合、ε精度に必要な反復数は O(log 1 𝜖 ) 線形収束(linear convergence) k反復で誤差が1/kに減る場合、ε精度に必要な反復数は O( 1 𝜖 ) 超線形収束(superlinear convergence) 線形収束より速い収束率 (一定割合でなくもう少し早く減る場合) 2次収束(Second-order convergence) 1反復で反復数の2乗割合で誤差が減る場合、反復数は O(loglog 1 𝜖 )
  14. 14. 各種アルゴリズムの収束性 有限和凸関数に各種手法の収束性は以下、nはデータ数、𝜅は条件数※後述 2017/02/03NIPS2016論文紹介 14 リプシッツ連続かつ強凸 最急降下法 𝑛𝜅 ⋅ log( 1 𝜖 ) Nesterovの加速勾 配降下法 𝑛 𝜅 ⋅ log( 1 𝜖 ) 確率的勾配降下法 𝜅 𝜖 SVRG 𝑛 + 𝜅 log( 1 𝜖 ) データが多いとき、 計算量を削減
  15. 15. SVRGの収束性の計算方法 2017/02/03NIPS2016論文紹介 15 NIPS2016のチュートリアル資料より http://www.di.ens.fr/~fbach/fbach_tutorial_vr_nips_2016.pdf 内部ループが𝜅回の反復で、 誤差が定数割合減ることを証明 外部ループ毎に 全勾配を計算O(n) 外部ループ毎に定数割合で誤差が改善(線形収束) 外部ループ毎にO(n)で全勾配計算と、O(1)の内部ループを𝜅回 𝑛 + 𝜅 log( 1 𝜖 )
  16. 16. SVRGの威力 SVRG元論文[Johnson+ 2013]より 2017/02/03NIPS2016論文紹介 16
  17. 17. リーマン多様体上での最適化 • 接ベクトル方向に進むと、多様体からはみ出る • SVRGの主要アイデア 過去の勾配との足し算ができない 2017/02/03NIPS2016論文紹介 17 問題点 解決法 • 点𝑥の接空間𝑇𝑥 𝑀から𝑀への写像(レトラクション)を定義 – 多様体上でそれっぽい進行方向を得る • SVRGの主要アイデア 過去の勾配との足し算ができない – 𝑇𝑥 𝑀から𝑇𝑦 𝑀への写像を定義して、過去の勾配は今の接空間に移す
  18. 18. リーマン多様体上での最適化 • 接ベクトル方向に進むと、多様体からはみ出る • SVRGの主要アイデア 過去の勾配との足し算ができない 2017/02/03NIPS2016論文紹介 18 問題点 解決法 • 点𝑥の接空間𝑇𝑥 𝑀から𝑀への写像(レトラクション)を定義 – 多様体上でそれっぽい進行方向を得る • SVRGの主要アイデア 過去の勾配との足し算ができない – 𝑇𝑥 𝑀から𝑇𝑦 𝑀への写像を定義して、過去の勾配は今の接空間に移す 結局、制約の空間に射影しているので、 実用レベルでは射影勾配降下法と 変わらないかも
  19. 19. この論文での設定 • レトラクションとして写像を構成せずに指数写像があることを仮定 • 接空間間の写像も陽に定義せず、性質のみ議論 2017/02/03NIPS2016論文紹介 19 指数写像 測地線 (始点がゼロ、終点が1で最短距離を通る線) に対して、下記を満たす測地線が存在する写像 もし任意の2点で測地線が一意に定まる場合、逆写像が存在し、 の が測地的距離 Parallel Transport これで勾配間の足し算ができる
  20. 20. 各種いつもの設定をリーマン多様体上に拡張 2017/02/03NIPS2016論文紹介 20 g-convex(測地的凸) μ-strongly g-convex(測地的強凸) L-g-smooth(測地的リプシッツ連続) 劣勾配 τ-gradient dominated (勾配優位)
  21. 21. 測地的凸関数の場合で線形収束 2017/02/03NIPS2016論文紹介 21 • 条件数𝜅 ≔ 𝐿/𝜇が2乗で収束性に影響 • 多様体が負の曲率を保つ場合に大きくなる𝜁が収束性に影響
  22. 22. 証明の注意点 • 普通のSVRGの収束性解析では、 勾配の2乗を の項で押さえられたが、 RSVRGでは最適解との距離で抑えた • (リプシッツ連続の性質があれば の補題になおせる) 2017/02/03NIPS2016論文紹介 22
  23. 23. 測地的非凸関数が局所解に劣線形収束 2017/02/03NIPS2016論文紹介 23
  24. 24. 証明は 絶賛勉強中 2017/02/03NIPS2016論文紹介 24
  25. 25. 測地的非凸関数が勾配優位のとき大域的最適解に線形収束 線形収束していて、 2017/02/03NIPS2016論文紹介 25 μ-strongly g-convexな関数はgradient dominatedなので 多様体が負の曲率を保つ場合に大きくなる𝜁 ≥ 1 の影響が小さくなって 何故かこっちから測地的強凸のケースを証明すると、 曲率の影響が弱まって、条件数の影響も弱まっている!!!
  26. 26. 証明は 絶賛勉強中 2017/02/03NIPS2016論文紹介 26
  27. 27. 主固有ベクトルを求める問題がGradient Dominated 2017/02/03NIPS2016論文紹介 27 主固有ベクトルを求める問題
  28. 28. 証明は 絶賛勉強中 2017/02/03NIPS2016論文紹介 28
  29. 29. この問題𝑂 1/𝛿 で解けるか 2017/02/03NIPS2016論文紹介 29 𝑂 1/𝛿 でとけると考えられているが、 今のところ𝑂 1/𝛿2 の証明しかわかっていないらしい y軸は精度が2倍になるのに必要なepoch(外部ループ)数 色はepochレンジに対応。epochが進むと線形になっているっぽい
  30. 30. 数値実験: Riemman centroid 𝐴𝑖は半正定値行列 2017/02/03NIPS2016論文紹介 30 Riemman centroid • この問題はユークリッド空間だと非凸だが • リーマン多様体上だと測地的強凸の最適化
  31. 31. 数値実験: Riemman centroid 𝐴𝑖は半正定値行列 2017/02/03NIPS2016論文紹介 31 Riemman centroid 行列サイズは100×100 • RSVRGが圧勝 • 準ニュートン法系の手法も試したが遅すぎて載せていない
  32. 32. まとめ&議論 • SVRGをリーマン多様体上に初めて拡張 • 凸、強凸、非凸の場合の収束性を解析 • 勾配優位の場合に大域的収束性を証明 – より一般にリーマン多様体上で大域的収束性を保証できる問題群を一般 化できる可能性 • リーマン多様体上のよくあるテクニックを使った解析をしていない – レトラクションやVector transportなど 2017/02/03NIPS2016論文紹介 32 議論 まとめ

×