Submit Search
Upload
機械学習におけるオンライン確率的最適化の理論
•
72 likes
•
24,227 views
Taiji Suzuki
Follow
情報処理学会連続セミナー2013
Read less
Read more
Technology
Report
Share
Report
Share
1 of 54
Download now
Download to read offline
Recommended
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
Recommended
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
線形計画法入門
線形計画法入門
Shunji Umetani
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
最適輸送の解き方
最適輸送の解き方
joisino
PRML輪読#3
PRML輪読#3
matsuolab
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
強化学習その3
強化学習その3
nishio
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
ohken
PRML輪読#14
PRML輪読#14
matsuolab
PRML輪読#4
PRML輪読#4
matsuolab
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
Taiji Suzuki
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
Taiji Suzuki
More Related Content
What's hot
線形計画法入門
線形計画法入門
Shunji Umetani
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
最適輸送の解き方
最適輸送の解き方
joisino
PRML輪読#3
PRML輪読#3
matsuolab
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
強化学習その3
強化学習その3
nishio
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
ohken
PRML輪読#14
PRML輪読#14
matsuolab
PRML輪読#4
PRML輪読#4
matsuolab
What's hot
(20)
線形計画法入門
線形計画法入門
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
深層生成モデルと世界モデル
深層生成モデルと世界モデル
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
最適輸送の解き方
最適輸送の解き方
PRML輪読#3
PRML輪読#3
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
強化学習その3
強化学習その3
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
変分ベイズ法の説明
変分ベイズ法の説明
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
PRML輪読#14
PRML輪読#14
PRML輪読#4
PRML輪読#4
More from Taiji Suzuki
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
Taiji Suzuki
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
Taiji Suzuki
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
Taiji Suzuki
Iclr2020: Compression based bound for non-compressed network: unified general...
Iclr2020: Compression based bound for non-compressed network: unified general...
Taiji Suzuki
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
深層学習の数理
深層学習の数理
Taiji Suzuki
はじめての機械学習
はじめての機械学習
Taiji Suzuki
Minimax optimal alternating minimization \\ for kernel nonparametric tensor l...
Minimax optimal alternating minimization \\ for kernel nonparametric tensor l...
Taiji Suzuki
Ibis2016
Ibis2016
Taiji Suzuki
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
Stochastic Alternating Direction Method of Multipliers
Stochastic Alternating Direction Method of Multipliers
Taiji Suzuki
PAC-Bayesian Bound for Gaussian Process Regression and Multiple Kernel Additi...
PAC-Bayesian Bound for Gaussian Process Regression and Multiple Kernel Additi...
Taiji Suzuki
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
Taiji Suzuki
Jokyokai
Jokyokai
Taiji Suzuki
Jokyokai2
Jokyokai2
Taiji Suzuki
More from Taiji Suzuki
(15)
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
Iclr2020: Compression based bound for non-compressed network: unified general...
Iclr2020: Compression based bound for non-compressed network: unified general...
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
深層学習の数理
深層学習の数理
はじめての機械学習
はじめての機械学習
Minimax optimal alternating minimization \\ for kernel nonparametric tensor l...
Minimax optimal alternating minimization \\ for kernel nonparametric tensor l...
Ibis2016
Ibis2016
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Stochastic Alternating Direction Method of Multipliers
Stochastic Alternating Direction Method of Multipliers
PAC-Bayesian Bound for Gaussian Process Regression and Multiple Kernel Additi...
PAC-Bayesian Bound for Gaussian Process Regression and Multiple Kernel Additi...
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
Jokyokai
Jokyokai
Jokyokai2
Jokyokai2
Recently uploaded
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
Recently uploaded
(8)
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
機械学習におけるオンライン確率的最適化の理論
1.
機械学習における オンライン確率的最適化の理論 鈴木 大慈 東京大学 情報理工学系研究科 数理情報学専攻 2013/6/26 1
2.
本発表の狙い オンライン確率的最適化の理論 いろいろな手法 簡単な手法を軸にして基本となる考え方を紹介 2
3.
発表の構成 • 最適化問題としての定式化 • オンライン確率的最適化 –
確率的勾配降下法 – 正則化学習におけるオンライン確率的最適化 – 構造的正則化学習におけるオンライン確率的最適化 • バッチデータに対する確率的最適化 3
4.
教師有り学習の 最適化問題としての定式化 4
5.
5 経験リスク関数 正則化項付きリスク関数 : t個目のサンプルに対するロス : 過学習を避けるためのペナルティ項 機械学習における最適化問題 (“誤り”
へのペナルティ)
6.
6 • 回帰 -二乗ロス -分位点回帰 ロス関数の例 • 判別 -ヒンジロス -ロジッスティックロス
7.
7 • 回帰 ロス関数の図 • 判別 squared
loss tau loss (分位点回帰) Huber loss
8.
勾配法 8 とする. (劣) 劣勾配:
9.
9 ステップサイズの決定には • Armijoの規準 • Wolfeの規準 等がある.
10.
Newton法 10 ロス関数は二回微分可能とする.
11.
近接勾配法としての定式化 11 線形近似 近接項は近傍との距離を定めている. 自然勾配法も同様に定式化できる. → 距離の定め方でいろいろ出てくる.
12.
Mirror Descent 12 さらに一般化 (近接勾配法) Bregman-ダイバージェンス: 例:Exponentiated Gradient
[Kivinen&Warmuth,97] 有限確率分布上での最適化:KL-ダイバージェンスを近接項に用いる 一般化
13.
• これからの議論は簡単のため近接項として を用いる. • 近接勾配法としての見方は確率的最適化と の関係を明確にする(後述). •
Mirror descentのように距離を変えても以下 と同様の議論は成り立つ. 13
14.
収束レート • 最急降下法 – 滑らかな凸関数: –
強凸関数: 一次収束 • Newton法 – 二次収束 14
15.
正則化項付きリスク最小化 15c.f. FOBOS [Duchi&Singer,09],
FISTA [Beck, Teboulle 08] この更新式はオンライン学習においても重要
16.
発表の構成 • 最適化問題としての定式化 • オンライン確率的最適化 –
確率的勾配降下法 – 正則化学習におけるオンライン確率的最適化 – 構造的正則化学習におけるオンライン確率的最適化 • バッチデータに対する確率的最適化 16
17.
オンライン確率的最適化 17
18.
問題点 18 • サンプル数nが巨大な場合,関数値の評価,勾配の計算,Hessianの計算 に多大な時間がかかる. • 次から次にやってくるデータは従来の方法では処理できない(nは固定). •
巨大なデータはメモリに収められない. 確率的最適化(オンライン学習) • 機械学習で大事なのは汎化誤差 • 高度な最適化手法による速い収束も経験誤差を小さくするのみ → 最適化の精度が推定誤差に埋もれる → 少しくらいサボってもよい [Bottou&Bousquet,08]
19.
確率的勾配降下法 19 (Stochastic Gradient Descent,
SGD) ではない. •t個目のサンプルのみを用いて更新ができる. •ステップサイズは が普通(後述). •バッチの最適化と比べてステップサイズは重要. Polyak-Ruppert平均化:
20.
収束レート解析:用語の定義 • ロス関数の滑らかさ 20 • 目的関数の強凸性 ある正の定数
が存在して,
21.
ステップサイズ でもPolyak-Ruppert平均化すれ ば強凸性に適応して収束が速くなる.[Bach&Moulines,11] 収束レート • 一般の凸ロス関数 21 •
期待リスクが滑らかな強凸関数 :期待リスク(汎化誤差) ※本当はもっと細かい条件が必要だが,ここでは省略 これらの収束レートはミニマックス最適[Nemirovski&Yudin,83][Agarwal+etal,10]
22.
• 滑らかでない一般の強凸リスクの収束レート 22 強凸期待リスクに対する収束レートの理論はまだまだ発展途上 例:ステップサイズ は滑らかでない場合でも
にして良いか? • Polyak-Ruppert 平均化 • α-suffix平均化 • 多項式減衰平均化 [Rakhlin et al. (2011), Shamir&Zhang (2012)] [Lacoste-Julien et al. (2012), Shamir&Zhang (2012)] ステップサイズ:
23.
バッチ最適化との比較 23 なめらかな強凸関数において比較する. :minimax最適レート だけ得をする →サンプル数が巨大な時は確率的最適化が有用 [Nemirovski&Yudin,83][Agarwal+etal,10] (最悪な期待リスク) :経験リスクと期待リスクの差 [Bottou,10]
24.
正則化学習における オンライン確率的最適化 24
25.
正則化学習での確率的勾配法 25 を小さくしたい. c.f. FOBOS [Duchi&Singer,09] 例:L1正則化
(高次元モデルにおけるスパース学習) Soft threshold 更新途中でもスパース!
26.
26 : proximal operation 先の更新式は次のように書ける: proximal
operationが簡単に計算できる正則化関数の例. ① グループ正則化 ② トレースノルム最小化( ) とSVDされている時, 低ランク性 グループスパーシティ
27.
ミニバッチ法 27 各反復での勾配計算を一サンプルだけでなく, 小規模のまとまったサンプルを用いて計算.
28.
Regularized Dual Averaging 28 RDA:
確率的最適化(オンライン最適化)の別の方法 [Xiao,09; Nesterov,09] :勾配の平均を用いる FOBOSよりも途中の解がスパースになりやすい
29.
関連手法 29 Composite Objective Mirror
Descent Adaptive Subgradient Methods [Duchi+etal,10] KL-divergenceを用いればexponentiated gradient descent あまり発火しない特徴量を強調する. [Duchi+etal,10] (FOBOS型) (RDA型)
30.
構造的正則化学習における オンライン確率的最適化 30
31.
構造的スパース正則化 31 例1:Group Lasso グ ル ー プ 構 造 重 複 あ り
32.
32 例2:低ランクテンソル推定 = 12 3 低ランク
33.
33 例3:グラフ型正則化 1 2 3 4 5
34.
応用例 34 ゲノムワイド相関解析 (GWAS) (Balding
‘06, McCarthy et al. ‘08) Gpoup1 Gpoup2 Gpoup3
35.
構造的正則化学習の難しさ • Proximal operationが簡単に計算できない 35 重 複 あ り 重 複 な し 簡単
難しい
36.
•各正則化関数に応じた賢い方法で解く [Yuan et
al. 2011] •変数を増やして問題を簡単にする (汎用的) を満たし が計算しやすい • 重複ありグループ正則化 36 重 複 あ り グループ間に変数の絡み • 解決策 を利用する. idea:
37.
37分離凸 と変形. 重複なし
38.
• FOBOS型ADMM 38 • RDA型ADMM 線形近似
スムージング 確率的ADMM 交互方向乗数法 + 確率的最適化 [Suzuki, ICML2013] [Ouyang+etal, ICML2013]
39.
確率的ADMM • FOBOS型ADMM 39 • RDA型ADMM 交互方向乗数法
+ 確率的最適化 実装が簡単! [Suzuki, ICML2013] [Ouyang+etal, ICML2013]
40.
収束レート 40 条件 データ: • 一般の凸ロス関数 • 強凸正則化関数 •データはi.i.d.系列 •ロスと正則化項はLipschitz連続 •wのドメインは有界
41.
数値実験:確率的ADMM 41 人工データ 実データ(Adult, a9a @LIVSVM
data sets) 1,024次元 512サンプル 重複ありグループ正則化 15,252次元 32,561サンプル 重複ありグループ正則化+ L1正則化 最 適 値 と の 差 テ ス ト デ ー タ で の 判 別 誤 差 提案手法 [Suzuki, ICML2013]
42.
発表の構成 • 最適化問題としての定式化 • オンライン確率的最適化 –
確率的勾配降下法 – 正則化学習におけるオンライン確率的最適化 – 構造的正則化学習におけるオンライン確率的最適化 • バッチデータに対する確率的最適化 42
43.
43 バッチデータに対する 確率的最適化
44.
• オンライン最適化: サンプルを一回しか見ないことを想定 • バッチの設定: 44 サンプルを何度も利用してよいなら もっと速い収束が望めるのでは? →
Yes - Stochastic Average Gradient (SAG): Le Roux, Schmidt, Bach (NIPS 2012) - Stochastic Dual Coordinate Ascent (SDCA): Shalev-Shwartz, Zhang (NIPS OPT-WS 2012 ) 線形収束 (目的関数が指数的に減少)
45.
Stochastic Average Gradient (SAG) 45 [Le
Roux, Schmidt, Bach (NIPS 2012)] 各ステップにおいて をランダムに選択し, ロス関数が滑らか,かつ目的関数Lが強凸の時, とすると 指数的収束
46.
46 [Le Roux, Schmidt,
Bach,12] データ1 データ2 データ3 経験リスク 期待リスク 判別誤差 緑色がSAG
47.
SAGの性質 • 指数的収束→サンプルを複数回観測すると確率的勾配法よりも 高い精度を得る. • 一回の更新にかかる計算時間は確率的勾配法と同じオーダー. •
バッチ最適化と確率的勾配法の中間的位置づけ. • 問題点:全てのサンプルでの勾配の値を記憶しておかなくてはい けない. →巨大データではメモリが足りなくなる. 次に紹介するSDCAではメモリの問題がない. 47
48.
正則化学習の双対問題 48 Fenchel双対定理 Fenchel双対定理:例えばRockafeller, Convex Analysis
(1970) のCorollary 31.2.1 双対問題 主問題 L*らはLをLegendre変換したもの(次ページ) SDCAの定式化
49.
Legendre変換 49 凸関数を傾きの情報から眺めたもの
50.
ロス関数の双対 50
51.
51 正則化関数の双対
52.
Stochastic Dual Coordinate
Ascent 52 1. をランダムに選択 2.次元 方向に最適化 3. 上の1,2を繰り返す. が強凸で が滑らかな時, 双対ギャップの期待値 [Shalev-Shwartz&Zhang,2012] 指数的収束 関連手法:Lacoste-Julien et al., 2012 (Stochastic block-coordinate Frank-Wolfe法) (一次元最適化) ※ 正則化関数(の双対関数)を線形近似することも可能.
53.
53 指数的収束 [Shalev-Shwartz&Zhang,2012]
54.
まとめ • オンライン確率的最適化 – 大サンプル学習問題においてサンプルを一つ見るごとに 逐次的に更新する手法 –
経験誤差最小化は厳密に解く必要はない • バッチデータに対する確率的最適化 – サンプルを複数回利用可能 → 逐次的更新で指数オーダの収束 54 一般のロス関数: (滑らかな)強凸リスク関数:収束レート
Download now