On the Convergence of Adam and Beyond

On the Convergence of Adam and Beyond
北海道大学工学部情報エレクトロニクス学科
町田稜平

論文概要
• Author
– Reddi S. J., Kale S., Kumar S.
– Google Research New York
• Adamの問題点を改良したAMSGradを提案
• Adamが最適解に収束しない例の一部を定式化し、そのような例に対し
ても最適解に収束するようにアルゴリズムを修正
• 一般的な画像認識タスクにおいてもAdamより早い収束を達成
• 本論文はICLR 2018にて発表された

説明の流れ
• Regretについて
• 従来の最適化アルゴリズム
– AdaGrad
– RMSProp
– Adam
• RMSPropやAdamの問題点
• AMSGradにおける改良点
• MNISTとCIFAR-10データセットにおける実験

Regretについて
関数系列に対するパラメータの最適化問題は、累積損失を最小化
する問題として以下のように定式化できる
この時、時刻TにおけるRegretは、最適解との累積損失の差分として定
義される。

Regretについて
• パラメータが局所解に収束 ⇒ Regret = O(T)
• パラメータが大域最適解に収束 ⇒ Regret = O(1)
Regretのオーダーが小さいほど、より最適解に向かいやすくなる。
実際にはパラメータの初期値や関数形によってRegretの値は変動する
ため、すべての連続関数に対してO(1)を達成するアルゴリズムは理論上
存在しない

従来の最適化アルゴリズム
• AdaGrad
SGD(Stochastic Gradient Descent)よりもRegretの上界を制限することに
より局所解へ陥りにくくした手法
Learning rateを適応的に減少させる仕組みを持つ

• RMSProp
AdaGradでは、途中で曲率が大きく変化するような問題において、
Learning rateの適応が遅れ、性能が悪化する。
　→最近の勾配により大きい重みを置くように修正

• Adam
RMSPropとMomentumを組み合わせることにより、鳥籠現象を防止して収
束スピードを向上。
RMSProp
Adam

RMSPropやAdamの問題点
現実問題においては、一部のデータのみが大きな情報量を持ち、学習に
大きく貢献している場合がある。
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
有用な情報を持つ
minibatch
Adam
! !

現実問題においては、一部のデータのみが大きな情報量を持ち、学習に
大きく貢献している場合がある。
　→RMSPropやAdamは、そのようなデータに対する勾配の重みが即座
に減少するため、有用な情報が「忘却」されてしまう
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
有用な情報を持つ
minibatch
Adam
Adam
?
! !

さらにこの「忘却」現象によって、最適解への収束を妨げる場合がある。
t mod 3 = 1 のとき
(有用な情報)
t mod 3 ≠ 1 のとき

さらにこの「忘却」現象によって、最適解への収束を妨げる場合がある。
累積損失:
T→∞のとき第2項は無視できるので、最適解は x = -1

• RMSPropを用いた実験 (α=0.1, β=0.1)
　　→振動しながら最適解と逆方向に向かう。その後も安定せず

• モーメント係数βによる影響
単純な解決方法としては、モーメント係数βを上げることにより「忘却」現
象の発生確率を抑制することができる。
　　→しかしながらβを上げると学習が不安定になりやすい

AMSGradにおける改良点
• 勾配の値が急激に増大した時のLearning rateの値を保持するため、
long-term memory変数を導入

• 2次のモーメント(v)の値の変化
– Adam
– AMSGrad
モーメントが減衰
モーメントの値を保持

• 先ほどの関数系列に対してもAMSGradは即座に最適解に収束
AMSGradではRegretの値が収束
（Regret = O(1)）

• さらに確率的な関数系列についても同様の結果が得られた

MNISTとCIFAR-10データセットにおける実験
• さらに実社会のデータにおける運用性を評価するため、MNISTと
CIFAR-10*のデータに対しそれぞれクラス分類を学習
– MNIST → 2 fully-connected layers networks
– CIFAR-10 → CIFARNET (convolution×2,
pooling×2,
fully-connected×2,
local response normalization×1,
dropout×1)
*CIFAR-10 ･･･ 32x32ピクセルのカラー画像を6万枚集約したデータセット。各画像には対応す
るカテゴリが割り当てられている

MNISTとCIFAR-10データセットにおける実験
train loss test loss
MNIST
CIFAR-10

まとめ
• AdamやRMSPropなど勾配の重み付けを行うアルゴリズムでは、一部
のデータに含まれる有用な情報が「忘却」される現象が起こる
• 「忘却」現象により単純な最適化問題においても最適解への収束が妨
げられる場合がある
• AMSGradではlong-term memory変数を導入することにより忘却現象を
回避
• MNISTやCIFAR-10のデータに対する最適化実験の結果、パラメータ
がAdamよりも早く収束することが示された。

おまけ
• TensorflowでのAMSGradの実装(third-party)
https://github.com/taki0112/AMSGrad-Tensorflow
• Chainerでの実装(公式)
https://github.com/chainer/chainer
• Kerasでの実装(公式)
https://keras.io/

参考文献
• Reddi S. J., Kale S., Kumar S. On the convergence of adam and beyond. 2018.
ICLR 2018 conference paper
• Duchi J., Hazan E., Singer Y. Adaptive subgradient method for online learning
stochastic optimization. 2011. Journal of Machine Learning Research 12 pp. 2121-
2159
• Shazeer N., Stern M. Adafactor: adaptive learning rates with sublinear memory
cost. 2018. arxiv:1804.04235v1
• AdaGrad, RMSProp, Adam, AMSGrad, Adam-HD - Qiita
https://qiita.com/skitaoka/items/e6afbe238cd69c899b2a

On the Convergence of Adam and Beyond

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

On the Convergence of Adam and Beyond