SlideShare a Scribd company logo
1 of 23
Download to read offline
On the Convergence of Adam and Beyond
北海道大学工学部情報エレクトロニクス学科
町田 稜平
論文概要
• Author
– Reddi S. J., Kale S., Kumar S.
– Google Research New York
• Adamの問題点を改良したAMSGradを提案
• Adamが最適解に収束しない例の一部を定式化し、そのような例に対し
ても最適解に収束するようにアルゴリズムを修正
• 一般的な画像認識タスクにおいてもAdamより早い収束を達成
• 本論文はICLR 2018にて発表された
説明の流れ
• Regretについて
• 従来の最適化アルゴリズム
– AdaGrad
– RMSProp
– Adam
• RMSPropやAdamの問題点
• AMSGradにおける改良点
• MNISTとCIFAR-10データセットにおける実験
Regretについて
関数系列 に対するパラメータ の最適化問題は、累積損失を最小化
する問題として以下のように定式化できる
この時、時刻TにおけるRegretは、最適解との累積損失の差分として定
義される。
Regretについて
• パラメータが局所解に収束 ⇒ Regret = O(T)
• パラメータが大域最適解に収束 ⇒ Regret = O(1)
Regretのオーダーが小さいほど、より最適解に向かいやすくなる。
実際にはパラメータの初期値や関数形によってRegretの値は変動する
ため、すべての連続関数に対してO(1)を達成するアルゴリズムは理論上
存在しない
従来の最適化アルゴリズム
• AdaGrad
SGD(Stochastic Gradient Descent)よりもRegretの上界を制限することに
より局所解へ陥りにくくした手法
Learning rateを適応的に減少させる仕組みを持つ
従来の最適化アルゴリズム
• RMSProp
AdaGradでは、途中で曲率が大きく変化するような問題において、
Learning rateの適応が遅れ、性能が悪化する。
 →最近の勾配により大きい重みを置くように修正
従来の最適化アルゴリズム
• Adam
RMSPropとMomentumを組み合わせることにより、鳥籠現象を防止して収
束スピードを向上。
RMSProp
Adam
RMSPropやAdamの問題点
現実問題においては、一部のデータのみが大きな情報量を持ち、学習に
大きく貢献している場合がある。
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
有用な情報を持つ
minibatch
Adam
! !
RMSPropやAdamの問題点
現実問題においては、一部のデータのみが大きな情報量を持ち、学習に
大きく貢献している場合がある。
 →RMSPropやAdamは、そのようなデータに対する勾配の重みが即座
に減少するため、有用な情報が「忘却」されてしまう
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
minibatch
有用な情報を持つ
minibatch
Adam
Adam
?
! !
RMSPropやAdamの問題点
さらにこの「忘却」現象によって、最適解への収束を妨げる場合がある。
t mod 3 = 1 のとき
(有用な情報)
t mod 3 ≠ 1 のとき
RMSPropやAdamの問題点
さらにこの「忘却」現象によって、最適解への収束を妨げる場合がある。
累積損失:
T→∞のとき第2項は無視できるので、最適解は x = -1
RMSPropやAdamの問題点
• RMSPropを用いた実験 (α=0.1, β=0.1)
  →振動しながら最適解と逆方向に向かう。その後も安定せず
RMSPropやAdamの問題点
• モーメント係数βによる影響
単純な解決方法としては、モーメント係数βを上げることにより「忘却」現
象の発生確率を抑制することができる。
  →しかしながらβを上げると学習が不安定になりやすい
AMSGradにおける改良点
• 勾配の値が急激に増大した時のLearning rateの値を保持するため、
long-term memory変数を導入
AMSGradにおける改良点
• 2次のモーメント(v)の値の変化
– Adam
– AMSGrad
モーメントが減衰
モーメントの値を保持
AMSGradにおける改良点
• 先ほどの関数系列に対してもAMSGradは即座に最適解に収束
AMSGradではRegretの値が収束
(Regret = O(1))
AMSGradにおける改良点
• さらに確率的な関数系列についても同様の結果が得られた
MNISTとCIFAR-10データセットにおける実験
• さらに実社会のデータにおける運用性を評価するため、MNISTと
CIFAR-10*のデータに対しそれぞれクラス分類を学習
– MNIST → 2 fully-connected layers networks
– CIFAR-10 → CIFARNET (convolution×2,
pooling×2,
fully-connected×2,
local response normalization×1,
dropout×1)
*CIFAR-10 ・・・ 32x32ピクセルのカラー画像を6万枚集約したデータセット。各画像には対応す
るカテゴリが割り当てられている
MNISTとCIFAR-10データセットにおける実験
train loss test loss
MNIST
CIFAR-10
まとめ
• AdamやRMSPropなど勾配の重み付けを行うアルゴリズムでは、一部
のデータに含まれる有用な情報が「忘却」される現象が起こる
• 「忘却」現象により単純な最適化問題においても最適解への収束が妨
げられる場合がある
• AMSGradではlong-term memory変数を導入することにより忘却現象を
回避
• MNISTやCIFAR-10のデータに対する最適化実験の結果、パラメータ
がAdamよりも早く収束することが示された。
おまけ
• TensorflowでのAMSGradの実装(third-party)
https://github.com/taki0112/AMSGrad-Tensorflow
• Chainerでの実装(公式)
https://github.com/chainer/chainer
• Kerasでの実装(公式)
https://keras.io/
参考文献
• Reddi S. J., Kale S., Kumar S. On the convergence of adam and beyond. 2018.
ICLR 2018 conference paper
• Duchi J., Hazan E., Singer Y. Adaptive subgradient method for online learning
stochastic optimization. 2011. Journal of Machine Learning Research 12 pp. 2121-
2159
• Shazeer N., Stern M. Adafactor: adaptive learning rates with sublinear memory
cost. 2018. arxiv:1804.04235v1
• AdaGrad, RMSProp, Adam, AMSGrad, Adam-HD - Qiita
https://qiita.com/skitaoka/items/e6afbe238cd69c899b2a

More Related Content

What's hot

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

What's hot (20)

【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

On the Convergence of Adam and Beyond