Lookahead Optimizer: k steps forward, 1 step back

Lookahead Optimizer:
k steps forward, 1 step back
08/02
神戸瑞樹
https://arxiv.org/pdf/1907.08610.pdf
Michael R. Zhang James Lucas Geoffrey Hinton
Jimmy Ba
Department of Computer Science,
University of Toronto, Vector Institute
{michael, jlucas, hinton,jba}@cs.toronto.edu

概要
• NNの最適化の新手法Lookaheadを提案
• 学習の安定化、高速化
• ハイパーパラメータの違いにロバスト
2

Introduction
• SGD-likeなアルゴリズムはシンプルながら未だに
強力
• 最近のSGDの改良は2つにわけられる．
• AdamやAdaGradのように学習率を適応的にする
• モメンタムのように学習を速くする
• これらの恩恵を受けるには十分なチューニングが必要
• Lookaheadを提案
• 学習の安定化，高速化
3

Lookahead
• slow weights φ とfast weights θ をもつ
• fast weightsをk回更新した後，これを基にslow
weightsを更新
• fast weightsは通常のoptimizerで更新される
• φt = φt-1 + α(θt,k + φt-1)
4

Lookahead
• 高曲率方向に振動するとき、
fast weightsの更新は低曲率方
向に沿って急速に進行する
• スローウェイトは、パラメータ
補間によって振動を滑らかにす
る
• ファストウェイトとスローウェ
イトの組み合わせは、曲率の高
い方向の学習を改善し、分散を
減らし、早く収束する
5

Slow weights
• slow weightsの軌跡は各inner loopの最終的な
fast weightsのEMAで特徴づけられる
• 最初の方のfast weightsが混じってるのが分散
を減らすのに役立つ
6

fast weights
• inner loop内では最適化手法をそのまま適用
• A:optimizer, L:loss, d:mini-batch
• 新しいループを始めるときに、optimizerの内部状態
（e.g. momentum）を保持、補完、リセットする選択
肢が存在
• どれでも通常の最適化より性能が向上する
• 以後の実験では全て保持
7

計算コスト
• 通常の最適化に青枠部分が増える
• O(
k+1
k
) 倍の操作量
8

• 最適なαの値は以下（証明略）
• 近似的には以下（αlow>0）
αの選び方
9

αの選び方
• 前ページのαと固定のαで比較
• 固定でもそんなに変わらない
• 以後の実験ではαは固定
10

Noisy quadratic analysis（分散について）
• モデルを(4)で定義したとき、ロスの期待値は(5)
• (5)が0となるときロスの分散は(6),(7)
• α ∈ (0, 1)なのでLookaheadの方が小さい
11

実験
• 画像
• cifar-10,100
• imagenet
• 自然言語
• Penn Treebank dataset
• WMT 2014 English-to-German dataset
12

cifar-10,100
• resnet-18で200エポックを3回試行
• inner loop用に学習率が最適化されていても
Lookaheadの方が収束が早い
• 分散が小さい
13

imagenet
• resnet-50とresnet-152で90エポック(k=5, α=0.5)
• resnet-50
• 50エポックで75%
• resnet-152
• 49エポックで77% (resnetの元論文の値と同じ)
• 60エポックで77.96%
14

Penn Treebank dataset
• LSTMで750epoch
• SGDはmomentumなし
• LA（Adam）が最も早く収束
し，結果も一番いい
15

WMT 2014 English-to-German dataset
• transformer based model
• single TPU node
• inner loopのロバスト性が高い
• learning rate {0.02, 0.04, 0.06}の
いずれも似た結果に
16

ハイパーパラメータに対するロバスト性
• α=0.5、k=5で学習率、モメンタムの探索
• どれでも似た結果に
• αとkを少しチューニングすれば高い学習率が
使える
• 分散が小さくなることと合致
17

ハイパーパラメータに対するロバスト性
• αとkの探索
• どれでも通常のものより良い結果
18

Inner loop and outer loop evaluation
• 65エポック目における1ステップごとのtest accuracyの推移
• fast weightsはパフォーマンスを下げている
• inner loop(通常の最適化)の方が大きい分散であることを反映
• outer loopで分散を小さくして，精度も保っている
19

まとめ
• NNの最適化の新手法Lookaheadを提案
• 学習の安定化、高速化
20

Lookahead Optimizer: k steps forward, 1 step back

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (14)

Lookahead Optimizer: k steps forward, 1 step back