Mixed Precision Training

MIXED PRECISION TRAINING
Masao Taketani(竹谷昌夫)
2020/01/22

https://bit.ly/36U7RqA
https://github.com/Masao-
Taketani
自己紹介
名前：竹谷昌夫(たけたにまさお)
学歴：ミネソタ大学ツインシティー校理工学部統計学科卒
職業：ディープラーニング研究開発エンジニア(1年半ぐらい)
趣味： ● ディープラーニングに関わる技術の追求
● 筋トレ(トレーニング+食事等の理論)の追求
● 筋トレをスポーツに応用
今回TFUG発表資料用のレポを作りました！
今回のプロジェクト：https://github.com/Masao-Taketani/for_TFUG/tree/master/NN_papers/no_10
TFUGレポ：https://github.com/Masao-Taketani/for_TFUG

概要
今回紹介する論文は「MIXED PRECISION TRAINING(混合演算)」という論文で、簡
単に言うとNVIDIAのGPUを使ってDNNのトレーニングの際に、FP32(単精度浮動小
数点)のみを使用するのではなく、大部分の演算に上手くFP16(半精度浮動小数点)
を適応することにより、学習時間を2から6倍早くすることができ、かつFP32のみ
で学習させたときと同精度の結果を出すことができる。
※混合演算を行うにはNVIDIAのVolta世代より上のGPUが必要
S, Narang, G. Diamos, E. Elsen, P. Micikevicius , J. Alben, D. Garcia, B. Ginsburg, M. Houston,
O. Kuchaiev, G. Venkatesh and H. Wu. MIXED PRECISION TRAINING, 2018.
URL: https://arxiv.org/abs/1710.03740

Introduction
● 近年のDNNモデルは段々巨大化していっている。そのため学習の際に非常に
時間がかかり、効率的に学習させる必要性がでてくる。
● そこでメモリー帯域幅と演算速度を効率的に扱う必要がでてくる。具体的に
は、FP32⇒FP16等、1つの値を保持/演算するのに必要なバイト数を下げる。
● 学習速度を上げるだけでなく、FP32のみで学習させたときと同精度の結果を
出すための取り組みも行う。
● そのために以下３つの手法を提案する。
○ 重みのマスターコピー更新値をFP32で保持
○ 勾配が0になることを防ぐためのロススケーリング
○ FP16の演算結果をFP32で蓄積
● これらの手法を様々なDNNモデル検証する。

重みのマスターコピーと更新値をFP32で保持
● 混合演算では重み、活性化された値、勾配はFP16で保持される。
● ただし、FP32のみで学習させたモデルと同精度の結果を得るためには、多く
のモデルで重みと更新値のFP32のマスターコピーを必要とする。

● 多くのモデルで重みのFP32のマスターコピーを必要とするであろう理由は2
つある。
○ 更新値(学習率 x 勾配)の絶対値がFP16で表せない数値になる(アンダーフロー)
○ 重みの値と更新値の比率が大きくなりすぎる(情報落ち)
重みのマスターコピーと更新値をFP32で保持
ここの絶対値がFP16で
扱えない程小さくなる
※この２つについて後のスライドで詳しくお話しします。

ここでちょっと浮動小数点数について軽くおさらい

浮動小数点数
● 符号部 s、指数部 e、仮数部 f からなり、四倍精度(FP128, quad-double)倍精度
(FP64, double)、単精度(FP32, single)、半精度(FP16, half)などがある。(※今回論
文に出てくるのはFP32とFP16)
浮動小数点数(正規化数)
浮動小数点数(非正規化数)
符号部仮数部指数部

正規化数、非正規化数
前のスライドに正規化数、非正規化数とあるが、簡単に説明すると、通常仮数部
の先頭を1で固定する正規化数を用いるが、正規化数で扱いきれない小さな数字
がきた場合に、指数部を表現できる最小の値に固定した状態で、仮数部の先頭を
0にする非正規化数を用いることにより、より小さな値を扱えるようにする
(gradual underflow)。(IEEE 754(浮動小数点算術標準)での話し)
(例)半精度浮動小数
点の場合
半精度浮動小数点のbiasは15のため、表現できる最小の指数部
は
そのため正規化数で扱える最小の絶対値は
であり、それよりも小さな絶対値を扱いたいときは非正規化数
の絶対値を使用すればよい。
※なお非正規化数の絶対値を使ってもより小さな絶対値は扱えない。
（後でまたここの話しがでてきます）
最小が1となっているが
0は特殊な数を表す用に
使われる

それぞれの精度のビット数の内訳
それぞれの精度で必要なs, e, f のビット数は以下の通り。
精度(総ビット数) s e f
quad-double(128) 1 15 112
double(64) 1 11 52
single(32) 1 8 23
half(16) 1 5 10

それでは本題に戻りましょう。

アンダーフローによる誤差
● 更新値(学習率 x 勾配)の絶対値がFP16で表せない数値になる(アンダーフロー)
○ 前のスライドでお話ししたように、FP16で扱える最小の絶対値はであり、これより小
さい値は全て0になってしまう。
FP32 FP32
FP32ここがFP16だと
FP16で表せない
数字は0になる
対策

情報落ちによる誤差
● 重みの値と更新値の比率が大きくなりすぎる(情報落ち)
○ (例) 重みの値：更新値：
ー
このままでは
演算できない
ため指数部を
揃える
ー
有効桁数内
0
に
な
る
つまり更新前と比べて値が変わらない
つまりここでも更新の演算をFP32の精度を使って行うと誤差が生じにくくなる。

メモリーへの影響
● 混合演算時にFP32とFP16の両方で重みを扱うことは、FP32のみで学習させ
る時と比べて、重みに使用するメモリー量は50%増えるが、全体的に見ると
メモリー使用量は半分近くに抑えられる。
⇒ 理由は、メモリー使用量のほとんどが大きなバッチサイズからくる活性化
後の値、逆伝播の際に再利用するために保持される活性化後の値が多くを占
めるためであり、その活性化後の値はFP16で保持されているからである。

ロススケーリング
● 勾配の値はFP16で保持されるが、学習時に勾配計算を行うと、モデルによっては、
FP16で表せない範囲に勾配値の大半が属する可能性がある(つまり大半が0になる)。
● 例を挙げると、SSDをFP32で学習させると以下のような勾配の値を取得する。(全
レイヤーの勾配値)

ロススケーリング(続き)
● 従って勾配の値をFP16でも扱えるようにするためにスケーリングする必要が
ある。SSDの例で言うと、を掛けて混合演算することにより、FP32で学習
させたときと同精度の結果を出すことができた。
スケーリング後

● 効率的にスケーリングするためには、順伝播時に計算したロス値にスケーリ
ングするための値を掛けることである。理由はスケーリングされたロス値を
使って逆伝播により勾配を求める際に、全ての勾配に同じようにスケーリン
グされるためである。それにより、勾配が0になるのを防げる。
● ただし、上記の勾配をそのまま使用して更新を行うと、FP32で学習させたと
きと異なる値で更新を行うことになってしまうので、更新前に勾配の値のス
ケーリングを元に戻す必要がある。
● スケーリングを元に戻すタイミングは、逆伝播を行って全ての勾配を計算し
た直後で、勾配クリッピング等の勾配に関連する演算をする前に行うのが簡
単な方法である。そうすることにより、勾配クリッピングの閾値や、重み減
衰等のハイパーパラメータを変更する必要がなくなる。

● スケーリングするための値を決める方法はいくつかあるが、最も簡単な方法
は、定数を設定することである。
● 当論文では8から32Kの間で値を設定して、様々なモデルを学習させた。(多
くのモデルではスケーリングさせる必要がなかった)
● スケーリングの定数は過去の経験を元に決めることもできるが、もし勾配の
統計データがあるならば、そのデータを元にオーバーフローにならないよう
に設定すればよい。(FP16の場合、扱える最大値は65,504)
● オーバーフローの際のオプションとして、オーバーフローが検知された場合
は、単純に重みの更新をさせずにスキップして、次のイテレーションを回せ
ばよい。

演算精度
● ニューラルネットワークの演算は大まかに以下の３つのカテゴリーに分かれる。
○ ベクトルのドット積
○ リダクション
○ 要素ごとの演算
● これらの演算をする際も、FP32を使って工夫して演算する必要ある。
○ ベクトルのドット積では、演算途中の積の値をFP32で保持する。その値をメモリーに書かれる前
にFP16に変換する。(NVIDIA GPUのVolta世代から導入したTensor Coresがこれを可能にする)
○ 大きなリダクション(batch-normalizationやsoftmax層で行われるベクトルの全ての要素の和を求め
る等)を行う際もFP32で演算すべきである。値の読み込みや書き込みはFP16を使用するが、演算は
FP32で行う。
○ 非線形演算やアダマール積で行われる要素ごとの演算は、FP16でもFP32でもどちらでも使用可。
これらの工夫により、FP32と同精度の結果が得られる。

結果
● 今回の実験は様々なDNNモデルで、以下2つを検証する。
○ Baseline(FP32)： FP32のみを使用して学習を行う
○ Mixed Precision(MP, 混合演算)：重み、活性化後の値、勾配はFP16で保持し、更新時に必要な
FP32の重みのマスターコピーを使用。ロススケーリングはいくつかのモデルで使用。Tensor
Coreの演算を使ってFP16の演算の蓄積をFP32で行う(畳み込み層、全結合層、リカレント層の
行列演算で使用)。
● 使用するGPU
○ Baseline : NVIDIA’s Maxwell or Pascal
○ Mixed Precision：Volta V100

CNNによるILSVRCの画像分類
● Alexnet, VGG-D, GoogLeNet, Inception v2, Inception v3, and pre-activation
Resnet-50のモデルで検証
● ロススケーリングをすること無しに同精度の結果を出すことができた。

CNNによる物体検出
● Faster-RCNNとMultibox-SSDのモデルで検証(両モデルのバックボーンはVGG16)
● 回帰予測と分類予測が同時に行われる。
● SSDではロススケーリング無しで学習させると値が発散した( をかけること
により、FP32と同精度の結果を得た)

音声認識
● DeepSpeech2のモデルで検証(英語とマンダリン(中国語の標準語)のデータセッ
トで検証)。
● リカレント層を含むモデルでも混合演算でFP32と同精度を出すことができた。
● 結果を見るとMPの方が5%～10%ほど良いが、これはFP16を使用することが正則
化の役割の果たすのではないか。

機械翻訳
● GoogleがTensorFlowのチュートリアルで行っているEnglish-French翻訳モデ
ルの亜種３つで検証。
● 3つのモデルでそれぞれ精度が異なるが、ロススケーリングを行うことによ
り、MPでFP32と同精度の結果をだすことができた。(ロススケーリングなし
だと少し精度が落ちる)

言語モデル
● bigLSTMというモデルで検証。
● ロススケーリング無しだと300Kイテレーションを超えたあたりから値が発散
し始めるため、をかけてロススケーリングするとFP32と同精度が出せた。

画像生成モデル
● DCGANのモデルを使用。
● 図の左側がFP32で学習させた結果、右側がMPで学習させた結果。
● 定量的な指標は無いが、大体見て同精度だということがわかる。
● ロススケーリングは必要なかった。

結論
● 混合演算はDNNを学習させる際に、メモリー使用量を減らしたり、演算の速
度を早めたりするのにとても重要な手法である。
● 当論文で異なる多くのDNNに混合演算を適用しても、精度を落とすことなく
、またハイパーパラメータも変更することなく学習させることができること
を示せた。
● FP16で扱いきれないような小さな勾配値を多く持つモデルでは、ロススケー
リングを行うことにより、混合演算でもbaselineと同精度の結果を出すこと
ができた。
● メモリーや演算に制限がある際に、DNNのそれぞれの演算をVolta GPUを用
いて行った結果、混合演算を行った方がFP32で演算を行った時と比べて2倍
から6倍早くなった。

Mixed Precision Training

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Mixed Precision Training

Similar to Mixed Precision Training (20)

Mixed Precision Training