SSII2019OS: 深層学習にかかる時間を短くしてみませんか？～分散学習の勧め～

深層学習にかかる時間を短くしてみませんか？
～分散学習の勧め～
ソニー株式会社
田中義己
SSII 2019 - OS3 深層学習の高速化

Copyright 2019 Sony Corporation2019.06.142
Agenda
• 背景：学習規模の拡大
• 分散学習とは
• 分散学習を支えるテクニック
• 分散学習の始めてみる
• まとめ

背景

Facebook
インスタグラムの35億枚の写真を利用し、ImageNet で精度85.4%を実現
(通常のImageNetの学習は128万枚 * 90エポック=約1.1億枚相当で 76.8～9%)
336 GPU/42 Node, 22Days ※ 2018.5.2 F8 で発表

※ Y. Haung et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Google
精度改善のために一桁以上大きいモデルも登場
モデルを大きくすることで 84.3% の精度を達成
参考：ResNet-50 224 × 224 25M 76.4 92.9

Deep Learning 学習規模の拡大
活用・収集される
学習データは年々増加
入力画像の解像度の増加
■ 学習データの高精細化■ 学習データ量の増加 ■ 学習モデルのサイズ増加
より高度な処理の実現の為に
学習モデルサイズも増加
物体認識
物体検出
セグメンテーション
1024x2048
408x408
224x224
CAT
新産業構造ビジョン(H29.5.30経済産業省)より
世界のデータ量は2年毎に倍増
世界のデータセンターに保存されるデータ量 ※ Y. Haung et al. GPipe: Efficient Training of Giant Neural
Networks using Pipeline Parallelism, Google

学習高速化のアプローチ
H/W の進化学習アルゴの進化分散学習
• GPUはここ数年で
3-4倍の性能向上
• 学習専用チップの登場
• より早く学習を収束させ
るためのテクニックの提
案
• AWSなどのGPU環境
• GPUスパコンの台頭
本日の私のお話

スパコン Top500
Top10 の半分以上が GPU ベース。日本では ABCI(産総研)が Top10 入り！

ABCI 概要
• 産総研が主導する産官学プロジェクトABCI (AI Bridging
Cloud Infrastructure)
• AI特化型のスパコンであり、当初からTensorFlowや
Caffe、Chainerへの対応を想定
• 安価・超高効率なデータセンター構築ができるかどうかを
実証
• 構成
• NVIDIA Volta 4352基
• 理論ピーク性能
• FP16: 550 PFLOPS
• FP64: 37 PFLOPS
• ベンチマーク
• TOP500: 7位
• Green500: 4位
• 場所
• 東京大学・柏IIキャンパス
AI Bridging Cloud Infrastructure (ABCI)
東京大学/産総研

ImageNet/ResNet-50 の学習時間
Batch Size Processor DL Library Time Accuracy
Microsoft(2015/12) 256 Tesla P100 x8 Caffe 29 hours 75.3%
Facebook(2017/6) 8K Tesla P100 x256 Caffe2 1 hour 76.3%
PFN(2017/11) 32K Tesla P100 x1024 Chainer 15 mins 74.9%
Tencent(2018/07) 64K Tesla P40 x2048 TensorFlow 6.6 mins 75.8%
SONY(2018/11) 34K->68K Tesla V100 x2176 NNL 3.7mins 75.03%
Google(2018/11) 32K TPU v3 x1024 TensorFlow 2.2 mins 76.3%
Google(2018/11) 64K TPU v3 x1024 TensorFlow 1.8 mins 75.2%
SONY(2019/03) 54K Tesla V100 x3456 NNL 2.0 mins 75.29%
Fujitsu(2019/04) 80K Tesla V100 x2048 MXNet 1.2 mins 75.08%
1400倍以上の
性能向上
• 1400万枚以上を越えるタグ付け画像
• タグは２万種類以上
ILSVRC2012(1000種類/128万枚)データセットによる学習時間記録
ImageNet

分散学習とは

DNN学習 (Deep Learning)
ミニバッチ学習
学習データセットを適度なサイズの “ミニバッチ” に分割し
学習を繰り返し(学習 Iteration) ながらパラメータ(重み)を更新していく
出力
学習済モデル
学習開始学習終了
学習
学習データ
入力
DNNモデル
学習 Iteration
１つのworkerでミニバッチ学習
学習
GPU
GPU
GPU
N/W
CPU
この１回の学習データ量を
バッチサイズ(Batch Size)と呼ぶ

分散学習：データパラレルとモデルパラレル
データパラレルモデルパラレル
Pros
負荷を均等に分割することが容易で処理のばらつき
が少なく、シンプルなシステム構成で実現できる。
各 worker で必要とするメモリを少なく抑えること
ができる。バッチサイズ増加を抑制する効果も。
Cons バッチサイズ増加による収束速度が劣化する。各 worker の処理効率を高めるのが難しい。
データパラレルモデルパラレル
学習データ
DNNモデル
分割
学習データ
DNNモデル
分割
入力となる学習データを分割させて学習する方式学習モデル自体を分割させて学習する方式
本日はデータパラレルのみ

分散学習(データパラレル)と課題
複数workerでミニバッチ学習：学習後にパラメータ同期が必要
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
複数workerでのミニバッチ学習
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
マシン間で学習パラメータを同期
学習
同期
学習
学習
学習
学習
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習 Iteration
学習
学習
学習データ
入力
DNNモデル
出力
学習済モデル
同期

分散学習(データパラレル)と課題
複数workerでミニバッチ学習：学習後にパラメータ同期が必要
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
複数workerでのミニバッチ学習
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
マシン間で学習パラメータを同期
学習
同期
学習
学習
学習
学習
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習 Iteration
学習
学習
学習データ
入力
DNNモデル
出力
学習済モデル
同期
課題②：
パラメータ同期処理の
オーバーヘッドにより、
学習時間が逆に増加する。
課題①：
Batch Size が大きくなる
(worker数倍)ことにより、
学習精度の劣化する。

分散学習を支えるテクニック

分散学習のテクニック
課題②：パラメータ同期処理のオー
バーヘッドによる学習時間の増加
課題①：Batch Size が大きくなるこ
とによる学習精度の劣化
HPC(スパコン)
• 高速集団通信/MPI
• GPUDirect, RDMA
ネットワーク/プロセッシング
• Gradient逐次転送
• Gradient量子化
• Gradientスパース化
パラメータ最適化
• ハイパーパラメータ探索
• モデル化
Deep Learning アルゴリズム
• SGD, Optimizer tuning
• Learning Rate Warm-up/Decay
• Batch Size Control
高速データ同期Large Batch 学習収束

① Large Batch 学習収束のテクニック

Large Batch 学習で精度劣化する要因
重みの更新回数が減少し
最適解に近づくのが難しくなる
𝑤𝑤𝑡𝑡+1
= 𝑤𝑤𝑡𝑡
−
𝜂𝜂
𝐵𝐵1
�
𝑥𝑥𝑖𝑖∈𝐵𝐵1
𝛻𝛻𝑙𝑙(𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡
) 𝑤𝑤𝑡𝑡+1
= 𝑤𝑤𝑡𝑡
−
𝜂𝜂
2 𝐵𝐵1
�
𝑥𝑥𝑖𝑖∈𝐵𝐵2
𝛻𝛻𝑙𝑙 𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡
解
𝑤𝑤 ∶ 重み
𝐵𝐵1 ∶ バッチサイズ
𝜂𝜂 ∶ 学習率(𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟)
1 worker 2 workers
データが持つノイズが薄まるため
Sharp Minima に陥りやすくなる
※ N. S. Keskar et al. “On Large-Batch Training for Deep Learning:
Generalization Gap and Sharp Minima” ICLR 2017

LR(Learning Rate) を減衰させる
例 step decay)
減衰するポイントの選び方：”Test-errorが下がらなくなったとき” とすることが多い
（1 worker の時でも有効、特に画像系タスク）
◯の部分(30, 60, 80 epoch後)で LR を1/10に減衰
他にも decay scheduling の手法あり
Learning Rate Decay
https://mxnet.incubator.apache.org/versions/master/tut
orials/gluon/learning_rate_schedules.html

Learning Rate の調整
LR Warm-up なし
LR Warm-up あり
• Learning Rate Scaling
LRをworker数倍する
• Learning Rate Warm-up
初期数エポック間 LR を徐々に上昇させる
調整の例）
学習開始時の LRの値： 1 worker時の LR
最大値 LR = 初期値 * worker数まで線形に増加

LARS*
学習率を重みの変化比率に応じてレイヤ毎に決定
さらに学習率を連続的に減衰させる
* Y. You, I. Gitman and B. Ginsburg, "Large Batch Training of Convolutional Networks," arXiv:1708.03888, 2017.
最近の Large Batch の分散学習では標準的に利用されるテクニック

Synced BN
※ https://hangzhang.org/PyTorch-Encoding/notes/syncbn.html
Non-Synced BN
Synced BN
Forward
Backward
Calculate the gradient of sum(x) and sum(𝑥𝑥2
) in each GPU.
複数のworker間に跨ってBNすることで、
BN の効果を最大化する方法
global mean : µ =
𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥
𝑁𝑁
, global variance : σ =
𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2
𝑁𝑁
− µ2 + ε
𝑑𝑑𝑙𝑙
𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 𝑘𝑘
,
𝑑𝑑𝑙𝑙
𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2
𝑘𝑘
Calculate the gradient of 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 and 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2

Batch-size Control
より沢山のGPUを利用する為に、学習の途中でBatch Size を増加させる
GPU数が 100～1000基以上になってくると有効
学習初期
Lossの変化が激しい
バッチサイズが大きいと振れ幅が大きく
Lossが安定して下がらない
バッチサイズを小さくする
学習終盤
Lossの変化がなだらか
バッチサイズが大きくても振れ幅が小さく
Lossが安定して下がる
バッチサイズを上げられる
仮説：Lossの傾きからバッチサイズの最大値を導く
0
2
4
6
8
10
1 11 21 31 41 51 61 71 81 エポック
TrainingLoss
34K
1088
68K
2176
85K
2720
119K
3808
バッチサイズ：
#GPUs：
Lossの傾きに応じて
バッチサイズを増加
e.g.) ImageNet/ResNet-50での最大3808GPU利用した学習の収束

② 高速データ同期のテクニック

Gradient 逐次転送
学習しながら勾配同期を行うことで同期オーバーヘッドを限りなく０にする
BackwardForward Update
Gradient Sync Sync Sync勾配同期
学習処理
学習
同期
出力
学習済モデル
学習データ
入力
DNNモデル
学習 Iteration
学習(Backward)が完了した Layer から順に、勾配(Gradient)を他のマシンに同期(送信)

Deep Gradient Compression* (Gradient スパース化)
■ レイヤー毎に閾値処理で送信するGradientを抽出
• |𝑮𝑮𝒊𝒊| > 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信
• |𝑮𝑮𝒊𝒊| ≤ 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信せず残して次のイテレーションに持ち越す
Thresholdの決め方：イテレーション毎に X％送信できるような Threshold を探す。
▶ 送信されずに残った Gradient により収束劣化が発生する可能性がある
■ 収束劣化を防ぐテクニック
• Momentum Correction
• Local Gradient Clipping
• Momentum Factor Masking
• Warmup Training
* Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally, Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training, arXiv:1712.01887

高速集団通信/MPI
Ring All-Reduce
帯域幅を最大限に有効活用できる方法
ただし、GPU数の増加に伴いレイテンシが増加
全GPUを RING 上に論理的に配置
2D-Torus All-Reduce
2次元にGPUを仮想的に配置し、複数のRingを
Torus状に構成する(2D-Torus)
• 通信回数を 4( 𝑁𝑁 − 1) に削減 (X=Y= 𝑁𝑁の時)
2D-Torus による Ring 構成
• GPU数をNとすると、2(N-1)回の通信が発生

2D-Torus All-Reduce による勾配同期
2D-Torus 上で行方向・列方向それぞれに集合通信を行う
例）
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
I. Reduce-Scatter in the horizontal direction
6 8 3 4 5 6 10 12
22 24 11 12 13 14 26 28
28 32 3 4 5 6 36 40
28 32 11 12 13 14 36 40
28 32 36 40 28 32 36 40
28 32 36 40 28 32 36 40
II. All-Reduce in the vertical direction
III. All-Gather in the horizontal direction IV. Completed
Add
Copy
Add
Copy
Add
GPU0 GPU1 GPU0
GPU2 GPU3
GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
Add

2D-Torus All-Reduce による勾配同期
2D-Torus 上で行方向・列方向それぞれに集合通信を行う
例）
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
I. Reduce-Scatter in the horizontal direction
6 8 3 4 5 6 10 12
22 24 11 12 13 14 26 28
28 32 3 4 5 6 36 40
28 32 11 12 13 14 36 40
28 32 36 40 28 32 36 40
28 32 36 40 28 32 36 40
II. All-Reduce in the vertical direction
III. All-Gather in the horizontal direction IV. Completed
Add
Copy
Add
Copy
Add
GPU0 GPU1 GPU0
GPU2 GPU3
GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
Add
列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、
< 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等
⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送
行数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、
< 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduce
⇒ 2( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送
列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、
< 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等
⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送
合計のホップ数を𝟐𝟐 < 𝑮𝑮𝑮𝑮𝑮𝑮数 > −𝟏𝟏 回
から𝟒𝟒 < 𝑮𝑮𝑮𝑮𝑮𝑮数 >− 𝟏𝟏 回へ削減できる

分散学習を始めてみる

分散学習の始め方
１ Node, 1 GPU
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
学習
学習
学習
学習
1 Node, Multi GPU Multi Node, Multi GPU
GPU
GPU
GPU
CPU
学習
GPU
CPU
学習
1 Node, Multi(2-4) GPU でやってみる
これくらいなら精度劣化の発生は限定的になるケースが多いと思われる
なれたら Multi Node, Multi GPU へ

環境整備：インフラ
• 手元のマシンにGPUを複数枚挿す
一番お手軽でコスト的に安い
※ 筐体/電源/CPU等のスペックよって動作するGPU数が制限される
• パブリッククラウド
AWS：p3.8xlarge (V100 4基), p3.16xlarge (V100 8基)
※ スポットインスタンスを活用するなどして料金を節約！
• GPUスパコンの利用
国内なら TSUBAME, ABCI など
※ 利用目的など利用要件を満たせは利用可能

34
Neural Network Console
商用クオリティのDeep Learning応用技術（画像認識機等）開発のための統合開発環境
コーディングレスで効率の良いDeep Learningの研究開発を実現
クラウド版（CPU 10時間まで無償）Windows版（無償）
dl.sony.com
インストールするだけ、もしくはサインアップするだけで本格的なDeep Learning開発が可能
成果物はオープンソースのNeural Network Librariesを用いて製品、サービス等への組み込みが可能

マルチGPU環境の提供（Neural Network Console Cloud版）
• ニューラルネットワークの学習には膨大な演算が必要
• 必要な演算量は主に扱うデータの量とニューラルネットワークの
構造に依存
• GPU、マルチGPUを用いると、学習完了までの時間を
大幅に短縮できる
• ネットワークにもよるが、10倍～数百倍高速に学習できる
• 同じ開発期間でより多くの試行錯誤を行うことが可能に
• 環境のセットアップ、メンテナンス作業不要で豊富な
GPUリソースを利用可能
• 開発者はDeep Learningの開発作業に集中できる
「1ジョブあたり8GPU×無制限の並列利用」をGUI環境から利用可能
※計算リソース利用料は
学習・評価実行中のみの従量課金

まとめ

まとめ
• 分散学習
Deep Learning の学習を高速化する手段の１つとして有効
• 分散学習のポイント
Large Batch で如何に学習を収束させるか
worker間でのパラメータ同期を如何に速く行うか
→ その解決にいろいろなテクニックが存在する
• 分散学習の始め方
まず 1マシン 2-4GPUくらいから始めてみる

SONYはソニー株式会社の登録商標または商標です。
各ソニー製品の商品名・サービス名はソニー株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

SSII2019OS: 深層学習にかかる時間を短くしてみませんか？～分散学習の勧め～

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SSII2019OS: 深層学習にかかる時間を短くしてみませんか？～分散学習の勧め～

Similar to SSII2019OS: 深層学習にかかる時間を短くしてみませんか？～分散学習の勧め～ (20)

More from SSII

More from SSII (20)

Recently uploaded

Recently uploaded (16)