輪講_Sakiyama_20170601

論文輪講(6/1)
崎山和正

Title
2
S-Caffe: Co-designing MPI Runtimes and Caffe
for Scalable Deep Learning on Modern GPU Clusters
Authors:
Ammar Ahmad Awan, Khaled Hamidouche, Jahanzeb Maqbool Hashmi, Dhabaleswar K. Panda
Dept. of Computer Science and Engg. The Ohio State University
Published in:
PPoPP ‘17 Proceedings of the 22nd ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming
Pages 193-205
Austin, Texas, USA — February 04 - 08, 2017

背景
• Deep Learning(DL)の流行
• 大規模データセットと大規模計算機の利用の容易化
• より高い精度のための大規模なNNの登場
• よりスケールするDLフレームワークの必要性
3

S-Caffe
DLフレームワークとMPIのコデザインによって
マルチGPU実行を効率化したCaffe
• CUDA-Aware MPI
- GPU間通信のためのMPI
• Non-Blocking Collectives
- 通信と計算の効率的なオーバーラップ
• DL-Aware MPI
- 効率的な大規模リダクション
4

CUDA-Aware MPI
Explicit Data Movement
• Point-point通信
• 最低限のデータのみを通信
• GPUベースの通信バッファ
• CUDA-Aware風にプロセス間通信
6

CUDA-Aware MPI
Parallel Readers
• PFS(Parallel File System)を活用
• それぞれのプロセスによるデータの同時READ
• LMDBは64ノードが限界
• ImageDataLayerは160ノードまでスケール
7

CUDA-Aware MPI
Collective Operation
• MPI_Bcast
- PropagationにおけるData Propagation
• MPI_Reduce
- Back PropagationにおけるData Aggregation
これらの集団通信にExplicit Data Movementを応用した。
8

Non-blocking Collectives
Propagation
… MPI_IBcastによるパラメータのブロードキャスト
• 従来の方式
- レイヤーi+1の通信とレイヤーiの計算のオーバーラップ
⇨MPI通信のプログレスが止まる可能性がある。
9

Propagation
… MPI_IBcastによるパラメータのブロードキャスト
• 提案方式
- 最初に全てのパラメタをIBcast
⇨無駄なくプログレスできる。
10

Back Propagation
… MPI_Reduceによるパラメータのブロードキャスト
Propagationと比べて非自明
- 複数のリダクションを一つに統合してもステップ数は変わらない。
- MPI_Reduceの実行にレイヤーの処理を待つ必要がある。
⇨以下によって解決
- Helper thread
- DL-Aware MPI Reduce
11

Back Propagation
… MPI_Reduceによるパラメータのブロードキャスト
• Helper thread
- GPU kernelの完了を待つスレッドと 
MPI_Reduceを実行するスレッドが同時進行
12

DL-Aware MPI Reduce
一般的なMPIランタイムでのReduce
- Binomial Treeなどの単純な階層アルゴリズムによる実装
1ノードに複数GPUを積んでいるようなクラスターではよ
り複雑なアルゴリズムが必要。
13

DL-Aware MPI Reduce
Hierarchical Reduce(HR)
- ２段階でのReduce
• 上位のReduce
- Binomial Tree Algorithm
• 下位のReduce
- Chunked Chain Algorithm
14

DL-Aware MPI Reduce
Chunked Chain(CC) Algorithm
• 最初のプロセスがバッファをn個のチャンクに分割
• それぞれのチャンクを順にReduceし、 
パイプラインで処理
15

DL-Aware MPI Reduce
チャンクサイズ:n プロセス数:P バッファサイズ:b
1ステップにかかる時間:t(b)として、
T (Bin) = log(P ) * t(b)
T(CC)=(n+P −2)* t(b/n)
small P, large b で T(CC) << T(Bin)
large P, small b で T(CC) >> T(Bin)
16

DL-Aware MPI Reduce
8MB以上のバッファサイズではCCの方がBinよりはるかに
良い性能を示した。
プロセス数が８を超えるとCCの性能が低下した。
⇨CCによる下位Reduceは8プロセス程度が良い。
17

Performance Evaluation
• 環境
- Cluster-A 
… 8 NVIDIA K-80 GK210GLs(dual-GPU)/node * 12 nodes 
(8 * 2 * 12 = 192 GPUs)
- Cluster-B 
… 1 K-80/node * 20 nodes 
(2 * 20 = 40 GPUs)
18

• 性能指標
- 学習精度は無視
- 時間あたりの学習回数で比較
ハイパーパラメータの設定が面倒なため。
通常のCaffeと同様の精度を確認（正常な動作はしている）
19

• GoogLeNet
- バッチサイズ:1024~2560, Cluster-A
20

• CIFAR10
- バッチサイズ:8192, Cluster-A
21

• AlexNet
- Cluster-B
22

• Hierarchical Reduceの性能
23

• Hierarchical Reduceの性能
24

Related Work
• FireCaffe … バッチサイズによる学習精度の変化の考察 
をしている。
• Inspur-Caffe … parameter-server手法による、
asynchronousな重み更新を実装している。
25

Conclusion
• CIFAR10の学習で64GPUsで33倍スケール
• CaffeNetの学習で32GPUsから128GPUsで3.3倍スケール
• AlexNetの学習でMicrosoft CNTKと同程度の性能を発揮
26

輪講_Sakiyama_20170601

Recommended

Recommended

More Related Content

Similar to 輪講_Sakiyama_20170601

Similar to 輪講_Sakiyama_20170601 (20)

More from pflab

More from pflab (20)