SlideShare a Scribd company logo
1 of 26
Download to read offline
論文輪講(6/1)
崎山和正
Title
2
S-Caffe: Co-designing MPI Runtimes and Caffe
for Scalable Deep Learning on Modern GPU Clusters
Authors:
Ammar Ahmad Awan, Khaled Hamidouche, Jahanzeb Maqbool Hashmi, Dhabaleswar K. Panda
Dept. of Computer Science and Engg. The Ohio State University
Published in:
PPoPP ‘17 Proceedings of the 22nd ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming
Pages 193-205
Austin, Texas, USA — February 04 - 08, 2017
背景
• Deep Learning(DL)の流行
• 大規模データセットと大規模計算機の利用の容易化
• より高い精度のための大規模なNNの登場
• よりスケールするDLフレームワークの必要性
3
S-Caffe
DLフレームワークとMPIのコデザインによって
マルチGPU実行を効率化したCaffe
• CUDA-Aware MPI
- GPU間通信のためのMPI
• Non-Blocking Collectives
- 通信と計算の効率的なオーバーラップ
• DL-Aware MPI
- 効率的な大規模リダクション
4
Preliminaries
• Caffe
5
CUDA-Aware MPI
Explicit Data Movement
• Point-point通信
• 最低限のデータのみを通信
• GPUベースの通信バッファ
• CUDA-Aware風にプロセス間通信
6
CUDA-Aware MPI
Parallel Readers
• PFS(Parallel File System)を活用
• それぞれのプロセスによるデータの同時READ
• LMDBは64ノードが限界
• ImageDataLayerは160ノードまでスケール
7
CUDA-Aware MPI
Collective Operation
• MPI_Bcast
- PropagationにおけるData Propagation
• MPI_Reduce
- Back PropagationにおけるData Aggregation
これらの集団通信にExplicit Data Movementを応用した。
8
Non-blocking Collectives
Propagation
… MPI_IBcastによるパラメータのブロードキャスト
• 従来の方式
- レイヤーi+1の通信とレイヤーiの計算のオーバーラップ
⇨MPI通信のプログレスが止まる可能性がある。
9
Non-blocking Collectives
Propagation
… MPI_IBcastによるパラメータのブロードキャスト
• 提案方式
- 最初に全てのパラメタをIBcast
⇨無駄なくプログレスできる。
10
Non-blocking Collectives
Back Propagation
… MPI_Reduceによるパラメータのブロードキャスト
Propagationと比べて非自明
- 複数のリダクションを一つに統合してもステップ数は変わらない。
- MPI_Reduceの実行にレイヤーの処理を待つ必要がある。
⇨以下によって解決
- Helper thread
- DL-Aware MPI Reduce
11
Non-blocking Collectives
Back Propagation
… MPI_Reduceによるパラメータのブロードキャスト
• Helper thread
- GPU kernelの完了を待つスレッドと

MPI_Reduceを実行するスレッドが同時進行
12
DL-Aware MPI Reduce
一般的なMPIランタイムでのReduce
- Binomial Treeなどの単純な階層アルゴリズムによる実装
1ノードに複数GPUを積んでいるようなクラスターではよ
り複雑なアルゴリズムが必要。
13
DL-Aware MPI Reduce
Hierarchical Reduce(HR)
- 2段階でのReduce
• 上位のReduce
- Binomial Tree Algorithm
• 下位のReduce
- Chunked Chain Algorithm
14
DL-Aware MPI Reduce
Chunked Chain(CC) Algorithm
• 最初のプロセスがバッファをn個のチャンクに分割
• それぞれのチャンクを順にReduceし、

パイプラインで処理
15
DL-Aware MPI Reduce
チャンクサイズ:n プロセス数:P バッファサイズ:b
1ステップにかかる時間:t(b)として、
T (Bin) = log(P ) * t(b)
T(CC)=(n+P −2)* t(b/n)
small P, large b で T(CC) << T(Bin)
large P, small b で T(CC) >> T(Bin)
16
DL-Aware MPI Reduce
8MB以上のバッファサイズではCCの方がBinよりはるかに
良い性能を示した。
プロセス数が8を超えるとCCの性能が低下した。
⇨CCによる下位Reduceは8プロセス程度が良い。
17
Performance Evaluation
• 環境
- Cluster-A

… 8 NVIDIA K-80 GK210GLs(dual-GPU)/node * 12 nodes

(8 * 2 * 12 = 192 GPUs)
- Cluster-B

… 1 K-80/node * 20 nodes

(2 * 20 = 40 GPUs)
18
Performance Evaluation
• 性能指標
- 学習精度は無視
- 時間あたりの学習回数で比較
ハイパーパラメータの設定が面倒なため。
通常のCaffeと同様の精度を確認(正常な動作はしている)
19
Performance Evaluation
• GoogLeNet
- バッチサイズ:1024~2560, Cluster-A
20
Performance Evaluation
• CIFAR10
- バッチサイズ:8192, Cluster-A
21
Performance Evaluation
• AlexNet
- Cluster-B
22
Performance Evaluation
• Hierarchical Reduceの性能
23
Performance Evaluation
• Hierarchical Reduceの性能
24
Related Work
• FireCaffe … バッチサイズによる学習精度の変化の考察

     をしている。
• Inspur-Caffe … parameter-server手法による、
asynchronousな重み更新を実装している。
25
Conclusion
• CIFAR10の学習で64GPUsで33倍スケール
• CaffeNetの学習で32GPUsから128GPUsで3.3倍スケール
• AlexNetの学習でMicrosoft CNTKと同程度の性能を発揮
26

More Related Content

Similar to 輪講_Sakiyama_20170601

Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築貴志 上坂
 
[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送
[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送
[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送Google Cloud Platform - Japan
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンAmazon Web Services Japan
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリースTech Summit 2016
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリースTech Summit 2016
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保するDNA Data Bank of Japan center
 
IPDPS & HPDC 報告
IPDPS & HPDC 報告IPDPS & HPDC 報告
IPDPS & HPDC 報告Junya Arai
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)Yaboo Oyabu
 
Microsoft Azure ではじめるクラウドレンダリング
Microsoft Azure ではじめるクラウドレンダリングMicrosoft Azure ではじめるクラウドレンダリング
Microsoft Azure ではじめるクラウドレンダリングHiroshi Tanaka
 
研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習について研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習についてYasuhiro Matsuo
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightRescale Japan株式会社
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningTakuya UESHIN
 
20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance
20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance
20171109 Amazon EC2 GPUインスタンス最新動向 P3 instanceAmazon Web Services Japan
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
JAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHABJAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHAB陽平 山口
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Dai Utsui
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術Preferred Networks
 

Similar to 輪講_Sakiyama_20170601 (20)

Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
 
[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送
[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送
[Cloud OnAir] Next ’19 サンフランシスコ最新情報 GCP 特集 2019年4月11日 放送
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリース
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリース
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
 
IPDPS & HPDC 報告
IPDPS & HPDC 報告IPDPS & HPDC 報告
IPDPS & HPDC 報告
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
 
Microsoft Azure ではじめるクラウドレンダリング
Microsoft Azure ではじめるクラウドレンダリングMicrosoft Azure ではじめるクラウドレンダリング
Microsoft Azure ではじめるクラウドレンダリング
 
研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習について研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習について
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale night
 
JAWS DAYS 2019
JAWS DAYS 2019JAWS DAYS 2019
JAWS DAYS 2019
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance
20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance
20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance
 
Growing up serverless
Growing up serverlessGrowing up serverless
Growing up serverless
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
JAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHABJAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHAB
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 

More from pflab

Tsuji Master Thesis
Tsuji Master ThesisTsuji Master Thesis
Tsuji Master Thesispflab
 
Taniguchi master thesis
Taniguchi master thesisTaniguchi master thesis
Taniguchi master thesispflab
 
Hirafuji Master Thesis
Hirafuji Master ThesisHirafuji Master Thesis
Hirafuji Master Thesispflab
 
Yamada bachelor thesis
Yamada bachelor thesisYamada bachelor thesis
Yamada bachelor thesispflab
 
Awamoto master thesis
Awamoto master thesisAwamoto master thesis
Awamoto master thesispflab
 
Muramatsu Bachelor Thesis
Muramatsu Bachelor ThesisMuramatsu Bachelor Thesis
Muramatsu Bachelor Thesispflab
 
Gotanda Bachelor Thesis
Gotanda Bachelor ThesisGotanda Bachelor Thesis
Gotanda Bachelor Thesispflab
 
Takahashi Bachelor thesis
Takahashi Bachelor thesisTakahashi Bachelor thesis
Takahashi Bachelor thesispflab
 
Tatsuya Sueki Master thesis
Tatsuya Sueki Master thesisTatsuya Sueki Master thesis
Tatsuya Sueki Master thesispflab
 
Tomoya Sato Master Thesis
Tomoya Sato Master ThesisTomoya Sato Master Thesis
Tomoya Sato Master Thesispflab
 
Miyoshi Bachelor Thesis
Miyoshi Bachelor ThesisMiyoshi Bachelor Thesis
Miyoshi Bachelor Thesispflab
 
Ikarashi Bachelor Thesis
Ikarashi Bachelor ThesisIkarashi Bachelor Thesis
Ikarashi Bachelor Thesispflab
 
Akihiro Sakurai Bachelor Thesis
Akihiro Sakurai Bachelor Thesis Akihiro Sakurai Bachelor Thesis
Akihiro Sakurai Bachelor Thesis pflab
 
Yuto Mochizuki bachelor thesis
Yuto Mochizuki bachelor thesisYuto Mochizuki bachelor thesis
Yuto Mochizuki bachelor thesispflab
 
Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis pflab
 
Junnosuke Mizutani Bachelor Thesis
Junnosuke Mizutani Bachelor Thesis Junnosuke Mizutani Bachelor Thesis
Junnosuke Mizutani Bachelor Thesis pflab
 
Cho Bachelor Thesis
Cho Bachelor Thesis Cho Bachelor Thesis
Cho Bachelor Thesis pflab
 
Tatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor ThesisTatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor Thesispflab
 
Shusaku Taniguchi Bachelor Thesis
Shusaku Taniguchi Bachelor ThesisShusaku Taniguchi Bachelor Thesis
Shusaku Taniguchi Bachelor Thesispflab
 
Shogo Yamazaki Bachelor Thesis
Shogo Yamazaki Bachelor ThesisShogo Yamazaki Bachelor Thesis
Shogo Yamazaki Bachelor Thesispflab
 

More from pflab (20)

Tsuji Master Thesis
Tsuji Master ThesisTsuji Master Thesis
Tsuji Master Thesis
 
Taniguchi master thesis
Taniguchi master thesisTaniguchi master thesis
Taniguchi master thesis
 
Hirafuji Master Thesis
Hirafuji Master ThesisHirafuji Master Thesis
Hirafuji Master Thesis
 
Yamada bachelor thesis
Yamada bachelor thesisYamada bachelor thesis
Yamada bachelor thesis
 
Awamoto master thesis
Awamoto master thesisAwamoto master thesis
Awamoto master thesis
 
Muramatsu Bachelor Thesis
Muramatsu Bachelor ThesisMuramatsu Bachelor Thesis
Muramatsu Bachelor Thesis
 
Gotanda Bachelor Thesis
Gotanda Bachelor ThesisGotanda Bachelor Thesis
Gotanda Bachelor Thesis
 
Takahashi Bachelor thesis
Takahashi Bachelor thesisTakahashi Bachelor thesis
Takahashi Bachelor thesis
 
Tatsuya Sueki Master thesis
Tatsuya Sueki Master thesisTatsuya Sueki Master thesis
Tatsuya Sueki Master thesis
 
Tomoya Sato Master Thesis
Tomoya Sato Master ThesisTomoya Sato Master Thesis
Tomoya Sato Master Thesis
 
Miyoshi Bachelor Thesis
Miyoshi Bachelor ThesisMiyoshi Bachelor Thesis
Miyoshi Bachelor Thesis
 
Ikarashi Bachelor Thesis
Ikarashi Bachelor ThesisIkarashi Bachelor Thesis
Ikarashi Bachelor Thesis
 
Akihiro Sakurai Bachelor Thesis
Akihiro Sakurai Bachelor Thesis Akihiro Sakurai Bachelor Thesis
Akihiro Sakurai Bachelor Thesis
 
Yuto Mochizuki bachelor thesis
Yuto Mochizuki bachelor thesisYuto Mochizuki bachelor thesis
Yuto Mochizuki bachelor thesis
 
Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis
 
Junnosuke Mizutani Bachelor Thesis
Junnosuke Mizutani Bachelor Thesis Junnosuke Mizutani Bachelor Thesis
Junnosuke Mizutani Bachelor Thesis
 
Cho Bachelor Thesis
Cho Bachelor Thesis Cho Bachelor Thesis
Cho Bachelor Thesis
 
Tatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor ThesisTatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor Thesis
 
Shusaku Taniguchi Bachelor Thesis
Shusaku Taniguchi Bachelor ThesisShusaku Taniguchi Bachelor Thesis
Shusaku Taniguchi Bachelor Thesis
 
Shogo Yamazaki Bachelor Thesis
Shogo Yamazaki Bachelor ThesisShogo Yamazaki Bachelor Thesis
Shogo Yamazaki Bachelor Thesis
 

輪講_Sakiyama_20170601