SlideShare a Scribd company logo
1 of 61
Download to read offline
https://docs.microsoft.com/ja-jp/azure/machine-learning/data-science-virtual-
machine/overview
6
②クラスター(Ubuntu / デー
タサイエンスVM)の作成
①ストレージの作成
③ジョブ投入
学習で使えるサービスの下には、、、
並列化可能な領域 𝑝並列化できない領域
1 − 𝑝
𝑝
𝑛
1 − 𝑝
並列化可能な領域 𝑝並列化できない領域
1 − 𝑝
𝑝
𝑛
1 − 𝑝
並列化できない領
域
依存関係があり並列化できない処理、
ファイルI/O、ノード間通信、GPU-CPU間のデータ
転送、並列化のためのオーバーヘッドなど
並列化可能な領域 依存関係がなく並列化可能な処理など
0
20
40
60
80
100
120
140
0 16 32 48 64 80 96 112 128
スピードアップ
並列数
100%
99%
95%
90%
並列化率を少しでも向上させることが、
スケーラビリティの向上につながる
メリット
• 待機時間の短縮/1秒当たりのパケット数の向上
• ジッターの削減
• CPU使用率の削減
0
100
200
300
400
500
600
700
800
900
1000
1 10 100 1000 10000
Latency[μsec]
Size [bytes]
SR-IOV
non SR-IOV
0
500
1000
1500
2000
2500
1 100 10000 1000000 100000000 1E+10
Bandwidth[Mbytes/sec]
Size [bytes]
SR-IOV
non SR-IOV
1
10
100
1000
1 10 100 1000 10000
Latency[μsec]
Size [bytes]
SR-IOV (DS5_v2)
non SR-IOV (DS5_v2)
InfiniBand FDR (H16r)
0
1000
2000
3000
4000
5000
6000
7000
1 100 10000 1000000 100000000 1E+10
Bandwidth[Mbytes/sec]
Size [bytes]
SR-IOV (DS5_v2)
non SR-IOV (DS5_v2)
InfiniBand FDR (H16r)
InfiniBand
RDMA
スペック H16r H16mr H8 H8m H16 H16m
コア数 16 16 8 8 16 16
CPU Xeon E5-2667 v3 3.2 GHz - Haswell
メモリ
DDR 4
112 GB
DDR 4
224 GB
DDR 4
56 GB
DDR 4
112 GB
DDR 4
112 GB
DDR 4
224 GB
標準データ
ディスク
2.0 TB
SSD
2.0 TB SSD 1.0 TB SSD 1.0 TB SSD 2.0 TB SSD 2.0 TB SSD
フロント
ネットワーク
40G bps Ethernet
バックエンド
ネットワーク
FDR InfiniBand with
RDMA
N/A
Azure がベストパフォーマンスを記録
InfiniBandにより、複数ノード実行時の性能劣化を抑制Comparative benchmarking of cloud computing vendors with High Performance Linpack
Mohammad Mohammadi, Timur Bazhirov, Exabyte Inc. https://arxiv.org/pdf/1702.02968.pdf
Azure A9, H16がトップライン Azure H16がトップライン
0
5
10
15
20
25
0 64 128 192 256 320 384 448 512
TFLOPS
Number of Cores
A9
H16r
H16r (東日本リージョン) A9 (東日本リージョン)
CPU Intel Xeon E5-2667 v3 Intel Xeon E5-2670
クロック周波数 3.2GHz 2.6GHz
ソケット当たりのコア数 8コア 8コア
ノード当たりのソケット数(コア数) 2ソケット(16コア) 2ソケット(16コア)
ノード当たりの主記憶容量 112GB 112GB
OS SLES 12 SP1 for HPC
MPI Intel MPI 2017 update2 Build 20170125
HPL Intel® Optimized MP LINPACK Benchmark for Cluster
Intel Parallel Studio Cluster Edition 2017 update2のMKLに含まれるmp_linpack(static)を使
用
低レイテンシ・高バンド幅のインターコネクトを搭載したHPC向けイン
スタンスH16r(4x FDR)およびA9(4x QDR)でHPLを実行した結果、512
並列(32ノード)でピーク性能比95%以上(H16r)を達成。
NCシリーズ NVシリーズ NCv2シリーズ NDシリーズ NCv3シリーズ
用途 HPC & DL 可視化 HPC & DL DL HPC & DL
GPU Tesla K80
(1~4GPU)
Tesla M60
(1~4GPU)
Tesla P100
(1~4GPU)
Tesla P40
(1~4GPU)
Tesla V100
(1~4GPU)
GPU Xeon E5-2690 v3
(1~24コア)
Xeon E5-2690 v3
(1~24コア)
Xeon E5-2690 v4
(1~24コア)
Xeon E5-2690 v4
(1~24コア)
Xeon E5-2690 v4
(1~24コア)
メモリ 56~224GB 56~224GB 112GB~448GB 112GB~448GB 112GB~448GB
ローカルSSD ~1.4TB ~1.4TB ~1.344TB ~1.344TB ~1.344TB
InfiniBand FDR InfiniBand N/A FDR InfiniBand FDR InfiniBand FDR InfiniBand
0.00
5.00
10.00
15.00
20.00
25.00
Tflops
#GPUs
AzureのGPUインスタンスで物理サーバーに遜色ない性能を実現!
NC24r NC24rs_v2
CPU Intel Xeon E5-2690 v3 Intel Xeon E5-2690 v4
クロック周波数 2.6GHz 2.6GHz
ソケット当たりのコア数 12コア 12コア
ノード当たりのソケット数
(コア数)
2ソケット(24コア) 2ソケット(24コア)
ノード当たりの主記憶容量 224GB 224GB
OS Ubuntu 16.04 Ubuntu 16.04
MPI Intel MPI 5.1.3.223 Intel MPI 5.1.3.223
0
2000
4000
6000
8000
10000
12000
0 50 100 150
Speedup(times,linear)
# of GPUs
K80 vs P100 – Scale-out Comparison
NC24r (K80) NC24rs_v2 (P100)
NVIDIA GPU 製品のおおまかな一覧
Kepler
(2012)
Maxwell
(2014)
Pascal
(2016)
Volta
(2017)
GeForceゲーミング
Quadro
プロフェッショナル
グラフィックス
M40
M6000K6000
GTX
980
GTX
780
HPC 用
GRID 用
K80
DL 用
M60
GP100P5000
K2
K1
GTX 1080 TITAN X
V100データセンタ
& クラウド
Tesla
P40
P100
P6
TITAN V
Fermi
(2010)
M2070
6000
GTX
580
P4
GV100
M6 M10
NC
NCv2 NCv3ND
NV
トランジスタ数:21B
815 mm2
80 SM
5120 CUDAコア
640 Tensorコア
HBM2
16 GB, 900 GB/s
NVLink 300 GB/s
TESLA V100
*full GV100 chip contains 84 SMs
P100 V100 性能UP
トレーニング性能 10 TOPS 125 TOPS 12x
インファレンス性能 21 TFLOPS 125 TOPS 6x
FP64/FP32 5/10 TFLOPS 7.8/15.6 TFLOPS 1.5x
HBM2 バンド幅 720 GB/s 900 GB/s 1.2x
NVLink バンド幅 160 GB/s 300 GB/s 1.9x
L2 キャッシュ 4 MB 6 MB 1.5x
L1 キャッシュ 1.3 MB 10 MB 7.7x
GPUピーク性能比較: P100 vs v100
VOLTA
HPC 性能を大きく向上
P100に対する相対性能
HPC アプリケーション性能
System Config Info: 2X Xeon E5-2690 v4, 2.6GHz, w/ 1X Tesla
P100 or V100. V100 measured on pre-production hardware.
Summit Supercom
200+ PetaFlops
~3,400 Nodes
10 Megawatts
VOLTA TENSORコア
TENSOR コア
混合精度行列計算ユニット
D = AB + C
D =
FP16 or FP32 FP16 FP16 FP16 or FP32
A0,0 A0,1 A0,2 A0,3
A1,0 A1,1 A1,2 A1,3
A2,0 A2,1 A2,2 A2,3
A3,0 A3,1 A3,2 A3,3
B0,0 B0,1 B0,2 B0,3
B1,0 B1,1 B1,2 B1,3
B2,0 B2,1 B2,2 B2,3
B3,0 B3,1 B3,2 B3,3
C0,0 C0,1 C0,2 C0,3
C1,0 C1,1 C1,2 C1,3
C2,0 C2,1 C2,2 C2,3
C3,0 C3,1 C3,2 C3,3
4x4 の行列の積和演算を1サイクルで計算する性能 (128演算/サイクル)
行列のFMA (Fused Multiply-Add)
VOLTA TENSOR コア
Volta Tensor Core
P100 V100
FP16/Tensorコア 20 TFLOPS 125 TFLOPS
FP32 10 TFLOPS 15.6 TFLOPS
FP16
FP16
× + FP32
FP32
FP16 FP32
混合精度演算
16bit
16bit
32bit
CUBLAS: TENSORコアの実効性能
P100 FP32 vs. V100 Tensorコア
最大9倍の
性能向上
CUDNN: TENSOR コアの実効性能
P100 FP32 vs. V100 Tensorコア
Convolution層
の性能比較
Resnet50, Imagenet, Batch:128
P100 FP32, V100 FP32 vs. V100 Tensorコア
0 100 200 300 400 500 600
Conv BN Relu Cupy_* Misc.
570 ms
360 ms
197 ms
Time per iteration [ms]
約3倍
P100 FP32
V100 FP32
V100
Tensorコア
(*) Chainer 3.0.0rc1+ と CuPy 2.0.0rc1+ を使用
NVIDIA TENSORRT 3
CNN による画像分類 (推論) のパフォーマンス
CNN - IMAGES
0
1,000
2,000
3,000
4,000
5,000
6,000
画像/秒(レイテンシ目標:7ms)
ResNet-50 のスループット
17ms
CPU + Caffe P100 +
TensorRT
P4 +
TensorRT
CPU throughput based on measured inference throughput performance on Broadwell-based Xeon E2690v4 CPU, and doubled to reflect Intel’s
stated claim that Xeon Scalable Processor will deliver 2x the performance of Broadwell-based Xeon CPUs on Deep Learning Inference.
V100 +
TensorRT
0
1,000
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
GoogLeNet のスループット
8ms
CPU + Caffe P100 +
TensorRT
P4 +
TensorRT
V100 +
TensorRT
7ms 7ms
CNN - IMAGES
画像/秒(レイテンシ目標:7ms)
VOLTA
ディープラーニング性能を大幅に向上
P100 V100 P100 V100
ImagesperSecond
ImagesperSecond
2.4x faster 3.7x faster
FP32 Tensorコア FP16 Tensorコア
トレーニング インファレンス
TensorRT - 7ms Latency
(*) DLモデルはResNet50
②クラスター(Ubuntu / デー
タサイエンスVM)の作成
①ストレージの作成
③ジョブ投入
クラスターをすぐ展開
削除 オートスケール
 低優先度仮想マシン 80
 データサイエンス仮想マシン Docker 環境をすぐ
設定不要でマルチノード間の通信
リソースグループ
ワークスペース
クラスター Experiment
注意点
• Batch AIのクオータは、仮想マ
シンやAzure Batchとは異なり
ます
• 仮想マシンのクオータを持ってい
ても、Batch AIでは別途クオータ
の申請が必要です
• リソースグループは
Azureのリソース管理で
一番大きなくくり
• 通常ライフサイクルが同
じものをまとめる
• ワークスペースはBatch
AIの各リソースの管理単
位
• プロジェクトやチーム単
位で1つ作るのがおす
すめ
• Experimentはジョブ管
理の単位
• 同じモデルの計算や、
パラメータごと、日付など
で分ける
推奨
コンテナーの中に仮想的なディレクトリ構造を作ることもできる
https://azure.microsoft.com/ja-jp/blog/linux-fuse-adapter-for-blob-storage/
Linuxからマウント
ファイルアクセススピード
 並列ダウンロード、アップロード
Read-onlyシナリオ、シ
ングルノードからの書き込み
0
50
100
150
200
250
Azure Files Blob Fuse
実行時間[min]
Dockerコンテナー OSイメージ
利点 カスタマイズが容易
すでにあるものを利用できる
DSVMならばMSが提供
ダウンロード時間がかからない
欠点 イメージのダウンロード時間がかかる 作成がやや手間がかかる
https://docs.microsoft.com/ja-jp/azure/machine-learning/data-science-virtual-
machine/overview
https://raw.githubusercontent.com/Azure/BatchA
I/master/schemas/2018-05-01/job.json
https://docs.microsoft.com/ja-jp/azure/batch-
ai/quickstart-cli
https://docs.microsoft.com/ja-jp/azure/batch-
ai/quickstart-python
https://github.com/Azure/BatchAI/tree/master/recipe
s
https://github.com/Azure/BatchAI/blob/master/documentat
ion/using-azure-cli-20.md
https://github.com/Azure/BatchAI/tree/master/recipes
こちらを読めばオプションなど細かい部分含めて
詳細な理解が可能です
InfiniBand GPU
 GPUインスタンスは、Kepler(Tesla K80)から最新のVolta(Tesla
V100)まで取り揃えています。
GPU搭載マシン
低優先度仮想マシン
わずか数ステップ
◼ 本書に記載した情報は、本書各項目に関する発行日現在の Microsoft の見解を表明するものですMicrosoftは絶えず変化する市場に対応しなければならないため、ここに記載した情報に対していかなる責務を負う
ものではなく、提示された情報の信憑性については保証できません
◼ 本書は情報提供のみを目的としています Microsoft は、明示的または暗示的を問わず、本書にいかなる保証も与えるものではありません
◼ すべての当該著作権法を遵守することはお客様の責務ですMicrosoftの書面による明確な許可なく、本書の如何なる部分についても、転載や検索システムへの格納または挿入を行うことは、どのような形式または手
段(電子的、機械的、複写、レコーディング、その他)、および目的であっても禁じられていますこれらは著作権保護された権利を制限するものではありません
◼ Microsoftは、本書の内容を保護する特許、特許出願書、商標、著作権、またはその他の知的財産権を保有する場合がありますMicrosoftから書面によるライセンス契約が明確に供給される場合を除いて、本書の
提供はこれらの特許、商標、著作権、またはその他の知的財産へのライセンスを与えるものではありません
© 2018 Microsoft Corporation. All rights reserved.
Microsoft, Windows, その他本文中に登場した各製品名は、Microsoft Corporation の米国およびその他の国における登録商標または商標です
その他、記載されている会社名および製品名は、一般に各社の商標です

More Related Content

What's hot

Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話NVIDIA Japan
 
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)NVIDIA Japan
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介kcnguo
 
1000: 基調講演
1000: 基調講演1000: 基調講演
1000: 基調講演NVIDIA Japan
 
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編Daiyu Hatakeyama
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすChainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすNVIDIA Japan
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化Kazunori Sato
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~NVIDIA Japan
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門NVIDIA Japan
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティングNVIDIA Japan
 
ディープラーニング最新動向と技術情報
ディープラーニング最新動向と技術情報ディープラーニング最新動向と技術情報
ディープラーニング最新動向と技術情報NVIDIA Japan
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかなぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかNVIDIA Japan
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミングNorishige Fukushima
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜京大 マイコンクラブ
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介NVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門NVIDIA Japan
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Japan
 
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについてPreferred Networks
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Hirono Jumpei
 

What's hot (20)

Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話
 
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
 
1000: 基調講演
1000: 基調講演1000: 基調講演
1000: 基調講演
 
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすChainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなす
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティング
 
ディープラーニング最新動向と技術情報
ディープラーニング最新動向と技術情報ディープラーニング最新動向と技術情報
ディープラーニング最新動向と技術情報
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかなぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているか
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
 
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史
 

Similar to Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI

NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA Japan
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法Deep Learning Lab(ディープラーニング・ラボ)
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツKuninobu SaSaki
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ日本マイクロソフト株式会社
 
SDN Japan: ovs-hw
SDN Japan: ovs-hwSDN Japan: ovs-hw
SDN Japan: ovs-hwykuga
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用についてハイシンク創研 / Laboratory of Hi-Think Corporation
 
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...VirtualTech Japan Inc.
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介NTT Communications Technology Development
 
「さくらのクラウド」におけるVyattaの活用事例
「さくらのクラウド」におけるVyattaの活用事例「さくらのクラウド」におけるVyattaの活用事例
「さくらのクラウド」におけるVyattaの活用事例SAKURA Internet Inc.
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめNVIDIA Japan
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめAya Owosekun
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidiaTak Izaki
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA Japan
 
Getting Started with Jetson Nano
Getting Started with Jetson NanoGetting Started with Jetson Nano
Getting Started with Jetson NanoNVIDIA Japan
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証BrainPad Inc.
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報ReNom User Group
 

Similar to Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI (20)

NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
 
SDN Japan: ovs-hw
SDN Japan: ovs-hwSDN Japan: ovs-hw
SDN Japan: ovs-hw
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
 
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...
OpenStack Kilo with 6Wind VA High-Performance Networking Using DPDK - OpenSta...
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
 
「さくらのクラウド」におけるVyattaの活用事例
「さくらのクラウド」におけるVyattaの活用事例「さくらのクラウド」におけるVyattaの活用事例
「さくらのクラウド」におけるVyattaの活用事例
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidia
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
 
Prometech Particleworks on Rescale
Prometech Particleworks on RescalePrometech Particleworks on Rescale
Prometech Particleworks on Rescale
 
Getting Started with Jetson Nano
Getting Started with Jetson NanoGetting Started with Jetson Nano
Getting Started with Jetson Nano
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証
 
さくらで始める機械学習のための計算資源
さくらで始める機械学習のための計算資源さくらで始める機械学習のための計算資源
さくらで始める機械学習のための計算資源
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報
 

Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI