1
GPU ディープラーニング最新情報
2018年4月12日
エヌビディア合同会社
エンタープライズマーケティング本部 佐々木邦暢 (@_ksasaki)
2
エヌビディア
AI コンピューティングカンパニー
1993 年創業
創業者兼 CEO ジェンスン フアン
従業員 11,000 人
2018 会計年度売上高 97 億ドル
時価総額 1490 億ドル(約 15.8 兆円)
3
GPU コンピューティングの登場
370 PF
20182013
トップ 50 システムにおける
総 GPU フロップス
5 年で 15 倍
1980 1990 2000 2010 2020
40 年の CPU 性能のトレンドデータ
Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte, O. Shacham,
K. Olukotun, L. Hammond, and C. Batten New plot and data collected for 2010-2015 by K. Rupp
103
105
107
年率 1.5 倍
年率 1.1 倍
シングル スレッド性能
GPU コンピューティング
8,500
20182013
800
万回
20182013
820,000
20182013
GTC 登録者
5 年で 4 倍
CUDA ダウンロード数
5 年で 5 倍
GPU コンピューティング
開発者
5 年で 10 倍
4
https://graphics.stanford.edu/papers/brookgpu/brookgpu.pdf
5
GPU コンピューティング 11年の歩み
2010
Fermi: 世界初の
HPC 用 GPU
世界初の HIV カプシドの
原子モデルシミュレーション
GPU AI システムが碁の
世界チャンピオンを破る
2014
スタンフォード大学が
GPU を利用した
AI マシンを構築
世界初のヒトゲノムの
3次元マッピング
Google が
ImageNet で
人間を超える
2012
H1N1 の異変の
仕組みを解明
オークリッジ国立研究所の世界
最速 GPU スーパーコンピュータ
2008
世界初の GPU
Top500 システム
2006
CUDA 発表
GPU を利用した
AlexNet が圧勝
Green500 の
上位 13 システムが
NVIDIA GPUを利用
2017
6
ディープラーニング事例
7
家族が安心して
見られる動画を配信
JD.com では、1000 チャンネルのライブストリー
ミングフル HD ビデオを解析してフィルタリングする
ために、 Tesla P40 GPU と DeepStream SDK
及び TensorRT を利用。1サーバーあたり 20 本
のビデオを同時に処理。
`
8
“GPU を使用することで
CPU に比べ物体認識が
48 倍速くなった”
-Saverio Murgia, Horus
CEO and co-founder
9
Deepgram 社はコールセンターの通話記録
音声をテキストに高精度変換。問い合わせ
やそれに対する返答を分析して、「何につい
ての問い合わせだったか」といった内容を自
動でタグ付け。対応の改善に顕著な効果
AI でコールセンターの
通話記録を分析
10
11
エンタープライズのための
SAP AI
SAP から提供される最初の商業的 AI
オファリング
Brand Impact、Service Ticketing、
Invoice-to-Record アプリケーション
DGX-1 と AWS で NVIDIA GPU を利用
12
エンタープライズのための
SAP AI
SAP から提供される最初の商業的 AI
オファリング
Brand Impact、Service Ticketing、
Invoice-to-Record アプリケーション
DGX-1 と AWS で NVIDIA GPU を利用
13
NVIDIA Tesla プラットフォーム
14
NVIDIA GPU 製品のおおまかな一覧
Kepler
(2012)
Maxwell
(2014)
Pascal
(2016)
Volta
(2017)
GeForceゲーミング
Quadro
プロフェッショナル
グラフィックス
M40
M6000K6000
GTX
980
GTX
780
HPC 用
GRID 用
K80
DL 用
M60
GP100P5000
K2
K1
GTX 1080 TITAN X
V100データセンタ
& クラウド
Tesla
P40
P100
P6
TITAN V
Fermi
(2010)
M2070
6000
GTX
580
P4
15
NVIDIA Tesla V100
AI と HPC のための大きな飛躍
Tensor コアを搭載した Volta アーキテクチャ
210 億トランジスタ | TSMC 12nm FFN | 815mm2
5120 CUDA コア
7.5 FP64 TFLOPS | 15 FP32 TFLOPS
125 Tensor TFLOPS
総レジスタファイル 20MB | 16MB キャッシュ
900 GB/s の 32 GB HBM2
300 GB/s NVLink
16
P100 V100 性能UP
トレーニング性能 10 TOPS 125 TOPS 12x
インファレンス性能 21 TFLOPS 125 TOPS 6x
FP64/FP32 5/10 TFLOPS 7.8/15.6 TFLOPS 1.5x
HBM2 バンド幅 720 GB/s 900 GB/s 1.2x
NVLink バンド幅 160 GB/s 300 GB/s 1.9x
L2 キャッシュ 4 MB 6 MB 1.5x
L1 キャッシュ 1.3 MB 10 MB 7.7x
GPU ピーク性能比較: P100 vs v100
17
Tensor コア
混合精度行列計算ユニット
D = AB + C
D =
FP16 or FP32 FP16 FP16 FP16 or FP32
A0,0 A0,1 A0,2 A0,3
A1,0 A1,1 A1,2 A1,3
A2,0 A2,1 A2,2 A2,3
A3,0 A3,1 A3,2 A3,3
B0,0 B0,1 B0,2 B0,3
B1,0 B1,1 B1,2 B1,3
B2,0 B2,1 B2,2 B2,3
B3,0 B3,1 B3,2 B3,3
C0,0 C0,1 C0,2 C0,3
C1,0 C1,1 C1,2 C1,3
C2,0 C2,1 C2,2 C2,3
C3,0 C3,1 C3,2 C3,3
4x4の行列の積和演算を1サイクルで計算する性能 (128演算/サイクル)
行列のFMA (Fused Multiply-Add)
18
CUDNN: TENSORコアの実効性能
Pascal FP32 vs. V100 Tensorコア
Convolution層
の性能比較
19
TENSORコアの使い方
Volta向けに最適化された
フレームワーク・ライブラリ
__device__ void tensor_op_16_16_16(
float *d, half *a, half *b, float *c)
{
wmma::fragment<matrix_a, …> Amat;
wmma::fragment<matrix_b, …> Bmat;
wmma::fragment<matrix_c, …> Cmat;
wmma::load_matrix_sync(Amat, a, 16);
wmma::load_matrix_sync(Bmat, b, 16);
wmma::fill_fragment(Cmat, 0.0f);
wmma::mma_sync(Cmat, Amat, Bmat, Cmat);
wmma::store_matrix_sync(d, Cmat, 16,
wmma::row_major);
}
CUDA C++
Warpレベル行列演算テンプレート
NVIDIA cuBLAS, cuDNN, TensorRT
20
DLフレームワークの対応状況
21
NVIDIA CAFFE 0.16
FP16、Tensorコアに完全対応
ForwardとBackward: それぞれ、データ型、計算型を指定可能 (FP32 or FP16)
ウェイト更新: FP32更新対応
ロス・スケーリング対応
https://github.com/NVIDIA/caffe/tree/caffe-0.16
22
TensorFlow
Tensorコア: TensorFlow 1.4で対応
データ型をFP16にすると、Tensorコアを使用
ウェイトFP32更新: 可能
ロススケーリング: 可能
tf.cast(tf.get_variable(..., dtype=tf.float32), tf.float16)
scale = 128
grads = [grad / scale for grad in tf.gradients(loss * scale, params)]
23
PyTorch
Tensorコア: 対応
FP16ストレージにすると、Tensorコアを使用
ウェイトFP32更新: 可能
ロススケーリング: 可能
Input = input.cuda().half()
model = model.cuda().half()
24
Chainer
Tensorコア: Chainer V4で対応予定
データ型をFP16にすると、Tensorコア使用
FP32パラメータ更新: 対応
ロススケーリング: 対応(予定)
x = F.cast(x, np.float16)
optimizer = chinaer.optimizers.SGD()
optimizer.use_fp32_update()
loss = lossfunc(y, t)
loss.backward(loss_scale=1024)
25
Tesla V100 搭載 NVIDIA DGX-1
AI 研究の必需品
960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ
TITAN X で 8 日かかる計算が 8 時間に
CPU サーバー 400台分の性能がワンボックスに
26
NVIDIA DGX Station
パーソナル DGX
480 Tensor TFLOPS | Tesla V100 4基
NVLink 全結合 | 3つの DisplayPort
1500W | 水冷
27
発表 NVIDIA DGX-2
価格 39万 9000 ドル | 第三四半期出荷開始予定
28
発表 NVIDIA DGX-2
史上最大の GPU
2 ペタフロップス | 512GB HBM2 メモリ | 消費電力 10 キロワット | 重量 160 キログラム
29
コンテナ、データセット、
事前学習済モデルの
レポジトリ
NVIDIA
GPU クラウド
CSP
NVIDIA GPU Cloud
NVDocker のコンテナとして提供 | フルスタックで最適化
常に最新 | エヌビディアによって完全にテストおよびメンテナンス | すでに利用可能
ディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム
30
NGC の GPU 最適化ディープラーニング コンテナ
NVCaffe
Caffe2
Chainer
Microsoft Cognitive Toolkit
(CNTK)
DIGITS
MXNet
PyTorch
ディープラーニングソフトウェアの包括的なカタログ
TensorFlow
Theano
Torch
CUDA (base level container for
developers)
NEW! – NVIDIA TensorRT
inference accelerator with ONNX
support
31
コンテナをPULLイメージをデプロイサインアップ
NGCでディープラーニングを始めるには
まずは NGC のアカウントを
作成してください。
www.nvidia.com/ngcsignup
お好みのフレームワーク コンテナを
PULLしてください。
これで準備完了です!
例えば AWS の NVIDIA Volta
Deep Learning AMI for NGCで
P3 インスタンスを作成!
32
自動運転
33
自動運転による移動革命
34
AI UX
Co-Pilot
Eye/Head
Gesture
Driver Monitor
Speech
パーキング
プランニング
自己位置推定
認識
エゴモーション
NVIDIA DRIVE
カメラ ディープラーニング
(認識)
AI UX
コ パイロット
目 / 頭
ジェスチャー
ドライバモニター
音声
Camera +RADAR +LIDAR +HD Maps +Redundancy +Higher Resolution
LIDAR
点群処理
カメラ ディープラーニング
(フリースペース)
カメラ コンピュータービジョン
(SLAM)
HD マップ
(自己位置推定)
パス プランニング
自動トランクオープン 自転車警告わき見運転 居眠り運転視線
35
NVIDIA DRIVE AV
DRIVE XAVIER
Lidar
Localization
Surround Perception
RADAR LIDAR
Egomotion
LIDAR Localization Path Perception
Path PlanningCamera LocalizationLanes Signs Lights
DRIVE AV
36
37
NVIDIA DRIVE IX
自動トランクオープン 視線 わき見運転
居眠り運転 自転車警告
38
DRIVE XAVIER
世界初の自律動作マシン用プロセッサ
スーパーコンピューティング性能
究極のエネルギー効率
豊富なハイスピードセンサー IO
30 TOPS のコンピュータ ビジョン、ディープラーニング、並列計算性能
39
NVIDIA DRIVE PEGASUS
ロボタクシー向け AI コンピューター
320 TOPS の AI 推論性能
1 TB/s 以上のメモリ帯域幅
400W
トランクの中のデータセンター
40
シミュレーション 数十億キロへの道
世界では毎年数兆キロ運転されている
米国では 16 億キロ当たり 770 回の事故が起きる
20 台のテスト車でも年間160万キロ
41
NVIDIA DRIVE SIM
および CONSTELLATION
自動運転検証システム
バーチャル リアリティ自動運転シミュレーター
DRIVE コンピューターと同じアーキテクチャ
稀な条件や難しい条件のシミュレーション、シナリオの再作成、
リグレッションテストの実行、数十億仮想キロの運転
10,000 個のクラスターで年間 48 億キロを運転
42
370 のパートナーが
NVIDIA DRIVE で
開発中
自動車
トラック
モビリティ
サービス
サプライヤー
マッピング
LIDAR
カメラ /
レーダー
スタートアップ
43
GPU コンピューティング革命は続く
新 DGX-2
世界初の 2PF コンピューター
1 台で 300 サーバー分の能力
新 TESLA V100 32GB
新 TENSORRT 4
ISAAC
CLARA
シングル アーキテクチャ
XAVIER – PEGASUS - ORIN
Kubernetes
の
NVIDIA
GPU 対応
AI 自動運転 新しいプラットフォームグラフィックス
QUADRO GV100
NVIDIA RTX
DRIVE SIM および
CONSTELLATION
44
NVIDIA DEEP LEARNING SEMINAR 2018
時間 内容
10:00 – 11:20 「これから始める人のためのディープラーニング基礎講座」
エヌビディア ディープラーニング ソリューションアーキテクト 山崎 和博
11:20 – 12:00
「GTC 2018 の基調講演から」
エヌビディア 日本代表兼米国本社副社長 大崎真孝
ランチブレイク (お弁当を提供します)
協賛社展示・ランチセッション (ピュア・ストレージ)
13:00 – 14:30 「GTC 2018 で発表されたディープラーニング最新情報」
エヌビディア ディープラーニング ソリューションアーキテクト 山崎 和博
14:30 – 15:00
「GTC 2018 で発表された GPU 技術最新情報」
エヌビディア シニアデベロッパーテクノロジーエンジニア 成瀬 彰
コーヒーブレイク 及び 協賛社展示
15:30 – 17:00
「GTC 2018 で発表された自動運転最新情報」
エヌビディア 技術顧問 馬路 徹
シニアソリューションアーキテクト 室河 徹
17:00 – 17:15
「GTC 2018 で注目のディープラーニングスタートアップのご紹介」
エヌビディア エンタープライズ事業部 山田 泰永
17:15 – 17:30
「ディープラーニングを実践的に学ぶ: Deep Learning Institute のご紹介」
エヌビディア エンタープライズマーケティング本部 シニアマネージャー 佐々木 邦暢
協賛社展示(午後6時まで)
2018年4月24日 (火)
http://eventregist.com/e/NVDLS2018
ベルサール高田馬場
GTC 2018 で発表された数々の
最新情報を日本語でお伝えします
皆様のご参加をお待ちしております
45

GPUディープラーニング最新情報