エヌビディア合同会社 プラットフォームビジネス本部 部長 林 憲一
エヌビディア GPU が加速するディープラーニング
ゲーム 自動車 エンタープライズ HPC & クラウド
ビジュアルコンピューティングの世界的リーダー
ディープラーニング
最も急速にマーケットが拡大しているセグメント
ディープラーニングのために GPU を活用している企業例
顔、場所、物体認識
音声認識および翻訳
自然言語処理
ビデオ検索および分析
インデキシングおよび検索
レコメンデーション エンジン
コンピュータ ビジョン
自動運転
応用分野
幅広いディープラーニングの応用例
「検索の50%は音声か画像になるだろう」
Andrew Ng, Baidu
「ディープラーニングのおかげで、わ
ずか一年で音声認識の誤認識率
が23%から8%に下がりました。
自動写真整理 とインテリジェント
写真検索 によって、まさに探してい
たイメージを見つけることができます。
文脈を理解し、自然言語処理、
言語翻訳 によって、ユーザーに即
座に返事ができるのです。」
スンダル・ピチャイ
グーグル上級副社長
Google
now
Google I/O 2015 基調講演
ディープラーニングを加速する3つの要因
ビッグデータ よりよいモデル
強力な GPU
アクセラレータ
パフォーマンスリーダー
0
500
1000
1500
2000
2500
3000
3500
2008 2009 2010 2011 2012 2013 2014
倍精度演算性能
NVIDIA GPU x86 CPU
M2090
M1060
K20
K80
Westmere
Sandy Bridge
Haswell
GFLOPS
0
100
200
300
400
500
600
2008 2009 2010 2011 2012 2013 2014
メモリバンド幅
NVIDIA GPU x86 CPU
GB/s
K20
K80
Westmere
Sandy Bridge
Haswell
Ivy Bridge
K40
Ivy Bridge
K40
M2090
M1060
TESLA K80
ビッグデータ解析と科学技術計算のた
めの世界最速のアクセラレータ
Caffe Benchmark: AlexNet training throughput based on 20 iterations, CPU: E5-2697v2 @ 2.70GHz. 64GB System Memory, CentOS 6.2
最大性能
アプリケーション毎に
ダイナミックに性能を最大化
メモリ倍増
ビッグデータアプリに最適
24GB
オイル
& ガス
ビッグデータ
解析
HPC
可視化
K40
12GB
2倍高速
2.9 TF| 4,992 コア | 480 GB/s
0x
5x
10x
15x
20x
25x
1 2 3
ディープラーニング: Caffe
最高のスループット
のためのデュアル
GPU アクセラレータ
GPU とソフトウェアの進化
による性能向上
AlexNet [A. Krizhevsky et al.,2012]
2.5M
18M
23M
43M
0
10
20
30
40
50
16 Core CPU GTX Titan Titan Black
cuDNN v1
Titan X
cuDNN v2
MillionsofImages
1日当りにトレーンングできる画像の数 (Caffe)
E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo
GPU は CPU の
17倍の性能
ディープラーニングの性能を倍増
DIGITS 2 cuDNN 3 CUDA 7.5
自動マルチ GPU スケーリングで
2倍の学習スピードを実現
単一GPUで2倍の学習スピードを実現
より大きなモデルのサポート
2倍のデータセット
インストラクションレベルの
プロファイリング
DIGITS
ディープラーニング GPU
トレーニングシステム
GPU
様々な GPU
ハードウェア
GPU
クラウド
GPU
クラスタ
マルチ GPU
ユーザ
インターフェース
レイヤー
可視化
DNN の
構成
データ処理 トレーニング
進捗管理
Theano
Torch
Caffe
cuDNN, cuBLAS
CUDA
クラスター、サーバー運用に最適
24時間365日連続運用でビジネスを加速
ゲーマー、開発者に最適
いつでも、どこでも開発
GeForce で開発、Tesla で運用
GeForce Tesla
クラスター運用での
最高性能
堅牢性、信頼性
データセンターのために設計
Tier1 OEMシステム
ストレステスト
NVIDIA GPUDirect RDMA
メモリエラー保護
高速な演算
エンタープライズレベルサポート
GPU モニタリングと管理
3 年保証
Gaming Drivers
ゲーム
GeForce Tesla
データセンターワークロード
なぜ運用には Tesla か?
判断基準 GeForce Tesla
実効演算性能
動作クロックが動的に変化し、
演算性能は状況により変動
一定のクロックで安定した性能
メモリーエラー保護 なし
全てのメモリがECC保護
動的ページリタイアメント
クラスター運用を
サポートする機能
なし
GPUDirect RDMA
Tesla Compute Cluster ドライバ
クラスターモニタリング
および管理
なし
GPU モニタリング・管理用のNVML
NVSMI
サードパーティ管理ツール
なぜ運用には Tesla か?
Tesla は予測可能な性能と運用管理性を提供
SGEMM/W
2012 20142008 2010 2016
48
36
12
0
24
60
2018
72
Tesla Fermi
Kepler
Maxwell
Pascal
16 ビット演算
3D メモリ
NVLink
Volta
GPU ロードマップ
Pascal アーキテクチャで1ワット当りのSGEMM性能を2倍に
GPU
CUDA
GPU最適化ライブラリ (cuDNN, cuBLAS)
DLフレームワーク (Caffe, Torch, Theano)
DIGITS
アプリケーション
ディープラーニングにベストな
プラットフォームを開発
すべての研究者や開発者に対
して魅力的なプラットフォーム
NVIDIA ディープラーニング プラットフォーム

エヌビディア GPU が加速するディープラーニング