Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20171024 DLL GPUディープラーニング最新情報

148 views

Published on

20171024 DLL GPUディープラーニング最新情報

Published in: Business
  • Be the first to comment

  • Be the first to like this

20171024 DLL GPUディープラーニング最新情報

  1. 1. 1 GPU ディープラーニング最新情報 2017年10月24日 エヌビディア合同会社 エンタープライズマーケティング本部
  2. 2. 2 エヌビディア AI コンピューティング カンパニー 1993 年創業 創業者兼 CEO ジェンスン フアン 従業員 11,000 人 2017 会計年度売上高 69 億ドル 時価総額 1160 億ドル(約 13 兆円)
  3. 3. 3 NVIDIA GPU 製品のおおまかな一覧 Kepler Maxwell Pascal Volta GeForceゲーミング Quadro プロフェッショナル グラフィックス M4 M40 M6000M5000K6000K5000 GTX 980GTX 780 HPC VDI K80K40K20 Deep Learning M60 M6 M10 GP100P5000 K2 K520 K1 GTX 1080 TITAN X V100データセンタ & クラウド Tesla P40P4 P100 P6 ND NCv2NC NV
  4. 4. 4 Tesla V100 AI と HPC のための大きな飛躍 Tensor コアを搭載した Volta アーキテクチャ 210 億トランジスタ | TSMC 12nm FFN | 815mm2 5120 CUDA コア 7.5 FP64 TFLOPS | 15 FP32 TFLOPS 120 Tensor TFLOPS 総レジスタファイル 20MB | 16MB キャッシュ 900 GB/s の 16GB HBM2 300 GB/s NVLink
  5. 5. 5 新開発 Tensor コア CUDA Tensor 演算命令 及び データフォーマット 4x4 行列処理配列 D[FP32] = A[FP16] * B[FP16] + C[FP32] ディープラーニングに最適化 アクティベーション入力 重み入力 出力結果
  6. 6. 6 P100 V100 Ratio FP16 or Tensor Core 21 TOPS 120 TOPS 6x FP32 10 TFLOPS 15 TFLOPS 1.5x FP64 5 TFLOPS 7.5 TFLOPS 1.5x HBM2 Bandwidth 720 GB/s 900 GB/s 1.2x 理論ピーク性能
  7. 7. 7 Volta 対応フレームワーク 時間 CNN トレーニング (ResNet-50) 時間 NCCL 2.0 を利用したマルチノード トレーニング (ResNet-50) 0 5 10 15 20 25 64x V100 8x V100 8x P100 0 10 20 30 40 50 V100 P100 K80 時間 LSTM トレーニング (ニューラル機械翻訳) 0 10 20 30 40 50 8x V100 8x P100 8x K80
  8. 8. 8 Chainer も対応
  9. 9. 9 どうすれば、Tensorコアを使えるの? • Volta が必要です。 • CUDA9, cuDNN7 が必要です。 • CUDA8, cuDNN6 は Volta に対応していません。
  10. 10. 10 どうすれば、Tensorコアを使えるの? • Volta が必要です。 • CUDA9, cuDNN7 が必要です。 • CUDA8, cuDNN6 は Volta に対応していません。 • モデルは、FP16 向けに書き換えが必要です。
  11. 11. 11 FP16 対応 AlexNet (examples/imagenet/alex.py) def __init__(self): chainer.Chain.__init__(self) W = initializers.HeNormal(1 / np.sqrt(2), np.float16) bias = initializers.Zero(np.float16) with self.init_scope(): self.conv1 = L.Convolution2D(None, 96, 11, stride=4, initialW=W, initial_bias=bias) self.conv2 = L.Convolution2D(None, 256, 5, pad=2, initialW=W, initial_bias=bias) self.conv3 = L.Convolution2D(None, 384, 3, pad=1, initialW=W, initial_bias=bias) self.conv4 = L.Convolution2D(None, 384, 3, pad=1, initialW=W, initial_bias=bias) self.conv5 = L.Convolution2D(None, 256, 3, pad=1, initialW=W, initial_bias=bias) self.fc6 = L.Linear(None, 4096, initialW=W, initial_bias=bias) self.fc7 = L.Linear(None, 4096, initialW=W, initial_bias=bias) self.fc8 = L.Linear(None, 1000, initialW=W, initial_bias=bias) def __call__(self, x, t): return Alex.__call__(self, F.cast(x, np.float16), t)
  12. 12. 12 どうすれば、Tensorコアを使えるの? • Volta が必要です。 • CUDA9, cuDNN7 が必要です。 • CUDA8, cuDNN6 は Volta に対応していません。 • モデルは、FP16 向けに書き換えが必要です。 • Chainer と CuPy の、最新の master ブランチが必要です。 • CUDA9, cuDNN7, Tensorコア対応の PR が、既にマージされています。 • CuPy#353, #362, #363, #492, #494, #495
  13. 13. 13 Tesla V100 搭載 NVIDIA DGX-1 AI 研究の必需品 960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ TITAN X で 8 日かかる計算が 8 時間に CPU サーバー 400台分の性能がワンボックスに
  14. 14. 14 NVIDIA DGX Station パーソナル DGX 480 Tensor TFLOPS | Tesla V100 4基 NVLink 全結合 | 3つの DisplayPort 1500W | 水冷
  15. 15. 15 Deep Learning Institute (DLI)
  16. 16. 16 DEEP LEARNING INSTITUTE ディープラーニングのハンズオントレーニング 自習ラボ パートナーコース オンサイトワークショップ 技術ブログ
  17. 17. QWIKLABS: クラウドベースのハンズオンラボ https://nvidia.qwiklab.com に多数のハンズオンラボが揃っています。 「ディープラーニング入門」 「Image Classification with DIGITS」 の二つは無料(回数制限あり) 手元の PC に GPU は不要。ディープラーニングを簡単に体験。
  18. 18. エヌビディア DIGITS GPU で高速化されたディープラーニングトレーニング・システム Test Image 学習過程の可視化モデルの作成学習データの作成 モデルのテスト http://developer.nvidia.com/digits
  19. 19. 自習ガイドを公開しました NVIDIA Japan の SlideShare ページにあります https://www.slideshare.net/NVIDIAJapan/digits-80145577
  20. 20. 20 「秋のハンズオン祭り」 - #NVDLI 全国ツアー完了! 日本マイクロソフト様、PFN 様と共同で DLI を開催 日付 イベント 2017/9/13 Deep Learning Institute with DLL in 福岡 2017/9/25 Deep Learning Institute with DLL in 大阪 2017/10/2 Deep Learning Institute with DLL in 名古屋 2017/10/10 Deep Learning Institute with DLL in 札幌 bit.ly/nvidiadli Chainer を使ったハンズオンを3種類、 Microsoft Azure の GPU サーバー上で
  21. 21. 21 日本最大の GPU 技術イベントにぜひご参加ください 2017/12/12~13 | 東京 | #GTCJapan http://www.gputechconf.jp/ 基調講演は CEO ジェンスン ファン GPU テクノロジが可能にする AI、VR、自動運転の最先端がここに GTC Japan 2017 は 2017年12月12 ~ 13日に東京で開催

×