NVIDIA ディープラーニング入門

エヌビディア合同会社
ディープラーニングソリューションアーキテクト兼CUDAエンジニア村上真奈
GPUコンピューティング研究会
これから始める方のためのディープラーニング入門

2
AGENDA
エヌビディアについて
エヌビディアGPUアーキテクチャ
ディープラーニングとは?
Caffe入門

3
エヌビディアのGPUについて

4
創業1993年
共同創立者兼CEO ジェンスン・フアン
（Jen-Hsun Huang）
1999年 NASDAQに上場（NVDA）
1999年にGPUを発明
その後の累計出荷台数は1億個以上
2016年度の売上高は50億ドル
社員は世界全体で9,227人
約7,300件の特許を保有
本社は米国カリフォルニア州サンタクララ

5
エヌビディアは「AI コンピューティングカンパニー」
GPU コンピューティングビジュアルコンピューティング AI

7
2012 20142008 2010 2016 2018
48
36
12
0
24
60
72
Tesla
Fermi
Kepler
Maxwell
Pascal
混合精度演算
倍精度演算
3D メモリ
NVLink
Volta
GPU ロードマップ
SGEMM/W

8
Register File
Scheduler
Dispatch
Scheduler
Dispatch
Load/Store Units x 16
Special Func Units x 4
Interconnect Network
64K Configurable
Cache/Shared Mem
Uniform Cache
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Instruction Cache
Compute Capability (CC)
Kepler
CC 3.5
192 cores / SMX
Maxwell
CC 5.0
128 cores / SMM
Fermi
CC 2.0
32 cores / SM
Pascal
CC 6.0
64 cores / SMM
https://developer.nvidia.com/cuda-gpus

9
Tesla K20x (CC 3.5)
2688 CUDA Cores
FP64: 1.31 TF
FP32: 6.95 TF
FP16: …
INT8: …
GDDR5
384 bit width
6GB
250 GB/s

10
Tesla P100 SXM2 (CC 6.0)
3584 CUDA Cores
FP64: 5.3 TF
FP32: 10.6 TF
FP16: 21.2 TF
INT8: …
HBM2
4096 bit width
16 GB
732 GB/s

11
Tesla P100 SXM2 (CC 6.0)
3584 CUDA Cores
FP64: 5.3 TF
FP32: 10.6 TF
FP16: 21.2 TF
INT8: …
HBM2
4096 bit width
16 GB
732 GB/s
SM
CUDAコア
．
．
．

12
TESLA P100: The Engine for Deep Learning
New GPU Architecture to Enable the World’s Fastest Compute Node
NVLink
PCIe
Switch
PCIe
Switch
CPU CPU
GPU Interconnect for Maximum
Scalability
Page Migration Engine
Simple Parallel Programming with
Virtually Unlimited Memory
Unified Memory
CPU
Tesla
P100
Pascal Architecture
Highest Compute Performance
CoWoS HBM2
Unifying Compute & Memory in
Single Package

13
[TESLA P100] FP16: 16-bit floating point
IEEE 754 compliant
• 16-bit
• sign:1-bit, exponent:5-bits, fraction:10-bit
• Dynamic range: 240
• Normalized values: 2-14 ～ 65504 (≈216)
• Subnormal at full speed
s e x p m a n t i s s a.
USE CASES
Deep Learning
Image Processing
Sensor Data

14NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.
[TESLA P100] FP16: 16-bit floating point
•2-way SIMD
•2x FP16 in a 32-bit register
•Memory footprint: Half of FP32
•Instructions
• Add, Sub, Mul
• Fma (Fused Multiply and Add)
•4 arithmetics per cycle
•2x faster than FP32
cuda_fp16.h
Reg A
Reg B
FP16Reg C FP16
FP16 FP16
FP16 FP16
op op
32 bit
cuBLAS cuDNN

15
ディープラーニングとは?

16
様々な分野でディープラーニングを応用
インターネットとクラウド
画像分類
音声認識
言語翻訳
言語処理
感情分析
推薦
メディアとエンターテイメント
字幕
ビデオ検索
リアルタイム翻訳
機械の自動化
歩行者検出
白線のトラッキング
信号機の認識
セキュリティと防衛
顔検出
ビデオ監視
衛星画像
医学と生物学
癌細胞の検出
糖尿病のランク付け
創薬

17
機械学習とディープラーニングの関係
機械学習
ニューラルネットワーク
ディープラーニング

18
人工ニューロン
神経回路網をモデル化
スタンフォード大学cs231講義ノートより
神経回路網
w1 w2 w3
x1 x2 x3
y
y=F(w1x1+w2x2+w3x3)
F(x)=max(0,x)
人工ニューロン

19
人工ニューラルネットワーク
単純で訓練可能な数学ユニットの集合体
ニューラルネットワーク全体で複雑な機能を学習
入力層出力層
隠れ層
十分なトレーニングデータを与えられた人工ニューラルネットワークは、入力データから判断を行う
複雑な近似を行う事が出来る。

20
ディープラーニングの恩恵
ディープラーニングとニューラルネットワーク
▪ ロバスト性
▪ 特徴量の設計を行う必要がない。 – 特徴は自動的に獲得される学習用データのバラつきの影響を
押さえ込みながら、自動的に学習していく
▪ 一般性
▪ 同じニューラルネットワークのアプローチを多くの異なるアプリケーションやデータに適用する事が出来る
▪ スケーラブル
▪ より多くのデータで大規模並列化を行う事でパフォーマンスが向上する

21
多量なトレーニングデータと多数の行列演算
畳込みニューラルネットワーク(CNN)
目的
顔認識
トレーニングデータ
1,000万～1億イメージ
ネットワークアーキテクチャ
10 層
10 億パラメータ
ラーニングアルゴリズム
30 エクサフロップスの計算量
GPU を利用して30日

22
畳込みニューラルネットワーク(CNN)
• 画像認識・画像分類で使われる、高い認識精度を誇るアルゴリズム。畳込み層で画像の特徴を学習
目的
顔認識
トレーニングデータ
1,000万～1億イメージ
ネットワークアーキテクチャ
10 層
10 億パラメータ
ラーニングアルゴリズム
30 エクサフロップスの計算量
GPU を利用して30日
畳込み層全結合層

23
畳込み層
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
1
2
2
1
1
1
0
1
2
2
2
1
1
0
1
2
2
2
1
1
0
0
1
1
1
1
1
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
-4
1
0
-8
ピクセル値
(src)
畳み込み
カーネル
ピクセル値(dst)
カーネルの中心の値はソースピクセル
上に置かれている。
ソースピクセルはフィルタを自身の積
の値に更新される。

24
ディープラーニングのアプローチ

25
ディープラーニングのアプローチ
推論(インファレンス):
犬
猫
蜜穴熊
エラー
犬
猫
アライグマ
犬
学習(トレーニング):
モデル
モデル

▪ データを訓練データ(training data)と検証データ(validation data)に分割する
訓練データと検証データ
ディープラーニングの学習
収集したデータ
検証データ(validation data)
訓練データ(training data)
重みの更新
(学習)に使用
汎化性能の
確認に使用

訓練データによる重みの更新
訓練データ
猫
犬
熊
検証データ
訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの
更新を繰り返す
猫
犬
狸
正解は犬

訓練データによる重みの更新
訓練データ
猫
犬
熊
検証データ
訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの
更新を繰り返す
猫
犬
狸
正解に近づくように、各層の重みを更新する

学習時の性能の確認
訓練データと検証データの役割
各エポックで訓練データをニューラルネットワークに与えた際の間違い率と検証データを与えた際の間
違い率を確認しながら学習を進める必要がある
エラー数
エポック
0
training
validation
エラー数
エポック
0
training
validation学習成功学習失敗(過学習)

30
w
x y
w
x y
w
x y
レイヤー1
01000
“dog”
レイヤー2
入力
出力レイヤーN
ロス
関数
00010
“cat”
正解ラベル
x[N] y[M]
w[N][M]
順伝播(フォワードプロパゲーション)
誤差逆伝播法

31
w
x y
w
x y
w
x y 01000
“dog”
00010
“cat”
ロス
関数
error⊿y⊿x⊿y⊿x⊿y
⊿w⊿w⊿w
逆伝播(バックプロパゲーション)
誤差逆伝播法
レイヤー1 レイヤー2
入力
出力レイヤーN 正解ラベル

32
w
x y
w
x y
w
x y 01000
“dog”
00010
“cat”
ロス
関数
error⊿y⊿x
⊿w
⊿y⊿x
⊿w
⊿y
⊿w
www
重みの更新
誤差逆伝播法
入力

33
w
x y
w
x y
w
x y “dog” “cat”
ロス関数
error⊿y⊿x
⊿w
⊿y⊿x
⊿w
⊿y
⊿w
“cat” “dog”
“human” “monkey”
“tiger” “lion”
ミニバッチ
誤差逆伝播法
入力

34
GPUディープラーニング

35
ディープラーニングを加速する3つの要因
MLテクノロジー計算パワービッグデータ
100 hour video
uploaded
per minute
350 million
images uploaded
per day
2.5 trillion
transactions
per hour
0.0
0.5
1.0
1.5
2.0
2.5
3.0
2008 2009 2010 2011 2012 2013 2014
NVIDIA GPU x86 CPU
TFLOPS
TORCH
THEANO
CAFFE
MATCONVNET
PURINEMOCHA.JL
MINERVA MXNET*

36
画像認識
(Microsoft)
認識精度向上のため
モデルはよりディープに、データはより大きく
強力な計算パワーが必要に
2012
AlexNet
8 レイヤー
1.4 GFLOP
~16% エラー率
152 レイヤー
22.6 GFLOP
~3.5% エラー率
2015
ResNet
16X
モデル
2014
Deep Speech 1
80 GFLOP
7,000 時間データ
~8% エラー率
465 GFLOP
12,000時間データ
~5%エラー率
2015
Deep Speech 2
10X
Training Ops
音声認識
(Baidu)

37
ディープラーニングフレームワーク
コンピュータビジョンボイス&オーディオ自然言語処理
物体検出音声認識言語翻訳推薦エンジン感情分析
Mocha.jl
画像分類
ディープラーニング SDK
ディープラーニングを加速するディープラーニングライブラリ
cuDNN
CUDA 数学ライブラリ
cuBLAS cuSPARSE
マルチGPU間通信
NCCLcuFFT
ビデオ解析インファレンス

38
データサイエンティスト R&D サイクル
Idea
Code
Train
Test
クリティカルパス:
Ideaが沸いてから
Testが完了するまで
サイクルを速く回すことが重要

39
データサイエンティスト R&D サイクル
Idea
Code
Train
Test
時間がかかる GPUの利用

40
DLトレーニングシステム
Caffe Theano Torch
GPUs
Chainer
DLフレームワーク
DLアプリケーション
Tensor
Flow
CNTK

41
DLトレーニングシステム
Caffe Theano Torch
GPUs
Chainer
DLフレームワーク
DLアプリケーション
Tensor
Flow
CNTK
cuBLAS, cuDNN, cuSPARSE

42
ディープラーニングSDK

43
GPUで高速化されたディープラーニングのアプリケーションを設計、開発する為の強力な開発
ツールおよびライブラリ
NVIDIA GPUの為の高速なディープラーニング環境を保障
最新のディープラーニング・アルゴリズムをGPUに最適化した状態で提供
ディープラーニング・アプリケーションを簡単に構築
ディープラーニングを加速するディープラーニングライブラリ
cuDNN
CUDA 数学ライブラリ
cuBLAS cuSPARSE
マルチGPU間通信
NCCLcuFFT
ビデオ解析インファレンス

44
GPU による性能向上
CNN における学習時間
バッチサイズ学習時間（CPU) 学習時間(GPU) GPU／CPU比
64画像 64s 7.5s 8.5X
128画像 124s 14.5s 8.5X
256画像 257s 28.5s 9.0X
デュアル 10 コア Ivy Bridge CPU
1 Tesla K40 GPU
CPU： Intel MKL BLAS ライブリを活用
GPU： CUDA行列ライブラリ（cuBLAS）を使用
ILSVRC12でSupervisionが使用したモデル
7層
5層の畳み込みと2層の全結合
ReLU、プーリング、ドロップアウト、正規化
Caffeを使用
20反復のトレーニング時間

45
GPU による性能向上(inference)
Xeon E5-2698 と Tesla M40
NVIDIA Whitepaper “GPU based deep learning inference: A performance and power analysis.”より

46
NVIDIA cuDNN
最新はバージョンは5.1RC
GPU上でディープニューラルネットワークの計算を高速に
行う為のプリミティブ群
ディープニューラルネットワークの学習の高いパフォー
マンスを発揮
Caffe、 CNTK、 Tensorflow、 Theano、 Torch、
Chainerなどディープラーニングフレームワークを高速
化
バージョンアップ毎にパフォーマンスが向上
• 以下のOSとGPUの組み合わせで仕様が可能
• Windows(7/10),Linux(x64,power8/ARM),Ma
cOS
• Pascal/Maxwell/Kepler世代のGPU, Tegra
K1およびTegra X1
“NVIDIAはcuDNNのリリースの度により多く
の操作ができるような機能拡張をおこなって
おり、同時に計算速度も向上させている”
—UC バークレー、 Caffe リードデベロッパー、Evan Shelhamer
developer.nvidia.com/cudnn

47
cuDNN 5 のアップデート
Torch上でLSTM リカレントニューラルネットワークの
計算を6倍高速化
パフォーマンスの向上:
• VGG、GoogleNet、ResNetsのような3x3 畳み込み
層を持つネットワークの高速化(winograd)
• 3次元畳み込み
• Pascal世代のGPUの為のFP16ルーティンの追加
• Bilinear Spatial Transformer /ドロップアウト追加
Pascal世代GPU, リカレントニューラルネットワーク, パフォーマンスの向上
Performance relative to torch-rnn
(https://github.com/jcjohnson/torch-rnn)
DeepSpeech2: http://arxiv.org/abs/1512.02595
Char-rnn: https://github.com/karpathy/char-rnn
5.9x
char-rnn
RNN レイヤーの速度向上
2.8x
DeepSpeech 2
RNNレイヤーの速度向上

48
cuDNN 5.1
• 3x3と5x5の畳込みの順伝播・および逆伝播計算の為の新しいWinogradアルゴリズムが追加。
• CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD_NONFUSED
• CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD_NONFUSED
• FP16の順伝播、逆伝播計算のパフォーマンスの向上
• CUDA8.0のサポート
ディープラーニング計算の為の高速なプリミティブ群

49
cuDNN 5.1
パフォーマンス
3x3のコンボリューション層をもつ
ネットワークの学習が2.7倍高速に
Speed-upoftrainingvs.cuDNNv4
cuDNN 4 + K40 vs. cuDNN 5.1 RC + M40 on Torch and Intel Xeon Haswell
Single-socket 16-core E5-2698 v3 @2.3GHz 3.6GHz Turbo
この3年間で60倍学習が高速に
Speed-upofimages/SecvsK40in2013
Alexnet training throughput on:
CPU: 1xE5-2680v3 12 Co 2.5GHz 128GB System Memory, Ubuntu 14.04
M40 bar: 8xM40 GPUs in a node. P100: 8xP100 NVLink-enabled

50
NCCL(NVIDIA Collective Collection Library)
マルチGPU集合通信ライブラリ
• 最新リリースはv1.2.1
• https://github.com/NVIDIA/nccl
all-gather, reduce, broadcast など標準的な集合通信の処理をバンド幅が出るように最適化
シングルプロセスおよびマルチプロセスで使用する事が可能

51
NCCL(NVIDIA Collective Collection Library)
NCCLの集合通信処理

52
NCCL パフォーマンス
Bandwidth at different problem sizes (4 Maxwell GPUs)
All-Gather
All-Reduce
Reduce-Scatter
Broadcast

53
ディープラーニング・フレームワーク

54
Mocha.jl
GPUで高速化されているディープラーニング・フレームワークが多数存在
https://developer.nvidia.com/deep-learning-frameworks

55
Caffe Torch7 Theano TensorFlow Chainer
インターフェース C++/Python/Matlab Lua/C Python C/C++/Python Python
cuDNN 5 5 5 5 5
ライセンス BSD-2 BSD BSD Apache 2.0 MIT
マルチGPU
(1ノード) ○ ○ ○ ○
モデルの柔軟性 △ ◎ ◎ ○ ◎
CNN ○ ○ ○ ○ ○
RNN
○
#2033
○ ○ ○ ○
RBM × ○ ○ ○ ○
備考
高速
Caffe Model Zoo
多数のアルゴリズムを
サポート
自動微分
自動微分
TensorBoard
Define by Run
CuPy

56
Caffeとは?
• コアエンジンはC++/CUDA
• コマンドライン、Python、Matlabインターフェース
• 高速, コードのテストが良く行われている
• 前処理および開発ツール、リファレンスモデルやサンプルコードが充実
• 画像データマネージメント
• GPUによる高速化の機能(マルチGPUによるデータ並列学習に対応)
• コミュニティが大きく活動が盛ん
BVLCによって開発されたディープラーニング開発用のオープンフレームワーク
caffe.berkeleyvision.org
http://github.com/BVLC/caffe

57
Caffeの特徴
データの前処理とマネージメント
データ取り込みフォーマット
LevelDB または LMDB データベース
イン-メモリ(C++とPython のみ)
HDF5
画像ファイル
前処理ツール
RAWデータからのLevelDB/LMDB
生成
トレーニングセットとバリデーション
セットのシャッフル生成
平均画像の生成
データ変換
画像のクリッピング、リサイズ、ミ
ラーリング
差分画像

58
Caffeの特徴
Protobuf モデルフォーマット
ネットワーク構造定義および学習
パラメータの定義に使われる
様々なフォーマットに対応Caffeの
オートジェネレータで生成可能。
構文チェック機能も存在
コーディングが必要ない
name: “conv1”
type: “Convolution”
bottom: “data”
top: “conv1”
convolution_param {
num_output: 20
kernel_size: 5
stride: 1
weight_filler {
type: “xavier”
}
}
ディープラーニングモデル定義

59
Caffe特徴
ロス関数:
Classification
Softmax
Hinge loss
Linear regression
Euclidean loss
Attributes/multi-classification
Sigmoid cross entropy loss
and more…
使用可能レイヤー:
Convolution
Pooling
Normalization
活性化関数:
ReLU
Sigmoid
Tanh
and more…
ディープラーニングモデル定義

60
Caffeを用いたディープラーニングの開発の流れについて

61
1．学習データの作成
2. モデルの作成
5．検証・改善
4．モデルのテスト
3. 学習
ディープラーニングの開発
の流れについて

62
5．検証・改善
3. 学習
convert_imagesetコマンド
によるデータセットの作成

63
5．検証・改善
3. 学習
ソルバ定義ファイルおよび
ネットワーク構造定義ファイルの作成

64
5．検証・改善
3. 学習
caffeコマンドを用いて
学習を開始

65
5．検証・改善
3. 学習
学習済みモデル、ネットワーク構造定義ファイル、
平均画像を用いてテスト

66
Caffeコマンドの使い方:学習の方法
• 学習
• caffe train –solver ./test_solver.prototxt
• GPUを1つ使って学習
• caffe train –solver ./test_solver.prototxt –gpu 0
• GPUを複数使って学習
• caffe train –solver ./test_solver.prototxt –gpus 0,1
• 転移学習
• caffe train –solver ./test_solver.prototxt –weights
./trained_weight.caffemodel
Caffeツールの使い方
http://caffe.berkeleyvision.org/tutorial/interfaces.html

67
ソルバ定義ファイル
• 学習に必要なパラメータを定義する為のファイル
• 主なパラメータ
• net: ネットワーク構造定義ファイルのパスを指定
• type: バックプロパゲーションのアルゴリズムを指定
• (ex. SGD/AdaDelta/Adam)
• max_iter: 最大イタレーション数
• イタレーションとはバッチを通す回数。Epochとは違うので注意
• base_lr:開始時の学習率を指定
https://github.com/BVLC/caffe/wiki/Solver-Prototxt

68
ソルバ定義ファイルの例
https://github.com/BVLC/caffe/wiki/Solver-Prototxt
net: "models/bvlc_reference_caffenet/train_val.prototxt"
test_iter: 1000
test_interval: 1000
base_lr: 0.01
lr_policy: "step"
gamma: 0.1
stepsize: 100000
display: 20
max_iter: 450000
momentum: 0.9
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "models/bvlc_reference_caffenet/caffenet_train"
solver_mode: GPU

69
ネットワーク構造定義ファイル
• ネットワークの構造を定義する為のファイル(各レイヤーの設定をlayer節に定義)
layer {
name: "conv1"
type: "Convolution“
…(省略)…
}
layer {
name: “tanh1”
type: “TanH“
…(省略)…
}
layer {
name: "conv2"
type: "Convolution“
…(省略)…
}
Conv1
(畳込み)
tanh1
(活性化)
conv2
(畳込み)

70
ネットワーク構造定義ファイル
• Layer節の主な設定パラメータ
• name: レイヤー名
• type: レイヤータイプを指定
• bottom: 前のレイヤー
• top: 後のレイヤー
• batch_size: バッチ数
• num_output: レイヤーの出力数

71
ネットワーク構造定義ファイルの例
name: “Example"
layer {
name: "mnist"
type: "Data"
top: "data"
top: "label"
include {
phase: TRAIN
}
transform_param {
scale: 0.00390625
}
data_param {
source: "./mnist_train_leveldb"
batch_size: 64
backend: LEVELDB
}
}
layer {
name: "mnist"
type: "Data"
top: "data"
top: "label"
include {
phase: TEST
}
transform_param {
scale: 0.00390625
}
data_param {
source: "./mnist_test_leveldb"
batch_size: 100
backend: LEVELDB
}
}
layer {
name: “ip1”
type: “InnerProduct”
bottom: “data”
top: “ip1”
param {
lr_mult: 1
}
param {
lr_mult: 2
}
inner_product_param {
num_output: 100
weight_filler {
type: "xavier"
}
bias_filler {
type: "constant"
}
}
}
layer {
name: "tanh1"
type: "TanH"
bottom: "ip1"
top: "ip1"
}
layer {
name: "ip2"
type: "InnerProduct"
bottom: "ip1"
top: "ip2"
param {
lr_mult: 1
}
param {
lr_mult: 2
}
inner_product_param {
num_output: 10
weight_filler {
type: "xavier"
}
bias_filler {
type: "constant"
}
}
}
layer {
name: "accuracy"
type: "Accuracy"
bottom: "ip2"
bottom: "label"
top: "accuracy"
include {
phase: TEST
}
}
layer {
name: "loss"
type: "SoftmaxWithLoss"
bottom: "ip2"
bottom: "label"
top: "loss"
}

NVIDIA ディープラーニング入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to NVIDIA ディープラーニング入門

Similar to NVIDIA ディープラーニング入門 (20)

More from Seong-Hun Choe

More from Seong-Hun Choe (15)

Recently uploaded

Recently uploaded (14)

NVIDIA ディープラーニング入門