DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

Akira Naruse, 2020/7/16
DEEP LEARNING、トレーニング・イン
ファレンスの GPU による高速化

2
アジェンダ
ディープラーニング概要
• ディープラーニングの歴史・基礎
• さまざまなネットワークと応用
• 何故、計算負荷が重いのか？
トレーニングの加速
• 低精度演算 (16-bit 浮動小数点)
• マルチノード
インファレンスの最適化
• 量子化 (Quantization)
• モデル圧縮 (Pruning)

3

44
様々な分野で活用されるディープラーニング
インターネットとクラウド
画像分類
音声認識
言語翻訳
言語処理
感情分析
推薦
メディアとエンターテイメント
字幕
ビデオ検索
リアルタイム翻訳
機械の自動化
歩行者検出
白線のトラッキング
信号機の認識
セキュリティと防衛
顔検出
ビデオ監視
衛星画像
医学と生物学
癌細胞の検出
糖尿病のランク付け
創薬

CHASING 1060 CHEMICALCOMPOUNDS
Identifying molecules with desirable chemical properties is centralto many
industries. In the chemicalspace of 1060 conceivable compounds, only
108 have been synthesized.
Screening even a small fraction of the remaining compounds with legacy
methods would take 100 node-seconds per compound.
Researchers at Dow are using GPU-powered deep learning to deliver
completely novelmolecular structures with specific properties.
The AI produced 3M promising chemicalleads in 1 day on an NVIDIA DGX.

AI IS SPEEDING THE PATH TO FUSION ENERGY
Fusion, the future of energy on Earth, is a highly sensitive process where small environmentaldisruptions can stall reactions and damage
multi-billion machines. Current models predict disruptions with 85% accuracy — ITER will need something more precise.
Researchers at Princeton University developed the GPU-powered Fusion Recurrent NeuralNetwork (FRNN) to predict disruptions. FRNN
has achieved 90% accuracy and is on the path to achieving 95% accuracy necessary for ITER’s tests.
Visualization courtesy of Jamison Daniel, Oak Ridge Leadership Computing Facility

7
ディープラーニングは機械学習の一分野
人工知能（AI）
ディープラーニング
（深層学習）
マシンラーニング
（機械学習）

8
ディープラーニングの歴史
機械学習の一手法として
8
2012:画像認識コンペでの圧勝
2011:音声認識コンペでの圧勝
2006:事前学習と
autoencoderによる
多層ネットワークの学習
1992～:非線形
SVM等の流行
1989:畳み込み
ニューラルネットワークの提案
1986:誤差逆伝播法の提案
1980:ネオコグニトロンの提案
1969:(単純)パーセプトロンの
限界が明らかになる
1958:パーセプトロンの発表
1940～50年代:
人工知能の提唱
第一次ブーム: ～1970 第二次ブーム: ～1990 第三次ブーム: ～20??

9
DEEP LEARNINGを可能にしたもの
アルゴリズム
大量のデータ
計算性能
Deep Learning found GPU and GPU enabled Deep Learning

10
人工ニューロン
神経回路網をモデル化
スタンフォード大学cs231講義ノートより
神経回路網
w1 w2 w3
x1 x2 x3
y
y=F(w1x1+w2x2+w3x3)
F(x)=max(0,x)
人工ニューロン（パーセプトロン）

11
人工ニューラルネットワーク
人工ニューロンを基本単位とするネットワーク構造
11
w1 w2 w3
x1 x2 x3
y
y=w1x1+w2x2+w3x3
人工ニューロンを
たくさんの層として並べる
各層にそれぞれ
重みパラメータを持つ

12
活性化関数
12
w1
w2
w3
x1
x2
x3
y=w1x1+w2x2+w3x3
y F
z=F(y)
F: activation function
活性化関数
(activation function)
z 次の層
tanh
ReLU
sigmoid

13
基本構造のまとめ
13
各ノードは
入力された値を合計して出力
各ユニット（ノードとも）の出力は、
各層の重みと積算され次の層へ
活性化関数による変換

14
トレーニングの流れ
Forward Propagation
損失
関数
誤差
入力
入力をうけとり、第一層から順番に、指定された計算を行い、結果を出力
結果と正解から、指定された損失関数に基づき、誤差を得る
正解
(ねこ)

15
Backward Propagation
損失
関数
誤差
連鎖律に基づき、得られた誤差を起点に、Forward Propagationと
は逆順に誤差を伝搬し、各層のパラメータの勾配を計算する
勾配勾配勾配勾配勾配勾配勾配

16
Update Parameters
得られた勾配に基づいて、各層のパラメータを更新する
勾配勾配勾配勾配勾配勾配勾配

17
重み更新
勾配法による更新
17重み w
誤差 E
最適解現在値
誤差を最小化する
重みが最適解
ニューラルネットワークの
内部状態（＝重み）に応じて
誤差は変動

18
重み更新
18重み w
誤差 E
最適解
傾きが正（＝右上がり）
なら値を減少させる
傾きが負（＝右下がり）
なら値を増加させる
wn wm

19
重み更新
19重み w
誤差 E
最適解
傾きが正（＝右上がり）
なら値を減少させる
傾きが負（＝右下がり）
なら値を増加させる
wn wm
傾き（=勾配ベクトル）により
重みを逐次更新

20
重み更新
20重み w
誤差 E
wnwn+1
wn+2
最適解
(ゴール)
少しずつ更新

21
ディープラーニングのアプローチ
Dog
Cat
Honey badger
誤差逆伝搬
犬
猫
アライグマ
トレーニング:
十分な精度が得られるまで、これを延々と繰り返す

22
Dog
Cat
Honey badger
誤差逆伝搬
犬
トラ
アライグマ
インファレンス:
犬
トレーニング:
学習済みモデル

さまざまなネットワークと応用

24
基本的なネットワーク
多層ニューラルネットワーク
24
前層の全ノードが次層のノードに
接続されている状態
↓
全結合している

25
畳み込みニューラルネットワーク (CNN)
画像を扱うことに長けたネットワーク
25
畳み込み層
全結合層

26
畳み込み層 (CONVOLUTION)
26
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
1
2
2
1
1
1
0
1
2
2
2
1
1
0
1
2
2
2
1
1
0
0
1
1
1
1
1
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
-4
1
0
-8
入力ピクセル
コンボリューション
カーネル
出力ピクセル
入力とカーネルとで
要素同士の積を計算し、
全て足したものが出力
カーネルの重みも
学習によって調整される

27
CNN の応用
27
画像分類
物体検出
領域分割/
セマンティックセグメンテーション
などなど……

28
リカレントニューラルネットワーク (RNN)
系列データを自然に扱うためのネットワーク
28
隠れ層の出力を
隠れ層の入力として戻す
出力層
隠れ層
入力層

29
リカレントニューラルネットワーク (RNN)
系列データを自然に扱うためのネットワーク
29
出力層
隠れ層
入力層
展
開
出力層
隠れ層
入力層
出力層
隠れ層
入力層
t = 1 t = 2
前の出力を次の入力に
することで、依存関係を考慮
長い系列ほど深い
ネットワークになる

30
LSTM: LONG SHORT-TERM MEMORY
RNNの欠点を解消するネットワーク
30
出力層
隠れ層
入力層
RNNの隠れ層を
LSTMブロックで置き換え
いくつかのゲートにより
長期の依存関係を
学習可能に

31
RNN/LSTMの応用
31
系列データ予測
次が上がるのか
下がるのかを予測異常予測
定常的なふるまいと
異なる動作を予測
などなど……

32
何故、計算負荷が重いのか？

33
全結合層 (FULLY CONNECTED LAYER)
行列ベクトル積 (y = Wx)
Ny
計算量:
2 * 出力ノード数 (Ny)
* 入力ノード数 (Nx)
入力 x 出力 y重み W
Nx
重み W
入力 x
出力 y
Ny
Nx
Nx
[性能律速点]
メモリバンド幅

34
全結合層 (FULLY CONNECTED LAYER)
ミニバッチ学習で、行列積に (Y = W・X)
重み W
計算量:
2 * 出力ノード数 (Ny)
* 入力ノード数 (Nx)
* ミニバッチサイズ (Nb)
入力 X 出力 Y重み W
Nb * Nx Nb * Ny
入力 X
出力 Y
Ny
Nx
Nx
Nb
[性能律速点]
演算性能

35
全結合層
Forwardは、行列積
全結合層
X YMatmul
W
誤差入力
Y = W・X

36
全結合層
Backwardも、行列積
全結合層
X YMatmul
W
誤差入力
gY
gX = Wt・gY
gW = gY・Xt
gW
gX
Backward の計算量は、Forward より、2 倍程度多い
Y = W・X

37
畳み込みニューラルネットワーク
Convolutional Neural Network
37
全結合層

38
Y = W・X 相当の計算が 4 つ
38
出力層
LSTM
入力層

39
スタック LSTM
39
LSTM
X (t=0)
LSTM
LSTM
Y (t=0)

40
系列データ
40
LSTM
X (t=0)
LSTM
LSTM
Y (t=0)
LSTM
X (t=1)
LSTM
LSTM
Y (t=1)
LSTM
X (t=N)
LSTM
LSTM
Y (t=N)

41
畳み込みニューラルネットワーク
Convolutional Neural Network
41
畳み込み層

42
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
1
2
2
1
1
1
0
1
2
2
2
1
1
0
1
2
2
2
1
1
0
0
1
1
1
1
1
0
0
0
0
0
0
0
入力
コンボリューション
カーネル
出力
コンボリューションカーネルの
係数と、入力ピクセルを掛
け、足し合わせた値を出力
とする。
畳込み層 (CONVOLUTIONAL LAYER)
4
0
0
0
0
0
0
0
-4
-8
重み

43
CONVOLUTION ~ 行列積
Y = W・X’
0
4
8
12
1
5
9
13
2
6
10
14
3
7
11
15
入力 X
出力 Y
0
3
6
1
4
7
2
5
8 0
4
8
12
1
9
13
2
6
10
14
3
7
11
15
5
重み W
0 1 2 3 4 5 6 7 8 0 5 10 15
5
4
-
2
1
-
-
-
-
9
8
6
5
4
2
1
0
9
7
6
5
-
-
-
-
10
10
11
13
14
15
10
11
14
15
-
重み W 出力 Y
入力 X’
img2col 変形

44
0
4
8
12
1
5
9
13
2
6
10
14
3
7
11
15
入力 X
(Niw * Nih)
出力 Y
(Now * Noh)
0
3
6
1
4
7
2
5
8 0
4
8
12
1
9
13
2
6
10
14
3
7
11
15
5
重み W
(Kw * Kh)
入力 X’
Kw * Kh
Kw*Kh
Now * Noh
重み W 出力 Y
これ、行列積じゃなくて、
行列ベクトル積では？
計算量:
2 * Kw * Kh * Now * Noh

45
0
4
8
12
1
5
9
13
2
6
10
14
3
7
11
15 0
3
6
1
4
7
2
5
8 0
4
8
12
1
9
13
2
6
10
14
3
7
11
15
5
重み W 出力 Y
入力 X’
Kw * Kh * Nic
Noc
Kw*Kh*Nic
Now * Noh * Nb
入力 X
(Niw * Nih)
出力 Y
(Now * Noh)
重み W
(Kw * Kh)
計算量:
2 * Kw * Kh * Now * Noh
* Noc * Nic * Nb

46
畳み込み層
Forwardは、行列積(相当)
畳み込み層
X YConv
W
誤差入力
Y = W・X’

47
畳み込み層
Backwardも、行列積(相当)
畳み込み層
X YConv
W
誤差入力
gY
gX’ = Wt・gY
gW = gY・X’t
gW
gX
Y = W・X’

48
行列積、行列積、行列積、、
学習で時間のかかるのは、全結合層と畳込み層
どちらも、積和演算の塊とみなすことができる（行列積）
• C = A・B
様々なサイズの行列積を高速に実行
できるマシンが、学習には必要
いろいろなサイズ
cuBLAS

49
トレーニングの高速化

巨大化するネットワーク

51
多様な
DL モデル
CONVOLUTIONAL
NETWORKS
RECURRENT
NETWORKS
GENERATIVE
ADVERSARIAL
NETWORKS
REINFORCEMENT LEARNING NEW SPECIES
DQN Simulation DDPG Mixture of Experts Neural
Collaborativ
e Filtering
Block Sparse
LSTM
Capsule Nets
ReLuEncoder/Decoder
Dropout PoolingConcat
BatchNorm
GRULSTM
CTC
Beam Search
WaveNet Attention
3D-GAN
Speech Enhancement
GAN
Coupled GAN
Conditional GANMedGAN

52
計算パワーは、もっと必要なのか?
アプリケーションに依存
• 自然言語処理系は拡大
• 画像処理系は収束？

53
自動運転に必要なもの
Semantic
Segmentation
Object
Detection
Localization
Planning

54
計算パワーは、もっと必要なのか?
IT分野からミッションクリティカル分野に拡大
• ミッションクリティカル分野では、より高い精度が必要
• 例:自動運転、99%の正解率で十分?
Question: もっと精度を上げるにはどうすればよいのか

55
モデル精度向上には、教師データ増が有効
• 深層学習の成功の要因（画像処理系）
• 大規模な教師データ
• NNモデルの多層化・大容量化
• 計算パワーの増大
• Q: 教師データをもっと増やしたら何が起きるのか
• ImageNet: 120万枚の画像
• JFT-300M: 3億枚の画像 (ラベルはnoisy)
Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data in
Deep Learning Era”, 2017

56
モデル精度向上には、教師データ増が有効
Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data in
Deep Learning Era”, 2017
教師データサイズと認識精度の関係
Object detection (ResNet-101)
左:COCO, 右:PASCALVOC 2007
モデルサイズと認識精度の関係
Object detection (COCO)
ResNet-50/101/152
教師データサイズの指数に比例して精度向上
モデルサイズ増で精度向上
ただし大量の教師データ必要
Better
Better

57
どうやってトレーニング時間を短縮するか
• 単体（1ノード, 1GPU）のスピードを上げる
• 演算精度を下げて、性能を上げる (半精度、専用ユニット)
• 多数のノード/GPUを使う
• 大量のノードを使って、一つのモデルのトレーニング時間を短縮する

58
低精度演算 (16-BIT 浮動小数点)

59
DLトレーニングに必要な演算精度は?
• 乗算は低精度でOK (FP32より低精度で問題ない)
• 浮動小数点の方が良い
• パラメータ更新には高精度 (FP32) を使用した方が良い
Matthieu Courbariaux et al., “Training Deep Neural Networks with Low
Precision Multiplication”, 2014
レンジ
exponent
精度
mantissa
FP32
e8 m23
s
e8 m7
e5 m10
FP16 s
BF16 s
sign
FP16 vs. BF16 論争
• FP16: 精度が良い
• BF16: オーバーフロー発生しない (使いやすい)
行列積は 16-bit 浮動小数点で十分

60
BF16で行列演算を高速に実行
DLトレーニング向けチップ
Google TPUv3
123 TFLOPS x4
(*) Google社より引用
Habana Gaudi
?? TOPS
(*) habana社より引用

61
TENSOR CORE
低精度行列演算ユニット
TFLOPS V100 A100
FP32 (標準) 15.7 19.5
TF32 (TensorCore) --- 156
FP16/BF16 (TensorCore) 125 (FP16) 312
16-bit
16-bit
× + 32-bit
32-bit
16-bit 32-bit

62
A100 の行列積性能 (実測)
A100 FP32 (FMA) と比較
• TF32: 約 7x 性能UP
• FP16/BF16: 約 14x 性能UP
cuBLAS 11.0
FP32 (FMA)
Better

63
A100 のトレーニング性能 (言語モデル)
V100 FP32 に対するスピードアップ
Speedup
A100 TF32 A100 FP16

64
マルチノードでトレーニング

65
マルチノード・トレーニング (分散学習)
• 多数の演算ノード、GPUを使って学習
を加速
• モデル精度を下げずに、学習時間を
短縮するテクニックの研究開発、ホット
トピック
• Facebook, Google, Microsoft,
PFN, Tencent, SONY, …
(*) Priya Goyal, et al., Facebook,
“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”
Better

66
GPU2
データ並列とモデル並列
GPU1
GPU1GPU2
データ並列モデル並列
• データセットを分割する
• 各GPUは、分割後の別サブデータセットを担当
• GPU間のデータ交換量少ない
• モデルを分割する
• 各GPUは、分割後の別サブモデルを担当
• GPU間のデータ交換量多い

67
データ並列: 同期更新と非同期更新
同期更新非同期更新
GPU1
GPU1
GPU2
GPU2
GPU3
GPU3
Forward Backward Update
GradientsExchange
Forward Backward
Forward Backward
Forward Backward
パラーメータ
サーバ

68
非同期更新 → 同期更新
• 非同期更新の問題: Staleness
• 過去モデルで計算した勾配で、
最新モデルを更新
Jianmin Chen at el., “Revisiting Distributed Synchronous SGD”, 2017
• ワーカー数を冗長に設定: N + b
• N ワーカーから勾配が届いたら、残りの b
ワーカーを待たずに、モデル更新
• 外乱の少ないHomogeneousな環境であ
れば、b = 0でも問題ない？Better
Better

69
データ並列＋同期更新の課題
• スケーラビリティ
• 精度: モデル精度が低下する
• ノード数増 ≒ バッチサイズ増
• Facebook: 8Kバッチ(256GPU)まで維持
• PFN: 32Kバッチ(1024GPU)まで維持
• 性能: 勾配交換の時間が増加する
• 1024GPU: 2割以上が通信時間
ImageNet, ResNet50, 32バッチ/GPU
(*) Priya Goyal, et al., Facebook,
“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”
Better

70
データ並列＋同期更新の課題
• スケーラビリティ
• 精度: モデル精度が低下する
• ノード数増 ≒ バッチサイズ増
• Facebook: 8Kバッチ(256GPU)まで維持
• PFN: 32Kバッチ(1024GPU)まで維持
• 性能: 勾配交換の時間が増加する
• 1024GPU: 2割以上が通信時間
(*) www.preferred-networks.jp/docs/imagenet_in_15min.pdf
ImageNet, ResNet50, 32バッチ/GPU
Better

71
モデル精度を維持しつつ、バッチサイズを増やす
• ラーニングレートの低下と、バッチサイズの増加は、
SGD的に等価
• Noise scale:
• ε:ラーニングレート
• B:バッチサイズ
• 数十epoch経過したら、ラーニングレートを下げる代わ
りに、バッチサイズを増やせば良い
Samuel L. Smith, et al., “Don’t’ Decay the
Learning Rate, Increase the Batch Size”, 2017
Better

72
勾配交換の通信量を減らす
• 99%以上の勾配は、交換しなくても問題ない?
“Deep Gradient Compression: Reducing the Communication Bandwidth
for Distributed Training”, 2017

73
NVIDIA NCCL
• マルチGPU、マルチノード対応、
深層学習用通信ライブラリ
• ノード内
• PCIe, NVLINK
• ノード間
• TPC/IP, InfiniBand
Multi-GPU and Multi-node Collective Communication Primitives
• All-gather
• All-reduce
• Broadcast
• Reduce
• Reduce-scatter

74
NVIDIA NCCL
Multi-GPU and Multi-node Collective Communication Primitives
Better
Better

75
分散学習(データ並列)の最前線?
Processor DL framework Time (minutes)
Facebook Tesla P100 x256 Caffe2 60
Google TPUv2 x256 TensorFlow 30
PFN Tesla P100 x1024 Chainer 15
Tencent Tesla P40 x2048 TensorFlow 6.6
SONY Tesla V100 x2176 NNL 3.7
Google TPUv3 x1024 TensorFlow 2.3
NVIDIA Tesla V100 x1536 MXNet 1.33
Google TPUv3 x2048 TensorFlow 1.28
Fujitsu Tesla V100 x2048 MXNet 1.17
ImageNet + ResNet50

76
2240 x A100
#7 in top500
NVIDIA Selene

77

78
Dog
Cat
Honey badger
誤差逆伝搬
犬
トラ
アライグマ
インファレンス:
犬
トレーニング:
学習済みモデル

79
インファレンスの特徴
• モデルは学習済み
• Forwardのみ。BackwardとUpdateは不要
• トレーニングと比べると、計算負荷は低い
• 様々な場所で実行される可能性: クラウド, 移動体, スマホ, IoT, …
• 低消費電力: 演算負荷を下げたい
• 小容量メモリ: モデルサイズを小さくしたい
• 低レスポンス時間: バッチサイズは大きくできない

80
インファレンス向けモデル最適化
モデルサイズの削減 (計算負荷の削減)
• Quantization: モデルの表現 bit 数を減らす (例: FP32/FP16 → INT8)
• Pruning: モデル内の重要度の低いパラメータを、刈り取る

82
インファレンスに必要な計算精度
• FP32はインファレンスには過剰、FP16/INT8で十分
• 初代 Google TPU (インファレンス専用) は INT8 チップ
• ウェイトは2 or 3値で十分と主張している研究もある
• 2 or 3値だと、一般的にモデル精度が低下
• 精度確保のためモデル変更が必要になることが多い
(*) “In-Datacenter Performance Analysis of a Tensor Processing UnitTM
”

83
インファレンスに必要な計算精度
• FP32はインファレンスには過剰、FP16/INT8で十分
• 初代Google TPU (インファレンス専用) はINT8チップ
(*) Matthieu Courbariaux, et al., “BinaryConnect: Training Deep
Neural Networks with binary weights during propagations”
• ウェイトは2 or 3値で十分と主張している
研究もある
• 2 or 3値だと、一般的にモデル精度が
低下
• 精度確保のためモデル変更が必要にな
ることが多い
Better

84
インファレンス向けに計算精度を下げる方法
• 学習中に、低精度モデルを作る
• 複数の精度でウェイトを管理 (例: FP16/32 と INT8)
• INT8 で Forward
• FP16/32 で Backward & Update
• FP32 で学習したモデルから、低精度モデルを作る
• FP32 でモデルをトレーニング
• 学習完了後に、パラメータを INT8 に量子化
(*) Wikipediaより引用
量子化と量子化誤差

85
学習完了後に低精度モデルを作る
学習済みモデルのウェイトを、FP32/FP16からINT8に変換する
課題: INT8は、FP32と比べて、非常にDynamic Rangeが狭い
• FP32: 1.4 x 10-45 ～ 3.4 x 1038
• FP16: 5.96 x 10-8 ～ 65504
• INT8: 1 ～ 127
単純なデータ型変換(cast)では、対応不可能 → 量子化が必要
FP32/FP16 → INT8

86
線形量子化
飽和無し
全てこれにすると、精度ロス大
飽和有り
Activationで精度改善効果あり
INT8 array = FP32/16 array / scale factor

87
量子化とモデル精度
8-bit INT に量子化しても、同程
度の精度を維持
B. Jacob, et. al., “Quantization and Training of Neural Networks for
Efficient Integer-Arithmetic-Only Inference”
Image classification Object detection

89
PRUNING
• 直感:
• モデルには大量のパラメータが存在
• 出力への影響度はパラメータ毎に違うはず
• Pruning:
• 学習済モデルから、影響度の低いパラメータを、切り取る
• モデルサイズを小さくできる、かつ、演算量を削減できる
• 一般的にはPruningすると精度が低下→ 再トレーニング(Fine-tuning)が必要
• 1990年代からあるアイデア、多数の研究が存在
モデルサイズ・演算量の削減
(*) Song Han, “Deep Compression and EIE”, GTC 2016

90
PRUNING
• 反復 Pruning
• 一度に大量のパラメータを切り取ると、モデル精度
が大きく低下、再トレーニングしても精度を回復で
きない
• 小刻みに Pruning と Fine-tuning を繰り返す
• 影響度のランキング方法
• ウェイトやアクティベーションの、絶対値、L1/L2ノルム、標準
偏差、等など
モデルサイズ・演算量の削減

91
PRUNING事例
• VGG-16での評価結果
Pavlo, et al., “Pruning Convolutional Neural Networks for Resource
Efficient Inference”, 2017
Better
Better Better
Better

92
PRUNING事例
• Quantization（とHuffman coding）との組み合わせ
• モデル圧縮率: AlexNetで35倍、VGG-16で49倍 (精度低下ほぼ無し)
Song Han, et al., “Deep Compression: Compressing Deep Neural Networks with
Pruning, Trained Quantization and Huffman Coding”, 2016

93
PRUNING事例
効果
• PruningとQuantizationの組
み合わせで、精度ロス無しで、
モデルサイズの大幅な圧縮を
達成
ただし、計算は「疎」になる
• 密行列 → 疎行列
• 大幅に圧縮しないと、スピード
UPしない
Song Han, et al., “Deep Compression: Compressing Deep Neural Networks with
Pruning, Trained Quantization and Huffman Coding”, 2016
Better
Better

94
入力データ型積算データ型 TOPS
性能UP
vs. FP32
FP16 FP16 312 16x
INT8 INT32 624 32x
INT4 INT32 1248 64x
BINARY INT32 4992 256x
GPUのインファレンス向け機能
A100 TensorCore: インファレンス用データ型の行列積も高速化

95
入力データ型積算データ型 TOPS
性能UP
vs. FP32
疎行列
TOPS
疎行列
TOPS
vs. FP32
FP16 FP16 312 16x 624 32x
INT8 INT32 624 32x 1248 64x
INT4 INT32 1248 64x 2496 128x
BINARY INT32 4992 256x
GPUのインファレンス向け機能
A100 TensorCore: 「構造的」疎行列の高速化

96
A100 SPARSE TENSOR CORE
構造的に枝刈り
(連続4要素の内
2要素をゼロに)
圧縮
非ゼロ
index
非ゼロ
要素
ゼロ
× dot-product
トレーニング後の
「重み」行列
入力
activations
mux
重みを再トレーニング
出力
activations
select
「疎行列化」で計算スループット 2x
「重み」行列のメモリ使用量半減
「疎行列化」後もインファレンス精度は同等
画像・物体認識、セグメンテーション、自然言語モデル、翻訳
Sparse
Tensor Core
mux
ASP: Automatic Sparsity for Retraining in Frameworks

98
まとめ
• ディープラーニングの歴史・基礎
• さまざまなネットワークと応用
• 何故、計算負荷が高いのか？
トレーニングの加速
• 低精度演算 (16-bit 浮動小数点)
• マルチノード
• 量子化 (INT8)
• モデル圧縮 (Pruning)

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

Similar to DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化 (20)

More from RCCSRENKEI

More from RCCSRENKEI (20)

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化