SlideShare a Scribd company logo
1 of 99
Download to read offline
Akira Naruse, 2020/7/16
DEEP LEARNING、トレーニング・イン
ファレンスの GPU による高速化
2
アジェンダ
ディープラーニング概要
• ディープラーニングの歴史・基礎
• さまざまなネットワークと応用
• 何故、計算負荷が重いのか?
トレーニングの加速
• 低精度演算 (16-bit 浮動小数点)
• マルチノード
インファレンスの最適化
• 量子化 (Quantization)
• モデル圧縮 (Pruning)
3
ディープラーニング概要
44
様々な分野で活用されるディープラーニング
インターネットとクラウド
画像分類
音声認識
言語翻訳
言語処理
感情分析
推薦
メディアとエンターテイメント
字幕
ビデオ検索
リアルタイム翻訳
機械の自動化
歩行者検出
白線のトラッキング
信号機の認識
セキュリティと防衛
顔検出
ビデオ監視
衛星画像
医学と生物学
癌細胞の検出
糖尿病のランク付け
創薬
CHASING 1060 CHEMICALCOMPOUNDS
Identifying molecules with desirable chemical properties is centralto many
industries. In the chemicalspace of 1060 conceivable compounds, only
108 have been synthesized.
Screening even a small fraction of the remaining compounds with legacy
methods would take 100 node-seconds per compound.
Researchers at Dow are using GPU-powered deep learning to deliver
completely novelmolecular structures with specific properties.
The AI produced 3M promising chemicalleads in 1 day on an NVIDIA DGX.
AI IS SPEEDING THE PATH TO FUSION ENERGY
Fusion, the future of energy on Earth, is a highly sensitive process where small environmentaldisruptions can stall reactions and damage
multi-billion machines. Current models predict disruptions with 85% accuracy — ITER will need something more precise.
Researchers at Princeton University developed the GPU-powered Fusion Recurrent NeuralNetwork (FRNN) to predict disruptions. FRNN
has achieved 90% accuracy and is on the path to achieving 95% accuracy necessary for ITER’s tests.
Visualization courtesy of Jamison Daniel, Oak Ridge Leadership Computing Facility
7
ディープラーニングは機械学習の一分野
人工知能(AI)
ディープラーニング
(深層学習)
マシンラーニング
(機械学習)
8
ディープラーニングの歴史
機械学習の一手法として
8
2012:画像認識コンペでの圧勝
2011:音声認識コンペでの圧勝
2006:事前学習と
autoencoderによる
多層ネットワークの学習
1992~:非線形
SVM等の流行
1989:畳み込み
ニューラルネットワークの提案
1986:誤差逆伝播法の提案
1980:ネオコグニトロンの提案
1969:(単純)パーセプトロンの
限界が明らかになる
1958:パーセプトロンの発表
1940~50年代:
人工知能の提唱
第一次ブーム: ~1970 第二次ブーム: ~1990 第三次ブーム: ~20??
9
DEEP LEARNINGを可能にしたもの
アルゴリズム
大量のデータ
計算性能
Deep Learning found GPU and GPU enabled Deep Learning
10
人工ニューロン
神経回路網をモデル化
スタンフォード大学cs231講義ノートより
神経回路網
w1 w2 w3
x1 x2 x3
y
y=F(w1x1+w2x2+w3x3)
F(x)=max(0,x)
人工ニューロン(パーセプトロン)
11
人工ニューラルネットワーク
人工ニューロンを基本単位とするネットワーク構造
11
w1 w2 w3
x1 x2 x3
y
y=w1x1+w2x2+w3x3
人工ニューロン(パーセプトロン)
人工ニューラルネットワーク
人工ニューロンを
たくさんの層として並べる
各層にそれぞれ
重みパラメータを持つ
12
人工ニューラルネットワーク
活性化関数
12
w1
w2
w3
x1
x2
x3
y=w1x1+w2x2+w3x3
人工ニューロン(パーセプトロン)
y F
z=F(y)
F: activation function
活性化関数
(activation function)
z 次の層
tanh
ReLU
sigmoid
13
人工ニューラルネットワーク
基本構造のまとめ
13
各ノードは
入力された値を合計して出力
各ユニット(ノードとも)の出力は、
各層の重みと積算され次の層へ
活性化関数による変換
14
トレーニングの流れ
Forward Propagation
損失
関数
誤差
入力
入力をうけとり、第一層から順番に、指定された計算を行い、結果を出力
結果と正解から、指定された損失関数に基づき、誤差を得る
正解
(ねこ)
15
トレーニングの流れ
Backward Propagation
損失
関数
誤差
連鎖律に基づき、得られた誤差を起点に、Forward Propagationと
は逆順に誤差を伝搬し、各層のパラメータの勾配を計算する
勾配勾配勾配勾配勾配勾配勾配
16
トレーニングの流れ
Update Parameters
得られた勾配に基づいて、各層のパラメータを更新する
勾配勾配勾配勾配勾配勾配勾配
17
重み更新
勾配法による更新
17重み w
誤差 E
最適解 現在値
誤差を最小化する
重みが最適解
ニューラルネットワークの
内部状態(=重み)に応じて
誤差は変動
18
重み更新
勾配法による更新
18重み w
誤差 E
最適解
傾きが正(=右上がり)
なら値を減少させる
傾きが負(=右下がり)
なら値を増加させる
wn wm
19
重み更新
勾配法による更新
19重み w
誤差 E
最適解
傾きが正(=右上がり)
なら値を減少させる
傾きが負(=右下がり)
なら値を増加させる
wn wm
傾き(=勾配ベクトル)により
重みを逐次更新
20
重み更新
勾配法による更新
20重み w
誤差 E
wnwn+1
wn+2
最適解
(ゴール)
少しずつ更新
21
ディープラーニングのアプローチ
Dog
Cat
Honey badger
誤差逆伝搬
犬
猫
アライグマ
トレーニング:
十分な精度が得られるまで、これを延々と繰り返す
22
ディープラーニングのアプローチ
Dog
Cat
Honey badger
誤差逆伝搬
犬
トラ
アライグマ
インファレンス:
犬
トレーニング:
学習済みモデル
さまざまなネットワークと応用
24
基本的なネットワーク
多層ニューラルネットワーク
24
前層の全ノードが次層のノードに
接続されている状態
↓
全結合している
25
畳み込みニューラルネットワーク (CNN)
画像を扱うことに長けたネットワーク
25
畳み込み層
全結合層
26
畳み込み層 (CONVOLUTION)
26
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
1
2
2
1
1
1
0
1
2
2
2
1
1
0
1
2
2
2
1
1
0
0
1
1
1
1
1
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
-4
1
0
-8
入力ピクセル
コンボリューション
カーネル
出力ピクセル
入力とカーネルとで
要素同士の積を計算し、
全て足したものが出力
カーネルの重みも
学習によって調整される
27
CNN の応用
27
画像分類
物体検出
領域分割/
セマンティックセグメンテーション
などなど……
28
リカレントニューラルネットワーク (RNN)
系列データを自然に扱うためのネットワーク
28
隠れ層の出力を
隠れ層の入力として戻す
出力層
隠れ層
入力層
29
リカレントニューラルネットワーク (RNN)
系列データを自然に扱うためのネットワーク
29
出力層
隠れ層
入力層
展
開
出力層
隠れ層
入力層
出力層
隠れ層
入力層
t = 1 t = 2
前の出力を次の入力に
することで、依存関係を考慮
長い系列ほど深い
ネットワークになる
30
LSTM: LONG SHORT-TERM MEMORY
RNNの欠点を解消するネットワーク
30
出力層
隠れ層
入力層
RNNの隠れ層を
LSTMブロックで置き換え
いくつかのゲートにより
長期の依存関係を
学習可能に
31
RNN/LSTMの応用
31
系列データ予測
次が上がるのか
下がるのかを予測 異常予測
定常的なふるまいと
異なる動作を予測
などなど……
32
何故、計算負荷が重いのか?
33
全結合層 (FULLY CONNECTED LAYER)
行列ベクトル積 (y = Wx)
Ny
計算量:
2 * 出力ノード数 (Ny)
* 入力ノード数 (Nx)
入力 x 出力 y重み W
Nx
重み W
入力 x
出力 y
Ny
Nx
Nx
[性能律速点]
メモリバンド幅
34
全結合層 (FULLY CONNECTED LAYER)
ミニバッチ学習で、行列積に (Y = W・X)
重み W
計算量:
2 * 出力ノード数 (Ny)
* 入力ノード数 (Nx)
* ミニバッチサイズ (Nb)
入力 X 出力 Y重み W
Nb * Nx Nb * Ny
入力 X
出力 Y
Ny
Nx
Nx
Nb
[性能律速点]
演算性能
35
全結合層
Forwardは、行列積
全結合層
X YMatmul
W
誤差入力
Y = W・X
36
全結合層
Backwardも、行列積
全結合層
X YMatmul
W
誤差入力
gY
gX = Wt・gY
gW = gY・Xt
gW
gX
Backward の計算量は、Forward より、2 倍程度多い
Y = W・X
37
畳み込みニューラルネットワーク
Convolutional Neural Network
37
全結合層
38
LSTM: LONG SHORT-TERM MEMORY
Y = W・X 相当の計算が 4 つ
38
出力層
LSTM
入力層
39
LSTM: LONG SHORT-TERM MEMORY
スタック LSTM
39
LSTM
X (t=0)
LSTM
LSTM
Y (t=0)
40
LSTM: LONG SHORT-TERM MEMORY
系列データ
40
LSTM
X (t=0)
LSTM
LSTM
Y (t=0)
LSTM
X (t=1)
LSTM
LSTM
Y (t=1)
LSTM
X (t=N)
LSTM
LSTM
Y (t=N)
41
畳み込みニューラルネットワーク
Convolutional Neural Network
41
畳み込み層
42
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
1
2
2
1
1
1
0
1
2
2
2
1
1
0
1
2
2
2
1
1
0
0
1
1
1
1
1
0
0
0
0
0
0
0
入力
コンボリューション
カーネル
出力
コンボリューションカーネルの
係数と、入力ピクセルを掛
け、足し合わせた値を出力
とする。
畳込み層 (CONVOLUTIONAL LAYER)
4
0
0
0
0
0
0
0
-4
-8
重み
43
CONVOLUTION ~ 行列積
Y = W・X’
0
4
8
12
1
5
9
13
2
6
10
14
3
7
11
15
入力 X
出力 Y
0
3
6
1
4
7
2
5
8 0
4
8
12
1
9
13
2
6
10
14
3
7
11
15
5
重み W
0 1 2 3 4 5 6 7 8 0 5 10 15
5
4
-
2
1
-
-
-
-
9
8
6
5
4
2
1
0
9
7
6
5
-
-
-
-
10
10
11
13
14
15
10
11
14
15
-
重み W 出力 Y
入力 X’
img2col 変形
44
CONVOLUTION ~ 行列積
0
4
8
12
1
5
9
13
2
6
10
14
3
7
11
15
入力 X
(Niw * Nih)
出力 Y
(Now * Noh)
0
3
6
1
4
7
2
5
8 0
4
8
12
1
9
13
2
6
10
14
3
7
11
15
5
重み W
(Kw * Kh)
入力 X’
Kw * Kh
Kw*Kh
Now * Noh
重み W 出力 Y
これ、行列積じゃなくて、
行列ベクトル積では?
計算量:
2 * Kw * Kh * Now * Noh
45
CONVOLUTION ~ 行列積
0
4
8
12
1
5
9
13
2
6
10
14
3
7
11
15 0
3
6
1
4
7
2
5
8 0
4
8
12
1
9
13
2
6
10
14
3
7
11
15
5
重み W 出力 Y
入力 X’
Kw * Kh * Nic
Noc
Kw*Kh*Nic
Now * Noh * Nb
入力 X
(Niw * Nih)
出力 Y
(Now * Noh)
重み W
(Kw * Kh)
計算量:
2 * Kw * Kh * Now * Noh
* Noc * Nic * Nb
46
畳み込み層
Forwardは、行列積(相当)
畳み込み層
X YConv
W
誤差入力
Y = W・X’
47
畳み込み層
Backwardも、行列積(相当)
畳み込み層
X YConv
W
誤差入力
gY
gX’ = Wt・gY
gW = gY・X’t
gW
gX
Y = W・X’
48
行列積、行列積、行列積、、
学習で時間のかかるのは、全結合層と畳込み層
どちらも、積和演算の塊とみなすことができる(行列積)
• C = A・B
様々なサイズの行列積を高速に実行
できるマシンが、学習には必要
いろいろなサイズ
cuBLAS
49
トレーニングの高速化
巨大化するネットワーク
51
多様な
DL モデル
CONVOLUTIONAL
NETWORKS
RECURRENT
NETWORKS
GENERATIVE
ADVERSARIAL
NETWORKS
REINFORCEMENT LEARNING NEW SPECIES
DQN Simulation DDPG Mixture of Experts Neural
Collaborativ
e Filtering
Block Sparse
LSTM
Capsule Nets
ReLuEncoder/Decoder
Dropout PoolingConcat
BatchNorm
GRULSTM
CTC
Beam Search
WaveNet Attention
3D-GAN
Speech Enhancement
GAN
Coupled GAN
Conditional GANMedGAN
52
計算パワーは、もっと必要なのか?
アプリケーションに依存
• 自然言語処理系は拡大
• 画像処理系は収束?
53
自動運転に必要なもの
Semantic
Segmentation
Object
Detection
Localization
Planning
54
計算パワーは、もっと必要なのか?
IT分野からミッションクリティカル分野に拡大
• ミッションクリティカル分野では、より高い精度が必要
• 例:自動運転、99%の正解率で十分?
Question: もっと精度を上げるにはどうすればよいのか
55
モデル精度向上には、教師データ増が有効
• 深層学習の成功の要因(画像処理系)
• 大規模な教師データ
• NNモデルの多層化・大容量化
• 計算パワーの増大
• Q: 教師データをもっと増やしたら何が起きるのか
• ImageNet: 120万枚の画像
• JFT-300M: 3億枚の画像 (ラベルはnoisy)
Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data in
Deep Learning Era”, 2017
56
モデル精度向上には、教師データ増が有効
Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data in
Deep Learning Era”, 2017
教師データサイズと認識精度の関係
Object detection (ResNet-101)
左:COCO, 右:PASCALVOC 2007
モデルサイズと認識精度の関係
Object detection (COCO)
ResNet-50/101/152
教師データサイズの指数に比例して精度向上
モデルサイズ増で精度向上
ただし大量の教師データ必要
Better
Better
57
どうやってトレーニング時間を短縮するか
• 単体(1ノード, 1GPU)のスピードを上げる
• 演算精度を下げて、性能を上げる (半精度、専用ユニット)
• 多数のノード/GPUを使う
• 大量のノードを使って、一つのモデルのトレーニング時間を短縮する
58
低精度演算 (16-BIT 浮動小数点)
59
DLトレーニングに必要な演算精度は?
• 乗算は低精度でOK (FP32より低精度で問題ない)
• 浮動小数点の方が良い
• パラメータ更新には高精度 (FP32) を使用した方が良い
Matthieu Courbariaux et al., “Training Deep Neural Networks with Low
Precision Multiplication”, 2014
レンジ
exponent
精度
mantissa
FP32
e8 m23
s
e8 m7
e5 m10
FP16 s
BF16 s
sign
FP16 vs. BF16 論争
• FP16: 精度が良い
• BF16: オーバーフロー発生しない (使いやすい)
行列積は 16-bit 浮動小数点で十分
60
BF16で行列演算を高速に実行
DLトレーニング向けチップ
Google TPUv3
123 TFLOPS x4
(*) Google社より引用
Habana Gaudi
?? TOPS
(*) habana社より引用
61
TENSOR CORE
低精度行列演算ユニット
TFLOPS V100 A100
FP32 (標準) 15.7 19.5
TF32 (TensorCore) --- 156
FP16/BF16 (TensorCore) 125 (FP16) 312
16-bit
16-bit
× + 32-bit
32-bit
16-bit 32-bit
62
A100 の行列積性能 (実測)
A100 FP32 (FMA) と比較
• TF32: 約 7x 性能UP
• FP16/BF16: 約 14x 性能UP
cuBLAS 11.0
FP32 (FMA)
Better
63
A100 のトレーニング性能 (言語モデル)
V100 FP32 に対するスピードアップ
Speedup
A100 TF32 A100 FP16
64
マルチノードでトレーニング
65
マルチノード・トレーニング (分散学習)
• 多数の演算ノード、GPUを使って学習
を加速
• モデル精度を下げずに、学習時間を
短縮するテクニックの研究開発、ホット
トピック
• Facebook, Google, Microsoft,
PFN, Tencent, SONY, …
(*) Priya Goyal, et al., Facebook,
“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”
Better
66
GPU2
データ並列とモデル並列
GPU1
GPU1GPU2
データ並列 モデル並列
• データセットを分割する
• 各GPUは、分割後の別サブデータセットを担当
• GPU間のデータ交換量少ない
• モデルを分割する
• 各GPUは、分割後の別サブモデルを担当
• GPU間のデータ交換量多い
67
データ並列: 同期更新と非同期更新
同期更新 非同期更新
GPU1
GPU1
GPU2
GPU2
GPU3
GPU3
Forward Backward Update
Forward Backward Update
Forward Backward Update
GradientsExchange
Forward Backward
Forward Backward
Forward Backward
パラーメータ
サーバ
68
非同期更新 → 同期更新
• 非同期更新の問題: Staleness
• 過去モデルで計算した勾配で、
最新モデルを更新
Jianmin Chen at el., “Revisiting Distributed Synchronous SGD”, 2017
• ワーカー数を冗長に設定: N + b
• N ワーカーから勾配が届いたら、残りの b
ワーカーを待たずに、モデル更新
• 外乱の少ないHomogeneousな環境であ
れば、b = 0でも問題ない?Better
Better
69
データ並列+同期更新の課題
• スケーラビリティ
• 精度: モデル精度が低下する
• ノード数増 ≒ バッチサイズ増
• Facebook: 8Kバッチ(256GPU)まで維持
• PFN: 32Kバッチ(1024GPU)まで維持
• 性能: 勾配交換の時間が増加する
• 1024GPU: 2割以上が通信時間
ImageNet, ResNet50, 32バッチ/GPU
(*) Priya Goyal, et al., Facebook,
“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”
Better
70
データ並列+同期更新の課題
• スケーラビリティ
• 精度: モデル精度が低下する
• ノード数増 ≒ バッチサイズ増
• Facebook: 8Kバッチ(256GPU)まで維持
• PFN: 32Kバッチ(1024GPU)まで維持
• 性能: 勾配交換の時間が増加する
• 1024GPU: 2割以上が通信時間
(*) www.preferred-networks.jp/docs/imagenet_in_15min.pdf
ImageNet, ResNet50, 32バッチ/GPU
Better
71
モデル精度を維持しつつ、バッチサイズを増やす
• ラーニングレートの低下と、バッチサイズの増加は、
SGD的に等価
• Noise scale:
• ε:ラーニングレート
• B:バッチサイズ
• 数十epoch経過したら、ラーニングレートを下げる代わ
りに、バッチサイズを増やせば良い
Samuel L. Smith, et al., “Don’t’ Decay the
Learning Rate, Increase the Batch Size”, 2017
Better
72
勾配交換の通信量を減らす
• 99%以上の勾配は、交換しなくても問題ない?
“Deep Gradient Compression: Reducing the Communication Bandwidth
for Distributed Training”, 2017
73
NVIDIA NCCL
• マルチGPU、マルチノード対応、
深層学習用通信ライブラリ
• ノード内
• PCIe, NVLINK
• ノード間
• TPC/IP, InfiniBand
Multi-GPU and Multi-node Collective Communication Primitives
• All-gather
• All-reduce
• Broadcast
• Reduce
• Reduce-scatter
74
NVIDIA NCCL
Multi-GPU and Multi-node Collective Communication Primitives
Better
Better
75
分散学習(データ並列)の最前線?
Processor DL framework Time (minutes)
Facebook Tesla P100 x256 Caffe2 60
Google TPUv2 x256 TensorFlow 30
PFN Tesla P100 x1024 Chainer 15
Tencent Tesla P40 x2048 TensorFlow 6.6
SONY Tesla V100 x2176 NNL 3.7
Google TPUv3 x1024 TensorFlow 2.3
NVIDIA Tesla V100 x1536 MXNet 1.33
Google TPUv3 x2048 TensorFlow 1.28
Fujitsu Tesla V100 x2048 MXNet 1.17
ImageNet + ResNet50
76
2240 x A100
#7 in top500
NVIDIA Selene
77
インファレンスの最適化
78
ディープラーニングのアプローチ
Dog
Cat
Honey badger
誤差逆伝搬
犬
トラ
アライグマ
インファレンス:
犬
トレーニング:
学習済みモデル
79
インファレンスの特徴
• モデルは学習済み
• Forwardのみ。BackwardとUpdateは不要
• トレーニングと比べると、計算負荷は低い
• 様々な場所で実行される可能性: クラウド, 移動体, スマホ, IoT, …
• 低消費電力: 演算負荷を下げたい
• 小容量メモリ: モデルサイズを小さくしたい
• 低レスポンス時間: バッチサイズは大きくできない
80
インファレンス向けモデル最適化
モデルサイズの削減 (計算負荷の削減)
• Quantization: モデルの表現 bit 数を減らす (例: FP32/FP16 → INT8)
• Pruning: モデル内の重要度の低いパラメータを、刈り取る
81
量子化 (QUALTIZATION)
82
インファレンスに必要な計算精度
• FP32はインファレンスには過剰、FP16/INT8で十分
• 初代 Google TPU (インファレンス専用) は INT8 チップ
• ウェイトは2 or 3値で十分と主張している研究もある
• 2 or 3値だと、一般的にモデル精度が低下
• 精度確保のためモデル変更が必要になることが多い
(*) “In-Datacenter Performance Analysis of a Tensor Processing UnitTM
”
83
インファレンスに必要な計算精度
• FP32はインファレンスには過剰、FP16/INT8で十分
• 初代Google TPU (インファレンス専用) はINT8チップ
(*) Matthieu Courbariaux, et al., “BinaryConnect: Training Deep
Neural Networks with binary weights during propagations”
• ウェイトは2 or 3値で十分と主張している
研究もある
• 2 or 3値だと、一般的にモデル精度が
低下
• 精度確保のためモデル変更が必要にな
ることが多い
Better
84
インファレンス向けに計算精度を下げる方法
• 学習中に、低精度モデルを作る
• 複数の精度でウェイトを管理 (例: FP16/32 と INT8)
• INT8 で Forward
• FP16/32 で Backward & Update
• FP32 で学習したモデルから、低精度モデルを作る
• FP32 でモデルをトレーニング
• 学習完了後に、パラメータを INT8 に量子化
(*) Wikipediaより引用
量子化と量子化誤差
85
学習完了後に低精度モデルを作る
学習済みモデルのウェイトを、FP32/FP16からINT8に変換する
課題: INT8は、FP32と比べて、非常にDynamic Rangeが狭い
• FP32: 1.4 x 10-45 ~ 3.4 x 1038
• FP16: 5.96 x 10-8 ~ 65504
• INT8: 1 ~ 127
単純なデータ型変換(cast)では、対応不可能 → 量子化が必要
FP32/FP16 → INT8
86
線形量子化
飽和無し
全てこれにすると、精度ロス大
飽和有り
Activationで精度改善効果あり
INT8 array = FP32/16 array / scale factor
87
量子化とモデル精度
8-bit INT に量子化しても、同程
度の精度を維持
B. Jacob, et. al., “Quantization and Training of Neural Networks for
Efficient Integer-Arithmetic-Only Inference”
Image classification Object detection
88
枝刈り (PRUNING)
89
PRUNING
• 直感:
• モデルには大量のパラメータが存在
• 出力への影響度はパラメータ毎に違うはず
• Pruning:
• 学習済モデルから、影響度の低いパラメータを、切り取る
• モデルサイズを小さくできる、かつ、演算量を削減できる
• 一般的にはPruningすると精度が低下→ 再トレーニング(Fine-tuning)が必要
• 1990年代からあるアイデア、多数の研究が存在
モデルサイズ・演算量の削減
(*) Song Han, “Deep Compression and EIE”, GTC 2016
90
PRUNING
• 反復 Pruning
• 一度に大量のパラメータを切り取ると、モデル精度
が大きく低下、再トレーニングしても精度を回復で
きない
• 小刻みに Pruning と Fine-tuning を繰り返す
• 影響度のランキング方法
• ウェイトやアクティベーションの、絶対値、L1/L2ノルム、標準
偏差、等など
モデルサイズ・演算量の削減
91
PRUNING事例
• VGG-16での評価結果
Pavlo, et al., “Pruning Convolutional Neural Networks for Resource
Efficient Inference”, 2017
Better
Better Better
Better
92
PRUNING事例
• Quantization(とHuffman coding)との組み合わせ
• モデル圧縮率: AlexNetで35倍、VGG-16で49倍 (精度低下ほぼ無し)
Song Han, et al., “Deep Compression: Compressing Deep Neural Networks with
Pruning, Trained Quantization and Huffman Coding”, 2016
93
PRUNING事例
効果
• PruningとQuantizationの組
み合わせで、精度ロス無しで、
モデルサイズの大幅な圧縮を
達成
ただし、計算は「疎」になる
• 密行列 → 疎行列
• 大幅に圧縮しないと、スピード
UPしない
Song Han, et al., “Deep Compression: Compressing Deep Neural Networks with
Pruning, Trained Quantization and Huffman Coding”, 2016
Better
Better
94
入力データ型 積算データ型 TOPS
性能UP
vs. FP32
FP16 FP16 312 16x
INT8 INT32 624 32x
INT4 INT32 1248 64x
BINARY INT32 4992 256x
GPUのインファレンス向け機能
A100 TensorCore: インファレンス用データ型の行列積も高速化
95
入力データ型 積算データ型 TOPS
性能UP
vs. FP32
疎行列
TOPS
疎行列
TOPS
vs. FP32
FP16 FP16 312 16x 624 32x
INT8 INT32 624 32x 1248 64x
INT4 INT32 1248 64x 2496 128x
BINARY INT32 4992 256x
GPUのインファレンス向け機能
A100 TensorCore: 「構造的」疎行列の高速化
96
A100 SPARSE TENSOR CORE
構造的に枝刈り
(連続4要素の内
2要素をゼロに)
圧縮
非ゼロ
index
非ゼロ
要素
ゼロ
× dot-product
トレーニング後の
「重み」行列
入力
activations
mux
重みを再トレーニング
出力
activations
select
「疎行列化」で計算スループット 2x
「重み」行列のメモリ使用量半減
「疎行列化」後もインファレンス精度は同等
画像・物体認識、セグメンテーション、自然言語モデル、翻訳
Sparse
Tensor Core
mux
ASP: Automatic Sparsity for Retraining in Frameworks
97
まとめ
98
まとめ
ディープラーニング概要
• ディープラーニングの歴史・基礎
• さまざまなネットワークと応用
• 何故、計算負荷が高いのか?
トレーニングの加速
• 低精度演算 (16-bit 浮動小数点)
• マルチノード
インファレンスの最適化
• 量子化 (INT8)
• モデル圧縮 (Pruning)
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

More Related Content

What's hot

ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門Fixstars Corporation
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツKuninobu SaSaki
 
0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラムMinoru Nakamura
 
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築NVIDIA Japan
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理Toru Tamaki
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理Norishige Fukushima
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介Preferred Networks
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksDeep Learning JP
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜京大 マイコンクラブ
 
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説Takateru Yamagishi
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミングNorishige Fukushima
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習Hitoshi Sato
 

What's hot (20)

ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
 
0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム
 
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
 
プログラムを高速化する話
プログラムを高速化する話プログラムを高速化する話
プログラムを高速化する話
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
 
画像処理の高性能計算
画像処理の高性能計算画像処理の高性能計算
画像処理の高性能計算
 

Similar to DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座NVIDIA Japan
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
深層学習の基礎と導入
深層学習の基礎と導入深層学習の基礎と導入
深層学習の基礎と導入Kazuki Motohashi
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Shuntaro Ohno
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Takayoshi Yamashita
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎kunihikokaneko1
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidiaTak Izaki
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Brains Consulting, Inc.
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
NIPS2017 論文まとめ
NIPS2017 論文まとめNIPS2017 論文まとめ
NIPS2017 論文まとめTatsuya Okunaga
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 

Similar to DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化 (20)

これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
深層学習の基礎と導入
深層学習の基礎と導入深層学習の基礎と導入
深層学習の基礎と導入
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
 
SBRA2018講演資料
SBRA2018講演資料SBRA2018講演資料
SBRA2018講演資料
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidia
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
NIPS2017 論文まとめ
NIPS2017 論文まとめNIPS2017 論文まとめ
NIPS2017 論文まとめ
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 

More from RCCSRENKEI

第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第14回 配信講義 計算科学技術特論B(2022)
第14回 配信講義 計算科学技術特論B(2022)第14回 配信講義 計算科学技術特論B(2022)
第14回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第9回 配信講義 計算科学技術特論B(2022)
 第9回 配信講義 計算科学技術特論B(2022) 第9回 配信講義 計算科学技術特論B(2022)
第9回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第8回 配信講義 計算科学技術特論B(2022)
第8回 配信講義 計算科学技術特論B(2022)第8回 配信講義 計算科学技術特論B(2022)
第8回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第7回 配信講義 計算科学技術特論B(2022)
第7回 配信講義 計算科学技術特論B(2022)第7回 配信講義 計算科学技術特論B(2022)
第7回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第6回 配信講義 計算科学技術特論B(2022)
第6回 配信講義 計算科学技術特論B(2022)第6回 配信講義 計算科学技術特論B(2022)
第6回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...RCCSRENKEI
 
Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...RCCSRENKEI
 
Fugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedFugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedRCCSRENKEI
 
第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第3回 配信講義 計算科学技術特論B(2022)
第3回 配信講義 計算科学技術特論B(2022)第3回 配信講義 計算科学技術特論B(2022)
第3回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamotoRCCSRENKEI
 
第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 

More from RCCSRENKEI (20)

第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)
 
第14回 配信講義 計算科学技術特論B(2022)
第14回 配信講義 計算科学技術特論B(2022)第14回 配信講義 計算科学技術特論B(2022)
第14回 配信講義 計算科学技術特論B(2022)
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)
 
第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 
第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)
 
第9回 配信講義 計算科学技術特論B(2022)
 第9回 配信講義 計算科学技術特論B(2022) 第9回 配信講義 計算科学技術特論B(2022)
第9回 配信講義 計算科学技術特論B(2022)
 
第8回 配信講義 計算科学技術特論B(2022)
第8回 配信講義 計算科学技術特論B(2022)第8回 配信講義 計算科学技術特論B(2022)
第8回 配信講義 計算科学技術特論B(2022)
 
第7回 配信講義 計算科学技術特論B(2022)
第7回 配信講義 計算科学技術特論B(2022)第7回 配信講義 計算科学技術特論B(2022)
第7回 配信講義 計算科学技術特論B(2022)
 
第6回 配信講義 計算科学技術特論B(2022)
第6回 配信講義 計算科学技術特論B(2022)第6回 配信講義 計算科学技術特論B(2022)
第6回 配信講義 計算科学技術特論B(2022)
 
第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)
 
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
 
Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...
 
Fugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedFugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons Learned
 
第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)
 
第3回 配信講義 計算科学技術特論B(2022)
第3回 配信講義 計算科学技術特論B(2022)第3回 配信講義 計算科学技術特論B(2022)
第3回 配信講義 計算科学技術特論B(2022)
 
第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)
 
第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamoto
 
第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)
 

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化