エヌビディア合同会社 ディープラーニング部
部長 井﨑 武士
ディープラーニングの最前線と
医療分野への応用
2017年1月28日
2
創業1993年
共同創立者兼CEO ジェンスン・フアン
(Jen-Hsun Huang)
1999年 NASDAQに上場(NVDA)
1999年にGPUを発明
その後の累計出荷台数は10億個以上
2015年度の売上高は46億8,000万ドル
社員は世界全体で9,100人
約7,300件の特許を保有
本社は米国カリフォルニア州サンタクララ
3
自動車HPC&Cloudエンタープライズ
グラフィックス
ゲーミング
GEFORCE
SHIELD
QUADRO
QUADRO VCA
Tesla
GRID
JETSON
DRIVE
インテリジェントマシン
4
AGENDA
Deep Learningとは
Deep Learning 事例
医療画像分野での実例
なぜGPUがDeep Learningに向いているのか
NVIDIA Deep Learningプラットフォーム
DIGITS
DIGITSデモ (時間があれば)
5
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2009 2010 2011 2012 2013 2014 2015 2016
ディープラーニングの目覚しい進化
IMAGENET
正答率
従来 CV 手法 ディープラーニング
DeepMindのAlphaGoが囲碁で
世界チャンピオンを越える
Atomwiseがエボラウィルスの感染力を
低減する可能性のある2つの新薬を開発
FANUCがピッキングロボットで
8時間の学習で90%の取得率を達成
X線画像読影診断で肺がんの検出率が
読影診断医の1.5倍
みずほ証券が株価のトレードに
Deep Learningを導入
1秒間に600万人の
顔認識を行える
Deep Face
生産性の向上 – 活用事例
Google: AIによりデータセンターの
消費電力を数100億円規模で
低減
FANUC:40日前にロボットの
故障を予測
選択的な給水や除草により
化学薬品の使用を90%
低減
便利な生活 – 活用事例
Alibaba: スマートフォンで撮った
写真から同一商品、類似商品を
検索
WEpod:大学と近隣の駅間を連
絡する自動運転電気自動車が
登場
Sharp: お掃除ロボットに音声
認識を搭載。ハンズフリーで
掃除を開始
AI CO-PILOT (1)
Face Recognition Head Tracking
AI CO-PILOT (2)
Lip ReadingGaze Tracking
安心・安全な生活 – 活用事例
Paypal:不正決済の検出の
誤報率が50%低減
herta Security:スマート監視
カメラにより空港やショッピング
モールの公共安全を向上
vRad:CTスキャン画像により、潜
在的に頭蓋内の出血の可能性
が高い箇所を特定し、予防
13
DEEP LEARNING INSIGHT
従来のアルゴリズム ディープラーニング
0%
20%
40%
60%
80%
100%
overall passenger
channel
indoor public area sunny day rainny day winter summer
Pedestrian detection Recall rate
Traditional Deep learning
70
75
80
85
90
95
100
vehicle color brand model sun blade safe belt phone calling
Vehicle feature accuracy increased by Deep Learning
traditional algorithm deep learning
監視カメラ
医療分野での実例
子供の成長の問題を
AI が検出
Detecting growth-related problems in children
requires calculating their bone age. But it’s an
antiquated process that requires radiologists to
match X-rays with images in a 1950s textbook.
Massachusetts General Hospital, which conducts
the largest hospital-based research program in
the United States, developed an automated
bone-age analyzer built on NVIDIA cuDNN and the
NVIDIA DIGITS DevBox. The system is 99%
accurate and delivers test results in seconds
versus days.
Deep Learning for early detection of Age-
related Macular Degeneration
________________________________________
– UW developed a deep learning system to
read OCT scans and automatically detect
Age-related Macular Degeneration.
– There were 5.4 Million Scans in 2014
– In under one month of training, the
system is over 90% accurate
80% of people above 80 have Age-related
Macular Degeneration and it is treatable
-Aaron Lee, Assistant Professor of Ophthalmology,
University of Washington
乳がんの転移の検出
• 腋下リンパ節の状態を検出
• データセットはCamelyon16 Challengeのものを利用
https://camelyon16.grand-challenge.org/
• データには2つの独立したデータセットから合計400の
歩哨リンパ節のWSI(Whole-slide-image)が含まれている
• トレーニングデータ
• テストデータ
オランダのラドバウド大学メディカルセンター/
ユトレヒト大学メディカルセンターから集めた130のWSI
TASK
スライドベースの評価
• 転移を含むスライドと正常なスライドの区別
• スライドレベルでのROC分析
• アルゴリズムの比較はROC曲線下面積(AUC)を用いる
病変ベースの評価
• 信頼スコアを伴う腫瘍領域の検出
• FROC曲線を使用
• 最終スコアはあらかじめ決められたFalse-Positive率の感度として決められる
1/4,1/2,1,2,4,8
FRAMEWORK
NNの詳細
ResNet101を用いて、Atrous畳み込み演算とAtrous Spatial pyramid pooling (ASPP)を使用
Atrous畳み込み演算とASPPは予測のための視野を拡大し、複数の倍率でオブジェクトとイメージコ
ンテキストのキャプチャを可能とする
トレーニングはNVCAFFEを使用。パッチサイズは
20xで512X512。ミニバッチサイズは10
ラーニングレートは2.5e-4から始め、0.9乗の
多項式
重み減衰 0.0005 モーメンタム0.9
Tesla P100で40000イタレーション
約1日
性能比較
推論性能
8*p100: DGX-1
計算性能
結果
医療画像セグメンテーション
磁気共鳴画像 (MRI)
神経画像ではデファクト
複雑で高価
優れた組織コントラスト、高いリアリティ、高いSN比
医療画像セグメンテーション
超音波画像
非侵襲的、装置が小型、安価、リアルタイム、安全
ノイズ、リアルではない、影や低いコントラスト
早期のパーキンソン病の診断には有効
CNNを用いたセグメンテーション
ボクセルベースの分類
全領域に対するセグメンテーションマスクの予測
ローカリゼーションとセグメンテーションに対するベクトルの多数決
ハフ-CNN 学習
パッチと投票の学習セット
分類CNNの学習
前景パッチの特徴抽出
データベースの構築(特徴、ベクトル、セグメンテーションパッチ)
ハフ-CNN 推論
CNNによる分類&特徴抽出
ハフ-CNN 推論
CNNによる分類&特徴抽出
特徴を元にデータベースからベクトルを取り出す
ハフ-CNN 推論
CNNによる分類&特徴抽出
特徴を元にデータベースからベクトルを取り出す
ベクトルを配置し、マップから基点の集中箇所を特定
ハフ-CNN 推論
CNNによる分類&特徴抽出
特徴を元にデータベースからベクトルを取り出す
ベクトルを配置し、マップから基点の集中箇所を特定
特定された基点を元に関連するセグメンテーションパッ
チを割り出す(データベースから)
結果
結果
0,76 0,77 0,85 0,85
なぜGPUがディープラーニングに向いているか
ディープラーニングを加速する3要因
DNN GPUビッグデータ
1分間に100 時間の
ビデオがアップロード
日々3.5億イメージ
がアップロード
1時間に2.5兆件の
顧客データが発生
0.0
0.5
1.0
1.5
2.0
2.5
3.0
2008 2009 2010 2011 2012 2013 2014
NVIDIA GPU x86 CPU
TFLOPS
TORCH
THEANO
CAFFE
MATCONVNET
PURINEMOCHA.JL
MINERVA MXNET*
典型的なネットワーク例
多量なトレーニングデータと多数の行列演算
目的
顔認識
トレーニングデータ
1,000万~1億イメージ
ネットワークアーキテクチャ
10 層
10 億パラメータ
ラーニングアルゴリズム
30 エクサフロップスの計算量
GPU を利用して30日
CNN: CONVOLUTION NEURAL NETWORK
LeNet5 [LeCun et al.,1998]
FULL CONNECTION
Forward
Layer 1 Layer 2 Layer 3 Layer 4
FULL CONNECTION
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �
𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
x[N] y[M]
w[N][M]
FULL CONNECTION
x[N] y[M]
w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �
𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
メモリバンド幅で性能が決まる
Xeon E5-2690v3 Tesla M40
68GB/s 288 GB/s
FULL CONNECTION (MINI-BATCH)
x[N] y[M]
w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �
𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
FULL CONNECTION (MINI-BATCH)
x[K][N] y[K][M]
w[N][M]
x =
w[N][M] x[K][N] y[K][M]
Matrix Matrix
高い演算能力を発揮できる
𝑦𝑦[𝑘𝑘] 𝑖𝑖 = 𝐹𝐹 �
𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥[𝑘𝑘] 𝑗𝑗 )
Xeon E5-2690v3 Tesla M40
0.88 TFLOPS 7.0 TFLOPS
CNN: CONVOLUTION NEURAL NETWORK
LeNet5 [LeCun et al.,1998]
CONVOLUTIONS
Output feature maps
Input feature map(s)
CONVOLUTIONS
Input feature maps
Output feature maps
CONVOLUTIONS
Direct Convolution
- 膨大な組み合わせ
- それぞれ向けに最適化
するのは困難
FFT
- メモリ負荷が高い
- 柔軟性が低い
Matrix Multiply
Output feature maps
Input feature map(s)
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input
Filter
O0 O1
O2 O3
Output
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
F0 F1
F2 F3
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3G0 G1 G2 G3
J0
J1
J3
J4
J1
J2
J4
J5
J3
J4
J6
J7
J4
J5
J7
J8
J0 J1 J2
J3 J4 J5
J6 J7 J8
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
G0 G1
G2 G3
F0 F1
F2 F3
G0 G1
G2 G3
F0 F1 F2 F3G0 G1 G2 G3
Output data
行列演算のサイズ (LENET5)
LeNet5 [LeCun et al.,1998]
OutputsFilter
(Expanded)
Inputs
16
100 * batch size
150
150
行列演算のサイズ (GOOGLENET)
GoogLeNet [Szegedy et al.,2014]
OutputsFilter
(Expanded)
Inputs
192
3136 * batch size
576
576
NVIDIA Deep Learning プラットフォーム
学習と推論プラットフォーム
ワークステーション サーバー
NVIDIA Tesla NVIDIA TEGRA/JETSON TX1
学習
推論
NVIDIA Tesla/DGX-1
オンライン オフライン
X
GPUロードマップSGEMM/W
2012 20142008 2010 2016
48
36
12
0
24
60
2018
72
Tesla Fermi
Kepler
Maxwell
Pascal
Volta
倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100
ハイパースケールデータセンターのための
世界で最も先進的な GPU
P100の技術革新
16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink
リニアなスケーリングを実現するNVLINK
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
AlexnetOWT
P100 NVLINK
P100 PCIE
Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling,
P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
Incep-v3
P100 NVLINK
P100 PCIE
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
ResNet-50
P100 NVLINK
P100 PCIE
Speedup
2.3x
1.3x
1.5x
NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.
NVIDIA DGX-1
世界初ディープラーニング スーパーコンピューター
ディープラーニング向けに設計
170 TF FP16
8個 Tesla P100 ハイブリッド・キューブメッシュ
主要なAIフレームワークを加速
0x
16x
32x
48x
64x
0 16 32 48 64
ストロングスケール
1つのストロングノードは多くのウィークノードよりも高速
VASP 性能
2x P100
CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IB
VASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodes
Caffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5
CAFFE ALEXNET 性能
4x P100
8x P100
Single P100 PCIe Node vs Lots of Weak Nodes
# of CPU Server Nodes
Speed-upvs1CPUServerNode
0x
2x
4x
6x
8x
10x
12x
0 4 8 12 16 20 24 28 32
2x P100
8x P100
Single P100 PCIe Node vs Lots of Weak Nodes
# of CPU Server Nodes
Speed-upvs1CPUServerNode
4x P100
64 CPU Nodes
32 CPU Nodes
Fastest AI Supercomputer in TOP500
4.9 Petaflops Peak FP64 Performance
19.6 Petaflops DL FP16 Performance
124 NVIDIA DGX-1 Server Nodes
Most Energy Efficient Supercomputer
#1 on Green500 List
9.5 GFLOPS per Watt
2x More Efficient than Xeon Phi System
Rocket for Cancer Moonshot
CANDLE Development Platform
Optimized Frameworks
DGX-1 as Single Common Platform
INTRODUCING DGX SATURNV
World’s Most Efficient AI Supercomputer
To speed advances in the fight against cancer, the
Cancer Moonshot initiative unites the Department
of Energy, the National Cancer Institute and other
agencies with researchers at Oak Ridge, Lawrence
Livermore, Argonne, and Los Alamos National
Laboratories. NVIDIA is collaborating with the labs
to help accelerate their AI framework called
CANDLE as a common discovery platform, with
the goal of achieving 10X annual increases in
productivity for cancer researchers.
AI PLATFORM TO
ACCELERATE
CANCER RESEARCH
エヌビディア ディープラーニング プラットフォーム
COMPUTER VISION SPEECH AND AUDIO BEHAVIOR
Object Detection Voice Recognition Translation
Recommendation
Engines
Sentiment Analysis
DEEP LEARNING MATH LIBRARIES
cuBLAS cuSPARSE
GPU-INTERCONNECT
NCCLcuFFT
Mocha.jl
Image Classification
DEEP LEARNING
SDK
FRAMEWORKS
APPLICATIONS
GPU PLATFORM
CLOUD GPU
Tesla
P100
Tesla
K80/M40/M4
P100/P40/P4
Jetson TX1
SERVER
DGX-1
TensorRT
DRIVEPX2
68
DIGITS
69
DIGITSの医療画像への適用
DETECTION SEGMENTATION CLASSIFICATION
70
エヌビディアDIGITS
GPUで高速化されたディープラーニングトレーニング・システム
Test Image
学習過程の可視化モデルの作成学習データの作成 モデルのテスト
http://developer.nvidia.com/digits
71
DIGITS 5
• Image segmentation(領域分割)問題に対応!
• DetectNet+NVCaffeで物体検出の学習が可能に!
• 顔や人やその他のオブジェクトを検出するニューラルネットワーク
を学習する機能を提供
• ディープラーニング・モデルストア機能を追加!
• 様々なモデルのPre-trainedをダウンロード可能に
• DIGITSジョブのグループ機能など
•
物体検出タスクに対応した新しいDIGITS
72
イメージセグメンテーション(領域分割)
• Pascal-VOC形式の学習データとFCN(全畳込みニューラルネットワーク)を用いた領域分割のワー
クフローを実現。
• 領域分割のサンプルもDIGITSに付属(semantic-segmentation/medical-imaging)
• https://github.com/NVIDIA/DIGITS/tree/master/examples/semantic-segmentation
DIGITS5
Pascal-VOCデータを用いた領域分割の例
Cardiac MR Left Ventricle Segmentation Challenge
心臓の領域分割例
73
イメージセグメンテーション(領域分割)
• CNNの全結合層を畳込み層に置き換えたFCNを用いた領域分割
• https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf
DIGITS5
MII conference177 nvidia

MII conference177 nvidia