SlideShare a Scribd company logo
1 of 26
Download to read offline
Jetson Nano 味見してみた+
みよしたけふみ
いつものベンチマーク
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Rpi 3B+
Jetson Nano
Jetson TX2
図1: ラズパイ,Jetson Nano,Jetson TX2のUnixBenchによる性能比較結果.
ラズパイのスコアを1として正規化したスコア
0
10000000
20000000
30000000
40000000
50000000
60000000
70000000
80000000
90000000
Dhrystone2usingregistervariables
Dhrystone 2 using register variables
RaspberryPi
RaspberryPi1
RasbperryPi2(1)
RaspberryPi2(4)
RaspberryPi3(1.2GHz)
RaspberryPi3
RaspberryPi3(4core)
Rpi 3B+
Rpi 3B+ x4
Zybo
Dospara StickPC
DragonBoard 410c
Edison
Edison(2core)
Tinker Board
D525(1)
D525(4)
Jetson TX2
Jetson TX2 x4
Jetson Nano
Jetson Nano x4
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
Double-PrecisionWhetstone
Double-Precision Whetstone
RaspberryPi
RaspberryPi1
RasbperryPi2(1)
RaspberryPi2(4)
RaspberryPi3(1.2GHz)
RaspberryPi3
RaspberryPi3(4core)
Rpi 3B+
Rpi 3B+ x4
Zybo
Dospara StickPC
DragonBoard 410c
Edison
Edison(2core)
Tinker Board
D525(1)
D525(4)
Jetson TX2
Jetson TX2 x4
Jetson Nano
Jetson Nano x4
0
5000
10000
15000
20000
25000
1 2 3
Rpi 3B+
Jetson Nano
Jetson TX2
転送速度(MBps)
スレッド数
図2: ラズパイ,Jetson Nano,Jetson TX2のStreamによるメモリ転送性能の比較結果
0
5000
10000
15000
20000
25000
Triad
Triad
RaspberryPi
RaspberryPi3(2)
RaspberryPi3(3)
RaspberryPi3(4)
Zybo(1)
Zybo(2)
Dospara StickPC
Dospara StickPC(2)
Dospara StickPC(4)
DragonBoard 410c
DragonBoard 410c(2)
DragonBoard 410c(4)
D525(1)
D525(2)
D525(3)
D525(4)
Rpi 3B+
Rpi 3B+ x2
Rpi 3B+ x4
Jetson TX2
Jetson TX2 x2
Jetson TX2 x4
Jetson Nano
MBps
0
5000
10000
15000
20000
25000
30000
RaspberryPi3 B+
Jetson Nano
Jetson TX2
図3: ラズパイ,Jetson Nano,Jetson TX2のOctane 2.0による評価の比較結果
スコア(大きいほうがいい)
NN性能評価
0
20
40
60
80
100
120
Rpi 3B+ Rpi 3B+ (NNPACK) Jetson Nnao Jetson Nano(without
GPU)
Jetson TX2 Jetson TX2(without GPU)
0.14倍/
25.6秒
1倍/
3.57秒
47.2倍/
0.076秒
3.69倍/
0.97秒
112倍/
0.032秒
1.59倍/
2.25秒
JetsonNanoでGPUを使用しない場合を1として正規化した速度比
(大きいほうが高性能)
図4: ラズパイ,Jetson Nano,Jetson TX2でのDarknetを用いたYOLO v2による物体認識の実行時間の比較結果
https://pjreddie.com/darknet/
図5: TensorFlowチュートリアルのmnistの学習および推論の実行時間の比較
0
1
2
3
4
5
6
7
TensorFlow mnist learning TensorFlow mnist inference
RaspberryPi3 B+
Jetson Nano
Jetson TX2
Jetson Nano(without GPU)
Jetson TX2(without GPU)
ラズパイでの実行時間を1として正規化した速度比
(大きいほうが高性能)
545秒
114秒
89.7秒
165秒
113秒
5.63秒
1.57秒
0.954秒
1.97秒
1.22秒
図6: tf_cnn_benchmarkによる画像認識アプリケーションでの処理性能のJetson NanoとJetson TX2の比較結果
0
20
40
60
80
100
120
140
160
180
0 20 40 60 80 100 120 140
Jetson Nano
Jetson TX2
Jetson Nano(without GPU)
バッチサイズ
Images/sec.一秒あたりに推論可能な画像枚数.
大きいほうがよい
GPUの話
図7: GPUには小さなコアがたくさんつめこまれていて,同じ命令を一度に違うデータに適用できる.
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
...
同じ命令をそれぞ
れのデータに適用
できるコアが32個
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
同じ命令をそれぞ
れのデータに適用
できるコアが32個
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
...
同じ命令をそれぞ
れのデータに適用
できるコアが32個
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
同じ命令をそれぞ
れのデータに適用
できるコアが32個
GPU
図8: GPUでプログラムが並列実行される様子
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
i i+1 i+31
i i+1 i+31
i i+1 i+31
x
y
y
+
=
+= +
=
+
=
+
=
+
=
...
...
...
+
=
...
...
...
それぞれのコアがデータを分担して演算.
どう分担させるかを呼び出し時の <<< >>>
のパラメタで指定できる
GPU向けのプログラムの書き方
GPU向けのプログラムの書き方
図9: Jetson NanoのGPUの並列実行による処理時間を比較した結果
0
50
100
150
200
250
300
リスト2 リスト3 リスト4
系列1
201m秒
2.18m秒
0.721m秒
リスト2(並列化なし)の処理時間を1としたときの
処理速度性能比(大きいほうがいい)
図10: CUDAのサンプルnbody をベンチマークにGPUの処理性能を比較した結果
0
50
100
150
200
250
300
350
400
450
500
0 2000 4000 6000 8000 10000 12000 14000 16000 18000
Jetson Nano
Jetson Nano(without GPU)
Jetson TX2
Jetson TX2(without GPU)
GFLOPS(大きいほうが処理性能が高い)
写真2: nbodyの実行例
こういうのがとっても速くなって、すごい!
NumPyそっくりのCuPyというのがある
https://tutorials.chainer.org/ja/10_Introduction_to_CuPy.html
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
0 200 400 600 800 1000 1200
numpy
cupy
図11: Jetson NanoでNumPyとCuPyを使って行列とベクトルの演算をしたときの実行時間の比較結果
実行時間(秒).大きいほうが性能が低い.
行列とベクトルのサイズ
おまけ
Cq off 20190718
Cq off 20190718

More Related Content

More from Takefumi MIYOSHI

FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみたFPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみた
Takefumi MIYOSHI
 

More from Takefumi MIYOSHI (20)

Reconf 201901
Reconf 201901Reconf 201901
Reconf 201901
 
Hls friends 201803.key
Hls friends 201803.keyHls friends 201803.key
Hls friends 201803.key
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)
 
Hls friends 20161122.key
Hls friends 20161122.keyHls friends 20161122.key
Hls friends 20161122.key
 
Slide
SlideSlide
Slide
 
Synthesijer and Synthesijer.Scala in HLS-friends 201512
Synthesijer and Synthesijer.Scala in HLS-friends 201512Synthesijer and Synthesijer.Scala in HLS-friends 201512
Synthesijer and Synthesijer.Scala in HLS-friends 201512
 
Das 2015
Das 2015Das 2015
Das 2015
 
Microblaze loader
Microblaze loaderMicroblaze loader
Microblaze loader
 
Reconf 201506
Reconf 201506Reconf 201506
Reconf 201506
 
Synthesijer jjug 201504_01
Synthesijer jjug 201504_01Synthesijer jjug 201504_01
Synthesijer jjug 201504_01
 
Synthesijer zynq qs_20150316
Synthesijer zynq qs_20150316Synthesijer zynq qs_20150316
Synthesijer zynq qs_20150316
 
Synthesijer fpgax 20150201
Synthesijer fpgax 20150201Synthesijer fpgax 20150201
Synthesijer fpgax 20150201
 
Synthesijer hls 20150116
Synthesijer hls 20150116Synthesijer hls 20150116
Synthesijer hls 20150116
 
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
Reconf_201409
Reconf_201409Reconf_201409
Reconf_201409
 
FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみたFPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみた
 
Vyatta 201310
Vyatta 201310Vyatta 201310
Vyatta 201310
 
Fpgax 20130830
Fpgax 20130830Fpgax 20130830
Fpgax 20130830
 
Ptt391
Ptt391Ptt391
Ptt391
 

Cq off 20190718