More Related Content
More from Takefumi MIYOSHI (20)
Cq off 20190718
- 11. 0
20
40
60
80
100
120
Rpi 3B+ Rpi 3B+ (NNPACK) Jetson Nnao Jetson Nano(without
GPU)
Jetson TX2 Jetson TX2(without GPU)
0.14倍/
25.6秒
1倍/
3.57秒
47.2倍/
0.076秒
3.69倍/
0.97秒
112倍/
0.032秒
1.59倍/
2.25秒
JetsonNanoでGPUを使用しない場合を1として正規化した速度比
(大きいほうが高性能)
図4: ラズパイ,Jetson Nano,Jetson TX2でのDarknetを用いたYOLO v2による物体認識の実行時間の比較結果
https://pjreddie.com/darknet/
- 15. 図7: GPUには小さなコアがたくさんつめこまれていて,同じ命令を一度に違うデータに適用できる.
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
...
同じ命令をそれぞ
れのデータに適用
できるコアが32個
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
同じ命令をそれぞ
れのデータに適用
できるコアが32個
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
...
同じ命令をそれぞ
れのデータに適用
できるコアが32個
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
同じ命令をそれぞ
れのデータに適用
できるコアが32個
GPU
- 16. 図8: GPUでプログラムが並列実行される様子
命令制御
レジスタファイル
コア コア コア
コア コア コア
.
.
.
...
.
.
.
i i+1 i+31
i i+1 i+31
i i+1 i+31
x
y
y
+
=
+= +
=
+
=
+
=
+
=
...
...
...
+
=
...
...
...
それぞれのコアがデータを分担して演算.
どう分担させるかを呼び出し時の <<< >>>
のパラメタで指定できる