オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム

オープンソースコンパイラNNgenでつくる
エッジ・ディープラーニングシステム
東京大学大学院情報理工学系研究科
コンピュータ科学専攻准教授
JSTさきがけ
高前田伸也

2
高前田伸也
たかまえだしんや
東京大学
大学院情報理工学系研究科
コンピュータ科学専攻准教授
（理学部情報科学科兼担）
JST さきがけ研究者
専門分野コンピュータアーキテクチャ
「素敵」なコンピュータの構造や設計技術、
コンピュータそのものの在り方について
研究しています
• 高位合成コンパイラ
• FPGAシステム
• アルゴリズム/ハードウェア協調設計
• 機械学習処理の高速化
オープンソースソフトウェアの開発にも
力を入れています
• NNgen: github.com/NNgen/nngen
• Veriloggen: github.com/PyHDI/veriloggen
• Pyverilog: github.com/PyHDI/Pyverilog
Twitter / GitHub
shtaxxx

Co-design
for Nice Computer System
Nice is …
ü High Speed
ü Low Power and Energy
ü Reliable and Dependable
ü FunJ
高前田研究室
CASYS (Computer Architecture and Systems Lab.)
Software
Compiler for Machine Learning Acceleration
Compiler for Hardware Design
Hardware / Architecture
Machine Learning Chip
Annealing Processor
FPGA Accelerator
Application / Algorithm
Machine Learning / Deep Learning
Combinatorial Optimization
Image Processing

Hardware / Architecture
SRAM
Register
Dec.
SRAM
Dec.
Register
Processing Units
Processing Units
Outgoing Weights
Incoming Weights
PIM (Processing-in-Memory)
Neuron
ID
Neuron
ID
Input
Neuron
Output
Neuron
PE Array
W_MEM
A_MEM
DMAC
TCI
I/F
O_MEM
B_MEM
Sequencer
μ
Controller
Inst.
Mem.
Sync.
Table
Neighbor Link (n/e/w/s)
Global Network
Core
From W_MEM
From
A_MEM
From B_MEM
PE Column
O
: Linear
: Log
PE0
ACT
FF0
FF1
PE1
FF31
PE31
20
20
32
1
32
1
1
1
Processing Elements
(MAC Array)
Input Buffer
Weight
Buffer
Output Buffer
Data
Mover
(DMA)
DRAM
Controller
Predictor
Deep Learning Accelerator Chip
BRein Memory: In-Memory
Binary Neural Network Chip
QUEST: Log-Quantized
Neural Network Chip
Deep Learning Accelerator Architecture
Dead
Neuron
Predictor
Dead
Neuron
Predictor
Dead
Neuron
Predictor
Main Graph
Predictor
Dead Neuron Prediction:
Runtime Neuron Pruning Architecture
FPGA Accelerator
Multi-FPGA based
Parallel Computer
Low-Power
Cloud Computing
Edge Computing

Application / Algorithm Software
Original Binary Binary w/ Dither
O
ut Ch
Pseudo Color on Binary
Neural Network by
Error Diffusion
Dither NN: Accurate Binary Neural Network
by Error Diffusion
DeltaNet: Accurate Binary Neural Network
by Neighbor Comparison
Σ f
Σ f
Σ f
Σ f
Σ f
Σ f
Σ f
Σ f
f
f
Σ
Σ
Σ
Σ
f
f
0 f
f
Σ
Σ
Σ
Σ
f
f
0
DeltaNet
Standard
Binary Net
Comparison-based
activation keeps the
partial order information
of neurons on Binary NN
Veriloggen: Multi-paradigm Hardware Synthesis
Compiler on Python
Veriloggen.Core (RTL)
ハードウェアメタプログラミング
Thread
RAM
Thread
RAM
Stream
データフロー型
高位合成
Stream
Computing
Unit
Thread
Python-to-FSM
高位合成
Stream
Control
Thread Bus + DMA
(AXI4 Master/Slave)
AXI4 Interconnect DRAM
CPU
RTL
Control
Intrinsic
RTL
埋め込み
RTL
Control DMA Control
DMA Burst Transfer
NNgen: Neural Network Hardware Synthesis
Compiler for FPGAs
You can develop a model-specific
hardware from neural network
definition without hardware
description

最近の研究:
セキュアな不揮発性メモリのクラッシュ一貫性支援
6
新しい不揮発性メモリ (NVM)
次世代のメモリ技術として注目
JDRAM並の速度、SSDと同じ永続性
Lセキュリティ、クラッシュ一貫性
現状: 別々に研究されてきた
→しかし、実用上は両者の考慮が重要
セキュアなNVMではクラッシュ一貫性実現の
ボトルネックが実は異なることを示し
最適化アーキテクチャを提案
レジスタ
キャッシュ
DRAM
NVM
SSD
HDD
オンチップ
主記憶
二次記憶
揮発性
不揮発性
Intel Optane Persistent Memory (2019~)

最近の研究:
画像処理用のFPGAアクセラレータの小規模化
Bilateral Filter
l エッジを保持したまま平滑化ができるフィルタ
Bilateral Grid
l Bilateral Filterの近似手法の一つ、ウィンドウ半径に応じて計算量・
回路規模が増大するのを抑制できる
l FPGAに適した小型かつ高速なアクセラレータを実現
7
ノイズの乗った画像 Bilateral Filter で
処理した画像
Gaussian Filter で
処理した画像

最近の研究:
不確実性を評価できる機械学習の高速化
Bayesian Neural Network
l 重みが分布であるニューラルネットワーク
Ø 不確実性評価・少ないデータでの学習・過学習対策
ASBNN
l サンプリングベースの変分推論を近似により
計算省略し高速化するアルゴリズムとアーキテクチャを開発
8
近似しても
ほぼ同様の結果
ベースライン ASBNN

Edge Computing with “Intelligence of Things”
Cloud Computing
膨大なデータに基づく推論・制御J
情報送信から判断までの遅延大L
Edge computing
低遅延・リアルタイムな制御J
電力・計算能力の制約L
より高度な処理を
反射神経のように行うための
省エネルギー・高性能な
深層学習エッジデバイスが必要
9

Neural Network
パーセプトロン (Perceptron)
l 入力値に係数を乗算・総和、活性化関数を経て出力
ディープニューラルネットワーク (Deep Neural Network)
l 多層に積層したもの: 「畳み込み層」や「全結合層」などで構成
10
y = f (u)
u = wi xi
i=0
n
∑
x1
x2
x3
y
w1
w2
w3
f(u)
Perceptron
畳み込み (Convolution) 全結合 (Fully-connected)

Convolutionの計算パターン
11
N
M
K
K
M
R
C
Tr
Tc
N
C-S+K
Tn
Tm
入力
チャネル
出力チャネル
Tn: 入力チャネル方向
Tm: 出力チャネル方向
Tr, Tc: 出力画素方向
Tk: 重みフィルタ方向
5種類の方向に並列演算可能
各並列方向に対して最適解を求める
for m in 出力チャネル(M):
for n in 入力チャネル(N):
for r in 出力行(R)：
for c in 出力列(C)：
for k in 重み(K):
並列化
Tk
Tk

FPGA
(Field Programmable Gate Array)
ユーザーが回路構成を変更できる
やわらかいハードウェア
l アプリに特化した回路で処理をするので
高速、低消費電力
AND, OR, NOTなどの論理と記憶素子
の組み合わせを設計する
l ハードウェア記述言語 (HDL)
Ø 自分で詳細設計をするので大変
l 高位合成 (High Level Synthesis)
Ø Cなどのプログラミング言語で
動作・構造を設計するので効率的（なはず）
12
SB
CB
CB
LB
SB
CB
CB
LB
SB
CB
CB
LB
SB
CB
SB
CB
CB
LB
SB
CB
CB
LB
SB
CB
CB
LB
SB
CB
SB
CB
CB
LB
SB
CB
CB
LB
SB
CB
CB
LB
SB
CB
SB
CB
SB
CB
SB
CB
SB
IOB
IOB
IOB
IOB
IOB
IOB
IOB
IOB
IOB
IOB
IOB
IOB
FPGA

FPGAに基づくSystem on Chip
SoC FPGA
Programmable Logic
On-chip
Interconnect
(AMBA
AXI4)
CPU
NW
DRAM
Ctrl
GPU
Soft CPU
BRAM DSP
DNN Processor
BRAM
DSP
BRAM
DSP
DSP DSP
BRAM BRAM
Camera
Camera
Image
Processor
BRAM
DSP
Mortar
Mortar
Controller
GPIO
Pin
GPIO
Controller
DRAM
All-in-oneなシステム
13

FPGAに基づくSystem on Chip
SoC FPGA
Programmable Logic
On-chip
Interconnect
(AMBA
AXI4)
CPU
NW
DRAM
Ctrl
GPU
Soft CPU
BRAM DSP
DNN Processor
BRAM
DSP
BRAM
DSP
DSP DSP
BRAM BRAM
Camera
Camera
Image
Processor
BRAM
DSP
Mortar
Mortar
Controller
GPIO
Pin
GPIO
Controller
DRAM
他の機能の性能や資源量を考慮して
適切なアクセラレータ構成を決定したい
I/Oに直接アクセスできるため
低遅延処理が実現可能
14

NNgen: DNNモデル特化
HW高位合成コンパイラ
DNNモデル記述から
モデルに特化したFPGA用回路を
自動生成する高位合成コンパイラ
https://github.com/NNgen/nngen
l 入力（モデル記述）
Ø Tensorflow-like NNgen dataflow
Ø ONNX (Pytorch等から変換)
l 出力
Ø Verilog HDL, IP-XACT
ハードウェアの知識がなくても
DNNシステムが作れる
15

Import NNgen
placeholder, variable, constant
16

conv2d (w/ ReLU)
placeholder
variable
17

conv2d
max_pool
placeholder
variable
18

conv2d
placeholder
variable
max_pool
reshape
matmul (FC)
19

モデルデータフロー
ハードウェア構成の指定
（並列度、RAM容量、等）
20

モデルデータフロー
モデルからHWへ
21

22
学習済みモデルの
ダウンロード
ONNX形式に変換
ONNX形式から
NNgen形式へ

24
HW化
HW等価なSWとして
データフローを実行して動作検証

ベンダー開発ツールを用いたFPGA実装
Xilinx Vivadoの場合
l IP-XACTのIPコアをインポートして接続するだけ
25
NNgen IPコアをAXI4バスに接続

NNgen-DNNアーキテクチャ
26
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
Parallel: 3x3x4x4x2x2
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
NNgen Accelerator IP-core (IP-XACT)
DRAM
出現OPに対応するストリーム演算器

27
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
各OPで再利用される細粒度演算器群

28
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
演算器間を接続するカスタムNoC

29
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
オンチップRAM

30
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
演算器・RAM間カスタムNoC

31
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
データ転送機構（AXI4-Master + DMA）

32
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
トップレベル制御FSM
ストリーム演算制御FSM
トップFSMが動的に設定
する動作パラメータ

33
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
外部制御インターフェース

NNgen-DNNマイクロアーキテクチャ (conv2d)
34
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
Acc
Acc
Acc
Acc
Out
BRAM
8x4-bit
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
Bias
BRAM
8x4-bit
rshift
rshift
rshift
Add
Add
Add
Add
Mul
Mul
Mul
Mul
rshift
rshift
rshift
rshift
Scale
BRAM
8x4-bit
OutCh 0
OutCh 1
OutCh 2
OutCh 3
InCh 0
InCh 1
InCh 2
InCh 3
ReLU
ReLU
ReLU
ReLU
Pixel 0
Act (3, 3)
BRAM
8x4-bit
Act (1,1)
BRAM
8x4-bit
2-stage Xbar
: Substream

35
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
Acc
Acc
Acc
Acc
Out
BRAM
8x4-bit
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
Bias
BRAM
8x4-bit
rshift
rshift
rshift
Add
Add
Add
Add
Mul
Mul
Mul
Mul
rshift
rshift
rshift
rshift
Scale
BRAM
8x4-bit
OutCh 0
OutCh 1
OutCh 2
OutCh 3
InCh 0
InCh 1
InCh 2
InCh 3
ReLU
ReLU
ReLU
ReLU
Pixel 0
Act (3, 3)
BRAM
8x4-bit
Act (1,1)
BRAM
8x4-bit
2-stage Xbar
: Substream
オンチップRAM

36
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
Acc
Acc
Acc
Acc
Out
BRAM
8x4-bit
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
Bias
BRAM
8x4-bit
rshift
rshift
rshift
Add
Add
Add
Add
Mul
Mul
Mul
Mul
rshift
rshift
rshift
rshift
Scale
BRAM
8x4-bit
OutCh 0
OutCh 1
OutCh 2
OutCh 3
InCh 0
InCh 1
InCh 2
InCh 3
ReLU
ReLU
ReLU
ReLU
Pixel 0
Act (3, 3)
BRAM
8x4-bit
Act (1,1)
BRAM
8x4-bit
2-stage Xbar
: Substream
乗算器 (Substreamプールより)

37
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
Acc
Acc
Acc
Acc
Out
BRAM
8x4-bit
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
Bias
BRAM
8x4-bit
rshift
rshift
rshift
Add
Add
Add
Add
Mul
Mul
Mul
Mul
rshift
rshift
rshift
rshift
Scale
BRAM
8x4-bit
OutCh 0
OutCh 1
OutCh 2
OutCh 3
InCh 0
InCh 1
InCh 2
InCh 3
ReLU
ReLU
ReLU
ReLU
Pixel 0
Act (3, 3)
BRAM
8x4-bit
Act (1,1)
BRAM
8x4-bit
2-stage Xbar
: Substream
加算ツリー (Substreamプールより)

38
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
Acc
Acc
Acc
Acc
Out
BRAM
8x4-bit
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
Bias
BRAM
8x4-bit
rshift
rshift
rshift
Add
Add
Add
Add
Mul
Mul
Mul
Mul
rshift
rshift
rshift
rshift
Scale
BRAM
8x4-bit
OutCh 0
OutCh 1
OutCh 2
OutCh 3
InCh 0
InCh 1
InCh 2
InCh 3
ReLU
ReLU
ReLU
ReLU
Pixel 0
Act (3, 3)
BRAM
8x4-bit
Act (1,1)
BRAM
8x4-bit
2-stage Xbar
: Substream
積算器 (Substreamプールより)

39
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
Acc
Acc
Acc
Acc
Out
BRAM
8x4-bit
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
Bias
BRAM
8x4-bit
rshift
rshift
rshift
Add
Add
Add
Add
Mul
Mul
Mul
Mul
rshift
rshift
rshift
rshift
Scale
BRAM
8x4-bit
OutCh 0
OutCh 1
OutCh 2
OutCh 3
InCh 0
InCh 1
InCh 2
InCh 3
ReLU
ReLU
ReLU
ReLU
Pixel 0
Act (3, 3)
BRAM
8x4-bit
Act (1,1)
BRAM
8x4-bit
2-stage Xbar
: Substream
正規化回路 (Substreamプールより)

40
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Mul
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
Weight
BRAM
16x4-bit
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
AddTree
(4x3x3
input)
Acc
Acc
Acc
Acc
Out
BRAM
8x4-bit
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
rshift
Bias
BRAM
8x4-bit
rshift
rshift
rshift
Add
Add
Add
Add
Mul
Mul
Mul
Mul
rshift
rshift
rshift
rshift
Scale
BRAM
8x4-bit
OutCh 0
OutCh 1
OutCh 2
OutCh 3
InCh 0
InCh 1
InCh 2
InCh 3
ReLU
ReLU
ReLU
ReLU
Pixel 0
Act (3, 3)
BRAM
8x4-bit
Act (1,1)
BRAM
8x4-bit
2-stage Xbar
: Substream
活性化関数 (Substreamプールより)

NNgenの特徴
モデルに特化したアクセラレータを生成する
l モデル毎に異なる演算器アレイと制御回路を生成する
パラメータを変更することでアクセラレータ構成が変わる
l データ型（ビット幅）
Ø ng.intX (X = 1, 2, 4, 8, 16, 32, 64)
Ø ng.uintX (X = 1, 2, 4, 8, 16, 32, 64)
l 並列度: conv2dの場合
Ø par_ich: 入力チャネル方向の並列度 (1, 2, 4, 8, ...)
Ø par_och: 出力チャネル方向の並列度 (1, 2, 4, 8, ...)
Ø par_col: 行内の並列度 (1, 2, 4, 8, ...)
Ø par_row: 行数の並列度 (1, 2, 4, 8, ...)
→DNNモデルから要件に応じた異なるハードウェアが生成可能
41

NNgenのバックエンド: マルチパラダイム型
ハードウェア設計フレームワークVeriloggen
https://github.com/PyHDI/veriloggen
42
Veriloggen.Core (RTL)
Hardware Metaprogramming
Thread
RAM
Thread
RAM
Stream
Dataflow HLS
Stream
Computing
Unit
Thread
Python-to-FSM
HLS
Stream
Control
Thread Bus + DMA
(AXI4 Master/Slave)
AXI4 Interconnect DRAM
CPU
RTL
Control
Intrinsic
RTL
Embedding
RTL
Control DMA Control
DMA Burst Transfer

Veriloggen as Hardware Construction Language:
トップモジュール・制御回路
43
verilog.py
トップモジュール
クロック信号、リセット信号
AXI-Masterインターフェース + DMAコントローラ
AXI-Slaveインターフェース
+ 制御レジスタ

Veriloggen as High-Level Synthesis Language:
データフロー表現 (Stream) による演算回路
44
pool.py
Stream入力
pool演算

回路共有: オペレータ回路全体
各オペレータは同一性を判断するためのハッシュ値を持つ
l ハッシュ値が同一ならオペレータ回路 (Stream) を共有する
45
conv2d.py
pool.py

回路共有: 演算器、RAM
演算器（乗算器等）とRAMは異なるオペレータ回路で共有
l 演算器 (Substream) とRAMの要件を宣言する
46
CPU
Substream Pool
Computing Unit Pool
RAM Pool
Mul Mul Mul Mul
Mul Mul Mul Mul
Mul Mul Mul Mul
Acc Acc Acc Acc
AddTree AddTree
AddTree AddTree
conv2d 3x3
max_pool 2x2
Parallel: 4
matmul
Parallel: 4x4
Thread
Arg
Stream
Thread
Arg
Stream
Thread
Arg
Stream
Main Thread
Substream
Interconnect
BRAM
Width:
8x4-bit
BRAM
Width:
8x4-bit
BRAM
Memory
Interconnect
DMA
Interconnect
DMA
Controller
AXI4
Master
I/F
AXI4
Slave
I/F
Config Register
AXI4
Interconnect
DRAM
共有RAMプール共有演算器プール
pool.py

ONNX Importer: Conv
47
ソース側の
ONNXノードを
先に変換する
レイアウトをNNgen形式
(NHWC) に変換
BatchNormの結合
NNgenオペレータ
の生成
パッドと
ストライドの
計算
レイアウト情報
の保持

ONNX Importer: Concat
48
ソース側の
ONNXノードを
先に変換する
ONNXレイアウトとNNgenレイアウトの対応関係を作成
結合軸 (axis) の変換
NNgenオペレータの生成

ACRiのNNgenのチュートリアル:
https://www.acri.c.titech.ac.jp/wordpress/archives/5576
NNgenを用いて
Ultra96V2上に
DNNアクセラレータを
つくるチュートリアル
l DNNモデルからRTLへ
l 学習済みモデル量子化
l PYNQによる制御
49

NNgenで「できること」
基本的なレイヤー/モデルのハードウェア化
l レイヤー: conv2d, matmul, max_pool, add, concat, slice, batchnorm, ...
l モデル: VGG, ResNet, ...
ハードウェア処理中へのソフトウェア処理の挿入
l Externレイヤー: 割り込みを発生させ途中処理をSWに委任
パラメータ指定による並列化・最適化
l データ型、並列度、メモリサイズ
学習済みモデルの任意ビット幅への量子化 (Post-training Quantization)
l 入力データの統計量に基づき、スケーリング、ビットシフト量を自動決定
ONNXを介した学習済みモデルのハードウェア化
l torchvision等の学習済みモデルがNo RTLでハードウェア化可能
57

NNgenで「できるようにしたいこと」
ハードウェア指向レイヤーのサポート
l Depth-wise Convolution, Grouped Convolution, ...
スパースなレイヤーのサポート
l PruningされたConv, FCの効率的な実行機構: CSC/CSR形式への対応、演算スキップ
予測に基づく計算スキップ機構のサポート
l Dead Neural Prediction
ベイジアンニューラルネットワークのサポート
l 信頼できるAIシステムの実現を支援
回路資源の効率化と大規模な並列化
l 異なる性質のオペレータ同士の回路共有: カーネルサイズが異なるConvの共有化を実装中
l 並列度に対して回路資源の増加が少ないスケーラブルなアーキテクチャ
58
大小関わらず、みなさまからのPull-requestをお待ちしています！
当研究室との産学連携・共同研究の提案もお待ちしています！

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム

Similar to オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム (20)

More from Shinya Takamaeda-Y

More from Shinya Takamaeda-Y (20)

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム