ACRi HLSチャレンジ高速化テクニック紹介

ACRi HLSチャレンジ高速化テクニック紹介
ACRiルーム副室長 / ザイリンクス株式会社
安藤潤
©︎ 2021 Adaptive Computing Research Initiative - ACRi 1
第 6 回 ACRi ウェビナー：高位合成にチャレンジしよう

ACRi HLS チャレンジとは？
• お題に沿った回路を HLS（高位合成）で設計し、
性能を競います
• HLS の活用促進
• ザイリンクス FPGA 向けの無償 HLS ツールを使用
• C++だけでFPGAアクセラレータの開発ができる
• HLS を学んでみたい方の練習の場
• 高速な回路の設計技術を共有する場
• ACRi ルームを活用

Alveo x 4
Professors
ACRi Founders
ACRi ルーム – 遠隔（東工大）に設置されたFPGAを無料で利用できる環境
3
• Digilent社 Arty A7-35T カード
• 1サーバにArtyを15枚接続
• ユーザ毎にVMを割り当て
ルーム FPGA Server
• CPU: Core i9 (8 core /16 thread)
• メモリ: DDR4 128GB (32GB x 4)
• ストレージ: SSD M.2 1TB x2
• 開発環境インストール済み
Arty A7-35T
• 3時間単位で機材を無償で貸出し
• リモートからアクセスして利用するスタイル
• Forumを通じて大学教員やACRi企業が技術支援を実施
• Xilinxアクセラレータカード
• Alveo U50 / U200 / U250 / U280
• Vitisで利用可能
Alveo
Server x 7
Arty x 100
Server x 4
ACRi
参加企業
一般企業
学生
若手技術者
Start-up企業
技術力向上
テスト利用
技術力向上
のため
技術力向上
テスト利用
• ジーデップ・アドバンス社 Alveo
U200 搭載のFPGA入門モデル
• CPU; Core i9 (14 core / 28 thread)
FPGA StarterBOX
StarterBOX
x 1

HLS チャレンジの利用方法
HLS チャレンジ
お題を選択
ACRi ルーム
ログイン
提出
採点
結果
ユーザー
コーディング・
仮採点
採点サーバーランキング
Vitis HLS
ツールサーバー
（as101, as102, as103, as104）

より詳しくは
• 詳しい利用方法は前回のウェビナー動画をご覧ください
https://www.youtube.com/watch?v=v9TfLoM7cIA

利用状況（2021/10/27時点）
• ユーザー数：70名
17
33
43
46
52
56
63
66
69 70
12
16
10
3 6 4 7 3 3 1
2021-08-23 2021-08-30 2021-09-06 2021-09-13 2021-09-20 2021-09-27 2021-10-04 2021-10-11 2021-10-18 2021-10-25
週毎のユーザー数
ユーザー数新規登録数

利用状況（2021/10/27時点）
• 提出数：631件
5 64
112
219
299
323
348
465
593
631
5 59 48
107
80
24 25
117 128
38
2021-08-23 2021-08-30 2021-09-06 2021-09-13 2021-09-20 2021-09-27 2021-10-04 2021-10-11 2021-10-18 2021-10-25
週毎の提出数
累計投稿数週の投稿数

利用状況（2021/10/27時点）
• チャレンジごとの提出数
19 25
2
110
10 12 15 11 14
36
12
19
68
96
24
0
10
1
31
7
11 3
0
4
5
4
3
29
41
9
Pass Fail
① 141件
③ 97件
② 137件

人気チャレンジ bai-gaeshi
• 投稿数：141件
• 配列の値を倍にして
返すシンプルなお題

bai-gaeshi の解答例
• 素直なソフトウェア実装
• 採点結果
• 動作周波数：599.9 MHz
• サイクル数：1219 cycles
• タイム：2032.073 ns

bai-gaeshi のランキング
68.6
219.6 242.0
399.6
550.3 607.7
1684.0
2032.1
2528.8
0
500
1,000
1,500
2,000
2,500
3,000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
タイム（ns）
ランキング
コードの記述方法によって36倍の差！
どのような高速化テクニックが使われているかご紹介します

採点の仕組み
テストベンチ
カーネル
（RTL）
in
size
out
カーネル
（C++）
② HLS ④ 論理合成
（オプション）
カーネル
（Netlist）
③ シミュレーション
① ソフト実行
周波数見積もり周波数見積もり
クロックサイクル

タイム算出の仕組み
入力
計算
出力
時刻
開始終了
レイテンシ
スループット-1
タイム = クロックサイクル / 動作周波数
クロック
タイムを短縮するには
・スループット向上
・レイテンシ削減
・動作周波数向上

スループットを向上するには
• 入出力と計算のバランスが取れていること
• 計算だけではなくインターフェースも重要
• インターフェースの帯域にマッチする演算器を作る
計算
入力
計算
入力出力出力
計算がボトルネックに
入出力がボトルネックに

HLS プラグマ
ドキュメント：https://japan.xilinx.com/html_docs/xilinx2021_1/vitis_doc/hls_pragmas.html#okr1504034364623
• どのような回路にしたいかツールに伝える手段
• 例：＃pragma HLS PIPELINE
ACRi ブログ：高位合成で加速するアクセラレータ開発 (2) ～高位合成と C ベース設計 1章より

高速化テクニック①
インターフェースのデータ幅を増やす
• bai-gaeshi の入出力は float 型（32ビット）の配列
• 引数の型は変更できない
• そのままでは32ビット幅のインターフェースを持つ回路になる
void kernel(const float in[1024], float out[1024], int size) {
for (int i=0; i<size; i++) {
#pragma HLS PIPELINE
out[i] = in[i] * 2;
}
}

• ツールによる推論を利用する
• まとまった単位で配列にアクセスすると、ツールが自動的に
インターフェースの幅を拡張する（512bitまで、条件あり）
// 16の倍数に切り上げ
size = (size + 15) / 16 * 16;
#pragma HLS UNROLL factor=16
out[i] = in[i] * 2;
}
}

• ツールによる推論を利用する（他の記述方法）
#pragma HLS UNROLL factor=16 skip_exit_check
out[i] = in[i] * 2;
}
}
const int chunk_size = 16;
const int num_chunk = (size + chunk_size - 1) / chunk_size;
for (int i=0; i<num_chunk; i++) {
float chunk[chunk_size];
// Input
for (int j=0; j<chunk_size; j++) {
chunk[j] = in[chunk_size * i + j];
}
// Calc
chunk[j] *= 2;
}
// Output
out[chunk_size * i + j] = chunk[j];
}
}
}
より明示的に記述 UNROLLプラグマのオプションを利用

高速化テクニック②
インターフェースを軽量化する
• 配列引数へのアクセスはデフォルトで
AXI-MMインターフェースになる（Vitis kernel flowのとき）
• 外部DRAMへのアクセスに相当するレイテンシが考慮される
FPGA
カーネル MC DRAM
リードコマンド
データ
AXI-MM

高速化テクニック②
インターフェースを軽量化する
• インターフェースをAXI-Sに変更する
• INTERFACEプラグマでインターフェースを指定
• ARRAY_PARTITIONプラグマでAXI-Sを並列化
// インターフェースを指定するプラグマ
#pragma HLS INTERFACE mode=axis port=in
#pragma HLS INTERFACE mode=axis port=out
// 配列アクセスポートを並列化するプラグマ
#pragma HLS ARRAY_PARTITION variable=in type=cyclic factor=16 dim=1
#pragma HLS ARRAY_PARTITION variable=out type=cyclic factor=16 dim=1
out[i] = in[i] * 2;
}
}
カーネル
AXI-S
AXI-S
AXI-S
AXI-S
AXI-S
AXI-S
AXI-S
AXI-S
AXI-S
AXI-S
…
…

高速化テクニック③
インターフェースへのアクセスを減らす
• 配列引数に繰り返しアクセスすると時間がかかる
• カーネル内に一時配列を作る（CPUのキャッシュに相当する役割）
FPGA
カーネル
MC DRAM
リードコマンド
データ
AXI-MM
キャッシュ
void kernel(const int in[1024], int out[1024]) {
// 一時配列
int tmp[1024];
// 入力
for (int i = 0; i < 1024; i++) { tmp[i] = in[i]; }
// バブルソート
for (int i = 0; i < 1024-1; i++) {
for (int j = 1024-1; j > i; j--) {
if (tmp[j] < tmp[j-1]) {
int t = tmp[j]; tmp[j] = tmp[j-1]; tmp[j-1] = t;
}
}
}
// 出力
for (int i = 0; i < 1024; i++) { out[i] = tmp[i]; }
}

高速化テクニック④
パイプラインのボトルネックを取り除く
• 浮動小数点数の累積演算がボトルネックに
• パイプラインの II（Initiation Interval）を 1 にできない状況
＋
2サイクル（II=2）
float acc = 0;
for (int i = 0; i < 1024; i++) {
acc += in[i];
}
*out = acc;
float acc[2] = {};
for (int i = 0; i < 1024; i++) {
acc[i % 2] += in[i];
}
*out = acc[0] + acc[1];
float acc = 0;
for (int i = 0; i < 1024; i += 2) {
acc += in[i] + in[i + 1];
}
*out = acc;
＋
＋
acc
in
＋
＋
＋
acc[0]
acc[1]
in[i+0]
in[i+1]
in[i+0]
in[i+1]
acc
累積演算を並列化足し合わせてから累積

さいごに
• 高速化テクニックをご紹介しました
1. インターフェースのデータ幅を増やす
2. インターフェースを軽量化する
3. インターフェースへのアクセスを減らす
4. パイプラインのボトルネックを取り除く
• 入門者の方へのアドバイス
• アーキテクチャを考えてコーディング
• ツールと対話しお気持ちを理解
• ぜひHLSにチャレンジしてみてください！

ACRi HLSチャレンジ高速化テクニック紹介

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ACRi HLSチャレンジ高速化テクニック紹介

Similar to ACRi HLSチャレンジ高速化テクニック紹介 (20)

Recently uploaded

Recently uploaded (8)