Abstracts of FPGA2017 papers (Temporary Version)

Abstracts of FPGA2017 papers
(暫定版)
読んだ人: みよしたけふみ
読んだ日: 6th March, 2017

Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural
Networks?
Intel 14nm Stratix10 FPGAを使ってDNNアクセラレータ作った
GEMMオペレーションを評価．Titan X Pascal GPUと比べて
pruendで10%
Int6で50%
Binarized DNNで5.4x
Ternary ResNetでTitan X Pascal GPUの
60%の性能
2.3xの性能/電力

Accelerating Binarized Convolutional Neural Networks with Software-
Programmable FPGAs
C++からの合成でBNNやってみた
SDSoC 2016.1
Zynq 7Z020
44.2 GOPS/W

Improving the Performance of OpenCL-based FPGA Accelerator for
Convolutional Neural Network
CNN classifier kernelのボトルネック部分を解析
オンチップメモリのバンド幅に着目
OpenCLで実装
VGGモデルベースのCNNをArria10で実装

Frequency Domain Acceleration of Convolutional Neural Networks on
CPU-FPGA Shared Memory System∗
畳み込み層の計算を減らすためにFFTとOverlap-and-Addを利用
共有メモリのデータレイアウトを工夫
VGG16, AlexNet, GoogLeNetを123.48GFLOPS, 83.00GFLOPS, 96.60GFLOPS
Intel Quick-Assist QPI FPGA Platformを使って評価

Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep
Convolutional Neural Networks
CNNの畳み込み層では3次元MACが4レベルのループになる
CNNのメモリアクセスなどの実対象を解析，最適化する必要がある
メモリアクセスとメモリ移動を最小化，リソース使用量と性能を最大化
Arria10GX1150に実装
VGG-16 CNNで645.25GOPS，47.97msレイテンシを達成
State-of-the-artの3.2x

An OpenCLTM Deep Learning Accelerator on Arria 10
OpenCL使ってデータ再利用と外部メモリバンド幅最小化を実現
Intel FPGA SDK for OpenCL
Deep Learning Accelerator(DLA)
AlexNetCNNベンチマークでArria10使って1020img/s，23img/s/W
-> 1382GFLOPSに相当（従来FPGAの8.4xのGFLOPS，5.8xの効率化）
23 img/s/WはnVidiaのTitanX GPUとcompetitive

FINN: A Framework for Fast, Scalable Binarized Neural Network
Inference
• FINN: 柔軟なヘテロジニアスストリーミングアーキテクチャを使って速く柔軟な
FPGAアクセラレータを構築するフレームワーク
• ZC706でトータル25Wのシステム
• MNISTで12.3M画像/sの分類．レイテンシ0.31us，精度95.8%
• CIFAR-10とSVHNの21906画像/sの分類．レイテンシ283us，精度はそれぞれ
801.%，94.9%

ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA
• Load-balance-aware pruning methodでLSTMモデルのサイズを1/20に
• 複数のPEに，圧縮モデルをエンコードと分割するスケジューラ
• Efficient Speech Recognition Engine(ESE)と命名
• XCKU060に実装．200MHzで動作．282GOPS．41W
• Core i7 5930kと比べて43x高速，電力効率40x
• Pascal Titan X GPUと比べて3x高速，電力効率11.5x

Quality-Time Tradeoffs in Component-Specific Mapping:
How to Train Your Dynamically Reconfigurable Array of Gates with Outrageous Network-
delays
• Component-specific適用
• A prioriなデバイスの特徴とカスタマイズなしでFPGA毎のマッピングをする
• 48-77%のディレイ，57%のエネルギー効率を20秒未満のマッピング時間で

Synchronization Constraints for Interconnect Synthesis
インタコネクト合成．データ転送のサイクルレベルの同期を自動的に．
FIFOベースより43%少ない面積使用量になる

Corolla: GPU-Accelerated FPGA Routing Based on Subgraph Dynamic
Expansion
A GPU-accelerated FPGA routing method
GPU向けのFPGA内の最短パスアルゴリズムの適用を可能にする
FPGAルーティングのカーネルはsingole-source shortest path(SSSP)ソルバーで
ある

Don’t Forget the Memory: Automatic Block RAM Modelling,
Optimization, and Architecture Exploration
BlockRAMを自動的に作る話
SRAMとMTJ技術の両方を使用
面積，電力を最適化

Automatic Construction of Program-Optimized FPGA Memory Networks
メモリレイテンシは設計時の重要ポイント
メモリネットワークの最適化が性能向上のカギ
フィードバックドリブンのネットワークコンパイラを設計した
45%の設計ゲインを達成
要はLEAPの話

NAND-NOR: A Compact, Fast, and Delay Balanced FPGA Logic Element
And-Inverter Cone(AIC)はLUTに対する代替として提案された
性能とリソースユーティリゼーションを向上
Delay discrepancy problemがある
設計手法が最適かされていない
→もっと最適なNAND-NORとdelay-balancedなdual-phasedなマルチプレクサなアー
キテクチャを提案するよ

120-core microAptiv MIPS Overlay for the Terasic DE5-NET FPGA board
120-core 94MHzのMIPSプロセッサを作った
軽量なメッセージパッシング機構で接続される
Stratix V GX (5SGXEA7N2F45C2)に実装

A Parallelized Iterative Improvement Approach to Area Optimization for
LUT-Based Technology Mapping
ロジックマッピングとデバイスマッピングにはギャップがある
PIMapを提案
面積を最小化すべくロジック変換とテクノロジーマッピングを反復的に行う
EPFLベンチに対して最大14%，平均で7%面積削減を達成

A Parallel Bandit-Based Approach for Autotuning FPGA Compilation
合成ツールオプションの自動チューニング
Multi-armed bandit(MAB)でオプションをチューニング

Hardware Synthesis of Weakly Consistent C Concurrency
Cからの高位合成でLock-freeアルゴリズム
LegUpにsequentially consistent(SC)とweakly consistent(weak) atmicsを導入
循環バッファの実装で，ロックありの場合と比べて2.5x高速化
Weak atomicsはさらに1.5xスピードアップ

A New Approach to Automatic Memory Banking using Trace-Based
Address Mining
TraceBankingを提案
Trace-drivenなアドレス最小化アルゴリズム
顔検出アルゴリズムに対してarea-efficientなメモリ分割を実現できた
コンパイルタイムの静的な最適化ではな
アクセスパタンを明示的に指定する必要がない

Dynamic Hazard Resolution for Pipelining Irregular Loops in High-Level
Synthesis
• HLSのパイプライニングは，規則的でスタティックなメモリアクセスパタンにはむい
ている -> infrequent data-dependent structuralには有効ではない
• イレギュラなループに対する高スループットのパイプライン化を実現する
• コンパイル時にハザードを解決したアグレッシブなパイプラインを生成
• Hazard Resolution Unit(HRU)を導入．D-HRU(data)とS-HUR(structure)

Accelerating Face Detection on Programmable SoC Using C-Based
Synthesis
• HLSは進化してるけど現実的なベンチマークが不足している
• Viola Jonesアルゴリズムベースの顔検出アクセラレータのケーススタディ
• ソフトウェアベースのデザインからHLS特化データ構造と最適化を使った合成可能な
実装への移植でわかったことをシェア
• このデザインは30FPSで，従来のRTL設計とcomparableである

Packet Matching on FPGAs Using HMC Memory: Towards One Million
Rules
• Hybrid Memory Cube(HMC)を使ったFPGAによるパケット分類
• プリフェッチでHMCアクセスレイテンシを隠蔽しメモリからマッチングエンジンにル
ールを転送
• Kintex Ultrascale 060に実装．160パケットを並列に処理．10Gbpsラインレートで
約1500ルールを，16Mbpsラインレートで1Mルールを処理

Boosting the Performance of FPGA-based Graph Processor using Hybrid
Memory Cube: A Case for Breadth First Search
• 巨大な実世界グラフを扱うのは難しい
• 単にフットプリントの問題だけでなくて，プアな局所性，アクセスレイテンシのため
• HMC使ってみた
• HMCアクセスレイテンシとBFS(幅優先探索)性能に対する
定量的な評価のための解析的な性能モデルを開発
• 2-level bitmap scheme
• MicronのAC-510開発キットで評価．
• GRAPH500ベンチマークで(スケール25/ファクタ16)で評価
• 166M edge traverced/s(MTEPS)を達成

ForeGraph: Exploring Large-scale Graph Processing on Multi-FPGA
Architecture
FPGAのオンチップメモリはランダムデータアクセスに高いスループット
単一のFPGAのオンチップメモリには制約がある
複数FPGAを使った大規模グラフ処理エンジンを提案
Xilinx Virtex UltraScale XVCU190(VCU110ボード)を使用
YT,WK,LJ,TW,YHグラフに対してBFS,PR,WCCを処理
TW(41.7M Vertecies, 1.47M Edge)は4FPGAで処理
State-of-the Art(PowerGraph)に対して5.04x高速化を達成
先行FPGAに対して平均スループットで2.03倍を達成

FPGA-Accelerated Transactional Execution of Graph Workloads
• 巨大グラフへのアクセスではメモリコンフリクトが起きる
• スケーラブルなコンフリクト検出を示す
• Intel Haswelとくらべて2倍の性能向上，
22倍のエネルギー効率
• FPGA Research Infrastructure Cloud[42]を利用
• http://www.openfabric.org

Enabling Flexible Network FPGA Clusters in a Heterogeneous Cloud
Data Center
• ヘテロジニアスクラウドデータセンタでnetwork FPGAクラスタを作るフレームワー
ク
• FPGAカーネルがどうつながるかの論理的なカーネル定義でFPGAクラスタが作られる
• OpenStackでマネジメントされる
• GbEでつながっている

Energy Efficient Scientific Computing on FPGAs using OpenCL
• Partial differential equations(PDE; 偏微分方程式) の効率的な実装が必要
• FPGAのデータ並列性でPDEソルバを
• HDLは難しいのでOpenCLで→でも難しい
• OpenCLを使ったPDEソルバのための一般的で最適化の特価した包括的なセットを提案

Secure Function Evaluation Using an FPGA Overlay Architecture
SFE向けのハードウェアアクセラレータ
一般的なリコンフィギャラブルハードウェア向きの粗粒度なFPGAオーバーレイアーキテクチャ

FPGA Acceleration for Computational Glass-Free Displays
FPGAアクセラレーションをつかったeyeglasses-freeディスプレイ
Sparse matrix-vector multiplication
L-BFGS iterative optimization algorithm
glass-freeディスプレイアプリケーションで12.78xの高速化

Hardware Acceleration of the Pair-HMM Algorithm for DNA Variant
Calling
Pair HMM forwardアルゴリズムのFPGAでの高速化
リング構造のPEでILPとデータ並列性を考慮して様々な構成をとる
C++ベースのCPU実行とくらべて487x高速，ハードウェア実装と比べて1.56x高速

Abstracts of FPGA2017 papers (Temporary Version)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Abstracts of FPGA2017 papers (Temporary Version)

Similar to Abstracts of FPGA2017 papers (Temporary Version) (20)

More from Takefumi MIYOSHI

More from Takefumi MIYOSHI (20)

Abstracts of FPGA2017 papers (Temporary Version)