SlideShare a Scribd company logo
1 of 31
Abstracts of FPGA2017 papers
(暫定版)
読んだ人: みよしたけふみ
読んだ日: 6th March, 2017
Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural
Networks?
Intel 14nm Stratix10 FPGAを使ってDNNアクセラレータ作った
GEMMオペレーションを評価.Titan X Pascal GPUと比べて
pruendで10%
Int6で50%
Binarized DNNで5.4x
Ternary ResNetでTitan X Pascal GPUの
60%の性能
2.3xの性能/電力
Accelerating Binarized Convolutional Neural Networks with Software-
Programmable FPGAs
C++からの合成でBNNやってみた
SDSoC 2016.1
Zynq 7Z020
44.2 GOPS/W
Improving the Performance of OpenCL-based FPGA Accelerator for
Convolutional Neural Network
CNN classifier kernelのボトルネック部分を解析
オンチップメモリのバンド幅に着目
OpenCLで実装
VGGモデルベースのCNNをArria10で実装
Frequency Domain Acceleration of Convolutional Neural Networks on
CPU-FPGA Shared Memory System∗
畳み込み層の計算を減らすためにFFTとOverlap-and-Addを利用
共有メモリのデータレイアウトを工夫
VGG16, AlexNet, GoogLeNetを123.48GFLOPS, 83.00GFLOPS, 96.60GFLOPS
Intel Quick-Assist QPI FPGA Platformを使って評価
Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep
Convolutional Neural Networks
CNNの畳み込み層では3次元MACが4レベルのループになる
CNNのメモリアクセスなどの実対象を解析,最適化する必要がある
メモリアクセスとメモリ移動を最小化,リソース使用量と性能を最大化
Arria10GX1150に実装
VGG-16 CNNで645.25GOPS,47.97msレイテンシを達成
State-of-the-artの3.2x
An OpenCLTM Deep Learning Accelerator on Arria 10
OpenCL使ってデータ再利用と外部メモリバンド幅最小化を実現
Intel FPGA SDK for OpenCL
Deep Learning Accelerator(DLA)
AlexNetCNNベンチマークでArria10使って1020img/s,23img/s/W
-> 1382GFLOPSに相当(従来FPGAの8.4xのGFLOPS,5.8xの効率化)
23 img/s/WはnVidiaのTitanX GPUとcompetitive
FINN: A Framework for Fast, Scalable Binarized Neural Network
Inference
• FINN: 柔軟なヘテロジニアスストリーミングアーキテクチャを使って速く柔軟な
FPGAアクセラレータを構築するフレームワーク
• ZC706でトータル25Wのシステム
• MNISTで12.3M画像/sの分類.レイテンシ0.31us,精度95.8%
• CIFAR-10とSVHNの21906画像/sの分類.レイテンシ283us,精度はそれぞれ
801.%,94.9%
ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA
• Load-balance-aware pruning methodでLSTMモデルのサイズを1/20に
• 複数のPEに,圧縮モデルをエンコードと分割するスケジューラ
• Efficient Speech Recognition Engine(ESE)と命名
• XCKU060に実装.200MHzで動作.282GOPS.41W
• Core i7 5930kと比べて43x高速,電力効率40x
• Pascal Titan X GPUと比べて3x高速,電力効率11.5x
Quality-Time Tradeoffs in Component-Specific Mapping:
How to Train Your Dynamically Reconfigurable Array of Gates with Outrageous Network-
delays
• Component-specific適用
• A prioriなデバイスの特徴とカスタマイズなしでFPGA毎のマッピングをする
• 48-77%のディレイ,57%のエネルギー効率を20秒未満のマッピング時間で
Synchronization Constraints for Interconnect Synthesis
インタコネクト合成.データ転送のサイクルレベルの同期を自動的に.
FIFOベースより43%少ない面積使用量になる
Corolla: GPU-Accelerated FPGA Routing Based on Subgraph Dynamic
Expansion
A GPU-accelerated FPGA routing method
GPU向けのFPGA内の最短パスアルゴリズムの適用を可能にする
FPGAルーティングのカーネルはsingole-source shortest path(SSSP)ソルバーで
ある
Don’t Forget the Memory: Automatic Block RAM Modelling,
Optimization, and Architecture Exploration
BlockRAMを自動的に作る話
SRAMとMTJ技術の両方を使用
面積,電力を最適化
Automatic Construction of Program-Optimized FPGA Memory Networks
メモリレイテンシは設計時の重要ポイント
メモリネットワークの最適化が性能向上のカギ
フィードバックドリブンのネットワークコンパイラを設計した
45%の設計ゲインを達成
要はLEAPの話
NAND-NOR: A Compact, Fast, and Delay Balanced FPGA Logic Element
And-Inverter Cone(AIC)はLUTに対する代替として提案された
性能とリソースユーティリゼーションを向上
Delay discrepancy problemがある
設計手法が最適かされていない
→もっと最適なNAND-NORとdelay-balancedなdual-phasedなマルチプレクサなアー
キテクチャを提案するよ
120-core microAptiv MIPS Overlay for the Terasic DE5-NET FPGA board
120-core 94MHzのMIPSプロセッサを作った
軽量なメッセージパッシング機構で接続される
Stratix V GX (5SGXEA7N2F45C2)に実装
A Parallelized Iterative Improvement Approach to Area Optimization for
LUT-Based Technology Mapping
ロジックマッピングとデバイスマッピングにはギャップがある
PIMapを提案
面積を最小化すべくロジック変換とテクノロジーマッピングを反復的に行う
EPFLベンチに対して最大14%,平均で7%面積削減を達成
A Parallel Bandit-Based Approach for Autotuning FPGA Compilation
合成ツールオプションの自動チューニング
Multi-armed bandit(MAB)でオプションをチューニング
Hardware Synthesis of Weakly Consistent C Concurrency
Cからの高位合成でLock-freeアルゴリズム
LegUpにsequentially consistent(SC)とweakly consistent(weak) atmicsを導入
循環バッファの実装で,ロックありの場合と比べて2.5x高速化
Weak atomicsはさらに1.5xスピードアップ
A New Approach to Automatic Memory Banking using Trace-Based
Address Mining
TraceBankingを提案
Trace-drivenなアドレス最小化アルゴリズム
顔検出アルゴリズムに対してarea-efficientなメモリ分割を実現できた
コンパイルタイムの静的な最適化ではな
アクセスパタンを明示的に指定する必要がない
Dynamic Hazard Resolution for Pipelining Irregular Loops in High-Level
Synthesis
• HLSのパイプライニングは,規則的でスタティックなメモリアクセスパタンにはむい
ている -> infrequent data-dependent structuralには有効ではない
• イレギュラなループに対する高スループットのパイプライン化を実現する
• コンパイル時にハザードを解決したアグレッシブなパイプラインを生成
• Hazard Resolution Unit(HRU)を導入.D-HRU(data)とS-HUR(structure)
Accelerating Face Detection on Programmable SoC Using C-Based
Synthesis
• HLSは進化してるけど現実的なベンチマークが不足している
• Viola Jonesアルゴリズムベースの顔検出アクセラレータのケーススタディ
• ソフトウェアベースのデザインからHLS特化データ構造と最適化を使った合成可能な
実装への移植でわかったことをシェア
• このデザインは30FPSで,従来のRTL設計とcomparableである
Packet Matching on FPGAs Using HMC Memory: Towards One Million
Rules
• Hybrid Memory Cube(HMC)を使ったFPGAによるパケット分類
• プリフェッチでHMCアクセスレイテンシを隠蔽しメモリからマッチングエンジンにル
ールを転送
• Kintex Ultrascale 060に実装.160パケットを並列に処理.10Gbpsラインレートで
約1500ルールを,16Mbpsラインレートで1Mルールを処理
Boosting the Performance of FPGA-based Graph Processor using Hybrid
Memory Cube: A Case for Breadth First Search
• 巨大な実世界グラフを扱うのは難しい
• 単にフットプリントの問題だけでなくて,プアな局所性,アクセスレイテンシのため
• HMC使ってみた
• HMCアクセスレイテンシとBFS(幅優先探索)性能に対する
定量的な評価のための解析的な性能モデルを開発
• 2-level bitmap scheme
• MicronのAC-510開発キットで評価.
• GRAPH500ベンチマークで(スケール25/ファクタ16)で評価
• 166M edge traverced/s(MTEPS)を達成
ForeGraph: Exploring Large-scale Graph Processing on Multi-FPGA
Architecture
FPGAのオンチップメモリはランダムデータアクセスに高いスループット
単一のFPGAのオンチップメモリには制約がある
複数FPGAを使った大規模グラフ処理エンジンを提案
Xilinx Virtex UltraScale XVCU190(VCU110ボード)を使用
YT,WK,LJ,TW,YHグラフに対してBFS,PR,WCCを処理
TW(41.7M Vertecies, 1.47M Edge)は4FPGAで処理
State-of-the Art(PowerGraph)に対して5.04x高速化を達成
先行FPGAに対して平均スループットで2.03倍を達成
FPGA-Accelerated Transactional Execution of Graph Workloads
• 巨大グラフへのアクセスではメモリコンフリクトが起きる
• スケーラブルなコンフリクト検出を示す
• Intel Haswelとくらべて2倍の性能向上,
22倍のエネルギー効率
• FPGA Research Infrastructure Cloud[42]を利用
• http://www.openfabric.org
Enabling Flexible Network FPGA Clusters in a Heterogeneous Cloud
Data Center
• ヘテロジニアスクラウドデータセンタでnetwork FPGAクラスタを作るフレームワー
ク
• FPGAカーネルがどうつながるかの論理的なカーネル定義でFPGAクラスタが作られる
• OpenStackでマネジメントされる
• GbEでつながっている
Energy Efficient Scientific Computing on FPGAs using OpenCL
• Partial differential equations(PDE; 偏微分方程式) の効率的な実装が必要
• FPGAのデータ並列性でPDEソルバを
• HDLは難しいのでOpenCLで→でも難しい
• OpenCLを使ったPDEソルバのための一般的で最適化の特価した包括的なセットを提案
Secure Function Evaluation Using an FPGA Overlay Architecture
SFE向けのハードウェアアクセラレータ
一般的なリコンフィギャラブルハードウェア向きの粗粒度なFPGAオーバーレイアーキテクチャ
FPGA Acceleration for Computational Glass-Free Displays
FPGAアクセラレーションをつかったeyeglasses-freeディスプレイ
Sparse matrix-vector multiplication
L-BFGS iterative optimization algorithm
glass-freeディスプレイアプリケーションで12.78xの高速化
Hardware Acceleration of the Pair-HMM Algorithm for DNA Variant
Calling
Pair HMM forwardアルゴリズムのFPGAでの高速化
リング構造のPEでILPとデータ並列性を考慮して様々な構成をとる
C++ベースのCPU実行とくらべて487x高速,ハードウェア実装と比べて1.56x高速

More Related Content

What's hot

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムShinya Takamaeda-Y
 
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)Shinya Takamaeda-Y
 
高速シリアル通信を支える技術
高速シリアル通信を支える技術高速シリアル通信を支える技術
高速シリアル通信を支える技術Natsutani Minoru
 
Verilog-HDL Tutorial (1)
Verilog-HDL Tutorial (1)Verilog-HDL Tutorial (1)
Verilog-HDL Tutorial (1)Hiroki Nakahara
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)Shinya Takamaeda-Y
 
FPGAX6_hayashi
FPGAX6_hayashiFPGAX6_hayashi
FPGAX6_hayashi愛美 林
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門ryos36
 
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Takefumi MIYOSHI
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータShinya Takamaeda-Y
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようShinya Takamaeda-Y
 
増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識なおき きしだ
 
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発Shinya Takamaeda-Y
 

What's hot (20)

Reconf_201409
Reconf_201409Reconf_201409
Reconf_201409
 
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
 
なにわTech20160827
なにわTech20160827なにわTech20160827
なにわTech20160827
 
高速シリアル通信を支える技術
高速シリアル通信を支える技術高速シリアル通信を支える技術
高速シリアル通信を支える技術
 
Vyatta 201310
Vyatta 201310Vyatta 201310
Vyatta 201310
 
Reconf 201506
Reconf 201506Reconf 201506
Reconf 201506
 
Verilog-HDL Tutorial (1)
Verilog-HDL Tutorial (1)Verilog-HDL Tutorial (1)
Verilog-HDL Tutorial (1)
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
 
FPGAX6_hayashi
FPGAX6_hayashiFPGAX6_hayashi
FPGAX6_hayashi
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
 
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)
 
FPGAって、何?
FPGAって、何?FPGAって、何?
FPGAって、何?
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
 
増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識
 
FPGA
FPGAFPGA
FPGA
 
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
 
Myoshimi extreme
Myoshimi extremeMyoshimi extreme
Myoshimi extreme
 

Similar to Abstracts of FPGA2017 papers (Temporary Version)

仮想FPGAクラウド
仮想FPGAクラウド仮想FPGAクラウド
仮想FPGAクラウドEric Fukuda
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 
High speed-pc-router 201505
High speed-pc-router 201505High speed-pc-router 201505
High speed-pc-router 201505ykuga
 
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoTakefumi MIYOSHI
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報ReNom User Group
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ日本マイクロソフト株式会社
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツKuninobu SaSaki
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラNVIDIA Japan
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA Japan
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄Tak Izaki
 
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編Deep Learning Lab(ディープラーニング・ラボ)
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用についてハイシンク創研 / Laboratory of Hi-Think Corporation
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Japan
 
HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?NVIDIA Japan
 
GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発Ryuuta Tsunashima
 
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状Yukitaka Takemura
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速するKohei KaiGai
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法Deep Learning Lab(ディープラーニング・ラボ)
 

Similar to Abstracts of FPGA2017 papers (Temporary Version) (20)

[DL Hacks]FPGA入門
[DL Hacks]FPGA入門[DL Hacks]FPGA入門
[DL Hacks]FPGA入門
 
仮想FPGAクラウド
仮想FPGAクラウド仮想FPGAクラウド
仮想FPGAクラウド
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 
High speed-pc-router 201505
High speed-pc-router 201505High speed-pc-router 201505
High speed-pc-router 201505
 
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄
 
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
 
HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
 
GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発
 
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
 

More from Takefumi MIYOSHI

More from Takefumi MIYOSHI (20)

DAS_202109
DAS_202109DAS_202109
DAS_202109
 
ACRiルーム1年間の活動と 新たな取り組み
ACRiルーム1年間の活動と 新たな取り組みACRiルーム1年間の活動と 新たな取り組み
ACRiルーム1年間の活動と 新たな取り組み
 
RISC-V introduction for SIG SDR in CQ 2019.07.29
RISC-V introduction for SIG SDR in CQ 2019.07.29RISC-V introduction for SIG SDR in CQ 2019.07.29
RISC-V introduction for SIG SDR in CQ 2019.07.29
 
Misc for edge_devices_with_fpga
Misc for edge_devices_with_fpgaMisc for edge_devices_with_fpga
Misc for edge_devices_with_fpga
 
Cq off 20190718
Cq off 20190718Cq off 20190718
Cq off 20190718
 
Synthesijer - HLS frineds 20190511
Synthesijer - HLS frineds 20190511Synthesijer - HLS frineds 20190511
Synthesijer - HLS frineds 20190511
 
Reconf 201901
Reconf 201901Reconf 201901
Reconf 201901
 
Hls friends 201803.key
Hls friends 201803.keyHls friends 201803.key
Hls friends 201803.key
 
Hls friends 20161122.key
Hls friends 20161122.keyHls friends 20161122.key
Hls friends 20161122.key
 
Slide
SlideSlide
Slide
 
Synthesijer and Synthesijer.Scala in HLS-friends 201512
Synthesijer and Synthesijer.Scala in HLS-friends 201512Synthesijer and Synthesijer.Scala in HLS-friends 201512
Synthesijer and Synthesijer.Scala in HLS-friends 201512
 
Das 2015
Das 2015Das 2015
Das 2015
 
Microblaze loader
Microblaze loaderMicroblaze loader
Microblaze loader
 
Synthesijer jjug 201504_01
Synthesijer jjug 201504_01Synthesijer jjug 201504_01
Synthesijer jjug 201504_01
 
Synthesijer zynq qs_20150316
Synthesijer zynq qs_20150316Synthesijer zynq qs_20150316
Synthesijer zynq qs_20150316
 
Synthesijer fpgax 20150201
Synthesijer fpgax 20150201Synthesijer fpgax 20150201
Synthesijer fpgax 20150201
 
Synthesijer hls 20150116
Synthesijer hls 20150116Synthesijer hls 20150116
Synthesijer hls 20150116
 
Fpgax 20130830
Fpgax 20130830Fpgax 20130830
Fpgax 20130830
 
Ptt391
Ptt391Ptt391
Ptt391
 
Google 20130218
Google 20130218Google 20130218
Google 20130218
 

Abstracts of FPGA2017 papers (Temporary Version)

  • 1. Abstracts of FPGA2017 papers (暫定版) 読んだ人: みよしたけふみ 読んだ日: 6th March, 2017
  • 2. Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks? Intel 14nm Stratix10 FPGAを使ってDNNアクセラレータ作った GEMMオペレーションを評価.Titan X Pascal GPUと比べて pruendで10% Int6で50% Binarized DNNで5.4x Ternary ResNetでTitan X Pascal GPUの 60%の性能 2.3xの性能/電力
  • 3. Accelerating Binarized Convolutional Neural Networks with Software- Programmable FPGAs C++からの合成でBNNやってみた SDSoC 2016.1 Zynq 7Z020 44.2 GOPS/W
  • 4. Improving the Performance of OpenCL-based FPGA Accelerator for Convolutional Neural Network CNN classifier kernelのボトルネック部分を解析 オンチップメモリのバンド幅に着目 OpenCLで実装 VGGモデルベースのCNNをArria10で実装
  • 5. Frequency Domain Acceleration of Convolutional Neural Networks on CPU-FPGA Shared Memory System∗ 畳み込み層の計算を減らすためにFFTとOverlap-and-Addを利用 共有メモリのデータレイアウトを工夫 VGG16, AlexNet, GoogLeNetを123.48GFLOPS, 83.00GFLOPS, 96.60GFLOPS Intel Quick-Assist QPI FPGA Platformを使って評価
  • 6. Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep Convolutional Neural Networks CNNの畳み込み層では3次元MACが4レベルのループになる CNNのメモリアクセスなどの実対象を解析,最適化する必要がある メモリアクセスとメモリ移動を最小化,リソース使用量と性能を最大化 Arria10GX1150に実装 VGG-16 CNNで645.25GOPS,47.97msレイテンシを達成 State-of-the-artの3.2x
  • 7. An OpenCLTM Deep Learning Accelerator on Arria 10 OpenCL使ってデータ再利用と外部メモリバンド幅最小化を実現 Intel FPGA SDK for OpenCL Deep Learning Accelerator(DLA) AlexNetCNNベンチマークでArria10使って1020img/s,23img/s/W -> 1382GFLOPSに相当(従来FPGAの8.4xのGFLOPS,5.8xの効率化) 23 img/s/WはnVidiaのTitanX GPUとcompetitive
  • 8. FINN: A Framework for Fast, Scalable Binarized Neural Network Inference • FINN: 柔軟なヘテロジニアスストリーミングアーキテクチャを使って速く柔軟な FPGAアクセラレータを構築するフレームワーク • ZC706でトータル25Wのシステム • MNISTで12.3M画像/sの分類.レイテンシ0.31us,精度95.8% • CIFAR-10とSVHNの21906画像/sの分類.レイテンシ283us,精度はそれぞれ 801.%,94.9%
  • 9. ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA • Load-balance-aware pruning methodでLSTMモデルのサイズを1/20に • 複数のPEに,圧縮モデルをエンコードと分割するスケジューラ • Efficient Speech Recognition Engine(ESE)と命名 • XCKU060に実装.200MHzで動作.282GOPS.41W • Core i7 5930kと比べて43x高速,電力効率40x • Pascal Titan X GPUと比べて3x高速,電力効率11.5x
  • 10. Quality-Time Tradeoffs in Component-Specific Mapping: How to Train Your Dynamically Reconfigurable Array of Gates with Outrageous Network- delays • Component-specific適用 • A prioriなデバイスの特徴とカスタマイズなしでFPGA毎のマッピングをする • 48-77%のディレイ,57%のエネルギー効率を20秒未満のマッピング時間で
  • 11. Synchronization Constraints for Interconnect Synthesis インタコネクト合成.データ転送のサイクルレベルの同期を自動的に. FIFOベースより43%少ない面積使用量になる
  • 12. Corolla: GPU-Accelerated FPGA Routing Based on Subgraph Dynamic Expansion A GPU-accelerated FPGA routing method GPU向けのFPGA内の最短パスアルゴリズムの適用を可能にする FPGAルーティングのカーネルはsingole-source shortest path(SSSP)ソルバーで ある
  • 13. Don’t Forget the Memory: Automatic Block RAM Modelling, Optimization, and Architecture Exploration BlockRAMを自動的に作る話 SRAMとMTJ技術の両方を使用 面積,電力を最適化
  • 14. Automatic Construction of Program-Optimized FPGA Memory Networks メモリレイテンシは設計時の重要ポイント メモリネットワークの最適化が性能向上のカギ フィードバックドリブンのネットワークコンパイラを設計した 45%の設計ゲインを達成 要はLEAPの話
  • 15. NAND-NOR: A Compact, Fast, and Delay Balanced FPGA Logic Element And-Inverter Cone(AIC)はLUTに対する代替として提案された 性能とリソースユーティリゼーションを向上 Delay discrepancy problemがある 設計手法が最適かされていない →もっと最適なNAND-NORとdelay-balancedなdual-phasedなマルチプレクサなアー キテクチャを提案するよ
  • 16. 120-core microAptiv MIPS Overlay for the Terasic DE5-NET FPGA board 120-core 94MHzのMIPSプロセッサを作った 軽量なメッセージパッシング機構で接続される Stratix V GX (5SGXEA7N2F45C2)に実装
  • 17. A Parallelized Iterative Improvement Approach to Area Optimization for LUT-Based Technology Mapping ロジックマッピングとデバイスマッピングにはギャップがある PIMapを提案 面積を最小化すべくロジック変換とテクノロジーマッピングを反復的に行う EPFLベンチに対して最大14%,平均で7%面積削減を達成
  • 18. A Parallel Bandit-Based Approach for Autotuning FPGA Compilation 合成ツールオプションの自動チューニング Multi-armed bandit(MAB)でオプションをチューニング
  • 19. Hardware Synthesis of Weakly Consistent C Concurrency Cからの高位合成でLock-freeアルゴリズム LegUpにsequentially consistent(SC)とweakly consistent(weak) atmicsを導入 循環バッファの実装で,ロックありの場合と比べて2.5x高速化 Weak atomicsはさらに1.5xスピードアップ
  • 20. A New Approach to Automatic Memory Banking using Trace-Based Address Mining TraceBankingを提案 Trace-drivenなアドレス最小化アルゴリズム 顔検出アルゴリズムに対してarea-efficientなメモリ分割を実現できた コンパイルタイムの静的な最適化ではな アクセスパタンを明示的に指定する必要がない
  • 21. Dynamic Hazard Resolution for Pipelining Irregular Loops in High-Level Synthesis • HLSのパイプライニングは,規則的でスタティックなメモリアクセスパタンにはむい ている -> infrequent data-dependent structuralには有効ではない • イレギュラなループに対する高スループットのパイプライン化を実現する • コンパイル時にハザードを解決したアグレッシブなパイプラインを生成 • Hazard Resolution Unit(HRU)を導入.D-HRU(data)とS-HUR(structure)
  • 22. Accelerating Face Detection on Programmable SoC Using C-Based Synthesis • HLSは進化してるけど現実的なベンチマークが不足している • Viola Jonesアルゴリズムベースの顔検出アクセラレータのケーススタディ • ソフトウェアベースのデザインからHLS特化データ構造と最適化を使った合成可能な 実装への移植でわかったことをシェア • このデザインは30FPSで,従来のRTL設計とcomparableである
  • 23. Packet Matching on FPGAs Using HMC Memory: Towards One Million Rules • Hybrid Memory Cube(HMC)を使ったFPGAによるパケット分類 • プリフェッチでHMCアクセスレイテンシを隠蔽しメモリからマッチングエンジンにル ールを転送 • Kintex Ultrascale 060に実装.160パケットを並列に処理.10Gbpsラインレートで 約1500ルールを,16Mbpsラインレートで1Mルールを処理
  • 24. Boosting the Performance of FPGA-based Graph Processor using Hybrid Memory Cube: A Case for Breadth First Search • 巨大な実世界グラフを扱うのは難しい • 単にフットプリントの問題だけでなくて,プアな局所性,アクセスレイテンシのため • HMC使ってみた • HMCアクセスレイテンシとBFS(幅優先探索)性能に対する 定量的な評価のための解析的な性能モデルを開発 • 2-level bitmap scheme • MicronのAC-510開発キットで評価. • GRAPH500ベンチマークで(スケール25/ファクタ16)で評価 • 166M edge traverced/s(MTEPS)を達成
  • 25. ForeGraph: Exploring Large-scale Graph Processing on Multi-FPGA Architecture FPGAのオンチップメモリはランダムデータアクセスに高いスループット 単一のFPGAのオンチップメモリには制約がある 複数FPGAを使った大規模グラフ処理エンジンを提案 Xilinx Virtex UltraScale XVCU190(VCU110ボード)を使用 YT,WK,LJ,TW,YHグラフに対してBFS,PR,WCCを処理 TW(41.7M Vertecies, 1.47M Edge)は4FPGAで処理 State-of-the Art(PowerGraph)に対して5.04x高速化を達成 先行FPGAに対して平均スループットで2.03倍を達成
  • 26. FPGA-Accelerated Transactional Execution of Graph Workloads • 巨大グラフへのアクセスではメモリコンフリクトが起きる • スケーラブルなコンフリクト検出を示す • Intel Haswelとくらべて2倍の性能向上, 22倍のエネルギー効率 • FPGA Research Infrastructure Cloud[42]を利用 • http://www.openfabric.org
  • 27. Enabling Flexible Network FPGA Clusters in a Heterogeneous Cloud Data Center • ヘテロジニアスクラウドデータセンタでnetwork FPGAクラスタを作るフレームワー ク • FPGAカーネルがどうつながるかの論理的なカーネル定義でFPGAクラスタが作られる • OpenStackでマネジメントされる • GbEでつながっている
  • 28. Energy Efficient Scientific Computing on FPGAs using OpenCL • Partial differential equations(PDE; 偏微分方程式) の効率的な実装が必要 • FPGAのデータ並列性でPDEソルバを • HDLは難しいのでOpenCLで→でも難しい • OpenCLを使ったPDEソルバのための一般的で最適化の特価した包括的なセットを提案
  • 29. Secure Function Evaluation Using an FPGA Overlay Architecture SFE向けのハードウェアアクセラレータ 一般的なリコンフィギャラブルハードウェア向きの粗粒度なFPGAオーバーレイアーキテクチャ
  • 30. FPGA Acceleration for Computational Glass-Free Displays FPGAアクセラレーションをつかったeyeglasses-freeディスプレイ Sparse matrix-vector multiplication L-BFGS iterative optimization algorithm glass-freeディスプレイアプリケーションで12.78xの高速化
  • 31. Hardware Acceleration of the Pair-HMM Algorithm for DNA Variant Calling Pair HMM forwardアルゴリズムのFPGAでの高速化 リング構造のPEでILPとデータ並列性を考慮して様々な構成をとる C++ベースのCPU実行とくらべて487x高速,ハードウェア実装と比べて1.56x高速