SlideShare a Scribd company logo
1 of 33
Download to read offline
多数の小容量FPGAを用いた
スケーラブルなステンシル計算機の開発
小林諒平† 高前田(山崎) 伸也†,†† 吉瀬謙二†
† 東京工業大学 大学院情報理工学研究科
†† 日本学術振興会 特別研究員(DC1)
2013/05/24 先進的計算基盤システムシンポジウムSACSIS2013
リコンフィギャラブルコンピューティング(13:30-14:00) 発表25分,質疑5分
本研究の成果
1
1. 多数の小容量 FPGA を使用した2次元ステンシル
計算に対して,高効率な計算を実現する
アーキテクチャを提案
2. 提案アーキテクチャを実現したFPGAべースの
高性能アクセラレータの実装
3. 100個の FPGA のアレーシステムにおける評価
および提案アーキテクチャの正当性の検証
 背景
ステンシル計算
関連研究
 多数の小容量FPGAを用いたスケーラブルな
ステンシル計算手法
データセットの分割とFPGAへの割り当て
計算順序の最適化
 アーキテクチャ
 実装
 評価
 結論
発表の流れ
2
 偏微分方程式の近似解を求める手法の1つ
 地震シミュレーション,デジタル信号処理,流体計算などの
様々な分野で利用されている
ヤコビ法における2次元ステンシル計算
* Morgan, K et.al IJNME 1983
3
v1[i][j] =
(C0 * v0[i-1][j]) + (C1 * v0[i][j+1]) +
(C2 * v0[i][j-1]) + (C3 * v0[i+1][j]);
Time-step k
Update data set
v1[i][j]は重み定数(C0〜C3)をかけられた4近傍の
点の値を足し合わせることによって計算される
 演算性能 (高度に最適化している)
 非効率な原因として以下の理由が挙げられる
 汎用的な構造はステンシル計算に適していない
 限られたメモリ帯域
 そのため,FPGAべースのカスタムコンピューティングが有望
マルチコアやGPGPUにおける
ステンシル計算
4
Processor
Performance [GFlop/s]
Peak Sustained (efficiency)
1 core of Xeon E5220 (quad-core)
8 cores of Xeon E5220 SMP node
1 x NVidia Tesla C1016
16 x NVidia Tesla C1016
9.0
72.0
78
1248
2.8 (31%)
15.9 (22%)
51 (65%)
530 (42%)
[2]
[3]
[2] Augustin et al. Euro-Par ’09 [3] Phillips et al. IPDPS 2010
 背景
ステンシル計算
関連研究
 多数の小容量FPGAを用いたスケーラブルな
ステンシル計算手法
データセットの分割とFPGAへの割り当て
計算順序の最適化
 アーキテクチャ
 実装
 評価
 結論
発表の流れ
5
 多数の小容量FPGAを用いたタイル型アーキテクチャシミュレータ
 メニーコアプロセッサの高速シミュレーション環境
 ステンシル計算を高速に解くためのFPGAアレーとしてこのシステムを利用
ScalableCore システム
6
One FPGA node
FPGA
SRAMPROM
 実装では,1つのFPGAに64×128個のデータ要素を割り当てる
 提案手法では,1つのFPGAに割り当てるデータセットがこのサイズに固定
される
 FPGA アレーを構成するノードの数を変更することによって, 計算する問題サイズ
を変更する
データセットの分割とFPGAへの割り当て
7
(a) data set of 16 x 16 elements (b) block decomposition to 4 x 4 FPGAs
目的
FPGA間のデータ通信において許容できる通信レ
イテンシを増やして,データ待ちによるストールを
削減する
計算順序の最適化(1/7)
8
FPGA間でのデータ通信
 (a)と(b)を比較
計算順序の最適化(2/7)
9
・イテレーション : ある時刻で全てのデータ要素を更新する一連の処理
・全てのデータ要素は値の計算および更新が1サイクルで終わるものとする
・各FPGAに割り当てられた16個のデータ要素の値は各イテレーションで更新
提案手法
計算順序の最適化(3/7)
10
C12 C13
C8 C9
C4 C5
C0 C1
C14
C10
C6
C2
C15
C11
C7
C3
D0 D1
D4 D5
D8 D9
D12 D13
D2
D6
D10
D14
D3
D7
D11
D15
FPGA(C)FPGA(D)
(b)
A1A0 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15
B1B0 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B0
A0
0 16
A1
B1
…
First Iteration end
A0 A1
A4 A5
A8 A9
A12 A13
A2
A6
A10
A14
A3
A7
A11
A15
B0 B1
B4 B5
B8 B9
B12 B13
B2
B6
B10
B14
B3
B7
B11
B15
FPGA(A)FPGA(B)
(a)
提案手法
C1C0 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15
D1D0 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D0
C0
0 16
C1
D1
…
First Iteration end
計算順序の最適化(4/7)
11
C12 C13
C8 C9
C4 C5
C0 C1
C14
C10
C6
C2
C15
C11
C7
C3
D0 D1
D4 D5
D8 D9
D12 D13
D2
D6
D10
D14
D3
D7
D11
D15
FPGA(C)FPGA(D)
(b)
A1A0 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15
B1B0 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B0
A0
0 16
A1
B1
…
First Iteration end
A0 A1
A4 A5
A8 A9
A12 A13
A2
A6
A10
A14
A3
A7
A11
A15
B0 B1
B4 B5
B8 B9
B12 B13
B2
B6
B10
B14
B3
B7
B11
B15
FPGA(A)FPGA(B)
(a)
B1の計算をストールさせないために
は,A13 の値は3サイクル以内(14, 15,
16)に通信しなければならない
提案手法
C1C0 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15
D1D0 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D0
C0
0 16
C1
D1
…
First Iteration end
計算順序の最適化(5/7)
12
C12 C13
C8 C9
C4 C5
C0 C1
C14
C10
C6
C2
C15
C11
C7
C3
D0 D1
D4 D5
D8 D9
D12 D13
D2
D6
D10
D14
D3
D7
D11
D15
FPGA(C)FPGA(D)
(b)
A1A0 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15
B1B0 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B0
A0
0 16
A1
B1
…
First Iteration end
A0 A1
A4 A5
A8 A9
A12 A13
A2
A6
A10
A14
A3
A7
A11
A15
B0 B1
B4 B5
B8 B9
B12 B13
B2
B6
B10
B14
B3
B7
B11
B15
FPGA(A)FPGA(B)
(a)
B1の計算をストールさせないために
は,A13 の値は3サイクル以内(14, 15,
16)に通信しなければならない
提案手法
C1C0 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15
D1D0 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D0
C0
0 16
C1
D1
…
First Iteration end
D1の計算をストールさせないために
は,15サイクルの余裕がある
計算順序の最適化(6/7)
13
提案手法
FPGAFPGA
M
……
Iteration end
N-1 cycles(a)
N
FPGAFPGA
M
(b)
N
……
Iteration end
N×M-1 cycles
N×Mのデータが割り当てられる場合,FPGAの間で許容
できる通信レイテンシはN×M−1サイクル
N×Mのデータが割り当てられる場合,FPGAの間で許容
できる通信レイテンシはN−1サイクル
計算順序の最適化(7/7)
14
:計算する方向
 ほぼ1イテレーションの処理サイクル数まで通信レイテンシを許容
 データ要素の数が増加するほど,通信レイテンシを許容できるサイクル数は増加
多数のFPGAを使用するときは,このペアを必要な数だけ敷き詰めればよい
 背景
ステンシル計算
関連研究
 多数の小容量FPGAを用いたスケーラブルな
ステンシル計算手法
データセットの分割とFPGAへの割り当て
計算順序の最適化
 アーキテクチャ
 実装
 評価
 結論
発表の流れ
15
v1[i][j] = (C0 * v0[i-1][j]) + (C1 * v0[i][j-1]) +
(C2 * v0[i][j+1]) + (C3 * v0[i+1][j]);
MADDにおけるステンシル計算
16
8-stages
8-stages
FPGAノードのデータ要素とBlockRAMの関係
17
BlockRAM: low-latency SRAM which each FPGA has.
各FPGAに割り当てられるデータセットは縦方向に分割され,
各BlockRAM(0∼7)に格納される
1つのFPGAに64×128のデータセットが割り当てられる場合,
各BlockRAM(0~7)に,分割されたデータセット(8×128)が格納される
FPGA array 4×4
(Data is assigned)
BlockRAMs
MADDとBlockRAMの関係
18
・BlockRAMに格納されたデータセットは,
接続されているMADDによって計算される
・各MADDは並列に動作
・MADDの計算結果はBlockRAMに書き戻
される(時刻kからk+1に更新)
 単精度浮動小数点数 積和演算器(IEEE754準拠)
Xilinxのコアジェネレータによって自動生成
乗算器:7段パイプライン
加算器:7段パイプライン
MADDアーキテクチャ
19
Register
20
Ser/Des
Ser/Des
Clock
Reset
FPGA
Spartan-6
Configuration
ROM
XCF04S
JTAG
port
West East
mux mux mux mux mux mux mux mux
mux8
MADD MADD MADD MADD MADD MADD MADD MADD
mux2
Ser/Des
Ser/Des
North
South
Sync
Mul
Add
0
Mux
32bit
C constant table
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 78 9
FIFOFIFOFIFOFIFOFIFOFIFOFIFOFIFO
ノードのシステムアーキテクチャ
メモリユニット (MADDが計算した値を格
納・隣接FPGAから送信される値を格納)
演算器MADD Multiply & Adder
(各MADDは並列処理する)
隣接FPGAに同期信号を送信
隣接FPGAに送信する値を格納する
シリアライザ・デシリアライザ
(データリカバリ・NRZI符号を使用)
 背景
ステンシル計算
関連研究
 多数の小容量FPGAを用いたスケーラブルな
ステンシル計算手法
データセットの分割とFPGAへの割り当て
計算順序の最適化
 アーキテクチャ
 実装
 評価
 結論
発表の流れ
21
 FPGAが奇数行か偶数行かを識別する回路
 データ要素の計算順序を決めるため
 回路規模は非常に小さい
 FPGAあたりに1つのNOTゲート
位置情報の取得
22
Bottom row
FPGAs
Row 1:
odd row FPGAs
Row 2:
even row FPGAs
Row 3:
odd row FPGAs
FPGA
NOT
FPGA
NOT
FPGA
NOT
FPGA
NOT
0
1
0
1
FPGA
NOT
FPGA
NOT
FPGA
NOT
FPGA
NOT
0
1
0
1
FPGA
NOT
FPGA
NOT
FPGA
NOT
FPGA
NOT
0
1
0
1
FPGA
NOT
FPGA
NOT
FPGA
NOT
FPGA
NOT
0
1
0
1
ScalableCoreシステム
23
 FPGA(A)をMasterと定義
 Master以外のFPGAはMasterから送信される信号に同期
 Master以外のFPGAは同期信号を受信するまで計算をストール
 同期信号は,Masterがα +β の周期で生成
 α :1イテレーションのためのステンシル計算に処理に要するサイクル数
 β :各FPGAのクロックのばらつきを吸収するためのマージン
FPGAアレーの同期機構の仕組み
24
α
FPGA A
FPGA B
FPGA C
FPGA D
stall
synchronize synchronize
α α
stall stall
β β β
(Master)
 同期信号を受信したマスター(FPGA A)以外のFPGAノードは,左方向と下
方向に同期信号を送信
 同期信号は数十サイクルの幅をもつ波形
 送受信ミスの防止対策
 受信するFPGAでは,この同期信号が数サイクル連続して1となる場合に,同
期信号の受信とする
FPGAアレーの同期機構の実装
25
FPGA D
FPGA B
FPGA C
FPGA A FPGA A
FPGA B
FPGA C
FPGA D
α β
α β
 背景
ステンシル計算
関連研究
 多数の小容量FPGAを用いたスケーラブルな
ステンシル計算手法
データセットの分割とFPGAへの割り当て
計算順序の最適化
 アーキテクチャ
 実装
 評価
 結論
発表の流れ
26
 FPGA:Xilinx Spartan-6 XC6SLX16
 BlockRAM:64KB
 デザインツール:Xilinx ISE Version 14.2
 ハードウェア記述言語:Verilog HDL
 MADDの実装:Xlinxのコアジェネレータで自動生成
 MADDを1つ実装するために,DSP ブロックを 4 個を消費
 1個のFPGA は,32個のDSPブロックを持つ→1個のFPGAに実装するMADDは8個
評価環境
27The 100-Node FPGA Array
Slices:99%
MADD,SerDes,位置情報の取得回路,同期機構
DSP48A1: 100%
8個のMADDを実装するのに全てのDSPブロック
を使用
ハードウェア資源使用率
28
 データセット:256×512要素
 イテレーション:5,800,000回(動作周波数 40MHz で実行時間が約10分)
 ステンシル計算のピーク性能と実効性能がほぼ同じ
 提案した,計算手法のオーバーヘッドが少ない
 周波数を上げるにつれて,電力量あたりの性能が向上
16ノードのFPGAアレーにおけるステンシル計算
のピーク性能と実効性能,電力効率
29
0
2
4
6
8
10
12
14
16
0.01 0.02 0.03 0.04 0.05 0.06
Performance[GFlop/s]
Freqency[GHz]
Peak
Effective
0
0.1
0.2
0.3
0.4
0.5
0.6
0.01 0.02 0.03 0.04 0.05 0.06
Performanceperwatt[GFlop/sW]
Freqency[GHz]
100ノード時の性能:83.9GFlop/s
FPGAアレー(動作周波数 60MHz)における
ステンシル計算のピーク性能と実効性能
30
Intel Core i7-2700K (single thread, 3.5GHz, -O3 option)の25倍
0.1
1
10
100
1 2 4 8 16 32 64 100
Performance[GFlop/s]
Number of FPGA nodes
Peak
Effective
 電力量あたりの性能:0.57GFlop/sW (100-Node)
FPGAアレー(動作周波数 60MHz)における
ステンシル計算の電力効率
31
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
1 2 4 8 16 32 64 100
Performanceperwatt[GFlop/sW]
Number of FPGA nodes
NVIDIA GTX280 GPU cardの3.8倍
 本研究の成果
 多数FPGAを用いるステンシル計算の高性能アーキテクチャを提案
 そのアーキテクチャを実現するシステムを開発
 100個のFPGA のアレーシステムにおける評価および提案アーキテクチャ
の正当性の検証(とても安定して動作,もちろん正しく動作)
 性能(100ノード)
 周波数:0.06GHz (60MHz)
 演算性能:83.9GFlop/s.
﹣Intel Core i7-2700K (single thread, 3.5GHz, -O3 option)の25倍
 電力量あたりの演算性能:0.57GFlop/sW
﹣電力量あたりの演算性能はNvidia GTX280 GPU cardの3.8倍
 今後の課題
 より低電力に向けた設計
結論
32

More Related Content

What's hot

FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみたFPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみたTakefumi MIYOSHI
 
高位合成友の会(2018秋)スライド
高位合成友の会(2018秋)スライド高位合成友の会(2018秋)スライド
高位合成友の会(2018秋)スライド一路 川染
 
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみたHiroki Nakahara
 
FPGAX6_hayashi
FPGAX6_hayashiFPGAX6_hayashi
FPGAX6_hayashi愛美 林
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようShinya Takamaeda-Y
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータShinya Takamaeda-Y
 
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)Shinya Takamaeda-Y
 
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法Kentaro Sano
 
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610HIDEOMI SUZUKI
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Takefumi MIYOSHI
 
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Takefumi MIYOSHI
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)Shinya Takamaeda-Y
 
OpenCLに触れてみよう
OpenCLに触れてみようOpenCLに触れてみよう
OpenCLに触れてみようYou&I
 
SDN Japan: ovs-hw
SDN Japan: ovs-hwSDN Japan: ovs-hw
SDN Japan: ovs-hwykuga
 

What's hot (20)

FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみたFPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみた
 
高位合成友の会(2018秋)スライド
高位合成友の会(2018秋)スライド高位合成友の会(2018秋)スライド
高位合成友の会(2018秋)スライド
 
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
 
FPGAX6_hayashi
FPGAX6_hayashiFPGAX6_hayashi
FPGAX6_hayashi
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
Myoshimi extreme
Myoshimi extremeMyoshimi extreme
Myoshimi extreme
 
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
 
Gpu vs fpga
Gpu vs fpgaGpu vs fpga
Gpu vs fpga
 
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)
 
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
 
OpenCLに触れてみよう
OpenCLに触れてみようOpenCLに触れてみよう
OpenCLに触れてみよう
 
FPGA
FPGAFPGA
FPGA
 
Reconf_201409
Reconf_201409Reconf_201409
Reconf_201409
 
SDN Japan: ovs-hw
SDN Japan: ovs-hwSDN Japan: ovs-hw
SDN Japan: ovs-hw
 

Viewers also liked

オープンハードセミナー
オープンハードセミナーオープンハードセミナー
オープンハードセミナーKenichi Kurimoto
 
IEICE technical report (RECONF), January 2013.
IEICE technical report (RECONF), January 2013.IEICE technical report (RECONF), January 2013.
IEICE technical report (RECONF), January 2013.Ryohei Kobayashi
 
3bOS: A flexible and lightweight embedded OS operated using only 3 buttons
3bOS: A flexible and lightweight embedded OS operated using only 3 buttons3bOS: A flexible and lightweight embedded OS operated using only 3 buttons
3bOS: A flexible and lightweight embedded OS operated using only 3 buttonsRyohei Kobayashi
 
CMPP 2012 held in conjunction with ICNC’12
CMPP 2012 held in conjunction with ICNC’12CMPP 2012 held in conjunction with ICNC’12
CMPP 2012 held in conjunction with ICNC’12Ryohei Kobayashi
 
A survey of how to efficiently implement application-specific hardware on an ...
A survey of how to efficiently implement application-specific hardware on an ...A survey of how to efficiently implement application-specific hardware on an ...
A survey of how to efficiently implement application-specific hardware on an ...Ryohei Kobayashi
 
Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...
Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...
Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...Ryohei Kobayashi
 
FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...
FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...
FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...Ryohei Kobayashi
 
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)Kenichiro MATOHARA
 
私が上智に通って唯一誇れること
私が上智に通って唯一誇れること私が上智に通って唯一誇れること
私が上智に通って唯一誇れることRyohei Kobayashi
 
32 bit ALU Chip Design using IBM 130nm process technology
32 bit ALU Chip Design using IBM 130nm process technology32 bit ALU Chip Design using IBM 130nm process technology
32 bit ALU Chip Design using IBM 130nm process technologyBharat Biyani
 
A High-speed Verilog HDL Simulation Method using a Lightweight Translator
A High-speed Verilog HDL Simulation Method using a Lightweight TranslatorA High-speed Verilog HDL Simulation Method using a Lightweight Translator
A High-speed Verilog HDL Simulation Method using a Lightweight TranslatorRyohei Kobayashi
 
Verilog 語法教學
Verilog 語法教學 Verilog 語法教學
Verilog 語法教學 艾鍗科技
 
Design and implementation of 32 bit alu using verilog
Design and implementation of 32 bit alu using verilogDesign and implementation of 32 bit alu using verilog
Design and implementation of 32 bit alu using verilogSTEPHEN MOIRANGTHEM
 

Viewers also liked (14)

オープンハードセミナー
オープンハードセミナーオープンハードセミナー
オープンハードセミナー
 
hpc2013_20131223
hpc2013_20131223hpc2013_20131223
hpc2013_20131223
 
IEICE technical report (RECONF), January 2013.
IEICE technical report (RECONF), January 2013.IEICE technical report (RECONF), January 2013.
IEICE technical report (RECONF), January 2013.
 
3bOS: A flexible and lightweight embedded OS operated using only 3 buttons
3bOS: A flexible and lightweight embedded OS operated using only 3 buttons3bOS: A flexible and lightweight embedded OS operated using only 3 buttons
3bOS: A flexible and lightweight embedded OS operated using only 3 buttons
 
CMPP 2012 held in conjunction with ICNC’12
CMPP 2012 held in conjunction with ICNC’12CMPP 2012 held in conjunction with ICNC’12
CMPP 2012 held in conjunction with ICNC’12
 
A survey of how to efficiently implement application-specific hardware on an ...
A survey of how to efficiently implement application-specific hardware on an ...A survey of how to efficiently implement application-specific hardware on an ...
A survey of how to efficiently implement application-specific hardware on an ...
 
Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...
Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...
Fully-Functional FPGA Prototype with Fine-Grain Programmable Body Biasing (FP...
 
FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...
FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...
FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core S...
 
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome)
 
私が上智に通って唯一誇れること
私が上智に通って唯一誇れること私が上智に通って唯一誇れること
私が上智に通って唯一誇れること
 
32 bit ALU Chip Design using IBM 130nm process technology
32 bit ALU Chip Design using IBM 130nm process technology32 bit ALU Chip Design using IBM 130nm process technology
32 bit ALU Chip Design using IBM 130nm process technology
 
A High-speed Verilog HDL Simulation Method using a Lightweight Translator
A High-speed Verilog HDL Simulation Method using a Lightweight TranslatorA High-speed Verilog HDL Simulation Method using a Lightweight Translator
A High-speed Verilog HDL Simulation Method using a Lightweight Translator
 
Verilog 語法教學
Verilog 語法教學 Verilog 語法教學
Verilog 語法教學
 
Design and implementation of 32 bit alu using verilog
Design and implementation of 32 bit alu using verilogDesign and implementation of 32 bit alu using verilog
Design and implementation of 32 bit alu using verilog
 

Similar to 多数の小容量FPGAを用いた スケーラブルなステンシル計算機の開発

PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsKohei KaiGai
 
2012研究室紹介(大川)
2012研究室紹介(大川)2012研究室紹介(大川)
2012研究室紹介(大川)猛 大川
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会Hitoshi Sato
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
FPGAスタートアップ資料
FPGAスタートアップ資料FPGAスタートアップ資料
FPGAスタートアップ資料marsee101
 
Odyssey MAX 10 FPGA入門セミナーテキスト
Odyssey MAX 10 FPGA入門セミナーテキストOdyssey MAX 10 FPGA入門セミナーテキスト
Odyssey MAX 10 FPGA入門セミナーテキストTsuyoshi Horigome
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
200625material naruse
200625material naruse200625material naruse
200625material naruseRCCSRENKEI
 
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)Ryuuta Tsunashima
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用についてハイシンク創研 / Laboratory of Hi-Think Corporation
 
High speed-pc-router 201505
High speed-pc-router 201505High speed-pc-router 201505
High speed-pc-router 201505ykuga
 
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoTakefumi MIYOSHI
 
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...Takuma Usui
 
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引きRapidRadioJP
 
高位合成友の会@ドワンゴ,2015年12月8日
高位合成友の会@ドワンゴ,2015年12月8日高位合成友の会@ドワンゴ,2015年12月8日
高位合成友の会@ドワンゴ,2015年12月8日貴大 山下
 
GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発Ryuuta Tsunashima
 

Similar to 多数の小容量FPGAを用いた スケーラブルなステンシル計算機の開発 (20)

PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
 
[DL Hacks]FPGA入門
[DL Hacks]FPGA入門[DL Hacks]FPGA入門
[DL Hacks]FPGA入門
 
2012研究室紹介(大川)
2012研究室紹介(大川)2012研究室紹介(大川)
2012研究室紹介(大川)
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
FPGAスタートアップ資料
FPGAスタートアップ資料FPGAスタートアップ資料
FPGAスタートアップ資料
 
Adk2012
Adk2012Adk2012
Adk2012
 
Odyssey MAX 10 FPGA入門セミナーテキスト
Odyssey MAX 10 FPGA入門セミナーテキストOdyssey MAX 10 FPGA入門セミナーテキスト
Odyssey MAX 10 FPGA入門セミナーテキスト
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 
200625material naruse
200625material naruse200625material naruse
200625material naruse
 
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
 
High speed-pc-router 201505
High speed-pc-router 201505High speed-pc-router 201505
High speed-pc-router 201505
 
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
 
Imaocande LT
Imaocande LTImaocande LT
Imaocande LT
 
NSDI16_reading
NSDI16_readingNSDI16_reading
NSDI16_reading
 
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
 
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
 
高位合成友の会@ドワンゴ,2015年12月8日
高位合成友の会@ドワンゴ,2015年12月8日高位合成友の会@ドワンゴ,2015年12月8日
高位合成友の会@ドワンゴ,2015年12月8日
 
GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発
 

Recently uploaded

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (8)

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

多数の小容量FPGAを用いた スケーラブルなステンシル計算機の開発