SlideShare a Scribd company logo
1 of 20
Download to read offline
2012年11月27日
CPSY研究会(デザインガイア)@福岡


Network Performance of Multifunction
On-chip Router Architectures


 高前田(山崎) 伸也†‡,藤枝 直輝†,吉瀬 謙二†
         †東京工業大学     大学院情報理工学研究科
            ‡日本学術振興会     特別研究員 (DC1)
マルチコアからメニーコアへ
  現在の主流: 1チップに2コア∼8コア (マルチコア)


                                                           ARM Cortex-A15
                                                            (4-core, ARM)
          Intel Corei7 3770K
             (4-core, x86)


  将来: 1チップに多数(16∼)のコア (メニーコア)



                                                                   TILERA
                                                                 TILE-Gx100
     Intel Xeon Phi (54-core, x86)                             (100-core, MIPS)


Nov 27 2012               Shinya Takamaeda-Y. Tokyo Tech                      2
ネットワーク・オン・チップ (NoC)
    メニーコアで高性能・低消費電力化を達成するには
    低レイテンシ・高スループットな要素間の接続が必要
              Network on Chip (NoC)
   PE          PE       PE         PE            PE 計算コア      R   オンチップルータ

         R          R        R          R
                                               オンチップルータがPE間の
   PE          PE       PE         PE          パケット(データの塊)を宛先へ
                                               順々に転送
         R          R        R          R

                                               ü  通信の衝突の軽減
   PE          PE       PE         PE
                                                   →低レイテンシ
         R          R        R          R          →高スループット

   PE          PE       PE         PE          ü  高いスケーラビリティ
                                                   →多くのコアを接続して高性能
         R          R        R          R

Nov 27 2012                  Shinya Takamaeda-Y. Tokyo Tech                  3
メニーコアへの課題:信頼性
     トランジスタの微細化により
     より多くのトランジスタが集積される

     信頼性への懸念
       ü  ソフトエラーへの耐性の低下
           宇宙線がトランジスタに当たり
           値が変化(ビット反転)

       ü  タイミングエラーへの耐性の低下
           トランジスタのばらつきの増加による
           信号伝搬のタイミング違反

          高い信頼性を実現する技術が必要
Nov 27 2012    Shinya Takamaeda-Y. Tokyo Tech   4
SmartCoreシステム: NoCベースの二重実行手法
  高機能ルータの支援によりプログラムの実行を二重化 (DMR)

                             Master A
                                                                  2つのコアのペア(Master/Slave)
                                              待ち合わせ
                                                比較                が同じスレッドを実行
  PE            PE                  PE             PE
                                                                  Slaveが出力するパケット列は
           R            R                R                R       Master側のルータへ転送
                                                Slave A
                                                                  出力されるパケット列を
  PE            PE                  PE             PE
                                                                  高機能ルータで待ち合わせ,
                                                                  比較し,エラーを検出
           R            R                R                R
                                                                  エラーを検出したら再実行
Master B                                        Slave B

  PE           複製
                PE                  PE             PE             Masterへのパケットは
                                                                  Slaveへと複製される
           R            R                R                R       ペアは同一のパケット列を
                                                                  受信して実行を継続
       Normal Communication (VC0)            Merge Communication (VC1)   Copy Communication (VC2)

Nov 27 2012                          Shinya Takamaeda-Y. Tokyo Tech                                 5
SmartCoreシステムのメリット
    n  チップ中の任意のコアで冗長実行のペアを形成
        l  Nonstop[DSN 05]などのLockstep系ではペアの配置に制限
    n  コア数に対してスケーラブル
        l  Configurable Isolation[ISCA 07]ではバスをぶった切る
                                                                         Master A       待ち合わせ
                                                                                         比較
                                                 PE            PE          PE             PE


                                                           R         R              R             R
                                                                                        Slave A

                                                 PE            PE          PE             PE


                                                           R         R              R             R
                                                Master B                                Slave B

                                                 PE            複製
                                                                PE         PE             PE


                                                           R         R              R             R

              Configurable Isolation                           SmartCore System
Nov 27 2012                     Shinya Takamaeda-Y. Tokyo Tech                                        6
本発表の目標

    n  高機能ルータにどのようなマイクロアーキテクチャを
        採用すれば良いのだろうか?
        l  パケット待ち合わせ・比較のオーバーヘッドは小さくしたい
        l  回路面積の増加も小さく抑えたい
        l  高機能ルータの機能要件
              ü パケットの待ち合わせ
              ü パケットの比較
              ü パケットのコピー
    n  本発表では2つのマイクロアーキテクチャを比較・評価
        l  (a) Minimal Multifunction Router
        l  (b) Advanced Multifunction Router

Nov 27 2012              Shinya Takamaeda-Y. Tokyo Tech   7
(a) Minimal Multifunction Router
                     Node Type            Pair ID            Arbiter
                                   VC0
                                   VC1
       N                                                                    N
                                   VC2
                                   VC0
                                   VC1
       E                                                                    E
                                   VC2
                                   VC0
                                   VC1
       S                                                                    S
                                   VC2                       XBAR
                                   VC0
                                   VC1
      W                                                                     W
                                   VC2

                                    VC0
                ID                                                     ID
                                    VC1
      PE        ID                                                          PE
                                    VC2
                ID
              ID Translator     (Copy Buffer)

               Compare Buffer                   Comparator
                                          CMP       Error?


Nov 27 2012                   Shinya Takamaeda-Y. Tokyo Tech                     8
(b) Advanced Multifunction Router
                         Node Type           Pair ID      Arbiter
                                       VC0
                                       VC1
       N                                                                 N
                                       VC2



       E                                                                 E



       S                                                                 S


                                                          XBAR
      W                                                                  W


                   ID
      PE           ID                                               ID   PE
                   ID
                  ID Translator
                                             Comparator
                                      CMP        Error?
              Compare Buffer
                                          Copy Buffer

Nov 27 2012                       Shinya Takamaeda-Y. Tokyo Tech              9
共通する特徴

    n  いくつかの追加ハードウェア
        l  ID translator
              •  パケットの宛先を変更する:宛先ビットベクターを書き換え
        l  Compare buffer
              •  Slaveからのパケットと比較用にMaster PEからのパケットを保存
        l  Comparator
              •  2つのフリットの内容を比較


    n  Copy bufferによるパケットのコピー
        l  Masterへ届いたパケットはそのSlaveへもコピー
        l  実際のCopy bufferのインスタンスの形は
            マイクロアーキテクチャに依存

Nov 27 2012                 Shinya Takamaeda-Y. Tokyo Tech   10
Advanced Routerの差異

    n  独立したCopy Buffer
        l  Minimal Routerでは入力チャネル・バッファを共有
        l  入力ラインの競合は少ない


    n  拡張したクロスバー
        l  Minimal: 5-入力/出力の一般的なクロスバー
        l  Advanced: 6-入力/5-出力の拡張されたクロスバー


    n  マルチプレクサの追加
        l  各入力をCompare bufferに接続するためのマルチプレクサ
        l  クロスバーの競合は少ないので性能面では

Nov 27 2012        Shinya Takamaeda-Y. Tokyo Tech   11
評価
    n  項目
        l  レイテンシ-スループット
        l  面積
    n  セットアップ




                           To avoid deadlocks,
                           Compare Buffer Size >= Packet Length




Nov 27 2012       Shinya Takamaeda-Y. Tokyo Tech                  12
評価の構成
    n  4つの構成
        l  (1) 5-port (Minimal Router), No DMR
        l  (2) 5-port, DMR
        l  (3) 6-port (Advanced Router), No DMR
        l  (4) 6-port, DMR
        l  注意: 構成1と構成3のグラフは同じ
              •  ベースのルータが同じであるため

    n  ベンチマーク: 4つのトラフィックパターン
        l  Uniform: ランダム通信
        l  Complement:
        l  Tornado:
        l  Neighbor: X軸で右隣の人に通信

Nov 27 2012               Shinya Takamaeda-Y. Tokyo Tech   13
Master/Slaveの配置

                                           M        Master Node         S      Slave Node
                                          (x,y)                       (x,y)


   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,1)   (1,1)   (2,1)   (2,1)    (3,1)     (3,1)    (4,1)   (4,1)   (1,1)    (2,1)   (3,1)   (4,1)   (1,1)   (2,1)   (3,1)   (4,1)

   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,2)   (1,2)   (2,2)   (2,2)    (3,2)     (3,2)    (4,2)   (4,2)   (1,2)    (2,2)   (3,2)   (4,2)   (1,2)   (2,2)   (3,2)   (4,2)

   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,3)   (1,3)   (2,3)   (2,3)    (3,3)     (3,3)    (4,3)   (4,3)   (1,3)    (2,3)   (3,3)   (4,3)   (1,3)   (2,3)   (3,3)   (4,3)

   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,4)   (1,4)   (2,4)   (2,4)    (3,4)     (3,4)    (4,4)   (4,4)   (1,4)    (2,4)   (3,4)   (4,4)   (1,4)   (2,4)   (3,4)   (4,4)

   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,5)   (1,5)   (2,5)   (2,5)    (3,5)     (3,5)    (4,5)   (4,5)   (1,5)    (2,5)   (3,5)   (4,5)   (1,5)   (2,5)   (3,5)   (4,5)

   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,6)   (1,6)   (2,6)   (2,6)    (3,6)     (3,6)    (4,6)   (4,6)   (1,6)    (2,6)   (3,6)   (4,6)   (1,6)   (2,6)   (3,6)   (4,6)

   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,7)   (1,7)   (2,7)   (2,7)    (3,7)     (3,7)    (4,7)   (4,7)   (1,7)    (2,7)   (3,7)   (4,7)   (1,7)   (2,7)   (3,7)   (4,7)

   M       S       M       S        M         S        M       S       M        M       M       M       S       S       S       S
 (1,8)   (1,8)   (2,8)   (2,8)    (3,8)     (3,8)    (4,8)   (4,8)   (1,8)    (2,8)   (3,8)   (4,8)   (1,8)   (2,8)   (3,8)   (4,8)


                         (a) Interleave                                                         (b) Block

Nov 27 2012                                       Shinya Takamaeda-Y. Tokyo Tech                                                14
レイテンシ-スループット (Interleave)
                       200
                                          Uniform                                                   200
                                                                                                                      Complement
                       180       No DMR (5-port)                                                    180       No DMR (5-port)

                       160       DMR (5-port)                                                       160       DMR (5-port)
                                 No DMR (6-port)                                                              No DMR (6-port)
                       140                                                                          140
     Latency [cycle]




                                                                                  Latency [cycle]
                                 DMR (6-port)                                                                 DMR (6-port)
                       120                                                                          120
                       100                                                                          100
                        80                                                                           80
                        60                                                                           60
                        40                                                                           40
                        20                                                                           20
                         0                                                                            0
                             0     0.05     0.1    0.15      0.2     0.25   0.3                           0     0.05     0.1    0.15      0.2     0.25   0.3
                                      Injection Rate [flit/node/cycle]                                             Injection Rate [flit/node/cycle]



                       200
                                          Tornado                                                   200
                                                                                                                       Neighbor
                       180       No DMR (5-port)                                                    180       No DMR (5-port)

                       160       DMR (5-port)                                                       160       DMR (5-port)
                                 No DMR (6-port)                                                              No DMR (6-port)
                       140                                                                          140
     Latency [cycle]




                                                                                  Latency [cycle]
                                 DMR (6-port)                                                                 DMR (6-port)
                       120                                                                          120
                       100                                                                          100
                        80                                                                           80
                        60                                                                           60
                        40                                                                           40
                        20                                                                           20
                         0                                                                            0
                             0     0.05     0.1    0.15      0.2     0.25   0.3                           0     0.05     0.1    0.15      0.2     0.25   0.3
                                      Injection Rate [flit/node/cycle]                                             Injection Rate [flit/node/cycle]

Nov 27 2012                                                    Shinya Takamaeda-Y. Tokyo Tech                                                                  15
レイテンシ-スループット (Block)
                       200                Uniform                                                     200            Complement
                       180       No DMR (5-port)                                                      180       No DMR (5-port)

                       160       DMR (5-port)                                                         160       DMR (5-port)
                                 No DMR (6-port)                                                                No DMR (6-port)
                       140                                                                            140
     Latency [cycle]




                                                                                    Latency [cycle]
                                 DMR (6-port)                                                                   DMR (6-port)
                       120                                                                            120
                       100                                                                            100
                        80                                                                             80
                        60                                                                             60
                        40                                                                             40
                        20                                                                             20
                         0                                                                              0
                             0     0.05     0.1    0.15      0.2     0.25   0.3                             0     0.05     0.1    0.15      0.2     0.25   0.3
                                      Injection Rate [flit/node/cycle]                                               Injection Rate [flit/node/cycle]


                                          Tornado                                                                      Neighbor
                       200                                                                            200
                       180       No DMR (5-port)                                                      180       No DMR (5-port)

                       160       DMR (5-port)                                                         160       DMR (5-port)
                                 No DMR (6-port)                                                                No DMR (6-port)
                       140                                                                            140
     Latency [cycle]




                                                                                    Latency [cycle]
                                 DMR (6-port)                                                                   DMR (6-port)
                       120                                                                            120
                       100                                                                            100
                        80                                                                             80
                        60                                                                             60
                        40                                                                             40
                        20                                                                             20
                         0                                                                              0
                             0     0.05     0.1    0.15      0.2     0.25   0.3                             0     0.05     0.1    0.15      0.2     0.25   0.3
                                      Injection Rate [flit/node/cycle]                                               Injection Rate [flit/node/cycle]

Nov 27 2012                                                     Shinya Takamaeda-Y. Tokyo Tech                                                                   16
レイテンシ (Injection Rate=0.02)
                           1.4
     ((DMR-NoDMR)/NoDMR)

                           1.2
        Latency Overhead



                                            Interleave                           Block
                            1
                           0.8          5-port
                                                                                                       12.4%
                           0.6          6-port
                                                                                                      38.2%
                           0.4                                                                            25.8%
                           0.2
                            0
                                 rm


                                            t

                                                  do


                                                            r

                                                                 rm


                                                                            t

                                                                                   do


                                                                                              r

                                                                                                      n
                                           en




                                                                          en
                                                         bo




                                                                                          bo

                                                                                                    ea
                                                na




                                                                                 na
                                 fo




                                                                fo
                                       em




                                                                       em
                                                       gh




                                                                                         gh

                                                                                                  M
                             ni




                                                                ni
                                                r




                                                                               r
                                             To


                                                      ei




                                                                            To


                                                                                      ei
                            U




                                                             U
                                      pl




                                                                     pl




                                                                                              ric
                                                     N




                                                                                      N
                                  om




                                                                  om




                                                                                           et
                                                                                          m
                                 C




                                                                 C




                                                                                         eo
                                                                                      G                        17
Nov 27 2012                                     Shinya Takamaeda-Y. Tokyo Tech
面積
             n  デザインツール: Xilinx ISE 14.2
             n  ターゲットデバイス: Xilinx Virtex-6 XC6VLX240T


            3000                                                                     0.8
                   5-port                                                            0.7
            2500




                                                           ((6-port-5port)/5-port)
                   6-port
                                                                                     0.6




                                                               Area Overhead
            2000
                                                                                     0.5
# entries




            1500                                                                     0.4
                                                                                     0.3
            1000
                                                                                     0.2
             500
                                                                                     0.1
               0                                                                      0
                   Slice    Slice Reg   LUT   LUT RAM                                      Slice   Slice Reg   LUT   LUT RAM

                                Advanced Router (6-port)は
                                62.9%大きなハードウェアを必要とする
Nov 27 2012                               Shinya Takamaeda-Y. Tokyo Tech                                                  18
議論

    n  AdvancedがMinimalに対して62.9%のハードウェア量
        が増加する理由?
        l  クロスバーの拡張
              •  おおよそ20%大きな面積
              •  加えてより複雑な仮想チャネルアロケータとスイッチアロケータ
        l  追加のマルチプレクサ
              •  入力ポートから比較器までを接続
        l  独立したCopy buffer
              •  入力ポートの競合は減るけど・・・



    n  これって12.4%のレイテンシ削減にペイしている?
        l  No.

Nov 27 2012            Shinya Takamaeda-Y. Tokyo Tech   19
まとめ

    n  2つの高機能ルータマイクロアーキテクチャを比較
        l  Minimal Router: 5-入力/出力のクロスバー
        l  Advanced Router: 6-入力/5-出力クロスバー


    n  Advanced Routerで12.4%のレイテンシ削減を達成可
        能


    n  しかし62.9%より大きなハードウェアが必要となる
        l  これって12.4%のレイテンシ削減にペイしていないですね・・・
        l  複数の選択肢があるのは良いこと!


Nov 27 2012          Shinya Takamaeda-Y. Tokyo Tech   20

More Related Content

More from Shinya Takamaeda-Y

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムShinya Takamaeda-Y
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモDNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモShinya Takamaeda-Y
 
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発Shinya Takamaeda-Y
 
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Shinya Takamaeda-Y
 
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Shinya Takamaeda-Y
 
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Shinya Takamaeda-Y
 
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)Shinya Takamaeda-Y
 
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」Shinya Takamaeda-Y
 
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Shinya Takamaeda-Y
 
PythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングPythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングShinya Takamaeda-Y
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討Shinya Takamaeda-Y
 
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Shinya Takamaeda-Y
 
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようPythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようShinya Takamaeda-Y
 
A CGRA-based Approach for Accelerating Convolutional Neural Networks
A CGRA-based Approachfor Accelerating Convolutional Neural NetworksA CGRA-based Approachfor Accelerating Convolutional Neural Networks
A CGRA-based Approach for Accelerating Convolutional Neural NetworksShinya Takamaeda-Y
 
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Shinya Takamaeda-Y
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようShinya Takamaeda-Y
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)Shinya Takamaeda-Y
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向Shinya Takamaeda-Y
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)Shinya Takamaeda-Y
 

More from Shinya Takamaeda-Y (20)

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモDNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
 
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
 
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
 
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
 
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
 
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
 
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
 
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
 
PythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングPythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミング
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討
 
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
 
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようPythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
 
A CGRA-based Approach for Accelerating Convolutional Neural Networks
A CGRA-based Approachfor Accelerating Convolutional Neural NetworksA CGRA-based Approachfor Accelerating Convolutional Neural Networks
A CGRA-based Approach for Accelerating Convolutional Neural Networks
 
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
 
Zynq+PyCoRAM(+Debian)入門
Zynq+PyCoRAM(+Debian)入門Zynq+PyCoRAM(+Debian)入門
Zynq+PyCoRAM(+Debian)入門
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
 

Recently uploaded

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 

Recently uploaded (10)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 

Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY 12…

  • 1. 2012年11月27日 CPSY研究会(デザインガイア)@福岡 Network Performance of Multifunction On-chip Router Architectures 高前田(山崎) 伸也†‡,藤枝 直輝†,吉瀬 謙二† †東京工業大学 大学院情報理工学研究科 ‡日本学術振興会 特別研究員 (DC1)
  • 2. マルチコアからメニーコアへ 現在の主流: 1チップに2コア∼8コア (マルチコア) ARM Cortex-A15 (4-core, ARM) Intel Corei7 3770K (4-core, x86) 将来: 1チップに多数(16∼)のコア (メニーコア) TILERA TILE-Gx100 Intel Xeon Phi (54-core, x86) (100-core, MIPS) Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 2
  • 3. ネットワーク・オン・チップ (NoC) メニーコアで高性能・低消費電力化を達成するには 低レイテンシ・高スループットな要素間の接続が必要 Network on Chip (NoC) PE PE PE PE PE 計算コア R オンチップルータ R R R R オンチップルータがPE間の PE PE PE PE パケット(データの塊)を宛先へ 順々に転送 R R R R ü  通信の衝突の軽減 PE PE PE PE →低レイテンシ R R R R →高スループット PE PE PE PE ü  高いスケーラビリティ →多くのコアを接続して高性能 R R R R Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 3
  • 4. メニーコアへの課題:信頼性 トランジスタの微細化により より多くのトランジスタが集積される 信頼性への懸念 ü  ソフトエラーへの耐性の低下 宇宙線がトランジスタに当たり 値が変化(ビット反転) ü  タイミングエラーへの耐性の低下 トランジスタのばらつきの増加による 信号伝搬のタイミング違反 高い信頼性を実現する技術が必要 Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 4
  • 5. SmartCoreシステム: NoCベースの二重実行手法 高機能ルータの支援によりプログラムの実行を二重化 (DMR) Master A 2つのコアのペア(Master/Slave) 待ち合わせ 比較 が同じスレッドを実行 PE PE PE PE Slaveが出力するパケット列は R R R R Master側のルータへ転送 Slave A 出力されるパケット列を PE PE PE PE 高機能ルータで待ち合わせ, 比較し,エラーを検出 R R R R エラーを検出したら再実行 Master B Slave B PE 複製 PE PE PE Masterへのパケットは Slaveへと複製される R R R R ペアは同一のパケット列を 受信して実行を継続 Normal Communication (VC0) Merge Communication (VC1) Copy Communication (VC2) Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 5
  • 6. SmartCoreシステムのメリット n  チップ中の任意のコアで冗長実行のペアを形成 l  Nonstop[DSN 05]などのLockstep系ではペアの配置に制限 n  コア数に対してスケーラブル l  Configurable Isolation[ISCA 07]ではバスをぶった切る Master A 待ち合わせ 比較 PE PE PE PE R R R R Slave A PE PE PE PE R R R R Master B Slave B PE 複製 PE PE PE R R R R Configurable Isolation SmartCore System Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 6
  • 7. 本発表の目標 n  高機能ルータにどのようなマイクロアーキテクチャを 採用すれば良いのだろうか? l  パケット待ち合わせ・比較のオーバーヘッドは小さくしたい l  回路面積の増加も小さく抑えたい l  高機能ルータの機能要件 ü パケットの待ち合わせ ü パケットの比較 ü パケットのコピー n  本発表では2つのマイクロアーキテクチャを比較・評価 l  (a) Minimal Multifunction Router l  (b) Advanced Multifunction Router Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 7
  • 8. (a) Minimal Multifunction Router Node Type Pair ID Arbiter VC0 VC1 N N VC2 VC0 VC1 E E VC2 VC0 VC1 S S VC2 XBAR VC0 VC1 W W VC2 VC0 ID ID VC1 PE ID PE VC2 ID ID Translator (Copy Buffer) Compare Buffer Comparator CMP Error? Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 8
  • 9. (b) Advanced Multifunction Router Node Type Pair ID Arbiter VC0 VC1 N N VC2 E E S S XBAR W W ID PE ID ID PE ID ID Translator Comparator CMP Error? Compare Buffer Copy Buffer Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 9
  • 10. 共通する特徴 n  いくつかの追加ハードウェア l  ID translator •  パケットの宛先を変更する:宛先ビットベクターを書き換え l  Compare buffer •  Slaveからのパケットと比較用にMaster PEからのパケットを保存 l  Comparator •  2つのフリットの内容を比較 n  Copy bufferによるパケットのコピー l  Masterへ届いたパケットはそのSlaveへもコピー l  実際のCopy bufferのインスタンスの形は マイクロアーキテクチャに依存 Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 10
  • 11. Advanced Routerの差異 n  独立したCopy Buffer l  Minimal Routerでは入力チャネル・バッファを共有 l  入力ラインの競合は少ない n  拡張したクロスバー l  Minimal: 5-入力/出力の一般的なクロスバー l  Advanced: 6-入力/5-出力の拡張されたクロスバー n  マルチプレクサの追加 l  各入力をCompare bufferに接続するためのマルチプレクサ l  クロスバーの競合は少ないので性能面では Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 11
  • 12. 評価 n  項目 l  レイテンシ-スループット l  面積 n  セットアップ To avoid deadlocks, Compare Buffer Size >= Packet Length Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 12
  • 13. 評価の構成 n  4つの構成 l  (1) 5-port (Minimal Router), No DMR l  (2) 5-port, DMR l  (3) 6-port (Advanced Router), No DMR l  (4) 6-port, DMR l  注意: 構成1と構成3のグラフは同じ •  ベースのルータが同じであるため n  ベンチマーク: 4つのトラフィックパターン l  Uniform: ランダム通信 l  Complement: l  Tornado: l  Neighbor: X軸で右隣の人に通信 Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 13
  • 14. Master/Slaveの配置 M Master Node S Slave Node (x,y) (x,y) M S M S M S M S M M M M S S S S (1,1) (1,1) (2,1) (2,1) (3,1) (3,1) (4,1) (4,1) (1,1) (2,1) (3,1) (4,1) (1,1) (2,1) (3,1) (4,1) M S M S M S M S M M M M S S S S (1,2) (1,2) (2,2) (2,2) (3,2) (3,2) (4,2) (4,2) (1,2) (2,2) (3,2) (4,2) (1,2) (2,2) (3,2) (4,2) M S M S M S M S M M M M S S S S (1,3) (1,3) (2,3) (2,3) (3,3) (3,3) (4,3) (4,3) (1,3) (2,3) (3,3) (4,3) (1,3) (2,3) (3,3) (4,3) M S M S M S M S M M M M S S S S (1,4) (1,4) (2,4) (2,4) (3,4) (3,4) (4,4) (4,4) (1,4) (2,4) (3,4) (4,4) (1,4) (2,4) (3,4) (4,4) M S M S M S M S M M M M S S S S (1,5) (1,5) (2,5) (2,5) (3,5) (3,5) (4,5) (4,5) (1,5) (2,5) (3,5) (4,5) (1,5) (2,5) (3,5) (4,5) M S M S M S M S M M M M S S S S (1,6) (1,6) (2,6) (2,6) (3,6) (3,6) (4,6) (4,6) (1,6) (2,6) (3,6) (4,6) (1,6) (2,6) (3,6) (4,6) M S M S M S M S M M M M S S S S (1,7) (1,7) (2,7) (2,7) (3,7) (3,7) (4,7) (4,7) (1,7) (2,7) (3,7) (4,7) (1,7) (2,7) (3,7) (4,7) M S M S M S M S M M M M S S S S (1,8) (1,8) (2,8) (2,8) (3,8) (3,8) (4,8) (4,8) (1,8) (2,8) (3,8) (4,8) (1,8) (2,8) (3,8) (4,8) (a) Interleave (b) Block Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 14
  • 15. レイテンシ-スループット (Interleave) 200 Uniform 200 Complement 180 No DMR (5-port) 180 No DMR (5-port) 160 DMR (5-port) 160 DMR (5-port) No DMR (6-port) No DMR (6-port) 140 140 Latency [cycle] Latency [cycle] DMR (6-port) DMR (6-port) 120 120 100 100 80 80 60 60 40 40 20 20 0 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0 0.05 0.1 0.15 0.2 0.25 0.3 Injection Rate [flit/node/cycle] Injection Rate [flit/node/cycle] 200 Tornado 200 Neighbor 180 No DMR (5-port) 180 No DMR (5-port) 160 DMR (5-port) 160 DMR (5-port) No DMR (6-port) No DMR (6-port) 140 140 Latency [cycle] Latency [cycle] DMR (6-port) DMR (6-port) 120 120 100 100 80 80 60 60 40 40 20 20 0 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0 0.05 0.1 0.15 0.2 0.25 0.3 Injection Rate [flit/node/cycle] Injection Rate [flit/node/cycle] Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 15
  • 16. レイテンシ-スループット (Block) 200 Uniform 200 Complement 180 No DMR (5-port) 180 No DMR (5-port) 160 DMR (5-port) 160 DMR (5-port) No DMR (6-port) No DMR (6-port) 140 140 Latency [cycle] Latency [cycle] DMR (6-port) DMR (6-port) 120 120 100 100 80 80 60 60 40 40 20 20 0 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0 0.05 0.1 0.15 0.2 0.25 0.3 Injection Rate [flit/node/cycle] Injection Rate [flit/node/cycle] Tornado Neighbor 200 200 180 No DMR (5-port) 180 No DMR (5-port) 160 DMR (5-port) 160 DMR (5-port) No DMR (6-port) No DMR (6-port) 140 140 Latency [cycle] Latency [cycle] DMR (6-port) DMR (6-port) 120 120 100 100 80 80 60 60 40 40 20 20 0 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0 0.05 0.1 0.15 0.2 0.25 0.3 Injection Rate [flit/node/cycle] Injection Rate [flit/node/cycle] Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 16
  • 17. レイテンシ (Injection Rate=0.02) 1.4 ((DMR-NoDMR)/NoDMR) 1.2 Latency Overhead Interleave Block 1 0.8 5-port 12.4% 0.6 6-port 38.2% 0.4 25.8% 0.2 0 rm t do r rm t do r n en en bo bo ea na na fo fo em em gh gh M ni ni r r To ei To ei U U pl pl ric N N om om et m C C eo G 17 Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech
  • 18. 面積 n  デザインツール: Xilinx ISE 14.2 n  ターゲットデバイス: Xilinx Virtex-6 XC6VLX240T 3000 0.8 5-port 0.7 2500 ((6-port-5port)/5-port) 6-port 0.6 Area Overhead 2000 0.5 # entries 1500 0.4 0.3 1000 0.2 500 0.1 0 0 Slice Slice Reg LUT LUT RAM Slice Slice Reg LUT LUT RAM Advanced Router (6-port)は 62.9%大きなハードウェアを必要とする Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 18
  • 19. 議論 n  AdvancedがMinimalに対して62.9%のハードウェア量 が増加する理由? l  クロスバーの拡張 •  おおよそ20%大きな面積 •  加えてより複雑な仮想チャネルアロケータとスイッチアロケータ l  追加のマルチプレクサ •  入力ポートから比較器までを接続 l  独立したCopy buffer •  入力ポートの競合は減るけど・・・ n  これって12.4%のレイテンシ削減にペイしている? l  No. Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 19
  • 20. まとめ n  2つの高機能ルータマイクロアーキテクチャを比較 l  Minimal Router: 5-入力/出力のクロスバー l  Advanced Router: 6-入力/5-出力クロスバー n  Advanced Routerで12.4%のレイテンシ削減を達成可 能 n  しかし62.9%より大きなハードウェアが必要となる l  これって12.4%のレイテンシ削減にペイしていないですね・・・ l  複数の選択肢があるのは良いこと! Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 20