SlideShare a Scribd company logo
1 of 28
Download to read offline
2013年1月26日 14:00 – 17:00
SC論文読み会 @東工大

Mapping Applications with
Collectives over Sub-communicators
on Torus Networks (SC12)


                    著者:Abhinav Bhatele (LLNL), et al.
                発表者:高前田(山崎) 伸也 (東工大)
この論文を選んだ理由


n  実はうちの研究室でもスパコン向けタスク配置をやって
    いる
 l  あのテーマをSCに通すにはどんな感じの論文にすればいいんだ
     ろう?と興味がわいた


n  アプリには興味がないけど,スケジューリングとか配置
    とかで性能を高くするのは好き


n  絵がたくさん載っていて楽しそう


           Shinya Takamaeda-Y. Tokyo Tech   2
概要



n  スパコンにおける良いタスク配置を決定するためのツー
    ルに関する論文
 l  いくつかのシンプルなオペレーションでアプリケーションの配
     置を変更できる


n  2つのアプリケーションで評価
 l  pF3D: レーザープラズマ相互作用
 l  Qbox: 第1原理分子動力学




               Shinya Takamaeda-Y. Tokyo Tech   3
Introduction: タスク配置
n  「どのタスク」を「どのノード」に割り当てるか
        l  配置によってネットワークの使い方が変わる→性能が変わる


n  我々がやっているメニーコアの場合 (RMAP)

      Bitonic Sort       Matrix Multiply   Idle           Off-Chip Memory
                                                                                                               Normal    RMAP
                                                                                                      100000




                                                                            Elapsed cycle [K cycle]
                                                                                                               79775
                                                                                                      80000                     68921
                                                                                                                    76587
                                                                                                      60000                         68703

                                                                                                      40000

                                                                                                      20000

                                                                                                          0
                                                                                                               Bitonic Sort   Matrix Multiply
 (a) Normal Allocation                            (b) RMAP Allocation



                                                   Shinya Takamaeda-Y. Tokyo Tech                                                           4
Introduction: 従来手法について




n  通信するタスク間のホップ数を小さくするように配置
  l  ネットワークリンクの共有や混雑を減らすため



n  どんな時にこれは有効か?
  l  各タスクが少数のノードとPoint-to-Pointで通信する,かつ
  l  Global communicatorでcollective通信を行う場合




                   Shinya Takamaeda-Y. Tokyo Tech   5
Introduction: 問題点


n  スパコンのノード数とネットワークの直径は増加傾向
   l  Global communicatorではなくsub-communicatorを用いて
       collective通信を行うように


n  Sub-communicatorを用いる場合の最適なタスク配置
   l  Sub-communicator単位のグループでノードをまとめれば,
       ホップ数は削減できる
   l  グループ境界のハードウェアリンクが未使用となり,ネット
       ワークバンド幅の利用効率が制限される
   l  例えば,ただまとめるのではなく,ちょっとずらしたりすると
       使えるリンク数が増えてネットワーク性能が上がりそう


                   Shinya Takamaeda-Y. Tokyo Tech    6
Introduction: 本論文の貢献
n  N次元トーラスにおけるSub-communicatorを用いた
    Collective通信,特にall-to-allとbroadcastの性能向上を
    目指す
  l  複数の次元にまたがってトーラスのリンクを包み込むようにコ
      ミュニケータを配置することで,実効バンド幅を増やすことが
      でき,混雑を回避するための経路を提供することが可能になる
  l  直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれ
      よりもとても遅い


n  既存のライブラリはレイテンシを削減するためにホップ
    数を削減することにフォーカスしていたが,我々はより
    多くの次元のリンクを利用することによりバンド幅使用
    率を最大化する新しいツールRubikを提案する


                Shinya Takamaeda-Y. Tokyo Tech   7
リンク使用率とバンド幅の向上 (1)

n  ネットワークの端から端へのパスの数は
    ネットワークの次元が増えるにつれて増加
 l  うまく配置すればリンク共有と混雑は低減できるはず




           Shinya Takamaeda-Y. Tokyo Tech   8
リンク使用率とバンド幅の向上 (2)
n  Blue Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの
    性能
  l  リンク集中が少なくなると所要時間が短縮




                Shinya Takamaeda-Y. Tokyo Tech    9
リンク使用率とバンド幅の向上 (3)
n  Blue Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの
    性能
  l  リンク集中が少なくなると所要時間が短縮




                Shinya Takamaeda-Y. Tokyo Tech   10
リンク使用率とバンド幅の向上 (4)




n  戦略
  l  通信するタスクはplane/boxまたはmeshの角に配置し,
      一直線上に配置しない
  l  通信ペア間の距離を離してスペアのリンクの数を増やす
  l  包み込むようなトーラスリンクを追加の経路として使う (?)




              Shinya Takamaeda-Y. Tokyo Tech   11
The Rubik Mapping Tool




               Shinya Takamaeda-Y. Tokyo Tech   12
Partitioning Operations (1)
 n  4つのオペレーションでタスク群を分割
   l  div: 指定した個数に分割
   l  tile: 指定した大きさに分割
   l  mod: 指定した個数に分割し,インターリーブで交互に配置
   l  cut: それぞれの次元に施すオペレーションを指定




                 Shinya Takamaeda-Y. Tokyo Tech   13
Partitioning Operations (2)

 n  アプリケーションだけではなくネットワーク(ノード)
     も同じオペレーションで分割
   l  それぞれのグループのサイズがアプリケーションとネットワーク
       で同じであれば,自動的にマップできる




                 Shinya Takamaeda-Y. Tokyo Tech   14
Permuting Operations (1)

 n  2つのオペレーションがで配置をずらすことができる
   l  tilt: 回転
   l  zigzag: ジグザグにずらす




                  Shinya Takamaeda-Y. Tokyo Tech   15
Permuting Operations (2)




                Shinya Takamaeda-Y. Tokyo Tech   16
Permuting Operations (3)




                Shinya Takamaeda-Y. Tokyo Tech   17
Mapping A Lazer-Plasma Interaction Code (1)
 n  2D-FFTの計算とMPI_Alltoallが多く含まれる


 n  ベースラインの性能
   l  デフォルトのタスク配置: TXYZ
      •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置




                 Shinya Takamaeda-Y. Tokyo Tech   18
Mapping A Lazer-Plasma Interaction Code (2)
 n  ベースライン性能
   l  Weak-scalingで通信と計算の比率を比較
   l  ノード数の増加により通信オーバーヘッドが顕著化




                 Shinya Takamaeda-Y. Tokyo Tech   19
Mapping A Lazer-Plasma Interaction Code (3)


 n  2048コアにマッピング
   l  こんな簡単なコードで!




                 Shinya Takamaeda-Y. Tokyo Tech   20
Mapping A Lazer-Plasma Interaction Code (4)
 n  いくつかの配置におけるネットワーク利用状況




                 Shinya Takamaeda-Y. Tokyo Tech   21
Mapping A Lazer-Plasma Interaction Code (5)
 n  各配置におけるMPIにかかった時間
   l  TXYZがベースライン




                 Shinya Takamaeda-Y. Tokyo Tech   22
Mapping A Lazer-Plasma Interaction Code (6)
 n  各配置における性能
   l  通信レートと1イタレーションの時間




                 Shinya Takamaeda-Y. Tokyo Tech   23
Mapping A Lazer-Plasma Interaction Code (7)




                 Shinya Takamaeda-Y. Tokyo Tech   24
Mapping A First-Principles MD Code (1)
 n  計算インテンシブ,でも通信も多い


 n  ベースラインの性能
   l  デフォルトのタスク配置: TXYZ
     •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置




                Shinya Takamaeda-Y. Tokyo Tech   25
Mapping A First-Principles MD Code (2)

 n  2048コアにマッピング
   l  こんな簡単なコードで!




                Shinya Takamaeda-Y. Tokyo Tech   26
Mapping A First-Principles MD Code (3)

 n  性能の変化
   l  原子数512で40.0% (tiltY) の実行時間短縮
   l  原子数1728で16.2% (mod)の実行時間短縮




                  Shinya Takamaeda-Y. Tokyo Tech   27
まとめ



n  スパコンにおける良いタスク配置を決定するためのツー
    ルに関する論文
 l  いくつかのシンプルなオペレーションでアプリケーションの配
     置を変更できる


n  2つのアプリケーションで評価
 l  pF3D: レーザープラズマ相互作用
 l  Qbox: 第1原理分子動力学




               Shinya Takamaeda-Y. Tokyo Tech   28

More Related Content

Viewers also liked

助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」Shinya Takamaeda-Y
 
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011Shinya Takamaeda-Y
 
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)Shinya Takamaeda-Y
 
A CGRA-based Approach for Accelerating Convolutional Neural Networks
A CGRA-based Approachfor Accelerating Convolutional Neural NetworksA CGRA-based Approachfor Accelerating Convolutional Neural Networks
A CGRA-based Approach for Accelerating Convolutional Neural NetworksShinya Takamaeda-Y
 
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Shinya Takamaeda-Y
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討Shinya Takamaeda-Y
 
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようPythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようShinya Takamaeda-Y
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)Shinya Takamaeda-Y
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようShinya Takamaeda-Y
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)Shinya Takamaeda-Y
 
PythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングPythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングShinya Takamaeda-Y
 
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Shinya Takamaeda-Y
 
Zynq + Vivado HLS入門
Zynq + Vivado HLS入門Zynq + Vivado HLS入門
Zynq + Vivado HLS入門narusugimoto
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向Shinya Takamaeda-Y
 
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Shinya Takamaeda-Y
 

Viewers also liked (16)

助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
 
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
 
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
 
A CGRA-based Approach for Accelerating Convolutional Neural Networks
A CGRA-based Approachfor Accelerating Convolutional Neural NetworksA CGRA-based Approachfor Accelerating Convolutional Neural Networks
A CGRA-based Approach for Accelerating Convolutional Neural Networks
 
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討
 
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようPythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
 
PythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングPythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミング
 
Zynq+PyCoRAM(+Debian)入門
Zynq+PyCoRAM(+Debian)入門Zynq+PyCoRAM(+Debian)入門
Zynq+PyCoRAM(+Debian)入門
 
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討
 
Zynq + Vivado HLS入門
Zynq + Vivado HLS入門Zynq + Vivado HLS入門
Zynq + Vivado HLS入門
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
 
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
 

Similar to Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)

トランジスタ技術2012年7月号(198ページ)
トランジスタ技術2012年7月号(198ページ)トランジスタ技術2012年7月号(198ページ)
トランジスタ技術2012年7月号(198ページ)Tsuyoshi Horigome
 
集積回路が真の道具になるために
集積回路が真の道具になるために集積回路が真の道具になるために
集積回路が真の道具になるためにJunichi Akita
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Yoshiki Kouno
 
Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)
Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)
Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)masayukitakagi
 
Project calico introduction - OpenStack最新情報セミナー 2017年7月
Project calico introduction - OpenStack最新情報セミナー 2017年7月Project calico introduction - OpenStack最新情報セミナー 2017年7月
Project calico introduction - OpenStack最新情報セミナー 2017年7月VirtualTech Japan Inc.
 
200730material fujita
200730material fujita200730material fujita
200730material fujitaRCCSRENKEI
 
200625material naruse
200625material naruse200625material naruse
200625material naruseRCCSRENKEI
 
Quadcept v10.1.0 リリース
Quadcept v10.1.0 リリースQuadcept v10.1.0 リリース
Quadcept v10.1.0 リリースQuadcept
 
高精度線形代数演算ライブラリMPACK 0.8.0の紹介
高精度線形代数演算ライブラリMPACK 0.8.0の紹介高精度線形代数演算ライブラリMPACK 0.8.0の紹介
高精度線形代数演算ライブラリMPACK 0.8.0の紹介Maho Nakata
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawaRCCSRENKEI
 
ネットワークフローとその代表的な問題
ネットワークフローとその代表的な問題ネットワークフローとその代表的な問題
ネットワークフローとその代表的な問題紘也 金子
 
ウェブパフォーマンス計測の落とし穴
ウェブパフォーマンス計測の落とし穴ウェブパフォーマンス計測の落とし穴
ウェブパフォーマンス計測の落とし穴Taisuke Yamada
 
トランジスタ技術2012年5月号(209ページ)
トランジスタ技術2012年5月号(209ページ)トランジスタ技術2012年5月号(209ページ)
トランジスタ技術2012年5月号(209ページ)Tsuyoshi Horigome
 
Java でつくる 低レイテンシ実装の技巧
Java でつくる低レイテンシ実装の技巧Java でつくる低レイテンシ実装の技巧
Java でつくる 低レイテンシ実装の技巧 Ryosuke Yamazaki
 
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引きRapidRadioJP
 
Hough forestを用いた物体検出
Hough forestを用いた物体検出Hough forestを用いた物体検出
Hough forestを用いた物体検出MPRG_Chubu_University
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介NVIDIA Japan
 

Similar to Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12) (20)

Japan r.3
Japan r.3Japan r.3
Japan r.3
 
トランジスタ技術2012年7月号(198ページ)
トランジスタ技術2012年7月号(198ページ)トランジスタ技術2012年7月号(198ページ)
トランジスタ技術2012年7月号(198ページ)
 
集積回路が真の道具になるために
集積回路が真の道具になるために集積回路が真の道具になるために
集積回路が真の道具になるために
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話
 
Bee Style:Vol.037
Bee Style:Vol.037Bee Style:Vol.037
Bee Style:Vol.037
 
HPCフォーラム2015 B-2 LS-DYNAパフォーマンス研究 Yih-Yih Lin Ph.D
HPCフォーラム2015  B-2  LS-DYNAパフォーマンス研究 Yih-Yih Lin Ph.DHPCフォーラム2015  B-2  LS-DYNAパフォーマンス研究 Yih-Yih Lin Ph.D
HPCフォーラム2015 B-2 LS-DYNAパフォーマンス研究 Yih-Yih Lin Ph.D
 
Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)
Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)
Lisp Meet Up #27, 8-bit PIC マイコン用ネイティブコンパイラの作成(後編)
 
Project calico introduction - OpenStack最新情報セミナー 2017年7月
Project calico introduction - OpenStack最新情報セミナー 2017年7月Project calico introduction - OpenStack最新情報セミナー 2017年7月
Project calico introduction - OpenStack最新情報セミナー 2017年7月
 
200730material fujita
200730material fujita200730material fujita
200730material fujita
 
200625material naruse
200625material naruse200625material naruse
200625material naruse
 
Quadcept v10.1.0 リリース
Quadcept v10.1.0 リリースQuadcept v10.1.0 リリース
Quadcept v10.1.0 リリース
 
高精度線形代数演算ライブラリMPACK 0.8.0の紹介
高精度線形代数演算ライブラリMPACK 0.8.0の紹介高精度線形代数演算ライブラリMPACK 0.8.0の紹介
高精度線形代数演算ライブラリMPACK 0.8.0の紹介
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
ネットワークフローとその代表的な問題
ネットワークフローとその代表的な問題ネットワークフローとその代表的な問題
ネットワークフローとその代表的な問題
 
ウェブパフォーマンス計測の落とし穴
ウェブパフォーマンス計測の落とし穴ウェブパフォーマンス計測の落とし穴
ウェブパフォーマンス計測の落とし穴
 
トランジスタ技術2012年5月号(209ページ)
トランジスタ技術2012年5月号(209ページ)トランジスタ技術2012年5月号(209ページ)
トランジスタ技術2012年5月号(209ページ)
 
Java でつくる 低レイテンシ実装の技巧
Java でつくる低レイテンシ実装の技巧Java でつくる低レイテンシ実装の技巧
Java でつくる 低レイテンシ実装の技巧
 
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
[bladeRF + MATLAB/Simulink] SDRデバイス利用の手引き
 
Hough forestを用いた物体検出
Hough forestを用いた物体検出Hough forestを用いた物体検出
Hough forestを用いた物体検出
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介
 

More from Shinya Takamaeda-Y

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムShinya Takamaeda-Y
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモDNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモShinya Takamaeda-Y
 
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発Shinya Takamaeda-Y
 
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Shinya Takamaeda-Y
 
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Shinya Takamaeda-Y
 
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Shinya Takamaeda-Y
 
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)Shinya Takamaeda-Y
 
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...Shinya Takamaeda-Y
 
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...Shinya Takamaeda-Y
 
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)Shinya Takamaeda-Y
 
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発Shinya Takamaeda-Y
 
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...Shinya Takamaeda-Y
 
むかし名言集bot作りました!
むかし名言集bot作りました!むかし名言集bot作りました!
むかし名言集bot作りました!Shinya Takamaeda-Y
 
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化Shinya Takamaeda-Y
 
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...Shinya Takamaeda-Y
 

More from Shinya Takamaeda-Y (15)

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモDNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
 
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
 
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
 
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
 
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
 
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
 
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
 
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
 
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
 
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
 
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
 
むかし名言集bot作りました!
むかし名言集bot作りました!むかし名言集bot作りました!
むかし名言集bot作りました!
 
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
 
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
 

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Recently uploaded (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)

  • 1. 2013年1月26日 14:00 – 17:00 SC論文読み会 @東工大 Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12) 著者:Abhinav Bhatele (LLNL), et al. 発表者:高前田(山崎) 伸也 (東工大)
  • 2. この論文を選んだ理由 n  実はうちの研究室でもスパコン向けタスク配置をやって いる l  あのテーマをSCに通すにはどんな感じの論文にすればいいんだ ろう?と興味がわいた n  アプリには興味がないけど,スケジューリングとか配置 とかで性能を高くするのは好き n  絵がたくさん載っていて楽しそう Shinya Takamaeda-Y. Tokyo Tech 2
  • 3. 概要 n  スパコンにおける良いタスク配置を決定するためのツー ルに関する論文 l  いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用 l  Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 3
  • 4. Introduction: タスク配置 n  「どのタスク」を「どのノード」に割り当てるか l  配置によってネットワークの使い方が変わる→性能が変わる n  我々がやっているメニーコアの場合 (RMAP) Bitonic Sort Matrix Multiply Idle Off-Chip Memory Normal RMAP 100000 Elapsed cycle [K cycle] 79775 80000 68921 76587 60000 68703 40000 20000 0 Bitonic Sort Matrix Multiply (a) Normal Allocation (b) RMAP Allocation Shinya Takamaeda-Y. Tokyo Tech 4
  • 5. Introduction: 従来手法について n  通信するタスク間のホップ数を小さくするように配置 l  ネットワークリンクの共有や混雑を減らすため n  どんな時にこれは有効か? l  各タスクが少数のノードとPoint-to-Pointで通信する,かつ l  Global communicatorでcollective通信を行う場合 Shinya Takamaeda-Y. Tokyo Tech 5
  • 6. Introduction: 問題点 n  スパコンのノード数とネットワークの直径は増加傾向 l  Global communicatorではなくsub-communicatorを用いて collective通信を行うように n  Sub-communicatorを用いる場合の最適なタスク配置 l  Sub-communicator単位のグループでノードをまとめれば, ホップ数は削減できる l  グループ境界のハードウェアリンクが未使用となり,ネット ワークバンド幅の利用効率が制限される l  例えば,ただまとめるのではなく,ちょっとずらしたりすると 使えるリンク数が増えてネットワーク性能が上がりそう Shinya Takamaeda-Y. Tokyo Tech 6
  • 7. Introduction: 本論文の貢献 n  N次元トーラスにおけるSub-communicatorを用いた Collective通信,特にall-to-allとbroadcastの性能向上を 目指す l  複数の次元にまたがってトーラスのリンクを包み込むようにコ ミュニケータを配置することで,実効バンド幅を増やすことが でき,混雑を回避するための経路を提供することが可能になる l  直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれ よりもとても遅い n  既存のライブラリはレイテンシを削減するためにホップ 数を削減することにフォーカスしていたが,我々はより 多くの次元のリンクを利用することによりバンド幅使用 率を最大化する新しいツールRubikを提案する Shinya Takamaeda-Y. Tokyo Tech 7
  • 8. リンク使用率とバンド幅の向上 (1) n  ネットワークの端から端へのパスの数は ネットワークの次元が増えるにつれて増加 l  うまく配置すればリンク共有と混雑は低減できるはず Shinya Takamaeda-Y. Tokyo Tech 8
  • 9. リンク使用率とバンド幅の向上 (2) n  Blue Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l  リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 9
  • 10. リンク使用率とバンド幅の向上 (3) n  Blue Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l  リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 10
  • 11. リンク使用率とバンド幅の向上 (4) n  戦略 l  通信するタスクはplane/boxまたはmeshの角に配置し, 一直線上に配置しない l  通信ペア間の距離を離してスペアのリンクの数を増やす l  包み込むようなトーラスリンクを追加の経路として使う (?) Shinya Takamaeda-Y. Tokyo Tech 11
  • 12. The Rubik Mapping Tool Shinya Takamaeda-Y. Tokyo Tech 12
  • 13. Partitioning Operations (1) n  4つのオペレーションでタスク群を分割 l  div: 指定した個数に分割 l  tile: 指定した大きさに分割 l  mod: 指定した個数に分割し,インターリーブで交互に配置 l  cut: それぞれの次元に施すオペレーションを指定 Shinya Takamaeda-Y. Tokyo Tech 13
  • 14. Partitioning Operations (2) n  アプリケーションだけではなくネットワーク(ノード) も同じオペレーションで分割 l  それぞれのグループのサイズがアプリケーションとネットワーク で同じであれば,自動的にマップできる Shinya Takamaeda-Y. Tokyo Tech 14
  • 15. Permuting Operations (1) n  2つのオペレーションがで配置をずらすことができる l  tilt: 回転 l  zigzag: ジグザグにずらす Shinya Takamaeda-Y. Tokyo Tech 15
  • 16. Permuting Operations (2) Shinya Takamaeda-Y. Tokyo Tech 16
  • 17. Permuting Operations (3) Shinya Takamaeda-Y. Tokyo Tech 17
  • 18. Mapping A Lazer-Plasma Interaction Code (1) n  2D-FFTの計算とMPI_Alltoallが多く含まれる n  ベースラインの性能 l  デフォルトのタスク配置: TXYZ •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 18
  • 19. Mapping A Lazer-Plasma Interaction Code (2) n  ベースライン性能 l  Weak-scalingで通信と計算の比率を比較 l  ノード数の増加により通信オーバーヘッドが顕著化 Shinya Takamaeda-Y. Tokyo Tech 19
  • 20. Mapping A Lazer-Plasma Interaction Code (3) n  2048コアにマッピング l  こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 20
  • 21. Mapping A Lazer-Plasma Interaction Code (4) n  いくつかの配置におけるネットワーク利用状況 Shinya Takamaeda-Y. Tokyo Tech 21
  • 22. Mapping A Lazer-Plasma Interaction Code (5) n  各配置におけるMPIにかかった時間 l  TXYZがベースライン Shinya Takamaeda-Y. Tokyo Tech 22
  • 23. Mapping A Lazer-Plasma Interaction Code (6) n  各配置における性能 l  通信レートと1イタレーションの時間 Shinya Takamaeda-Y. Tokyo Tech 23
  • 24. Mapping A Lazer-Plasma Interaction Code (7) Shinya Takamaeda-Y. Tokyo Tech 24
  • 25. Mapping A First-Principles MD Code (1) n  計算インテンシブ,でも通信も多い n  ベースラインの性能 l  デフォルトのタスク配置: TXYZ •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 25
  • 26. Mapping A First-Principles MD Code (2) n  2048コアにマッピング l  こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 26
  • 27. Mapping A First-Principles MD Code (3) n  性能の変化 l  原子数512で40.0% (tiltY) の実行時間短縮 l  原子数1728で16.2% (mod)の実行時間短縮 Shinya Takamaeda-Y. Tokyo Tech 27
  • 28. まとめ n  スパコンにおける良いタスク配置を決定するためのツー ルに関する論文 l  いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用 l  Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 28