Your SlideShare is downloading. ×
Janogia20120921 matsuokasatoshi
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Janogia20120921 matsuokasatoshi

1,694

Published on

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,694
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
17
Comments
0
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 50GFLops/W, PUE < 1, 100KW/ラックに挑戦するTSUBAME3.0およびエクサへのグリーンスパ コン取り組み 東京工業大学 学術国際情報センター 教授 松岡 聡 2012年9月21日 インターネットアーキテクチャ研究会招待講演
  • 2. 現代版Mooreの法則では「2年で2倍」 “Performance per server and performance per thousand dollars of purchase cost double every two years or so, which tracks the typical doubling time for transistors on a chip predicted by the most recent incarnation of Moore’s law” 主な問題は「電力」Source: Assessing trends over time in performance, costs,and energy use for servers, Intel, 2009.
  • 3. 我々のCREST ULP-HPC全体スキーム (提案3) 自動チューニング共通基盤 (須田@東大) Ultra Multi-Core Slow & Parallel ULP-HPC ABCLibScript: アルゴリズム選択 モデルと実測の Bayes 的融合 (& ULP) SIMD-Vector (GPGPU, etc.) 実行起動前自動チューニング指定、 アルゴリズム選択処理の指定 • Bayes モデルと事前分布 モデルによる !ABCLib$ static select region start !ABCLib$ parameter (in CacheS, in NB, in NPrc) yi ~ N ( µ i , σ ) i 2 所要時間の推定 !ABCLib$ select sub region start コスト定義関数で使われる 入力変数 !ABCLib$ according estimated µi | β , σ i2 ~ N ( xiT β , σ i2 / κ 0 ) !ABCLib$ (2.0d0*CacheS*NB)/(3.0d0*NPrc) コスト定義関数 σ i2 ~ Inv - χ 2 (v0 , σ 02 ) !ABCLib$ 対象1(アルゴリズム1) select sub region end 所要時間の実測データ MRAM • n 回実測後の事後予測分布 !ABCLib$ !ABCLib$ select sub region start according estimated 対象領域1、2 yi | ( yi1 , yi 2 ,  , yin ) ~ tν n ( µin , σ κ n +1 / κ n ) 2 !ABCLib$ (4.0d0*ChcheS*dlog(NB))/(2.0d0*NPrc) 0 in PRAM 対象2(アルゴリズム2) ν n = ν 0 + n, κ n = κ 0 + n, µ n = (κ 0 xiT β + nyi ) / κ n !ABCLib$ select sub region end !ABCLib$ static select region end = ν 0σ 0 + ∑ ( ym − yi ) 2 + κ 0 n( yi − xiT β ) 2 / κ n ULP-HPC Flash 省電力高性能 ν σ 1 2 2 n n 1 ∑ yim Networks yi = etc. ソフト機構・モデル化 電力性能比 n の最適化(提案1) ULP-HPC用次世代SW/HW要素利用 技術およびモデル化 Power Perf (松岡@東工大・本多@電通大、鯉渕@NII) 最適点 10倍のエネルギー 性能効率達成 0 省電力高性能 アルゴリズム・モデル化 (提案2) 超省電力型のHPCアプリケーション 2016年 TSUBAME 及びアルゴリズム(青木@東工大) 1/1000に
  • 4. 10年で電力性能比1000倍の目標 100000 ULPHPCMflops/Watt (single precision) Moore プロセスルール改良・ Intel report Moore’s Lawだけでは 10000 10年で100倍 Phase-Field on TSUBAME2: 1.4MFlops/W 1000倍とのギャップを 1000 埋めるのがULP-HPC 技術 100 2004 2006 2008 2010 2012 2014 2016 2018 Year (グラフは冷却電力向上分を除く)
  • 5. 省電力化の手法と有効性 エンタープライズ・ビジネス・ク 情報基盤/手法 ラウド HPC(組込に類似) 仮想化による統合化 (Server Consolidation) ○ × DVFS(Differential Voltage/Frequency Scaling) ○ ▲ 新デバイス △ ○ (コストや継続性) 新アーキテクチャ △ ○ (コストや継続性) 冷却技術 ○ △ (ただし高熱密度)
  • 6. 1000倍の想定内訳 プロセスルール縮小 100倍 ×メニーコア・GPU活用技術 5倍 ULP-HPCの × 主研究対象 動的電力制御技術 1.5倍 × 冷却電力の削減 1.4倍 ウルトラグリーン ↓ スパコン(後述) 1000倍
  • 7. TSUBAME2.0 2010年11月1日稼働開始我が国最高性能・初のペタフロップススパコン メーカーと 新規開発7
  • 8. TSUBAME2.0デザインのハイライト (2010年11月稼働) NEC-HP-東工大 2.4 PF Next gen multi-core x86 + next gen GPGPU  1432 nodes, Intel Westmere/Nehalem EX  4224 NVIDIA Tesla (Fermi) M2050 GPUs  ~100,000 total CPU and GPU “cores”, High Bandwidth  1.9 million “CUDA cores”, 32K x 4K = 130 million CUDA threads(!) 0.72 Petabyte/s aggregate mem BW,  Effective 0.3-0.5 Bytes/Flop, restrained memory capacity (100TB) Optical Dual-Rail IB-QDR BW, full bisection BW(Fat Tree)  200Tbits/s, Likely fastest in the world, still scalable Flash/node, ~200TB (1PB in future), 660GB/s I/O BW  >7 PB IB attached HDDs, 15PB Total HFS incl. LTO tape Low power & efficient cooling, comparable to TSUBAME 1.0 (~1MW); PUE = 1.28 (60% better c.f. TSUBAME1) Virtualization and Dynamic Provisioning of Windows HPC + Linux, job migration, etc. NEC Confidential
  • 9. Tsubame2.0 (2010-14) x30 speedup c.f. Tsubame 1 (2006-2010) 2.4 Petaflops, 1408 nodes ~50 compute racks + 6 switch racks Two Rooms, Total 160m21.4MW (Max, Linpack), 0.48MW (Idle)
  • 10. グリーンスパコン:HP Modular Cooling System G2 による高密度実装・水冷キャビネット冷却•ラック内に熱交換システムを内蔵 した密閉型水冷システム•高密度な冷却が可能・ラックあた り最大35kW(世界最高) 通常のデータセンターの10倍!!•サーバの吸入口に均質な冷却風 を提供•ドア平開は自動化・加湿不要•完全自動温度制御による最適な 消費電力点の制御•95% から 97% の熱を水冷で除 去•PUE = 1.28以下
  • 11. Performance Comparison of CPU vs. GPU 1750 GPU 200 GPUPeak Performance [GFLOPS] Memory Bandwidth [GByte/s] 1500 160 1250 1000 120 750 80 500 CPU CPU 250 40 0 0 x5-6 socket-to-socket advantage in both compute and memory bandwidth
  • 12. NVIDIA Fermi Many Core, Multhreaded, SIMD-Vector, MIMD Parallel Architecture(Figure by Kazushige Goto)
  • 13. From TSUBAME 1.2 to 2.0: From CPU Centric to GPU Centric Nodes for Scaling High Bandwidth in Network & I/O!! GDDR5 GPU 150GB STREAM 3-6 GB per socket CPU “Centric” Vector ~200W CPU Roles DDR3 - OS 15-20GB STREAM Core Dataset “These are - Services persocket Core Vector Isomorphic - Irregular 2GB/core Dataset Parallel Sparse but much higher BW” - “Mixed” Algorithms IOH PCIe x16 PCIe x8 4GB/s ~200W 2GB/s PCIe x8 IOH IOH 54GB 2GB/s x n40Gbps IB IB QDR CPU HCA GPU 1GB IB QDR IB QDR Flash 200GB HCA HCA 400MB/s 40Gbps IB x n Fat I/O
  • 14. SL390 Compute NodeCollaborative Development w/HP3 GPUs, 2CPUs, 50-100GB Mem 120-240GB SSD, QDR-IB x 2 NEC Confidential
  • 15. TSUBAME2.0 Compute Nodes Thin 1.7 TFLOPS 400GB/s Mem 1408nodes: Node 4224GPUs:59,136 SIMD Vector Cores, 2175.36TFlops (Double FP)Infiniband QDRx2 (80Gbps) 2816CPUs, 16,896 Scalar Cores: 215.99TFlops Total: 2391.35TFLOPSHP SL390G7 (Developed forTSUBAME 2.0) Memory: 80.6TB (CPU) + 12.7TBGPU: NVIDIA Fermi M2050 x 3 (GPU) 515GFlops, 3GByte memory /GPUCPU: Intel Westmere-EP 2.93GHz x2 SSD: 173.9TB(12cores/node)Memory: 54, 96 GB DDR3-1333SSD:60GBx2, 120GBx2 Total Perf IB QDR PCI-e Gen2x16 x2 34 nodes: 2.4PFlops NVIDIA Tesla 8.7TFlopsHP 4 Socket Server S1070 GPU Mem: ~100TBCPU: Intel Nehalem-EX 2.0GHz x4 Memory: SSD: ~200TB(32cores/node) 6.0TB+GPUMemory: 128, 256, 512GB DDR3-1066SSD:120GB x4 (480GB/node) SSD: 16TB+ NEC Confidential 4-1
  • 16. Full Bisection Multi-Rail Optical Network and High Performance Storage GP GPUCopyright © Takayuki Aoki / Global Scientific Information and Computing Center, Tokyo Institute of Technology
  • 17. 3500 Fiber Cables > 100Kmw/DFB Silicon PhotonicsEnd-to-End 6.5GB/s, > 2usNon-Blocking 200Tbps Bisection NEC Confidential
  • 18. Comparing the Networks L L L L L L L L L L L L L L L L L L L L L 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 L L L L L L L L 2 2 2 2 2 2 2 2 L L L L L L L L L L L L L L L L L L L L 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ES1 TSUBAME2.0 K Computer12.8GB/s Link IB QDRx2 (4+4)GB/s Link 5GB/s Link 5us latency 2us latency ?us latencyFull Crossbar Full Bisection Fat Tree 6-D Torus ~8TB/s ~25TB/s Bisection BW ~30TB/s (???)Bisection BW NEC Confidential Bisection BW
  • 19. 低炭素社会に向けて構造物の軽量・高強度化材料特性はミクロ構造で決定ミクロ構造は凝固過程が支配的 樹枝状結晶(デンデライト)
  • 20. ペタスケール計算の必要性従来の計算 従来の1000倍以上の大規模計算が必要2次元計算 TSUBAME 2.0 で計算3次元計算 単一デンデライト 数mmサイズ 20
  • 21. 弱スケーリング 4096 x 6400 x 12800 □ GPU-Only 4000 (40 x 100) GPUs (No overlapping) 16,000 CPU cores ◯ Hybrid-YZ (y,z boundary by CPU) ▲ Hybrid-Y (y boundary by CPU) Hybrid-Y method 2.0000045 PFlops GPU: 1.975 PFlops single precision CPU: 24.69 Efficiency 44.5% TFlops (2.000 PFlops / 4.497 PFlo• Mesh size: 4096 x160x128/GPU NVIDIA Tesla M2050 card / Intel Xeon X5670 2.93 GHz on TSUBAME 2.0 21
  • 22. TSUBAME2 効率 44.5%4000GPU+CPU (2.000 PFlops / 4.497 PFlops)2.0000045 PFlops 電力 1.47GFlops/WGPU: 1.975 PFlops (「京の」数分の1?)CPU: 24.69 TFlops
  • 23. Power Efficiency• The power consumption by application is measured in detail.• Our phase-field simulation (real application)  2.000 PFlops (single precision)  Performance to the peak: 44.5%  Green computing: 1468 MFlops/W ~1.36 MWSimulation results by much lesselectrical power than before. Ref. Linpack  1.192 PFlops (DP)  Efficiency 52.1%  827.8 MFlops/W 23
  • 24. 2011 Gordon Bell 賞奨励賞 Multiphysics Biofluidics Simulation [Bernaschi et. al., IAC-CNR Italy ] To understand real-life biofluidics problems, simulations of blood flows that accounts for from red blood cells to endothelial stress are conducted Strong Scaling Results on TSUBAME2.0 Elapsed time per timestep for 1G mesh nodes and 450M RBCs (log scale) Parallel efficiency for 110, 220, 450M RBCs Multiphyics simulation ~80% with with MUPHY software 4K GPUs Fluid: Blood Body: Red blood plasma cellLattice Boltzmann coupledExtended MD 0.6PFlops with 4,000GPUsIrregular mesh is Red blood cells for 1G mesh nodes, 450M RBCsdivided by using PT- (RBCs) are A complete heartbeat atSCOTCH tool, represented as microsecond resolution canconsidering cutoff ellipsoidal be simulated in 48hours
  • 25. CARDIOVASCULAR HEMODYNAMICS on TSUBAME2.0 (Work by Bernaschi et. al., IAC-CNR, Italy)CT Scan + Simulation => Predictive Clinical Analysis of Cardiovascular Diseases
  • 26. Results on Tsubame2 Supercomputer (2) : Using 4,000 GPUs Strong Scaling Results Elapsed time per timestep for 1G mesh nodes and 450M RBCs (log scale) Parallel efficiency for 110, 220, 450M RBCs ~80% with 4K GPUs Speeds per Component 0.6PFlops with 4,000GPUs for 1G mesh nodes, 450M RBCs A complete heartbeat at microsecond resolution can be simulated in 48hours
  • 27. FDTD Simulation of Wave Propagation • Finite-Difference Time Domain (Okamoto et al. 2010) – Topography, ocean layer, and heterogeneity – Grid size: 6400 x 3200 x 1600 – Grid spacing: 150 m – Time interval: 0.005 s – 1000 GPUs of TSUBAME-2.0 – Preliminary source model • VisualizationMain part of the FDM region – Vertical ground motion on land ocean bottom
  • 28. Real City AtmosphereTokyo 六本木 Area Landscape and Building Data 2m resolution 3000x3000x256 29
  • 29. 30
  • 30. 一億原子の分子動力学 実験条件• NAMD on GPU (イリノイ大) のスケーラビリティを TSUBAME2.0上で評価• The 100-million-atom benchmark in this work was assembled by replicating a million-atom satellite tobacco mosaic virus (STMV) simulation on a 5x5x4 grid.• One STMV (Satellite Tobacco Mosaic Virus) includes 1,066,628 atoms.• NPT emsemble• 1 time step = 1femto second• Particle Mesh Ewald (PME)
  • 31. 4.7 times faster than CP 3.2 times efficient than CPUsPerformance Evaluation
  • 32. Graph500 (http://www.graph500.org/) 超大規模グラフの探索能力で計算機を評価する新しいベンチマーク  現在の指標 TEPS(Traversed Edges Per Second)  多様な応用分野 (Cybersecurity, Medical Informatics, Social Networks, Data Enrichment, Symbolic Networks)  三つのカーネル  concurrent search(Breadth First Search : BFS)  optimization (Single Source Shortest Path)  edge-oriented (Maximal Independent Set)  超大規模グラフへの適用  省電力性を競う Green Graph500 ベンチマーク  http://green.graph500.org/ • 人工的に生成した Kronecker Graph に対する幅優先探索 (BFS) 性能 – 平均次数が 16 (=m/n) の重みなし無向グラフ(平均次数 32 の有向グラフとして扱う) – パラメータ SCALE を用いてグラフ規模を 点数 2SCALE 枝数 2SCALE + 4 と決定する – 例)SCALE30 のとき、10 億点 172 億枝の無向グラフ(有向:344 億枝)Input parameters Graph Graph• SCALE BFS Validation results Generation Construction 64 iterations• edgefactor (=16) • メインメモリに対する質(速度)・量の両面への厳しい要求 – 高速化だけでなく、省メモリ化も十分に考慮する必要がある
  • 33. The 4th Graph500 List (Jun2012) TSUBAME #4 in the World! Toyotaro Suzumura, Koji Ueno, Tokyo Institute of Technology #4 (Tsuname2.0)Applicable to Big Data Science, SNS Analysis, Smart Grid…
  • 34. TSUBAME2.0へのグリーンプロジェクトの 成果の反映• GPU中心の2.4 PF我が国最速・世界4位のスパコン – 1432 nodes, Intel Westmere/Nehalem EX – 4224 NVIDIA Tesla (Fermi) M2050 GPUs – ~76,600 total CPU and GPU “cores”, High Bandwidth – 活用するソフト・アプリ・最適化の研究⇒電力効率世界一?(後述)• 省電力運用のための仕組みが随所 – I/O・ネットワークの新デバイス採用(マルチDFB発光素子一体型ケー ブル・SSDデバイス等)による省電力化 – ノード・ラック・配電版など随所の電力センサーネットワーク – 大量の温度センサー(ノード18個=>全体で2万個以、ファンセンサー…) – ノード単位の電力キャップ・高効率冷却ノード設計 – 密閉型水冷ラック/チラー (35KW => PUE=1.28以下)• 今後さらなるULP-CRESTの成果の適用 – 開発された高性能・省電力GPUライブラリ等の利用 – 省電力自動チューニング35 – 省電力スケジューリング(温度感知=>マイグレーション)
  • 35. グリーンスパコン: 環境監視システム 各計算ノード,ラック,及び計算機室の温度情報・消費 電力等を監視する「環境監視システム」. センサー情報及び各計算ノードの情報をオンラインでモニタリン グ  温度情報(温度センサーから取得)  ヘルスチェック結果,サービス提供状況,故障の有無  消費電力(各ノード・及び各分電盤から取得) 特定の電力でのパワーキャップ機能も (Top500計測でも活用) 各種センサー情報 各ノードの利用電力 の設定を行う. 分電盤 分電盤 量,温度情報を採取. 各ノードのヘルス 管理端末から必用な情 またセンサーから 温度セン チェック結果を採取 サー 報をフィルタリングし,環 の情報を採取する ストレージ 各ラック単位の温度 境監視DBに格納 ための機能を有す 計算機 情報を採取. ラック る. 【SNMPなど】 変換 管理端末 吸気温度情報 環境監視DB 処理 を採取 ネットワーク 【SNMPなど】 空調機 環境監視システム ラック オペレーション 分電盤 分電盤 消費電力情報 を採取 【SNMPなど】 管理者 4-52
  • 36. 2010年11月Top500, Green500において TSUBAME2.0上位入賞• 省エネ性能958MFlops/W⇒世界2位!! – Greenest Production Supercomputer in the World賞獲得!!• 演算性能1.192PFlops ⇒ 世界4位!! – 日本のスパコンで10位以内は4年ぶり,5位 以内は5年ぶり
  • 37. 今のトップクラススパコンは 超省電力 6.6万倍高速 3倍省エネ << 4.4万倍データLaptop: SONY Vaio type Z (VPCZ1) Supercomputer: TSUBAME 2.0CPU: Intel Core i7 620M (2.66GHz) CPU: 2714 Intel Westmere 2.93 GhzMEMORY: DDR3-1066 4GBx2 GPU: 4071 nVidia Fermi M2050OS: Microsoft Windows 7 Ultimate 64bit MEMORY: DDR3-1333 80TB + GDDR5 12TBHPL: Intel(R) Optimized LINPACK Benchmark for OS: SuSE Linux 11 + Windows HPC Server R2Windows (10.2.6.015) HPL: Tokyo Tech Heterogeneous HPL256GB HDD 11PB Hierarchical Storage18.1 ギガ(109)フロップス 1.192 ペタ(1015)フロップス369 メガ(106)フロップス / Watt 1037 メガ(106)フロップス / Watt
  • 38. TSUBAME2.0 電力消費 (Jaguar比 4-5倍) Compute nodes Storage Cooling Total (kW) & Interconnect (kW) (kW) (kW)アイドル時 530 70 200 800平均的運用時 680 70 230 980Graph500 (CPU) 902 75 346 1323Earthquake sim. 550/903 72 345 1320(700nodes)ASUCA Weather 960 78 270 1308NAMD 706/1115 72 340 1527(700nodes)Turblence Sim. 1190 72 240 1502Phase-field 1362 73 294 1729Linpack 1417 - - -GPU DGEMM 1538 72 410 2020
  • 39. JST-CRTESTでの緊急研究:TSUBAME2.0電力危機対応 3・11東日本大震災 • 地震自体の,マシンへの影響 はなかったが・・・ • 東電原発事故による関東地 方の電力不足のため,運用を 大きく変更 – 三月の計画停電 – 政府・大学による節電要請 • TSUBAME2はキャンパスの約 10%の電力 (1~1.7MW)を消費
  • 40. ほどこした電力危機対応運用• 計画停電対応• リアルタイム電力可視化• ピークシフト運用• 短時間ジョブキュー運用 運用開始 震災発生 “ピークシフト”“短時間ジョブ 通常 運用 キュー”導入 運用 稼働CPU数
  • 41. ピークシフト運用の結果 • 4/25~6/8, 7/1~7/24にかけて運用5/12~6/8 CPU 7/4~ CPU5/12~6/8 Power 7/4~ Power 目標電力 787kW• ほとんど全日昼間において,目標電力以下とできた – 5月はやや保守的すぎ
  • 42. 37th List: The TOP10 Rmax PowerRank Site Manufacturer Computer Country Cores [Pflops] [MW] RIKEN Advanced K Computer 1 Institute for Fujitsu SPARC64 VIIIfx 2.0GHz, Japan 548,352 8.162 9.90 Computational Science Tofu Interconnect National Tianhe-1A 2 SuperComputer Center NUDT NUDT TH MPP, China 186,368 2.566 4.04 3 業界紙HPC Wire誌にTSUBAME2は in Tianjin Oak Ridge National Cray Jaguar Xeon 6C, NVidia, FT-1000 8C USA 224,162 1.759 6.95 Laboratory Cray XT5, HC 2.6 GHz 4 「総合力で世界#1のスパコン」との記事 1.271 National Supercomputing Centre Dawning Nebulae TC3600 Blade, Intel X5650, China 120,640 2.58 in Shenzhen NVidia Tesla C2050 GPU TSUBAME-2 GSIC, Tokyo Institute of 5 NEC/HP HP ProLiant, Xeon 6C, NVidia, Japan 73,278 1.192 1.40 Technology Linux/Windows Cielo 6 DOE/NNSA/LANL/SNL Cray USA 142,272 1.110 3.98 Cray XE6, 8C 2.4 GHz NASA/Ames Research Pleiades 7 SGI USA 111,104 1.088 4.10 Center/NAS SGI Altix ICE 8200EX/8400EX DOE/SC/ Hopper 8 Cray USA 153,408 1.054 2.91 LBNL/NERSC Cray XE6, 6C 2.1 GHz Commissariat a Tera 100 9 lEnergie Atomique Bull Bull bullx super-node France 138.368 1.050 4.59 (CEA) S6010/S6030 Roadrunner10 DOE/NNSA/LANL IBM USA 122,400 1.042 2.34 BladeCenter QS22/LS21
  • 43. 2004 2008 2012 2016 2020 Exaflop Petaを達成したが中国に抜か れた米国は2018-2020 Exa(1018)flopへ驀進を開始 Peter Koggeらによる 300ページのDoD Exascaleシステムの レポート DoE Exascale 2000-5000億円の6アプリ分野のExascale 十年計画Workshop(2008-2009) 軽量なsimple coreが2020年頃 有望だが、1~10億の並列性 Denard Scalingの終焉
  • 44. 50GFlops/W Will Proliferate Supercomputing Across IT#1 1994 #1 1997 #1 2001 #1 2008
  • 45. 46 DoE Exascale 性能指標と信頼性に 対する要求System “2010” “2015” “2018-20” EXAattributes TSUBAME2.0 TSUBAME3.0System peak 2 PetaFlops 100-200 1 ExaFlop PetaFlopsPower Jaguar TSUBAME 15 MW 20 MW 6 MW 1.3 MWSystem Memory 0.3PB 0.1PB 5 PB 32-64PBNode Perf 125GF 1.6TF 0.5TF 7TF 1TF 10TFNode Mem BW 25GB/s 0.5TB/s 0.1TB/s 1TB/s 0.4TB/s 4TB/sNode Concurrency 12 O(1000) O(100) O(1000) O(1000) O(10000)#Nodes 18,700 1442 50,000 5,000 1 million 100,000Total Node 1.5GB/s 8GB/s 20GB/s 200GB/sInterconnect BWMTTI O(days) O(1 day) O(1 day)
  • 46. エクサ(1018)フロップスは驚異的な数字 種々の物理限界の問題が一気に噴出• CPUコア数:10億 c.f. 2011年の全世界スマホ 低消費電力 販売台数4億台• ノード数:10万以上 c.f. 京8.8万ノード ~100万 Google全体 90万ノード• メモリ: 数百ペタ~エクサバイト c.f. 2011年の全世界 全出荷PC(約3億台)全メモリが約エクサバイト ちなみに 264=1.8x1019• ストレージ: 数エクサバイト c.f. Gmail 全ストレージ 1.5 エクサバイト程度 (2億人強x7GB)• 今のスパコンと同程度の消費電力(20MW)、故障率(負荷 100%でも全システム連続稼働)、プログラミングの容易さ (10億並列)、コスト…等で2018年に実現???
  • 47. 今後のInfinibandのRoadmap
  • 48. アーキテクチャ技術開発目標 (インターコネクトとI/O)High-radix型トポロジ Low-radix 型トポロジ  レイテンシ  レイテンシ  隣接最短: 200ns  隣接最短: 100ns  隣接最長: 1000ns  隣接最長: 200ns  システム直径: 1000ns  システム直径: 5000ns  バンド幅  バンド幅  Injectionバンド幅: 32GB/s  Injectionバンド幅: 128 GB/s  Bisectionバンド幅: 2.0PB/s  Bisectionバンド幅: 0.13PB/s <Dragonflyの例> <4Dトーラスの例> Cabinet #0 #1 #31 I/O #0 P P ・・・ P P P I/O P P ・・・ P ・・・ ・・・ ・・・ Nod Nod Nod P P ・・・ P S S S S S e e ・・・ e W W W W W SW SW SW P ・・・ P P ・・・ P P P ・・・ P Cabinet #32 #33 #63 I/O #1 ・・・ ・・・ ・・・ ・・・ Group #0 #1 #2 #3 #255 I/O P ・・・ 複数cabinetでgroupを形成、別にI/O用のラックを接続 Cabinet #992 #993 #1023 I/O #31京とは異なりTSUBAME2.0ではシリコンフォトニッ Luxtera 40G single CMOS DieクスによるHigh Radix型を採用→トーラスのLow Silicone Photonics Radixと比較して高いアプリスケーラビリティ Used in TSUBAME2.0 バンド幅の進化はMoore則以下でよい 日本でも十分リード可能 Anton流レーテンシ低下に高い可能性
  • 49. TSUBAME2.0のIBネットワーク 仕様と実際の性能• 仕様 – Dual-rail InfiniBand QDR • ネットワークが2つ独立に存在しており、 各ノードはそれぞれに40Gbpsで接続されている (実質ノードあたり80Gbps = 10GB/s) – Thinノードの合計バンド幅: 約220Tbps• 実際のpoint-to-point性能 – MPI ping-pong レイテンシ: 約2μs – MPI ping-pong バンド幅: 約6400MB/s – MPI send-recv バンド幅: 約7700MB/s
  • 50. 今回、Tsubame2で用いたptical Active Cable(Luxtera製LUX5010) ※Tsubame2では、エッジスイッチとコアスイッチ間で、15m、20m、30m、50m、 70mの光ケーブルで採用 性能関連 Optical Active Cable Active Optical Cable Plug  転送レート:10.3125Gbps/CH  CH数: 4CH、双方向  ケーブル性能: 40Gbps/Cable(10GBps x 4) InfinibandBのQDR(40Gbps)を有効に 適合ファイバ: シングルモードファイバ(G.657準拠)  波長: 1490nm: 複数部品を1Chip LSI ⇒ 信頼性向上、コスト削減でシリコンフォトニクスを採用。 これにより、波長はシリコン内の透過率が高い1500nmの近くで、 FTTHで広く使われている1490nmの波長で、DFB光源、 伝播モード:シングルモード マルチモードよりも減衰率が低く、信頼性の高いシングルモードを採用した ことで、高性能、高信頼性の維持。 Tsubame2は1ビル内に設置⇒低曲げ損失シングルモードG.657を採用
  • 51.  性能関連(続き)  波長(続き): シリコンフォト 10G SFP+ トランシーバ機能 4個分を 1Chip CMOS LSI化 CMOS 1Chip化により、信頼性向上、消費電力低減、高密度実装、低コスト 40G single CMOS Die Metal 1 Poly Gate Salicide Block Contacts Ge Field Oxide Active Si Buried Oxide 光導波路 Si Substrate
  • 52. Tsubame2 Infinibandネットワーク Voltaire 4700 Coreスイッチ HP SL390G7 Voltaire 4036E (324ポート) x 12台 1408台 Edgeスイッチ (36ポート) x 179 Infiniband Infiniband Cupper Cable Active Optical Cable Oversubscribed Dual-Rail Fat-Tree Topology IB HCA LSI内蔵 Switch LSI内蔵 Switch LSIをCLOS3(1LSI:ConnectX-2) (1LSI:InfiniScaleIV) トポロジーでスイッチ内接続 (Fat Tree)
  • 53. Fat-Treeでもルーティングが悪いと… Core Switch Edge Switch Edge Switch• 上流のスイッチ間のリンクに負荷の不均衡が起こると、 そこがボトルネックになって通信速度が低下する• 通信するノードが増えるのにしたがって、衝突する リンクも増える
  • 54. ルーティングアルゴリズムの変更• 以下のルーティングアルゴリズムの性能を検証 – Updn • TSUBAMEで使われている設定 – Minhop – FTree • 完全なFat Treeでないと性能が出ないと言われている – Hetero (1st: FTree + 2nd: DFSSSP) • 各レールで別々のルーティングを採用 – Updn 再計測 (後述)• 以下のルーティングアルゴリズムを試したが、正常に動作しなかっ た – TARA (Mellanox UFM) • TARAへの切り替えに失敗した – DFSSSP (on 1st rail) • 1st railにDFSSSPを適用すると、パケット配信に異様な遅延が発生
  • 55. 実験結果 – Random Pair Sendrecv Random pair 512MiB sendrecv performance 9000Better 詳細は後述 8000 ノード数が増えることで性能低下する傾向は 7000 ルーティングアルゴリズムにかかわらず見られる Injection BW [MB/s] 6000 それでも良いときには理論性能の40%ぐらいは出る minhop 5000 updn 4000 ftree 3000 hetero 2000 updn2 でも、全然性能が出ない通信が 1000 確率的に起こっている 0 0 200 400 600 800 1000 1200 1400 # of Nodes
  • 56. 実験結果 – Random Pair Sendrecv Random pair 512MiB sendrecv performance 9000Better 不安定リンクを 8000 解消すると… 7000 Injection BW [MB/s] 6000 Routing変更により 5000 約15%性能が向上する 4000 hetero 3000 updn2 2000 1000 極端に遅くなる例がなくなり 性能が安定 0 0 200 400 600 800 1000 1200 1400 # of Nodes
  • 57. Evolving the e-Infrastructure Towards Exascale in 2019-2020 and Beyond• U.S. – still frontrunner? – DoE: Exascale Co-Design Center, X-Stack NVIDIA Echelon – DoE: various exascale research funds Architecture – DARPA: UHPC – 4 teams• EU – Survey and Research – FP7: EESI- European Exascale Software Initiative – FP7: Exascale Computing X-caliber • Mont-Blanc (BCS-ARM), DEEP (Julich-MIC), CRESTA (EPCC-Cray)• China (Details not known), Russia, … – China announces Godson, 100PF by 2015, ...• Japan - survey and basic research only – HPCI-SDHPC and Feasibility Study, JST-PostPeta, etc.• IESP (International Exascale Software Project)
  • 58. Measuring GPU Power Consumption • Two power sources – Via PCI Express: < 75 W – Direct inputs from PSU: < 240 W • Uses current clamp sensors around the power inputsPrecise and Accurate Measurement with Current Probes + A/D converter NI PCIe-6259 Measurement PCAttaches current sensors to two Direct power inputs Reads currents at 100 uspower lines in PCIe from PSU interval
  • 59. 統計的GPU電力モデリング [IEEE IGCC10] • GPUの消費電力を統計的に推定GPUパフォーマンスカウンタ • 性能プロファイル(パフォーマンスカウンタ)を n 説明変数とした線形回帰モデル p = ∑ α i ci + β i =1 高精度(誤差平均4.7%) 平均消費電力• リッジリグレッションによる過学習の防止• クロスフィッティングによる最適パラメー タの決定 高分解性能電力計 DVFSを導入しても高精度を確認 今後:電力モデルによる電力最適化 線型モデルでも十分な精度 億単位のプロセッサからなるエクサスケール における最適化の実現可能性
  • 60. 並列GPUコード自動生成による ステンシル計算のスケーラビリティ [SIAM PP 11] 計算内容は簡潔でも, TSUBAME2.0 1024GPUで • 領域分割 姫野 • MPI+CUDA通信 9,000 8,000 ベンチ8TF; 世界記録達成! • 通信オーバラップ 7,000 CPU-L のためコードは煩雑 6,000 5,000 GFlops 自動コード生成 4,000 GPU-L システムを構築中 3,000 2,000 1,000ユーザは一点の計算を表現する関数を記述 0__stencil__ void average(int x, int y, int z, grid3d_real 0 256 512 768 1,024g) { Number of Sockets if (x == 0 || y == 0 || z == 0) return; 東大地震コードの弱スケーラビリティ float ret = psGridGet(g,0,0,0) 5000 + psGridGet(g,-1,0,0) + psGridGet(g,1,0,0) + psGridGet(g,0,-1,0) + psGridGet(g,0,1,0) 4000 + psGridGet(g,0,0,-1) + psGridGet(g,0,0,1); 3000 psGridEmit(g, ret / 7.0); GFlops} 2000 1000 0GPUクラスタ用高性能並列コードを自動生成 0 500 1000 Number of GPUs
  • 61. Ultra Low Power HPC Towards TSUBAME3.0 & 2006 2008 Exaflops 2010 2012 TSUBAME1 TSUBAME1.2 TSUBAME2.0 3.0 Proto1, 2, … 1st GPU SC Greenest Production 100000 ULPHPCYear Machine Peak Estim. KWa Estim. Moore Mflops/Watt (single precision) GFlops App tt Mflops Intel report GFlops /W 100002006T1.0 Sun X4600 160 128 1.3 100 BG/Q2008T1.2 Sun X4600 + Tesla S1070 2GPUs 1300 630 1.7 370 10002010T2.0 HP SL390s with Tesla M2050 3GPUs 3200 1400 1.0 1400 1002012Proto Sandy Bridge EP w/ 20000 7000 1.1 >600 2004 2006 2008 2010 2012 2014 2016 2018 8 Kepler GPUs 0 Year
  • 62. 東工大概算要求「スパコン・クラウド情報基盤における ウルトラグリーン化技術の研究推進」ウルトラグリーン・スパコン研究設備 又は “TSUBAME-KFC”
  • 63. 概算要求: スパコン・クラウド情報基盤における ウルトラグリーン化技術の研究推進 (3) JST ULPHPC 基礎研究 の適用によるスパコン用 超省電力ミドルウェア・アプリ等 (2) TSUBAME2.0 (2010) ~2.4PFlops 世界一の性能および性能電力比 コンテナ型 高密度コンテナ ラップトップの数倍スパコンセンター TSUBAME3.0(一部) (概念図) Nvidia Tesla K20 冷却用CO2 (2013年度前半)追加 排出の大幅削減 TSUBAME2.5 単精度 ~10PF 無人・リモート 消費電力の削減 自律運用技術 -最終成果- 2015年 TSUBAME3.0(1)先進冷却PUE < 1.1 倍精度25~30PFlops---年2/3以上は冷却電気ほぼゼロ TSUBAME1.0比で
  • 64. 冷却電力ゼロ化によるウルトラグリー ンスパコン・データセンターへ (IT機器に使う電力+冷却等電力)• PUE(Power Unit Effectiveness) = IT機器に使う電力 1.0が理想、実際は>2.0も。TSUBAME2は1.2~1.3 最新冷却技術を用いたTSUBAME2ですら、冷却電気代は年間2千万~3千万• 自然大気冷却に近年注目 – 例) さくらインターネット・石狩データセンター – しかし、高熱密度・常に100%利用のスパコンでは未知数大気冷却+油浸冷却のスパコン研究設備を構築 – 1コンテナでペタフロップス級、2013時点世界トップクラスの グリーン性 – 目標PUE≒1.05、計算機電力減を加味すると事実上PUE<1.0 – 米国Green Revolution Cooling社、Appro 社、日本電気などとの国際共同 研究により実現
  • 65. 油浸冷却プロトタイプ(H23/12導入済) 油浸により、計算機・GPU 1100 電力約15%減! 1000 900 Server-Oil TSUBAME2であればこ 800 GPU-Oil 700 Server-Air れだけで年間1000万円(W) 600 500 GPU-Air 相当 • 油の熱容量の高さによるプロ 400 セッサ温度低下 300 200 • 冷却ファン除去 100 ⇒ 全く同等の計算機よりも電力 0 減 10:30:43 10:45:07 10:59:31 11:13:55 11:28:19 この性質を加味し、 事実上PUE<1.0も視野
  • 66. 2013/2 TSUBAME-KFC実験設備 計算機電力70~100kW規模の、コンテナ型研究設備 油浸冷却+大気冷却+高密度スパコンの統合 熱 油浸サーバラック: 蒸散熱 プロセッサチップ 80~90℃ 自然大気中へ ⇒ 冷媒油 35~45℃ 熱交換器・ポンプ: 冷媒油 35~45℃ ⇒ 水 25~35℃ 熱次世代Kepler-II (K20) 冷却塔: 水 25~35℃ GPU×~200枚 ⇒ 自然大気へ目標: • 現在の世界トップ(2012年BG/Q , 2.1GFlops/Watt)以上 の電力性能比 • 年間のほとんどで、事実上PUE<1.0
  • 67. TSUBAME2.0から2.5への中間アップグレード (2013年7月)• TSUBAME2.0のGPU(Fermi 2050)を全部または部分的に最新のアク セラレータに交換 性能向上: 4.8PF/2.4PF→12PF以上 /4PF以上へ (単位:単精度/倍精度ペタフロップス) c.f. 京 11.2/11.2, T2.5が「単精度日 本一」 TSUBAME2.0計算ノード 実アプリの向上は更に見込める Fermi GPU 3機 x 1408台 = 信頼性の向上・消費電力の低下 4224機 学内150研究グループ 時期:2013年7月 + 重要な社会貢献を行う全国基盤センターとしての 学内外アプリケーション 性能向上が急務他機関の同等の代替資源は基本 にもフォーカス 的に日本では存在しない 災害・環境・健康医療等 東工大の貢献
  • 68. Machine Power Linpack Linpack Factor Total Mem Mem BW (incl. Perf (PF) MFLOPs/W BW TB/s MByte/S / W cooling) (STREAM)Earth 10MW 0.036 3.6 13,400 160 16Simulator 1Tsubame1.0 1.8MW 0.038 21 2,368 13 7.2(2006Q1)ORNL Jaguar ~9MW 1.76 196 256 432 48(XT5. 2009Q4)Tsubame2.0 1.8MW 1.2 667 75 550 305(2010Q4) x31.6 x42K Computer ~16MW 10 625 80 3800 236(2011Q2)BlueGene/Q ~12MW? 17 ~1417 ~35.3 ~3000 ~245(2012Q1)(TSUBAME2.5 1.8MW ~4 ~2222 ~22.5 ~1000 ~580(2013Q2))Tsubame3.0 1.8MW ~20 ~11,000 ~4.6 ~4000 ~2200(2015Q1) ~x16 ~x6.6EXA (2019Q4) 20MW 1000 50,000 1 100,000 5000

×