Your SlideShare is downloading. ×
エバンジェリストが語るパワーシステム特論 ~ 特番:世界最速スパコン、セコイア(IBM Blue Gene/Q)の凄さの秘密に迫る
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

エバンジェリストが語るパワーシステム特論 ~ 特番:世界最速スパコン、セコイア(IBM Blue Gene/Q)の凄さの秘密に迫る

8,861

Published on

『エバンジェリストが語るパワーシステム特論 ~ 特番:世界最速スパコン、セコイア(IBM Blue Gene/Q)の凄さの秘密に迫る』における弊社DE(Distinguished Engineer) 清水 茂則の講演資料です。(2012年7月17日開催)

『エバンジェリストが語るパワーシステム特論 ~ 特番:世界最速スパコン、セコイア(IBM Blue Gene/Q)の凄さの秘密に迫る』における弊社DE(Distinguished Engineer) 清水 茂則の講演資料です。(2012年7月17日開催)

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
8,861
On Slideshare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 世界最速スパコン、セコイア「Blue Gene/Q」の凄さの秘密に迫る 2012年7月17日 清水茂則 日本IBM Japan Systems&Technology Lab. © 2012 IBM Corporation
  • 2. Agenda HPC最新状況(Top500) HPCの意義 世界最速スパコン BlueGene/Qの中身 IBM HPC Roadmapと幅広い取り組み © 2012 IBM Corporation
  • 3. HPC最新状況 単位の復習 Giga ギガ 109 10億 Tera テラ 1012 1兆 Peta ペタ 1015 1000兆 10 Peta 1016 京 Exa エクサ 1019 100京 © 2012 IBM Corporation
  • 4. HPCを取り巻く状況認識 HPC(計算科学)は、理論科学、実験科学と並ぶ、3大科学方法論の一 つ HPCシステムの性能は年率2倍(10年で1,000倍)で継続して向上し続け ている 単一スレッド性能の伸びの鈍化を、マルチコア、クラスタによる並列ス レッド、並列プロセスにより、性能向上を持続 したがって、科学の3大方法論の中でのHPCの重要性は指数的に増大 し、これをいかに使いこなし利活用するかが、科学技術の革新、企業競 争力強化の鍵になる 日本はHPCの利活用では、国際的に見て、十分とは言えない状況にあ り、技術競争力強化に向けたHPC利活用の促進が重要 Smarter Planetビジョンを実現する重要な要素技術として重要度の増大 © 2012 IBM Corporation
  • 5. Rmax Performance (TFlops) 0.0001 100000 1000 10000 1000000 0.001 0.01 0.1 1 10 100 Ju n No 93 v Ju 93 n9 No 4 v9 Ju 4 n9 No 5 v9 Ju 5 n No 96 v9 Ju 6 n9 No 7 v9 Ju 7 n9 No 8 v Ju 98 n No 99 v9 Ju 9 n0 No 0 v0 Ju 0 n0 T TOP500 Performance Trend No 1 v0 Ju 1 n otal No 02 v0 Ju 2 n0 Ag No 3 v Ju 03 n0 No 4 g r eg v0 Ju 4 n ate No 05 v0 Ju 5 n0 No 6 v0 Ju 6 Perfo n0 r No 7 v0 Ju 7 n # 50 No 08 v 0 m an Ju 08 n0 ce No 9 #1 v0 Ju 9 #10 n1 No 0 v1 Ju 0 n1 No 1 v1 Ju 1 n1 www.top500.org Source: 2 HPCシステムの性能は年率2倍(10年で1,000倍)で継続して向上し続けている 60.8 TF 1.27 PF 16.3 PF 123.4 PF© 2012 IBM Corporation
  • 6. IBM supercomputing leadership June 2012 TOP500 Entries IBM leads, followed by HP Appro, 19 Other, 51 Bull , 16 Dell, 12 IBM, Semiannual independentOracle, 7 213 ranking of the top 500 Cray, 26 supercomputers in the world SGI, 16 June 2012 Aggregate Performance HP, 140 IBM leads with 58.6 of 123.4 PF Bull 4.6% Other 18.9%IBM supercomputing leadership ... NUDT 2.9% IBM New #1: LLNL Sequoia Blue Gene/Q 16.32 PFlops 47.5% Dawning Most installed aggregate throughput with over 58.6 out of 123.4 1.2% Petaflops (47.5%) (HP 13.5/11%, Fujitsu 12.2 /9.9%, Cray: 10.9/ Dell 8.8%) 1.1% Most systems in TOP500 with 213 (HP: 140, Cray: 26, Appro: 19) Oracle 1.2% Cray SGI Fastest system in Europe (LRZ-SuperMUC iDataPlex) HP 8.8% 2.8% 11.0% Fastest x86 system (LRZ-SuperMUC iDataPlex) 20 Most energy-efficient systems All IBM Blue Gene/Q’s Source: www.top500.org © 2012 IBM Corporation
  • 7. Supercomputer Top20 ランキング (2012年6月)Top10の半分、Top20の40%がIBMシステム Rmax Rmax# Ven-dor Installation # Ven-dor Installation TFlops TFlops 16,324 DOE/NNSA/LLNL-Sequoia 1,243 NASA Ames - Pleiades1 IBM 11 SGI Update (96ラック Blue Gene/Q) Update (Altix mixed CPUs) RIKEN K Computer 1,237 IFERC Helios2 富士通 10,510 12 Bull (SPARC64 VIIIfx 2.0GHz) New (Sandy Bridge) 8,162 DOE/NNSA/ANL - Mira 1,207 Daresbury – Blue Joule3 IBM 13 IBM New (48ラック Blue Gene/Q) New (7ラック Blue Gene/Q) 2,897 LRZ - SuperMUC TiTech Tsubame 2.04 IBM 14 HP 1,192 New (iDataPlex – Sandy Bridge) (Westmere/NVIDIA GPU) NUDT – Tianhe 1A China Sandia - Cielo5 NUDT 2,566 15 Cray 1,110 (Westmere/NVIDIA GPU) (XE6 8コア 2.4GHz Opteron) 1,941 Oak Ridge NL - Jaguar NERSC – Hopper6 Cray 16 Cray 1,053 Update (XT5 6C 2.6GHz Opteron) (XE6 12コア Opteron) 1,725 CINECA - Fermi CEA Tera-100 – France7 IBM 17 Bull 1,050 New (10ラック Blue Gene/Q) (Nehalem-EX) 1,380 Juelich - JuQUEEN 1,043 Univ Tokyo–Oakleaf FX8 IBM 18 富士通 New (8ラック Blue Gene/Q) New (SPARC64 IXfx 1.8 GHz) 1,359 CEA/GENCI - Curie DOE/NNSA/LANL - RR9 Bull 19 IBM 1,042 New (Sandy Bridge) (QS22/LS21) NSCS-China Nebulae 1,035 Univ Edinburgh – DiRAC10 Dawn- ing 1,271 20 IBM (6C Xeon+NVIDIA GPU) New (6 rack Blue Gene/Q)出典: www.top500.org © 2012 IBM Corporation
  • 8. 鍵は電力効率、スペース効率 Top500 ランキング #1 IBM Blue Gene/Q 米ローレンス・リバモア国立研究所 Power アーキテクチャー採用 Power BQC 16コア 1.60 GHz (計1,572,864コア) Linux オペレーティングシステム 96ラック Sequioa Blue Gene/Qと京コンピュータの簡単な比較 パフォーマンス 1.55倍高速 (16.324PF vs 10.510PF) 消費電力 2/3以下(63%) (7.89MW vs 12.6MW) エネルギー効率 2.5倍 (2069MF/W vs 830MF/W) 設置ラック数 1/9程度 (96 vs 864) ラック当りのピーク性能 約17倍 (209.71TF vs 12.29TF) 世界最高速&最も優れたエネルギー効率 © 2012 IBM Corporation
  • 9. 他のシステムを凌駕する高いエネルギー効率 Number shown in column is June 2012 TOP500 rank 2500良い 2000 MFlops / Watt 1 3 7 8 1500 1000 2 4 500 5 9 10 6 0 LLNL Sequoia RIKEN Japan ANL Mira LRZ NSCS Tianjin ORNL Jaguar CINECA Fermi Juelich CEA Bull NSCS SuperMUC JuQUEEN (Curie) Shenzhen Rank Site Mfgr System Rmax MF/w Relative Mw 1 LLNL IBM Sequoia - 96ラック Blue Gene/Q 16324 2069 1.00 7.89 2 RIKEN Japan Fujitsu K computer, SPARC64 VIIIfx 2.0GHz 10510 830 2.49 12.6 3 ANL IBM Mira - 48ラック Blue Gene/Q 8162 2069 1.00 3.94 4 LRZ IBM SuperMUC - iDataPlex SandyBridge 2897 823 2.51 3.52 5 NSCS Tianjin NUDT NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU 2566 635 3.26 4.04 6 ORNL Cray Inc. Cray XT5-HE Opteron 6-コア 2.6 GHz 1759 253 8.18 5.14 7 CINECA IBM Fermi - 10ラック Blue Gene/Q 1725 2099 0.99 0.822 8 Juelich IBM JuQUEEN - 8ラック Blue Gene/Q 1380 2099 0.99 0.657 9 CEA/TGCC Bull SA Curie - SandyBridge 1359 604 3.43 2.25 10 NSCS Shenzhen Dawning Dawning TC3600 Blade, Intel X5650, NVIDIA GPU 1271 493 4.20 2.58 Source: www.top500.org, www.green500.org © 2012 IBM Corporation
  • 10. そもそもHPCとは? © 2012 IBM Corporation
  • 11. HPCの例 タンパク質の合成 非破壊検査 脳の電気信号伝播 種々の自然現象、社会現 象をコンピュータ内に模倣 するモデリング技術は、か なり成熟してきている霧の発生と経過 核融合炉の設計 いかに活用するかが鍵 © 2012 IBM Corporation
  • 12. モデリング技術の例 - 例えば材料設計 「目的とする物性を持つ物質を発見する」 従来は実験的な試行錯誤 -> 計算機シミュレーションへ ->現代の錬 金術 物質の物性は化学結合の様相と電子状 態の反映 電子状態は量子力学の方程式によって 規定される 量子力学モデルの計算機シミュレーショ ン(偏微分方程式) 目的とする物性に関連した微視的機構 の解明 目的とする物性を持つ物質の効率的発 見(実験的) © 2012 IBM Corporation
  • 13. 現象と数学とコンピューターの関係 計算科学 計算機科学・工学 自然現象を、それを司る物理法則で表現する(モデル化) 物理法則は関連する項目の数式で表現される(例えば、微分方程式) その数式をコンピューターで計算する © 2012 IBM Corporation
  • 14. HPC発展のループHPCの性能向上の継続は、計算機技術、計算機科学の継続発展、モデリング技法、シミュレーション技法などの計算科学の発展に支えられ、その発展と、より精緻に迅速に予測結果を得たいというような社会的要請の相互作用による正のスパイラルによる. 計算機科学・工学の発展 計算科学の発展 デバイステクノロジー 流体力学 プロセッサ技術・アーキテクチャー 構造力学 システム技術・アーキテクチャー プラズマ物理 周辺IO技術 量子力学 プログラミング言語・モデル 古典化学 OS, Middleware 生化学 数値計算技法、他 金融工学、他 シミュレーション計算への社会的要求 より早く、より正確に、より多彩に © 2012 IBM Corporation
  • 15. ちょっと頭を柔軟にして、日常生活との対比でHPCを考えてみましょう © 2012 IBM Corporation
  • 16. ところで、仕事を早くするには?(バケツ1000個を1000m運ぶには?) (例えば、1000個のバケツを同時に運べ 一人の強力化 る人、あるいは、1000倍速い人) バケツリレー (縦に多数並べる) (例えば、1mおきに1000人並べる) 並列化 (横に多数並べる) (例えば、横に1000人並べて、一人一個 … バケツを運び、1000個同時に運ぶ) © 2012 IBM Corporation
  • 17. スーパーコンピュータの進化 現在のスーパーコンピューターは、前のページの3つの方法すべての組み 合わせで進化を続けています. 1. プロセッサ(CPU)単体の高速化 2. バケツリレー方式(パイプライン方式)の強化 3. 並列処理方式の強化 仕事の段取り 段取りを実行する仕組 単体強化 単純 そんな強力な単体を作れるか? パイプライン 同じ程度の大きさの子仕事に分 隣との連携に無駄な時間が生じ 割できるか? ないか? 並列処理 同時並行にできる子仕事に分割 周りとの連携に無駄は生じない できるか? か? それ以前に、そもそも、目的を達成するにはどんな仕事をすればよいか?結果、毎年2倍の性能向上を持続してます。すると、2018年頃には、1エクサフロップス(毎秒1018回、100京回の計算)の性能に達すると予想されます. © 2012 IBM Corporation
  • 18. スーパーコンピューティングで大事なこと まず、物理現象、あるいは、社会現象を定式化して、コンピュータの中に表 現(モデル化)できるか? 現象の仕組みが理解できているか? 現象の仕組みをどれくらい正確に定式化できるか? そのモデル(つまり仕事)は、うまくバケツリレー化、あるいは、並列化して 効率的にプログラムできるか? そもそも分割できる仕事なのか? 分割できない部分はないか?その比率は? 分割したときに余分な仕事は発生しないか? そのプログラムを計算するスーパーコンピュータは、効率的に超高性能を 実現できるか? そもそも実現可能か? 金額、熱、電力、体積・面積などの点で現実的か? © 2012 IBM Corporation
  • 19. 作る側の視点からのスパコン要素技術のFundamental © 2012 IBM Corporation
  • 20. 大規模スパコンの性能/電力効率のFundamental大雑把に言って、 CMOS半導体回路の電力消費(W)は; W∝cV2・f (cは容量、Vは印加電圧、fは動作周波数) 同じ回路、同じCMOSテクノロジーでは、動作周波数fは、印加電圧Vに比例 つまり、動作周波数(性能)を2倍にするには、8倍の電力消費 一方、同じCMOSテクノロジーで、同じ回路を2組入れたら、元の回路1つ分の2倍の 電力消費 つまり、2倍の性能が2倍の電力消費で手に入る つまり、原理的に、プロセッサ1個1個(コア)のクロックは多少低めに押さえて、その 分をコアの数で稼ぎ、並列度を上げるアプローチの方が、性能/電力効率の点からは 有利. Blue Geneプロジェクトの最初からの基本思想 現在は、ほとんどすべてのスパコンがこの考えを採用 © 2012 IBM Corporation
  • 21. ITの成長を支えている源泉はCMOSの継続的微細化過去30年以上に渡りITの進歩を支える Scaled Device原動力 Voltage, V / α WIRING すべてのパラメータ(ゲート長、酸化膜厚、 tox / α 配線幅、電圧など)が同じ比率で比例縮 W/ α 小できるというCMOSデバイスの特質 GATE (スケーリング法則)により、集積度、性 能に関し均一な成長比率を持続してい n+ n+ source drain る(ムーアの法則). L/ α p substrate, doping α*NA xd / α SCALING: RESULTS: Voltage: V/α Higher Density: ~α2 Oxide: tox /α Higher Speed: ~α Wire width: W/α Power/ckt: ~1/α Gate width: L/α Diffusion: xd /α © 2012 IBM Corporation
  • 22. ITの成長を支えている源泉はCMOSの継続的微細化過去30年以上に渡りITの進歩を支える Scaled Device原動力 Voltage, V / α WIRING すべてのパラメータ(ゲート長、酸化膜厚、 tox / α 配線幅、電圧など)が同じ比率で比例縮 W/ α 小できるというCMOSデバイスの特質 GATE (スケーリング法則)により、集積度、性 能に関し均一な成長比率を持続してい n+ n+ source drain る(ムーアの法則). L/ α p substrate, doping α*NA xd / α SCALING: RESULTS:しかし、90nmあたりからは、 Voltage: V/α Higher Density: ~α2 Oxide: tox /α Higher Speed: ~α•集積度向上は持続 Wire width: W/α Power/ckt: ~1/α•速度、電力についてのスケーリング法則は成り立たなくなる. Gate width: L/α Diffusion: xd /α © 2012 IBM Corporation
  • 23. CMOSの制御不能な変動分によるスケーリング法則のかげり CMOSの継続的微細化に伴い、いろいろなパラメータが物理限 界に近づきつつある. 制御不能な変動分が全体に占める比率が増大 素子の性能、電力効率向上は鈍化 nm 90 80 A o 配線のギザギザの配線幅に 対する比率は、90nmの CD=32nm CMOSでは10%以下だが、 nm 3nm 32nmでは25%にもなる. 32 80 A o ゲート酸化膜の厚さは、45nmのCMOSでは拡散不純物は、100 45nmのCMOSでもすでに、原子以下になり、均質な拡散は困難に 10S T ox= 11A Gate Stack 10Å以下、原子数個程度.なっている. © 2012 IBM Corporation
  • 24. 限界に挑戦する種々のアプローチ Heavily doped,多くの重要要素技術でのIBMの貢献 ultra- thin bodyCu配線Low-k 12-22 nmSOI (Silicon On Insulator) Ultra-thin SOIStrained Silicon Strained SiliconHigh-k Metal GateLithography High K – Metal Gate3D IntegrationEtc. Silicon Germaniumしかし、いづれにしても、 集積度の向上は続く、 速度、電力効率向上は頭打ち 29.5 nm Resolution Immersion Lithography © 2012 IBM Corporation
  • 25. Technology Roadmap 22/20 nm 3D System Integration Computational Scaling 32/28 nm High-K gate dielectric 45 nm Embedded SiGe Ultra Low-k metal dielectrics 65 nm Immersion lithography Strained silicon 90 nm y l og Low-k dielectrics no 130 nm ch te Logic-based embedded DRAM M IB 180 nm in n Silicon-on-Insulator a tio nov 250 nm Copper interconnect in d i ne s ta350 nm SiGe technology Su © 2012 IBM Corporation
  • 26. 世界最速スパコン BlueGene/Qの中身 © 2012 IBM Corporation
  • 27. Blue Gene Roadmap 1 EF Performance Exa1 200-300 PF Blue Gene / Q 20+PF 209TF/Rack Blue Gene / P PPC 450 @850MHz 1+ PF 13,9TF/Rack Blue Gene / L PPC 440 @700MHz 596+ TF 5.7FF/Rack 2004 2008 2012 2016 202027
  • 28. BlueGeneの一貫した設計思想 性能/電力、性能/スペース効率を最適化した設計思想により、同世代の他 のスパコンを圧倒的に凌駕する性能を達成 電力効率のよい組み込み用CPUコアを中心としたSoCアプローチ 最適化したFPU構造 大規模並列処理を可能とする種々のinnovationにより、高い実効性能を実 現 Interconnection用回路をすべてSoCに内包 MPIに最適化したInterconnection回路自身での自律的な演算 eDRAMを用いたon-chipの大容量キャッシュ 軽量のnode kernel 最適化した回路設計により部品点数を最小化 -> 高い信頼性、保守性、 面積効率を実現 すべての必要回路をSoCに内包(nodeの部品はProcessor SoCとDRAMのみ) © 2012 IBM Corporation
  • 29. IBM System Technology GroupOctober 7, 2009: President Obama presented the 2008 National Medal ofTechnology and Innovation to IBM, the only company so honored, for the Blue Gene family of supercomputers…The US Government and IBM represent world leadership in high performance computing. © 2012 IBM Corporation
  • 30. IBM System Technology GroupIBMの研究・開発部門から創生されたイノベーションの継続と活力がBlue Geneへとつながっている例えば: RISCの研究はIBM 801プロジェクトとして1975年に開始 UC BerkeleyのRISC1プロジェクト、スタンフォード大のMIPSプロジェクトよりも 5年以上早い 高級プログラミング言語の第一号であるFORTRANは、1956年にIBMの Dr. Backusによって開発 DRAMは、IBMのDr. Denardの発明に基づくもの CMOS Scaling LawもDr. Denard 半導体技術の進歩に大きく寄与している多くの技術(銅配線、SOI、歪シリコン etc.) には、IBMの発明と研究に基づく IBM Blue Geneは、HPC分野での革新的な貢献を評価され、2008 US National Medal of Technology & Innovationを受賞 米国特許取得件数は、19年間に渡り、1位を持続 © 2012 IBM Corporation
  • 31. Blue GeneとPowerの発展は表裏一体1990~ 1992~ 1997~ 2001~ 2004~ 2007~ 2010~POWER1 POWER2 POWER3 POWER4 POWER5 POWER6 POWER7 RS/6000 RS/6000 SP RS/6000 SP p655 p5 575 Power 575 Power 775POWER信頼性を高めたサーバー 社会がかかえる課題解決に用途に利用されている HPCの可能性を示した企業向けHPCサーバーを グランド・チャレンジ継続して提供している IBM Deep Blue の成功 IBM Watson の成功 (1997年5月) (2011年2月)PowerPC Deep Computing Instituteゲーム機をはじめとした組 Power アーキテクチャー (PowerPC カスタム・チップ)み込みシステム用途や (1999年5月) - 専用マシンの効率維持 Blue Gene/L Blue Gene/L Blue Gene/Qスーパーコンピュータに - 高い信頼性の実現利用されている 最大600TF 最大1PF 最大20PF - 広範なアプリケーションに適用 IBMテクノロジーを結集し性能・信頼性・効率性を追及 x86 アーキテクチャー iDataPlex (高密度設計システム) x86 コモディティの良さを活かしつつ、 冷媒式冷却 温水冷却 IBMテクノロジーで差別化を実現 コモディティ+IBMテクノロジー エネルギー効率を追求 31 © 2012 IBM Corporation
  • 32. IBM System Technology GroupBlue Gene Evolution BG/L (5.7 TF/rack, 210 MF/W) – 130nm ASIC (2004 GA) – Scales >128 racks, 0.734 PF/s, dual-core system-on-chip, – 0.5/1 GB / Node BG/P (13.9 TF/rack, 357 MF/W) – 90nm ASIC (2007 GA) – Scales >256 racks, 3.5 PF/s, quad core SOC, DMA – 2/4 GB / Node – SMP support, OpenMP, MPI BG/Q (209 TF/rack, 2000 MF/W) – 45nm ASIC (Early 2012 GA) – Scales >256 racks, 53.6 PF/s, 16 core/64 thread SOC – 16 GB / Node – Speculative execution, sophisticated L1 prefetch, transactional memory, © 2012 IBM Corporation
  • 33. Blue Gene Characteristics BG/L BG/P BG/Q Compute NodesProcessor 32-bit PowerPC 440 32-bit PowerPC 450 64-bit PowerPC (A2 Core)Processor Frequency 700 MHz 850 MHz 1.6 GHzCores 2 4 15x 16+1Peak Performance (per Node) 5.6 GF 13.6 GF 204.8 GFCoherency Software Managed SMP SMP + SpeculationL1 Cache (per Core) 32/32 KB 32/32 KB 16/16 KBL2 Cache (prefetch per Core/Thread) 14 stream 14 stream 16 stream + List-basedL3 Cache size (shared, per Node) 4 MB 8 MB 32 MBMain Store/Node (same for I/O Node) 512 MB or 1 GB 2 GB or 4 GB 16 GB 3.2xMain Store Bandwidth 5.6 GB/s (16B wide) 13.6 GB/s (2*16B wide) 43 GB/s Torus NetworkTopology 3D 3D 5D 7.8xBandwidth 6*2*175 MB/s = 2.1 GB/s 6*2*425 MB/s = 5.1 GB/s 40 GB/sHardware Latency (Nearest 200 ns (32B packet) 100 ns (32B packet) 80 ns (32B packet)Neighbor) 1.6 μs (256B packet) 800 ns (256B packet) 640 ns (256B packet)Hardware Latency (Worst Case) 6.4 μs (64 hops) 5.5 μs (64 hops) 3 μs (31 hops) Per Rack 15xPeak Performance 5.7 TF 13.9 TF 209 TFSustained Performance (Linpack) 4.6 TF 11.9 TF ~170+ TFPower (peak) ~20 kW ~32 kW 5.6x ~100 kWPower Efficiency 0.23 GF/W 0.37 GF/W 1.99 GF/W © 2012 IBM Corporation
  • 34. IBM System Technology Group 2011/11のBlue Gene/Qプレスリリース時のNNSA のコメント “It is this emphasis on reliability, scalability and low power consumption that draws the interest of NNSA to this machine and its architecture,” said Bob Meisner, head of NNSAs Advanced Simulation and Computing program. “This machine will provide an ideal platform to research and develop strategies to assure that our most challenging codes run efficiently on multi-core architectures. Such capabilities will provide tremendous information in formulating our code development strategy as we face the challenges of exascale simulation and advance the state of the art in simulation science, advances necessary to ensure our nations security without nuclear testing.” NNSA: National Nuclear Security Administration © 2012 IBM Corporation
  • 35. IBM System Technology GroupBlue Gene/Q 4. Node Card: 32 Compute Cards, 3. Compute card: Optical Modules, Link Chips; 5D Torus 1. Chip: One chip module,16 P Cores 16 GB DDR3 Memory,8 FP ops/cycle Heat Spreader for H2O Cooling 2. Single Chip Module (1.6 GHz) x32 16 x16 6. Rack: 2 Midplanes x2 7. System: 96 racks, 20PF/s x96 5a. Midplane: 16 Node Cards •Sustained single node perf: 10x P, 20x L • MF/Watt: (6x) P, (10x) L (~2GF/W, Green500 criteria) © 2012 IBM Corporation
  • 36. IBM System Technology Group PPC FPU L1 PF 2MB Blue Gene/Q chip PPC FPU L1 PF L2 2MB architecture PPC L1 PF L2 FPU 2MB 16+1 core SMP PPC L1 PF L2 FPU 2MB Each core 4-way hardware threaded External PPC L1 PF L2 DDR-3 DDR3 FPU 2MB Controller Transactional memory and thread level speculation PPC L1 PF L2 FPU 2MB Quad floating point unit on each core PPC L1 PF L2 FPU 2MB 204.8 GF peak node PPC L1 PF L2 FPU 2MB Frequency target of 1.6 GHz PPC L1 PF L2 FPU 2MB 563 GB/s bandwidth to shared L2 full crossbar switch PPC L1 PF L2 FPU 2MB 32 MB shared L2 cache PPC L1 PF L2 FPU 2MB 42.6 GB/s DDR3 bandwidth (1.333 GHz DDR3) PPC L1 PF L2 FPU 2MB (2 channels each with chip kill protection) PPC L1 PF L2 DDR-3 FPU 2MB Controller External 10 links each at 2.0GB/s PPC L2 DDR3 L1 PF FPU 2MB one I/O link at 2.0 GB/s PPC L1 PF L2 FPU 2MB 16 GB memory/node PPC L1 PF L2 FPU 2MB 55 watts chip power PPC L1 PF L2 FPU PPC L1 PF FPU 2 GB/s I/O link (to I/O subsystem) dma Network Test 10*2GB/s intra-rack & inter-rack (5-D torus)Blue Gene/Q PCI_Express note: chip I/O shares function with PCI_Expresscompute chip36 10/05/2010 © 2012 IBM Corporation
  • 37. IBM System Technology GroupBG/Q processor unit (A2 core)Mostly same design as in PowerENTM chip:Simple core, designed for excellent powerefficiency and small footprint. Prv IUImplemented 64-bit PowerISATM v2.06 Thread Fetch Sequencer1.6 GHz @ 0.8V.32x4x64 bit GPR Ucode Branch Prediction iERAT4-way Simultaneous Multi- Threading Ctrl I$2-way concurrent issue 1 XU + 1 AXU ROM AXUAXU port allows for unique BGQ style MMU Dep/ Issue IBuffer Dep/ Issuefloating pointIn-order execution TLB GPRDynamic branch prediction Fixed Point Branch Load/ Store AXU dERAT D$ XU AXU L2 Interface © 2012 IBM Corporation
  • 38. IBM Research | Systems | Computer ArchitectureQuad-FPU Instruction Extensions to PowerISA 4-wide double precision FPU SIMD (BG/L,P are 2-wide) 256 Load Also usable as 2-way complex SIMD (BG/L had 1 complex arithmetic) A2 RF RF RF RF Attached to AXU port of A2 64 core – A2 issues one instruction/cycle to AXU 4R/2W register file Permute – 32x32 bytes per thread MAD0 MAD1 MAD2 MAD3 32B (256 bits) datapath to/from L1 cache, 8 concurrent floating point operations (FMA) + load +store © 2011 IBM Corporation
  • 39. BG/Q Memory Structure Core0 L1 L1PF L2 slice 0 DRAM Controller 0 Core1 L1 L1PF L2 slice 1 X-bar DRAM Controller 1 Core16 L1 L1PF L2 slice 15 DMA Network Interface
  • 40. IBM System Technology GroupInter-Processor Communication Integrated 5D torus –Hardware assists for collective & barrier functions –FP addition support in network –RDMA • Integrated on-chip Message Unit 2 GB/s raw bandwidth on all 10 links –each direction –1.8 GB/s user bandwidth • protocol overhead Hardware latency –Nearest: 80ns –Farthest: 2.5us (in case of 96-rack 20PF system, 31 hops) Additional 11th link for communication to IO nodes © 2012 IBM Corporation
  • 41. IBM System Technology GroupScalability Inter-Processor Peak Bandwidth per Node Roadrunner SGI Xeon Pleiades Sun TACC Itanium 2 Power 6 Cray XT6 12C Cray XT5 4C BG/Q Tianhe-1A 0 0.05 0.1 0.15 0.2 0.25 Byte/Flop © 2012 IBM Corporation
  • 42. IBM System Technology GroupPackaging and Cooling Water 18C to 25C Flow 20 gpm to 30 gpm Height 2095 mm (82.5 inches) Width 1219 mm (48 inches) Depth 1321 mm (52 inches) 2000 kg (4400 lbs) (including water) Weight I/O enclosure with 4 drawers 210 kg (480 lbs)Water cooled node board32 compute cards, 8 link ASICs drive 4D linksusing 10Gb/s optical transceiversHot pluggable front-end power supplies © 2012 IBM Corporation
  • 43. IBM System Technology GroupFailures per Month per TF From: http://acts.nersc.gov/events/Workshop2006/slides/Simon.pdf Power  Failures  Estimated  Consumption per month per TF System Cost @PF Cray XT3/XT4 ~.1 ‐ ~1 ~8MW XT4 >$150M XT4 Clusters 2.6 ‐ 8.0 ~6MW >$150M x86 X86/AMD64 Blue Gene /P .01‐0.03 ~2.3MW BG/P <$100M BG/Q - 500KW @PF - 5 ~ 6 racks @PF © 2012 IBM Corporation
  • 44. IBM System Technology Group Blue Gene System Architecture collective networkService Node I/O Node C-Node 0 C-Node n Front-end File System Linux Nodes Servers Console fs client app app optical ciod CNK CNK Functional Functional Network Network Optical MMCS 10Gb QDR torus DB2 10Gb QDR I/O Node C-Node 0 C-Node n optical I2C Linux Control fs client app app ControlLoadLeveler Ethernet Ethernet ciod (1Gb) CNK CNK (1Gb) FPGA JTAG © 2012 IBM Corporation
  • 45. IBM System Technology GroupBlue Gene Q Software InnovationsStandards-based programming environment– LinuxTM development environment New for Q • Familiar GNU toolchain with glibc, pthreads, gdb– Linux on I/O node –Scalability Enhancements: the– XL Compilers C, C++, Fortran with OpenMP 3.1 17th Core– Tools: HPC Toolkit, PAPI, Dyinst, Valgrind, Open Speedshop • RAS Event handling andMessage Passing interrupt off-load– Scalable MPICH2 providing MPI 2.2 with extreme • System management message rate– Efficient intermediate and low-level (SPI) message –Wide variety of threading choices libraries, documented, and open source –Efficient support for mixed-mode– Compute Node Kernel (CNK) eliminates OS noise programs– File I/O offloaded to I/O nodes running full Linux –Support for shared memory– Flexible and fast job control – with high programming paradigms availability– Integrated HPC and HTC • Scalable atomic instructions– Noise-free partitioned networks as in previous BG • Transactional Memory (TM) • Speculative Execution (SE) • Wake-up © 2012 IBM Corporation
  • 46. IBM System Technology GroupExecution Modes in BG/Q per Node node Next Generation HPCcore0 core1 – Many Core Hardware Abstractions Blackt0 t1 t2 t3 t0 t1 t2 t3 Software Abstractions Blue – Expensive Memorycoren core15 – Two-Tiered Programming Modelt0 t1 t2 t3 t0 t1 t2 t3 64 Processes 2,4,8,16,32 Processes 1 Process 1 Thread/Process 32,16,8,4,2 Threads 64 Threads P0 P1 P4 P5 P0 P1 P0 P2 P3 P6 P7 T0,T0,T0,T0 T0,T0,T0,T0 T0,T1, T0,T1, T0,T1, T4,T5, T2,T3 T2,T3 T2,T3 T6,T7 Pn Pm P60 P61 Po Pp 6P2 P63 T0,T0,T0,T0 T0,T0,T0,T0 T28,T29, T28,T29, Tn,Tm, T60,T61, T30,T31 T30,T31 To,Tp T62,T63 © 2012 IBM Corporation
  • 47. IBM System Technology GroupSummary Blue Gene/Q 1. Ultra-scalability for breakthrough science – System can scale to 256 racks and beyond (>262,144 nodes) – Cluster: typically a few racks (512-1024 nodes) or less. 2. Lowest Total Cost of Ownership – Highest total power efficiency, smallest footprint – Typically 2 orders of magnitude better reliability 3. Broad range of applications reach – Familiar programming models – Easy porting from other environments 4. Foundation for Exascale exploration © 2012 IBM Corporation
  • 48. IBM Power Systems Exascaleに向けた課題 Overall Apps Performance = 50X* 20 Performance / watt = 25XPetaFlop Performance / $ = 25X Performace / space >= 15X Innovation in Technology, Architecture, Software and Algorithms 1 PetaFlop = 1/3 rack 2012 * = Reference to Sequoia (20 PFlops) 2019 Accelerating Discovery and Innovation in: Materials Science Energy Engineering Climate & Environment Life Sciences Silicon Next Gen High Efficiency Carbon Whole Organ Design Nuclear Engines Sequestration Simulation48 Power is performance redefined © 2012 IBM Corporation
  • 49. IBM Power SystemsExaに向けた電力消費のチャレンジ単純に現在から外挿すると;From current Jaguar (Cray) to Exaflop 3GWFrom current K-computer (Fujitsu) to Exaflop 1.2GWFrom current Blue Gene/Q (IBM) to Exaflop 0.5GW 原子力発電所レベルの電力 Power is performance redefined © 2012 IBM Corporation
  • 50. IBM Power SystemsExaに向けた電力消費のチャレンジ単純に現在から外挿すると; ⇒ CMOSの4世代分の進歩をaggressiveに考慮 するとFrom current Jaguar (Cray) to Exaflop 3GW 187 MWFrom current K-computer (Fujitsu) to Exaflop 1.2GW 75MWFrom current Blue Gene/Q (IBM) to Exaflop 0.5GW 31MWそれでも、 Insufficient to rely on CMOSscaling alone to reach exascale! Power is performance redefined © 2012 IBM Corporation
  • 51. IBM HPC Roadmapと幅広い取り組み © 2012 IBM Corporation
  • 52. IBM has a wide range of products on the TOP500 List Although Blue Gene systems have less than 15% of IBM total entries they amount to 63% of the installed IBM aggregate performance. 100 System x: 158June 2012 TOP500 Count ΣRmax = 15.9 PF 75 68 45 45 Power: 24 Blue Gene: 31 50 ΣRmax = 5.7 PF ΣRmax = 37.1 PF 25 20 13 8 7 2 4 1 0 /Q 7 x 22 0 75 /L /P 2x x er P X5 xx G G G S p5 JS iD ow B B B H Q x3 P Source: www.top500.org © 2012 IBM Corporation
  • 53. Smarter PlanetとHPC 実世界から観測したデータを目的にしたがって分析 状況、制約を考慮 データ分析 (HPC) 結論の候補 意思決定 モデル データドリブン・データ分析: 数理科学的アナリティクス (最適かつ堅 モデルドリブン・データ分析: 計算科学的モデリングとシ 実な行動の 選択) ミュレーション (規定や方針) モデル化と組織化のプラットフォーム 観測で スマートな スマートな スマートな スマートな アクション エネルギー供給 ビルディング サプライチェーン 水資源管理とらえた世界 データ収集 命令・制御 計測 アクション (センサー、モニター、携帯電話) 中央制御、分散制御、 高性能で継続的な収集 ピア・ツー・ピア制御 データ・測定プラットフォーム 実世界 制御プラットフォーム © 2012 IBM Corporation 53
  • 54. HPC利活用局面でのWWでのHPC協業実績Blue Geneコンソーシアム – 国公立研究所、大学、企業など多数が参加し、Blue Geneを活用した種々の活動、成果、情報を共 有しています.IBM Research Computational Science Center (CSC) – HPC先進ユーザと協業し、大規模並列化、性能最適化、計算アルゴリズムの開発などを通した、ノー ハゥ、アプリ資産の蓄積Nanoscale Exploratory Technology Laboratory – ETH(EU No.1の工科大学、21人のノーベル賞受賞者)とのナノテク分野のコラボラトリー電力、原子力分野での仏EDF社との協業、および、その発展形としてのNEAMS (NuclearEnergy Advanced Modeling and Simulation) – NEAMS: To rapidly create, and deploy next generation, verified and validated nuclear energy modeling and simulation capabilities for the design, implementation, and operation future nuclear energy systems to improve the U.S. energy security future.エクサスケール・コンピューティング分野でのコラボラトリー – アイルランドの大学群と種々のテーマでの共同研究 © 2012 IBM Corporation
  • 55. まとめBlue Gene/Qは、圧倒的な性能でTOP500の1にランクされました. – かつ、圧倒的な電力効率、スペース効率を実現しています. – Powerの発展と表裏一体です. – 将来(Exa)へ向けた布石のシステムです.スーパーコンピュータの計算性能は、過去数十年に渡って、年率2倍(10年間で1,000倍)の向上を続けています. – 世界最大規模のスパコンは、20ペタフロップス(毎秒2京回の計算を行う)の性能に到達して います. – 2018年頃には、1エクサフロップス(毎秒100京回の計算)の性能に達すると予想されます. – 世界のスパコンのぼぼ半分はIBMが開発・製造したものです.この革新的な性能向上の継続によって、ほとんどすべての自然現象、社会現象をコンピューター内にモデル化して、シミュレーションすることが可能になってきています. – 自然現象、社会現象をコンピュータ内にモデル化する学問的な発展が重要です.(自然科 学、社会科学の世界) – 世の中すべてがコンピュータ内で模倣(シミュレーション)される時代が来るかも?(しかし、 実際には、コンピューターは、人間一人でさえ模倣できていません.) © 2012 IBM Corporation 55

×