SlideShare a Scribd company logo
1 of 55
世界最速スパコン、セコイア「Blue Gene/Q」の
凄さの秘密に迫る
      2012年7月17日

      清水茂則
      日本IBM Japan Systems&Technology Lab.




                                            © 2012 IBM Corporation
Agenda
 HPC最新状況(Top500)
 HPCの意義
 世界最速スパコン BlueGene/Qの中身
 IBM HPC Roadmapと幅広い取り組み




                           © 2012 IBM Corporation
HPC最新状況

          単位の復習
          Giga ギガ       109      10億
          Tera    テラ    1012     1兆
          Peta    ペタ    1015     1000兆
          10 Peta       1016     京
          Exa     エクサ   1019     100京

                               © 2012 IBM Corporation
HPCを取り巻く状況認識
 HPC(計算科学)は、理論科学、実験科学と並ぶ、3大科学方法論の一
 つ
 HPCシステムの性能は年率2倍(10年で1,000倍)で継続して向上し続け
 ている
 単一スレッド性能の伸びの鈍化を、マルチコア、クラスタによる並列ス
 レッド、並列プロセスにより、性能向上を持続
 したがって、科学の3大方法論の中でのHPCの重要性は指数的に増大
 し、これをいかに使いこなし利活用するかが、科学技術の革新、企業競
 争力強化の鍵になる
 日本はHPCの利活用では、国際的に見て、十分とは言えない状況にあ
 り、技術競争力強化に向けたHPC利活用の促進が重要
 Smarter Planetビジョンを実現する重要な要素技術として重要度の増大


                                   © 2012 IBM Corporation
Rmax Performance (TFlops)




                                   0.0001
                                                                                                                      100000



                                                                                               1000
                                                                                                          10000
                                                                                                                                  1000000




                                                0.001
                                                         0.01
                                                                0.1
                                                                        1
                                                                             10
                                                                                      100
                         Ju
                            n
                         No 93
                            v
                         Ju 93
                            n9
                         No 4
                            v9
                         Ju 4
                            n9
                         No 5
                            v9
                         Ju 5
                            n
                         No 96
                            v9
                         Ju 6
                            n9
                         No 7
                            v9
                         Ju 7
                            n9
                         No 8
                            v
                         Ju 98
                            n
                         No 99
                            v9
                         Ju 9
                            n0
                         No 0
                            v0
                         Ju 0
                            n0
                                                                                            T
                                                                                                                                                                                       TOP500 Performance Trend




                         No 1
                            v0
                         Ju 1
                            n
                                                                                             otal




                         No 02
                            v0
                         Ju 2
                            n0
                                                                                                  Ag




                         No 3
                            v
                         Ju 03
                            n0
                         No 4
                                                                                                g r eg




                            v0
                         Ju 4
                            n
                                                                                                      ate




                         No 05
                            v0
                         Ju 5
                            n0
                         No 6
                            v0
                         Ju 6
                                                                                                          Perfo




                            n0
                                                                                                            r




                         No 7
                            v0
                         Ju 7
                            n
                                                                      # 50




                         No 08
                            v
                                                                       0
                                                                                                              m an




                         Ju 08
                            n0
                                                                                                                  ce




                         No 9
                                                                                                  #1




                            v0
                         Ju 9
                                                                                  #10




                            n1
                         No 0
                            v1
                         Ju 0
                            n1
                         No 1
                            v1
                         Ju 1
                            n1
                                        www.top500.org
                                               Source:




                               2
                                                                                                                                            HPCシステムの性能は年率2倍(10年で1,000倍)で継続して向上し続けている




                                                                                  60.8 TF
                                                                                                1.27 PF
                                                                                                            16.3 PF
                                                                                                                       123.4 PF




© 2012 IBM Corporation
IBM supercomputing leadership
               June 2012 TOP500 Entries
               IBM leads, followed by HP
                          Appro, 19   Other, 51
            Bull , 16
 Dell, 12                                     IBM,                                        Semiannual independent
Oracle, 7                                      213                                           ranking of the top 500
 Cray, 26                                                                              supercomputers in the world

   SGI, 16                                                                   June 2012 Aggregate Performance
                HP, 140                                                       IBM leads with 58.6 of 123.4 PF
                                                                                Bull
                                                                                4.6%        Other
                                                                                            18.9%
IBM supercomputing leadership ...                                     NUDT
                                                                      2.9%                                             IBM
   New #1: LLNL Sequoia Blue Gene/Q 16.32 PFlops                                                                      47.5%
                                                                    Dawning
  Most installed aggregate throughput with over 58.6 out of 123.4    1.2%
  Petaflops (47.5%) (HP 13.5/11%, Fujitsu 12.2 /9.9%, Cray: 10.9/   Dell
  8.8%)                                                             1.1%
   Most systems in TOP500 with 213 (HP: 140, Cray: 26, Appro: 19)      Oracle
                                                                        1.2%     Cray     SGI
   Fastest system in Europe (LRZ-SuperMUC iDataPlex)                                             HP
                                                                                 8.8%    2.8%
                                                                                                11.0%
   Fastest x86 system (LRZ-SuperMUC iDataPlex)
   20 Most energy-efficient systems
    All IBM Blue Gene/Q’s                                                                        Source: www.top500.org



                                                                                                        © 2012 IBM Corporation
Supercomputer Top20 ランキング (2012年6月)
Top10の半分、Top20の40%がIBMシステム
               Rmax                                                       Rmax
#   Ven-dor               Installation                 #        Ven-dor              Installation
               TFlops                                                     TFlops

                 16,324   DOE/NNSA/LLNL-Sequoia                              1,243   NASA Ames - Pleiades
1   IBM                                                    11   SGI
               Update     (96ラック Blue Gene/Q)                             Update     (Altix mixed CPUs)

                          RIKEN K Computer                                   1,237   IFERC Helios
2   富士通          10,510                                    12 Bull
                          (SPARC64 VIIIfx 2.0GHz)                           New      (Sandy Bridge)

                  8,162   DOE/NNSA/ANL - Mira                                1,207   Daresbury – Blue Joule
3   IBM                                                    13   IBM
                 New      (48ラック Blue Gene/Q)                               New      (7ラック Blue Gene/Q)

                  2,897   LRZ - SuperMUC                                             TiTech Tsubame 2.0
4   IBM                                                    14 HP             1,192
                 New      (iDataPlex – Sandy Bridge)                                 (Westmere/NVIDIA GPU)

                          NUDT – Tianhe 1A China                                     Sandia - Cielo
5   NUDT          2,566                                    15 Cray           1,110
                          (Westmere/NVIDIA GPU)                                      (XE6 8コア 2.4GHz Opteron)

                  1,941   Oak Ridge NL - Jaguar                                      NERSC – Hopper
6   Cray                                                   16 Cray           1,053
               Update     (XT5 6C 2.6GHz Opteron)                                    (XE6 12コア Opteron)

                  1,725   CINECA - Fermi                                             CEA Tera-100 – France
7   IBM                                                    17 Bull           1,050
                 New      (10ラック Blue Gene/Q)                                        (Nehalem-EX)

                  1,380   Juelich - JuQUEEN                                  1,043   Univ Tokyo–Oakleaf FX
8   IBM                                                    18   富士通
                 New      (8ラック Blue Gene/Q)                                New      (SPARC64 IXfx 1.8 GHz)

                  1,359   CEA/GENCI - Curie                                          DOE/NNSA/LANL - RR
9   Bull                                                   19 IBM            1,042
                 New      (Sandy Bridge)                                             (QS22/LS21)

                          NSCS-China Nebulae                                 1,035   Univ Edinburgh – DiRAC
10 Dawn- ing      1,271                                    20   IBM
                          (6C Xeon+NVIDIA GPU)                              New      (6 rack Blue Gene/Q)

出典: www.top500.org
                                                                                                            © 2012 IBM Corporation
鍵は電力効率、スペース効率
 Top500 ランキング #1 IBM Blue Gene/Q
                  米ローレンス・リバモア国立研究所
                  Power アーキテクチャー採用
                  Power BQC 16コア 1.60 GHz (計1,572,864コア)
                  Linux オペレーティングシステム
                  96ラック


 Sequioa Blue Gene/Qと京コンピュータの簡単な比較
     パフォーマンス            1.55倍高速 (16.324PF vs 10.510PF)
     消費電力               2/3以下(63%) (7.89MW vs 12.6MW)
     エネルギー効率            2.5倍 (2069MF/W vs 830MF/W)
     設置ラック数             1/9程度 (96 vs 864)
     ラック当りのピーク性能        約17倍 (209.71TF vs 12.29TF)

      世界最高速&最も優れたエネルギー効率
                                                      © 2012 IBM Corporation
他のシステムを凌駕する高いエネルギー効率
                                                                                                    Number shown in column is June 2012 TOP500 rank
                     2500
良い



                     2000
     MFlops / Watt

                                 1                            3                                                       7         8
                     1500

                     1000
                                               2                           4
                      500                                                                   5                                                    9
                                                                                                                                                             10
                                                                                                          6
                        0
                             LLNL Sequoia RIKEN Japan      ANL Mira        LRZ       NSCS Tianjin ORNL Jaguar CINECA Fermi    Juelich          CEA Bull      NSCS

                                                                        SuperMUC                                             JuQUEEN            (Curie)     Shenzhen

                       Rank    Site                 Mfgr              System                                                            Rmax         MF/w     Relative   Mw
                        1      LLNL                 IBM               Sequoia - 96ラック Blue Gene/Q                                       16324        2069       1.00     7.89
                        2      RIKEN Japan          Fujitsu           K computer, SPARC64 VIIIfx 2.0GHz                                 10510         830       2.49     12.6
                        3      ANL                  IBM               Mira - 48ラック Blue Gene/Q                                          8162         2069       1.00     3.94
                        4      LRZ                  IBM               SuperMUC - iDataPlex SandyBridge                                  2897          823       2.51     3.52
                        5      NSCS Tianjin         NUDT              NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU                         2566          635       3.26     4.04
                        6      ORNL                 Cray Inc.         Cray XT5-HE Opteron 6-コア 2.6 GHz                                  1759          253       8.18     5.14
                        7      CINECA               IBM               Fermi - 10ラック Blue Gene/Q                                         1725         2099       0.99     0.822
                        8      Juelich              IBM               JuQUEEN - 8ラック Blue Gene/Q                                        1380         2099       0.99     0.657
                        9      CEA/TGCC                 Bull SA       Curie - SandyBridge                                               1359          604       3.43     2.25
                        10     NSCS Shenzhen        Dawning           Dawning TC3600 Blade, Intel X5650, NVIDIA GPU                     1271          493       4.20     2.58


                                                                                                                             Source: www.top500.org, www.green500.org
                                                                                                                                               © 2012 IBM Corporation
そもそもHPCとは?




             © 2012 IBM Corporation
HPCの例




   タンパク質の合成    非破壊検査        脳の電気信号伝播


                        種々の自然現象、社会現
                        象をコンピュータ内に模倣
                        するモデリング技術は、か
                        なり成熟してきている



霧の発生と経過       核融合炉の設計
                        いかに活用するかが鍵

                               © 2012 IBM Corporation
モデリング技術の例 - 例えば材料設計
 「目的とする物性を持つ物質を発見する」
   従来は実験的な試行錯誤 -> 計算機シミュレーションへ ->現代の錬
   金術
                       物質の物性は化学結合の様相と電子状
                       態の反映


                       電子状態は量子力学の方程式によって
                       規定される


                       量子力学モデルの計算機シミュレーショ
                       ン(偏微分方程式)


                       目的とする物性に関連した微視的機構
                       の解明


                       目的とする物性を持つ物質の効率的発
                       見(実験的)

                                  © 2012 IBM Corporation
現象と数学とコンピューターの関係

  計算科学
                      計算機科学・工学




  自然現象を、それを司る物理法則で表現する(モデル化)
  物理法則は関連する項目の数式で表現される(例えば、微分方程式)
  その数式をコンピューターで計算する

                                 © 2012 IBM Corporation
HPC発展のループ
HPCの性能向上の継続は、計算機技術、計算機科学の継続発展、モデリング技法、シ
ミュレーション技法などの計算科学の発展に支えられ、その発展と、より精緻に迅速に予
測結果を得たいというような社会的要請の相互作用による正のスパイラルによる.


 計算機科学・工学の発展                     計算科学の発展
 デバイステクノロジー                      流体力学
 プロセッサ技術・アーキテクチャー                構造力学
 システム技術・アーキテクチャー                 プラズマ物理
 周辺IO技術                          量子力学
 プログラミング言語・モデル                   古典化学
 OS, Middleware                  生化学
 数値計算技法、他                        金融工学、他




              シミュレーション計算への社会的要求
              より早く、より正確に、より多彩に


                                          © 2012 IBM Corporation
ちょっと頭を柔軟にして、日常生活との対比でHPCを考えてみましょう




                              © 2012 IBM Corporation
ところで、仕事を早くするには?(バケツ1000個を1000m運ぶには?)

                   (例えば、1000個のバケツを同時に運べ
 一人の強力化
                   る人、あるいは、1000倍速い人)


 バケツリレー
 (縦に多数並べる)
             (例えば、1mおきに1000人並べる)

 並列化
 (横に多数並べる)
                  (例えば、横に1000人並べて、一人一個
              …



                  バケツを運び、1000個同時に運ぶ)




                                   © 2012 IBM Corporation
スーパーコンピュータの進化
 現在のスーパーコンピューターは、前のページの3つの方法すべての組み
 合わせで進化を続けています.
  1.   プロセッサ(CPU)単体の高速化
  2.   バケツリレー方式(パイプライン方式)の強化
  3.   並列処理方式の強化

                     仕事の段取り           段取りを実行する仕組
   単体強化              単純               そんな強力な単体を作れるか?
   パイプライン            同じ程度の大きさの子仕事に分   隣との連携に無駄な時間が生じ
                     割できるか?           ないか?
   並列処理              同時並行にできる子仕事に分割   周りとの連携に無駄は生じない
                     できるか?            か?

   それ以前に、そもそも、目的を達成するにはどんな仕事をすればよいか?

結果、毎年2倍の性能向上を持続してます。すると、2018年頃には、1エクサフ
ロップス(毎秒1018回、100京回の計算)の性能に達すると予想されます.

                                             © 2012 IBM Corporation
スーパーコンピューティングで大事なこと
 まず、物理現象、あるいは、社会現象を定式化して、コンピュータの中に表
 現(モデル化)できるか?
   現象の仕組みが理解できているか?
   現象の仕組みをどれくらい正確に定式化できるか?
 そのモデル(つまり仕事)は、うまくバケツリレー化、あるいは、並列化して
 効率的にプログラムできるか?
   そもそも分割できる仕事なのか?
   分割できない部分はないか?その比率は?
   分割したときに余分な仕事は発生しないか?
 そのプログラムを計算するスーパーコンピュータは、効率的に超高性能を
 実現できるか?
   そもそも実現可能か?
   金額、熱、電力、体積・面積などの点で現実的か?


                               © 2012 IBM Corporation
作る側の視点からの
スパコン要素技術の
Fundamental




              © 2012 IBM Corporation
大規模スパコンの性能/電力効率のFundamental
大雑把に言って、
 CMOS半導体回路の電力消費(W)は;
    W∝cV2・f (cは容量、Vは印加電圧、fは動作周波数)
 同じ回路、同じCMOSテクノロジーでは、動作周波数fは、印加電圧Vに比例
           つまり、動作周波数(性能)を2倍にするには、8倍の電力消費
 一方、同じCMOSテクノロジーで、同じ回路を2組入れたら、元の回路1つ分の2倍の
 電力消費
           つまり、2倍の性能が2倍の電力消費で手に入る



 つまり、原理的に、プロセッサ1個1個(コア)のクロックは多少低めに押さえて、その
 分をコアの数で稼ぎ、並列度を上げるアプローチの方が、性能/電力効率の点からは
 有利.

           Blue Geneプロジェクトの最初からの基本思想
           現在は、ほとんどすべてのスパコンがこの考えを採用

                                           © 2012 IBM Corporation
ITの成長を支えている源泉はCMOSの継続的微細化

過去30年以上に渡りITの進歩を支える                    Scaled Device
原動力                        Voltage, V / α
                                                           WIRING
  すべてのパラメータ(ゲート長、酸化膜厚、                         tox / α
  配線幅、電圧など)が同じ比率で比例縮                                              W/ α
  小できるというCMOSデバイスの特質                               GATE
  (スケーリング法則)により、集積度、性
  能に関し均一な成長比率を持続してい                   n+                    n+
                                      source                drain
  る(ムーアの法則).
                                                    L/ α
                                  p substrate, doping      α*NA     xd / α


                   SCALING:                       RESULTS:
                   Voltage: V/α                   Higher Density: ~α2
                   Oxide: tox /α                  Higher Speed: ~α
                   Wire width: W/α                Power/ckt: ~1/α
                   Gate width: L/α
                   Diffusion: xd /α

                                                             © 2012 IBM Corporation
ITの成長を支えている源泉はCMOSの継続的微細化

過去30年以上に渡りITの進歩を支える                    Scaled Device
原動力                        Voltage, V / α
                                                           WIRING
  すべてのパラメータ(ゲート長、酸化膜厚、                         tox / α
  配線幅、電圧など)が同じ比率で比例縮                                              W/ α
  小できるというCMOSデバイスの特質                               GATE
  (スケーリング法則)により、集積度、性
  能に関し均一な成長比率を持続してい                   n+                    n+
                                      source                drain
  る(ムーアの法則).
                                                    L/ α
                                  p substrate, doping      α*NA     xd / α


                   SCALING:                       RESULTS:
しかし、90nmあたりからは、    Voltage: V/α                   Higher Density: ~α2
                   Oxide: tox /α                  Higher Speed: ~α
•集積度向上は持続
                   Wire width: W/α                Power/ckt: ~1/α
•速度、電力についてのスケーリ
ング法則は成り立たなくなる.     Gate width: L/α
                   Diffusion: xd /α

                                                             © 2012 IBM Corporation
CMOSの制御不能な変動分によるスケーリング法則のかげり
  CMOSの継続的微細化に伴い、いろいろなパラメータが物理限
  界に近づきつつある.
     制御不能な変動分が全体に占める比率が増大
     素子の性能、電力効率向上は鈍化




                             nm
                         90
                                                  80 A
                                                       o
                                                           配線のギザギザの配線幅に
                                                           対する比率は、90nmの
                                    CD=32nm                CMOSでは10%以下だが、

                         nm
                                      3nm                  32nmでは25%にもなる.
                        32

                                                  80 A
                                                       o




                                                           ゲート酸化膜の厚さは、
45nmのCMOSでは拡散不純物は、100                                      45nmのCMOSでもすでに、
原子以下になり、均質な拡散は困難に
                                  10S T ox= 11A
                                  Gate Stack               10Å以下、原子数個程度.
なっている.


                                                                © 2012 IBM Corporation
限界に挑戦する種々のアプローチ
                                                                                 Heavily
                                                                                 doped,
多くの重要要素技術でのIBMの貢献                                                                 ultra-
                                                                                   thin
                                                                                  body
Cu配線
Low-k
                                                                       12-22 nm
SOI (Silicon On Insulator)
                                                   Ultra-thin SOI
Strained Silicon                                              Strained Silicon
High-k Metal Gate
Lithography
                             High K – Metal Gate
3D Integration
Etc.
                                                            Silicon Germanium

しかし、いづれにしても、
 集積度の向上は続く、
 速度、電力効率向上は頭打ち                                      29.5 nm Resolution


                                Immersion Lithography

                                                                    © 2012 IBM Corporation
Technology Roadmap                                                                            22/20 nm
                                                                                                           3D System Integration
                                                                                                           Computational Scaling
                                                                                 32/28 nm
                                                                                                  High-K gate dielectric
                                                                       45 nm
                                                                                        Embedded SiGe
                                                                                        Ultra Low-k metal dielectrics
                                                         65 nm                          Immersion lithography

                                                                  Strained silicon
                                            90 nm                                                                  y
                                                                                                               l og
                                                       Low-k dielectrics
                                                                                                             no
                             130 nm                                                                        ch
                                                                                                      te
                                            Logic-based embedded DRAM                             M
                                                                                             IB
                  180 nm                                                                in
                                                                                    n
                                Silicon-on-Insulator
                                                                             a   tio
                                                                         nov
         250 nm       Copper interconnect                              in
                                                                   d
                                                              i ne
                                                         s ta
350 nm     SiGe technology
                                                       Su
                                                                                                                © 2012 IBM Corporation
世界最速スパコン BlueGene/Qの中身




                    © 2012 IBM Corporation
Blue Gene Roadmap

                                                                            1 EF
       Performance



                                                          Exa1 200-300 PF
                                         Blue Gene / Q
                                         20+PF
                                         209TF/Rack

                       Blue Gene / P
                       PPC 450 @850MHz
                       1+ PF
                       13,9TF/Rack
     Blue Gene / L
     PPC 440 @700MHz
     596+ TF
     5.7FF/Rack




                     2004         2008             2012        2016            2020
27
BlueGeneの一貫した設計思想
 性能/電力、性能/スペース効率を最適化した設計思想により、同世代の他
 のスパコンを圧倒的に凌駕する性能を達成
   電力効率のよい組み込み用CPUコアを中心としたSoCアプローチ
   最適化したFPU構造
 大規模並列処理を可能とする種々のinnovationにより、高い実効性能を実
 現
   Interconnection用回路をすべてSoCに内包
   MPIに最適化したInterconnection回路自身での自律的な演算
   eDRAMを用いたon-chipの大容量キャッシュ
   軽量のnode kernel
 最適化した回路設計により部品点数を最小化             ->   高い信頼性、保守性、
 面積効率を実現
   すべての必要回路をSoCに内包(nodeの部品はProcessor SoCとDRAMのみ)



                                             © 2012 IBM Corporation
IBM System Technology Group

October 7, 2009: President Obama presented the 2008 National Medal of
Technology and Innovation to IBM, the only company so honored, for the
                Blue Gene family of supercomputers…




The US Government and IBM represent world leadership in high performance computing.   © 2012 IBM Corporation
IBM System Technology Group


IBMの研究・開発部門から創生されたイノベーションの
継続と活力がBlue Geneへとつながっている
例えば:
     RISCの研究はIBM 801プロジェクトとして1975年に開始
          UC BerkeleyのRISC1プロジェクト、スタンフォード大のMIPSプロジェクトよりも
          5年以上早い
     高級プログラミング言語の第一号であるFORTRANは、1956年にIBMの
     Dr. Backusによって開発
     DRAMは、IBMのDr. Denardの発明に基づくもの
     CMOS Scaling LawもDr. Denard
     半導体技術の進歩に大きく寄与している多くの技術(銅配線、SOI、歪シリコン etc.)
     には、IBMの発明と研究に基づく
     IBM Blue Geneは、HPC分野での革新的な貢献を評価され、2008 US National
     Medal of Technology & Innovationを受賞
     米国特許取得件数は、19年間に渡り、1位を持続
                                                © 2012 IBM Corporation
Blue GeneとPowerの発展は表裏一体
1990~       1992~         1997~           2001~          2004~          2007~           2010~
POWER1       POWER2         POWER3         POWER4          POWER5        POWER6            POWER7
  RS/6000    RS/6000 SP      RS/6000 SP         p655           p5 575      Power 575         Power 775

POWER
信頼性を高めたサーバー
                                                       社会がかかえる課題解決に
用途に利用されている
                                                       HPCの可能性を示した
企業向けHPCサーバーを                                           グランド・チャレンジ
継続して提供している
                          IBM Deep Blue の成功                                            IBM Watson の成功
                              (1997年5月)                                                   (2011年2月)


PowerPC              Deep Computing Institute
ゲーム機をはじめとした組                                               Power アーキテクチャー (PowerPC カスタム・チップ)
み込みシステム用途や
                     (1999年5月)
                      - 専用マシンの効率維持                      Blue Gene/L      Blue Gene/L         Blue Gene/Q
スーパーコンピュータに           - 高い信頼性の実現
利用されている                                                 最大600TF            最大1PF               最大20PF
                      - 広範なアプリケーションに適用

                                                        IBMテクノロジーを結集し性能・信頼性・効率性を追及


                                                                          x86 アーキテクチャー
                                                                          iDataPlex (高密度設計システム)
                    x86
                    コモディティの良さを活かしつつ、                                      冷媒式冷却            温水冷却
                    IBMテクノロジーで差別化を実現
                                                                         コモディティ+IBMテクノロジー
                                                                         エネルギー効率を追求
 31                                                                                      © 2012 IBM Corporation
IBM System Technology Group

Blue Gene Evolution
  BG/L (5.7 TF/rack, 210 MF/W) – 130nm ASIC (2004 GA)
  – Scales >128 racks, 0.734 PF/s, dual-core system-on-chip,
  – 0.5/1 GB / Node

  BG/P (13.9 TF/rack, 357 MF/W) – 90nm ASIC (2007 GA)
  – Scales >256 racks, 3.5 PF/s, quad core SOC, DMA
  – 2/4 GB / Node
  – SMP support, OpenMP, MPI


  BG/Q (209 TF/rack, 2000 MF/W) – 45nm ASIC (Early 2012 GA)
  – Scales >256 racks, 53.6 PF/s, 16 core/64 thread SOC
  – 16 GB / Node
  – Speculative execution, sophisticated L1 prefetch, transactional memory,

                                                               © 2012 IBM Corporation
Blue Gene Characteristics
                                              BG/L                          BG/P                            BG/Q
                                                      Compute Nodes
Processor                               32-bit PowerPC 440             32-bit PowerPC 450        64-bit PowerPC (A2 Core)
Processor Frequency                          700 MHz                        850 MHz                         1.6 GHz
Cores                                            2                              4
                                                                                              15x            16+1
Peak Performance (per Node)                   5.6 GF                        13.6 GF                        204.8 GF
Coherency                               Software Managed                      SMP                     SMP + Speculation
L1 Cache (per Core)                          32/32 KB                       32/32 KB                       16/16 KB
L2 Cache (prefetch per Core/Thread)          14 stream                     14 stream                 16 stream + List-based
L3 Cache size (shared, per Node)               4 MB                           8 MB                          32 MB

Main Store/Node (same for I/O Node)       512 MB or 1 GB                 2 GB or 4 GB                       16 GB
                                                                                              3.2x
Main Store Bandwidth                    5.6 GB/s (16B wide)         13.6 GB/s (2*16B wide)                  43 GB/s

                                                       Torus Network
Topology                                        3D                             3D                             5D
                                                                                              7.8x
Bandwidth                             6*2*175 MB/s = 2.1 GB/s       6*2*425 MB/s = 5.1 GB/s                 40 GB/s

Hardware Latency (Nearest               200 ns (32B packet)            100 ns (32B packet)             80 ns (32B packet)
Neighbor)                               1.6 μs (256B packet)           800 ns (256B packet)           640 ns (256B packet)

Hardware Latency (Worst Case)             6.4 μs (64 hops)              5.5 μs (64 hops)                 3 μs (31 hops)

                                                         Per Rack                             15x
Peak Performance                              5.7 TF                        13.9 TF                         209 TF
Sustained Performance (Linpack)               4.6 TF                        11.9 TF                        ~170+ TF
Power (peak)                                  ~20 kW                        ~32 kW
                                                                                              5.6x         ~100 kW
Power Efficiency                            0.23 GF/W                      0.37 GF/W                      1.99 GF/W

                                                                                                                      © 2012 IBM Corporation
IBM System Technology Group


  2011/11のBlue Gene/Qプレスリリース時のNNSA
  のコメント
  “It is this emphasis on reliability, scalability and low power
  consumption that draws the interest of NNSA to this machine and
  its architecture,” said Bob Meisner, head of NNSA's Advanced
  Simulation and Computing program. “This machine will provide
  an ideal platform to research and develop strategies to assure
  that our most challenging codes run efficiently on multi-core
  architectures. Such capabilities will provide tremendous
  information in formulating our code development strategy as we
  face the challenges of exascale simulation and advance the state
  of the art in simulation science, advances necessary to ensure
  our nation's security without nuclear testing.”


                              NNSA: National Nuclear Security Administration
                                                                  © 2012 IBM Corporation
IBM System Technology Group

Blue Gene/Q                                                              4. Node Card:
                                                                         32 Compute Cards,
                                      3. Compute card:                   Optical Modules, Link Chips; 5D Torus
  1. Chip:
                                      One chip module,
16 P Cores
                                      16 GB DDR3 Memory,
8 FP ops/cycle
                                      Heat Spreader for H2O Cooling
                 2. Single Chip
                 Module (1.6 GHz)

                                                                x32

                      16
                                                                                                x16
                                         6. Rack: 2 Midplanes
                                                                      x2
        7. System:
        96 racks, 20PF/s

                                        x96
                                                                      5a. Midplane:
                                                                      16 Node Cards


       •Sustained single node perf:
       10x P, 20x L
       • MF/Watt: (6x) P, (10x) L
       (~2GF/W, Green500 criteria)
                                                                                                © 2012 IBM Corporation
IBM System Technology Group

          PPC
          FPU
                      L1 PF
                                                           2MB
                                                                                              Blue Gene/Q chip
          PPC
          FPU
                      L1 PF
                                                            L2
                                                           2MB                                architecture
          PPC         L1 PF
                                                            L2
          FPU                                              2MB
                                                                                              16+1 core SMP
          PPC         L1 PF
                                                            L2
          FPU                                              2MB
                                                                                                   Each core 4-way hardware threaded
                                                                                   External
          PPC         L1 PF
                                                            L2         DDR-3        DDR3
          FPU                                              2MB        Controller              Transactional memory and thread level speculation
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                Quad floating point unit on each core
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                     204.8 GF peak node
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                Frequency target of 1.6 GHz
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                563 GB/s bandwidth to shared L2
                              full crossbar switch

          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                32 MB shared L2 cache
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                42.6 GB/s DDR3 bandwidth (1.333 GHz DDR3)
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                     (2 channels each with chip kill protection)
          PPC         L1 PF
                                                            L2         DDR-3
          FPU                                              2MB        Controller   External   10 links each at 2.0GB/s
          PPC                                               L2                      DDR3
                      L1 PF
          FPU                                              2MB                                one I/O link at 2.0 GB/s
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                16 GB memory/node
          PPC         L1 PF
                                                            L2
          FPU                                              2MB                                55 watts chip power
          PPC         L1 PF
                                                            L2
          FPU


          PPC         L1 PF
          FPU                                                                                   2 GB/s I/O link (to I/O subsystem)
                                                     dma




                                                                 Network
               Test                                                                             10*2GB/s intra-rack & inter-rack (5-D torus)
Blue Gene/Q                                                PCI_Express                          note: chip I/O shares function with PCI_Express
compute chip
36                                                                                              10/05/2010                     © 2012 IBM Corporation
IBM System Technology Group


BG/Q processor unit (A2 core)
Mostly same design as in PowerENTM chip:
Simple core, designed for excellent power
efficiency and small footprint.
                                             Prv                                                                    IU
Implemented 64-bit PowerISATM v2.06                                   Thread
                                                                       Fetch
                                                                     Sequencer

1.6 GHz @ 0.8V.
32x4x64 bit GPR                             Ucode                                             Branch
                                                                                             Prediction
                                                                    iERAT

4-way Simultaneous Multi- Threading         Ctrl
                                                                               I$



2-way concurrent issue 1 XU + 1 AXU           ROM

                                                                                                           AXU
AXU port allows for unique BGQ style        MMU
                                                          Dep/
                                                         Issue
                                                                             IBuffer                      Dep/
                                                                                                          Issue
floating point
In-order execution
                                              TLB                  GPR

Dynamic branch prediction                                Fixed
                                                         Point
                                                                 Branch
                                                                               Load/
                                                                               Store
                                                                                                              AXU
                                                                            dERAT
                                                                                       D$


                                                    XU                                             AXU
                                                                                        L2 Interface




                                                                                       © 2012 IBM Corporation
IBM Research | Systems | Computer Architecture


Quad-FPU
 Instruction Extensions to
 PowerISA
 4-wide double precision FPU
 SIMD (BG/L,P are 2-wide)                                   256


                                                              Load
 Also usable as 2-way complex
 SIMD (BG/L had 1 complex
 arithmetic)                                                                                        A2
                                              RF       RF             RF     RF
 Attached to AXU port of A2                                                          64
 core – A2 issues one
 instruction/cycle to AXU
 4R/2W register file                                                               Permute

 – 32x32 bytes per thread                    MAD0     MAD1           MAD2   MAD3

 32B (256 bits) datapath to/from
 L1 cache, 8 concurrent floating
 point operations (FMA) + load
 +store



                                                                                   © 2011 IBM Corporation
BG/Q Memory Structure

    Core0    L1   L1PF                 L2 slice 0
                                                     DRAM Controller 0
    Core1    L1   L1PF                 L2 slice 1

                               X-bar




                                                     DRAM Controller 1
    Core16   L1   L1PF                 L2 slice 15



                         DMA


                  Network Interface
IBM System Technology Group

Inter-Processor Communication
                              Integrated 5D torus
                               –Hardware assists for collective & barrier
                                 functions
                               –FP addition support in network
                               –RDMA
                                   • Integrated on-chip Message Unit
                              2 GB/s raw bandwidth on all 10 links
                               –each direction
                               –1.8 GB/s user bandwidth
                                 • protocol overhead
                              Hardware latency
                               –Nearest: 80ns
                               –Farthest: 2.5us (in case of 96-rack 20PF
                                system, 31 hops)
                              Additional 11th link for communication to IO
                              nodes




                                                                © 2012 IBM Corporation
IBM System Technology Group


Scalability
                 Inter-Processor Peak Bandwidth per Node

                   Roadrunner
              SGI Xeon Pleiades

                     Sun TACC
                      Itanium 2
                       Power 6

                  Cray XT6 12C
                   Cray XT5 4C
                           BG/Q
                     Tianhe-1A


                                  0   0.05   0.1         0.15   0.2   0.25
                                             Byte/Flop

                                                                       © 2012 IBM Corporation
IBM System Technology Group

Packaging and Cooling
 Water       18C to 25C

 Flow        20 gpm to 30 gpm

 Height      2095 mm (82.5 inches)

 Width       1219 mm (48 inches)

 Depth       1321 mm (52 inches)

             2000 kg (4400 lbs)
             (including water)
 Weight
             I/O enclosure with 4 drawers
             210 kg (480 lbs)




Water cooled node board
32 compute cards, 8 link ASICs drive 4D links
using 10Gb/s optical transceivers
Hot pluggable front-end power supplies
                                                © 2012 IBM Corporation
IBM System Technology Group

Failures per Month per TF

   From: http://acts.nersc.gov/events/Workshop2006/slides/Simon.pdf

                                             Power 
                           Failures                      Estimated 
                                          Consumption
                       per month per TF                 System Cost
                                              @PF

   Cray XT3/XT4               ~.1 ‐ ~1     ~8MW XT4     >$150M XT4

   Clusters
                              2.6 ‐ 8.0     ~6MW        >$150M x86
   X86/AMD64
   Blue Gene /P               .01‐0.03    ~2.3MW BG/P    <$100M


     BG/Q
     - 500KW @PF
     - 5 ~ 6 racks @PF
                                                                  © 2012 IBM Corporation
IBM System Technology Group

 Blue Gene System Architecture

                                                                        collective network
Service Node
                                           I/O Node                  C-Node 0         C-Node n
                    Front-end    File
 System                                     Linux
                     Nodes      Servers
 Console
                                           fs client                   app                  app




                                                           optical
                                             ciod                      CNK                CNK
                           Functional
                            Functional
                            Network
                             Network                    Optical
               MMCS        10Gb QDR                                       torus
  DB2                       10Gb QDR
                                           I/O Node                  C-Node 0         C-Node n




                                                          optical
                                I2C          Linux
                   Control                  fs client                  app                  app
                    Control
LoadLeveler        Ethernet
                    Ethernet                  ciod
                    (1Gb)                                              CNK                CNK
                     (1Gb)
                                FPGA
                                          JTAG

                                                                                  © 2012 IBM Corporation
IBM System Technology Group

Blue Gene Q Software Innovations
Standards-based programming environment
– LinuxTM development environment
                                                          New for Q
    • Familiar GNU toolchain with glibc, pthreads, gdb
– Linux on I/O node
                                                         –Scalability Enhancements: the
– XL Compilers C, C++, Fortran with OpenMP 3.1            17th Core
– Tools: HPC Toolkit, PAPI, Dyinst, Valgrind, Open
  Speedshop                                               • RAS Event handling and
Message Passing
                                                            interrupt off-load
– Scalable MPICH2 providing MPI 2.2 with extreme          • System management
  message rate
– Efficient intermediate and low-level (SPI) message
                                                         –Wide variety of threading choices
  libraries, documented, and open source
                                                         –Efficient support for mixed-mode
– Compute Node Kernel (CNK) eliminates OS
  noise                                                   programs
– File I/O offloaded to I/O nodes running full Linux     –Support for shared memory
– Flexible and fast job control – with high               programming paradigms
  availability
– Integrated HPC and HTC                                   •   Scalable atomic instructions
– Noise-free partitioned networks as in previous BG        •   Transactional Memory (TM)
                                                           •   Speculative Execution (SE)
                                                           •   Wake-up



                                                                                      © 2012 IBM Corporation
IBM System Technology Group

Execution Modes in BG/Q per Node
   node                                                          Next Generation HPC
core0   core1                                                    – Many Core
                               Hardware Abstractions Black
t0 t1 t2 t3     t0 t1 t2 t3
                               Software Abstractions Blue
                                                                 – Expensive Memory
coren           core15                                           – Two-Tiered Programming Model
t0 t1 t2 t3     t0 t1 t2 t3




    64 Processes                         2,4,8,16,32 Processes                  1 Process
  1 Thread/Process                        32,16,8,4,2 Threads                  64 Threads


   P0 P1          P4 P5                     P0         P1                              P0
   P2 P3          P6 P7
   T0,T0,T0,T0 T0,T0,T0,T0                  T0,T1,     T0,T1,                 T0,T1,         T4,T5,
                                            T2,T3      T2,T3                  T2,T3          T6,T7

   Pn Pm P60 P61
   Po Pp 6P2 P63
  T0,T0,T0,T0    T0,T0,T0,T0               T28,T29,   T28,T29,                Tn,Tm,    T60,T61,
                                           T30,T31    T30,T31                 To,Tp     T62,T63




                                                                                            © 2012 IBM Corporation
IBM System Technology Group

Summary Blue Gene/Q
 1. Ultra-scalability for breakthrough science
  – System can scale to 256 racks and beyond (>262,144 nodes)
   – Cluster: typically a few racks (512-1024 nodes) or less.

 2. Lowest Total Cost of Ownership
   – Highest total power efficiency, smallest footprint
   – Typically 2 orders of magnitude better reliability

 3. Broad range of applications reach
   – Familiar programming models
   – Easy porting from other environments

 4. Foundation for Exascale exploration


                                                                © 2012 IBM Corporation
IBM Power Systems

 Exascaleに向けた課題
                                          Overall Apps Performance = 50X*
   20                                         Performance / watt = 25X
PetaFlop                                       Performance / $ = 25X
                                            Performace / space >= 15X

                                                    Innovation in Technology,
                                                      Architecture, Software
                                                         and Algorithms

                                                                                              1 PetaFlop = 1/3 rack
                             2012
                                             * = Reference to Sequoia (20 PFlops)
                                                                                                      2019


     Accelerating Discovery and Innovation in:
     Materials Science            Energy                Engineering       Climate & Environment     Life Sciences




         Silicon                  Next Gen             High Efficiency           Carbon              Whole Organ
         Design                   Nuclear                 Engines             Sequestration           Simulation
48
         Power is performance redefined                                                            © 2012 IBM Corporation
IBM Power Systems

Exaに向けた電力消費のチャレンジ
単純に現在から外挿すると;


From current Jaguar (Cray) to Exaflop
         3GW
From current K-computer (Fujitsu) to Exaflop
         1.2GW
From current Blue Gene/Q (IBM) to Exaflop
         0.5GW




     原子力発電所レベルの電力



    Power is performance redefined             © 2012 IBM Corporation
IBM Power Systems

Exaに向けた電力消費のチャレンジ
単純に現在から外挿すると;                        ⇒   CMOSの4世代分の進歩をaggressiveに考慮
 すると


From current Jaguar (Cray) to Exaflop
         3GW           187 MW
From current K-computer (Fujitsu) to Exaflop
         1.2GW           75MW
From current Blue Gene/Q (IBM) to Exaflop
         0.5GW           31MW


それでも、
  Insufficient to rely on CMOS
scaling alone to reach exascale!

    Power is performance redefined                           © 2012 IBM Corporation
IBM HPC Roadmapと幅広い取り組み




                      © 2012 IBM Corporation
IBM has a wide range of products on the TOP500 List
                         Although Blue Gene systems have less than 15% of IBM total entries they amount to 63%
                                              of the installed IBM aggregate performance.

                          100
                                                      System x: 158
June 2012 TOP500 Count




                                                     ΣRmax = 15.9 PF
                            75           68


                                    45          45                 Power: 24            Blue Gene: 31
                            50
                                                                 ΣRmax = 5.7 PF        ΣRmax = 37.1 PF


                            25                                                                             20
                                                                               13
                                                                    8                              7
                                                                         2                   4
                                                             1
                             0




                                                                                                     /Q
                                                                          7
                                            x




                                                                         22
                                 0




                                                               75




                                                                                       /L


                                                                                              /P
                                                        2x
                                x




                                                                        er
                                           P
                              X5
                              xx




                                                                                      G




                                                                                                    G
                                                                                             G
                                                                       S
                                                             p5
                                                      JS
                                         iD




                                                                     ow




                                                                                     B




                                                                                                   B
                                                                                            B
                             H




                                                                      Q
                            x3




                                                                    P




                                                                                             Source: www.top500.org

                                                                                                       © 2012 IBM Corporation
Smarter PlanetとHPC

 実世界から観測したデータを目的にしたがって分析                                           状況、制約を考慮

  データ分析 (HPC)                                          結論の候補     意思決定
                                                                  モデル
  データドリブン・データ分析: 数理科学的アナリティクス                                    (最適かつ堅
  モデルドリブン・データ分析: 計算科学的モデリングとシ                                     実な行動の
                                                                   選択)
  ミュレーション                                                                 (規定や方針)


                    モデル化と組織化のプラットフォーム
  観測で          スマートな       スマートな          スマートな        スマートな
                                                                    アクション
              エネルギー供給     ビルディング        サプライチェーン       水資源管理
とらえた世界




     データ収集                                                        命令・制御
                     計測                              アクション
 (センサー、モニター、携帯電話)                                              中央制御、分散制御、
    高性能で継続的な収集                                                 ピア・ツー・ピア制御

     データ・測定プラットフォーム              実世界                         制御プラットフォーム
                            © 2012 IBM Corporation                             53
HPC利活用局面でのWWでのHPC協業実績
Blue Geneコンソーシアム
 – 国公立研究所、大学、企業など多数が参加し、Blue Geneを活用した種々の活動、成果、情報を共
   有しています.
IBM Research Computational Science Center (CSC)
 – HPC先進ユーザと協業し、大規模並列化、性能最適化、計算アルゴリズムの開発などを通した、ノー
   ハゥ、アプリ資産の蓄積
Nanoscale Exploratory Technology Laboratory
 – ETH(EU No.1の工科大学、21人のノーベル賞受賞者)とのナノテク分野のコラボラトリー
電力、原子力分野での仏EDF社との協業、および、その発展形としてのNEAMS (Nuclear
Energy Advanced Modeling and Simulation)
 – NEAMS: To rapidly create, and deploy next generation, verified and validated nuclear energy
   modeling and simulation capabilities for the design, implementation, and operation future
   nuclear energy systems to improve the U.S. energy security future.
エクサスケール・コンピューティング分野でのコラボラトリー
 – アイルランドの大学群と種々のテーマでの共同研究




                                                                                © 2012 IBM Corporation
まとめ
Blue Gene/Qは、圧倒的な性能でTOP500の1にランクされました.
 – かつ、圧倒的な電力効率、スペース効率を実現しています.
 – Powerの発展と表裏一体です.
 – 将来(Exa)へ向けた布石のシステムです.
スーパーコンピュータの計算性能は、過去数十年に渡って、年率2倍(10年間で1,000倍)の向上
を続けています.
 – 世界最大規模のスパコンは、20ペタフロップス(毎秒2京回の計算を行う)の性能に到達して
   います.
 – 2018年頃には、1エクサフロップス(毎秒100京回の計算)の性能に達すると予想されます.
 – 世界のスパコンのぼぼ半分はIBMが開発・製造したものです.
この革新的な性能向上の継続によって、ほとんどすべての自然現象、社会現象をコンピュー
ター内にモデル化して、シミュレーションすることが可能になってきています.
 – 自然現象、社会現象をコンピュータ内にモデル化する学問的な発展が重要です.(自然科
   学、社会科学の世界)
 – 世の中すべてがコンピュータ内で模倣(シミュレーション)される時代が来るかも?(しかし、
   実際には、コンピューターは、人間一人でさえ模倣できていません.)

                      © 2012 IBM Corporation       55

More Related Content

More from Takumi Kurosawa

エバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探る
エバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探るエバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探る
エバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探るTakumi Kurosawa
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦Takumi Kurosawa
 
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~Takumi Kurosawa
 
エバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おう
エバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おうエバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おう
エバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おうTakumi Kurosawa
 
エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?
エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?
エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?Takumi Kurosawa
 
「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)
「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)
「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)Takumi Kurosawa
 
ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」
ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」
ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」Takumi Kurosawa
 
コンピューティングの経済性エンジンとしてのメインフレーム
コンピューティングの経済性エンジンとしてのメインフレームコンピューティングの経済性エンジンとしてのメインフレーム
コンピューティングの経済性エンジンとしてのメインフレームTakumi Kurosawa
 
電力使用量を抑制する4つのアプローチ
電力使用量を抑制する4つのアプローチ電力使用量を抑制する4つのアプローチ
電力使用量を抑制する4つのアプローチTakumi Kurosawa
 

More from Takumi Kurosawa (9)

エバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探る
エバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探るエバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探る
エバンジェリストが語るパワーシステム特論 ~ 第4回:AIX 人気の秘密を探る
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦
 
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
 
エバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おう
エバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おうエバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おう
エバンジェリストが語るパワーシステム特論 ~ 第2回:『x86Linuxのスキルを活かしてPowerを使おう
 
エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?
エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?
エバンジェリストが語るパワーシステム特論 ~ 第1回:IBMオフコンはいかにして生き残れたのか?
 
「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)
「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)
「メインフレーム再発見」("IBMのメインフレームを見に行こう 第2弾" より)
 
ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」
ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」
ブロガーミーティング資料「システムダウンと個人の幸せの相関関係 -なぜ、システムを止めてはいけないか?-」
 
コンピューティングの経済性エンジンとしてのメインフレーム
コンピューティングの経済性エンジンとしてのメインフレームコンピューティングの経済性エンジンとしてのメインフレーム
コンピューティングの経済性エンジンとしてのメインフレーム
 
電力使用量を抑制する4つのアプローチ
電力使用量を抑制する4つのアプローチ電力使用量を抑制する4つのアプローチ
電力使用量を抑制する4つのアプローチ
 

Recently uploaded

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 

Recently uploaded (7)

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 

エバンジェリストが語るパワーシステム特論 ~ 特番:世界最速スパコン、セコイア(IBM Blue Gene/Q)の凄さの秘密に迫る

  • 1. 世界最速スパコン、セコイア「Blue Gene/Q」の 凄さの秘密に迫る 2012年7月17日 清水茂則 日本IBM Japan Systems&Technology Lab. © 2012 IBM Corporation
  • 2. Agenda HPC最新状況(Top500) HPCの意義 世界最速スパコン BlueGene/Qの中身 IBM HPC Roadmapと幅広い取り組み © 2012 IBM Corporation
  • 3. HPC最新状況 単位の復習 Giga ギガ 109 10億 Tera テラ 1012 1兆 Peta ペタ 1015 1000兆 10 Peta 1016 京 Exa エクサ 1019 100京 © 2012 IBM Corporation
  • 4. HPCを取り巻く状況認識 HPC(計算科学)は、理論科学、実験科学と並ぶ、3大科学方法論の一 つ HPCシステムの性能は年率2倍(10年で1,000倍)で継続して向上し続け ている 単一スレッド性能の伸びの鈍化を、マルチコア、クラスタによる並列ス レッド、並列プロセスにより、性能向上を持続 したがって、科学の3大方法論の中でのHPCの重要性は指数的に増大 し、これをいかに使いこなし利活用するかが、科学技術の革新、企業競 争力強化の鍵になる 日本はHPCの利活用では、国際的に見て、十分とは言えない状況にあ り、技術競争力強化に向けたHPC利活用の促進が重要 Smarter Planetビジョンを実現する重要な要素技術として重要度の増大 © 2012 IBM Corporation
  • 5. Rmax Performance (TFlops) 0.0001 100000 1000 10000 1000000 0.001 0.01 0.1 1 10 100 Ju n No 93 v Ju 93 n9 No 4 v9 Ju 4 n9 No 5 v9 Ju 5 n No 96 v9 Ju 6 n9 No 7 v9 Ju 7 n9 No 8 v Ju 98 n No 99 v9 Ju 9 n0 No 0 v0 Ju 0 n0 T TOP500 Performance Trend No 1 v0 Ju 1 n otal No 02 v0 Ju 2 n0 Ag No 3 v Ju 03 n0 No 4 g r eg v0 Ju 4 n ate No 05 v0 Ju 5 n0 No 6 v0 Ju 6 Perfo n0 r No 7 v0 Ju 7 n # 50 No 08 v 0 m an Ju 08 n0 ce No 9 #1 v0 Ju 9 #10 n1 No 0 v1 Ju 0 n1 No 1 v1 Ju 1 n1 www.top500.org Source: 2 HPCシステムの性能は年率2倍(10年で1,000倍)で継続して向上し続けている 60.8 TF 1.27 PF 16.3 PF 123.4 PF © 2012 IBM Corporation
  • 6. IBM supercomputing leadership June 2012 TOP500 Entries IBM leads, followed by HP Appro, 19 Other, 51 Bull , 16 Dell, 12 IBM, Semiannual independent Oracle, 7 213 ranking of the top 500 Cray, 26 supercomputers in the world SGI, 16 June 2012 Aggregate Performance HP, 140 IBM leads with 58.6 of 123.4 PF Bull 4.6% Other 18.9% IBM supercomputing leadership ... NUDT 2.9% IBM New #1: LLNL Sequoia Blue Gene/Q 16.32 PFlops 47.5% Dawning Most installed aggregate throughput with over 58.6 out of 123.4 1.2% Petaflops (47.5%) (HP 13.5/11%, Fujitsu 12.2 /9.9%, Cray: 10.9/ Dell 8.8%) 1.1% Most systems in TOP500 with 213 (HP: 140, Cray: 26, Appro: 19) Oracle 1.2% Cray SGI Fastest system in Europe (LRZ-SuperMUC iDataPlex) HP 8.8% 2.8% 11.0% Fastest x86 system (LRZ-SuperMUC iDataPlex) 20 Most energy-efficient systems All IBM Blue Gene/Q’s Source: www.top500.org © 2012 IBM Corporation
  • 7. Supercomputer Top20 ランキング (2012年6月) Top10の半分、Top20の40%がIBMシステム Rmax Rmax # Ven-dor Installation # Ven-dor Installation TFlops TFlops 16,324 DOE/NNSA/LLNL-Sequoia 1,243 NASA Ames - Pleiades 1 IBM 11 SGI Update (96ラック Blue Gene/Q) Update (Altix mixed CPUs) RIKEN K Computer 1,237 IFERC Helios 2 富士通 10,510 12 Bull (SPARC64 VIIIfx 2.0GHz) New (Sandy Bridge) 8,162 DOE/NNSA/ANL - Mira 1,207 Daresbury – Blue Joule 3 IBM 13 IBM New (48ラック Blue Gene/Q) New (7ラック Blue Gene/Q) 2,897 LRZ - SuperMUC TiTech Tsubame 2.0 4 IBM 14 HP 1,192 New (iDataPlex – Sandy Bridge) (Westmere/NVIDIA GPU) NUDT – Tianhe 1A China Sandia - Cielo 5 NUDT 2,566 15 Cray 1,110 (Westmere/NVIDIA GPU) (XE6 8コア 2.4GHz Opteron) 1,941 Oak Ridge NL - Jaguar NERSC – Hopper 6 Cray 16 Cray 1,053 Update (XT5 6C 2.6GHz Opteron) (XE6 12コア Opteron) 1,725 CINECA - Fermi CEA Tera-100 – France 7 IBM 17 Bull 1,050 New (10ラック Blue Gene/Q) (Nehalem-EX) 1,380 Juelich - JuQUEEN 1,043 Univ Tokyo–Oakleaf FX 8 IBM 18 富士通 New (8ラック Blue Gene/Q) New (SPARC64 IXfx 1.8 GHz) 1,359 CEA/GENCI - Curie DOE/NNSA/LANL - RR 9 Bull 19 IBM 1,042 New (Sandy Bridge) (QS22/LS21) NSCS-China Nebulae 1,035 Univ Edinburgh – DiRAC 10 Dawn- ing 1,271 20 IBM (6C Xeon+NVIDIA GPU) New (6 rack Blue Gene/Q) 出典: www.top500.org © 2012 IBM Corporation
  • 8. 鍵は電力効率、スペース効率 Top500 ランキング #1 IBM Blue Gene/Q 米ローレンス・リバモア国立研究所 Power アーキテクチャー採用 Power BQC 16コア 1.60 GHz (計1,572,864コア) Linux オペレーティングシステム 96ラック Sequioa Blue Gene/Qと京コンピュータの簡単な比較 パフォーマンス 1.55倍高速 (16.324PF vs 10.510PF) 消費電力 2/3以下(63%) (7.89MW vs 12.6MW) エネルギー効率 2.5倍 (2069MF/W vs 830MF/W) 設置ラック数 1/9程度 (96 vs 864) ラック当りのピーク性能 約17倍 (209.71TF vs 12.29TF) 世界最高速&最も優れたエネルギー効率 © 2012 IBM Corporation
  • 9. 他のシステムを凌駕する高いエネルギー効率 Number shown in column is June 2012 TOP500 rank 2500 良い 2000 MFlops / Watt 1 3 7 8 1500 1000 2 4 500 5 9 10 6 0 LLNL Sequoia RIKEN Japan ANL Mira LRZ NSCS Tianjin ORNL Jaguar CINECA Fermi Juelich CEA Bull NSCS SuperMUC JuQUEEN (Curie) Shenzhen Rank Site Mfgr System Rmax MF/w Relative Mw 1 LLNL IBM Sequoia - 96ラック Blue Gene/Q 16324 2069 1.00 7.89 2 RIKEN Japan Fujitsu K computer, SPARC64 VIIIfx 2.0GHz 10510 830 2.49 12.6 3 ANL IBM Mira - 48ラック Blue Gene/Q 8162 2069 1.00 3.94 4 LRZ IBM SuperMUC - iDataPlex SandyBridge 2897 823 2.51 3.52 5 NSCS Tianjin NUDT NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU 2566 635 3.26 4.04 6 ORNL Cray Inc. Cray XT5-HE Opteron 6-コア 2.6 GHz 1759 253 8.18 5.14 7 CINECA IBM Fermi - 10ラック Blue Gene/Q 1725 2099 0.99 0.822 8 Juelich IBM JuQUEEN - 8ラック Blue Gene/Q 1380 2099 0.99 0.657 9 CEA/TGCC Bull SA Curie - SandyBridge 1359 604 3.43 2.25 10 NSCS Shenzhen Dawning Dawning TC3600 Blade, Intel X5650, NVIDIA GPU 1271 493 4.20 2.58 Source: www.top500.org, www.green500.org © 2012 IBM Corporation
  • 10. そもそもHPCとは? © 2012 IBM Corporation
  • 11. HPCの例 タンパク質の合成 非破壊検査 脳の電気信号伝播 種々の自然現象、社会現 象をコンピュータ内に模倣 するモデリング技術は、か なり成熟してきている 霧の発生と経過 核融合炉の設計 いかに活用するかが鍵 © 2012 IBM Corporation
  • 12. モデリング技術の例 - 例えば材料設計 「目的とする物性を持つ物質を発見する」 従来は実験的な試行錯誤 -> 計算機シミュレーションへ ->現代の錬 金術 物質の物性は化学結合の様相と電子状 態の反映 電子状態は量子力学の方程式によって 規定される 量子力学モデルの計算機シミュレーショ ン(偏微分方程式) 目的とする物性に関連した微視的機構 の解明 目的とする物性を持つ物質の効率的発 見(実験的) © 2012 IBM Corporation
  • 13. 現象と数学とコンピューターの関係 計算科学 計算機科学・工学 自然現象を、それを司る物理法則で表現する(モデル化) 物理法則は関連する項目の数式で表現される(例えば、微分方程式) その数式をコンピューターで計算する © 2012 IBM Corporation
  • 14. HPC発展のループ HPCの性能向上の継続は、計算機技術、計算機科学の継続発展、モデリング技法、シ ミュレーション技法などの計算科学の発展に支えられ、その発展と、より精緻に迅速に予 測結果を得たいというような社会的要請の相互作用による正のスパイラルによる. 計算機科学・工学の発展 計算科学の発展 デバイステクノロジー 流体力学 プロセッサ技術・アーキテクチャー 構造力学 システム技術・アーキテクチャー プラズマ物理 周辺IO技術 量子力学 プログラミング言語・モデル 古典化学 OS, Middleware 生化学 数値計算技法、他 金融工学、他 シミュレーション計算への社会的要求 より早く、より正確に、より多彩に © 2012 IBM Corporation
  • 16. ところで、仕事を早くするには?(バケツ1000個を1000m運ぶには?) (例えば、1000個のバケツを同時に運べ 一人の強力化 る人、あるいは、1000倍速い人) バケツリレー (縦に多数並べる) (例えば、1mおきに1000人並べる) 並列化 (横に多数並べる) (例えば、横に1000人並べて、一人一個 … バケツを運び、1000個同時に運ぶ) © 2012 IBM Corporation
  • 17. スーパーコンピュータの進化 現在のスーパーコンピューターは、前のページの3つの方法すべての組み 合わせで進化を続けています. 1. プロセッサ(CPU)単体の高速化 2. バケツリレー方式(パイプライン方式)の強化 3. 並列処理方式の強化 仕事の段取り 段取りを実行する仕組 単体強化 単純 そんな強力な単体を作れるか? パイプライン 同じ程度の大きさの子仕事に分 隣との連携に無駄な時間が生じ 割できるか? ないか? 並列処理 同時並行にできる子仕事に分割 周りとの連携に無駄は生じない できるか? か? それ以前に、そもそも、目的を達成するにはどんな仕事をすればよいか? 結果、毎年2倍の性能向上を持続してます。すると、2018年頃には、1エクサフ ロップス(毎秒1018回、100京回の計算)の性能に達すると予想されます. © 2012 IBM Corporation
  • 18. スーパーコンピューティングで大事なこと まず、物理現象、あるいは、社会現象を定式化して、コンピュータの中に表 現(モデル化)できるか? 現象の仕組みが理解できているか? 現象の仕組みをどれくらい正確に定式化できるか? そのモデル(つまり仕事)は、うまくバケツリレー化、あるいは、並列化して 効率的にプログラムできるか? そもそも分割できる仕事なのか? 分割できない部分はないか?その比率は? 分割したときに余分な仕事は発生しないか? そのプログラムを計算するスーパーコンピュータは、効率的に超高性能を 実現できるか? そもそも実現可能か? 金額、熱、電力、体積・面積などの点で現実的か? © 2012 IBM Corporation
  • 20. 大規模スパコンの性能/電力効率のFundamental 大雑把に言って、 CMOS半導体回路の電力消費(W)は; W∝cV2・f (cは容量、Vは印加電圧、fは動作周波数) 同じ回路、同じCMOSテクノロジーでは、動作周波数fは、印加電圧Vに比例 つまり、動作周波数(性能)を2倍にするには、8倍の電力消費 一方、同じCMOSテクノロジーで、同じ回路を2組入れたら、元の回路1つ分の2倍の 電力消費 つまり、2倍の性能が2倍の電力消費で手に入る つまり、原理的に、プロセッサ1個1個(コア)のクロックは多少低めに押さえて、その 分をコアの数で稼ぎ、並列度を上げるアプローチの方が、性能/電力効率の点からは 有利. Blue Geneプロジェクトの最初からの基本思想 現在は、ほとんどすべてのスパコンがこの考えを採用 © 2012 IBM Corporation
  • 21. ITの成長を支えている源泉はCMOSの継続的微細化 過去30年以上に渡りITの進歩を支える Scaled Device 原動力 Voltage, V / α WIRING すべてのパラメータ(ゲート長、酸化膜厚、 tox / α 配線幅、電圧など)が同じ比率で比例縮 W/ α 小できるというCMOSデバイスの特質 GATE (スケーリング法則)により、集積度、性 能に関し均一な成長比率を持続してい n+ n+ source drain る(ムーアの法則). L/ α p substrate, doping α*NA xd / α SCALING: RESULTS: Voltage: V/α Higher Density: ~α2 Oxide: tox /α Higher Speed: ~α Wire width: W/α Power/ckt: ~1/α Gate width: L/α Diffusion: xd /α © 2012 IBM Corporation
  • 22. ITの成長を支えている源泉はCMOSの継続的微細化 過去30年以上に渡りITの進歩を支える Scaled Device 原動力 Voltage, V / α WIRING すべてのパラメータ(ゲート長、酸化膜厚、 tox / α 配線幅、電圧など)が同じ比率で比例縮 W/ α 小できるというCMOSデバイスの特質 GATE (スケーリング法則)により、集積度、性 能に関し均一な成長比率を持続してい n+ n+ source drain る(ムーアの法則). L/ α p substrate, doping α*NA xd / α SCALING: RESULTS: しかし、90nmあたりからは、 Voltage: V/α Higher Density: ~α2 Oxide: tox /α Higher Speed: ~α •集積度向上は持続 Wire width: W/α Power/ckt: ~1/α •速度、電力についてのスケーリ ング法則は成り立たなくなる. Gate width: L/α Diffusion: xd /α © 2012 IBM Corporation
  • 23. CMOSの制御不能な変動分によるスケーリング法則のかげり CMOSの継続的微細化に伴い、いろいろなパラメータが物理限 界に近づきつつある. 制御不能な変動分が全体に占める比率が増大 素子の性能、電力効率向上は鈍化 nm 90 80 A o 配線のギザギザの配線幅に 対する比率は、90nmの CD=32nm CMOSでは10%以下だが、 nm 3nm 32nmでは25%にもなる. 32 80 A o ゲート酸化膜の厚さは、 45nmのCMOSでは拡散不純物は、100 45nmのCMOSでもすでに、 原子以下になり、均質な拡散は困難に 10S T ox= 11A Gate Stack 10Å以下、原子数個程度. なっている. © 2012 IBM Corporation
  • 24. 限界に挑戦する種々のアプローチ Heavily doped, 多くの重要要素技術でのIBMの貢献 ultra- thin body Cu配線 Low-k 12-22 nm SOI (Silicon On Insulator) Ultra-thin SOI Strained Silicon Strained Silicon High-k Metal Gate Lithography High K – Metal Gate 3D Integration Etc. Silicon Germanium しかし、いづれにしても、 集積度の向上は続く、 速度、電力効率向上は頭打ち 29.5 nm Resolution Immersion Lithography © 2012 IBM Corporation
  • 25. Technology Roadmap 22/20 nm 3D System Integration Computational Scaling 32/28 nm High-K gate dielectric 45 nm Embedded SiGe Ultra Low-k metal dielectrics 65 nm Immersion lithography Strained silicon 90 nm y l og Low-k dielectrics no 130 nm ch te Logic-based embedded DRAM M IB 180 nm in n Silicon-on-Insulator a tio nov 250 nm Copper interconnect in d i ne s ta 350 nm SiGe technology Su © 2012 IBM Corporation
  • 27. Blue Gene Roadmap 1 EF Performance Exa1 200-300 PF Blue Gene / Q 20+PF 209TF/Rack Blue Gene / P PPC 450 @850MHz 1+ PF 13,9TF/Rack Blue Gene / L PPC 440 @700MHz 596+ TF 5.7FF/Rack 2004 2008 2012 2016 2020 27
  • 28. BlueGeneの一貫した設計思想 性能/電力、性能/スペース効率を最適化した設計思想により、同世代の他 のスパコンを圧倒的に凌駕する性能を達成 電力効率のよい組み込み用CPUコアを中心としたSoCアプローチ 最適化したFPU構造 大規模並列処理を可能とする種々のinnovationにより、高い実効性能を実 現 Interconnection用回路をすべてSoCに内包 MPIに最適化したInterconnection回路自身での自律的な演算 eDRAMを用いたon-chipの大容量キャッシュ 軽量のnode kernel 最適化した回路設計により部品点数を最小化 -> 高い信頼性、保守性、 面積効率を実現 すべての必要回路をSoCに内包(nodeの部品はProcessor SoCとDRAMのみ) © 2012 IBM Corporation
  • 29. IBM System Technology Group October 7, 2009: President Obama presented the 2008 National Medal of Technology and Innovation to IBM, the only company so honored, for the Blue Gene family of supercomputers… The US Government and IBM represent world leadership in high performance computing. © 2012 IBM Corporation
  • 30. IBM System Technology Group IBMの研究・開発部門から創生されたイノベーションの 継続と活力がBlue Geneへとつながっている 例えば: RISCの研究はIBM 801プロジェクトとして1975年に開始 UC BerkeleyのRISC1プロジェクト、スタンフォード大のMIPSプロジェクトよりも 5年以上早い 高級プログラミング言語の第一号であるFORTRANは、1956年にIBMの Dr. Backusによって開発 DRAMは、IBMのDr. Denardの発明に基づくもの CMOS Scaling LawもDr. Denard 半導体技術の進歩に大きく寄与している多くの技術(銅配線、SOI、歪シリコン etc.) には、IBMの発明と研究に基づく IBM Blue Geneは、HPC分野での革新的な貢献を評価され、2008 US National Medal of Technology & Innovationを受賞 米国特許取得件数は、19年間に渡り、1位を持続 © 2012 IBM Corporation
  • 31. Blue GeneとPowerの発展は表裏一体 1990~ 1992~ 1997~ 2001~ 2004~ 2007~ 2010~ POWER1 POWER2 POWER3 POWER4 POWER5 POWER6 POWER7 RS/6000 RS/6000 SP RS/6000 SP p655 p5 575 Power 575 Power 775 POWER 信頼性を高めたサーバー 社会がかかえる課題解決に 用途に利用されている HPCの可能性を示した 企業向けHPCサーバーを グランド・チャレンジ 継続して提供している IBM Deep Blue の成功 IBM Watson の成功 (1997年5月) (2011年2月) PowerPC Deep Computing Institute ゲーム機をはじめとした組 Power アーキテクチャー (PowerPC カスタム・チップ) み込みシステム用途や (1999年5月) - 専用マシンの効率維持 Blue Gene/L Blue Gene/L Blue Gene/Q スーパーコンピュータに - 高い信頼性の実現 利用されている 最大600TF 最大1PF 最大20PF - 広範なアプリケーションに適用 IBMテクノロジーを結集し性能・信頼性・効率性を追及 x86 アーキテクチャー iDataPlex (高密度設計システム) x86 コモディティの良さを活かしつつ、 冷媒式冷却 温水冷却 IBMテクノロジーで差別化を実現 コモディティ+IBMテクノロジー エネルギー効率を追求 31 © 2012 IBM Corporation
  • 32. IBM System Technology Group Blue Gene Evolution BG/L (5.7 TF/rack, 210 MF/W) – 130nm ASIC (2004 GA) – Scales >128 racks, 0.734 PF/s, dual-core system-on-chip, – 0.5/1 GB / Node BG/P (13.9 TF/rack, 357 MF/W) – 90nm ASIC (2007 GA) – Scales >256 racks, 3.5 PF/s, quad core SOC, DMA – 2/4 GB / Node – SMP support, OpenMP, MPI BG/Q (209 TF/rack, 2000 MF/W) – 45nm ASIC (Early 2012 GA) – Scales >256 racks, 53.6 PF/s, 16 core/64 thread SOC – 16 GB / Node – Speculative execution, sophisticated L1 prefetch, transactional memory, © 2012 IBM Corporation
  • 33. Blue Gene Characteristics BG/L BG/P BG/Q Compute Nodes Processor 32-bit PowerPC 440 32-bit PowerPC 450 64-bit PowerPC (A2 Core) Processor Frequency 700 MHz 850 MHz 1.6 GHz Cores 2 4 15x 16+1 Peak Performance (per Node) 5.6 GF 13.6 GF 204.8 GF Coherency Software Managed SMP SMP + Speculation L1 Cache (per Core) 32/32 KB 32/32 KB 16/16 KB L2 Cache (prefetch per Core/Thread) 14 stream 14 stream 16 stream + List-based L3 Cache size (shared, per Node) 4 MB 8 MB 32 MB Main Store/Node (same for I/O Node) 512 MB or 1 GB 2 GB or 4 GB 16 GB 3.2x Main Store Bandwidth 5.6 GB/s (16B wide) 13.6 GB/s (2*16B wide) 43 GB/s Torus Network Topology 3D 3D 5D 7.8x Bandwidth 6*2*175 MB/s = 2.1 GB/s 6*2*425 MB/s = 5.1 GB/s 40 GB/s Hardware Latency (Nearest 200 ns (32B packet) 100 ns (32B packet) 80 ns (32B packet) Neighbor) 1.6 μs (256B packet) 800 ns (256B packet) 640 ns (256B packet) Hardware Latency (Worst Case) 6.4 μs (64 hops) 5.5 μs (64 hops) 3 μs (31 hops) Per Rack 15x Peak Performance 5.7 TF 13.9 TF 209 TF Sustained Performance (Linpack) 4.6 TF 11.9 TF ~170+ TF Power (peak) ~20 kW ~32 kW 5.6x ~100 kW Power Efficiency 0.23 GF/W 0.37 GF/W 1.99 GF/W © 2012 IBM Corporation
  • 34. IBM System Technology Group 2011/11のBlue Gene/Qプレスリリース時のNNSA のコメント “It is this emphasis on reliability, scalability and low power consumption that draws the interest of NNSA to this machine and its architecture,” said Bob Meisner, head of NNSA's Advanced Simulation and Computing program. “This machine will provide an ideal platform to research and develop strategies to assure that our most challenging codes run efficiently on multi-core architectures. Such capabilities will provide tremendous information in formulating our code development strategy as we face the challenges of exascale simulation and advance the state of the art in simulation science, advances necessary to ensure our nation's security without nuclear testing.” NNSA: National Nuclear Security Administration © 2012 IBM Corporation
  • 35. IBM System Technology Group Blue Gene/Q 4. Node Card: 32 Compute Cards, 3. Compute card: Optical Modules, Link Chips; 5D Torus 1. Chip: One chip module, 16 P Cores 16 GB DDR3 Memory, 8 FP ops/cycle Heat Spreader for H2O Cooling 2. Single Chip Module (1.6 GHz) x32 16 x16 6. Rack: 2 Midplanes x2 7. System: 96 racks, 20PF/s x96 5a. Midplane: 16 Node Cards •Sustained single node perf: 10x P, 20x L • MF/Watt: (6x) P, (10x) L (~2GF/W, Green500 criteria) © 2012 IBM Corporation
  • 36. IBM System Technology Group PPC FPU L1 PF 2MB Blue Gene/Q chip PPC FPU L1 PF L2 2MB architecture PPC L1 PF L2 FPU 2MB 16+1 core SMP PPC L1 PF L2 FPU 2MB Each core 4-way hardware threaded External PPC L1 PF L2 DDR-3 DDR3 FPU 2MB Controller Transactional memory and thread level speculation PPC L1 PF L2 FPU 2MB Quad floating point unit on each core PPC L1 PF L2 FPU 2MB 204.8 GF peak node PPC L1 PF L2 FPU 2MB Frequency target of 1.6 GHz PPC L1 PF L2 FPU 2MB 563 GB/s bandwidth to shared L2 full crossbar switch PPC L1 PF L2 FPU 2MB 32 MB shared L2 cache PPC L1 PF L2 FPU 2MB 42.6 GB/s DDR3 bandwidth (1.333 GHz DDR3) PPC L1 PF L2 FPU 2MB (2 channels each with chip kill protection) PPC L1 PF L2 DDR-3 FPU 2MB Controller External 10 links each at 2.0GB/s PPC L2 DDR3 L1 PF FPU 2MB one I/O link at 2.0 GB/s PPC L1 PF L2 FPU 2MB 16 GB memory/node PPC L1 PF L2 FPU 2MB 55 watts chip power PPC L1 PF L2 FPU PPC L1 PF FPU 2 GB/s I/O link (to I/O subsystem) dma Network Test 10*2GB/s intra-rack & inter-rack (5-D torus) Blue Gene/Q PCI_Express note: chip I/O shares function with PCI_Express compute chip 36 10/05/2010 © 2012 IBM Corporation
  • 37. IBM System Technology Group BG/Q processor unit (A2 core) Mostly same design as in PowerENTM chip: Simple core, designed for excellent power efficiency and small footprint. Prv IU Implemented 64-bit PowerISATM v2.06 Thread Fetch Sequencer 1.6 GHz @ 0.8V. 32x4x64 bit GPR Ucode Branch Prediction iERAT 4-way Simultaneous Multi- Threading Ctrl I$ 2-way concurrent issue 1 XU + 1 AXU ROM AXU AXU port allows for unique BGQ style MMU Dep/ Issue IBuffer Dep/ Issue floating point In-order execution TLB GPR Dynamic branch prediction Fixed Point Branch Load/ Store AXU dERAT D$ XU AXU L2 Interface © 2012 IBM Corporation
  • 38. IBM Research | Systems | Computer Architecture Quad-FPU Instruction Extensions to PowerISA 4-wide double precision FPU SIMD (BG/L,P are 2-wide) 256 Load Also usable as 2-way complex SIMD (BG/L had 1 complex arithmetic) A2 RF RF RF RF Attached to AXU port of A2 64 core – A2 issues one instruction/cycle to AXU 4R/2W register file Permute – 32x32 bytes per thread MAD0 MAD1 MAD2 MAD3 32B (256 bits) datapath to/from L1 cache, 8 concurrent floating point operations (FMA) + load +store © 2011 IBM Corporation
  • 39. BG/Q Memory Structure Core0 L1 L1PF L2 slice 0 DRAM Controller 0 Core1 L1 L1PF L2 slice 1 X-bar DRAM Controller 1 Core16 L1 L1PF L2 slice 15 DMA Network Interface
  • 40. IBM System Technology Group Inter-Processor Communication Integrated 5D torus –Hardware assists for collective & barrier functions –FP addition support in network –RDMA • Integrated on-chip Message Unit 2 GB/s raw bandwidth on all 10 links –each direction –1.8 GB/s user bandwidth • protocol overhead Hardware latency –Nearest: 80ns –Farthest: 2.5us (in case of 96-rack 20PF system, 31 hops) Additional 11th link for communication to IO nodes © 2012 IBM Corporation
  • 41. IBM System Technology Group Scalability Inter-Processor Peak Bandwidth per Node Roadrunner SGI Xeon Pleiades Sun TACC Itanium 2 Power 6 Cray XT6 12C Cray XT5 4C BG/Q Tianhe-1A 0 0.05 0.1 0.15 0.2 0.25 Byte/Flop © 2012 IBM Corporation
  • 42. IBM System Technology Group Packaging and Cooling Water 18C to 25C Flow 20 gpm to 30 gpm Height 2095 mm (82.5 inches) Width 1219 mm (48 inches) Depth 1321 mm (52 inches) 2000 kg (4400 lbs) (including water) Weight I/O enclosure with 4 drawers 210 kg (480 lbs) Water cooled node board 32 compute cards, 8 link ASICs drive 4D links using 10Gb/s optical transceivers Hot pluggable front-end power supplies © 2012 IBM Corporation
  • 43. IBM System Technology Group Failures per Month per TF From: http://acts.nersc.gov/events/Workshop2006/slides/Simon.pdf Power  Failures  Estimated  Consumption per month per TF System Cost @PF Cray XT3/XT4 ~.1 ‐ ~1 ~8MW XT4 >$150M XT4 Clusters 2.6 ‐ 8.0 ~6MW >$150M x86 X86/AMD64 Blue Gene /P .01‐0.03 ~2.3MW BG/P <$100M BG/Q - 500KW @PF - 5 ~ 6 racks @PF © 2012 IBM Corporation
  • 44. IBM System Technology Group Blue Gene System Architecture collective network Service Node I/O Node C-Node 0 C-Node n Front-end File System Linux Nodes Servers Console fs client app app optical ciod CNK CNK Functional Functional Network Network Optical MMCS 10Gb QDR torus DB2 10Gb QDR I/O Node C-Node 0 C-Node n optical I2C Linux Control fs client app app Control LoadLeveler Ethernet Ethernet ciod (1Gb) CNK CNK (1Gb) FPGA JTAG © 2012 IBM Corporation
  • 45. IBM System Technology Group Blue Gene Q Software Innovations Standards-based programming environment – LinuxTM development environment New for Q • Familiar GNU toolchain with glibc, pthreads, gdb – Linux on I/O node –Scalability Enhancements: the – XL Compilers C, C++, Fortran with OpenMP 3.1 17th Core – Tools: HPC Toolkit, PAPI, Dyinst, Valgrind, Open Speedshop • RAS Event handling and Message Passing interrupt off-load – Scalable MPICH2 providing MPI 2.2 with extreme • System management message rate – Efficient intermediate and low-level (SPI) message –Wide variety of threading choices libraries, documented, and open source –Efficient support for mixed-mode – Compute Node Kernel (CNK) eliminates OS noise programs – File I/O offloaded to I/O nodes running full Linux –Support for shared memory – Flexible and fast job control – with high programming paradigms availability – Integrated HPC and HTC • Scalable atomic instructions – Noise-free partitioned networks as in previous BG • Transactional Memory (TM) • Speculative Execution (SE) • Wake-up © 2012 IBM Corporation
  • 46. IBM System Technology Group Execution Modes in BG/Q per Node node Next Generation HPC core0 core1 – Many Core Hardware Abstractions Black t0 t1 t2 t3 t0 t1 t2 t3 Software Abstractions Blue – Expensive Memory coren core15 – Two-Tiered Programming Model t0 t1 t2 t3 t0 t1 t2 t3 64 Processes 2,4,8,16,32 Processes 1 Process 1 Thread/Process 32,16,8,4,2 Threads 64 Threads P0 P1 P4 P5 P0 P1 P0 P2 P3 P6 P7 T0,T0,T0,T0 T0,T0,T0,T0 T0,T1, T0,T1, T0,T1, T4,T5, T2,T3 T2,T3 T2,T3 T6,T7 Pn Pm P60 P61 Po Pp 6P2 P63 T0,T0,T0,T0 T0,T0,T0,T0 T28,T29, T28,T29, Tn,Tm, T60,T61, T30,T31 T30,T31 To,Tp T62,T63 © 2012 IBM Corporation
  • 47. IBM System Technology Group Summary Blue Gene/Q 1. Ultra-scalability for breakthrough science – System can scale to 256 racks and beyond (>262,144 nodes) – Cluster: typically a few racks (512-1024 nodes) or less. 2. Lowest Total Cost of Ownership – Highest total power efficiency, smallest footprint – Typically 2 orders of magnitude better reliability 3. Broad range of applications reach – Familiar programming models – Easy porting from other environments 4. Foundation for Exascale exploration © 2012 IBM Corporation
  • 48. IBM Power Systems Exascaleに向けた課題 Overall Apps Performance = 50X* 20 Performance / watt = 25X PetaFlop Performance / $ = 25X Performace / space >= 15X Innovation in Technology, Architecture, Software and Algorithms 1 PetaFlop = 1/3 rack 2012 * = Reference to Sequoia (20 PFlops) 2019 Accelerating Discovery and Innovation in: Materials Science Energy Engineering Climate & Environment Life Sciences Silicon Next Gen High Efficiency Carbon Whole Organ Design Nuclear Engines Sequestration Simulation 48 Power is performance redefined © 2012 IBM Corporation
  • 49. IBM Power Systems Exaに向けた電力消費のチャレンジ 単純に現在から外挿すると; From current Jaguar (Cray) to Exaflop 3GW From current K-computer (Fujitsu) to Exaflop 1.2GW From current Blue Gene/Q (IBM) to Exaflop 0.5GW 原子力発電所レベルの電力 Power is performance redefined © 2012 IBM Corporation
  • 50. IBM Power Systems Exaに向けた電力消費のチャレンジ 単純に現在から外挿すると; ⇒ CMOSの4世代分の進歩をaggressiveに考慮 すると From current Jaguar (Cray) to Exaflop 3GW 187 MW From current K-computer (Fujitsu) to Exaflop 1.2GW 75MW From current Blue Gene/Q (IBM) to Exaflop 0.5GW 31MW それでも、 Insufficient to rely on CMOS scaling alone to reach exascale! Power is performance redefined © 2012 IBM Corporation
  • 51. IBM HPC Roadmapと幅広い取り組み © 2012 IBM Corporation
  • 52. IBM has a wide range of products on the TOP500 List Although Blue Gene systems have less than 15% of IBM total entries they amount to 63% of the installed IBM aggregate performance. 100 System x: 158 June 2012 TOP500 Count ΣRmax = 15.9 PF 75 68 45 45 Power: 24 Blue Gene: 31 50 ΣRmax = 5.7 PF ΣRmax = 37.1 PF 25 20 13 8 7 2 4 1 0 /Q 7 x 22 0 75 /L /P 2x x er P X5 xx G G G S p5 JS iD ow B B B H Q x3 P Source: www.top500.org © 2012 IBM Corporation
  • 53. Smarter PlanetとHPC 実世界から観測したデータを目的にしたがって分析 状況、制約を考慮 データ分析 (HPC) 結論の候補 意思決定 モデル データドリブン・データ分析: 数理科学的アナリティクス (最適かつ堅 モデルドリブン・データ分析: 計算科学的モデリングとシ 実な行動の 選択) ミュレーション (規定や方針) モデル化と組織化のプラットフォーム 観測で スマートな スマートな スマートな スマートな アクション エネルギー供給 ビルディング サプライチェーン 水資源管理 とらえた世界 データ収集 命令・制御 計測 アクション (センサー、モニター、携帯電話) 中央制御、分散制御、 高性能で継続的な収集 ピア・ツー・ピア制御 データ・測定プラットフォーム 実世界 制御プラットフォーム © 2012 IBM Corporation 53
  • 54. HPC利活用局面でのWWでのHPC協業実績 Blue Geneコンソーシアム – 国公立研究所、大学、企業など多数が参加し、Blue Geneを活用した種々の活動、成果、情報を共 有しています. IBM Research Computational Science Center (CSC) – HPC先進ユーザと協業し、大規模並列化、性能最適化、計算アルゴリズムの開発などを通した、ノー ハゥ、アプリ資産の蓄積 Nanoscale Exploratory Technology Laboratory – ETH(EU No.1の工科大学、21人のノーベル賞受賞者)とのナノテク分野のコラボラトリー 電力、原子力分野での仏EDF社との協業、および、その発展形としてのNEAMS (Nuclear Energy Advanced Modeling and Simulation) – NEAMS: To rapidly create, and deploy next generation, verified and validated nuclear energy modeling and simulation capabilities for the design, implementation, and operation future nuclear energy systems to improve the U.S. energy security future. エクサスケール・コンピューティング分野でのコラボラトリー – アイルランドの大学群と種々のテーマでの共同研究 © 2012 IBM Corporation
  • 55. まとめ Blue Gene/Qは、圧倒的な性能でTOP500の1にランクされました. – かつ、圧倒的な電力効率、スペース効率を実現しています. – Powerの発展と表裏一体です. – 将来(Exa)へ向けた布石のシステムです. スーパーコンピュータの計算性能は、過去数十年に渡って、年率2倍(10年間で1,000倍)の向上 を続けています. – 世界最大規模のスパコンは、20ペタフロップス(毎秒2京回の計算を行う)の性能に到達して います. – 2018年頃には、1エクサフロップス(毎秒100京回の計算)の性能に達すると予想されます. – 世界のスパコンのぼぼ半分はIBMが開発・製造したものです. この革新的な性能向上の継続によって、ほとんどすべての自然現象、社会現象をコンピュー ター内にモデル化して、シミュレーションすることが可能になってきています. – 自然現象、社会現象をコンピュータ内にモデル化する学問的な発展が重要です.(自然科 学、社会科学の世界) – 世の中すべてがコンピュータ内で模倣(シミュレーション)される時代が来るかも?(しかし、 実際には、コンピューターは、人間一人でさえ模倣できていません.) © 2012 IBM Corporation 55