Achieving Peak Performance with
                          Advanced Fabric Management
                           A Case Stu...
In this session

    ►      Tag team presentation by
             • HLRS, Stuttgart – The End User - Uwe Küster
          ...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
NEC LX‐Series Supercomputer
NEC‘s HPC Offerings ‐ 2010

   VECTOR            x86                        HPC Filesystem

             SX‐9          LX‐...
NEC LX Product Options


                                                    High‐End Service
   4000    Operational      ...
NEC LX 2400: Rank 20 on Green500

  Installed at HLRS in June 2009
  700 nodes, Nehalem‐EP
  Infiniband Fabric, LXFS
  62 ...
Scalability Challenges for future systems

                              Network, Software, Applications
 System Performan...
NEC‘s Supercomputing Approach

▐ NEC‘s Approach
     Get back to real HPC efficiency
       • „we expect 3% efficiency in ...
LX Series Network Features 2010

▐ HPC efficiency by optimized network performance
     Get an understanding of „real netw...
Your HPC Solution provider




                             NEC Confidential
About Voltaire (NASDAQ: VOLT)

    ►      Leading provider of Scale-out Data Center Fabrics
             • Used by more th...
Voltaire Products:
   End to End HPC Connectivity Solutions

  Advanced Fabric Management
                                ...
I/O is the Bottleneck !

                               What shall we do ?

 Add more switches, cables, servers, storage ?...
Application Correlated Fabric Management


                                                           Application
        ...
Voltaire Unified Fabric Manager at Work
   Generating business value to customers

                                       ...
Immediate Visibility

                                      Congestions
                             Before               ...
UFM Integrated With Job Schedulers
   Dynamically Optimizing Jobs Fabric Utilization
                                     ...
What Have We Achieved?

                                              B/W utilization (MB)                                ...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
:::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   ::...
Upcoming SlideShare
Loading in …5
×

Voltaire - Achieving Peak Performance with Advanced Fabric Management

985 views

Published on

A Voltaire Case Study with HLRS and NEC

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
985
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
18
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Voltaire - Achieving Peak Performance with Advanced Fabric Management

  1. 1. Achieving Peak Performance with Advanced Fabric Management A Case Study with HLRS and NEC June 1, 2010 © 2009 Voltaire Inc.
  2. 2. In this session ► Tag team presentation by • HLRS, Stuttgart – The End User - Uwe Küster • NEC – HPC System Provider and Operator - Dr. Andreas Findling • Voltaire – Scale-out Fabric Solutions Provider – Yaron Haviv ► About the team ► Large scale systems scalability challenges ► How connecting schedulers and the fabric manager can improve performance, scalability and overall efficiency ► Future directions © 2009 Voltaire Inc. Confidential 2
  3. 3. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    Experiences with advanced Voltaire  InfiniBand components at HLRS Uwe Küster(HLRS), Holger Berger(NEC), Bernd Krischok(HLRS) :: 01.06.2010 :: ::
  4. 4. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    The Role of HLRS • Central Unit of the University of Stuttgart – Supercomputing since 1962 – First Cray System in 1982 • 1st German National Supercomputing Center – Founded 1996 – Partner of Jülich and Munich – Foundation of Gauss Center for Supercomputing 2007 :: 01.06.2010 :: :: 4 / 18
  5. 5. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    The HLRS Systems NEC SX-9 + Cluster (176+1400*4)  IBM HSM > 2 PB Fileserver NEC Asama (64) Stuttgart IBM (2800x4)  Ulm IBM Cell Cray XT5+XD1 (224*4+48)  DALCO Viz‐Cluster IBM x3755 Opteron (64)  SUN Fire 2900 (144x2) (48x2) :: 01.06.2010 :: :: 5 / 18
  6. 6. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    HLRS experiences with Voltaire Infiniband • Now for 5 years in HLRS – Cluster Cacau with Voltaire SDR switch (2005) – Cluster BW‐Grid with Voltaire DDR switches (2008) – Cluster Nehalem (Prace Prototype) with Voltaire QDR switches (2009) • Long time experience in daily production • Stable operations • Better signals   longer cables • „Open Subnet Manager“ essentially programmed by Voltaire • Latest innovation in software products  – Open MPI Accelerator  (OMA)  – Unified Fabric Manager (UFM)  – Fabric Collective Accelerator (FCA) :: 01.06.2010 :: :: 6 / 18
  7. 7. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    NEC LX cluster at HLRS (3) • Installed 1 year ago, PRACE Prototype hybrid machine combined with NEC SX‐9 • 700 nodes with 2.8 Ghz Nehalem CPUs, memory/node: 12, 24, 48, 128, 144 GB • 32 nodes with 32 Tesla S1070  64 GPGPUs • 24 leaf + 6 spine switches Voltaire 4036 QDR Switches (36 ports) • Nodes with Infinihost III DDR HCAs • Voltaire UFM Unified Fabric Manager 4036 4036 4036 4036 4036 4036 4036 4036 4036 4036 4036 4036 …. 4036 30 nodes 30 nodes 30 nodes 30 nodes 30 nodes 30 nodes 30 nodes :: 01.06.2010 :: :: 7 / 18
  8. 8. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    Parallel load distribution on HLRS Nehalem cluster • Most jobs are single node jobs (= 8 cores) • Most run time is consumed by 64 nodes jobs (=512 cores) • Sweet spot:  – Small job wait time for user – No need to for discharging the machine to run large jobs – Most jobs are long running jobs (  difficult backfilling) :: 01.06.2010 :: :: 8 / 18
  9. 9. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    Inexpensive Blocking Network • 30 DDR versus  6 QDR uplinks   blocking factor 5:2 • Solution was not optimal but cost effective – Small number of small relative switches – Small number of long cables • Is that sufficient ? How large is – congestion? – the load of the spine switches? – the burst load? – the average load? • Optimization is achievable with right tools – The Voltaire UFM congestion map indicates a  reasonable behaviour for average congestion  and average load :: 01.06.2010 :: :: 9 / 18
  10. 10. NEC LX‐Series Supercomputer
  11. 11. NEC‘s HPC Offerings ‐ 2010 VECTOR  x86 HPC Filesystem SX‐9 LX‐Series LXFS Professional Services NEC Confidential
  12. 12. NEC LX Product Options High‐End Service 4000 Operational Ultimate Availability Datacenter Optimized Workload Scheduler Ultimate Scalability 2400 Research Solid RAS Features Academia Parallel File System 2200 Industry/ Automotive &  Production Manufacturing Entry/ Workgroup Level 1000 NFS Cluster File Space Cost Optimized NEC Confidential
  13. 13. NEC LX 2400: Rank 20 on Green500 Installed at HLRS in June 2009 700 nodes, Nehalem‐EP Infiniband Fabric, LXFS 62 Tflops Peak + 32 NVIDIA Tesla S1070 273 MFLOPS per Watt NEC Confidential
  14. 14. Scalability Challenges for future systems Network, Software, Applications System Performance All should be treated in a combined way rather than each one separately n ce r ma perfect e rfo akP Pe Perform ance e Effectiv Case II Sustained Peta Scale performance is huge challenge Case I 2010 2017 Peta Exa Years ISV applications cannot reach Tera Scale. Scale Scale NEC Confidential
  15. 15. NEC‘s Supercomputing Approach ▐ NEC‘s Approach Get back to real HPC efficiency • „we expect 3% efficiency in 2011“ Performance & Efficiency out of commodity components Achieve real HPC Efficiency – like with the classical way ▐ Taking x86 clusters to Capability Computing Computing Efficiency is THE key. NEC Confidential
  16. 16. LX Series Network Features 2010 ▐ HPC efficiency by optimized network performance Get an understanding of „real network performance“ • Monitoring (UFM) Optimize network for application performance • Avoid static routing by topology awareness (UFM & TARA) Boost the performance of MPI collective operations • Making use of intelligent switches (FCA – Fabirc Collectives Aclerator) Optimize the InfiniBand software stack • Get away from usage of VERBS Intelligent way to share the network for I/O and MPI communication • Use QoS features for separation (UFM) Total System Optimization by Optimizing Components and Optimal Component Interaction NEC Confidential
  17. 17. Your HPC Solution provider NEC Confidential
  18. 18. About Voltaire (NASDAQ: VOLT) ► Leading provider of Scale-out Data Center Fabrics • Used by more than 30% of Fortune100 companies • Hundreds of installations of over 1000 servers ► Addressing the challenges of HPC, virtualized data centers and clouds ► More than Half of Top500 InfiniBand Sites ► InfiniBand and 10GbE Scale-out Fabrics End-to-End Scale-out Fabric Product Line © 2009 Voltaire Inc. Confidential 18
  19. 19. Voltaire Products: End to End HPC Connectivity Solutions Advanced Fabric Management Scalable Network and Optimization Connectivity IB & Eth Core switches UFM Accelerated Storage Advanced Connectivity Edge switches switch OS Application/Transport Acceleration Software Compute nodes © 2009 Voltaire Inc. Confidential 19
  20. 20. I/O is the Bottleneck ! What shall we do ? Add more switches, cables, servers, storage ? Or perhaps eliminate the bottlenecks with software? © 2009 Voltaire Inc. Confidential 20
  21. 21. Application Correlated Fabric Management Application jobs Just a bunch of servers Just a bunch of servers Fabric Policy Fabric Policy Monitoring Virtual Infrastructure A virtual network with attributes A virtual network with attributes Physical Infrastructure © 2009 Voltaire Inc. Confidential 21
  22. 22. Voltaire Unified Fabric Manager at Work Generating business value to customers Admins can see which jobs consume their fabric resources UFM TARA improves customer performance by Total Job Runtime (min.) 200% 14 14 10.5 12 10 6.6 A global bank used 8 6 UFM to detect sever 4 2 congestions which 0 No optimization QoS QoS and TARA impacted trading UFM cuts customer job run-time, and provides differentiated © 2009 Voltaire Inc. Confidential services 22
  23. 23. Immediate Visibility Congestions Before After UFM Traffic Aware Routing™ Random Routing Cause Algorithm (TARA) Applied Congestions No Congestions © 2009 Voltaire Inc. Confidential 23
  24. 24. UFM Integrated With Job Schedulers Dynamically Optimizing Jobs Fabric Utilization Matching Jobs Automatically Job Submitted in Moab Created in UFM Application Level Monitoring Fabric-wide Policy Pushed to Match & Optimization Measurements Application Requirements © 2009 Voltaire Inc. Confidential 24
  25. 25. What Have We Achieved? B/W utilization (MB) Critical Job Runtime (min.) 3532 4.6 4000 5 3000 4 1900 1900 3 2.2 2000 1.6 2 1000 1 0 0 No optimization QoS QoS and TARA No optimization QoS QoS and TARA Total Job Runtime (min.) ► Overall job time reduced by 60% 14 14 10.5 ► Critical job runs 3 times faster 12 10 6.6 ► B/W utilization doubled 8 6 4 ► Job level analysis 2 0 ► Efficient troubleshooting No optimization QoS QoS and TARA © 2009 Voltaire Inc. Confidential 25
  26. 26. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    Recalculations of routes • UFM offers TARA ‐ the valuable feature of  recalculation of the existing routes  in the network for a new coming job • Very important especially for blocking networks • Integration with MOAB allows applying TARA, QoS and FCA dynamically • MOAB is doing the placement   UFM is calculating the routes • Next Steps: – Intelligent job placement: UFM to determine job placement and routes  based on fabric topology – Even better would be in taking user information to optimize the parallel  communication graph :: 01.06.2010 :: :: 26 / 18
  27. 27. :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::   :::::    And the future? • We expect PGAS parallel programming paradigms to come up – Coarray Fortran – UPC (Unified Parallel C) – Chapel – X10 – Fraunhofer FVM (GPI) • PGAS needs hardware support for running many short messages – One sided data access to remote memories (get and put) – Weak consistency needed – Efficient barriers for large and small subsets – Long series of short messages to and from many destinations :: 01.06.2010 :: :: 27 / 18

×