Architetture di calcolo ad alte prestazioni                                                                    Marco Moro ...
Agenda     •        Introduzione ai sistemi HPC     •        Il centro di calcolo del CRS4: numeri     •        Management...
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPC    Terminologia                     High Performance Computing (HPC) is the method by which   ...
Introduzione ai sistemi HPC    Terminologia   Banda   ammontare di dati trasferiti nellunità di tempo. Normalmente espress...
Introduzione ai sistemi HPC    Terminologia     connessione Gigabit Ethernet         banda: 1 Gigabits/sec         latenza...
Introduzione ai sistemi HPC    Terminologia     High availability     Sistema o servizio che, sotto determinate condizioni...
Introduzione ai sistemi HPC  •    Stila la classifica dei 500 supercomputer più potenti al mondo  •    La potenza di calco...
Introduzione ai sistemi HPCFonte: J. Dongarra ICL-UTmartedì 13 novembre 12
Introduzione ai sistemi HPC                                                       Mflops/                                 ...
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPC                                                       Countries Sharemartedì 13 novembre 12
Introduzione ai sistemi HPC     28 Supercomputer > Pflop/sec (peak)                    (9)        (4)   (5)    (4)   (2)  ...
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPC                                                   Xeon 5600-series (Westmere-EP)              ...
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPC                                                     Latency results using the Intel MPI Benchm...
Introduzione ai sistemi HPC NAMD is a parallel molecular dynamics code designed for   STAR-CCM+ is an entire engineering p...
Introduzione ai sistemi HPCmartedì 13 novembre 12
Introduzione ai sistemi HPC          Architetture ibride      •    Composte da CPU e GPU      •    Possibilità di eseguire...
Introduzione ai sistemi HPC      Acceleratori: Intel MIC  •    CO-PROCESSOR  •    Many Integrated Core  •    Highly-parall...
Introduzione ai sistemi HPC                                                                                               ...
Il centro di calcolo del CRS4: numerimartedì 13 novembre 12
Il Centro di Calcolo del CRS4: numeri  •   ~550 nodi di calcolo totali  •   256 nodi di calcolo a bassa latenza Infiniband...
Il Centro di Calcolo del CRS4: numeri  Cluster Beowulf Mem Totale            Num core Connessioni di            Note      ...
Il Centro di Calcolo del CRS4: numeri                                    Il cluster ENTU        •    Dual CPU Intel E5440 ...
Il Centro di Calcolo del CRS4: numeri                                                    288 port switchmartedì 13 novembr...
Il Centro di Calcolo del CRS4: numeri Architettura Core di Retemartedì 13 novembre 12
Management Monitoring Maintenancemartedì 13 novembre 12
Management Monitoring Maintenance    Gangliamartedì 13 novembre 12
Management Monitoring Maintenancemartedì 13 novembre 12
Management Monitoring Maintenancemartedì 13 novembre 12
Management Monitoring Maintenance   MUCCA    •    Gestione avanzata singolo host attraverso portale    •    Spegnimento/ac...
Management Monitoring Maintenance                                                                         85KW    •   Tutt...
Strumenti di clusteringmartedì 13 novembre 12
Strumenti di clustering       Software di base                              Community ENTerprise Operating                ...
Strumenti di clustering     Scheduler (gestore delle code)     •   GE (GridEngine)     •   Platform LSF (Load Sharing Faci...
Strumenti di clustering     Scheduler (gestore delle code)     •   Programmi seriali e paralleli     •   Ticket su base ut...
Strumenti di clustering  Compilatori software tools e librerie      •    Intel, PGI (Portland Group), Compilatori Gnu (GCC...
Strumenti di clustering                                       Hadoop project      •   Framework che permette il processame...
Strumenti di clustering                            Hadoop e Scheduler al CRS4:                                   HADOOCCA ...
Alcuni settori di ricerca che lavorano sui clustermartedì 13 novembre 12
Alcuni settori di ricerca che lavorano sui cluster        Meteorologia        l   Applicazione: Il sistema sviluppato al ...
Alcuni settori di ricerca che lavorano sui cluster      Geofisica      l   Studio e sviluppo di metodi numerici, basati s...
Alcuni settori di ricerca che lavorano sui cluster    Struttura sperimentale della proteina terapeutica GCSF e della trans...
Alcuni settori di ricerca che lavorano sui cluster     Termodiffusione     l   Studio del problema scientifico della term...
Alcuni settori di ricerca che lavorano sui cluster     Bioinformatica     l   Simulazione dellattivita elettrica del cuor...
Sviluppi futurimartedì 13 novembre 12
Sviluppi futuri                                     Earthquakes                                                   Fusion R...
Sviluppi futuriFonte: J. Dongarra ICL-UTmartedì 13 novembre 12
Sviluppi futuri                                                peta-              exa-      Costi generali dellenergia    ...
Sviluppi futuri                                             peta-                       exa-                              ...
Sviluppi futuri                                           peta-   exa-martedì 13 novembre 12
Sviluppi futuri                                           peta-   exa-martedì 13 novembre 12
Sviluppi futuri                                           peta-   exa-martedì 13 novembre 12
Sviluppi futuri                                           peta-            exa-      Architettura hardware realizzabile co...
Sviluppi futuri                                            peta-                exa-     •   Data Movement: un alto costo ...
Sviluppi futuri                                           peta-   exa-martedì 13 novembre 12
Sviluppi futuri                                           peta-    exa- Modelli di programmazione •   Molto prima di dispo...
Sviluppi futuri                                           peta-             exa-                                 Conclusio...
Sviluppi futuri                                           peta-            exa-                                 Conclusion...
Sviluppi futuri                                           Fonte: David E. Keyesmartedì 13 novembre 12
Upcoming SlideShare
Loading in...5
×

Seminario Marco Moro, 8-11-2012

694

Published on

Oggi sono disponibili supercomputer che raggiungono potenze di calcolo dell'ordine di 10^15 operazioni al secondo. Nel seminario si illustrano le caratteristiche principali di questi supersistemi e si riporterà la realtà sarda del CRS4 in cui è presente un cluster di calcolo ad alte prestazioni e un data center al servizio della ricerca scientifica.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
694
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Seminario Marco Moro, 8-11-2012

  1. 1. Architetture di calcolo ad alte prestazioni Marco Moro CRS4 HPCN Technologist marco.moro@crs4.it High Performance Computing and Network Collana di Seminari per la Valorizzazione dei Risultati della Ricerca al CRS4 8 novembre 2012 16.30 -19.30 Facoltà di Architettura Cagliarimartedì 13 novembre 12
  2. 2. Agenda • Introduzione ai sistemi HPC • Il centro di calcolo del CRS4: numeri • Management monitoring maintenance • Strumenti di clustering (scheduler,programmi, librerie, compilatori) • Alcuni settori di ricerca che lavorano sui cluster • Sviluppi futurimartedì 13 novembre 12
  3. 3. Introduzione ai sistemi HPCmartedì 13 novembre 12
  4. 4. Introduzione ai sistemi HPC Terminologia High Performance Computing (HPC) is the method by which scientists and engineers solve complex problems using apps that require high bandwidth, low latency networking and high computing capabilities. Attraverso la simulazione di fenomeni, sulla base delle leggi fisiche conosciute e con lausilio di efficienti metodi numerici, è possibile risolvere molti problemi complessimartedì 13 novembre 12
  5. 5. Introduzione ai sistemi HPC Terminologia Banda ammontare di dati trasferiti nellunità di tempo. Normalmente espresso in bytes per secondi per gli hard disk e la memoria ma come bit per secondi per le connessioni tra nodi. Latenza tempo che intercorre tra la richiesta di una risorsa ad un sistema e la disponibilità della risorsa stessa. Performance o capacità di calcolo E espressa normalmente in termini di “operazioni in virgola mobile per secondi” (flop/sec o flops). Si parla di operazioni a 64 bit.martedì 13 novembre 12
  6. 6. Introduzione ai sistemi HPC Terminologia connessione Gigabit Ethernet banda: 1 Gigabits/sec latenza: 170 us (1/1000000 sec)‫‏‬ connessione Infiniband banda: 10-20 Gigabits/sec latenza: 5-10 us memoria principale DDR2-800 banda: 6400 MB/s latenza: 15-20 ns (1/1000000000 sec) DRAM Hard Disk banda: 50-125 MB/s latenza: 3.5-5.0 ms (1/1000 sec) seek timemartedì 13 novembre 12
  7. 7. Introduzione ai sistemi HPC Terminologia High availability Sistema o servizio che, sotto determinate condizioni di tolleranza, si ritiene essere continuamente in esercizio (UP).martedì 13 novembre 12
  8. 8. Introduzione ai sistemi HPC • Stila la classifica dei 500 supercomputer più potenti al mondo • La potenza di calcolo Rmax Rpeak è misurata in flop/sec • Benchmark LINPACK, risoluzione di un sistema denso {Ax=b rate Rpeak Rmax size • La classifica è aggiornata due volte allanno, a giugno in Germania e a novembre in USA • www.top500.orgmartedì 13 novembre 12
  9. 9. Introduzione ai sistemi HPCFonte: J. Dongarra ICL-UTmartedì 13 novembre 12
  10. 10. Introduzione ai sistemi HPC Mflops/ Watt 2069 830 2069 823 636 377 2099 2099 604 493martedì 13 novembre 12
  11. 11. Introduzione ai sistemi HPCmartedì 13 novembre 12
  12. 12. Introduzione ai sistemi HPC Countries Sharemartedì 13 novembre 12
  13. 13. Introduzione ai sistemi HPC 28 Supercomputer > Pflop/sec (peak) (9) (4) (5) (4) (2) (2) (1) (1)martedì 13 novembre 12
  14. 14. Introduzione ai sistemi HPCmartedì 13 novembre 12
  15. 15. Introduzione ai sistemi HPC Xeon 5600-series (Westmere-EP) Xeon 5500-series (Nehalem-EP) Intel Xeon E5 Opteron 6100-series "Magny-Cours" Power BQC Xeon 5400-series "Harpertown" Power 7 Opteron 6200 Series "Interlagos"martedì 13 novembre 12
  16. 16. Introduzione ai sistemi HPCmartedì 13 novembre 12
  17. 17. Introduzione ai sistemi HPCmartedì 13 novembre 12
  18. 18. Introduzione ai sistemi HPCmartedì 13 novembre 12
  19. 19. Introduzione ai sistemi HPCmartedì 13 novembre 12
  20. 20. Introduzione ai sistemi HPC Latency results using the Intel MPI Benchmarks for 1-8 cores with Mellanox InfiniBand QDR ConnectX HCA’s and a Mellanox InfiniBand QDR switchFonte: HPC Advisory Councilmartedì 13 novembre 12
  21. 21. Introduzione ai sistemi HPC NAMD is a parallel molecular dynamics code designed for STAR-CCM+ is an entire engineering process for solving high-performance simulation of large biomolecular problems involving flow (of fluids or solids), heat transfer systems and stress. Fonte: HPC Advisory Councilmartedì 13 novembre 12
  22. 22. Introduzione ai sistemi HPCmartedì 13 novembre 12
  23. 23. Introduzione ai sistemi HPC Architetture ibride • Composte da CPU e GPU • Possibilità di eseguire codice parallelo e seriale in maniera efficiente CPU: pochi potenti core ottimizzati per processi seriali GPU: migliaia di piccoli core ottimizzati per processi di tipo parallelo • 3 Supercomputer ibridi nella TOP10 • CUDA, larchitettura di NVIDIA per la programmazione parallela GPU Computing Applications: λ Seismic processing λ CFD CAE λ Financial computing λ Computational chemistry and Physics λ Data analytics λ Satellite imaging λ Weather modeling Tesla K10 Tesla K20 Number and Type of GPU 2 Kepler GK104s 1 Kepler GK110 (7.1 miliardi di transistor, 28nm) Peak double precision floating point performance 190 Gigaflops(95 Gflops per GPU) 1170 Gigaflops Greenness Peak single precision floating point performance 4577 Gigaflops (2288 Gflops per GPU) 3520 Gigaflops Memory bandwidth (ECC off) 320 GB/sec (160 GB/sec per GPU) 200 GB/sec K10 633 Mflops/Watt K20 3.9 Gflops/Watt Memory size (GDDR5) 8GB (4 GB per GPU) 5 GB CUDA cores 3072 (1536 per GPU) 2880martedì 13 novembre 12
  24. 24. Introduzione ai sistemi HPC Acceleratori: Intel MIC • CO-PROCESSOR • Many Integrated Core • Highly-parallel workloads • FULLY PROGRAMMABLE Greenness 3.33 Gflops/Wattmartedì 13 novembre 12
  25. 25. Introduzione ai sistemi HPC 32 nodi 32*16=512 core 32*16=512GB ram 32 Node card 32*32=1024 nodi 32*32*16=16384 core 32*32*16=16TB ram • SEQUOIA al Lawrence Livermore National Laboratory USA (CA) • Memoria 1.6 PB • 16.32 Pflop/sec MAX , 20.13 Pflop/sec PEAK • Processore BlueGeneQ 45 nm 16 core + 1 controllo +1 spare 1.6 Ghz 204.8Gflops@55 Watt • 96 rack in 280mqmartedì 13 novembre 12
  26. 26. Il centro di calcolo del CRS4: numerimartedì 13 novembre 12
  27. 27. Il Centro di Calcolo del CRS4: numeri • ~550 nodi di calcolo totali • 256 nodi di calcolo a bassa latenza Infiniband 4XDDR 20Gbps • Architettura cluster ibride (GPU, IBM Cell, FPGA) • >200 porte 10G porte Ethernet, >1200 porte 1G ethernet • 1 Gbps connessione Internet primaria • 44 TeraFlop di potenza di calcolo • 5 Petabyte di spazio discomartedì 13 novembre 12
  28. 28. Il Centro di Calcolo del CRS4: numeri Cluster Beowulf Mem Totale Num core Connessioni di Note rete ENTU-OGHE 6.14 TB 3200 Inf DDR 20Gb + 1 34,5 Tflops, CPU Gb eth 2.8 GHz GRIDA3 896 GB 336 Inf 10Gb + 1Gb eth Opteron 2.6 GHz Janas 192 GB 192 1Gb eth Opteron 2 GHz Altre Risorse Tipo Caratteristiche Note 2 nodi GPU Tesla S1070 4*240 cores - (16GB Mem) Fino a 4Tflops (sp) 1 Nodo FPGA Maxeler WS WS Genoma HP 256 GB, 32 cores Sviluppo e run molto 10Gb eth grossi WS Pruomo Supermicro 256GB, 24 cores 2 TB spazio disco per DB 10Gb ethmartedì 13 novembre 12
  29. 29. Il Centro di Calcolo del CRS4: numeri Il cluster ENTU • Dual CPU Intel E5440 (Quad Core) a 2,8GHz; • 16 GB di RAM DDR2 667MHz; • 2 HD SATA 250GB e 5400 rpm; • Connessione di rete Infiniband 4xDDR Dual Connect; • Due schede Gigabit Ethernet BCM5708S • 2 due linee elettriche • ciascuna linea per 3 alimentatori da 2250Wmartedì 13 novembre 12
  30. 30. Il Centro di Calcolo del CRS4: numeri 288 port switchmartedì 13 novembre 12
  31. 31. Il Centro di Calcolo del CRS4: numeri Architettura Core di Retemartedì 13 novembre 12
  32. 32. Management Monitoring Maintenancemartedì 13 novembre 12
  33. 33. Management Monitoring Maintenance Gangliamartedì 13 novembre 12
  34. 34. Management Monitoring Maintenancemartedì 13 novembre 12
  35. 35. Management Monitoring Maintenancemartedì 13 novembre 12
  36. 36. Management Monitoring Maintenance MUCCA • Gestione avanzata singolo host attraverso portale • Spegnimento/accensione tramite ILO ILOM IPMI • Gestione code scheduler • Grafici stato cluster • Databasemartedì 13 novembre 12
  37. 37. Management Monitoring Maintenance 85KW • Tutto il cluster acceso, senza jobs utente, assorbe circa 85KW • Necessario spegnere i nodi non richiesti dai job in coda • Forte integrazione tra lhardware e lo scheduler • Policy e granularita adattabili per gruppi di macchinemartedì 13 novembre 12
  38. 38. Strumenti di clusteringmartedì 13 novembre 12
  39. 39. Strumenti di clustering Software di base Community ENTerprise Operating System CentOS 5.x Kernel 2.6.32.xx CentOS 6.2 Kernel 2.6.32.xxmartedì 13 novembre 12
  40. 40. Strumenti di clustering Scheduler (gestore delle code) • GE (GridEngine) • Platform LSF (Load Sharing Facility) E linterfaccia tra lutente e le macchine del cluster. Conosce, in ogni momento, la disponibilità delle risorse e consente di utilizzarle al meglio.martedì 13 novembre 12
  41. 41. Strumenti di clustering Scheduler (gestore delle code) • Programmi seriali e paralleli • Ticket su base utente/gruppo per gestione job in coda • Advanced reservation • Suspend-unsuspend job e code • High availability • Accountingmartedì 13 novembre 12
  42. 42. Strumenti di clustering Compilatori software tools e librerie • Intel, PGI (Portland Group), Compilatori Gnu (GCC), CUDA • MPI MPI2 MPICH(MVAPICH MVAPICH2) OpenMPI • Fluent, StarCD, Ansys, Paraview, Totalview, NAMD, Gromacs, DL_POLY, Grace, MayaVi, VMD • Perl, Python, Java, QT, R • Lapack, Blas, Atlas, FFTW, AMD CML, Intel MKL, Metismartedì 13 novembre 12
  43. 43. Strumenti di clustering Hadoop project • Framework che permette il processamento di grandi data set (big data) (~100TB anche ~1PB) attraverso lutilizzo di cluster di calcolo. • E progettato per scalare fino a migliaia di host • Ogni host mette a disposizione potenza di calcolo e spazio disco locale • Due attori principali: Hadoop MapReduce e Hadoop DFS (DistributedFileSystem) Developed bymartedì 13 novembre 12
  44. 44. Strumenti di clustering Hadoop e Scheduler al CRS4: HADOOCCA • NO esigenza cluster hadoop sempre UP • Le macchine inutilizzate devono essere spente • Perchè non usare lo scheduler per creare cluster Hadoop dinamici?martedì 13 novembre 12
  45. 45. Alcuni settori di ricerca che lavorano sui clustermartedì 13 novembre 12
  46. 46. Alcuni settori di ricerca che lavorano sui cluster Meteorologia l Applicazione: Il sistema sviluppato al CRS4 consiste nellesecuzione di previsioni multiple al fine di stimare la probabilita che un dato evento si verifichi. l GRIDA3 and CyberSAR: Probabilistic Weather Forecast portals Bioinformatica l Ricerca della similarità o della differenza tra entità chimico biologiche, come molecole di interesse farmaceutico e geni o proteine. Ottimizzazione di parametri per modelli per la predizione di bioattività molecolare. l Utilizzo pratico: trovare, tra milioni di molecole, quali siano le più simili ad un gruppo di molecole note per avere una certa attività biologica. Modellazione di proteine: poter predire la struttura tridimensionale di grandi numeri di proteine del genoma umano o di altri organismi.martedì 13 novembre 12
  47. 47. Alcuni settori di ricerca che lavorano sui cluster Geofisica l Studio e sviluppo di metodi numerici, basati sullanalisi della propagazione delle onde acustiche (originate da esplosioni), per la ricostruzione della struttura e delle proprieta del sottosuolo.Utilizzo pratico: Ricerca dei giacimenti petroliferi. Chimica e celle a combustibile l Dinamica molecolare e formazione/rottura dei legami atomici. Predizione della struttura dei cristalli e loro proprietà l Di utilita nello studio del trasporto del protone nelle celle a combustibile e per la dissociazione delle molecole dei farmaci. Settore farmaceutico Chimica (Bioinformatica) l Calcoli di dinamica molecolare. Studio della struttura delle proteine e calcoli di docking proteina- proteina l Si studiano la struttura e le proprieta dinamiche di proteine e complessi proteici. Informazioni sul modo di funzionare delle protine allinterno delle cellule. docking = inserimento di un legando nel sito di legame di una proteina in unoperazione simulata al computermartedì 13 novembre 12
  48. 48. Alcuni settori di ricerca che lavorano sui cluster Struttura sperimentale della proteina terapeutica GCSF e della transglutaminasi. Studio in collaborazione tra il CRS4 e la societa Bio-Ker.martedì 13 novembre 12
  49. 49. Alcuni settori di ricerca che lavorano sui cluster Termodiffusione l Studio del problema scientifico della termodiffusione, vale a dire la generazione di gradienti di concentrazione causati da gradienti di temperatura. l Questo studio richiede lanalisi di un numero molto elevato di calcoli molto simili tra di loro, in cui vengono variati in modo sistematico parametri quali la temperatura, lenergia di interazione tra le particelle, la massa, la dimensione, etc. Fluidodinamica l Simulazione del flusso reattivo in una camera di combustione di una turbina a gas in una centrale nucleare l In una simulazione di un settore anulare di 15 gradi, la dimensione caratteristica minima che deve essere discretizzata e di 4 mm. Con un volume caratteristico del settore anulare di circa 175x106 mm3 sarebbero necessarie 175milioni di celle. In ciascuna di queste deve essere risolto un sistema di 11 PDEs (Partial Differential Equations) + le equazioni costitutive di chiusura.martedì 13 novembre 12
  50. 50. Alcuni settori di ricerca che lavorano sui cluster Bioinformatica l Simulazione dellattivita elettrica del cuore (ventricolo umano) in elettrofisiologia. l Studio di applicazioni di interesse per la comunita scientifica, come lanalisi della tossicita cardiaca dei medicinali e fenomeni di fibrillazione e defibrillazione cardiaca. l Su run uniprocessore, osserviamo un guadagno approssimativo di un fattore due sui tempi di calcolo nelle simulazioni. In piu, le nuove risorse di calcolo ci stanno consentendo di passare grossi benchmarks che sono rappresentativi di simulazioni realistiche. Grazie alle nuove risorse di calcolo, stiamo coordinando unattivita di benchmark regolare con altri partners del progetto (e.g. Universita di Oxford, Fujitsu). l Le simulazioni cardiache sono molto dispendiose dal punto di vista computazionale. Ad oggi, il piu efficiente simulatore cardiaco richiede 2.5 ore di calcolo per simulare un secondo di battito cardiaco (su un ventricolo di coniglio) su 128 processori. l Studio di genomi umani, di virus, di batteri mediante hadoopmartedì 13 novembre 12
  51. 51. Sviluppi futurimartedì 13 novembre 12
  52. 52. Sviluppi futuri Earthquakes Fusion ReactionFonte: Intel Corp.martedì 13 novembre 12
  53. 53. Sviluppi futuriFonte: J. Dongarra ICL-UTmartedì 13 novembre 12
  54. 54. Sviluppi futuri peta- exa- Costi generali dellenergia • Per produrre 1MW oggi si spende circa 1M$ • Dalla classifica TOP500 risulta che 16 Pflop/sec consumano circa 8MW • Si presume che 1Eflops/sec (2020±2) con questo trend raggiungera i 100MW di consumo • Per una serie di motivi tecnologici, economici , di sostenibilita i costi di realizzazione devono essere dellordine dei $200M e costi operativi non superiori a $20M, e questo limita il consumo a non piu di 20MW 1000 Andamento attuale ~ 100MW 100 Consumo (MW) Obiettivo ~ 20MW 10 1Fonte: J. Dongarra ICL-UT 2005 2010 2015 2020martedì 13 novembre 12
  55. 55. Sviluppi futuri peta- exa- Legge di Moore reinterpretata 2004: Intel announces the end of the drive for more performance through increased clock rates Fonte: Kunle Olukotun, Lance Hammond, Herb Sutter, Burton Smith, Chris Batten, and Krste Asanoviç Slide from Kathy Yelickmartedì 13 novembre 12
  56. 56. Sviluppi futuri peta- exa-martedì 13 novembre 12
  57. 57. Sviluppi futuri peta- exa-martedì 13 novembre 12
  58. 58. Sviluppi futuri peta- exa-martedì 13 novembre 12
  59. 59. Sviluppi futuri peta- exa- Architettura hardware realizzabile con $200M e 20MW Sistema 2012 BJ/Q 2022 Differenza System peak 20 Pflops 1 Eflops O(100) Power 8 MW ~20MW ~2 System 1,6 PB 32-64PB O(10) memory Node 42,6 GB/sec 2 - 4TB/sec O(100) memory BW Node 64 Threads O(1K) or 10k O(100)- concurrency O(1000) System size 98304 O(1M) O(100) Total 6.3M O(billion) O(1000) concurrency MTTI 4 days O(<1day) -O(10)Fonte: J. Dongarra ICL-UTmartedì 13 novembre 12
  60. 60. Sviluppi futuri peta- exa- • Data Movement: un alto costo • Il flop/sec diventa sempre meno rilevante riguardo allassorbimento energetico Energia (picoJoule), calcoli approssimativi 2011 2018 DP FLOP 100 pJ 10 pJ DP DRAM read 4800 pJ 1920 pJ Local 7500 pJ 2500 pJ interconnect Cross system 9000 pJ 3500 pJ Fonte: John Shalf LBNLmartedì 13 novembre 12
  61. 61. Sviluppi futuri peta- exa-martedì 13 novembre 12
  62. 62. Sviluppi futuri peta- exa- Modelli di programmazione • Molto prima di disporre di potenze di calcolo exa- è necessario ripensare il design degli algoritmi e del software, esplorando nuovi modelli di programmazione basati su architetture (very) multicore e ibride • Minimizzare il Data Movement: pensare a nuovi modelli e strutture dati sapendo che il flops è “cheap” mentre il data movement è “expensive” • Elaborare algoritmi “Fault Tolerant”: con ~1,000,000 core forse qualcosa può andare storta • Sfruttare modelli di programmazione ibridi e che richiedono meno sincronia • Co-design di hardware e software (es. power management) • Cè sempre bisogno della doppia precisione?La precisione singola è 2X più veloce della doppia, con le GPU addirittura 10X...martedì 13 novembre 12
  63. 63. Sviluppi futuri peta- exa- Conclusioni - Scenario futuro • Le architetture exascale (1018 flop/sec) saranno verosimilmente fattibili a partire dal 2020±2 • La drastica riduzione di potenza-per-flop e potenza-per-byte renderà inesorabilmente la computazione e la copia di dati meno affidabile • La riduzione di potenza farà si che la differenza di voltaggio tra “0” e “1” sarà ridotta • I circuiti integrati saranno sempre piu piccoli e più soggetti a disturbi • Lhardware genererà errori che dovranno essere riconosciuti e corretti • In accordo alla legge di Moore, il numero di core per chip raddoppierà circa ogni 24 mesi, ma la frequenza di clock decrescerà o comunque non cresceràmartedì 13 novembre 12
  64. 64. Sviluppi futuri peta- exa- Conclusioni - Scenario futuro • Architetture con 10-100 milioni di cores o mini-cores • La potenza richiesta in relazione alla performance diventerà il perno centrale delle scelte architetturali e delle valutazioni di fattibilità hardware e software. • La non uniformità dell hardware costringerà a ripensare il paradigma della programmazione sincrona • Già oggi abbiamo a disposizione sistemi con milioni di thread concorrenti: ma le future generazioni avranno a che fare con miliardi di thread! • intro-chip parallelism invece di inter-chip parallelism • Per molti decenni la strategia di investimento si è basata sullhardware, ora è necessario (ri)focalizzarsi sul software e sulla integrazione hardware-softwaremartedì 13 novembre 12
  65. 65. Sviluppi futuri Fonte: David E. Keyesmartedì 13 novembre 12
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×