O uso de tecnologias Intel na implantação de sistemas de alto desempenho


Apresentação realizada no ERAD-RS 2014, por Luciano Palma (Intel) e Rogério L. Iope (UNESP).
UNIPAMPA - Alegrete, RS

O uso de tecnologias Intel na implantação de sistemas de alto desempenho

  1. 1. O uso de Tecnologias Intel na implantação de sistemas de alto desempenho Luciano Palma | Intel Rogério L. Iope | UNESP
  2. 2. Intel® Xeon Phi™ Ainda mais poder de processamento!
  3. 3. Expandindo os limites do Intel® Xeon
  4. 4. Aplicações altamente paralelizadas e vetorizadas rodam ainda mais rápido com coprocessadores Intel® Xeon Phi™ Até 10x mais rápido1 Muitas aplicações apresentam alto desempenho em processadores multi-core Intel® Xeon® A otimização de código paralelo apresesenta aumento significativo de desempenho RODANDO SOFTWARE SERIAL EXISTENTE RODANDO SOFTWARE OTIMIZADO 1. Monte Carlo SP Benchmark: 2S Xeon E5-2670 @ 45,501 opt/sec vs. Xeon Phi SE10P @ 489,354opt/sec (TR2004). Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. Source: Customer Measured results as of October 22, 2012 Configuration Details: Please reference slide speaker notes. For more information go to http://www.intel.com/performance Grandes ganhos em aplicações paralelas Desempenho paralelo otimizado para processadores multicore Intel® Xeon® e coprocessadores manycore Intel® Xeon Phi™, com o mesmo código fonte!
  5. 5. Engenharia e Arquitetura…
  6. 6. Intel: Look inside… Um processador com múltiplos cores possui componentes compartilhados por todos os cores. Estes components são chamados Uncore.
  7. 7. Microarquitetura Sandy Bridge FRONT-END BACK-END (Intel® Xeon Phi™ tem uma arquitetura mais simples)
  8. 8. Até 61 cores (4 threads por core) 6 a 16 GB RAM GDDR5 Taxa de Transferência de Memória até 352 GB/sec Vetores de 512-bit Até 1,2 TFLOPs (Precisão Dupla) 1 slot PCIe-x16 Eficiência Energética (225W - 300 W) Intel® Xeon Phi™ Ainda mais poder de processamento!
  9. 9. 3 Family Outstanding Parallel Computing Solution Performance/$ leadership 3120P 3120A 5 Family Optimized for High Density Environments Performance/watt leadership 5110P 5120D 7 Family Highest Performance, Most Memory Performance leadership 7120P 7120X 16GB GDDR5 352GB/s >1.2TF DP 8GB GDDR5 >300GB/s >1TF DP 225-245W 6GB GDDR5 240GB/s >1TF DP Famílias de Coprocessadores Intel® Xeon Phi™
  10. 10. Intel® Xeon Phi™ Cada placa se comporta como um nó de um cluster Programação x86
  11. 11. Intel® Xeon Phi™ Visão de Software da Arquitetura Intel® Xeon Phi™
  12. 12. Intel® Xeon Phi™ Visão de Hardware da arquitetura Intel® Xeon Phi™ Anel bi-directional de alta velocidade interconecta as caches LS dos cores
  13. 13. Intel® Xeon Phi™ 4 threads por core Microarquitetura Pentium Otimizada Clock até 1.2 GHz
  14. 14. Intel® Xeon Phi™ GFLOP/sec =16 (SP SIMD Lane) x 2 (FMA) x 1.1 (GHZ) x 60 (# cores) = 2.112 (single precision arithmetic) GFLOP/sec = 8 (DP SIMD Lane) x 2 (FMA) x 1.1 (GHZ) x 60 (# cores) = 1.056 (double precision arithmetic)
  15. 15. Por que programadores devem se interessar? Usar todas as threads de hardware  Considerar HyperThread Usar todas as unidades de execução dos processadores  Retirar o IPC máximo (instructions per clock cycle) Otimizar o uso de Unidades Vetoriais (AVX/AVX2/)  Optimização de loops Manter a cache com dados/intruções válidos  Evitar “cache misses” Tirar vantage de “branch prediction”  Evitar “pipeline stall” Para obter o máximo desempenho dos recursos de hardware
  16. 16. Diversos recursos para Desenvolvedores Intel® Xeon Phi™ Coprocessor Developer’s Quick Start Guide Overview of Programming for Intel® Xeon® processors and Intel® Xeon Phi™ coprocessors Access to webinar replays and over 50 training videos Beginning labs for the Intel® Xeon Phi™ Coprocessor Programming guides, tools, case studies, labs, code samples, forums & more Click on tabs software.intel.com/mic-developer Using a familiar programming model and tools means that developers don’t need to start from scratch. Many programming resources are available to further accelerate time to solution.
