Вчера. Сегодня. Завтра.                          1
Гетерогенные вычисленияCPU          GPU                          Ускорение                                  2
Минимальное портирование для     значительного ускорения                           Код приложения                         ...
GPU Tesla в основе 3 из Top 5 СК    #2 : Tianhe-1A                 #4 : Nebulae                  #5 : Tsubame 2.07168 Tesl...
Топ50 – интересные факты• 7 кластеров на базе NVIDIA Tesla.• 7 кластеров на базе GPU обеспечивают суммарную  производитель...
Самый эффективный петафлопный СК        Tsubame 2.0          1.192 Пф         1.340 МВт4200 Tesla M2050 GPUsТокийский техн...
Будущее сегодня       18,000+ Tesla GPUs         20+ PetaFlopsВ 3 раза более энергоэффективный  по сравнению с #1 (K Compu...
Самый быстрый вычислитель для задач МД       Эффективная производительность 1.87 Petaflops/s                      Institut...
Решения Tesla для рабочих станций и ЦОД                                       Tesla M-series GPUs               Tesla C-se...
Решения Tesla для рабочих станций и ЦОД                                      Tesla M-series GPUs   Tesla C-series GPUs    ...
Самый быстрый в мире HPC процессорTesla M2090: 512 ядерный продукт архитектуры Fermi512 CUDA ядер     35                  ...
Мировой рекорд производительности в                            AMBER4 Tesla M2090 GPUs                    192 Quad-Core CP...
14
Новая версия ANSYS Mechanical – R14                                    Preview available now, R14 release coming in Novemb...
Прирост более чем в 4 раза vs стандартной лицензии NOTE: Based on ANSYS Mechanical 14.0 Preview 3 DMP Solver Aug 2011 and ...
MATLABMATLAB R2011b      Критическая масса функционала уже на GPUПреимущества      177 функций портированны на GPU (из ~25...
Gaussian будет ускорен на CUDAAug. 29, 2011 — NVIDIA announced plans with Gaussian,Inc., and The Portland Group® (PGI) to ...
CUDA 4.0Портирование приложений становится удобнее  Удобная работа с несколькими GPU            GPU Direct 2.0 Удобство в ...
До появления GPUDirect v2.0Требовалась копия в памяти хоста            GPU1     GPU2           Memory   Memory            ...
GPUDirect v2.0: взаимодействие Peer-to-Peer       Прямая передача данных между GPU                   GPU1     GPU2        ...
Unified Virtual Addressing                     Единое адресное пространство          Без UVA                              ...
Параллельные алгоритмы в стиле C++ STL (Thrust)Производительные C++ параллельные алгоритмы & структуры данных    Синтаксис...
Результаты опроса пользователейИзменение 1-5% кода                                   В 2 раза быстрее за 3 чел/мес        ...
Роадмап Tesla CUDA GPU                     16                                                          Maxwell            ...
26
Upcoming SlideShare
Loading in …5
×

Nvidia hpc day 2011 kiev

597
-1

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
597
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Nvidia hpc day 2011 kiev

  1. 1. Вчера. Сегодня. Завтра. 1
  2. 2. Гетерогенные вычисленияCPU GPU Ускорение 2
  3. 3. Минимальное портирование для значительного ускорения Код приложения Весь остальной Только критические последовательныйGPU функции CPU код CPU Параллелизация в соответствии с программной моделью CUDA 3
  4. 4. GPU Tesla в основе 3 из Top 5 СК #2 : Tianhe-1A #4 : Nebulae #5 : Tsubame 2.07168 Tesla GPU’s 2.5 PFLOPS 4650 Tesla GPU’s 1.2 PFLOPS 4224 Tesla GPU’s 1.194 PFLOPS ―внедрили гетерогенную вычислительную архитектуру, использующую Мы не только создали самый быстрый компьютер, но так же ‖ CPU и GPU, это действительно инновация. Премьер министр Вен Цзябао Публичный комментарий Tianhe-1A 4
  5. 5. Топ50 – интересные факты• 7 кластеров на базе NVIDIA Tesla.• 7 кластеров на базе GPU обеспечивают суммарную производительность равную производительности всех остальных систем в списке: 1616,7 из 3275,86 ТФлопс 5
  6. 6. Самый эффективный петафлопный СК Tsubame 2.0 1.192 Пф 1.340 МВт4200 Tesla M2050 GPUsТокийский технологический институт 6
  7. 7. Будущее сегодня 18,000+ Tesla GPUs 20+ PetaFlopsВ 3 раза более энергоэффективный по сравнению с #1 (K Computer) 7
  8. 8. Самый быстрый вычислитель для задач МД Эффективная производительность 1.87 Petaflops/s Institute of Process Engineering (IPE) Chinese Academy of Sciences (CAS)Моделирование кристаллического кремния Использованы все 7168 Tesla GPU 8
  9. 9. Решения Tesla для рабочих станций и ЦОД Tesla M-series GPUs Tesla C-series GPUs M2090 | M2075 | M2070 | M2050 C2075 | C2070 | C2050 Серверы & блейды Рабочие станции M2090 M2075 M2070 M2050 C2075 C2070 C2050Кол-во ядер 512 448 448 448 448 448 448Объем памяти 6 GB 6 GB 6 GB 3 GB 6 GB 6 GB 3 GBПс памяти 148.8 148.8 148.8 177.6 GB/s 150 GB/s 150 GB/s 148.8 GB/s(ECC откл) GB/s GB/s GB/s ОдинарнаяПиковая 1331 1030 1030 1030 1030 1030 1030 точностьпроизвGflops Двойная 665 515 515 515 515 515 515 точность 9
  10. 10. Решения Tesla для рабочих станций и ЦОД Tesla M-series GPUs Tesla C-series GPUs M2090 | M2075 C2075 Серверы & блейды Рабочие станции M2090 M2075 C2075Кол-во ядер 512 448 448Объем памяти 6 GB 6 GB 6 GBПс памяти 148.8 177.6 GB/s 150 GB/s(ECC откл) GB/s ОдинарнаяПиковая 1331 1030 1030 точностьпроизвGflops Двойная 665 515 515 точность 10
  11. 11. Самый быстрый в мире HPC процессорTesla M2090: 512 ядерный продукт архитектуры Fermi512 CUDA ядер 35 M2090 vs M2070: 20-30% ускорение 30 665 GFlops 25 20 178 GB/s 15 10 5 0 Supercomputing Life Science Oil & Gas Material Science Manufacturing Linpack AMBER Kirchoff Time WL-LSMS Abaqus Migration 12
  12. 12. Мировой рекорд производительности в AMBER4 Tesla M2090 GPUs 192 Quad-Core CPUs + 2 CPUs 69 нс/день 46 нс/день Больший размерБыстрее = = Больший реализм молекул JAC NVE Benchmark 13
  13. 13. 14
  14. 14. Новая версия ANSYS Mechanical – R14 Preview available now, R14 release coming in November ANSYS Mechanical14.0 Preview 3 DMP vs. 13.0 SP2 SMP for Tesla GPU 750 Xeon 5670 + Tesla C2075 for 13.0 SP2 SMP V13sp-5 Model Xeon 5670 + Tesla C2075 for 14.0 P3 DMP ANSYS Mechanical Times in Lower is 500 better 414 32% 395 45% 358 33% 314 250 273 270 Seconds - Turbine geometry - 2,100 K DOF 13SP 14P 13SP 14P 13SP 14P - Static, nonlinear 0 2 3 2 3 2 3 - Direct sparse 4 Core 6 Core 8 Core 15
  15. 15. Прирост более чем в 4 раза vs стандартной лицензии NOTE: Based on ANSYS Mechanical 14.0 Preview 3 DMP Solver Aug 2011 and Model V13sp-5 5 Factors Gain Over Base License Results CPU Speed-up 4 GPU Speed-up 4.4 Extra 40% cost Solution Cost yields 400% performance 3 2 2.1 1 1.35 1.38 V13sp-5 Model: 1.0 1.0 - 2,100 K DOF 0 -Static nonlinear -Direct sparse Base License ANSYS HPC Pack ANSYS HPC Pack 2 Core 6 Cores 6 Cores + GPU 16
  16. 16. MATLABMATLAB R2011b Критическая масса функционала уже на GPUПреимущества 177 функций портированны на GPU (из ~250) • Random number generation • Solvers • SVD • FFT • Convolutions • Cholesky and LU • Matrix multiplications • Min/max factorization Поддержка компилятора MATLAB GPU функционал в Communications Systems Toolbox Дальнейшее повышение производительностиФокусный рынок: наука, исследования и ... 17
  17. 17. Gaussian будет ускорен на CUDAAug. 29, 2011 — NVIDIA announced plans with Gaussian,Inc., and The Portland Group® (PGI) to develop a futureGPU-accelerated release of Gaussian, the world’s leadingsoftware application for quantum chemistry. 18
  18. 18. CUDA 4.0Портирование приложений становится удобнее Удобная работа с несколькими GPU GPU Direct 2.0 Удобство в портировании приложений Unified Virtual Addressing Программирование на C++ Thrust 19
  19. 19. До появления GPUDirect v2.0Требовалась копия в памяти хоста GPU1 GPU2 Memory Memory System Memory CPU GPU1 GPU2 PCI-e Chip set 20
  20. 20. GPUDirect v2.0: взаимодействие Peer-to-Peer Прямая передача данных между GPU GPU1 GPU2 Memory Memory System Memory CPU GPU1 GPU2 PCI-e Chip set 21
  21. 21. Unified Virtual Addressing Единое адресное пространство Без UVA UVASystem GPU0 GPU1 System GPU0 GPU1Memory Memory Memory Memory Memory Memory 0x0000 0x0000 0x0000 0x0000 0xFFFF 0xFFFF 0xFFFF 0xFFFF CPU GPU0 GPU1 CPU GPU0 GPU1 PCI-e PCI-e 22
  22. 22. Параллельные алгоритмы в стиле C++ STL (Thrust)Производительные C++ параллельные алгоритмы & структуры данных Синтаксис схож с C++ STL (Standard Template Library ) Open Source библиотека: Apache License 2.0 (http://code.google.com/p/thrust/)Автоматический выбор более производительных алгоритмов Алгоритмы имеют различные бекэнды (GPU, CPU/OpenMP) Параллельная сортировка в 5x - 100x быстрее чем в STL и TBB Структуры данных Алгоритмы • thrust::device_vector • thrust::sort • thrust::host_vector • thrust::reduce • thrust::device_ptr • thrust::exclusive_scan • И т.п. • И.т.п. 23
  23. 23. Результаты опроса пользователейИзменение 1-5% кода В 2 раза быстрее за 3 чел/мес 10 8 6 Speed Up 4 2 0 0 3 6 Чел-мес 24
  24. 24. Роадмап Tesla CUDA GPU 16 Maxwell 14DP GFLOPS per Watt 12 10 8 6 Kepler 4 Fermi 2 T10 2008 2010 2012 2014 25
  25. 25. 26

×