• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Nvidia hpc day 2011 kiev
 
Like this presentation? Why not share!

Nvidia hpc day 2011 kiev

on

  • 726 views

 

Statistics

Views

Total Views
726
Views on SlideShare
538
Embed Views
188

Actions

Likes
0
Downloads
0
Comments
0

2 Embeds 188

http://supercomputers.kiev.ua 187
http://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Nvidia hpc day 2011 kiev Nvidia hpc day 2011 kiev Presentation Transcript

    • Вчера. Сегодня. Завтра. 1
    • Гетерогенные вычисленияCPU GPU Ускорение 2
    • Минимальное портирование для значительного ускорения Код приложения Весь остальной Только критические последовательныйGPU функции CPU код CPU Параллелизация в соответствии с программной моделью CUDA 3
    • GPU Tesla в основе 3 из Top 5 СК #2 : Tianhe-1A #4 : Nebulae #5 : Tsubame 2.07168 Tesla GPU’s 2.5 PFLOPS 4650 Tesla GPU’s 1.2 PFLOPS 4224 Tesla GPU’s 1.194 PFLOPS ―внедрили гетерогенную вычислительную архитектуру, использующую Мы не только создали самый быстрый компьютер, но так же ‖ CPU и GPU, это действительно инновация. Премьер министр Вен Цзябао Публичный комментарий Tianhe-1A 4
    • Топ50 – интересные факты• 7 кластеров на базе NVIDIA Tesla.• 7 кластеров на базе GPU обеспечивают суммарную производительность равную производительности всех остальных систем в списке: 1616,7 из 3275,86 ТФлопс 5
    • Самый эффективный петафлопный СК Tsubame 2.0 1.192 Пф 1.340 МВт4200 Tesla M2050 GPUsТокийский технологический институт 6
    • Будущее сегодня 18,000+ Tesla GPUs 20+ PetaFlopsВ 3 раза более энергоэффективный по сравнению с #1 (K Computer) 7
    • Самый быстрый вычислитель для задач МД Эффективная производительность 1.87 Petaflops/s Institute of Process Engineering (IPE) Chinese Academy of Sciences (CAS)Моделирование кристаллического кремния Использованы все 7168 Tesla GPU 8
    • Решения Tesla для рабочих станций и ЦОД Tesla M-series GPUs Tesla C-series GPUs M2090 | M2075 | M2070 | M2050 C2075 | C2070 | C2050 Серверы & блейды Рабочие станции M2090 M2075 M2070 M2050 C2075 C2070 C2050Кол-во ядер 512 448 448 448 448 448 448Объем памяти 6 GB 6 GB 6 GB 3 GB 6 GB 6 GB 3 GBПс памяти 148.8 148.8 148.8 177.6 GB/s 150 GB/s 150 GB/s 148.8 GB/s(ECC откл) GB/s GB/s GB/s ОдинарнаяПиковая 1331 1030 1030 1030 1030 1030 1030 точностьпроизвGflops Двойная 665 515 515 515 515 515 515 точность 9
    • Решения Tesla для рабочих станций и ЦОД Tesla M-series GPUs Tesla C-series GPUs M2090 | M2075 C2075 Серверы & блейды Рабочие станции M2090 M2075 C2075Кол-во ядер 512 448 448Объем памяти 6 GB 6 GB 6 GBПс памяти 148.8 177.6 GB/s 150 GB/s(ECC откл) GB/s ОдинарнаяПиковая 1331 1030 1030 точностьпроизвGflops Двойная 665 515 515 точность 10
    • Самый быстрый в мире HPC процессорTesla M2090: 512 ядерный продукт архитектуры Fermi512 CUDA ядер 35 M2090 vs M2070: 20-30% ускорение 30 665 GFlops 25 20 178 GB/s 15 10 5 0 Supercomputing Life Science Oil & Gas Material Science Manufacturing Linpack AMBER Kirchoff Time WL-LSMS Abaqus Migration 12
    • Мировой рекорд производительности в AMBER4 Tesla M2090 GPUs 192 Quad-Core CPUs + 2 CPUs 69 нс/день 46 нс/день Больший размерБыстрее = = Больший реализм молекул JAC NVE Benchmark 13
    • 14
    • Новая версия ANSYS Mechanical – R14 Preview available now, R14 release coming in November ANSYS Mechanical14.0 Preview 3 DMP vs. 13.0 SP2 SMP for Tesla GPU 750 Xeon 5670 + Tesla C2075 for 13.0 SP2 SMP V13sp-5 Model Xeon 5670 + Tesla C2075 for 14.0 P3 DMP ANSYS Mechanical Times in Lower is 500 better 414 32% 395 45% 358 33% 314 250 273 270 Seconds - Turbine geometry - 2,100 K DOF 13SP 14P 13SP 14P 13SP 14P - Static, nonlinear 0 2 3 2 3 2 3 - Direct sparse 4 Core 6 Core 8 Core 15
    • Прирост более чем в 4 раза vs стандартной лицензии NOTE: Based on ANSYS Mechanical 14.0 Preview 3 DMP Solver Aug 2011 and Model V13sp-5 5 Factors Gain Over Base License Results CPU Speed-up 4 GPU Speed-up 4.4 Extra 40% cost Solution Cost yields 400% performance 3 2 2.1 1 1.35 1.38 V13sp-5 Model: 1.0 1.0 - 2,100 K DOF 0 -Static nonlinear -Direct sparse Base License ANSYS HPC Pack ANSYS HPC Pack 2 Core 6 Cores 6 Cores + GPU 16
    • MATLABMATLAB R2011b Критическая масса функционала уже на GPUПреимущества 177 функций портированны на GPU (из ~250) • Random number generation • Solvers • SVD • FFT • Convolutions • Cholesky and LU • Matrix multiplications • Min/max factorization Поддержка компилятора MATLAB GPU функционал в Communications Systems Toolbox Дальнейшее повышение производительностиФокусный рынок: наука, исследования и ... 17
    • Gaussian будет ускорен на CUDAAug. 29, 2011 — NVIDIA announced plans with Gaussian,Inc., and The Portland Group® (PGI) to develop a futureGPU-accelerated release of Gaussian, the world’s leadingsoftware application for quantum chemistry. 18
    • CUDA 4.0Портирование приложений становится удобнее Удобная работа с несколькими GPU GPU Direct 2.0 Удобство в портировании приложений Unified Virtual Addressing Программирование на C++ Thrust 19
    • До появления GPUDirect v2.0Требовалась копия в памяти хоста GPU1 GPU2 Memory Memory System Memory CPU GPU1 GPU2 PCI-e Chip set 20
    • GPUDirect v2.0: взаимодействие Peer-to-Peer Прямая передача данных между GPU GPU1 GPU2 Memory Memory System Memory CPU GPU1 GPU2 PCI-e Chip set 21
    • Unified Virtual Addressing Единое адресное пространство Без UVA UVASystem GPU0 GPU1 System GPU0 GPU1Memory Memory Memory Memory Memory Memory 0x0000 0x0000 0x0000 0x0000 0xFFFF 0xFFFF 0xFFFF 0xFFFF CPU GPU0 GPU1 CPU GPU0 GPU1 PCI-e PCI-e 22
    • Параллельные алгоритмы в стиле C++ STL (Thrust)Производительные C++ параллельные алгоритмы & структуры данных Синтаксис схож с C++ STL (Standard Template Library ) Open Source библиотека: Apache License 2.0 (http://code.google.com/p/thrust/)Автоматический выбор более производительных алгоритмов Алгоритмы имеют различные бекэнды (GPU, CPU/OpenMP) Параллельная сортировка в 5x - 100x быстрее чем в STL и TBB Структуры данных Алгоритмы • thrust::device_vector • thrust::sort • thrust::host_vector • thrust::reduce • thrust::device_ptr • thrust::exclusive_scan • И т.п. • И.т.п. 23
    • Результаты опроса пользователейИзменение 1-5% кода В 2 раза быстрее за 3 чел/мес 10 8 6 Speed Up 4 2 0 0 3 6 Чел-мес 24
    • Роадмап Tesla CUDA GPU 16 Maxwell 14DP GFLOPS per Watt 12 10 8 6 Kepler 4 Fermi 2 T10 2008 2010 2012 2014 25
    • 26