This document discusses GPUs and parallel computing using NVIDIA GPUs. It describes the increasing computational performance of GPUs over time compared to CPUs. It also discusses NVIDIA's Compute Unified Device Architecture (CUDA) for general purpose parallel computing on GPUs and provides usage statistics for CUDA. The document advocates that GPUs are becoming the preferred platform for high performance computing applications due to their low cost and high performance capabilities.
3. Вычисления на GPU
4 cores
Вычисления CPU + GPU
Гибридные вычислительные системы
3
4. GPU : переломный момент в отрасли
суперкомпьютеров
Десктоп эффективнее кластера
4 Tesla
59,9 сек
C1060 GPUs
256 AMD dual-
67,4 сек
core Opterons
Tesla Personal
55 60 65 70
CalcUA Компьютерная томография, Supercomputer
$5 млн. время обработки
$10,000
Источник: University of Antwerp, Belgium
4
5. Прирост производительности до 150 раз
146X 36X 18X 50X 100X
Рентгенография, Молекулярная Транскодирование Математические Астрофизика
томография динамика видео вычисления RIKEN
U of Utah U of Illinois, Urbana Elemental Tech AccelerEyes
149X 47X 20X 130X 30X
3D ультразвук
Финансовые Линейная Квантовая химия Генная
Techniscan U of Illinois, Urbana
задачи алгебра инженерия
Oxford Universidad Jaime U of Maryland
5
7. Архитектура параллельных вычислений CUDA
Архитектура для
параллельных вычислений
Включает Си компилятор
Стандартные языки и API
ATI’s Compute “Solution”
7
8. CUDA. Факты.
750+ научных трудов
100+ университетов преподают
CUDA
25 тыс. разработчиков
100 млн. GPU с CUDA
www.NVIDIA.ru/CUDA
8
9. Более 250 заказчиков / разработчиков ПО
Life Sciences & CAE /
Productivit Oil and Manufa Commun
Medical Equipment EDA Finance Numerics
y / Misc Gas cturing ication
Max Planck GE Healthcare CEA Hess Synopsys Renault Symcor The Nokia
Mathworks
FDA Siemens WRF Weather TOTAL Nascentric Boeing Level 3 RIM
Modeling Wolfram
Robarts Techniscan CGG/Veritas Gauda SciComp Philips
Research OptiTex National
Boston Scientific Chevron CST Hanweck Samsung
Instruments
Medtronic Tech-X
Eli Lilly Headwave Agilent Quant LG
Access
Elemental
AGC Catalyst
Silicon Acceleware Sony
Technologies Analytics
Evolved Informatics RogueWave Ericsson
Seismic City
Dimensional Tech-x
machines Stockholm BNP Paribas NTT
Imaging P-Wave
RIKEN
Smith-Waterman Research DoCoMo
Seismic
Manifold
DNA sequencing SOFA
Harvard Imaging Mitsubishi
Digisens
AutoDock Delaware Mercury Hitachi
General Mills
NAMD/VMD Computer
Pittsburg Radio
Rapidmind
Folding@Home ffA Research
ETH Zurich MS Visual
Howard Huges Laboratory
Institute Atomic Studio
Medical US Air Force
Physics Rhythm & Hues
CRIBI Genomics
xNormal
Elcomsoft
LINZIK
9
10. Параллельные вычисления на GPU
100+ млн. GPU в мире поддерживают CUDA
GeForce® Quadro®
TeslaTM
Развлечения Высокопроизводительные вычисления Дизайн, разработка
10
11. Выбор CUDA платформы
GeForce
Tesla Quadro
X
Стресс-тест с проверкой точности вычислений
X X
Произведено NVIDIA из высококачественных комплектующих
X X
3-х летняя гарантия, корпоративная поддержка
X X
4 Гб оперативной памяти для работы с большими объемами данных
X
Единое профессиональное решение для вычислений и графики
X
Пользовательские приложения: PhysX, Video, Imaging
X
Короткий жизненный цикл пользовательского продукта
X
Производится и сопровождается партнерами NVIDIA
X
Поддержка осуществляется через партнеров NVIDIA
11
14. Tesla: созданы для вычислений
Системные решения Профессиональный уровень
Высококачественная память
Надежность вычислений
24-часовой стресс-тест
Поддержка NVIDIA Вычислительные ресурсы
3-х летняя гарантия Архитектура вычислений CUDA
4 ГБ ОЗУ
Длинный жизненный цикл
двойная точность IEEE-754
Корпоративная поддержка
14
15. Вычислительные решения Tesla
Tesla Personal
Tesla S1070 1U System
Supercomputer
Tesla C1060
(4 Tesla C1060s)
Computing Board
GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs
Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops
Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops
Memory 4 GB / GPU 4 GB 4 GB / GPU
15
16. Tesla S1070: эффективное решение
До 20 раз лучше показатель
производительность/Ватт
Hess University of Heidelberg
Chevron University of Illinois
Petrobras University of North Carolina
NCSA Max Planck Institute
CEA Rice University
TiTech University of Maryland
JFCOM GusGus
SAIC Eotvas University
Federal University of Wuppertal
Motorola Chinese Academy of Sciences
Kodak National Taiwan University
16
17. Пример: ЦОД стоимостью $5 млн.
CPU 1U Server 2 Quad-core Xeon 8 CPU Cores + CPU 1U Server
CPUs: 8 cores 960 GPU Сores
Tesla 1U System
0.17 Teraflop (single) 4.14 Teraflops (single)
0.08 Teraflop (double) 0.346 Teraflop (double)
$ 3,000 $ 11,000
700 W 1500 W
1819 CPU servers 455 CPU servers
455 Tesla systems
6x more perf
310 Teraflops (single) 1961 Teraflops (single)
155 Teraflops (double) 196 Teraflops (double)
60% smaller
Total area 16K sq feet Total area 9K sq feet
Total 1273 KW Total 682 KW
½ the power
17
18. Исследователи всего мира строят станции на основе GPU
3 GPUs
3 GPUs
University of
Korea
Illinois
2 GPUs
University of
Cambridge, UK
8 GPUs
16 GPUs
University of
Antwerp,
Belgium
18
19. Персональный суперкомпьютер Tesla
Производительность
Массивно параллельная CUDA архитектура
960 ядер. 4 Терафлоп/с
В 250 раз мощнее ПК
Удобство
Суперкомпьютер на рабочем столе
Включается в обычную розетку
Доступность
Программируется на Си под Windows и Linux
Стоимость порядка $10,000
19
20. В 100 раз доступнее
В 20 раз экономичнее Tesla
250x Personal
Производительность
Supercomputer
Supercomputing
В 250 раз
Cluster
быстрее
1x Современный
ПК
$100K - $1M < $10 K
Доступность 20
21. Высокопроизводительные вычисления на базе GPU
Tesla Cluster
5000x
Производительность
Tesla Personal
Supercomputer
250x
Supercomputing
Cluster
Standard
Workstation
1x
$100K - $1M < $10 K
Доступность 21
23. Увеличение скорости вычислений
4.6 Days
3 Hours
2.7 Days
8 Hours
30 Minutes
16 Minutes
27 Minutes
13 Minutes
CPU Only With GPU
23
24. Финансовые задачи
Time
Derivative Pricing using
(secs)
Доступное ПО с поддержкой CUDA SciFinance
31,1 secs
35
30
SciComp : Derivatives pricing modeling 25
20
Hanweck: Options pricing & risk analysis 15
10
Aqumin: 3D visualization of market data 5 0,4 secs 0,25 secs
0
Exegy: High-volume Tickers & Risk Analysis Intel Xeon 1 Tesla C1060 2 Tesla
(2.6 GHz) C1060s
QuantCatalyst: Pricing & Hedging Engine Source: SciComp
Oneye: Algorithmic Trading
Million
Arbitragis Trading: Trinomial Options Pricing 100x faster Random Number Generators
Samples for Monte Carlo Simulations
per sec
6000 5132
Intel Xeon Quad-Core
5000 (3.0 GHz)
Разрабатываемое ПО Tesla C1060
4000
LIBOR Monte Carlo market model 3000 2116
2000
Callable Swaps and Continuous Time Finance 491
1000 164
0
Mersenne Twister DR LRAND48
+ Box-Mueller (MKL)
Source: CUDA SDK
24
25. Молекулярная динамика
Ion Placement in VMD
Billion Evaluations / sec
300
241
250
200
Доступное ПО 271x
150
Faster
NAMD / VMD (alpha release) 100
50
HOOMD 0,89
0
ACE-MD Intel QX6700 4 GPUs
quad-core w/ (Tesla 10-series)
MD-GPU SSE
Source: Stone, Phillips, Hardy, Schulten
ПО в разработке Lennard-Jones Liquid Model
600 on LAMMPs vs HOOMD
Time steps calculated / sec
LAMMPS 500
16 AMD Opteron 280s
400
CHARMM 1 GPU (Tesla 8-series)
300
GROMACS 200
AMBER 100
0
N=24,300 N=64,017 N=125,010
Number of Particles
Source: Anderson, Lorenz, Travesset
25
26. Квантовая химия
GAMESS on Intel Pentium D (3.0 GHz)
vs CUDA code on Tesla 8-Series GPU
12.5 mins
1000 4.7 mins 5.5 mins
Time (Log-scale)
1.1 mins
100
Доступное ПО 8,1 secs
4,5 secs 5,7 secs
4.4 secs
10
NAMD / VMD (alpha release) 1,2 secs
1
HOOMD 0,2 secs
0,1
ACE-MD Caffeine Cholesterol Taxol Buckyball Valinomycin
Source: Ufimtsev, Martinez
MD-GPU
Coulomb Potential Evaluation
Time
Gaussian 03 on Intel Pentium (2.4 GHz)
(secs)
ПО в разработке vs CUDA code on 1 Tesla 8-Series GPU
700
9.9 mins
LAMMPS 600
8 mins
500
CHARMM 400
300 4 mins
Q-Chem 2.8 mins
200
Gaussian 64,5 secs
100 36,1 secs
32,0 secs
21,6 secs
0
Taxol/ LSDA/ Taxol/ Valinomycin/ Valinomycin/
3-21G PW91/ 6- LSDA/ 3-21G PW91/ 6-
31G 31G
Source: Yasuda
26
27. Гидро- и газодинамика
Incompressible Navier-Stokes
Gflops
60 54
AMD Opteron 2.4 GHz
48
1 Tesla C870
50
ПО в разработке 2 Tesla C870s
38
40 4 Tesla C870s
Navier-Stokes 30 24
Lattice Boltzman 20
10
3D Euler Solver 0,9 0,6 0,6 0,5
0
Weather and ocean modeling 128x32 256x32 512x32 1024x32
x128 x256 x512 x1024
Source: Thibault, Senocak
Lattice Boltzman Methods
700
592
for 128x128 Mesh Size
Million 600
Lattice 500
Updates 400
per
300
Sec
200
(MLUPs)
41,3
100 4,8 7,6
0
Intel Xeon Intel NEC SX6+ NVIDIA
(3.4 GHz) Itanium 2 (565 MHz) GeForce
(1.4 GHz) 8800 Ultra
27
Source: Tolke, Krafczyk
28. Электромагнетизм / Электродинамика
Доступное ПО Cell Phone Model Simulation
Speed
Acceleware Simulation size : 80 Mcells
Mcells/s
500,0
600
EM Photonics Mcells/s
500
CUDA Tutorial
400
ПО в разработке 300
Maxwell equation solver 200
9,9
Ring Oscillator (FDTD) 100
Mcells/s
Particle beam dynamics simulator 0
Intel Xeon (2.6 GHz) 4 GPUs
(Tesla 8-series)
FDTD Acceleration using GPUs
Source: Acceleware
28
29. Моделирование погоды, атмосферы, океана
WSM5 Micro-Physics Kernel
in WRF
Mflops/s 64 728
Доступное ПО Mflops/s
70000
60000
Other kernels in WRF being ported 50000
40000
30000
1 315 1 616
20000
ПО в разработке Mflops/s Mflops/s
10000
0
Tsunami modeling Intel Xeon AMD Opteron 1 Tesla 10-
(3.0 GHz) (2.4 GHz) series GPU
Ocean modeling
Source: Michalakes, Vachharajani
Several CFD codes
Tsunami simulation
Time
3000km x 3000km (500m mesh)
(mins)
350
5 days
300
250
200
150
4,8
100
hours
50
0
Intel Xeon (2.4 GHz) 1 Tesla 10-series
GPU
Source: Matsuoka, Akiyama, et al
29
30. NVIDIA: лидер в области вычислений на GPU
Сотни приложений на CUDA Zone 30+ CUDA GPU clusters 50+ университетов преподают CUDA
750+ научных трудов
Duke Northeastern
Erlangen Oregon State
ETH Zurich Pennsylvania
Georgia Tech Polimi
Grove City College Purdue
Harvard Santa Clara
IISc Bangalore Stanford
IIIT Hyderabad Stuttgart
IIT Suny
Illinois Tokyo
100 млн. GPU с CUDA 150 тыс. скачиваний CUDA SDK INRIA TU-Vienna
25,000+ разработчиков Iowa USC
ITESM Utah
CUDA 2.0
Johns Hopkins Virginia
Kent State Washington
Kyoto Waterloo
CUDA 1.1
Lund Western Australia
Maryland Williams College
CUDA 1.0
McGill Wisconsin
MSU Yonsei
North Carolina
30
31. Ссылки
CUDA Zone
http://www.nvidia.ru/cuda
Приложения, документы, видео
Tesla
http://www.nvidia.ru/tesla
Спецификации, технические и маркетинговые материалы
Вертикальные отраслевые решения
http://www.nvidia.com/object/vertical_solutions.html
YouTube Videos
http://www.youtube.com/nvidiatesla
31