Tesla&Cuda For Kpi Event Rus

  • 1,077 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,077
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
21
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Решения для высокопроизводительных вычислений от NVIDIA. Апрель 2009 1
  • 2. GPU NVIDIA : постоянное увеличение производительности GFlops 1200 Добавлена T10 = Tesla 10-series NVIDIA GPU T10 двойная точность G9x = GeForce 9800 GTX Intel CPU 1000 G80 = GeForce 8800 GTX G71 = GeForce 7900 GTX G70 = GeForce 7800 GTX 800 NV40 = GeForce 6800 Ultra G9x NV35 = GeForce FX 5950 Ultra G80 600 NV30 = GeForce FX 5800 400 G71 Intel Xeon G70 200 Quad-core 3 GHz NV40 NV30 NV35 0 22.09.2002 04.02.2004 18.06.2005 31.10.2006 14.03.2008 2
  • 3. Вычисления на GPU 4 cores Вычисления CPU + GPU Гибридные вычислительные системы 3
  • 4. GPU : переломный момент в отрасли суперкомпьютеров Десктоп эффективнее кластера 4 Tesla 59,9 сек C1060 GPUs 256 AMD dual- 67,4 сек core Opterons Tesla Personal 55 60 65 70 CalcUA Компьютерная томография, Supercomputer $5 млн. время обработки $10,000 Источник: University of Antwerp, Belgium 4
  • 5. Прирост производительности до 150 раз 146X 36X 18X 50X 100X Рентгенография, Молекулярная Транскодирование Математические Астрофизика томография динамика видео вычисления RIKEN U of Utah U of Illinois, Urbana Elemental Tech AccelerEyes 149X 47X 20X 130X 30X 3D ультразвук Финансовые Линейная Квантовая химия Генная Techniscan U of Illinois, Urbana задачи алгебра инженерия Oxford Universidad Jaime U of Maryland 5
  • 6. Compute Unified Device Architecture Программно-аппаратная архитектура для параллельных вычислений 6
  • 7. Архитектура параллельных вычислений CUDA Архитектура для параллельных вычислений Включает Си компилятор Стандартные языки и API ATI’s Compute “Solution” 7
  • 8. CUDA. Факты. 750+ научных трудов 100+ университетов преподают CUDA 25 тыс. разработчиков 100 млн. GPU с CUDA www.NVIDIA.ru/CUDA 8
  • 9. Более 250 заказчиков / разработчиков ПО Life Sciences & CAE / Productivit Oil and Manufa Commun Medical Equipment EDA Finance Numerics y / Misc Gas cturing ication Max Planck GE Healthcare CEA Hess Synopsys Renault Symcor The Nokia Mathworks FDA Siemens WRF Weather TOTAL Nascentric Boeing Level 3 RIM Modeling Wolfram Robarts Techniscan CGG/Veritas Gauda SciComp Philips Research OptiTex National Boston Scientific Chevron CST Hanweck Samsung Instruments Medtronic Tech-X Eli Lilly Headwave Agilent Quant LG Access Elemental AGC Catalyst Silicon Acceleware Sony Technologies Analytics Evolved Informatics RogueWave Ericsson Seismic City Dimensional Tech-x machines Stockholm BNP Paribas NTT Imaging P-Wave RIKEN Smith-Waterman Research DoCoMo Seismic Manifold DNA sequencing SOFA Harvard Imaging Mitsubishi Digisens AutoDock Delaware Mercury Hitachi General Mills NAMD/VMD Computer Pittsburg Radio Rapidmind Folding@Home ffA Research ETH Zurich MS Visual Howard Huges Laboratory Institute Atomic Studio Medical US Air Force Physics Rhythm & Hues CRIBI Genomics xNormal Elcomsoft LINZIK 9
  • 10. Параллельные вычисления на GPU 100+ млн. GPU в мире поддерживают CUDA GeForce® Quadro® TeslaTM Развлечения Высокопроизводительные вычисления Дизайн, разработка 10
  • 11. Выбор CUDA платформы GeForce Tesla Quadro X Стресс-тест с проверкой точности вычислений X X Произведено NVIDIA из высококачественных комплектующих X X 3-х летняя гарантия, корпоративная поддержка X X 4 Гб оперативной памяти для работы с большими объемами данных X Единое профессиональное решение для вычислений и графики X Пользовательские приложения: PhysX, Video, Imaging X Короткий жизненный цикл пользовательского продукта X Производится и сопровождается партнерами NVIDIA X Поддержка осуществляется через партнеров NVIDIA 11
  • 12. Вычислительные решения Tesla Созданы для профессионалов. 12
  • 13. GPU NVIDIA Tesla 10-й серии 10- L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 13
  • 14. Tesla: созданы для вычислений Системные решения Профессиональный уровень Высококачественная память Надежность вычислений 24-часовой стресс-тест Поддержка NVIDIA Вычислительные ресурсы 3-х летняя гарантия Архитектура вычислений CUDA 4 ГБ ОЗУ Длинный жизненный цикл двойная точность IEEE-754 Корпоративная поддержка 14
  • 15. Вычислительные решения Tesla Tesla Personal Tesla S1070 1U System Supercomputer Tesla C1060 (4 Tesla C1060s) Computing Board GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops Memory 4 GB / GPU 4 GB 4 GB / GPU 15
  • 16. Tesla S1070: эффективное решение До 20 раз лучше показатель производительность/Ватт Hess University of Heidelberg Chevron University of Illinois Petrobras University of North Carolina NCSA Max Planck Institute CEA Rice University TiTech University of Maryland JFCOM GusGus SAIC Eotvas University Federal University of Wuppertal Motorola Chinese Academy of Sciences Kodak National Taiwan University 16
  • 17. Пример: ЦОД стоимостью $5 млн. CPU 1U Server 2 Quad-core Xeon 8 CPU Cores + CPU 1U Server CPUs: 8 cores 960 GPU Сores Tesla 1U System 0.17 Teraflop (single) 4.14 Teraflops (single) 0.08 Teraflop (double) 0.346 Teraflop (double) $ 3,000 $ 11,000 700 W 1500 W 1819 CPU servers 455 CPU servers 455 Tesla systems 6x more perf 310 Teraflops (single) 1961 Teraflops (single) 155 Teraflops (double) 196 Teraflops (double) 60% smaller Total area 16K sq feet Total area 9K sq feet Total 1273 KW Total 682 KW ½ the power 17
  • 18. Исследователи всего мира строят станции на основе GPU 3 GPUs 3 GPUs University of Korea Illinois 2 GPUs University of Cambridge, UK 8 GPUs 16 GPUs University of Antwerp, Belgium 18
  • 19. Персональный суперкомпьютер Tesla Производительность Массивно параллельная CUDA архитектура 960 ядер. 4 Терафлоп/с В 250 раз мощнее ПК Удобство Суперкомпьютер на рабочем столе Включается в обычную розетку Доступность Программируется на Си под Windows и Linux Стоимость порядка $10,000 19
  • 20. В 100 раз доступнее В 20 раз экономичнее Tesla 250x Personal Производительность Supercomputer Supercomputing В 250 раз Cluster быстрее 1x Современный ПК $100K - $1M < $10 K Доступность 20
  • 21. Высокопроизводительные вычисления на базе GPU Tesla Cluster 5000x Производительность Tesla Personal Supercomputer 250x Supercomputing Cluster Standard Workstation 1x $100K - $1M < $10 K Доступность 21
  • 22. Примеры приложений с поддержкой CUDA 22
  • 23. Увеличение скорости вычислений 4.6 Days 3 Hours 2.7 Days 8 Hours 30 Minutes 16 Minutes 27 Minutes 13 Minutes CPU Only With GPU 23
  • 24. Финансовые задачи Time Derivative Pricing using (secs) Доступное ПО с поддержкой CUDA SciFinance 31,1 secs 35 30 SciComp : Derivatives pricing modeling 25 20 Hanweck: Options pricing & risk analysis 15 10 Aqumin: 3D visualization of market data 5 0,4 secs 0,25 secs 0 Exegy: High-volume Tickers & Risk Analysis Intel Xeon 1 Tesla C1060 2 Tesla (2.6 GHz) C1060s QuantCatalyst: Pricing & Hedging Engine Source: SciComp Oneye: Algorithmic Trading Million Arbitragis Trading: Trinomial Options Pricing 100x faster Random Number Generators Samples for Monte Carlo Simulations per sec 6000 5132 Intel Xeon Quad-Core 5000 (3.0 GHz) Разрабатываемое ПО Tesla C1060 4000 LIBOR Monte Carlo market model 3000 2116 2000 Callable Swaps and Continuous Time Finance 491 1000 164 0 Mersenne Twister DR LRAND48 + Box-Mueller (MKL) Source: CUDA SDK 24
  • 25. Молекулярная динамика Ion Placement in VMD Billion Evaluations / sec 300 241 250 200 Доступное ПО 271x 150 Faster NAMD / VMD (alpha release) 100 50 HOOMD 0,89 0 ACE-MD Intel QX6700 4 GPUs quad-core w/ (Tesla 10-series) MD-GPU SSE Source: Stone, Phillips, Hardy, Schulten ПО в разработке Lennard-Jones Liquid Model 600 on LAMMPs vs HOOMD Time steps calculated / sec LAMMPS 500 16 AMD Opteron 280s 400 CHARMM 1 GPU (Tesla 8-series) 300 GROMACS 200 AMBER 100 0 N=24,300 N=64,017 N=125,010 Number of Particles Source: Anderson, Lorenz, Travesset 25
  • 26. Квантовая химия GAMESS on Intel Pentium D (3.0 GHz) vs CUDA code on Tesla 8-Series GPU 12.5 mins 1000 4.7 mins 5.5 mins Time (Log-scale) 1.1 mins 100 Доступное ПО 8,1 secs 4,5 secs 5,7 secs 4.4 secs 10 NAMD / VMD (alpha release) 1,2 secs 1 HOOMD 0,2 secs 0,1 ACE-MD Caffeine Cholesterol Taxol Buckyball Valinomycin Source: Ufimtsev, Martinez MD-GPU Coulomb Potential Evaluation Time Gaussian 03 on Intel Pentium (2.4 GHz) (secs) ПО в разработке vs CUDA code on 1 Tesla 8-Series GPU 700 9.9 mins LAMMPS 600 8 mins 500 CHARMM 400 300 4 mins Q-Chem 2.8 mins 200 Gaussian 64,5 secs 100 36,1 secs 32,0 secs 21,6 secs 0 Taxol/ LSDA/ Taxol/ Valinomycin/ Valinomycin/ 3-21G PW91/ 6- LSDA/ 3-21G PW91/ 6- 31G 31G Source: Yasuda 26
  • 27. Гидро- и газодинамика Incompressible Navier-Stokes Gflops 60 54 AMD Opteron 2.4 GHz 48 1 Tesla C870 50 ПО в разработке 2 Tesla C870s 38 40 4 Tesla C870s Navier-Stokes 30 24 Lattice Boltzman 20 10 3D Euler Solver 0,9 0,6 0,6 0,5 0 Weather and ocean modeling 128x32 256x32 512x32 1024x32 x128 x256 x512 x1024 Source: Thibault, Senocak Lattice Boltzman Methods 700 592 for 128x128 Mesh Size Million 600 Lattice 500 Updates 400 per 300 Sec 200 (MLUPs) 41,3 100 4,8 7,6 0 Intel Xeon Intel NEC SX6+ NVIDIA (3.4 GHz) Itanium 2 (565 MHz) GeForce (1.4 GHz) 8800 Ultra 27 Source: Tolke, Krafczyk
  • 28. Электромагнетизм / Электродинамика Доступное ПО Cell Phone Model Simulation Speed Acceleware Simulation size : 80 Mcells Mcells/s 500,0 600 EM Photonics Mcells/s 500 CUDA Tutorial 400 ПО в разработке 300 Maxwell equation solver 200 9,9 Ring Oscillator (FDTD) 100 Mcells/s Particle beam dynamics simulator 0 Intel Xeon (2.6 GHz) 4 GPUs (Tesla 8-series) FDTD Acceleration using GPUs Source: Acceleware 28
  • 29. Моделирование погоды, атмосферы, океана WSM5 Micro-Physics Kernel in WRF Mflops/s 64 728 Доступное ПО Mflops/s 70000 60000 Other kernels in WRF being ported 50000 40000 30000 1 315 1 616 20000 ПО в разработке Mflops/s Mflops/s 10000 0 Tsunami modeling Intel Xeon AMD Opteron 1 Tesla 10- (3.0 GHz) (2.4 GHz) series GPU Ocean modeling Source: Michalakes, Vachharajani Several CFD codes Tsunami simulation Time 3000km x 3000km (500m mesh) (mins) 350 5 days 300 250 200 150 4,8 100 hours 50 0 Intel Xeon (2.4 GHz) 1 Tesla 10-series GPU Source: Matsuoka, Akiyama, et al 29
  • 30. NVIDIA: лидер в области вычислений на GPU Сотни приложений на CUDA Zone 30+ CUDA GPU clusters 50+ университетов преподают CUDA 750+ научных трудов Duke Northeastern Erlangen Oregon State ETH Zurich Pennsylvania Georgia Tech Polimi Grove City College Purdue Harvard Santa Clara IISc Bangalore Stanford IIIT Hyderabad Stuttgart IIT Suny Illinois Tokyo 100 млн. GPU с CUDA 150 тыс. скачиваний CUDA SDK INRIA TU-Vienna 25,000+ разработчиков Iowa USC ITESM Utah CUDA 2.0 Johns Hopkins Virginia Kent State Washington Kyoto Waterloo CUDA 1.1 Lund Western Australia Maryland Williams College CUDA 1.0 McGill Wisconsin MSU Yonsei North Carolina 30
  • 31. Ссылки CUDA Zone http://www.nvidia.ru/cuda Приложения, документы, видео Tesla http://www.nvidia.ru/tesla Спецификации, технические и маркетинговые материалы Вертикальные отраслевые решения http://www.nvidia.com/object/vertical_solutions.html YouTube Videos http://www.youtube.com/nvidiatesla 31
  • 32. Вопросы? 32