• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Nvidia Hpc Day Kiev Rus
 

Nvidia Hpc Day Kiev Rus

on

  • 1,488 views

Решения для высокопроизводительных вычислений от NVIDIA

Решения для высокопроизводительных вычислений от NVIDIA
Октябрь 2009

Statistics

Views

Total Views
1,488
Views on SlideShare
1,486
Embed Views
2

Actions

Likes
2
Downloads
13
Comments
0

1 Embed 2

http://www.slideshare.net 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Nvidia Hpc Day Kiev Rus Nvidia Hpc Day Kiev Rus Presentation Transcript

    • Решения для высокопроизводительных вычислений от NVIDIA Октябрь 2009 1
    • Гетерогенные вычисления 4 ядра Вычисления CPU + GPU Гибридные вычислительные системы 2
    • Когда прирост производительности имеет значение? Shader Model 4 + CUDA (754Mill / 1.4 Bill / 3.0 Bill Transistors) Производительность в GFlops Sailships Steamships Airplanes Fermi 1000 Скорость в миль/час Shader Model 3 + GPGPU Shader Model 1 & 2 (222 / 302 Mill Transistors) 100 (63Mill / 130 Mill Transistors) Pixel Transfer (1Mill / 22 Mill Transistors) 10 1 1700 1725 1750 1775 1800 1825 1850 1875 1900 1925 1950 1970 1995 1999 2002 2003 2004 2005 2006 2008 2010 3
    • GPU : переломный момент в отрасли суперкомпьютеров Десктоп эффективнее кластера 4 Tesla C1060 GPUs 59,9 сек 256 AMD dual- core Opterons 67,4 сек 55 60 65 70 Tesla Personal CalcUA Компьютерная томография, Supercomputer $5 млн. время обработки $10,000 Источник: University of Antwerp, Belgium 4
    • Прирост производительности до 150 раз 146X 36X 18X 50X 100X Рентгенография, Молекулярная Транскодирование Математические Астрофизика томография динамика видео вычисления RIKEN U of Utah U of Illinois, Urbana Elemental Tech AccelerEyes 149X 47X 20X 130X 30X Финансовые Линейная 3D ультразвук Квантовая химия Генная задачи алгебра Techniscan U of Illinois, Urbana инженерия Oxford Universidad Jaime U of Maryland 5
    • Compute Unified Device Architecture Программно-аппаратная архитектура для параллельных вычислений 6
    • Архитектура параллельных вычислений CUDA Архитектура для параллельных вычислений Включает Си компилятор Стандартные языки и API ATI’s Compute “Solution” 7
    • CUDA. Факты. 900+ научных трудов 115+ университетов преподают CUDA 60 тыс. разработчиков 200 млн. GPU с CUDA www.NVIDIA.ru/CUDA 8
    • Более 250 заказчиков / разработчиков ПО Life Sciences & Productivit Oil and Manufa CAE / Commun Medical Equipment y / Misc Gas EDA cturing Finance Numerics ication Max Planck GE Healthcare CEA Hess Synopsys Renault Symcor The Nokia FDA Siemens WRF Weather TOTAL Nascentric Boeing Level 3 Mathworks RIM Robarts Techniscan Modeling CGG/Veritas Gauda SciComp Wolfram Philips Research Boston Scientific OptiTex Chevron CST Hanweck National Samsung Medtronic Eli Lilly Tech-X Headwave Agilent Quant Instruments LG AGC Silicon Elemental Acceleware Catalyst Access Sony Technologies Analytics Evolved Informatics Seismic City RogueWave Ericsson Dimensional Tech-x machines Stockholm Imaging P-Wave BNP Paribas NTT Smith-Waterman Research Seismic RIKEN DoCoMo Manifold DNA sequencing Harvard Imaging SOFA Mitsubishi Digisens AutoDock Delaware Mercury Hitachi General Mills NAMD/VMD Pittsburg Computer Radio Rapidmind Folding@Home ETH Zurich ffA Research MS Visual Howard Huges Institute Atomic Laboratory Studio Medical Physics US Air Force Rhythm & Hues CRIBI Genomics xNormal Elcomsoft LINZIK 9
    • Параллельные вычисления на GPU 200+ млн. GPU в мире поддерживают CUDA GeForce® TeslaTM Quadro® Развлечения Высокопроизводительные вычисления Дизайн, разработка 10
    • Выбор CUDA платформы Tesla Quadro GeForce Стресс-тест с проверкой точности вычислений X Произведено NVIDIA из высококачественных комплектующих X X 3-х летняя гарантия, корпоративная поддержка X X 4 Гб оперативной памяти для работы с большими объемами данных X X Единое профессиональное решение для вычислений и графики X Пользовательские приложения: PhysX, Video, Imaging X Короткий жизненный цикл пользовательского продукта X Производится и сопровождается партнерами NVIDIA X Поддержка осуществляется через партнеров NVIDIA X 11
    • Вычислительные решения Tesla Созданы для профессионалов. 12
    • GPU NVIDIA Tesla 10-й серии L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 13
    • Tesla: созданы для вычислений Системные решения Профессиональный уровень Высококачественная память Надежность вычислений 24-часовой стресс-тест Поддержка NVIDIA Вычислительные ресурсы 3-х летняя гарантия Архитектура вычислений CUDA Длинный жизненный цикл 4 ГБ ОЗУ Корпоративная поддержка двойная точность IEEE-754 14
    • Вычислительные решения Tesla Tesla Personal Tesla S1070 1U System Tesla C1060 Supercomputer Computing Board (4 Tesla C1060s) GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops Memory 4 GB / GPU 4 GB 4 GB / GPU 15
    • Tesla S1070: эффективное решение До 20 раз лучше показатель производительность/Ватт Hess University of Heidelberg Chevron University of Illinois Petrobras University of North Carolina NCSA Max Planck Institute CEA Rice University TiTech University of Maryland JFCOM GusGus SAIC Eotvas University Federal University of Wuppertal Motorola Chinese Academy of Sciences Kodak National Taiwan University 16
    • Пример: ЦОД стоимостью $5 млн. CPU 1U Server 2 Quad-core Xeon 8 CPU Cores + CPU 1U Server CPUs: 8 cores 960 GPU Сores Tesla 1U System 0.17 Teraflop (single) 4.14 Teraflops (single) 0.08 Teraflop (double) 0.346 Teraflop (double) $ 3,000 $ 11,000 700 W 1500 W 1819 CPU servers 455 CPU servers 455 Tesla systems 310 Teraflops (single) 1961 Teraflops (single) 6x more perf 155 Teraflops (double) 196 Teraflops (double) Total area 16K sq feet Total area 9K sq feet 60% smaller Total 1273 KW Total 682 KW ½ the power 17
    • Персональный суперкомпьютер Tesla Производительность Массивно параллельная CUDA архитектура 960 ядер. 4 Терафлоп/с В 250 раз мощнее ПК Удобство Суперкомпьютер на рабочем столе Включается в обычную розетку Доступность Программируется на Си под Windows и Linux Стоимость порядка $10,000 18
    • В 100 раз доступнее В 20 раз экономичнее Tesla 250x Personal Производительность Supercomputer Supercomputing Cluster В 250 раз быстрее 1x Современный ПК $100K - $1M < $10 K Доступность 19
    • Высокопроизводительные вычисления на базе GPU Tesla Cluster 5000x Производительность Tesla Personal Supercomputer 250x Supercomputing Cluster Standard Workstation 1x $100K - $1M < $10 K Доступность 20
    • 21
    • Медицинская техника GE Healthcare : CT 40% increase in CT resolution 2x increase in frame rate Techniscan: Ultra-sound Source: Stone et al, UIUC High resolution ultra-sound 2x increase in acquisition Digisens : Tomography Tomography reconstruction Several others on X-Ray, Flow Cytometry, MRI, etc Source: Batenburg, Sijbers, et al 22
    • Digisens SnapCT: Визуализация результатов CT 23
    • 3D анализ данных сейсморазведки SVI Pro 2009 is the first application to accelerate 3D seismic analysis through parallel computation on multiple GPUs. Leading to performance gains of up to 37x on workstation hardware. 24
    • 3D анализ данных сейсморазведки / Mercury 25
    • Клиенты GPU vs CPU преимущества Oil & Gas ISVs Performance / Watt 18x - 27x 12x - 17x Performance / Space 20x - 31x 15x - 20x Performance / Cost 15x - 20x 10x - 12x 26
    • Финансы: оценка котировок 1 Одинаковая производительность 1 2 Tesla S1070 16x экономия места 500 CPU Servers $24 K 10x меньше стоимость $250 K 2.8 kWatts 13x меньше потребление 37.5 kWatts 27
    • Финансы: прогнозирование рынка в режиме РВ Volera real-time option valuation engine Value entire U.S. listed options market in real-time using 3 NVIDIA Tesla S1070’s GPUs CPUs Savings Processors 12 736 Rack Space 6U 92U 15x Hardware Cost $36,000 $370,000 10x Annual Cost $31,000 $390,000 13x Figures assume: Tesla S1070 + one 8-core host server per node $260 / U / month rack and power charges 3-year hardware amortization 28
    • MATLAB: ускорение на GPU Jacket CUDA plugin from Accelereyes http://www.accelereyes.com 15-day trail version avaiable Tesla GPU in a workstation For MATLAB and research 143x Speedup 86x Speedup 44x Speedup 29
    • Молекулярная динамика & квантовая химия Available MD software NAMD / VMD (alpha release) GROMACS (alpha release) HOOMD OpenMM : Library for molecular modeling https://simtk.org/home/openmm Source: Stone, Phillips, Hardy, Schulten Source: Ufimtsev, Martinez Source: Anderson, Lorenz, Travesset 30
    • Биоинформатика 62x Speedup Available applications 102x Speedup GPU HMMER MUMmerGPU sequencing MATLAB acceleration Protein docking 31
    • 32
    • Промышленность / FEA (Finite Element Analysis) Сочетание визуализации и симуляции Переход от сервера к рабочей станции(пример: CFD) 33
    • Новое поколение архитектуры GPU CUDA “Fermi” 34
    • Обзор Fermi Суперкомпьютер в формате GPU 3 млрд транзисторов DRAM I/F DRAM I/F Вдвое больше ядер (512 ядер) 8-кратный прирост DP производительности DRAM I/F HOST I/F ECC L2 L1 и L2 кэш Giga Thread DRAM I/F Вдвое большая пропускная способность памяти (GDDR5) До 1Тб памяти на GPU DRAM I/F DRAM I/F Конкурируещее исполнение кода, C++ 35
    • “Oak Ridge National Lab (ORNL) has already announced it will be using Fermi technology in an upcoming super that is "expected to be 10-times more powerful than today's fastest supercomputer." Since ORNL's Jaguar supercomputer, for all intents and purposes, holds that title, and is in the process of being upgraded to 2.3 PFlops…. …we can surmise that the upcoming Fermi-equipped super is going to be in the 20 Petaflops range.” September 30 2009 36
    • Цель Fermi DRAM I/F DRAM I/F Расширение круга задач, решаемых с помощью GPU DRAM I/F HOST I/F Больше L2 Giga Thread DRAM I/F пользователей и приложений для GPU DRAM I/F DRAM I/F 37
    • Архитектура SM Instruction Cache Scheduler Scheduler Dispatch Dispatch 32 CUDA ядра в SM (512 ядер всего) Register File Core Core Core Core 8-и кратный прирост пиковой Core Core Core Core производительности в операциях с Core Core Core Core плавающей точкой Core Core Core Core 50% от пиковой производительности Core Core Core Core вычислений с одинарной точностью Core Core Core Core Core Core Core Core Два менеджера потоков Core Core Core Core Load/Store Units x 16 Special Func Units x 4 64 KB RAM общей памяти и L1 кэш Interconnect Network (конфигурируемый) 64K Configurable Cache/Shared Mem Uniform Cache 38
    • Архитектура ядра CUDA Instruction Cache Scheduler Scheduler Dispatch Dispatch Поддержка стандарта IEEE 754-2008, Register File недоступного на современных CPU Core Core Core Core Core Core Core Core FMA(Fused multiply-add) операции Core Core Core Core как для операций с одинарной так Core Core Core Core CUDA Core и с двойной точностью Dispatch Port Core Core Core Core Operand Collector Core Core Core Core Core Core Core Core Новый ALU оптимизированный FP Unit INT Unit Core Core Core Core для 64-битных операций и Load/Store Units x 16 операций с повышенной точностью Result Queue Special Func Units x 4 Interconnect Network 64K Configurable Cache/Shared Mem Uniform Cache 39
    • Иерархический кэш Первая архитектура GPU поддерживающая иерархический кэш в сочетании с разделяемой памятью на GPU L1 в каждом SM (32 ядра) Улучшение пропускной способности и снижение латентности DRAM I/F DRAM I/F Унифицированный L2 кэш (768 KB) DRAM I/F HOST I/F Позволяет эффективно общаться всем ядрам GPU L2 Giga Thread DRAM I/F Parallel DataCache™ DRAM I/F DRAM I/F Memory Hierarchy 40
    • Быстрый интерфейс памяти GDDR5 интерфейс памяти 2-кратный прирост vs GDDR3 Поддержка до 1Тб памяти на GPU Для работы с большими наборами данных DRAM I/F DRAM I/F DRAM I/F HOST I/F L2 Giga Thread DRAM I/F DRAM I/F DRAM I/F 41
    • ECC ECC защита для DRAM ECC поддержка для GDDR5 памяти Все внутренняя памяти защищена ECC Файл регистров, L1 кэш, L2 кэш 42
    • GigaThreadTM Hardware Thread Scheduler (HTS) Аппаратный менеджер потоков Одновременно управляет тысячами активных потоков В 10 раз более быстрое HTS переключение между контекстами Одновременное исполнение нескольких кернелов 43
    • Аппаратный менеджер потоков GigaThread Одновременное исполнение нескольких кернелов + быстрое переключение контекста Kernel 1 Kernel 1 Kernel 2 Ker Kernel 2 Kernel 2 Kernel 3 4 Kernel 2 nel Kernel 5 Time Kernel 3 Kernel 4 Kernel 5 Последовательное исполнение Параллельное исполнение 44
    • Схема передачи данных GigaThread 2 DMA устройства Одновременная передача данных CPUGPUи GPUCPU Передача независит от счета на CPU и GPU SDT Схема работы: Kernel 0 CPU SDT0 GPU SDT1 Kernel 1 CPU SDT0 GPU SDT1 Kernel 2 CPU SDT0 GPU SDT1 Kernel 3 CPU SDT0 GPU SDT1 45
    • Расширенная поддержка со стороны ПО Полная поддержка C++ Виртуальные функции Метки Поддержка системных вызовов Поддержка С пайпов, семафоров, printf и тд Унифицированное 64-битное адресное пространство памяти 46
    • Параллельная архитектура CUDA GPU Computing Applications tm Direct Java and C++ C OpenCL Fortran Compute Python NVIDIA GPU with the CUDA Parallel Computing Architecture OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc. 47
    • NVIDIA Nexus IDE 1-й в индустрии IDE (Integrated Development Environment) для массивно-параллельных приложений Ускорение разработки гетерогенных (CPU + GPU) приложений Полная интеграция со средствами разработки Visual Studio 48
    • 49
    • “ I believe history will record Fermi as a significant milestone. ” Dave Patterson Director Parallel Computing Research Laboratory, U.C. Berkeley Co-Author of Computer Architecture: A Quantitative Approach “ Fermi surpasses anything announced by NVIDIA's leading GPU competitor (AMD). Tom Halfhill ” Senior Editor Microprocessor Report 50
    • “ Fermi is the world’s first complete GPU computing architecture. ” Peter Glaskowsky Technology Analyst The Envisioneering Group “ The convergence of new, fast GPUs optimized for computation as well as 3-D graphics acceleration and industry-standard software development tools marks the real beginning of the GPU computing era. Gentlemen, start your GPU computing engines. Nathan Brookwood ” Principle Analyst & Founder Insight 64 51
    • Экосистема CUDA Более 115 университетов преподают CUDA Языки Компиляторы UIUC IIT Delhi C, C++ PGI Fortran MIT Tsinghua DirectX CAPs HMPP Harvard Dortmundt Fortran MCUDA Berkeley ETH Zurich Java MPI Cambridge Moscow OpenCL NOAA Fortran2C Oxford NTU Python OpenMP … … Приложения Библиотеки Консалтинг OEM FFT BLAS Oil & Gas Finance CFD ANEO LAPACK Image processing Medical Biophysics Imaging Video processing Signal processing Vision Numerics DSP EDA GPU Tech 52
    • Ссылки Fermi http://www.nvidia.ru/fermi CUDA Zone http://www.nvidia.ru/cuda Приложения, документы, видео Tesla http://www.nvidia.ru/tesla Спецификации, технические и маркетинговые материалы Вертикальные отраслевые решения http://www.nvidia.com/object/vertical_solutions.html YouTube Videos http://www.youtube.com/nvidiatesla 53
    • Вопросы? 54