• Save
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev
Upcoming SlideShare
Loading in...5
×
 

Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev

on

  • 803 views

 

Statistics

Views

Total Views
803
Views on SlideShare
441
Embed Views
362

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 362

http://supercomputers.kiev.ua 362

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev Presentation Transcript

  • АрхитектураNVIDIA KeplerПроизводительность. Эффективность. Доступность. 1
  • Tesla: в 2-3 раза быстрее каждые 2 года 16 Maxwell 14DP GFLOPS per Watt 12 10 8 6 Kepler 4 Fermi 2 T10 2008 2010 2012 2014 2
  • Kepler 3
  • KeplerСАМЫЙ БЫСТРАЯ И ЭФФЕКТИВНАЯ HPC АРХИТЕКТУРА SMX Hyper-Q Dynamic Parallelism 4
  • Kepler: Скорость и Эффективность SM SMX M2090 K20 3x УПРАВЛЯЮЩАЯ ЛОГИКАУПРАВЛЯЮЩАЯ ЛОГИКА Perf / Watt 32 ядра 192 ядра 5
  • 1 ПетфлопВсего в 10 стойках 400 кВт 6
  • Hyper-QCPU ядра одновременно запускают задачи на Kepler FERMI KEPLER 1 MPI задача одновременно 32 MPI задачи одновременно 7
  • Hyper-QМаксимальная утилизация GPU, сокращение времени простоя CPU 100 100 Утилизация GPU %Утилизация GPU % 50 50 0 0 Time Time 8
  • Dynamic ParallelismGPU адаптируется к данным, динамически порождая новые потоки CPU Fermi GPU CPU Kepler GPU 9
  • Dynamic ParallelismПрограммирование на GPU проще и доступнее Слишком грубо Слишком мелко Как надо 10
  • Tesla K10 Tesla K20 3x одинарная точность 3x двойная точность1.8x пропусная способность памяти Hyper-Q, Dynamic ParallelismОбработка изображений, сигналов, CFD, FEA, финансы, физика сейсморазведка Уже доступно Доступно в Q4 2012 11
  • Tesla K10Тоже потребление, 2x производительность Fermi Product Name M2090 K10GPU Architecture Fermi Kepler GK104# of GPUs 1 2 Board Per GPUSingle Precision Flops 1.3 TF 4.58 TF 2.29 TFDouble Precision Flops 0.66 TF 0.190 TF 0.095 TF# CUDA Cores 512 3072 1536Memory size 6 GB 8 GB 4GBMemory BW (ECC off) 177.6 GB/s 320 GB/s 160GB/sPCI-Express Gen 2 Gen 3 (Gen 2 compatible)Board Power 225 watts 225 watts 12
  • K10 для нефтегаза 2 сейсмоанализ 1.5 1 0.5 0 • 1.8X симуляций в день для более точных моделей • Ниже риски и выше надежность • 2X GPU в том же формате 13
  • K10 для обороны Числовая аналитика 2 1.5 1 0.5 0 M2090 k10• 1.9X вычислений в день для более точных моделей• Быстрее аналитика и точнее решения• 2X GPU в том же формате 14
  • K10 для биоинформатики 3 2.5 2 1.5 1 0.5 0 • 2.2X симуляций для приложений МД • Большие эксперименты на меньших кластерах • 2X GPU в том же формате Gromacs 4.6 pre-beta version * 2 instances of AMBER 12 (with beta patch) 15
  • Tesla K10 vs M2090: 2x производительность / Ватт 2.50 2.00 1.50 1.00 0.50 0.00 Seismic LAMMPS NAMD AMBER* Radio Nbody Defense Processing Astronomy (Integer Ops) Cross-Correlator * 2 instances of AMBER running JAC 16
  • 118 коммерческих приложений ускоряются на GPU www.nvidia.com/teslaapps 17
  • MSC Nastran цена/производительность решения MSC Nastran 2012 and Model 3.4M DOF NOTE: Based on Extra 13% cost Results from PSG cluster node (fs0), 2x Nehalem 2.27GHz, 6 yields 160%Factors Gain Over Base License Results 96GB memory, Linux/CentOS; 2x Tesla C2050, CUDA 4.0 performance (over 8 cores) * Solution Cost Basis - Linear Structures Package 5 CPU Speed-up 5.3 (Base SMP license) GPU Speed-up 4.6 4 Solution Cost - Expert Package (Nonlinear) 3 3.3 - Implicit HPC Package (DMP Network License) 2 2.6 - GPU License - $10K for System cost 1 1.24 1.4 - $4K for 2x Tesla 20-series 1.0 1.0 1.0 1.13 Performance Basis 0 SOL101 Model: - 3.4M DOF - Stress analysis Nastran SMP Nastran SMP Nastran DMP Nastran SMP Nastran DMP - Direct sparse License 4 Cores 8 Cores + GPU License + GPU License 1 Core 1 Core + 1 GPU 2 Cores + 2 GPUs * 1 year lease for SW pricing 18
  • Программирование GPU 19
  • 20
  • NVIDIA cuBLAS NVIDIA cuRAND NVIDIA cuSPARSE NVIDIA NPP Vector Signal GPU Accelerated Matrix Algebra onImage Processing Linear Algebra GPU and Multicore NVIDIA cuFFT Sparse Linear Building-block C++ STL Features IMSL Library Algebra Algorithms for CUDA for CUDA Библиотеки для GPU “Copy-paste” для ускорения приложений 21
  • Директивы OpenACC CPU GPU Простые указатели для компилятораProgram myscience ... serial code ...!$acc kernels Компилятор параллелизует код do k = 1,n1 do i = 1,n2 OpenACC метки ... parallel code ... для компилятора enddo Работает на многоядерных enddo!$acc end kernels ...End Program myscience CPU и массивно Исходный код параллельных GPU на C/Fortran 22
  • Минимум усилий. Ощутимый результат Модель жизненного Звезды и галактики Нейросети дляцикла морской фауны 12.5 млрд лет назад самообучаемых роботов Университет Мельбурна Университет Гронингена Университет Плимута65x за 2 для 5.6x за 5 дней 4.7x за 4 часа 23
  • Воркшоп по OpenACC в суперкомпьютерном центре Питсбурга К концу второго дняполучено 10-кратное ускорение одного из атмосферных ядер 6 директив Technology Director National Center for Atmospheric Research (NCAR) 24
  • Поддержка языков C, C++, Fortran моделью параллельного программирования CUDA GPU Computing Applications Libraries and Middleware cuFFT PhysX LAPACK NPP VSIPL iray cuBLAS Video MATLAB CULA cuDPP SVM Rendering cuRAND OptiX Ray Mathematica MAGMA Thrust OpenCurrent RealityServercuSPARSE tracing Java Python Direct C++ C Fortran OpenCL tm Wrappers Compute NVIDIA GPU CUDA Parallel Computing Architecture OpenCL is trademark of Apple Inc. used under license to the Khronos Group25 Inc.
  • C для CUDA : C + «синтаксический сахар» void saxpy_serial(int n, float a, float *x, float *y) { for (int i = 0; i < n; ++i) y[i] = a*x[i] + y[i]; } Стандартный код C // Invoke serial SAXPY kernel saxpy_serial(n, 2.0, x, y); __global__ void saxpy_parallel(int n, float a, float *x, float *y) { int i = blockIdx.x*blockDim.x + threadIdx.x; if (i < n) y[i] = a*x[i] + y[i]; } Параллельный код C // Invoke parallel SAXPY kernel with 256 threads/block int nblocks = (n + 255) / 256; saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y); 26
  • NVIDIA делает платформу CUDA открытой благодаря LLVM CUDA Поддержка CUDA бэкенд теперь доступен для LLVM C, C++, Fortran новых языков компилятораSDK включает документацию, примеры и верификатор LLVM компилятор для CUDA Возможность добавления поддержки CUDA в новые языки и процессоры NVIDIA x86 Поддержка GPUs CPUs Новых процессоров Подробности http://developer.nvidia.com/cuda-source 27
  • Kepler: впервые полноценная поддержка GPUDirect™ System System Memory GDDR5 GDDR5 GDDR5 GDDR5 Memory Memory Memory Memory Memory CPU GPU1 GPU2 GPU2 GPU1 CPU PCI-e PCI-e Network Network Network Card Card Сервер 1 Сервер 2 28
  • CUDA в цифрах:>375,000,000 CUDA GPU на рынке >1,000,000 скачиваний SDK >120,000 активных разработчиков >500 университетов преподают CUDA 29
  • Что дальше? 30
  • CUDA для ARM Исследовательская платформа CUDA GPU Tegra ARM CPU 4-х ядерный процессор NVIDIA Tegra 3 на базе ARM NVIDIA CUDA GPU Gbit сетьНабор для разработчиков CUDA SDKhttp://www.secoqseven.com/en/item/secocq7-mxm/ Доступно сейчас 31