Procesimi ne CUDA
Aplikimi i te dhenave mbi GPU (NVIDIA) dhe matja e
Performances se tyre.
(Kepler)
Manol VOJKA
GPU COMPUTING
 Nje kendveshtrim I pergjitheshem rreth aplikimeve mbi GPU si dhe paraqitja
e disa testeve te kryera ne ambjent real.
 Perdorimi i GPU-se si dhe kombinimi I tyre ne sisteme ,sebashku me CPU-ne
bejne te mundur akselerimin e nje performance hibride e cila ndihmon ne
rritjen e disponueshmerise se zgjidhjes se problemeve qe kane lidhje me
fusha te ndryshme te jetes, shkeces dhe medias
Specifikat Teknike te GPU-se me te cilat
jane kryer disa teste.
 NVIDIA GeForce GT 640M
 Kepler Architecture GK107 ,28nm (1.3 Miliarde Tranzistore)
 CUDA Cores : 384 Cores ,2 MP x 192CUDA/MP
 Core Clock: 840 MHz
 Memory Clock: 1095 MHz
 PixelFillrate: 12.1 GPixel/s
 TextureFillrate: 24.2 GTexel/s
 Memory Bandwidth: 35.0 GB/s
 Memory Size: 2048MB DDR3
 Floating-point performance: 520 GFLOPS DP64
 CUDA 5.5.1 (Kepler Compute Capabilities SMX 3.0)
 OpenGL 4.3 ,OpenCL 1.2
 MS DirectX 11.1 ShaderModel 5.0
OpenGL Capabilities GK107 Kepler
Specifikimet Teknike te CUDA dhe karakteristikat e GPU-se GT640M.
Smoke Dynamics,Fluid Dynamics,Ocean Simulation (High-Textures)
CUDA N-Body Simulation (Simulim: krijimi i 2Galatkikave)
Simulimi i shperthimit BING-BANG
CUDA N-Body Simulation (2Galatkika te formuara pas shperthimit)
(2048 Pika) ,1.6 Miliarde Instruksione/S ,387 FPS ,32.5GFLOP/s SP32
11 Frame FHD Encoding
CPU vs GPU
Koha totale e Renderimit te
Frameve ne CPU 17 SEC.
4 Core 2.9GHz Intel® Core™ i5
SandyBridge 32nm ARCH
Koha totale e Renderimit te
Frameve ne GPU 1 SEC.
384 CUDA 840MHz Kepler ARCH
Procesimi i imazheve
kalon nga CPU ne GPU ,
proces I automatizuar nga
skeduleri software.
Filtrimi JO-Linear I imazheve I realizuar ne CUDA dhe
OpenGL (kompleksiteti eshte shume i larte).
Kerkesa e derguar ne GPU eshte nje imazh me loop te ndryshueshem dhe do te
Procesohet per te rindertuar Filtrin e imazhit.
Filtrimi JO-Linear I imazheve I realizuar ne CUDA dhe
OpenGL (kompleksiteti eshte shume i larte).
Imazhi i pa Filtruar.Koha e aksesit ne GPU 11 SEC Imazhi i Filtruar.
CUDA Encode 32 Frame 480p_60FPS H.264
Inicializimi I GPU-se.Metoda e Renderimit me
Paralelizem me threade.
Gjenerimi I inputit ne GPU(32 frame 480p
H.264) si dhe pritja e rezultatit nga GPU-ja.
Marja e rezultatit nga GPU-ja.
Renderimi I cdo Frame mesatarisht 198FPS ,koha
mesatare e Renderimit te cdo Frame 5.12ms
TITAN Supercomputer
I pari supercomputer ne bote I bazuar ne GPU I cili arriti performancen mbi 10 PETAFLOP
18,688 AMD Opteron 6274 Series 16-core CPUs , 299.008 COREs
18,688 Nvidia Tesla K20X GPUs Kepler GK110, 2688 CUDA ,6GB GDDR5/GPU
Floating-point performance (theoretical peak): 27 PETAFLOPS
1 NODE 4 AMD OPTERON , 4 TESLA K20X

Cuda

  • 1.
    Procesimi ne CUDA Aplikimii te dhenave mbi GPU (NVIDIA) dhe matja e Performances se tyre. (Kepler) Manol VOJKA
  • 2.
    GPU COMPUTING  Njekendveshtrim I pergjitheshem rreth aplikimeve mbi GPU si dhe paraqitja e disa testeve te kryera ne ambjent real.  Perdorimi i GPU-se si dhe kombinimi I tyre ne sisteme ,sebashku me CPU-ne bejne te mundur akselerimin e nje performance hibride e cila ndihmon ne rritjen e disponueshmerise se zgjidhjes se problemeve qe kane lidhje me fusha te ndryshme te jetes, shkeces dhe medias
  • 3.
    Specifikat Teknike teGPU-se me te cilat jane kryer disa teste.  NVIDIA GeForce GT 640M  Kepler Architecture GK107 ,28nm (1.3 Miliarde Tranzistore)  CUDA Cores : 384 Cores ,2 MP x 192CUDA/MP  Core Clock: 840 MHz  Memory Clock: 1095 MHz  PixelFillrate: 12.1 GPixel/s  TextureFillrate: 24.2 GTexel/s  Memory Bandwidth: 35.0 GB/s  Memory Size: 2048MB DDR3  Floating-point performance: 520 GFLOPS DP64  CUDA 5.5.1 (Kepler Compute Capabilities SMX 3.0)  OpenGL 4.3 ,OpenCL 1.2  MS DirectX 11.1 ShaderModel 5.0
  • 4.
  • 5.
    Specifikimet Teknike teCUDA dhe karakteristikat e GPU-se GT640M.
  • 6.
    Smoke Dynamics,Fluid Dynamics,OceanSimulation (High-Textures)
  • 7.
    CUDA N-Body Simulation(Simulim: krijimi i 2Galatkikave) Simulimi i shperthimit BING-BANG
  • 8.
    CUDA N-Body Simulation(2Galatkika te formuara pas shperthimit) (2048 Pika) ,1.6 Miliarde Instruksione/S ,387 FPS ,32.5GFLOP/s SP32
  • 9.
    11 Frame FHDEncoding CPU vs GPU Koha totale e Renderimit te Frameve ne CPU 17 SEC. 4 Core 2.9GHz Intel® Core™ i5 SandyBridge 32nm ARCH Koha totale e Renderimit te Frameve ne GPU 1 SEC. 384 CUDA 840MHz Kepler ARCH Procesimi i imazheve kalon nga CPU ne GPU , proces I automatizuar nga skeduleri software.
  • 10.
    Filtrimi JO-Linear Iimazheve I realizuar ne CUDA dhe OpenGL (kompleksiteti eshte shume i larte). Kerkesa e derguar ne GPU eshte nje imazh me loop te ndryshueshem dhe do te Procesohet per te rindertuar Filtrin e imazhit.
  • 11.
    Filtrimi JO-Linear Iimazheve I realizuar ne CUDA dhe OpenGL (kompleksiteti eshte shume i larte). Imazhi i pa Filtruar.Koha e aksesit ne GPU 11 SEC Imazhi i Filtruar.
  • 12.
    CUDA Encode 32Frame 480p_60FPS H.264 Inicializimi I GPU-se.Metoda e Renderimit me Paralelizem me threade. Gjenerimi I inputit ne GPU(32 frame 480p H.264) si dhe pritja e rezultatit nga GPU-ja. Marja e rezultatit nga GPU-ja. Renderimi I cdo Frame mesatarisht 198FPS ,koha mesatare e Renderimit te cdo Frame 5.12ms
  • 13.
    TITAN Supercomputer I parisupercomputer ne bote I bazuar ne GPU I cili arriti performancen mbi 10 PETAFLOP 18,688 AMD Opteron 6274 Series 16-core CPUs , 299.008 COREs 18,688 Nvidia Tesla K20X GPUs Kepler GK110, 2688 CUDA ,6GB GDDR5/GPU Floating-point performance (theoretical peak): 27 PETAFLOPS 1 NODE 4 AMD OPTERON , 4 TESLA K20X