1. Procesimi ne CUDA
Aplikimi i te dhenave mbi GPU (NVIDIA) dhe matja e
Performances se tyre.
(Kepler)
Manol VOJKA
2. GPU COMPUTING
Nje kendveshtrim I pergjitheshem rreth aplikimeve mbi GPU si dhe paraqitja
e disa testeve te kryera ne ambjent real.
Perdorimi i GPU-se si dhe kombinimi I tyre ne sisteme ,sebashku me CPU-ne
bejne te mundur akselerimin e nje performance hibride e cila ndihmon ne
rritjen e disponueshmerise se zgjidhjes se problemeve qe kane lidhje me
fusha te ndryshme te jetes, shkeces dhe medias
3. Specifikat Teknike te GPU-se me te cilat
jane kryer disa teste.
NVIDIA GeForce GT 640M
Kepler Architecture GK107 ,28nm (1.3 Miliarde Tranzistore)
CUDA Cores : 384 Cores ,2 MP x 192CUDA/MP
Core Clock: 840 MHz
Memory Clock: 1095 MHz
PixelFillrate: 12.1 GPixel/s
TextureFillrate: 24.2 GTexel/s
Memory Bandwidth: 35.0 GB/s
Memory Size: 2048MB DDR3
Floating-point performance: 520 GFLOPS DP64
CUDA 5.5.1 (Kepler Compute Capabilities SMX 3.0)
OpenGL 4.3 ,OpenCL 1.2
MS DirectX 11.1 ShaderModel 5.0
7. CUDA N-Body Simulation (Simulim: krijimi i 2Galatkikave)
Simulimi i shperthimit BING-BANG
8. CUDA N-Body Simulation (2Galatkika te formuara pas shperthimit)
(2048 Pika) ,1.6 Miliarde Instruksione/S ,387 FPS ,32.5GFLOP/s SP32
9. 11 Frame FHD Encoding
CPU vs GPU
Koha totale e Renderimit te
Frameve ne CPU 17 SEC.
4 Core 2.9GHz Intel® Core™ i5
SandyBridge 32nm ARCH
Koha totale e Renderimit te
Frameve ne GPU 1 SEC.
384 CUDA 840MHz Kepler ARCH
Procesimi i imazheve
kalon nga CPU ne GPU ,
proces I automatizuar nga
skeduleri software.
10. Filtrimi JO-Linear I imazheve I realizuar ne CUDA dhe
OpenGL (kompleksiteti eshte shume i larte).
Kerkesa e derguar ne GPU eshte nje imazh me loop te ndryshueshem dhe do te
Procesohet per te rindertuar Filtrin e imazhit.
11. Filtrimi JO-Linear I imazheve I realizuar ne CUDA dhe
OpenGL (kompleksiteti eshte shume i larte).
Imazhi i pa Filtruar.Koha e aksesit ne GPU 11 SEC Imazhi i Filtruar.
12. CUDA Encode 32 Frame 480p_60FPS H.264
Inicializimi I GPU-se.Metoda e Renderimit me
Paralelizem me threade.
Gjenerimi I inputit ne GPU(32 frame 480p
H.264) si dhe pritja e rezultatit nga GPU-ja.
Marja e rezultatit nga GPU-ja.
Renderimi I cdo Frame mesatarisht 198FPS ,koha
mesatare e Renderimit te cdo Frame 5.12ms
13. TITAN Supercomputer
I pari supercomputer ne bote I bazuar ne GPU I cili arriti performancen mbi 10 PETAFLOP
18,688 AMD Opteron 6274 Series 16-core CPUs , 299.008 COREs
18,688 Nvidia Tesla K20X GPUs Kepler GK110, 2688 CUDA ,6GB GDDR5/GPU
Floating-point performance (theoretical peak): 27 PETAFLOPS
1 NODE 4 AMD OPTERON , 4 TESLA K20X