Algoritmo delle componenti connesse

Facoltà degli studi
di Modena e Reggio Emilia
Facoltà di ingegneria
Impatto prestazionale delle GPU relativamente
all'ambito del connected components labeling
Relatore: Studente:
Prof. Costantino Grana Riccardo Galanti
A.A 2015 - 2016

Contributo del lavoro di tesi / Sommario
Studio dell'algoritmo delle componenti connesse operante
esclusivamente su CPU in modo sequenziale
Studio delle differenze architetturali CPU / GPU
Implementazione dell'algoritmo delle componenti
connesse utilizzando linguaggio CUDA su GPU

OBIETTIVO
Il riadattamento su GPU con
architettura Cuda dell'algoritmo sequenziale
del labeling delle componenti connesse

Labeling delle componenti connesse
Usato in visione artificiale per rilevare regioni connesse in
immagini digitali binarie
Raggruppa i pixel di un'immagine in componenti basati
sulla connettività dei pixel
Ogni pixel sarà marcato con un numero o con un colore
diverso in base al diverso gruppo di appartenenza

Caratteristiche immagine
Formato PGM
Aperta in blocco note
Righe iniziali indicanti commenti e/o caratteristiche utili
Ogni pixel ha un numero rappresentante il colore

Implementazione sequenziale
Ricorsiva
Ogni pixel analizza se non è già stato marcato e se non fa
parte dello sfondo
Se la risposta è positiva si marca il pixel e si procede ad
analizzare ricorsivamente i vicini per vedere se fanno parte
di un'unica componente connessa
La connettività dei vicini può essere 4-way o 8-way
Si deve usare uno stratagemma per non riempire lo stack
con le varie chiamate ricorsive

Implementazione sequenziale (2)
image
Scan pixel by pixel
Pixel is not background
Check neighbours
Neighbours already labelled
Assign min label to main label
None of neighbours is labelled
Assign new label to pixel

Implementazione sequenziale (3)
Risultato finale:

CUDA
Compute Unified Device Architecture
Architettura hardware incentrata sul calcolo parallelo e
rivolta in particolare alla programmazione general-purpose
Parallelismo implementato suddividendo ogni processo in
thread, eseguibili in parallelo
I thread vengono eseguiti e schedulati a gruppi di 32
(warp)
I thread possono essere raggruppati in blocchi, che a loro
volta possono essere raggruppati in griglie

Implementazione parallela
Problema: lanciare subito l'algoritmo in CUDA porterebbe
a risultati errati
occorre una prima fase di pre-labeling

Implementazione parallela (2)
Alla fine del primo giro (scorrendo l'immagine in modo
sequenziale) il risultato dovrebbe essere questo:

Passaggi restanti da fare:
Allocare spazio per l'immagine sulla GPU
Spostare l'immagine dalla CPU alla GPU
Lanciare il kernel, che sarà il cuore vero e proprio della
nostra applicazione in CUDA
Spostare l'immagine elaborata dalla GPU alla CPU

1) cudaMalloc((void**)&inputdevice, sizeof(int)* N);
2) cudaMemcpy(inputdevice, img.data, sizeof(int)* N,
cudaMemcpyHostToDevice);
3) kernel <<<grid,threads>>> (inputdevice,md, N, img.width);
4) cudaMemcpy(img.data, inputdevice, sizeof(int)* N,
cudaMemcpyDeviceToHost);

Immagini di input
“image.pgm”
“cani.pgm”
“spirale.pgm”

Connected components labeling-tempi
4-way
Algoritmo sequenziale
Image spirale cani
~0.1 ms 31 ms 31 ms
Algoritmo parallelo
~0.1 ms 31 ms 31 ms
160 ms 610 ms 140ms

Connected components labeling-tempi(2)
8-way
Algoritmo sequenziale
Image spirale cani
1 ms 44 ms 47 ms
Algoritmo parallelo
~0.1 ms 31 ms 31 ms
160 ms 453 ms 140ms

Conclusioni
Implementato efficacemente algoritmo in CUDA
Algoritmo parallelo notevolmente più lento
Evitare pre-labeling farebbe risparmiare tempo
Algoritmo sequenziale 8-way più lento di 4-way
Tempo algoritmo parallelo spirale 8-way molto inferiore a
4-way, altri tempi uguali
Immagine di input notevolmente più grande porterebbe
molti vantaggi all'algoritmo in CUDA

Algoritmo delle componenti connesse

Recommended

Recommended

More Related Content

Similar to Algoritmo delle componenti connesse

Similar to Algoritmo delle componenti connesse (20)

Algoritmo delle componenti connesse