CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione

A.A. 2009-2010
Tesi di Laurea Triennale in
Informatica e Tecnologie per la Produzione del Software
CRADLE:
Clustering by RAndom minimum Dispersion based LEarning
Un algoritmo di clustering basato su
minimizzazione random della dispersione
Relatore: Laureando:
Prof.ssa CASTELLANO
GIOVANNA
DI DONATO
LEONARDO

Il clustering 2
`E il processo di raggruppamento auto-
matico di dati non etichettati in gruppi
omogenei e signiﬁcativi

Il clustering 2
`E il processo di raggruppamento auto-
matico di dati non etichettati in gruppi
omogenei e signiﬁcativi.

Il clustering 3
La crescita esponenziale dell’informa-
zione rende necessario analizzare l’e-
norme mole di dati:

Il clustering 3
La crescita esponenziale dell’informa-
zione rende necessario analizzare l’e-
norme mole di dati:
il clustering trova applicazione in tutti quei contesti
in cui occorre ricercare schemi e/o strutture intrinse-
che nei dati
• data mining, pattern recognition, machine lear-
ning, image analysis

Shape clustering 5
La caratterizzazione delle immagini tra-
mite le forme di oggetti in esse conte-
nuti rappresenta uno dei maggiori stru-
menti utilizzati per la comprensione au-
tomatica delle immagini

Shape clustering 5
La caratterizzazione delle immagini tra-
mite le forme di oggetti in esse conte-
nuti rappresenta uno dei maggiori stru-
menti utilizzati per la comprensione au-
tomatica delle immagini
Studi di psicologia-congnitiva dimostrano che il con-
cetto di forma, in quanto invariante e generico, `e un
aspetto chiave e basilare dei processi di riconoscimen-
to delle immagini
Possibili campi applicativi:
• medico, militare, sicurezza, computer vision, ac-
tion recognition, human detection, image retrie-
val

Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
conﬁgurazione di cluster che rende minima la varianza

602, April 2005.
idea di base
rappresentazione dei pattern
basata sulle geodetiche

602, April 2005.
idea di base
similarit`a fra pattern
basata sulla distanza geodetica

602, April 2005.
idea di base
funzione di costo
varianza totale delle distanze fra i pattern appartenenti ad un cluster

602, April 2005.
idea di base
funzione di costo
varianza totale delle distanze fra i pattern appartenenti ad un cluster
criterio di convergenza
basato sul valore della temperatura (Simulated Annealing)

L’algoritmo proposto 7
CRADLE
Clustering by RAndom minimum Dispersion based
LEarning

L’algoritmo proposto 7
CRADLE
Clustering by RAndom minimum Dispersion based
LEarning
Progettato per superare le limitazioni
dell’algoritmo MVC
complessit`a
• il calcolo della distanza geodetica `e molto costoso
lenta convergenza

CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una conﬁgurazione
di cluster che rende minima la dispersione

CRADLE 8
idea di base
basata sui descrittori di Fourier

CRADLE 8
idea di base
basata sulla distanza euclidea

CRADLE 8
idea di base
basata sulla distanza euclidea
funzione di costo
dispersione totale
Q(C) =
k
i=1
2
ni




va∈Ci vb∈Ci, b<c
d (va, vb)2





CRADLE 9
Fasi dell’algoritmo

CRADLE 9
1 – Conﬁgurazione iniziale
• si crea una conﬁgurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale

CRADLE 9
2 – Raggruppamento
• procedura iterativa basata su un approccio di clustering divisivo

CRADLE 9
3 – Selezione (non prevista in MVC)
• mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento

CRADLE 9
3 – Selezione (non prevista in MVC)
• mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento
4 – Calcolo prototipi
• per ogni cluster si prende come prototipo il pattern che minimizza
la distanza intracluster

CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
conﬁgurazione

CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
conﬁgurazione
Rapida convergenza
• La fase di selezione accelera notevolmente il processo di minimiz-
zazione

Setup sperimentale 11
Indici di validit`a utilizzati:

Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)
max1≤z≤k {intra(Cz)}







Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)






Davies-Bouldin Index
DB =
1
n
n
i=1
max



Sn(Ci) + Sn(Cj)
S(Ci, Cj)



i=j

Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)






DB =
1
n
n
i=1
max



Sn(Ci) + Sn(Cj)
S(Ci, Cj)



i=j
Dataset utilizzato:
surrey ﬁsh database (www.surrey.ac.uk): 1100 shape di animali marini
selezione di 225 shape appartenti a 10 categorie diverse
creazione di 10 pattern set

Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)






DB =
1
n
n
i=1
max



Sn(Ci) + Sn(Cj)
S(Ci, Cj)



i=j
Dataset utilizzato:
surrey ﬁsh database (www.surrey.ac.uk): 1100 shape di animali marini
selezione di 225 shape appartenti a 10 categorie diverse
creazione di 10 pattern set
run di CRADLE con diverso numero di cluster (k = 3, . . . , 14):
5 run per ogni valore di k
calcolo dei valori medi degli indici di validit`a

Sperimentazione 12
Valore medio degli indici di validit`a

Sperimentazione 13
Estratto del risultato di clustering del
pattern set VI

Sperimentazione 14
Valutazione della fase di selezione

Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Eﬃcienza
ridotto costo computazionale
rapida convergenza

Conclusioni 15
taggi.
Efficienza
rapida convergenza
Robustezza
bassissima sensibilità alla configurazione iniziale

Conclusioni 15
taggi.
Efficienza
rapida convergenza
Robustezza
Generalità
possibilità di fare clustering su qualunque tipologia di pattern

Conclusioni 15
taggi.
Efficienza
rapida convergenza
Robustezza
Generalità
Scalabilità
l’approccio incrementale permette il clustering di data set di grandi dimensioni

Conclusioni 15
taggi.
Efficienza
rapida convergenza
Robustezza
Generalità
Scalabilità
l’approccio incrementale permette il clustering di data set di grandi dimensioni
Flessibilità
è possibile parametrizzare la fase di selezione
supporto per 32 diversi indici di validità

Sviluppi futuri 16
Approccio gerarchico
possibilit`a di analizzare meglio i risultati di clustering
su data set di grandi dimensioni

Sviluppi futuri 16
Approccio gerarchico
possibilità di analizzare meglio i risultati di clustering
su data set di grandi dimensioni
Introduzione di meccanismi più sofisti-
cati per
creare la configurazione iniziale random
spostare i pattern durante la fase di raggruppamento

CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione

Recommended

Recommended

More Related Content

Similar to CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione

Similar to CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione (20)

More from Leonardo Di Donato

More from Leonardo Di Donato (8)

CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione