Similar to CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione
Network Anomaly Detection col Conformal PredictionGiuseppe Luciano
Similar to CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione (20)
Sistema Rilevamento Transiti (SRT) - Software Analysis and Design
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione
1. A.A. 2009-2010
Tesi di Laurea Triennale in
Informatica e Tecnologie per la Produzione del Software
CRADLE:
Clustering by RAndom minimum Dispersion based LEarning
Un algoritmo di clustering basato su
minimizzazione random della dispersione
Relatore: Laureando:
Prof.ssa CASTELLANO
GIOVANNA
DI DONATO
LEONARDO
3. Il clustering 2
`E il processo di raggruppamento auto-
matico di dati non etichettati in gruppi
omogenei e significativi
4. Il clustering 2
`E il processo di raggruppamento auto-
matico di dati non etichettati in gruppi
omogenei e significativi.
5. Il clustering 3
La crescita esponenziale dell’informa-
zione rende necessario analizzare l’e-
norme mole di dati:
6. Il clustering 3
La crescita esponenziale dell’informa-
zione rende necessario analizzare l’e-
norme mole di dati:
il clustering trova applicazione in tutti quei contesti
in cui occorre ricercare schemi e/o strutture intrinse-
che nei dati
• data mining, pattern recognition, machine lear-
ning, image analysis
11. Shape clustering 5
La caratterizzazione delle immagini tra-
mite le forme di oggetti in esse conte-
nuti rappresenta uno dei maggiori stru-
menti utilizzati per la comprensione au-
tomatica delle immagini
12. Shape clustering 5
La caratterizzazione delle immagini tra-
mite le forme di oggetti in esse conte-
nuti rappresenta uno dei maggiori stru-
menti utilizzati per la comprensione au-
tomatica delle immagini
Studi di psicologia-congnitiva dimostrano che il con-
cetto di forma, in quanto invariante e generico, `e un
aspetto chiave e basilare dei processi di riconoscimen-
to delle immagini
Possibili campi applicativi:
• medico, militare, sicurezza, computer vision, ac-
tion recognition, human detection, image retrie-
val
14. Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
15. Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
16. Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
similarit`a fra pattern
basata sulla distanza geodetica
17. Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
similarit`a fra pattern
basata sulla distanza geodetica
funzione di costo
varianza totale delle distanze fra i pattern appartenenti ad un cluster
18. Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
similarit`a fra pattern
basata sulla distanza geodetica
funzione di costo
varianza totale delle distanze fra i pattern appartenenti ad un cluster
criterio di convergenza
basato sul valore della temperatura (Simulated Annealing)
21. L’algoritmo proposto 7
CRADLE
Clustering by RAndom minimum Dispersion based
LEarning
Progettato per superare le limitazioni
dell’algoritmo MVC
complessit`a
• il calcolo della distanza geodetica `e molto costoso
lenta convergenza
23. CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
24. CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
rappresentazione dei pattern
basata sui descrittori di Fourier
25. CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
rappresentazione dei pattern
basata sui descrittori di Fourier
similarit`a fra pattern
basata sulla distanza euclidea
26. CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
rappresentazione dei pattern
basata sui descrittori di Fourier
similarit`a fra pattern
basata sulla distanza euclidea
funzione di costo
dispersione totale
Q(C) =
k
i=1
2
ni
va∈Ci vb∈Ci, b<c
d (va, vb)2
28. CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
29. CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
2 – Raggruppamento
• procedura iterativa basata su un approccio di clustering divisivo
30. CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
2 – Raggruppamento
• procedura iterativa basata su un approccio di clustering divisivo
3 – Selezione (non prevista in MVC)
• mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento
31. CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
2 – Raggruppamento
• procedura iterativa basata su un approccio di clustering divisivo
3 – Selezione (non prevista in MVC)
• mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento
4 – Calcolo prototipi
• per ogni cluster si prende come prototipo il pattern che minimizza
la distanza intracluster
33. CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
34. CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
Rapida convergenza
• La fase di selezione accelera notevolmente il processo di minimiz-
zazione
35. CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
Rapida convergenza
• La fase di selezione accelera notevolmente il processo di minimiz-
zazione
38. Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}
min
1≤j≤k ∧ i=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
39. Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}
min
1≤j≤k ∧ i=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
Davies-Bouldin Index
DB =
1
n
n
i=1
max
Sn(Ci) + Sn(Cj)
S(Ci, Cj)
i=j
40. Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}
min
1≤j≤k ∧ i=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
Davies-Bouldin Index
DB =
1
n
n
i=1
max
Sn(Ci) + Sn(Cj)
S(Ci, Cj)
i=j
Dataset utilizzato:
surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini
selezione di 225 shape appartenti a 10 categorie diverse
creazione di 10 pattern set
41. Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}
min
1≤j≤k ∧ i=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
Davies-Bouldin Index
DB =
1
n
n
i=1
max
Sn(Ci) + Sn(Cj)
S(Ci, Cj)
i=j
Dataset utilizzato:
surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini
selezione di 225 shape appartenti a 10 categorie diverse
creazione di 10 pattern set
run di CRADLE con diverso numero di cluster (k = 3, . . . , 14):
5 run per ogni valore di k
calcolo dei valori medi degli indici di validit`a
51. Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
52. Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
53. Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
Generalit`a
possibilit`a di fare clustering su qualunque tipologia di pattern
54. Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
Generalit`a
possibilit`a di fare clustering su qualunque tipologia di pattern
Scalabilit`a
l’approccio incrementale permette il clustering di data set di grandi dimensioni
55. Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
Generalit`a
possibilit`a di fare clustering su qualunque tipologia di pattern
Scalabilit`a
l’approccio incrementale permette il clustering di data set di grandi dimensioni
Flessibilit`a
`e possibile parametrizzare la fase di selezione
supporto per 32 diversi indici di validit`a
57. Sviluppi futuri 16
Approccio gerarchico
possibilit`a di analizzare meglio i risultati di clustering
su data set di grandi dimensioni
58. Sviluppi futuri 16
Approccio gerarchico
possibilit`a di analizzare meglio i risultati di clustering
su data set di grandi dimensioni
Introduzione di meccanismi pi`u sofisti-
cati per
creare la configurazione iniziale random
spostare i pattern durante la fase di raggruppamento