SlideShare a Scribd company logo
1 of 59
Download to read offline
A.A. 2009-2010
Tesi di Laurea Triennale in
Informatica e Tecnologie per la Produzione del Software
CRADLE:
Clustering by RAndom minimum Dispersion based LEarning
Un algoritmo di clustering basato su
minimizzazione random della dispersione
Relatore: Laureando:
Prof.ssa CASTELLANO
GIOVANNA
DI DONATO
LEONARDO
Il clustering 2
Il clustering 2
`E il processo di raggruppamento auto-
matico di dati non etichettati in gruppi
omogenei e significativi
Il clustering 2
`E il processo di raggruppamento auto-
matico di dati non etichettati in gruppi
omogenei e significativi.
Il clustering 3
La crescita esponenziale dell’informa-
zione rende necessario analizzare l’e-
norme mole di dati:
Il clustering 3
La crescita esponenziale dell’informa-
zione rende necessario analizzare l’e-
norme mole di dati:
il clustering trova applicazione in tutti quei contesti
in cui occorre ricercare schemi e/o strutture intrinse-
che nei dati
• data mining, pattern recognition, machine lear-
ning, image analysis
Approcci di clustering 4
Approcci di clustering 4
Approcci di clustering 4
Shape clustering 5
Shape clustering 5
La caratterizzazione delle immagini tra-
mite le forme di oggetti in esse conte-
nuti rappresenta uno dei maggiori stru-
menti utilizzati per la comprensione au-
tomatica delle immagini
Shape clustering 5
La caratterizzazione delle immagini tra-
mite le forme di oggetti in esse conte-
nuti rappresenta uno dei maggiori stru-
menti utilizzati per la comprensione au-
tomatica delle immagini
Studi di psicologia-congnitiva dimostrano che il con-
cetto di forma, in quanto invariante e generico, `e un
aspetto chiave e basilare dei processi di riconoscimen-
to delle immagini
Possibili campi applicativi:
• medico, militare, sicurezza, computer vision, ac-
tion recognition, human detection, image retrie-
val
Min.Variance Clustering 6
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
similarit`a fra pattern
basata sulla distanza geodetica
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
similarit`a fra pattern
basata sulla distanza geodetica
funzione di costo
varianza totale delle distanze fra i pattern appartenenti ad un cluster
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
idea di base
ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
rappresentazione dei pattern
basata sulle geodetiche
similarit`a fra pattern
basata sulla distanza geodetica
funzione di costo
varianza totale delle distanze fra i pattern appartenenti ad un cluster
criterio di convergenza
basato sul valore della temperatura (Simulated Annealing)
L’algoritmo proposto 7
L’algoritmo proposto 7
CRADLE
Clustering by RAndom minimum Dispersion based
LEarning
L’algoritmo proposto 7
CRADLE
Clustering by RAndom minimum Dispersion based
LEarning
Progettato per superare le limitazioni
dell’algoritmo MVC
complessit`a
• il calcolo della distanza geodetica `e molto costoso
lenta convergenza
CRADLE 8
CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
rappresentazione dei pattern
basata sui descrittori di Fourier
CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
rappresentazione dei pattern
basata sui descrittori di Fourier
similarit`a fra pattern
basata sulla distanza euclidea
CRADLE 8
idea di base
ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
rappresentazione dei pattern
basata sui descrittori di Fourier
similarit`a fra pattern
basata sulla distanza euclidea
funzione di costo
dispersione totale
Q(C) =
k
i=1
2
ni




va∈Ci vb∈Ci, b<c
d (va, vb)2




CRADLE 9
Fasi dell’algoritmo
CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
2 – Raggruppamento
• procedura iterativa basata su un approccio di clustering divisivo
CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
2 – Raggruppamento
• procedura iterativa basata su un approccio di clustering divisivo
3 – Selezione (non prevista in MVC)
• mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento
CRADLE 9
Fasi dell’algoritmo
1 – Configurazione iniziale
• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
2 – Raggruppamento
• procedura iterativa basata su un approccio di clustering divisivo
3 – Selezione (non prevista in MVC)
• mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento
4 – Calcolo prototipi
• per ogni cluster si prende come prototipo il pattern che minimizza
la distanza intracluster
CRADLE 10
Punti di forza
CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
Rapida convergenza
• La fase di selezione accelera notevolmente il processo di minimiz-
zazione
CRADLE 10
Punti di forza
Ridotto costo computazionale
• Il calcolo della distanza euclidea `e poco costoso
• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
Rapida convergenza
• La fase di selezione accelera notevolmente il processo di minimiz-
zazione
Setup sperimentale 11
Setup sperimentale 11
Indici di validit`a utilizzati:
Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)
max1≤z≤k {intra(Cz)}






Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)
max1≤z≤k {intra(Cz)}






Davies-Bouldin Index
DB =
1
n
n
i=1
max



Sn(Ci) + Sn(Cj)
S(Ci, Cj)



i=j
Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)
max1≤z≤k {intra(Cz)}






Davies-Bouldin Index
DB =
1
n
n
i=1
max



Sn(Ci) + Sn(Cj)
S(Ci, Cj)



i=j
Dataset utilizzato:
surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini
selezione di 225 shape appartenti a 10 categorie diverse
creazione di 10 pattern set
Setup sperimentale 11
Indici di validit`a utilizzati:
Dunn’s Index
DI = min
i=j, i,j⊂{1,...,k}



min
1≤j≤k ∧ i=j



inter(Ci, Cj)
max1≤z≤k {intra(Cz)}






Davies-Bouldin Index
DB =
1
n
n
i=1
max



Sn(Ci) + Sn(Cj)
S(Ci, Cj)



i=j
Dataset utilizzato:
surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini
selezione di 225 shape appartenti a 10 categorie diverse
creazione di 10 pattern set
run di CRADLE con diverso numero di cluster (k = 3, . . . , 14):
5 run per ogni valore di k
calcolo dei valori medi degli indici di validit`a
Sperimentazione 12
Sperimentazione 12
Valore medio degli indici di validit`a
Sperimentazione 12
Valore medio degli indici di validit`a
Sperimentazione 13
Estratto del risultato di clustering del
pattern set VI
Sperimentazione 13
Estratto del risultato di clustering del
pattern set VI
Sperimentazione 14
Valutazione della fase di selezione
Sperimentazione 14
Valutazione della fase di selezione
Sperimentazione 14
Valutazione della fase di selezione
Conclusioni 15
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
Generalit`a
possibilit`a di fare clustering su qualunque tipologia di pattern
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
Generalit`a
possibilit`a di fare clustering su qualunque tipologia di pattern
Scalabilit`a
l’approccio incrementale permette il clustering di data set di grandi dimensioni
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
Efficienza
ridotto costo computazionale
rapida convergenza
Robustezza
bassissima sensibilit`a alla configurazione iniziale
Generalit`a
possibilit`a di fare clustering su qualunque tipologia di pattern
Scalabilit`a
l’approccio incrementale permette il clustering di data set di grandi dimensioni
Flessibilit`a
`e possibile parametrizzare la fase di selezione
supporto per 32 diversi indici di validit`a
Sviluppi futuri 16
Sviluppi futuri 16
Approccio gerarchico
possibilit`a di analizzare meglio i risultati di clustering
su data set di grandi dimensioni
Sviluppi futuri 16
Approccio gerarchico
possibilit`a di analizzare meglio i risultati di clustering
su data set di grandi dimensioni
Introduzione di meccanismi pi`u sofisti-
cati per
creare la configurazione iniziale random
spostare i pattern durante la fase di raggruppamento
Fine

More Related Content

Similar to CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione

ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...
Roberto Nani
 
Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Simone Cumar
 
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Francesco Komauli
 

Similar to CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione (20)

Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clustering
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
 
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
 
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbiClassificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
 
Identificare feature significative per l’analisi nell’informatica forense uti...
Identificare feature significative per l’analisi nell’informatica forense uti...Identificare feature significative per l’analisi nell’informatica forense uti...
Identificare feature significative per l’analisi nell’informatica forense uti...
 
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
 
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
 
ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...
 
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
 
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
 
Syntactical errors detection 1
Syntactical errors detection 1Syntactical errors detection 1
Syntactical errors detection 1
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti Neurali
 
Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...
 
Presentazione_V3
Presentazione_V3Presentazione_V3
Presentazione_V3
 
Instance-based learning and Numeric prediction
Instance-based learning and Numeric predictionInstance-based learning and Numeric prediction
Instance-based learning and Numeric prediction
 
[Thesis] IBSS: Intelligent Brake Support System
[Thesis] IBSS: Intelligent Brake Support System [Thesis] IBSS: Intelligent Brake Support System
[Thesis] IBSS: Intelligent Brake Support System
 
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
 
Network Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal PredictionNetwork Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal Prediction
 

More from Leonardo Di Donato

Sistema Rilevamento Transiti (SRT) - Software Analysis and Design
Sistema Rilevamento Transiti (SRT) - Software Analysis and DesignSistema Rilevamento Transiti (SRT) - Software Analysis and Design
Sistema Rilevamento Transiti (SRT) - Software Analysis and Design
Leonardo Di Donato
 

More from Leonardo Di Donato (8)

Prometheus as exposition format for eBPF programs running on Kubernetes
Prometheus as exposition format for eBPF programs running on KubernetesPrometheus as exposition format for eBPF programs running on Kubernetes
Prometheus as exposition format for eBPF programs running on Kubernetes
 
Open metrics: Prometheus Unbound?
Open metrics: Prometheus Unbound?Open metrics: Prometheus Unbound?
Open metrics: Prometheus Unbound?
 
From logs to metrics
From logs to metricsFrom logs to metrics
From logs to metrics
 
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasks
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasksTopic Modeling for Information Retrieval and Word Sense Disambiguation tasks
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasks
 
Guida all'estrazione di dati dai Social Network
Guida all'estrazione di dati dai Social NetworkGuida all'estrazione di dati dai Social Network
Guida all'estrazione di dati dai Social Network
 
Virtual Worlds
Virtual WorldsVirtual Worlds
Virtual Worlds
 
A Location Based Mobile Social Network
A Location Based Mobile Social NetworkA Location Based Mobile Social Network
A Location Based Mobile Social Network
 
Sistema Rilevamento Transiti (SRT) - Software Analysis and Design
Sistema Rilevamento Transiti (SRT) - Software Analysis and DesignSistema Rilevamento Transiti (SRT) - Software Analysis and Design
Sistema Rilevamento Transiti (SRT) - Software Analysis and Design
 

CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algortimo di clustering basato su minimizzazione random della dispersione

  • 1. A.A. 2009-2010 Tesi di Laurea Triennale in Informatica e Tecnologie per la Produzione del Software CRADLE: Clustering by RAndom minimum Dispersion based LEarning Un algoritmo di clustering basato su minimizzazione random della dispersione Relatore: Laureando: Prof.ssa CASTELLANO GIOVANNA DI DONATO LEONARDO
  • 3. Il clustering 2 `E il processo di raggruppamento auto- matico di dati non etichettati in gruppi omogenei e significativi
  • 4. Il clustering 2 `E il processo di raggruppamento auto- matico di dati non etichettati in gruppi omogenei e significativi.
  • 5. Il clustering 3 La crescita esponenziale dell’informa- zione rende necessario analizzare l’e- norme mole di dati:
  • 6. Il clustering 3 La crescita esponenziale dell’informa- zione rende necessario analizzare l’e- norme mole di dati: il clustering trova applicazione in tutti quei contesti in cui occorre ricercare schemi e/o strutture intrinse- che nei dati • data mining, pattern recognition, machine lear- ning, image analysis
  • 11. Shape clustering 5 La caratterizzazione delle immagini tra- mite le forme di oggetti in esse conte- nuti rappresenta uno dei maggiori stru- menti utilizzati per la comprensione au- tomatica delle immagini
  • 12. Shape clustering 5 La caratterizzazione delle immagini tra- mite le forme di oggetti in esse conte- nuti rappresenta uno dei maggiori stru- menti utilizzati per la comprensione au- tomatica delle immagini Studi di psicologia-congnitiva dimostrano che il con- cetto di forma, in quanto invariante e generico, `e un aspetto chiave e basilare dei processi di riconoscimen- to delle immagini Possibili campi applicativi: • medico, militare, sicurezza, computer vision, ac- tion recognition, human detection, image retrie- val
  • 14. Min.Variance Clustering 6 Srivastava et.al, A geometric approach to shape clustering and learning. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590- 602, April 2005. idea di base ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una configurazione di cluster che rende minima la varianza
  • 15. Min.Variance Clustering 6 Srivastava et.al, A geometric approach to shape clustering and learning. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590- 602, April 2005. idea di base ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una configurazione di cluster che rende minima la varianza rappresentazione dei pattern basata sulle geodetiche
  • 16. Min.Variance Clustering 6 Srivastava et.al, A geometric approach to shape clustering and learning. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590- 602, April 2005. idea di base ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una configurazione di cluster che rende minima la varianza rappresentazione dei pattern basata sulle geodetiche similarit`a fra pattern basata sulla distanza geodetica
  • 17. Min.Variance Clustering 6 Srivastava et.al, A geometric approach to shape clustering and learning. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590- 602, April 2005. idea di base ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una configurazione di cluster che rende minima la varianza rappresentazione dei pattern basata sulle geodetiche similarit`a fra pattern basata sulla distanza geodetica funzione di costo varianza totale delle distanze fra i pattern appartenenti ad un cluster
  • 18. Min.Variance Clustering 6 Srivastava et.al, A geometric approach to shape clustering and learning. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590- 602, April 2005. idea di base ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una configurazione di cluster che rende minima la varianza rappresentazione dei pattern basata sulle geodetiche similarit`a fra pattern basata sulla distanza geodetica funzione di costo varianza totale delle distanze fra i pattern appartenenti ad un cluster criterio di convergenza basato sul valore della temperatura (Simulated Annealing)
  • 20. L’algoritmo proposto 7 CRADLE Clustering by RAndom minimum Dispersion based LEarning
  • 21. L’algoritmo proposto 7 CRADLE Clustering by RAndom minimum Dispersion based LEarning Progettato per superare le limitazioni dell’algoritmo MVC complessit`a • il calcolo della distanza geodetica `e molto costoso lenta convergenza
  • 23. CRADLE 8 idea di base ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione di cluster che rende minima la dispersione
  • 24. CRADLE 8 idea di base ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione di cluster che rende minima la dispersione rappresentazione dei pattern basata sui descrittori di Fourier
  • 25. CRADLE 8 idea di base ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione di cluster che rende minima la dispersione rappresentazione dei pattern basata sui descrittori di Fourier similarit`a fra pattern basata sulla distanza euclidea
  • 26. CRADLE 8 idea di base ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione di cluster che rende minima la dispersione rappresentazione dei pattern basata sui descrittori di Fourier similarit`a fra pattern basata sulla distanza euclidea funzione di costo dispersione totale Q(C) = k i=1 2 ni     va∈Ci vb∈Ci, b<c d (va, vb)2    
  • 28. CRADLE 9 Fasi dell’algoritmo 1 – Configurazione iniziale • si crea una configurazione iniziale di cluster assegnando i pattern in base ad una distribuzione normale
  • 29. CRADLE 9 Fasi dell’algoritmo 1 – Configurazione iniziale • si crea una configurazione iniziale di cluster assegnando i pattern in base ad una distribuzione normale 2 – Raggruppamento • procedura iterativa basata su un approccio di clustering divisivo
  • 30. CRADLE 9 Fasi dell’algoritmo 1 – Configurazione iniziale • si crea una configurazione iniziale di cluster assegnando i pattern in base ad una distribuzione normale 2 – Raggruppamento • procedura iterativa basata su un approccio di clustering divisivo 3 – Selezione (non prevista in MVC) • mediante valutazioni statistiche si seleziona un insieme di pattern da sottoporre nuovamente alla fase di raggruppamento
  • 31. CRADLE 9 Fasi dell’algoritmo 1 – Configurazione iniziale • si crea una configurazione iniziale di cluster assegnando i pattern in base ad una distribuzione normale 2 – Raggruppamento • procedura iterativa basata su un approccio di clustering divisivo 3 – Selezione (non prevista in MVC) • mediante valutazioni statistiche si seleziona un insieme di pattern da sottoporre nuovamente alla fase di raggruppamento 4 – Calcolo prototipi • per ogni cluster si prende come prototipo il pattern che minimizza la distanza intracluster
  • 33. CRADLE 10 Punti di forza Ridotto costo computazionale • Il calcolo della distanza euclidea `e poco costoso • La costruzione della matrice delle distanze avviene solo in fase di configurazione
  • 34. CRADLE 10 Punti di forza Ridotto costo computazionale • Il calcolo della distanza euclidea `e poco costoso • La costruzione della matrice delle distanze avviene solo in fase di configurazione Rapida convergenza • La fase di selezione accelera notevolmente il processo di minimiz- zazione
  • 35. CRADLE 10 Punti di forza Ridotto costo computazionale • Il calcolo della distanza euclidea `e poco costoso • La costruzione della matrice delle distanze avviene solo in fase di configurazione Rapida convergenza • La fase di selezione accelera notevolmente il processo di minimiz- zazione
  • 37. Setup sperimentale 11 Indici di validit`a utilizzati:
  • 38. Setup sperimentale 11 Indici di validit`a utilizzati: Dunn’s Index DI = min i=j, i,j⊂{1,...,k}    min 1≤j≤k ∧ i=j    inter(Ci, Cj) max1≤z≤k {intra(Cz)}      
  • 39. Setup sperimentale 11 Indici di validit`a utilizzati: Dunn’s Index DI = min i=j, i,j⊂{1,...,k}    min 1≤j≤k ∧ i=j    inter(Ci, Cj) max1≤z≤k {intra(Cz)}       Davies-Bouldin Index DB = 1 n n i=1 max    Sn(Ci) + Sn(Cj) S(Ci, Cj)    i=j
  • 40. Setup sperimentale 11 Indici di validit`a utilizzati: Dunn’s Index DI = min i=j, i,j⊂{1,...,k}    min 1≤j≤k ∧ i=j    inter(Ci, Cj) max1≤z≤k {intra(Cz)}       Davies-Bouldin Index DB = 1 n n i=1 max    Sn(Ci) + Sn(Cj) S(Ci, Cj)    i=j Dataset utilizzato: surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini selezione di 225 shape appartenti a 10 categorie diverse creazione di 10 pattern set
  • 41. Setup sperimentale 11 Indici di validit`a utilizzati: Dunn’s Index DI = min i=j, i,j⊂{1,...,k}    min 1≤j≤k ∧ i=j    inter(Ci, Cj) max1≤z≤k {intra(Cz)}       Davies-Bouldin Index DB = 1 n n i=1 max    Sn(Ci) + Sn(Cj) S(Ci, Cj)    i=j Dataset utilizzato: surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini selezione di 225 shape appartenti a 10 categorie diverse creazione di 10 pattern set run di CRADLE con diverso numero di cluster (k = 3, . . . , 14): 5 run per ogni valore di k calcolo dei valori medi degli indici di validit`a
  • 43. Sperimentazione 12 Valore medio degli indici di validit`a
  • 44. Sperimentazione 12 Valore medio degli indici di validit`a
  • 45. Sperimentazione 13 Estratto del risultato di clustering del pattern set VI
  • 46. Sperimentazione 13 Estratto del risultato di clustering del pattern set VI
  • 51. Conclusioni 15 Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van- taggi. Efficienza ridotto costo computazionale rapida convergenza
  • 52. Conclusioni 15 Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van- taggi. Efficienza ridotto costo computazionale rapida convergenza Robustezza bassissima sensibilit`a alla configurazione iniziale
  • 53. Conclusioni 15 Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van- taggi. Efficienza ridotto costo computazionale rapida convergenza Robustezza bassissima sensibilit`a alla configurazione iniziale Generalit`a possibilit`a di fare clustering su qualunque tipologia di pattern
  • 54. Conclusioni 15 Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van- taggi. Efficienza ridotto costo computazionale rapida convergenza Robustezza bassissima sensibilit`a alla configurazione iniziale Generalit`a possibilit`a di fare clustering su qualunque tipologia di pattern Scalabilit`a l’approccio incrementale permette il clustering di data set di grandi dimensioni
  • 55. Conclusioni 15 Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van- taggi. Efficienza ridotto costo computazionale rapida convergenza Robustezza bassissima sensibilit`a alla configurazione iniziale Generalit`a possibilit`a di fare clustering su qualunque tipologia di pattern Scalabilit`a l’approccio incrementale permette il clustering di data set di grandi dimensioni Flessibilit`a `e possibile parametrizzare la fase di selezione supporto per 32 diversi indici di validit`a
  • 57. Sviluppi futuri 16 Approccio gerarchico possibilit`a di analizzare meglio i risultati di clustering su data set di grandi dimensioni
  • 58. Sviluppi futuri 16 Approccio gerarchico possibilit`a di analizzare meglio i risultati di clustering su data set di grandi dimensioni Introduzione di meccanismi pi`u sofisti- cati per creare la configurazione iniziale random spostare i pattern durante la fase di raggruppamento
  • 59. Fine