SlideShare a Scribd company logo
1 of 15
Download to read offline
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Universit`a degli Studi di Napoli Federico II
Facolt`a di Scienze Politiche
Corso di Laurea Magistrale in Scienze Statistiche per le Decisioni
Classificazione automatica per dati ad alta dimensionalit`a: un
approccio fuzzy per dati categorici
Candidato:
Marco D’Alessandro
Relatore:
Prof. Francesco Palumbo
Correlatore:
Prof. Alfonso Iodice D’Enza
20 Febbraio 2019
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
1 Introduzione
2 Problemi connessi alla cluster analysis
3 Soluzioni
4 Conclusioni
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Notazione generale
Elenco dei principali simboli utilizzati
B `e la matrice delle category quantifications, di dimensioni q · d;
ck `e il vettore corrispondente al centroide del k-esimo gruppo, di
dimensioni 1 · d;
uik `e il grado di appartenenza dell’i-esima osservazione al k-esimo
gruppo;
X `e la matrice dei dati, di dimensioni n · q;
Y `e la matrice degli object scores, di dimensioni n · d;
Z `e la matrice indicatrice relativa alle categorie delle variabili
qualitative, di dimensioni n · Q;
ZK `e la matrice di partizione, di dimensioni n · K;
1n `e un vettore unitario, di dimensioni n · 1.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Cluster analysis
Il principale obiettivo
La cluster analysis consiste in un insieme di tecniche atte ad
individuare gruppi (clusters) di osservazioni tra loro simili rispetto
ad un insieme di variabili prese in considerazione, e secondo uno
specifico criterio.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Cluster analysis
Punto di partenza
Tabella: Matrice dei dati X
Casi Variabili
Variabile 1 Variabile 2 Variabile 3 . . . Variabile q
Caso 1 x11 x12 x13 . . . x1q
Caso 2 x21 x22 x23 . . . x2q
Caso 3 x31 x32 x33 . . . x3q
. . . . . . . . . . . . . . . . . .
Caso n xn1 xn2 xn3 . . . xnq
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Cluster analysis
Punto di arrivo
Tabella: Matrice di partizione ZK
Casi Gruppi
Gruppo 1 Gruppo 2 Gruppo 3 . . . Gruppo K
Caso 1 1 0 0 . . . 0
Caso 2 0 0 1 . . . 0
Caso 3 0 1 0 . . . 0
. . . . . . . . . . . . . . . . . .
Caso n 0 0 0 . . . 1
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Alta dimensionalit`a dei dati
”Esplosione dei dati”
Recenti sviluppi tecnologici hanno portato a ci`o che alcuni
chiamano ”esplosione dei dati”: `e aumentata la capacit`a di
ciascuna persona di generare ed acquisire informazioni.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Sfide affrontate
Interessi nella cluster analysis
Durante il percorso di tesi, si `e deciso di affrontare le seguenti due
sfide, di grande interesse nella cluster analysis:
quella concernente la natura delle variabili, derivante dallo
studio delle variabili qualitative;
quella concernente la possibilit`a di calcolare una matrice di
partizione non binaria, assegnando gradi di appartenenza a
ciascun gruppo.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
La riduzione della dimensionalit`a
Obiettivo
La riduzione della dimensionalit`a ha a che fare con la
trasformazione di un dataset ad alta dimensionalit`a in uno spazio di
dimensionalit`a ridotta, e con la conservazione della maggior parte
della struttura utile (variabilit`a) all’interno della matrice dei dati.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Due approcci I
Sequenziale vs combinato
La funzione obiettivo della tandem analysis pu`o essere vista come
la media delle funzioni obiettivo dell’Analisi delle Corrispondenze
Multiple e del fuzzy k-means:
f =
1
2
(||X − Zj Bj ||2
ACM
+
K
k=1
n
i=1
uik||Y − 1nck||2
Fuzzy k-means
) (1)
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Due approcci II
Sequenziale vs combinato
La funzione obiettivo della fuzzy clusCA deriva, invece,
dall’applicazione simultanea dell’Analisi delle Corrispondenze e del
fuzzy k-means:
f = ||
1
√
q
Ψk(¯U
m
K )
1
2 MZD
−1
2
z
AC
−
1
n
√
q
(¯U
m
K )
1
2 Γd BT
D
1
2
z
Fuzzy k-means
||2
(2)
dove Ψk `e una matrice idempotente e simmetrica, e Γd `e la matrice
che riporta per ogni osservazione il valore del k-esimo centroide.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Risultato grafico
Rappresentazione congiunta derivante dal dataset DermaDef
Figura: Mappa fattoriale
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Per concludere
Principali vantaggi
Quali sono i vantaggi di un approccio simultaneo rispetto ad un
approccio sequenziale?
L’approccio simultaneo identifica la migliore partizione delle
osservazioni, descritta dalle migliori combinazioni lineari
ortogonali delle variabili, secondo un criterio di ottimizzazione;
L’approccio simultaneo `e in grado di minimizzare una singola
funzione obiettivo, risolvendo il problema attraverso un
algoritmo di ottimizzazione alternata.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Bibliografia I
Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster
Analysis. John Wiley & Sons, Chichester.
Hennig C, Meila M, Murtagh F, Rocci R (2016). Handbook of
Cluster Analysis. Chapman&Hall/CRC Interdisciplinary
Statistics, Londra.
Iodice D’Enza A, van de Velden M, Palumbo F (2014). ”On
Joint Dimention Reduction and Clustering of Categorical
Data”. In D Vicari, A Okada, G Ragozini, C Weihs (Eds.),
Analysis and Modeling of Complex Data in Behavioral and
Social Sciences, pp 161-169. Springer-Verlag.
Classificazione automatica per dati ad alta dimensionalit`a
Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Bibliografia II
Markos A, Iodice D’Enza A, van de Velden M (2018). ”Beyond
Tandem Analysis: Joint Dimension Reduction and Clustering
in R”. Journal of Statistical Software. VV, pp 1-25.
Piccolo D (2010). Statistica. Il Mulino, Bologna.
Saxena A, Singh M (2016). ”Using Categorical Attributes for
Clustering”. International Journal of Scientific Engineering and
Applied Science. 2, pp 324-329.
Skillicorn DB (1998). Understanding High-Dimensional
Spaces. Springer, New York.
Classificazione automatica per dati ad alta dimensionalit`a

More Related Content

Similar to Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici

Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control chartsLuca Vecchiato
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...Francesco Andreuzzi
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...Francesco Andreuzzi
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...mfurlanetto
 
Instance-based learning and Numeric prediction
Instance-based learning and Numeric predictionInstance-based learning and Numeric prediction
Instance-based learning and Numeric predictionDavide Ciambelli
 
Algoritmi bioinformatici per la classificazione sintattica delle lingue
Algoritmi bioinformatici per la classificazione sintattica delle lingueAlgoritmi bioinformatici per la classificazione sintattica delle lingue
Algoritmi bioinformatici per la classificazione sintattica delle linguedevis111
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clusteringRosario Turco
 

Similar to Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici (10)

Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
 
Statistica
StatisticaStatistica
Statistica
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
 
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
BisPy: un pacchetto Python per il calcolo della massima bisimulazione di graf...
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
 
Instance-based learning and Numeric prediction
Instance-based learning and Numeric predictionInstance-based learning and Numeric prediction
Instance-based learning and Numeric prediction
 
Algoritmi bioinformatici per la classificazione sintattica delle lingue
Algoritmi bioinformatici per la classificazione sintattica delle lingueAlgoritmi bioinformatici per la classificazione sintattica delle lingue
Algoritmi bioinformatici per la classificazione sintattica delle lingue
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clustering
 
Statistica sociale
Statistica socialeStatistica sociale
Statistica sociale
 
tesi
tesitesi
tesi
 

More from Marco D'Alessandro

Il modello educativo-formativo di Piazza dei Mestieri di Torino
Il modello educativo-formativo di Piazza dei Mestieri di TorinoIl modello educativo-formativo di Piazza dei Mestieri di Torino
Il modello educativo-formativo di Piazza dei Mestieri di TorinoMarco D'Alessandro
 
Tesina di fine seminario sas ed sql
Tesina di fine seminario sas ed sqlTesina di fine seminario sas ed sql
Tesina di fine seminario sas ed sqlMarco D'Alessandro
 
La soddisfazione in ambito sportivo.
La soddisfazione in ambito sportivo.La soddisfazione in ambito sportivo.
La soddisfazione in ambito sportivo.Marco D'Alessandro
 
Il basket non è solo matematica
Il basket non è solo matematicaIl basket non è solo matematica
Il basket non è solo matematicaMarco D'Alessandro
 
Domanda di benzina in Ontario dal 1960 al 1975
Domanda di benzina in Ontario dal 1960 al 1975Domanda di benzina in Ontario dal 1960 al 1975
Domanda di benzina in Ontario dal 1960 al 1975Marco D'Alessandro
 
Processi stocastici e serie storiche
Processi stocastici e serie storicheProcessi stocastici e serie storiche
Processi stocastici e serie storicheMarco D'Alessandro
 
Analisi delle corrispondenze multiple
Analisi delle corrispondenze multipleAnalisi delle corrispondenze multiple
Analisi delle corrispondenze multipleMarco D'Alessandro
 

More from Marco D'Alessandro (12)

La differenza c'è e si vede
La differenza c'è e si vedeLa differenza c'è e si vede
La differenza c'è e si vede
 
Il modello educativo-formativo di Piazza dei Mestieri di Torino
Il modello educativo-formativo di Piazza dei Mestieri di TorinoIl modello educativo-formativo di Piazza dei Mestieri di Torino
Il modello educativo-formativo di Piazza dei Mestieri di Torino
 
Tesina di fine seminario sas ed sql
Tesina di fine seminario sas ed sqlTesina di fine seminario sas ed sql
Tesina di fine seminario sas ed sql
 
Disoccupazione in irlanda
Disoccupazione in irlandaDisoccupazione in irlanda
Disoccupazione in irlanda
 
La soddisfazione in ambito sportivo.
La soddisfazione in ambito sportivo.La soddisfazione in ambito sportivo.
La soddisfazione in ambito sportivo.
 
Il basket non è solo matematica
Il basket non è solo matematicaIl basket non è solo matematica
Il basket non è solo matematica
 
Domanda di benzina in Ontario dal 1960 al 1975
Domanda di benzina in Ontario dal 1960 al 1975Domanda di benzina in Ontario dal 1960 al 1975
Domanda di benzina in Ontario dal 1960 al 1975
 
Modello logistico
Modello logisticoModello logistico
Modello logistico
 
Pseudo-R quadro
Pseudo-R quadroPseudo-R quadro
Pseudo-R quadro
 
Processi stocastici e serie storiche
Processi stocastici e serie storicheProcessi stocastici e serie storiche
Processi stocastici e serie storiche
 
Analisi delle corrispondenze multiple
Analisi delle corrispondenze multipleAnalisi delle corrispondenze multiple
Analisi delle corrispondenze multiple
 
Il rischio è dietro l'angolo
Il rischio è dietro l'angoloIl rischio è dietro l'angolo
Il rischio è dietro l'angolo
 

Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici

  • 1. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Universit`a degli Studi di Napoli Federico II Facolt`a di Scienze Politiche Corso di Laurea Magistrale in Scienze Statistiche per le Decisioni Classificazione automatica per dati ad alta dimensionalit`a: un approccio fuzzy per dati categorici Candidato: Marco D’Alessandro Relatore: Prof. Francesco Palumbo Correlatore: Prof. Alfonso Iodice D’Enza 20 Febbraio 2019 Classificazione automatica per dati ad alta dimensionalit`a
  • 2. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni 1 Introduzione 2 Problemi connessi alla cluster analysis 3 Soluzioni 4 Conclusioni Classificazione automatica per dati ad alta dimensionalit`a
  • 3. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Notazione generale Elenco dei principali simboli utilizzati B `e la matrice delle category quantifications, di dimensioni q · d; ck `e il vettore corrispondente al centroide del k-esimo gruppo, di dimensioni 1 · d; uik `e il grado di appartenenza dell’i-esima osservazione al k-esimo gruppo; X `e la matrice dei dati, di dimensioni n · q; Y `e la matrice degli object scores, di dimensioni n · d; Z `e la matrice indicatrice relativa alle categorie delle variabili qualitative, di dimensioni n · Q; ZK `e la matrice di partizione, di dimensioni n · K; 1n `e un vettore unitario, di dimensioni n · 1. Classificazione automatica per dati ad alta dimensionalit`a
  • 4. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Cluster analysis Il principale obiettivo La cluster analysis consiste in un insieme di tecniche atte ad individuare gruppi (clusters) di osservazioni tra loro simili rispetto ad un insieme di variabili prese in considerazione, e secondo uno specifico criterio. Classificazione automatica per dati ad alta dimensionalit`a
  • 5. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Cluster analysis Punto di partenza Tabella: Matrice dei dati X Casi Variabili Variabile 1 Variabile 2 Variabile 3 . . . Variabile q Caso 1 x11 x12 x13 . . . x1q Caso 2 x21 x22 x23 . . . x2q Caso 3 x31 x32 x33 . . . x3q . . . . . . . . . . . . . . . . . . Caso n xn1 xn2 xn3 . . . xnq Classificazione automatica per dati ad alta dimensionalit`a
  • 6. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Cluster analysis Punto di arrivo Tabella: Matrice di partizione ZK Casi Gruppi Gruppo 1 Gruppo 2 Gruppo 3 . . . Gruppo K Caso 1 1 0 0 . . . 0 Caso 2 0 0 1 . . . 0 Caso 3 0 1 0 . . . 0 . . . . . . . . . . . . . . . . . . Caso n 0 0 0 . . . 1 Classificazione automatica per dati ad alta dimensionalit`a
  • 7. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Alta dimensionalit`a dei dati ”Esplosione dei dati” Recenti sviluppi tecnologici hanno portato a ci`o che alcuni chiamano ”esplosione dei dati”: `e aumentata la capacit`a di ciascuna persona di generare ed acquisire informazioni. Classificazione automatica per dati ad alta dimensionalit`a
  • 8. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Sfide affrontate Interessi nella cluster analysis Durante il percorso di tesi, si `e deciso di affrontare le seguenti due sfide, di grande interesse nella cluster analysis: quella concernente la natura delle variabili, derivante dallo studio delle variabili qualitative; quella concernente la possibilit`a di calcolare una matrice di partizione non binaria, assegnando gradi di appartenenza a ciascun gruppo. Classificazione automatica per dati ad alta dimensionalit`a
  • 9. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni La riduzione della dimensionalit`a Obiettivo La riduzione della dimensionalit`a ha a che fare con la trasformazione di un dataset ad alta dimensionalit`a in uno spazio di dimensionalit`a ridotta, e con la conservazione della maggior parte della struttura utile (variabilit`a) all’interno della matrice dei dati. Classificazione automatica per dati ad alta dimensionalit`a
  • 10. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Due approcci I Sequenziale vs combinato La funzione obiettivo della tandem analysis pu`o essere vista come la media delle funzioni obiettivo dell’Analisi delle Corrispondenze Multiple e del fuzzy k-means: f = 1 2 (||X − Zj Bj ||2 ACM + K k=1 n i=1 uik||Y − 1nck||2 Fuzzy k-means ) (1) Classificazione automatica per dati ad alta dimensionalit`a
  • 11. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Due approcci II Sequenziale vs combinato La funzione obiettivo della fuzzy clusCA deriva, invece, dall’applicazione simultanea dell’Analisi delle Corrispondenze e del fuzzy k-means: f = || 1 √ q Ψk(¯U m K ) 1 2 MZD −1 2 z AC − 1 n √ q (¯U m K ) 1 2 Γd BT D 1 2 z Fuzzy k-means ||2 (2) dove Ψk `e una matrice idempotente e simmetrica, e Γd `e la matrice che riporta per ogni osservazione il valore del k-esimo centroide. Classificazione automatica per dati ad alta dimensionalit`a
  • 12. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Risultato grafico Rappresentazione congiunta derivante dal dataset DermaDef Figura: Mappa fattoriale Classificazione automatica per dati ad alta dimensionalit`a
  • 13. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Per concludere Principali vantaggi Quali sono i vantaggi di un approccio simultaneo rispetto ad un approccio sequenziale? L’approccio simultaneo identifica la migliore partizione delle osservazioni, descritta dalle migliori combinazioni lineari ortogonali delle variabili, secondo un criterio di ottimizzazione; L’approccio simultaneo `e in grado di minimizzare una singola funzione obiettivo, risolvendo il problema attraverso un algoritmo di ottimizzazione alternata. Classificazione automatica per dati ad alta dimensionalit`a
  • 14. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Bibliografia I Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster Analysis. John Wiley & Sons, Chichester. Hennig C, Meila M, Murtagh F, Rocci R (2016). Handbook of Cluster Analysis. Chapman&Hall/CRC Interdisciplinary Statistics, Londra. Iodice D’Enza A, van de Velden M, Palumbo F (2014). ”On Joint Dimention Reduction and Clustering of Categorical Data”. In D Vicari, A Okada, G Ragozini, C Weihs (Eds.), Analysis and Modeling of Complex Data in Behavioral and Social Sciences, pp 161-169. Springer-Verlag. Classificazione automatica per dati ad alta dimensionalit`a
  • 15. Sommario Introduzione Problemi connessi alla cluster analysis Soluzioni Conclusioni Bibliografia II Markos A, Iodice D’Enza A, van de Velden M (2018). ”Beyond Tandem Analysis: Joint Dimension Reduction and Clustering in R”. Journal of Statistical Software. VV, pp 1-25. Piccolo D (2010). Statistica. Il Mulino, Bologna. Saxena A, Singh M (2016). ”Using Categorical Attributes for Clustering”. International Journal of Scientific Engineering and Applied Science. 2, pp 324-329. Skillicorn DB (1998). Understanding High-Dimensional Spaces. Springer, New York. Classificazione automatica per dati ad alta dimensionalit`a