Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici
1. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Universit`a degli Studi di Napoli Federico II
Facolt`a di Scienze Politiche
Corso di Laurea Magistrale in Scienze Statistiche per le Decisioni
Classificazione automatica per dati ad alta dimensionalit`a: un
approccio fuzzy per dati categorici
Candidato:
Marco D’Alessandro
Relatore:
Prof. Francesco Palumbo
Correlatore:
Prof. Alfonso Iodice D’Enza
20 Febbraio 2019
Classificazione automatica per dati ad alta dimensionalit`a
2. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
1 Introduzione
2 Problemi connessi alla cluster analysis
3 Soluzioni
4 Conclusioni
Classificazione automatica per dati ad alta dimensionalit`a
3. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Notazione generale
Elenco dei principali simboli utilizzati
B `e la matrice delle category quantifications, di dimensioni q · d;
ck `e il vettore corrispondente al centroide del k-esimo gruppo, di
dimensioni 1 · d;
uik `e il grado di appartenenza dell’i-esima osservazione al k-esimo
gruppo;
X `e la matrice dei dati, di dimensioni n · q;
Y `e la matrice degli object scores, di dimensioni n · d;
Z `e la matrice indicatrice relativa alle categorie delle variabili
qualitative, di dimensioni n · Q;
ZK `e la matrice di partizione, di dimensioni n · K;
1n `e un vettore unitario, di dimensioni n · 1.
Classificazione automatica per dati ad alta dimensionalit`a
4. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Cluster analysis
Il principale obiettivo
La cluster analysis consiste in un insieme di tecniche atte ad
individuare gruppi (clusters) di osservazioni tra loro simili rispetto
ad un insieme di variabili prese in considerazione, e secondo uno
specifico criterio.
Classificazione automatica per dati ad alta dimensionalit`a
5. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Cluster analysis
Punto di partenza
Tabella: Matrice dei dati X
Casi Variabili
Variabile 1 Variabile 2 Variabile 3 . . . Variabile q
Caso 1 x11 x12 x13 . . . x1q
Caso 2 x21 x22 x23 . . . x2q
Caso 3 x31 x32 x33 . . . x3q
. . . . . . . . . . . . . . . . . .
Caso n xn1 xn2 xn3 . . . xnq
Classificazione automatica per dati ad alta dimensionalit`a
6. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Cluster analysis
Punto di arrivo
Tabella: Matrice di partizione ZK
Casi Gruppi
Gruppo 1 Gruppo 2 Gruppo 3 . . . Gruppo K
Caso 1 1 0 0 . . . 0
Caso 2 0 0 1 . . . 0
Caso 3 0 1 0 . . . 0
. . . . . . . . . . . . . . . . . .
Caso n 0 0 0 . . . 1
Classificazione automatica per dati ad alta dimensionalit`a
7. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Alta dimensionalit`a dei dati
”Esplosione dei dati”
Recenti sviluppi tecnologici hanno portato a ci`o che alcuni
chiamano ”esplosione dei dati”: `e aumentata la capacit`a di
ciascuna persona di generare ed acquisire informazioni.
Classificazione automatica per dati ad alta dimensionalit`a
8. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Sfide affrontate
Interessi nella cluster analysis
Durante il percorso di tesi, si `e deciso di affrontare le seguenti due
sfide, di grande interesse nella cluster analysis:
quella concernente la natura delle variabili, derivante dallo
studio delle variabili qualitative;
quella concernente la possibilit`a di calcolare una matrice di
partizione non binaria, assegnando gradi di appartenenza a
ciascun gruppo.
Classificazione automatica per dati ad alta dimensionalit`a
9. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
La riduzione della dimensionalit`a
Obiettivo
La riduzione della dimensionalit`a ha a che fare con la
trasformazione di un dataset ad alta dimensionalit`a in uno spazio di
dimensionalit`a ridotta, e con la conservazione della maggior parte
della struttura utile (variabilit`a) all’interno della matrice dei dati.
Classificazione automatica per dati ad alta dimensionalit`a
10. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Due approcci I
Sequenziale vs combinato
La funzione obiettivo della tandem analysis pu`o essere vista come
la media delle funzioni obiettivo dell’Analisi delle Corrispondenze
Multiple e del fuzzy k-means:
f =
1
2
(||X − Zj Bj ||2
ACM
+
K
k=1
n
i=1
uik||Y − 1nck||2
Fuzzy k-means
) (1)
Classificazione automatica per dati ad alta dimensionalit`a
11. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Due approcci II
Sequenziale vs combinato
La funzione obiettivo della fuzzy clusCA deriva, invece,
dall’applicazione simultanea dell’Analisi delle Corrispondenze e del
fuzzy k-means:
f = ||
1
√
q
Ψk(¯U
m
K )
1
2 MZD
−1
2
z
AC
−
1
n
√
q
(¯U
m
K )
1
2 Γd BT
D
1
2
z
Fuzzy k-means
||2
(2)
dove Ψk `e una matrice idempotente e simmetrica, e Γd `e la matrice
che riporta per ogni osservazione il valore del k-esimo centroide.
Classificazione automatica per dati ad alta dimensionalit`a
12. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Risultato grafico
Rappresentazione congiunta derivante dal dataset DermaDef
Figura: Mappa fattoriale
Classificazione automatica per dati ad alta dimensionalit`a
13. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Per concludere
Principali vantaggi
Quali sono i vantaggi di un approccio simultaneo rispetto ad un
approccio sequenziale?
L’approccio simultaneo identifica la migliore partizione delle
osservazioni, descritta dalle migliori combinazioni lineari
ortogonali delle variabili, secondo un criterio di ottimizzazione;
L’approccio simultaneo `e in grado di minimizzare una singola
funzione obiettivo, risolvendo il problema attraverso un
algoritmo di ottimizzazione alternata.
Classificazione automatica per dati ad alta dimensionalit`a
14. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Bibliografia I
Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster
Analysis. John Wiley & Sons, Chichester.
Hennig C, Meila M, Murtagh F, Rocci R (2016). Handbook of
Cluster Analysis. Chapman&Hall/CRC Interdisciplinary
Statistics, Londra.
Iodice D’Enza A, van de Velden M, Palumbo F (2014). ”On
Joint Dimention Reduction and Clustering of Categorical
Data”. In D Vicari, A Okada, G Ragozini, C Weihs (Eds.),
Analysis and Modeling of Complex Data in Behavioral and
Social Sciences, pp 161-169. Springer-Verlag.
Classificazione automatica per dati ad alta dimensionalit`a
15. Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Bibliografia II
Markos A, Iodice D’Enza A, van de Velden M (2018). ”Beyond
Tandem Analysis: Joint Dimension Reduction and Clustering
in R”. Journal of Statistical Software. VV, pp 1-25.
Piccolo D (2010). Statistica. Il Mulino, Bologna.
Saxena A, Singh M (2016). ”Using Categorical Attributes for
Clustering”. International Journal of Scientific Engineering and
Applied Science. 2, pp 324-329.
Skillicorn DB (1998). Understanding High-Dimensional
Spaces. Springer, New York.
Classificazione automatica per dati ad alta dimensionalit`a