Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici

Sommario
Introduzione
Problemi connessi alla cluster analysis
Soluzioni
Conclusioni
Università degli Studi di Napoli Federico II
Facoltà di Scienze Politiche
Corso di Laurea Magistrale in Scienze Statistiche per le Decisioni
Classificazione automatica per dati ad alta dimensionalità: un
approccio fuzzy per dati categorici
Candidato:
Marco D’Alessandro
Relatore:
Prof. Francesco Palumbo
Correlatore:
Prof. Alfonso Iodice D’Enza
20 Febbraio 2019
Classificazione automatica per dati ad alta dimensionalità

Sommario
Introduzione
Soluzioni
Conclusioni
1 Introduzione
2 Problemi connessi alla cluster analysis
3 Soluzioni
4 Conclusioni

Sommario
Introduzione
Soluzioni
Conclusioni
Notazione generale
Elenco dei principali simboli utilizzati
B è la matrice delle category quantifications, di dimensioni q · d;
ck è il vettore corrispondente al centroide del k-esimo gruppo, di
dimensioni 1 · d;
uik è il grado di appartenenza dell’i-esima osservazione al k-esimo
gruppo;
X è la matrice dei dati, di dimensioni n · q;
Y è la matrice degli object scores, di dimensioni n · d;
Z è la matrice indicatrice relativa alle categorie delle variabili
qualitative, di dimensioni n · Q;
ZK è la matrice di partizione, di dimensioni n · K;
1n è un vettore unitario, di dimensioni n · 1.

Sommario
Introduzione
Soluzioni
Conclusioni
Cluster analysis
Il principale obiettivo
La cluster analysis consiste in un insieme di tecniche atte ad
individuare gruppi (clusters) di osservazioni tra loro simili rispetto
ad un insieme di variabili prese in considerazione, e secondo uno
speciﬁco criterio.

Sommario
Introduzione
Soluzioni
Conclusioni
Cluster analysis
Punto di partenza
Tabella: Matrice dei dati X
Casi Variabili
Variabile 1 Variabile 2 Variabile 3 . . . Variabile q
Caso 1 x11 x12 x13 . . . x1q
Caso 2 x21 x22 x23 . . . x2q
Caso 3 x31 x32 x33 . . . x3q
. . . . . . . . . . . . . . . . . .
Caso n xn1 xn2 xn3 . . . xnq

Sommario
Introduzione
Soluzioni
Conclusioni
Cluster analysis
Punto di arrivo
Tabella: Matrice di partizione ZK
Casi Gruppi
Gruppo 1 Gruppo 2 Gruppo 3 . . . Gruppo K
Caso 1 1 0 0 . . . 0
Caso 2 0 0 1 . . . 0
Caso 3 0 1 0 . . . 0
. . . . . . . . . . . . . . . . . .
Caso n 0 0 0 . . . 1

Sommario
Introduzione
Soluzioni
Conclusioni
Alta dimensionalità dei dati
”Esplosione dei dati”
Recenti sviluppi tecnologici hanno portato a ciò che alcuni
chiamano ”esplosione dei dati”: è aumentata la capacità di
ciascuna persona di generare ed acquisire informazioni.

Sommario
Introduzione
Soluzioni
Conclusioni
Sfide affrontate
Interessi nella cluster analysis
Durante il percorso di tesi, si è deciso di affrontare le seguenti due
sfide, di grande interesse nella cluster analysis:
quella concernente la natura delle variabili, derivante dallo
studio delle variabili qualitative;
quella concernente la possibilità di calcolare una matrice di
partizione non binaria, assegnando gradi di appartenenza a
ciascun gruppo.

Sommario
Introduzione
Soluzioni
Conclusioni
La riduzione della dimensionalità
Obiettivo
La riduzione della dimensionalità ha a che fare con la
trasformazione di un dataset ad alta dimensionalità in uno spazio di
dimensionalità ridotta, e con la conservazione della maggior parte
della struttura utile (variabilità) all’interno della matrice dei dati.

Sommario
Introduzione
Soluzioni
Conclusioni
Due approcci I
Sequenziale vs combinato
La funzione obiettivo della tandem analysis pu`o essere vista come
la media delle funzioni obiettivo dell’Analisi delle Corrispondenze
Multiple e del fuzzy k-means:
f =
1
2
(||X − Zj Bj ||2
ACM
+
K
k=1
n
i=1
uik||Y − 1nck||2
Fuzzy k-means
) (1)

Sommario
Introduzione
Soluzioni
Conclusioni
Due approcci II
Sequenziale vs combinato
La funzione obiettivo della fuzzy clusCA deriva, invece,
dall’applicazione simultanea dell’Analisi delle Corrispondenze e del
fuzzy k-means:
f = ||
1
√
q
Ψk(¯U
m
K )
1
2 MZD
−1
2
z
AC
−
1
n
√
q
(¯U
m
K )
1
2 Γd BT
D
1
2
z
Fuzzy k-means
||2
(2)
dove Ψk `e una matrice idempotente e simmetrica, e Γd `e la matrice
che riporta per ogni osservazione il valore del k-esimo centroide.

Sommario
Introduzione
Soluzioni
Conclusioni
Risultato graﬁco
Rappresentazione congiunta derivante dal dataset DermaDef
Figura: Mappa fattoriale

Sommario
Introduzione
Soluzioni
Conclusioni
Per concludere
Principali vantaggi
Quali sono i vantaggi di un approccio simultaneo rispetto ad un
approccio sequenziale?
L’approccio simultaneo identiﬁca la migliore partizione delle
osservazioni, descritta dalle migliori combinazioni lineari
ortogonali delle variabili, secondo un criterio di ottimizzazione;
L’approccio simultaneo `e in grado di minimizzare una singola
funzione obiettivo, risolvendo il problema attraverso un
algoritmo di ottimizzazione alternata.

Sommario
Introduzione
Soluzioni
Conclusioni
Bibliograﬁa I
Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster
Analysis. John Wiley & Sons, Chichester.
Hennig C, Meila M, Murtagh F, Rocci R (2016). Handbook of
Cluster Analysis. Chapman&Hall/CRC Interdisciplinary
Statistics, Londra.
Iodice D’Enza A, van de Velden M, Palumbo F (2014). ”On
Joint Dimention Reduction and Clustering of Categorical
Data”. In D Vicari, A Okada, G Ragozini, C Weihs (Eds.),
Analysis and Modeling of Complex Data in Behavioral and
Social Sciences, pp 161-169. Springer-Verlag.

Sommario
Introduzione
Soluzioni
Conclusioni
Bibliograﬁa II
Markos A, Iodice D’Enza A, van de Velden M (2018). ”Beyond
Tandem Analysis: Joint Dimension Reduction and Clustering
in R”. Journal of Statistical Software. VV, pp 1-25.
Piccolo D (2010). Statistica. Il Mulino, Bologna.
Saxena A, Singh M (2016). ”Using Categorical Attributes for
Clustering”. International Journal of Scientiﬁc Engineering and
Applied Science. 2, pp 324-329.
Skillicorn DB (1998). Understanding High-Dimensional
Spaces. Springer, New York.

Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici

Recommended

Recommended

More Related Content

Similar to Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici

Similar to Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici (10)

More from Marco D'Alessandro

More from Marco D'Alessandro (12)

Classificazione automatica per ati ad alta dimensionalità: un approccio fuzzy per dati categorici