Introduzione teorica all’analisi dei cluster, in particolare sui metodi gerarchici agglomerativi (legame singolo, legame medio e centroide) e applicazione in SAS sul dataset pallavolo.
Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano
1. Corso di Laurea Magistrale in Scienze Statistiche
Esame di Statistica multivariata
L’ANALISI DEI CLUSTER
A.A. 2009/2010
2. L’analisi dei cluster
ANALISI DEI CLUSTER
• Il presupposto di base all’analisi è che gli individui appartenenti allo stesso gruppo
dovrebbero essere allo stesso tempo simili tra loro e difformi dagli individui di
gruppo diverso.
• OBIETTIVO: formare sottogruppi omogenei della popolazione accorpando tutte
quelle osservazioni che presentano caratteristiche simili.
PROBLEMI:
1. come misurare le “distanze” tra gli individui?
2. come costruire i cluster?
3. L’analisi dei cluster
LA MISURA DELLE DISTANZE
• Sia drs una qualche misura della distanza tra gli oggetti r e s appartenente alla
classe delle distanze metriche
• Se la popolazione è costituita da n individui, la matrice delle n(n-1)/2 distanze sarà:
4. L’analisi dei cluster
I METODI GERARCHICI AGGLOMERATIVI
STRUTTURA LOGICA
1. Nello stadio iniziale ciascuna unità costituisce un gruppo separato. La distanza tra i gruppi è
fornita dalla matrice D.
2. I due gruppi che possiedono distanza minima vengono fusi; la distanza a cui avviene la
fusione viene registrata.
3. Si calcola la distanza tra il nuovo gruppo creato e i gruppi già esistenti.
4. Vengono ripetuti i passi 2 e 3 finché non si giunge ad una configurazione in cui esiste un
solo gruppo (ciò richiede (n -1) iterazioni) oppure a quella definita da un certo criterio.
Il processo di fusione rappresentato graficamente attraverso il dendrogramma: questo riporta
sull’asse orizzontale il livello di distanza a cui avviene la fusione e sull’asse delle ascisse riporta le
unità. Ad ogni livello di distanza corrisponde una partizione.
5. L’analisi dei cluster
METODO DEL LEGAME SINGOLO
•
La distanza tra gruppi è calcolata come distanza più piccola esistente tra gli elementi
appartenenti ad un gruppo e quelli appartenenti ad un altro, cioè:
Vantaggi e svantaggi
•
Una caratteristica (ed anche un limite) del metodo sta nel produrre tendenzialmente dei
grappoli allungati (a salciccia) in relazione al fatto che la fusione dei gruppi avviene facendo
riferimento ad un solo legame.
•
Quando esistono grappoli ben delineati, ma non separati, il concatenamento potrebbe indurre a
considerare un unico grappolo.
•
Tuttavia il metodo consente di individuare grappoli di qualsiasi forma e mette in luce eventuali
valori anomali meglio di altre tecniche.
8. L’analisi dei cluster
METODO DEL LEGAME MEDIO
•
La distanza tra gruppi è calcolata come media aritmetica delle distanze tra tutte le unità che
compongono i due gruppi.
Vantaggi e svantaggi
• La fusione dei gruppi avviene a livelli di distanza intermedi tra quella massima e la minima
11. L’analisi dei cluster
METODO DEL CENTROIDE
• La distanza tra i gruppi è pari alla distanza tra i centroidi, vale a dire i valori medi calcolati
sugli individui appartenenti ai gruppi.
Vantaggi e svantaggi
• Dà luogo a fenomeni “gravitazionali”, per cui i gruppi grandi tendono ad attrarre al loro
interno i gruppi piccoli.
• Le distanze a cui avvengono le successive fusioni possono essere non crescenti.
12. L’analisi dei cluster: un esempio
LE VARIABILI (1/2)
Nome giocatrice
Variabili di battuta:
bXset = totale battute effettuate;
bACEXset = numero di ace, cioè di battute che comportano direttamente
punto alla squadra;
bERRXset = numero di battute errate;
Variabili di ricezione:
rTOTXset = totale delle ricezioni effettuate;
rERRXset = numero di ricezioni sbagliate;
rNEGXset = numero di ricezioni che hanno influito negativamente sulla
continuazione del gioco;
rPERFXset = numero di ricezioni eseguite perfettamente;
13. L’analisi dei cluster: un esempio
LE VARIABILI (2/2)
Stat
Corr
Variabili di attacco:
ATOTXset = totale degli attacchi effettuati;
aMURXset = numero di attacchi che sono stati murati dalla squadra
avversaria;
aPERFXset = numero di attacchi che hanno comportato direttamente
punto per la squadra;
Variabili di muro:
mINVXset = numero di invasioni a muro;
mPERFXset = numero di muri perfettamente eseguiti che comportano
punto diretto alla squadra che mura;
14. L’analisi dei cluster: un esempio
I GRUPPI
I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel
corso dell’ultimo campionato:
• S = schiacciatore
• C = centrale
• L = libero
• P = palleggiatore
15. L’analisi dei cluster: un esempio
LA PROCEDURA (1/2)
/* Ricerca di sottogruppi di giocatori simili nel ruolo di schiacciatore */
data clusterS; set c;
where ruolo='S';
/* metodo del legame medio*/
proc cluster method=average nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset
aPERFXset mPERFXset mINVXset;
id nome;
proc tree horizontal spaces=2;
id nome;
title 'dendrogramma per il metodo del legame medio';
16. L’analisi dei cluster: un esempio
LA PROCEDURA (2/2)
/* metodo del legame singolo*/
proc cluster method=single nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset
mPERFXset mINVXset;
id nome;
proc tree horizontal spaces=2;
id nome;
title 'dendrogramma per il metodo del legame singolo';
/* metodo del centroide*/
proc cluster method=centroid nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset
mPERFXset mINVXset;
id nome;
proc tree horizontal spaces=2;
id nome;
title 'dendrogramma per il metodo del centroide';
run;
In questa presentazione farò un’introduzione teorica all’analisi dei cluster, in particolare mi soffermerò sui metodi gerarchici agglomerativi (legame singolo, legame medio e centroide) e presenterò un’applicazione in SAS sul dataset pallavolo.
Distanza è una misura positiva (uguale a 0 solo per oggetti identici), solitamente non normalizzata
PROPRIETA’ DELLA DISTANZA METRICA
1. drs >= 0 for all r, s (positivity);
2. drr = 0 for all r (identity);
3. drs = dsr for all r, s (symmetry);
4. if also drs + dst >= drt for all r, s, t (triangle inequality), then d is said to be metric.
La matrice delle distanze è simmetrica
procedono per aggregazioni successive delle unità partendo da n gruppi formati da un solo individuo
VS divisivi: partono da un solo gruppo formato da tutte le unità e procedono a partizioni successive fino a giungere a gruppi formati da una sola unità.
n= numerosità popolazione
SINGLE LINKAGE
1. la coppia di unità che presenta distanza minima è (AB); le medesime sono unite in un gruppo. Si deve ora determinare la distanza tra il gruppo appena formato e le rimanenti unità; questa sarà fornita dalla piu piccola delle distanze con le unità componenti il gruppo (ad esempio, la distanza tra (AB) e (C) è uguale al minore tra 6 e 5).
2. A questo punto le unità (D) e (E) vengono fuse nel gruppo (DE) e si ottiene la nuova matrice di distanze;
3. Vengono fusi i gruppi (C) e (DE), che presentano distanza minima (4), ottenendosi
4. L’ultima iterazione aggrega i due gruppi in un unico gruppo contenente tutte le unità.
SEQUENZA DELLE FUSIONI
AVERAGE LINKAGE
Metodo del legame completo:
Confrontando con il dendogramma relativo al metodo del legame singolo si può osservare come la fusione avvenga prima (forma più arrotondata del dendrogramma, meno “a salsicciotto”
Confrontando con il dendogramma relativo al metodo del legame singolo si può osservare come la fusione avvenga prima (forma più arrotondata del dendrogramma, meno “a salsicciotto”
Metodo che richiede la matrice dei dati originaria X.
Standardizzate dividendole per i set giocati
Seleziono dal dataset iniziale le atlete che giocano nel ruolo di schiacciatrice
La proc cluster è la procdedura utilizzata per effettuare l’analisi dei cluster, il metodo utilizzato è quello del legame medio, l’opzione nonorm prevede che le distanze non siano normalizzate (valori assoluti)
The TREE procedure uses the output data set to produce a diagram of the tree structure, the diagram can be oriented horizontally, with the root at the left (come in questo caso, dove è specificata l’opzione horizontal S=s specifies the number of spaces between objects on the output
Come anticipato in sede teorica, il dendogramma costruito con il metodo del legame singolo presenta una forma allungata (a salsiccia), poiché viene costruito usando una sola distanza per volta, ma è anche utile ad individuare eventuali valori anomali (KILIC) a cui non viene data la giusta rilevanza nel metodo del legame medio