Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

Corso di Laurea Magistrale in Scienze Statistiche
Esame di Statistica multivariata

L’ANALISI DEI CLUSTER

A.A. 2009/2010

L’analisi dei cluster
ANALISI DEI CLUSTER
• Il presupposto di base all’analisi è che gli individui appartenenti allo stesso gruppo
dovrebbero essere allo stesso tempo simili tra loro e difformi dagli individui di
gruppo diverso.
• OBIETTIVO: formare sottogruppi omogenei della popolazione accorpando tutte
quelle osservazioni che presentano caratteristiche simili.

PROBLEMI:
1. come misurare le “distanze” tra gli individui?
2. come costruire i cluster?

LA MISURA DELLE DISTANZE

• Sia drs una qualche misura della distanza tra gli oggetti r e s appartenente alla
classe delle distanze metriche
• Se la popolazione è costituita da n individui, la matrice delle n(n-1)/2 distanze sarà:

I METODI GERARCHICI AGGLOMERATIVI
STRUTTURA LOGICA
1. Nello stadio iniziale ciascuna unità costituisce un gruppo separato. La distanza tra i gruppi è
fornita dalla matrice D.
2. I due gruppi che possiedono distanza minima vengono fusi; la distanza a cui avviene la
fusione viene registrata.
3. Si calcola la distanza tra il nuovo gruppo creato e i gruppi già esistenti.
4. Vengono ripetuti i passi 2 e 3 finché non si giunge ad una configurazione in cui esiste un
solo gruppo (ciò richiede (n -1) iterazioni) oppure a quella definita da un certo criterio.

Il processo di fusione rappresentato graficamente attraverso il dendrogramma: questo riporta
sull’asse orizzontale il livello di distanza a cui avviene la fusione e sull’asse delle ascisse riporta le
unità. Ad ogni livello di distanza corrisponde una partizione.

METODO DEL LEGAME SINGOLO
•

La distanza tra gruppi è calcolata come distanza più piccola esistente tra gli elementi
appartenenti ad un gruppo e quelli appartenenti ad un altro, cioè:

Vantaggi e svantaggi
•

Una caratteristica (ed anche un limite) del metodo sta nel produrre tendenzialmente dei
grappoli allungati (a salciccia) in relazione al fatto che la fusione dei gruppi avviene facendo
riferimento ad un solo legame.

•

Quando esistono grappoli ben delineati, ma non separati, il concatenamento potrebbe indurre a
considerare un unico grappolo.

•

Tuttavia il metodo consente di individuare grappoli di qualsiasi forma e mette in luce eventuali
valori anomali meglio di altre tecniche.


Esempio (1/2)

1

2

3
4


Esempio (2/2)

METODO DEL LEGAME MEDIO

•

La distanza tra gruppi è calcolata come media aritmetica delle distanze tra tutte le unità che
compongono i due gruppi.

• La fusione dei gruppi avviene a livelli di distanza intermedi tra quella massima e la minima


Esempio (1/2)

1

2


Esempio (2/2)

3

4

METODO DEL CENTROIDE

• La distanza tra i gruppi è pari alla distanza tra i centroidi, vale a dire i valori medi calcolati
sugli individui appartenenti ai gruppi.

• Dà luogo a fenomeni “gravitazionali”, per cui i gruppi grandi tendono ad attrarre al loro
interno i gruppi piccoli.
• Le distanze a cui avvengono le successive fusioni possono essere non crescenti.

L’analisi dei cluster: un esempio
LE VARIABILI (1/2)
 Nome giocatrice
 Variabili di battuta:


bXset = totale battute effettuate;



bACEXset = numero di ace, cioè di battute che comportano direttamente
punto alla squadra;



bERRXset = numero di battute errate;

 Variabili di ricezione:


rTOTXset = totale delle ricezioni effettuate;



rERRXset = numero di ricezioni sbagliate;



rNEGXset = numero di ricezioni che hanno influito negativamente sulla
continuazione del gioco;



rPERFXset = numero di ricezioni eseguite perfettamente;

LE VARIABILI (2/2)

Stat
Corr

 Variabili di attacco:


ATOTXset = totale degli attacchi effettuati;



aMURXset = numero di attacchi che sono stati murati dalla squadra
avversaria;



aPERFXset = numero di attacchi che hanno comportato direttamente
punto per la squadra;

 Variabili di muro:
 mINVXset = numero di invasioni a muro;
 mPERFXset = numero di muri perfettamente eseguiti che comportano
punto diretto alla squadra che mura;

I GRUPPI

 I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel
corso dell’ultimo campionato:
• S = schiacciatore
• C = centrale
• L = libero
• P = palleggiatore

LA PROCEDURA (1/2)
/* Ricerca di sottogruppi di giocatori simili nel ruolo di schiacciatore */
data clusterS; set c;
where ruolo='S';

/* metodo del legame medio*/
proc cluster method=average nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset
aPERFXset mPERFXset mINVXset;
id nome;
proc tree horizontal spaces=2;
id nome;
title 'dendrogramma per il metodo del legame medio';

LA PROCEDURA (2/2)
/* metodo del legame singolo*/
proc cluster method=single nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset
mPERFXset mINVXset;
id nome;
id nome;
title 'dendrogramma per il metodo del legame singolo';
/* metodo del centroide*/
proc cluster method=centroid nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset
mPERFXset mINVXset;
id nome;
id nome;
title 'dendrogramma per il metodo del centroide';
run;

Cronologia dei cluster

NCL

Orazi
Borgogel
CL61
Angeloni
Mengarda
Larsen
Togut
DiIulio
Pachale
Skowrons
CL56
CL58
CL53
Quaranta
Godina
CL49
CL52

Antonucc
Percan
Morelli
Poli
Starovic
Capuano
Centoni
Iadarola
Rinieri
Savostia
Moreno
Masoni
Ortolani
Djerisil
Tavares
Jerkov
CL48

Freq
2
2
3
2
2
2
2
2
2
2
3
3
3
2
2
3

Dist
min
0.1429
0.1879
0.3116
0.328
0.3394
0.3595
0.3793
0.3877
0.4146
0.4216
0.4333
0.4384
0.4387
0.4452
0.4675
0.472
0.4744

T
i
e

NCL

---Cluster uniti----

Freq

Dist
min

10
6
20
35
7
39
4
45
8
46
12
58
60
2
62
63

0.7369
0.747
0.7625
0.769
0.8227
0.8257
0.8378
0.8543
0.8835
0.9306
0.99
1.0311
1.0319
1.0533
1.1156
1.1697

......

62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46



16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

CL21
CL20
CL16
CL18
CL44
CL28
Zetova
CL15
Turlea
CL9
CL8
CL6
CL5
Francia
CL4
CL2

Rondon
CL30
CL37
CL14
Metcalf
CL13
CL50
CL11
CL12
DeLuca
CL10
CL7
CL17
Aguero
CL3
Kilic


......



NCL

Orazi
Borgogel
Angeloni
Mengarda
CL61
Larsen
Togut
DiIulio
Pachale
Skowrons
Quaranta
CL56
Godina
CL59
Fiorin
Ouzunova

Antonucc
Percan
Poli
Starovic
Morelli
Capuano
Centoni
Iadarola
Rinieri
Savostia
Djerisil
Moreno
Tavares
Masoni
Costagra
Pintore

Freq
2
2
2
2
3
2
2
2
2
2
2
3
2
3
2
2

0.1429
0.1879
0.328
0.3394
0.3398
0.3595
0.3793
0.3877
0.4146
0.4216
0.4452
0.4527
0.4675
0.4799
0.4887
0.4958

NCL


Freq

RMS
Dist

......

62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47


RMS
Dist

T
i
e

16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

CL29
Francia
CL34
CL17
CL27
Turlea
CL18
CL12
CL32
CL10
CL11
CL6
Kilic
CL4
CL5
CL2

DeLuca
Aguero
Metcalf
CL22
CL16
CL14
CL23
CL13
CL19
CL20
CL15
CL8
CL30
CL9
CL3
CL7

4
2
7
15
7
8
10
22
8
20
10
18
3
25
43
63

1.0017
1.0533
1.081
1.176
1.255
1.2739
1.3706
1.5646
1.5742
1.6159
1.6398
1.9809
2.0677
2.3072
3.1125
3.2953

T
i
e


......


NCL

Orazi
Borgogel
CL61
Angeloni
Mengarda
Larsen
Togut
DiIulio
CL56
Pachale
Skowrons
Quaranta
CL58
CL50
Godina
CL48
CL52
Fiorin

Antonucc
Percan
Morelli
Poli
Starovic
Capuano
Centoni
Iadarola
Moreno
Rinieri
Savostia
Djerisil
Masoni
CL62
Tavares
Fratczak
Ortolani
Costagra

Freq

Dist
centr

2
2
3
2
2
2
2
2
3
2
2
2
3
5
2
3
3
2

0.1429
0.1879
0.3266
0.328
0.3394
0.3595
0.3793
0.3877
0.411
0.4146
0.4216
0.4452
0.4489
0.4563
0.4675
0.4797
0.4805
0.4887

T
i
e

NCL


Freq

Dist
centr

......

62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45



14
13
12
11
10
9
8
7
6
5
4
3
2
1

CL43
Francia
CL25
Turlea
CL17
CL12
CL10
CL11
CL9
CL7
Kilic
CL4
CL3
CL5

Metcalf
Aguero
CL15
CL14
CL23
CL18
CL19
CL13
CL35
CL16
CL27
CL6
CL8
CL2

7
2
7
8
10
22
20
10
26
14
3
29
49
63

1.0168
1.0533
1.0738
1.1751
1.1865
1.2045
1.3304
1.4313
1.4514
1.6755
2.0389
1.9484
2.8046
2.6573

T
i
e


......

Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

Recommended

Recommended

More Related Content

Featured

Featured (20)

Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

Editor's Notes