SlideShare a Scribd company logo
Corso di Laurea Magistrale in Scienze Statistiche
Esame di Statistica multivariata

L’ANALISI DEI CLUSTER

A.A. 2009/2010
L’analisi dei cluster
ANALISI DEI CLUSTER
• Il presupposto di base all’analisi è che gli individui appartenenti allo stesso gruppo
dovrebbero essere allo stesso tempo simili tra loro e difformi dagli individui di
gruppo diverso.
• OBIETTIVO: formare sottogruppi omogenei della popolazione accorpando tutte
quelle osservazioni che presentano caratteristiche simili.

PROBLEMI:
1. come misurare le “distanze” tra gli individui?
2. come costruire i cluster?
L’analisi dei cluster
LA MISURA DELLE DISTANZE

• Sia drs una qualche misura della distanza tra gli oggetti r e s appartenente alla
classe delle distanze metriche
• Se la popolazione è costituita da n individui, la matrice delle n(n-1)/2 distanze sarà:
L’analisi dei cluster
I METODI GERARCHICI AGGLOMERATIVI
STRUTTURA LOGICA
1. Nello stadio iniziale ciascuna unità costituisce un gruppo separato. La distanza tra i gruppi è
fornita dalla matrice D.
2. I due gruppi che possiedono distanza minima vengono fusi; la distanza a cui avviene la
fusione viene registrata.
3. Si calcola la distanza tra il nuovo gruppo creato e i gruppi già esistenti.
4. Vengono ripetuti i passi 2 e 3 finché non si giunge ad una configurazione in cui esiste un
solo gruppo (ciò richiede (n -1) iterazioni) oppure a quella definita da un certo criterio.

Il processo di fusione rappresentato graficamente attraverso il dendrogramma: questo riporta
sull’asse orizzontale il livello di distanza a cui avviene la fusione e sull’asse delle ascisse riporta le
unità. Ad ogni livello di distanza corrisponde una partizione.
L’analisi dei cluster
METODO DEL LEGAME SINGOLO
•

La distanza tra gruppi è calcolata come distanza più piccola esistente tra gli elementi
appartenenti ad un gruppo e quelli appartenenti ad un altro, cioè:

Vantaggi e svantaggi
•

Una caratteristica (ed anche un limite) del metodo sta nel produrre tendenzialmente dei
grappoli allungati (a salciccia) in relazione al fatto che la fusione dei gruppi avviene facendo
riferimento ad un solo legame.

•

Quando esistono grappoli ben delineati, ma non separati, il concatenamento potrebbe indurre a
considerare un unico grappolo.

•

Tuttavia il metodo consente di individuare grappoli di qualsiasi forma e mette in luce eventuali
valori anomali meglio di altre tecniche.
L’analisi dei cluster
METODO DEL LEGAME SINGOLO

Esempio (1/2)

1

2

3
4
L’analisi dei cluster
METODO DEL LEGAME SINGOLO

Esempio (2/2)
L’analisi dei cluster
METODO DEL LEGAME MEDIO

•

La distanza tra gruppi è calcolata come media aritmetica delle distanze tra tutte le unità che
compongono i due gruppi.

Vantaggi e svantaggi
• La fusione dei gruppi avviene a livelli di distanza intermedi tra quella massima e la minima
L’analisi dei cluster
METODO DEL LEGAME MEDIO

Esempio (1/2)

1

2
L’analisi dei cluster
METODO DEL LEGAME MEDIO

Esempio (2/2)

3

4
L’analisi dei cluster
METODO DEL CENTROIDE

• La distanza tra i gruppi è pari alla distanza tra i centroidi, vale a dire i valori medi calcolati
sugli individui appartenenti ai gruppi.

Vantaggi e svantaggi
• Dà luogo a fenomeni “gravitazionali”, per cui i gruppi grandi tendono ad attrarre al loro
interno i gruppi piccoli.
• Le distanze a cui avvengono le successive fusioni possono essere non crescenti.
L’analisi dei cluster: un esempio
LE VARIABILI (1/2)
 Nome giocatrice
 Variabili di battuta:


bXset = totale battute effettuate;



bACEXset = numero di ace, cioè di battute che comportano direttamente
punto alla squadra;



bERRXset = numero di battute errate;

 Variabili di ricezione:


rTOTXset = totale delle ricezioni effettuate;



rERRXset = numero di ricezioni sbagliate;



rNEGXset = numero di ricezioni che hanno influito negativamente sulla
continuazione del gioco;



rPERFXset = numero di ricezioni eseguite perfettamente;
L’analisi dei cluster: un esempio
LE VARIABILI (2/2)

Stat
Corr

 Variabili di attacco:


ATOTXset = totale degli attacchi effettuati;



aMURXset = numero di attacchi che sono stati murati dalla squadra
avversaria;



aPERFXset = numero di attacchi che hanno comportato direttamente
punto per la squadra;

 Variabili di muro:
 mINVXset = numero di invasioni a muro;
 mPERFXset = numero di muri perfettamente eseguiti che comportano
punto diretto alla squadra che mura;
L’analisi dei cluster: un esempio
I GRUPPI

 I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel
corso dell’ultimo campionato:
• S = schiacciatore
• C = centrale
• L = libero
• P = palleggiatore
L’analisi dei cluster: un esempio
LA PROCEDURA (1/2)
/* Ricerca di sottogruppi di giocatori simili nel ruolo di schiacciatore */
data clusterS; set c;
where ruolo='S';

/* metodo del legame medio*/
proc cluster method=average nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset
aPERFXset mPERFXset mINVXset;
id nome;
proc tree horizontal spaces=2;
id nome;
title 'dendrogramma per il metodo del legame medio';
L’analisi dei cluster: un esempio
LA PROCEDURA (2/2)
/* metodo del legame singolo*/
proc cluster method=single nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset
mPERFXset mINVXset;
id nome;
proc tree horizontal spaces=2;
id nome;
title 'dendrogramma per il metodo del legame singolo';
/* metodo del centroide*/
proc cluster method=centroid nonorm data=clusterS;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset
mPERFXset mINVXset;
id nome;
proc tree horizontal spaces=2;
id nome;
title 'dendrogramma per il metodo del centroide';
run;
L’analisi dei cluster: un esempio
METODO DEL LEGAME SINGOLO
Cronologia dei cluster

NCL

Orazi
Borgogel
CL61
Angeloni
Mengarda
Larsen
Togut
DiIulio
Pachale
Skowrons
CL56
CL58
CL53
Quaranta
Godina
CL49
CL52

Antonucc
Percan
Morelli
Poli
Starovic
Capuano
Centoni
Iadarola
Rinieri
Savostia
Moreno
Masoni
Ortolani
Djerisil
Tavares
Jerkov
CL48

Freq
2
2
3
2
2
2
2
2
2
2
3
3
3
2
2
3

Dist
min
0.1429
0.1879
0.3116
0.328
0.3394
0.3595
0.3793
0.3877
0.4146
0.4216
0.4333
0.4384
0.4387
0.4452
0.4675
0.472
0.4744

T
i
e

NCL

---Cluster uniti----

Freq

Dist
min

10
6
20
35
7
39
4
45
8
46
12
58
60
2
62
63

0.7369
0.747
0.7625
0.769
0.8227
0.8257
0.8378
0.8543
0.8835
0.9306
0.99
1.0311
1.0319
1.0533
1.1156
1.1697

......

62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46

---Cluster uniti----

Cronologia dei cluster

16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

CL21
CL20
CL16
CL18
CL44
CL28
Zetova
CL15
Turlea
CL9
CL8
CL6
CL5
Francia
CL4
CL2

Rondon
CL30
CL37
CL14
Metcalf
CL13
CL50
CL11
CL12
DeLuca
CL10
CL7
CL17
Aguero
CL3
Kilic
L’analisi dei cluster: un esempio
METODO DEL LEGAME SINGOLO

......
L’analisi dei cluster: un esempio
METODO DEL LEGAME MEDIO
Cronologia dei cluster

Cronologia dei cluster

NCL

Orazi
Borgogel
Angeloni
Mengarda
CL61
Larsen
Togut
DiIulio
Pachale
Skowrons
Quaranta
CL56
Godina
CL59
Fiorin
Ouzunova

Antonucc
Percan
Poli
Starovic
Morelli
Capuano
Centoni
Iadarola
Rinieri
Savostia
Djerisil
Moreno
Tavares
Masoni
Costagra
Pintore

Freq
2
2
2
2
3
2
2
2
2
2
2
3
2
3
2
2

0.1429
0.1879
0.328
0.3394
0.3398
0.3595
0.3793
0.3877
0.4146
0.4216
0.4452
0.4527
0.4675
0.4799
0.4887
0.4958

NCL

---Cluster uniti----

Freq

RMS
Dist

......

62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47

---Cluster uniti----

RMS
Dist

T
i
e

16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

CL29
Francia
CL34
CL17
CL27
Turlea
CL18
CL12
CL32
CL10
CL11
CL6
Kilic
CL4
CL5
CL2

DeLuca
Aguero
Metcalf
CL22
CL16
CL14
CL23
CL13
CL19
CL20
CL15
CL8
CL30
CL9
CL3
CL7

4
2
7
15
7
8
10
22
8
20
10
18
3
25
43
63

1.0017
1.0533
1.081
1.176
1.255
1.2739
1.3706
1.5646
1.5742
1.6159
1.6398
1.9809
2.0677
2.3072
3.1125
3.2953

T
i
e
L’analisi dei cluster: un esempio
METODO DEL LEGAME MEDIO

......
L’analisi dei cluster: un esempio
METODO DEL CENTROIDE
Cronologia dei cluster

NCL

Orazi
Borgogel
CL61
Angeloni
Mengarda
Larsen
Togut
DiIulio
CL56
Pachale
Skowrons
Quaranta
CL58
CL50
Godina
CL48
CL52
Fiorin

Antonucc
Percan
Morelli
Poli
Starovic
Capuano
Centoni
Iadarola
Moreno
Rinieri
Savostia
Djerisil
Masoni
CL62
Tavares
Fratczak
Ortolani
Costagra

Freq

Dist
centr

2
2
3
2
2
2
2
2
3
2
2
2
3
5
2
3
3
2

0.1429
0.1879
0.3266
0.328
0.3394
0.3595
0.3793
0.3877
0.411
0.4146
0.4216
0.4452
0.4489
0.4563
0.4675
0.4797
0.4805
0.4887

T
i
e

NCL

---Cluster uniti----

Freq

Dist
centr

......

62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45

---Cluster uniti----

Cronologia dei cluster

14
13
12
11
10
9
8
7
6
5
4
3
2
1

CL43
Francia
CL25
Turlea
CL17
CL12
CL10
CL11
CL9
CL7
Kilic
CL4
CL3
CL5

Metcalf
Aguero
CL15
CL14
CL23
CL18
CL19
CL13
CL35
CL16
CL27
CL6
CL8
CL2

7
2
7
8
10
22
20
10
26
14
3
29
49
63

1.0168
1.0533
1.0738
1.1751
1.1865
1.2045
1.3304
1.4313
1.4514
1.6755
2.0389
1.9484
2.8046
2.6573

T
i
e
L’analisi dei cluster: un esempio
METODO DEL CENTROIDE

......

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

  • 1. Corso di Laurea Magistrale in Scienze Statistiche Esame di Statistica multivariata L’ANALISI DEI CLUSTER A.A. 2009/2010
  • 2. L’analisi dei cluster ANALISI DEI CLUSTER • Il presupposto di base all’analisi è che gli individui appartenenti allo stesso gruppo dovrebbero essere allo stesso tempo simili tra loro e difformi dagli individui di gruppo diverso. • OBIETTIVO: formare sottogruppi omogenei della popolazione accorpando tutte quelle osservazioni che presentano caratteristiche simili. PROBLEMI: 1. come misurare le “distanze” tra gli individui? 2. come costruire i cluster?
  • 3. L’analisi dei cluster LA MISURA DELLE DISTANZE • Sia drs una qualche misura della distanza tra gli oggetti r e s appartenente alla classe delle distanze metriche • Se la popolazione è costituita da n individui, la matrice delle n(n-1)/2 distanze sarà:
  • 4. L’analisi dei cluster I METODI GERARCHICI AGGLOMERATIVI STRUTTURA LOGICA 1. Nello stadio iniziale ciascuna unità costituisce un gruppo separato. La distanza tra i gruppi è fornita dalla matrice D. 2. I due gruppi che possiedono distanza minima vengono fusi; la distanza a cui avviene la fusione viene registrata. 3. Si calcola la distanza tra il nuovo gruppo creato e i gruppi già esistenti. 4. Vengono ripetuti i passi 2 e 3 finché non si giunge ad una configurazione in cui esiste un solo gruppo (ciò richiede (n -1) iterazioni) oppure a quella definita da un certo criterio. Il processo di fusione rappresentato graficamente attraverso il dendrogramma: questo riporta sull’asse orizzontale il livello di distanza a cui avviene la fusione e sull’asse delle ascisse riporta le unità. Ad ogni livello di distanza corrisponde una partizione.
  • 5. L’analisi dei cluster METODO DEL LEGAME SINGOLO • La distanza tra gruppi è calcolata come distanza più piccola esistente tra gli elementi appartenenti ad un gruppo e quelli appartenenti ad un altro, cioè: Vantaggi e svantaggi • Una caratteristica (ed anche un limite) del metodo sta nel produrre tendenzialmente dei grappoli allungati (a salciccia) in relazione al fatto che la fusione dei gruppi avviene facendo riferimento ad un solo legame. • Quando esistono grappoli ben delineati, ma non separati, il concatenamento potrebbe indurre a considerare un unico grappolo. • Tuttavia il metodo consente di individuare grappoli di qualsiasi forma e mette in luce eventuali valori anomali meglio di altre tecniche.
  • 6. L’analisi dei cluster METODO DEL LEGAME SINGOLO Esempio (1/2) 1 2 3 4
  • 7. L’analisi dei cluster METODO DEL LEGAME SINGOLO Esempio (2/2)
  • 8. L’analisi dei cluster METODO DEL LEGAME MEDIO • La distanza tra gruppi è calcolata come media aritmetica delle distanze tra tutte le unità che compongono i due gruppi. Vantaggi e svantaggi • La fusione dei gruppi avviene a livelli di distanza intermedi tra quella massima e la minima
  • 9. L’analisi dei cluster METODO DEL LEGAME MEDIO Esempio (1/2) 1 2
  • 10. L’analisi dei cluster METODO DEL LEGAME MEDIO Esempio (2/2) 3 4
  • 11. L’analisi dei cluster METODO DEL CENTROIDE • La distanza tra i gruppi è pari alla distanza tra i centroidi, vale a dire i valori medi calcolati sugli individui appartenenti ai gruppi. Vantaggi e svantaggi • Dà luogo a fenomeni “gravitazionali”, per cui i gruppi grandi tendono ad attrarre al loro interno i gruppi piccoli. • Le distanze a cui avvengono le successive fusioni possono essere non crescenti.
  • 12. L’analisi dei cluster: un esempio LE VARIABILI (1/2)  Nome giocatrice  Variabili di battuta:  bXset = totale battute effettuate;  bACEXset = numero di ace, cioè di battute che comportano direttamente punto alla squadra;  bERRXset = numero di battute errate;  Variabili di ricezione:  rTOTXset = totale delle ricezioni effettuate;  rERRXset = numero di ricezioni sbagliate;  rNEGXset = numero di ricezioni che hanno influito negativamente sulla continuazione del gioco;  rPERFXset = numero di ricezioni eseguite perfettamente;
  • 13. L’analisi dei cluster: un esempio LE VARIABILI (2/2) Stat Corr  Variabili di attacco:  ATOTXset = totale degli attacchi effettuati;  aMURXset = numero di attacchi che sono stati murati dalla squadra avversaria;  aPERFXset = numero di attacchi che hanno comportato direttamente punto per la squadra;  Variabili di muro:  mINVXset = numero di invasioni a muro;  mPERFXset = numero di muri perfettamente eseguiti che comportano punto diretto alla squadra che mura;
  • 14. L’analisi dei cluster: un esempio I GRUPPI  I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel corso dell’ultimo campionato: • S = schiacciatore • C = centrale • L = libero • P = palleggiatore
  • 15. L’analisi dei cluster: un esempio LA PROCEDURA (1/2) /* Ricerca di sottogruppi di giocatori simili nel ruolo di schiacciatore */ data clusterS; set c; where ruolo='S'; /* metodo del legame medio*/ proc cluster method=average nonorm data=clusterS; var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset; id nome; proc tree horizontal spaces=2; id nome; title 'dendrogramma per il metodo del legame medio';
  • 16. L’analisi dei cluster: un esempio LA PROCEDURA (2/2) /* metodo del legame singolo*/ proc cluster method=single nonorm data=clusterS; var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset; id nome; proc tree horizontal spaces=2; id nome; title 'dendrogramma per il metodo del legame singolo'; /* metodo del centroide*/ proc cluster method=centroid nonorm data=clusterS; var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset; id nome; proc tree horizontal spaces=2; id nome; title 'dendrogramma per il metodo del centroide'; run;
  • 17. L’analisi dei cluster: un esempio METODO DEL LEGAME SINGOLO Cronologia dei cluster NCL Orazi Borgogel CL61 Angeloni Mengarda Larsen Togut DiIulio Pachale Skowrons CL56 CL58 CL53 Quaranta Godina CL49 CL52 Antonucc Percan Morelli Poli Starovic Capuano Centoni Iadarola Rinieri Savostia Moreno Masoni Ortolani Djerisil Tavares Jerkov CL48 Freq 2 2 3 2 2 2 2 2 2 2 3 3 3 2 2 3 Dist min 0.1429 0.1879 0.3116 0.328 0.3394 0.3595 0.3793 0.3877 0.4146 0.4216 0.4333 0.4384 0.4387 0.4452 0.4675 0.472 0.4744 T i e NCL ---Cluster uniti---- Freq Dist min 10 6 20 35 7 39 4 45 8 46 12 58 60 2 62 63 0.7369 0.747 0.7625 0.769 0.8227 0.8257 0.8378 0.8543 0.8835 0.9306 0.99 1.0311 1.0319 1.0533 1.1156 1.1697 ...... 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 ---Cluster uniti---- Cronologia dei cluster 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 CL21 CL20 CL16 CL18 CL44 CL28 Zetova CL15 Turlea CL9 CL8 CL6 CL5 Francia CL4 CL2 Rondon CL30 CL37 CL14 Metcalf CL13 CL50 CL11 CL12 DeLuca CL10 CL7 CL17 Aguero CL3 Kilic
  • 18. L’analisi dei cluster: un esempio METODO DEL LEGAME SINGOLO ......
  • 19. L’analisi dei cluster: un esempio METODO DEL LEGAME MEDIO Cronologia dei cluster Cronologia dei cluster NCL Orazi Borgogel Angeloni Mengarda CL61 Larsen Togut DiIulio Pachale Skowrons Quaranta CL56 Godina CL59 Fiorin Ouzunova Antonucc Percan Poli Starovic Morelli Capuano Centoni Iadarola Rinieri Savostia Djerisil Moreno Tavares Masoni Costagra Pintore Freq 2 2 2 2 3 2 2 2 2 2 2 3 2 3 2 2 0.1429 0.1879 0.328 0.3394 0.3398 0.3595 0.3793 0.3877 0.4146 0.4216 0.4452 0.4527 0.4675 0.4799 0.4887 0.4958 NCL ---Cluster uniti---- Freq RMS Dist ...... 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 ---Cluster uniti---- RMS Dist T i e 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 CL29 Francia CL34 CL17 CL27 Turlea CL18 CL12 CL32 CL10 CL11 CL6 Kilic CL4 CL5 CL2 DeLuca Aguero Metcalf CL22 CL16 CL14 CL23 CL13 CL19 CL20 CL15 CL8 CL30 CL9 CL3 CL7 4 2 7 15 7 8 10 22 8 20 10 18 3 25 43 63 1.0017 1.0533 1.081 1.176 1.255 1.2739 1.3706 1.5646 1.5742 1.6159 1.6398 1.9809 2.0677 2.3072 3.1125 3.2953 T i e
  • 20. L’analisi dei cluster: un esempio METODO DEL LEGAME MEDIO ......
  • 21. L’analisi dei cluster: un esempio METODO DEL CENTROIDE Cronologia dei cluster NCL Orazi Borgogel CL61 Angeloni Mengarda Larsen Togut DiIulio CL56 Pachale Skowrons Quaranta CL58 CL50 Godina CL48 CL52 Fiorin Antonucc Percan Morelli Poli Starovic Capuano Centoni Iadarola Moreno Rinieri Savostia Djerisil Masoni CL62 Tavares Fratczak Ortolani Costagra Freq Dist centr 2 2 3 2 2 2 2 2 3 2 2 2 3 5 2 3 3 2 0.1429 0.1879 0.3266 0.328 0.3394 0.3595 0.3793 0.3877 0.411 0.4146 0.4216 0.4452 0.4489 0.4563 0.4675 0.4797 0.4805 0.4887 T i e NCL ---Cluster uniti---- Freq Dist centr ...... 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 ---Cluster uniti---- Cronologia dei cluster 14 13 12 11 10 9 8 7 6 5 4 3 2 1 CL43 Francia CL25 Turlea CL17 CL12 CL10 CL11 CL9 CL7 Kilic CL4 CL3 CL5 Metcalf Aguero CL15 CL14 CL23 CL18 CL19 CL13 CL35 CL16 CL27 CL6 CL8 CL2 7 2 7 8 10 22 20 10 26 14 3 29 49 63 1.0168 1.0533 1.0738 1.1751 1.1865 1.2045 1.3304 1.4313 1.4514 1.6755 2.0389 1.9484 2.8046 2.6573 T i e
  • 22. L’analisi dei cluster: un esempio METODO DEL CENTROIDE ......

Editor's Notes

  1. In questa presentazione farò un’introduzione teorica all’analisi dei cluster, in particolare mi soffermerò sui metodi gerarchici agglomerativi (legame singolo, legame medio e centroide) e presenterò un’applicazione in SAS sul dataset pallavolo.
  2. Distanza è una misura positiva (uguale a 0 solo per oggetti identici), solitamente non normalizzata PROPRIETA’ DELLA DISTANZA METRICA 1. drs >= 0 for all r, s (positivity); 2. drr = 0 for all r (identity); 3. drs = dsr for all r, s (symmetry); 4. if also drs + dst >= drt for all r, s, t (triangle inequality), then d is said to be metric. La matrice delle distanze è simmetrica
  3. procedono per aggregazioni successive delle unità partendo da n gruppi formati da un solo individuo VS divisivi: partono da un solo gruppo formato da tutte le unità e procedono a partizioni successive fino a giungere a gruppi formati da una sola unità. n= numerosità popolazione
  4. SINGLE LINKAGE
  5. 1. la coppia di unità che presenta distanza minima è (AB); le medesime sono unite in un gruppo. Si deve ora determinare la distanza tra il gruppo appena formato e le rimanenti unità; questa sarà fornita dalla piu piccola delle distanze con le unità componenti il gruppo (ad esempio, la distanza tra (AB) e (C) è uguale al minore tra 6 e 5). 2. A questo punto le unità (D) e (E) vengono fuse nel gruppo (DE) e si ottiene la nuova matrice di distanze; 3. Vengono fusi i gruppi (C) e (DE), che presentano distanza minima (4), ottenendosi 4. L’ultima iterazione aggrega i due gruppi in un unico gruppo contenente tutte le unità.
  6. SEQUENZA DELLE FUSIONI
  7. AVERAGE LINKAGE Metodo del legame completo:
  8. Confrontando con il dendogramma relativo al metodo del legame singolo si può osservare come la fusione avvenga prima (forma più arrotondata del dendrogramma, meno “a salsicciotto”
  9. Confrontando con il dendogramma relativo al metodo del legame singolo si può osservare come la fusione avvenga prima (forma più arrotondata del dendrogramma, meno “a salsicciotto”
  10. Metodo che richiede la matrice dei dati originaria X.
  11. Standardizzate dividendole per i set giocati
  12. Seleziono dal dataset iniziale le atlete che giocano nel ruolo di schiacciatrice La proc cluster è la procdedura utilizzata per effettuare l’analisi dei cluster, il metodo utilizzato è quello del legame medio, l’opzione nonorm prevede che le distanze non siano normalizzate (valori assoluti) The TREE procedure uses the output data set to produce a diagram of the tree structure, the diagram can be oriented horizontally, with the root at the left (come in questo caso, dove è specificata l’opzione horizontal S=s specifies the number of spaces between objects on the output
  13. Come anticipato in sede teorica, il dendogramma costruito con il metodo del legame singolo presenta una forma allungata (a salsiccia), poiché viene costruito usando una sola distanza per volta, ma è anche utile ad individuare eventuali valori anomali (KILIC) a cui non viene data la giusta rilevanza nel metodo del legame medio