Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Il rischio è dietro l'angolo
1. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il rischio `e dietro l’angolo
Applicazione dell’ACM al diabete mellito di tipo 2
Barbara Amendola Marco D’Alessandro Ida Riccio
Universit`a degli Studi di Napoli Federico II
Settembre 2017
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
2. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
1 Il problema
2 I dati e la codifica
3 L’ACM
4 Rappresentazioni grafiche
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
3. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Prime considerazioni
Le variabili qualitative
Non esistono procedure ben definite per la misurazione di
grandezze non tangibili come il genere, lo stato civile, il
comportamento, la soddisfazione, la percezione della qualit`a, ecc..
[Finkelstein, 1982]
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
4. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il diabete mellito di tipo 2
Caratteristiche
Diabete dell’adulto
´E una malattia cronica metabolica
´E la forma pi`u comune di diabete
Diffusa in tutto il mondo
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
5. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il diabete mellito di tipo 2
Caratteristiche
Diabete dell’adulto
´E una malattia cronica metabolica
´E la forma pi`u comune di diabete
Diffusa in tutto il mondo
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
6. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il diabete mellito di tipo 2
Caratteristiche
Diabete dell’adulto
´E una malattia cronica metabolica
´E la forma pi`u comune di diabete
Diffusa in tutto il mondo
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
7. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il diabete mellito di tipo 2
Caratteristiche
Diabete dell’adulto
´E una malattia cronica metabolica
´E la forma pi`u comune di diabete
Diffusa in tutto il mondo
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
8. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I fattori di rischio
Figura: I principali fattori di rischio nel diabete
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
9. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I fattori di rischio
Familiarit`a
Il diabete presenta una forte aggregazione familiare, una
componente genetica ereditaria multifattoriale;
Le cause alla base dell’insorgenza della malattia vanno
generalmente ricercate anche in fattori ereditari.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
10. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I fattori di rischio
Carenza di esercizio
Le due parole-chiave maggiormente collegate a questo fattore
sono:
sedentariet`a1;
esercizio fisico strutturato2.
1
http : //www.diabetologiajournal.org
2
http : //www.mypersonaltrainer.it/sport/diabete
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
11. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I fattori di rischio
Dieta non salutare
“...la dieta corretta per il diabetico `e quella che meglio si accosta
alle necessit`a (in continua evoluzione) del paziente terapizzato3”
3
http : //www.mypersonaltrainer.it/alimentazione/verduradiabete
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
12. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I fattori di rischio
Circonferenza vita
Il peso eccessivo, soprattutto se concentrato sull’addome, `e
riconosciuto come uno dei maggiori fattori di rischio per il diabete
di tipo 2.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
13. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I fattori di rischio
Glicemia
Il diabete mellito di tipo 2 `e caratterizzato dall’aumento della
concentrazione di glucosio (la principale fonte di energia per i
muscoli e gli organi) nel sangue.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
14. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I fattori di rischio
Pressione alta
L’ipertensione arteriosa non curata causa danni ad organi quali
cervello, cuore e reni, ai diabetici ed ai non diabetici.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
15. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Gli obiettivi
Cosa ci proponiamo
1 studiare simultaneamente i fattori di rischio proposti,
sintetizzandone l’azione sinergica attraverso un numero
ridotto di nuove variabili;
2 rispondere ai seguenti interrogativi di ricerca:
sono pi`u a rischio i maschi o le femmine?
c’`e rischio anche per le persone giovani?
quanto influenza avere un caso di diabete in famiglia?
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
16. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Gli obiettivi
Cosa ci proponiamo
1 studiare simultaneamente i fattori di rischio proposti,
sintetizzandone l’azione sinergica attraverso un numero
ridotto di nuove variabili;
2 rispondere ai seguenti interrogativi di ricerca:
sono pi`u a rischio i maschi o le femmine?
c’`e rischio anche per le persone giovani?
quanto influenza avere un caso di diabete in famiglia?
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
17. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
I dati
Il questionario
n=400 individui;
domande in forma chiusa;
p=8 variabili categoriche;
campionamento probabilistico;
non ci sono risposte mancanti
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
18. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il questionario
Suddivisione
Il questionario `e diviso in 3 parti:
caratteristiche socio-demografiche
et`a;
genere;
presenza di casi in famiglia.
caratteristiche comportamentali
frutta e verdura;
esercizio fisico regolare;
controllo della pressione;
controllo della glicemia
scopo della ricerca
misura della circonferenza vita
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
19. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il questionario
Suddivisione
Il questionario `e diviso in 3 parti:
caratteristiche socio-demografiche
et`a;
genere;
presenza di casi in famiglia.
caratteristiche comportamentali
frutta e verdura;
esercizio fisico regolare;
controllo della pressione;
controllo della glicemia
scopo della ricerca
misura della circonferenza vita
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
20. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il questionario
Suddivisione
Il questionario `e diviso in 3 parti:
caratteristiche socio-demografiche
et`a;
genere;
presenza di casi in famiglia.
caratteristiche comportamentali
frutta e verdura;
esercizio fisico regolare;
controllo della pressione;
controllo della glicemia
scopo della ricerca
misura della circonferenza vita
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
21. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice dei dati
Figura: La matrice dei dati
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
22. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Sulla matrice dei dati
Dal campione risulta che:
48.75% femmine, 51.25% maschi;
49.75% non pratica esercizio fisico regolare, 50.25% pratica;
44.5% di et`a minore di 45 anni, 37.5% di et`a compresa tra i
54 ed i 64 anni.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
23. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Sulla matrice dei dati
Dal campione risulta che:
48.75% femmine, 51.25% maschi;
49.75% non pratica esercizio fisico regolare, 50.25% pratica;
44.5% di et`a minore di 45 anni, 37.5% di et`a compresa tra i
54 ed i 64 anni.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
24. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Sulla matrice dei dati
Dal campione risulta che:
48.75% femmine, 51.25% maschi;
49.75% non pratica esercizio fisico regolare, 50.25% pratica;
44.5% di et`a minore di 45 anni, 37.5% di et`a compresa tra i
54 ed i 64 anni.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
25. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Scelta delle variabili e degli individui
´E importante ricordare che le variabili coinvolte nella nostra analisi
possono assumere due differenti ruoli “strategici”:
variabili attive:
Eserfis;
Frutta;
Glicemia;
Pressione;
Circvita
variabili supplementari:
Genere;
Et`a;
Famiglia
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
26. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Scelta delle variabili e degli individui
´E importante ricordare che le variabili coinvolte nella nostra analisi
possono assumere due differenti ruoli “strategici”:
variabili attive:
Eserfis;
Frutta;
Glicemia;
Pressione;
Circvita
variabili supplementari:
Genere;
Et`a;
Famiglia
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
27. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Scelta delle variabili e degli individui
´E importante ricordare che le variabili coinvolte nella nostra analisi
possono assumere due differenti ruoli “strategici”:
variabili attive:
Eserfis;
Frutta;
Glicemia;
Pressione;
Circvita
variabili supplementari:
Genere;
Et`a;
Famiglia
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
28. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Scelta delle variabili e degli individui
´E importante ricordare che le variabili coinvolte nella nostra analisi
possono assumere due differenti ruoli “strategici”:
variabili attive:
Eserfis;
Frutta;
Glicemia;
Pressione;
Circvita
variabili supplementari:
Genere;
Et`a;
Famiglia
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
29. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice logico-disgiuntiva completa
Il tipo di codifica `e:
disgiuntivo perch`e le diverse modalit`a di ciascuna variabile si
escludono a vicenda;
completo perch`e in ogni cella viene attribuito un valore
uguale a 0 (se l’unit`a non presenta quella modalit`a) o 1 (se
l’unit`a presenta quella modalit`a).
Attenzione: questi 0 e 1, per`o, non devono essere trattati come
numeri, ma come semplici indicatori.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
30. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice logico-disgiuntiva completa
Figura: La matrice logico-disgiuntiva completa
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
31. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
I profili riga
I marginali di riga sono uguali per tutti gli individui a 0.0025:
Figura: Marginali di riga
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
32. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
I profili colonna
La modalit`a Pressione-No ha il marginale di colonna pi`u alto.
La modalit`a Uomini (pi`u di 102) Donne (pi`u di 88) ha il marginale
di colonna pi`u basso.
Figura: Marginali di colonna
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
33. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice di Burt
´E nota anche come matrice delle corrispondenze multiple perch`e
vengono considerati tutti i possibili incroci tra le coppie di
modalit`a delle variabili:
`e simmetrica;
`e costituita da p2 blocchi;
i blocchi diagonali rappresentano sottomatrici diagonali di
ordine sj ;
i blocchi non diagonali rappresentano le tabelle di contingenza
relative alle modalit`a delle variabili.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
34. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice di Burt
´E nota anche come matrice delle corrispondenze multiple perch`e
vengono considerati tutti i possibili incroci tra le coppie di
modalit`a delle variabili:
`e simmetrica;
`e costituita da p2 blocchi;
i blocchi diagonali rappresentano sottomatrici diagonali di
ordine sj ;
i blocchi non diagonali rappresentano le tabelle di contingenza
relative alle modalit`a delle variabili.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
35. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice di Burt
´E nota anche come matrice delle corrispondenze multiple perch`e
vengono considerati tutti i possibili incroci tra le coppie di
modalit`a delle variabili:
`e simmetrica;
`e costituita da p2 blocchi;
i blocchi diagonali rappresentano sottomatrici diagonali di
ordine sj ;
i blocchi non diagonali rappresentano le tabelle di contingenza
relative alle modalit`a delle variabili.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
36. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice di Burt
´E nota anche come matrice delle corrispondenze multiple perch`e
vengono considerati tutti i possibili incroci tra le coppie di
modalit`a delle variabili:
`e simmetrica;
`e costituita da p2 blocchi;
i blocchi diagonali rappresentano sottomatrici diagonali di
ordine sj ;
i blocchi non diagonali rappresentano le tabelle di contingenza
relative alle modalit`a delle variabili.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
37. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice di Burt
Figura: La matrice di Burt
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
38. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
Sulla matrice di Burt
La coppia di modalit`a che si presenta di pi`u `e Frutta-Tutti i giorni
e Pressione-No (215 persone in comune).
Le coppie di modalit`a che, invece, si presentano di meno sono
Uomini (meno di 94) Donne (meno di 80) e Pressione-Si (14
persone in comune) ed anche Frutta-Non tutti i giorni e
Pressione-Si (6 persone in comune).
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
39. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Le matrici
La matrice diagonale
Figura: La matrice diagonale
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
40. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Introduzione
Caratteristiche del metodo
L’applicazione pi`u frequente dell’Analisi delle Corrispondenze
Multiple (ACM) riguarda l’analisi delle risposte ottenute in una
indagine effettuata tramite un sondaggio con questionario chiuso,
in cui le modalit`a di risposta alle singole domande sono gi`a
predisposte e mutuamente esclusive: l’intervistato deve limitarsi a
indicarne una.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
41. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Introduzione
Caratteristiche del metodo
Definita la matrice di Burt, l’ACM pu`o essere intesa come un caso
particolare dell’ACP. Analogamente all’ACP, la ricerca del
sottospazio ottimale avviene ricercando i fattori latenti che
massimizzano l’inerzia (la variabilit`a) della nube dei punti proiettati
su di essi. L’ACM si caratterizza rispetto all’ACP per i seguenti
elementi:
la matrice da cui estrarre gli autovalori e gli autovettori `e
costituita dalla matrice di Burt;
la distanza tra due punti nello spazio `e misurata attraverso
la metrica del χ2 (Chi-Quadro).
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
42. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Introduzione
Caratteristiche del metodo
Definita la matrice di Burt, l’ACM pu`o essere intesa come un caso
particolare dell’ACP. Analogamente all’ACP, la ricerca del
sottospazio ottimale avviene ricercando i fattori latenti che
massimizzano l’inerzia (la variabilit`a) della nube dei punti proiettati
su di essi. L’ACM si caratterizza rispetto all’ACP per i seguenti
elementi:
la matrice da cui estrarre gli autovalori e gli autovettori `e
costituita dalla matrice di Burt;
la distanza tra due punti nello spazio `e misurata attraverso
la metrica del χ2 (Chi-Quadro).
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
43. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Introduzione
Caratteristiche del metodo
Il metodo conviene alla costruzione una serie di variabili
indipendenti dette “variabili latenti” (o fattori), che sono
combinazione lineare delle variabili originali;
Lo scopo dell’Analisi delle corrispondenze multiple `e quello di
rendere evidenti le relazioni tra modalit`a, tra individui e tra
individui e modalit`a, proiettando i loro profili in sottospazi di
ridotta dimensionalit`a.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
44. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Operativamente
Autovalori ed autovettori
La matrice B di Burt e la matrice Z avranno gli stessi
autovettori uα mentre gli autovalori µα della matrice B
saranno uguali al quadrato dei corrispondenti autovalori λα di
Z:
µα = (λα)2
(1)
Ricordando che vale la relazione ZT Z = B, gli autovalori non
vengono calcolati direttamente sulla matrice B, ma dunque
sulla matrice D−1B, quadrata di ordine 11
(diagonalizzazione della matrice di Burt).
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
45. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Operativamente
Autovalori ed autovettori
Gli autovalori ricavati dalla matrice B costruita in precedenza sono:
eigenvalue
Dim.1 0.13493940
Dim.2 0.07243176
Dim.3 0.02539162
Dim.4 0.02084579
Dim.5 0.02029201
Dim.6 0.01377086
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
46. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Variabilit`a
Tassi di inerzia
Nell’analisi potranno essere determinati al massimo s-p autovalori
non nulli e la percentuale di variabilit`a spiegata da ciascun fattore
(tasso di inerzia) sar`a rappresentata dalla quantit`a:
T.I. =
λα
s−p
J=1 λα
100 (2)
A ciascun fattore, dunque, `e associato un autovalore λ che
rappresenta la quota d’inerzia (variabilit`a nell’ACP) spiegata da
quel fattore.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
47. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Variabilit`a
Tassi di inerzia
I fattori estratti vengono considerati a partire da quello con
l’autovalore pi`u elevato, che spiega la quota maggiore dell’inerzia
totale:
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4
Variance 0.135 0.072 0.025 0.021
% of var. 46.907 25.179 8.827 7.246
Cumulative % of var. 46.907 72.086 80.913 88.159
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
48. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Estrazione dei fattori
Scree-test
Figura: Istogramma dell’inerzia spiegata da ciascun fattore
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
49. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Indicatori da considerare
Contributo assoluto
`E la quota di inerzia totale del fattore spiegata dalla modalit`a
stessa. Rappresenta, cio`e, quanta parte ha avuto la modalit`a
nella determinazione del fattore, in rapporto all’insieme delle
modalit`a;
Nell’interpretazione del fattore, si prenderanno in
considerazione le modalit`a con contributo assoluto maggiore
di 100/q, dove q denota il numero complessivo di tutte le
modalit`a delle variabili attive;
Nel nostro caso, si prenderanno in considerazione le modalit`a
con contributo maggiore di 100/11 = 9,09.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
50. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Indicatori da considerare
Contributo assoluto
Sul primo asse fattoriale segnaliamo:
Uomini (meno di 94) Donne (meno di 80) e Glicemia-Si;
Pressione-No, Pressione-Si e Uomini (pi`u di 102) Donne (pi`u
di 88)
Figura: Contributo delle variabili alla prima dimensione
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
51. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Indicatori da considerare
Contributo assoluto
Sul secondo asse fattoriale segnaliamo:
Pressione-Si e Uomini (pi`u di 102) Donne (pi`u di 88);
Frutta-Tutti i giorni, Frutta-Non tutti i giorni Glicemia-No e
Glicemia-Si.
Figura: Contributo delle variabili sulla seconda dimensione
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
52. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Indicatori da considerare
Contributo relativo
Indica il contributo del fattore alla spiegazione della variabilit`a
di una determinata modalit`a;
`E una misura della qualit`a della rappresentazione dei punti sui
nuovi assi (o sui nuovi piani);
Un punto sar`a tanto meglio rappresentato nello spazio quanto
pi`u il valore del coseno al quadrato si avvicina a 1.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
53. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Indicatori da considerare
Contributo relativo
Sul primo asse fattoriale segnaliamo:
Uomini (meno di 94) Donne (meno di 80), Glicemia-Si e
Glicemia-No;
Uomini (pi`u di 102) Donne (pi`u di 88).
Figura: Cosen-quadro delle variabili sulla prima dimensione
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
54. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Indicatori da considerare
Contributo relativo
Sul secondo asse fattoriale segnaliamo:
Pressione-Si, Pressione-No e Uomini (pi`u di 102) Donne (pi`u
di 88);
Frutta-Tutti i giorni e Frutta-Non tutti i giorni.
Figura: Cosen-quadro delle variabili sulla seconda dimensione
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
55. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Distanza tra modalit`a
Distanza del χ2
Considerando la nuvola dei profili di riga, la distanza tra due punti
i ed i , secondo la metrica euclidea, tende a dare eccessiva
importanza alle modalit`a con un forte campo di variazione, dando
invece minor peso a quelle per le quali le variazioni sono minori.
Per risolvere questo problema si rende opportuno ponderare
ciascuna colonna, dando maggior peso alle modalit`a che si
presentano con minore frequenza. Tale ponderazione pu`o essere
ottenuta utilizzando la suddetta metrica del chi-quadrato.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
56. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Distanza tra modalit`a
Distanza del χ2
Le modalit`a che hanno minima distanza tra di loro sono
Pressione-No e Frutta-Tutti i giorni;
Le modalit`a che, invece, hanno massima distanza tra di loro
sono Uomini (meno di 94) Donne (meno di 80) e Pressione-Si.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
57. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Lo spazio degli individui
Lo studio degli individui
Figura: Spazio degli individui
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
58. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Lo spazio degli individui
Lo studio degli individui
Per rendere pi`u chiara la mappa degli individui:
segmentazione: gli individui sono studiati tramite i segmenti
stabiliti dalle modalit`a perch´e una modalit`a `e il baricentro di
tutti gli individui che la possiedono;
raggruppamento: vengono utilizzate le coordinate fattoriali
degli individui ottenute con l’ACM per creare dei gruppi o
clusters di individui con profili di risposta il pi`u possibile simili
e di proiettare poi sulla mappa soltanto i baricentri di questi
cluster come rappresentativi dei gruppi.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
59. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Lo spazio degli individui
Cluster analysis
Figura: Gruppi identificati
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
60. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Lo spazio degli individui
Cluster analysis
Il primo gruppo `e composto da individui che condividono alta
frequenza per le modalit`a Uomini (94-102) Donne (80-88),
Eserfis-Si, Glicemia-Si, Frutta-Tutti i giorni e Pressione-No;
Il secondo gruppo `e composto da individui che condividono
alta frequenza per le modalit`a Pressione-Si, Uomini (pi`u di
102) Donne (pi`u di 88), Tutti i giorni, Eserfis-No e
Glicemia-Si;
Il terzo gruppo, infine, `e composto da individui che
condividono alta frequenza per le modalit`a Glicemia-No,
Uomini (meno di 94) Donne (meno di 80), Pressione-No,
Eserfis-No e Non tutti i giorni.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
61. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Lo spazio degli individui
De-cla
La caratterizzazione di ciascun gruppo viene condotta
attraverso la scelta delle modalit`a caratteristiche significative.
Vengono riportati 2 diversi valori percentuali:
Mod/Cla, che risponde alla domanda: quanti sono nel gruppo
i casi che presentano quella modalit`a?
Cla/Mod, che risponde alla domanda: quanti fra coloro che
possiedono tale modalit`a sono presenti nel gruppo?
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
62. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Lo spazio degli individui
De-cla
La caratterizzazione di ciascun gruppo viene condotta
attraverso la scelta delle modalit`a caratteristiche significative.
Vengono riportati 2 diversi valori percentuali:
Mod/Cla, che risponde alla domanda: quanti sono nel gruppo
i casi che presentano quella modalit`a?
Cla/Mod, che risponde alla domanda: quanti fra coloro che
possiedono tale modalit`a sono presenti nel gruppo?
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
63. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
De-cla
Primo gruppo
Nel primo gruppo la percentuale di persone con circonferenza
vita media e che mangia frutta e verdura tutti i giorni `e, per
entrambe, del 99.18%, mentre il 56.54% di quelli che hanno
circonferenza della vita media si trova nel primo gruppo;
Non c’`e alcuna persona con circonferenza vita superiore a 102
(uomini) e 88 (donne);
Il gruppo `e dunque caratterizzato da persone che hanno uno
stile di vita abbastanza attivo.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
64. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
De-cla
Secondo gruppo
Nel secondo gruppo, invece, le percentuali di persone con
circonferenza vita media e che mangiano frutta tutti i giorni
scendono, rispettivamente al 27.61% ed al 79.04%;
La percentuale Mod/Cla pi`u alta `e ,comunque, assunta dalla
modalit`a Frutta-Tutti i giorni, mentre quella Cla/Mod pi`u alta
`e della modalit`a Uomini (pi`u di 102) Donne (pi`u di 88);
Il gruppo `e dunque caratterizzato da persone che dovrebbero
fare pi`u attenzione al loro stile di vita.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
65. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
De-cla
Terzo gruppo
Nel terzo gruppo, infine, le percentuali Cla/Mod e Mod/Cla
pi`u alte le hanno, rispettivamente, le modalit`a Uomini (meno
di 94) Donne (meno di 80) e Glicemia-No;
Il gruppo `e caratterizzato da persone che non hanno problemi
di salute, ma che dovrebbero “attivarsi” di pi`u.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
66. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle variabili
Indice η2
Nell’interpretazione degli assi fattoriali, `e utile tener conto anche
delle variabili che maggiormente hanno contribuito al loro
orientamento, andando a guardare l’indice η2:
Categorical variables (eta2)
Dim.1 Dim.2
Eserfis 0.381 0.123
Frutta 0.380 0.003
Pressione 0.013 0.585
Glicemia 0.581 0.011
Circvita 0.481 0.624
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
67. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle variabili
Lo spazio delle variabili
Figura: Grafico delle variabili attive
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
68. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle modalit`a
Lo spazio delle modalit`a
Le somiglianze tra modalit`a si possono indagare confrontando
sia le colonne della matrice Z, sia i profili della matrice B di
Burt;
Due profili di B risultano simili se le due modalit`a si associano
sempre alle medesime modalit`a;
Le modalit`a, differentemente dalle variabili, avranno delle vere
e proprie coordinate sul piano fattoriale.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
69. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle modalit`a
Lo spazio delle modalit`a
Figura: Lo spazio delle modalit`a
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
70. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle modalit`a
Significativit`a delle coordinate
Per verificare la significativit`a delle coordinate, attraverso un
test, introduciamo un terzo indicatore importante, ovvero il
valore test;
Misura la distanza, in termini di scarti quadratici medi, della
modalit`a j dall’origine sull’asse α;
Un valore test superiore a 2 in valore assoluto indica una
coordinata significativamente diversa da zero con un livello di
confidenza del 95%
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
71. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle modalit`a
Significativit`a delle coordinate
Per verificare la significativit`a delle coordinate, attraverso un
test, introduciamo un terzo indicatore importante, ovvero il
valore test;
Misura la distanza, in termini di scarti quadratici medi, della
modalit`a j dall’origine sull’asse α;
Un valore test superiore a 2 in valore assoluto indica una
coordinata significativamente diversa da zero con un livello di
confidenza del 95%
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
72. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle modalit`a
Significativit`a delle coordinate
Per verificare la significativit`a delle coordinate, attraverso un
test, introduciamo un terzo indicatore importante, ovvero il
valore test;
Misura la distanza, in termini di scarti quadratici medi, della
modalit`a j dall’origine sull’asse α;
Un valore test superiore a 2 in valore assoluto indica una
coordinata significativamente diversa da zero con un livello di
confidenza del 95%
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
73. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle modalit`a
Significativit`a delle coordinate
Sul primo asse, per esempio, sono le modalit`a Pressione-No,
Pressione-Si e Uomini (pi`u di 102) Donne (pi`u di 88) ad avere
coordinate non significativamente diverse da 0;
Sul secondo asse, invece, le variabili Frutta e Glicemia,
presentano modalit`a che hanno tutte coordinate non
significativamente diverse da 0, insieme alla modalit`a Uomini
(meno di 94) Donne (meno di 80).
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
74. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Studio delle modalit`a
Significativit`a delle coordinate
Sul primo asse, per esempio, sono le modalit`a Pressione-No,
Pressione-Si e Uomini (pi`u di 102) Donne (pi`u di 88) ad avere
coordinate non significativamente diverse da 0;
Sul secondo asse, invece, le variabili Frutta e Glicemia,
presentano modalit`a che hanno tutte coordinate non
significativamente diverse da 0, insieme alla modalit`a Uomini
(meno di 94) Donne (meno di 80).
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
75. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il ruolo delle variabili supplementari
Indice η2
I nostri dati contengono 3 variabili supplementari di cui 2
qualitative (Genere e Famiglia) ed una quantitativa suddivisa in
classi (Et`a):
Supplementary categorical variables (eta2)
Dim.1 Dim.2
Genere 0.182 0.021
Et`a 0.432 0.193
Famiglia 0.208 0.004
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
76. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il ruolo delle variabili supplementari
Rappresentazione
Figura: In verde le variabili supplementari, in rosso le variabili attive
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
77. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il ruolo delle variabili supplementari
Rappresentazione delle modalit`a
Figura: In verde le modalit`a supplementari, in rosso le modalit`a attive
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
78. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il ruolo delle variabili supplementari
Genere
Figura: Sulla variabile Genere
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
79. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Genere
Coordinate
Entrambe le modalit`a contribuiscono meglio sulla prima
dimensione che sulla seconda: i maschi sul semiasse positivo, le
femmine sul semiasse negativo
Dim.1 Dim.2
Femmina 0.265 0.077
Maschio -0.252 -0.073
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
80. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Genere
Cosen-quadro
In termini di contributo relativo (lo stesso per entrambe le
modalit`a), sia i maschi che le femmine sono molto ben
rappresentati sul primo asse e poco sul secondo:
cos2(1) cos2(2)
Femmina 0.885 0.075
Maschio 0.885 0.075
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
81. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Genere
Valore-test
Solo per il secondo asse le coordinate non sono significativamente
diverse da 0, in quanto il valore test (uguale ma di segno opposto)
`e compreso tra -2 e 2:
v.test(1) v.test(2)
Femmina 5.164 1.507
Maschio -5.164 -1.507
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
82. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il ruolo delle variabili supplementari
Et`a
Figura: Sulla variabile Et`a
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
83. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Et`a
Coordinate
Sul primo asse contribuiscono di pi`u le persone con et`a compresa
tra i 54 ed i 64 anni (sul semiasse negativo), seguono quelli con et`a
inferiore ai 45 anni; alla costruzione del secondo asse
contribuiscono molto bene le persone over 64 (sul semiasse
positivo):
Dim.1 Dim.2
45-54 anni -0.008614984 0.37859922
54-64 anni -0.473790179 -0.04585676
Meno di 45 anni 0.409066874 -0.14941987
Pi`u di 64 anni -0.051887979 0.61768024
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
84. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Et`a
Cosen-quadro
Sul primo asse, le modalit`a meglio rappresentate sono le due
centrali, in quanto il loro contributo relativo si avvicina di molto
all’unit`a; accade il contrario per il secondo asse, e addirittura la
modalit`a 54-64 anni assume un valore vicinissimo allo 0:
cos2(1) cos2(2)
45-54 anni 0.0004601953 0.888776657
54-64 anni 0.9544099397 0.008940658
Meno di 45 anni 0.8391179552 0.111956962
Pi`u di 64 anni 0.0066423731 0.941276399
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
85. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Et`a
Valore-test
Sul primo asse, le uniche modalit`a ad avere coordinate non
significativamente diverse da 0 sono 45-54 anni e Pi`u di 64 anni;
sul secondo asse, invece, l’unica modalit`a a non avere coordinate
significativamente diverse da 0 `e 54-64 anni:
v.test(1) v.test(2)
45-54 anni -0.06203235 2.7261104
54-64 anni -7.33074525 -0.7095212
Meno di 45 anni 7.31668358 -2.6725653
Pi`u di 64 anni -0.27327762 3.2531271
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
86. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Il ruolo delle variabili supplementari
Famiglia
Figura: Sulla variabile Famiglia
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
87. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Famiglia
Coordinate
Sul primo asse contribuiscono molto bene tutte e 3 le modalit`a
(Famiglia-Si: 1° tipo in particolare sul semiasse negativo); sul
secondo asse, invece, tutte e 3 le modalit`a hanno coordinate
vicinissime allo 0, quindi contribuiscono poco:
Dim.1 Dim.2
Famiglia_No 0.248482224 0.07593390
Famiglia_Si: 1° tipo -0.254173002 -0.01695814
Famiglia_Si: 2° tipo 0.326284251 -0.01142948
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
88. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Famiglia
Cosen-quadro
Le persone che sono meglio rappresentate sul primo asse sono sia
quelle che presentano casi in famiglia che non, in quanto il
contributo relativo di tutte `e vicinissimo all’unit`a; sul secondo asse,
invece, nessuna delle modalit`a `e rappresentata a sufficienza:
cos2(1) cos2(2)
Famiglia_No 0.8454336798 0.078951489
Famiglia_Si: 1° tipo 0.9821093483 0.004371772
Famiglia_Si: 2° tipo 0.9829251570 0.001206095
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
89. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Famiglia
Valore-test
Sul primo asse tutte e 3 le modalit`a risultano avere coordinate
significativamente diverse da 0 (in patricolare Famiglia-Si: 1° tipo
sul semiasse negativo); sul secondo asse, invece, tutte le modalit`a
hanno coordinate non significativamente diverse da 0:
v.test(1) v.test(2)
Famiglia_No 2.20638099 0.6742499
Famiglia_Si: 1° tipo -5.50090102 -0.3670140
Famiglia_Si: 2° tipo 4.21598454 -0.1476827
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
90. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Conclusioni
Grafico finale
Figura: Sullo stesso grafico i punti-riga ed i punti-colonna
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
91. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Conclusioni
Risultato dell’ACM per la variabile Genere
Figura: Risultato dell’ACM per la variabile Genere
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
92. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Conclusioni
Risultato dell’ACM per la variabile Et`a
Figura: Risultato dell’ACM per la variabile Et`a
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
93. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Conclusioni
Risultato dell’ACM per la variabile Famiglia
Figura: Risultato dell’ACM per la variabile Famiglia
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo
94. Sommario
Il problema
I dati e la codifica
L’ACM
Rappresentazioni grafiche
Bibliografia
Marco Gherghi, Carlo Lauro. Appunti di analisi dei dati
dimensionali. Napoli, RCE Edizioni, 2004
Sergio Zani, Andrea Cerioli. Analisi dei dati e data mining per
le decisioni aziendali. Giuffr`e Editore, 2007
Michael Greenacre, George Blasius. Multiple correspondence
analysis and related methods. London, Chapman and
Hall/CRC, 2006
Barbara Sartori. Una analisi delle esperienze di educazione
fisica nelle scuole: i dati PACES. Tesi di laurea.
Appunti dalle lezioni del corso.
Barbara Amendola, Marco D’Alessandro, Ida Riccio Il rischio `e dietro l’angolo