Un'elenco di consigli pratici su come impostare un'analisi descrittiva, dalla creazione del dataset alla scelta del tipo di variabili, alla valutazione degli indici univariati e dei grafici più opportuni.
2. Come costruire un dataset in Excel
SOLO la prima riga riporta i nomi delle variabili
(una cella per ogni variabile)
Dalla seconda riga a scendere,
ogni riga corrisponde ad un’unità statistica
La prima colonna riporta l’ID
(numero identificativo univoco per ogni unità)
I dati mancanti devono essere sempre codificati
(es. NA= not available)
3. Controllare i valori/modalità delle variabili
QUANTITATIVA
QUALITATIVA ORDINALE
QUALITATIVA NOMINALE
Es. variabile: Numero di figli
Valori possibili
(modalità):
Nessun figlio
Un solo figlio
Più di un figlio
Valori assunti: 0 0 1 3 2 2 1 1 0 4 2 …
Valori possibili: 0 1 2 3 4 5 6 …
Valori possibili
(modalità):
No (non ha figli)
Si (ha almeno un figlio)
Indici utilizzabili: - Moda
- Indice eterogeneità di Gini
Indici consigliati*: - Media e deviazione standard
- Mediana e range IQR
Indici consigliati: - Mediana
- Range (totale o interquartile)
4. Informazioni da scrivere in un report
• Denominazione variabili per esteso ed eventuali abbreviazioni usate nelle tabelle
• Tipologia delle variabili (qualitativo/quantitativo, modalità/valori assunti)
• Quali sono le unità statistiche (caratteristiche, criteri di inclusione/esclusione)
• Caratteristiche del campione (numerosità, metodologia di campionamento)
• Quale è la popolazione di riferimento (con eventuali coordinate temporali e spaziali)
5. L’importanza di dati di buona qualità
• Nessuna elaborazione statistica
può garantire una qualità delle
conclusioni superiore a quella dei
dati raccolti
Non possono bastare alcune
“piroette statistiche” per
nascondere la scarsa qualità dei
dati raccolti.
Un dataset si definisce «sporco»
quando non è stato controllato* e
può contenere dati anomali.
6. Come controllare la qualità dei dati
Per le variabili quantitative:
Disegno di boxplot e istogramma* e calcolo degli indici di forma:
Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?
Calcolo opportuni indici di variabilità:
I valori per le singole unità statistiche variano per ogni variabile come atteso?
Per le variabili qualitative:
Tabelle di frequenza:
I nomi e i valori delle singole modalità sono quelli realmente attesi?
Inoltre, per tutte le variabili:
Calcolo opportuni indici di posizione:
Le singole variabili hanno i valori/modalità realmente attesi?
Frequenza dei valori mancanti:
E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
7. Come si interpreta un istogramma
L’altezza dei rettangoli
è pari alla frequenza
specifica di ogni classe
L’unità di misura dei
due assi cartesiani è
diversa. In questo caso
l’asse x non ha origine
da 0.
L’istogramma studia l’addensamento delle osservazioni nelle varie classi
I valori presenti sull’asse orizzontale
indicano i valori centrali delle classi
L’ampiezza dei rettangoli
è proporzionale
all’ampiezza delle classi,
in questo caso sono tutte
di pari ampiezza*.
Il poligono di frequenza
(linea spezzata)
evidenzia l’andamento
delle frequenze
9. Modificare classi istogramma in Excel (1/2)
1. Selezionare i dati ( no intestazioni o nomi variabili)
2. Fare clic su Inserisci > Inserisci grafico statistico > Istogramma
3.
10. Modificare classi istogramma in Excel (2/2)
Numero di bin: inserire il numero di classi/barre che si vuole utilizzare per
costruire l’istogramma
Ampiezza bin: inserire l’ampiezza della singola classe/barra (uguale per
tutte le classi/barre)
Bin di overflow: per raggruppare tutti i valori superiori ad una certa soglia
(da inserire nella casella) in poi fino al valore massimo in un’unica
barra/classe (>)
Bin di underflow: per raggruppare tutti i valori dal valore minimo fino a
quelli uguali ad una certa soglia (da inserire nella casella) in un’unica
barra/classe (<=)
Per maggiori info: https://support.office.com/it-it/article/creare-un-istogramma-in-excel-85680173-064b-4024-b39d-80f17ff2f4e8
11. Come controllare la qualità dei dati
Per le variabili quantitative:
Disegno di boxplot e istogramma e calcolo degli indici di forma*:
Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?
Calcolo opportuni indici di variabilità*:
I valori per le singole unità statistiche variano per ogni variabile come atteso?
Per le variabili qualitative:
Tabelle di frequenza:
I nomi e i valori delle singole modalità sono quelli realmente attesi?
Inoltre, per tutte le variabili:
Calcolo opportuni indici di posizione*:
Le singole variabili hanno i valori/modalità realmente attesi?
Frequenza dei valori mancanti:
E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
12. *Principali indici descrittivi univariati
.
Indici di posizione
Media
Mediana
Moda
Indici di forma (solo per variabili quantitative)
Asimmetria
Curtosi
Indici di variabilità (solo per variabili quantitative)
Deviazione standard
Coefficiente di variazione
Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’
14. Oltre la media aritmetica…
La media geometrica è la più indicata per calcolare i tassi medi di accrescimento
ma non si può usare se ci sono 0.
La media armonica è la più indicata quando si calcolano i tempi di reazione.
La media quadratica evidenzia la presenza di valori estremi molto grandi o molto
piccoli e rende ininfluente la presenza di valori con segni discordi (un po’ positivi e un po’
negativi)
Altezza (in cm)
183
175
170
160
160
186
165
155
Media aritmetica: 183+175+…+155=1354/8=169 cm
Media geometrica: 169 cm
Media armonica: 8/((1/183)+(1/175)+…+(1/155))=169 cm
Media quadratica: =169 cm
15. *Principali indici descrittivi univariati
.
Indici di posizione
Media
Mediana
Moda
Indici di forma (solo per variabili quantitative)
Asimmetria
Curtosi
Indici di variabilità (solo per variabili quantitative)
Deviazione standard
Coefficiente di variazione
Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’
16. Indice di asimmetria
La coincidenza di moda, mediana e media
aritmetica indica simmetria della
distribuzione (asimmetria = 0).
La distribuzione Normale ha un indice di
asimmetria pari a 0
La discrepanza indica asimmetria:
Forte asimmetria positiva (>3):
coda a destra
Forte asimmetria negativa (<-3):
coda a sinistra
Per verificare l’asimmetria, è utile analizzare
l’istogramma o il boxplot
17. Se c’è asimmetria..
Se si è in presenza di una variabile asimmetrica, si consiglia di:
usare i test non parametrici
oppure
trasformare i punteggi in modo da ridurre l’asimmetria:
In caso di asimmetria positiva, la ricodifica calcolando il logaritmo dei valori
della variabile ne riduce l’entità.
N.B. Questa trasformazione non si può utilizzare se la variabile presenta valori negativi. Se ci
sono degli zeri, è necessario prima aggiungere una costante ai dati.
Quando si ha una variabile di conteggio (valori NON negativi), la ricodifica calcolando
la radice quadrata dei suoi valori riduce un asimmetria positiva
In caso di asimmetria negativa, la ricodifica calcolando il quadrato dei singoli
valori della variabile ne riduce l’entità
18. Indice di curtosi
L’indice K** di curtosi* indica quanto è il
peso dei valori posti agli estremi della
distribuzione (code), rispetto a quelli della
parte centrale della distribuzione. Se:
K = 0: i dati hanno una forma normale
K > 0: il peso delle code è maggiore che
nella normale. Più è grande il valore è
K, più è alta la probabilità di trovare
valori estremi (outliers).
K < 0: il peso delle code è minore che nella
normale.
*L’indice di curtosi si utilizza solo per distribuzioni
unimodali
20. Esercizio – identificare valore curtosi
La distribuzione rappresentata
dalla linea verde avrà un indice
di curtosi maggiore, pari o
inferiore rispetto alla
distribuzione esponenziale?
E la distribuzione rappresentata
in arancione?
22. Per variabili quantitative:
Media o mediana?
La media è un buon indicatore
quando si verificano entrambe le
seguenti condizioni:
1. la distribuzione è simmetrica
e non presenta outliers
2. c’è poca variabilità* tra i dati.
Per stabilirlo si può calcolare il
coefficiente di variazione:
CV=
𝐝𝐞𝐯𝐢𝐚𝐳𝐢𝐨𝐧𝐞 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝
𝐦𝐞𝐝𝐢𝐚
CV>0.5 indica una grande
variabilità tra i dati ed in
questo caso è meglio usare la
mediana
23. *Principali indici descrittivi univariati
Indici di posizione
Media
Mediana
Moda
Indici di forma (solo per variabili quantitative)
Asimmetria
Curtosi
Indici di variabilità (solo per variabili quantitative)
Coefficiente di variazione
Deviazione standard
Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’
24. Per variabili quantitative
Range o deviazione standard?
Quando si riporta la media è buona norma riportare anche la
deviazione standard (stessa unità di misura della media)
Quando si riporta la mediana la deviazione standard non è
propriamente indicata (nel suo calcolo si utilizza la media e non
la mediana) e quindi è preferibile riportare il range
interquartile (terzo quartile – primo quartile).
25. Deviazione standard
Misura la dispersione delle singole osservazioni intorno alla
media aritmetica.
Quando si analizza un campione, per convenzione di divide
per n-1 (invece che per n) ottenendo una deviazione standard
lievemente superiore (rispetto a dividere per n) e questo
rappresenta un approccio più "conservativo" all'analisi dei dati.
28. Calcolo il range assoluto o interquartile?
Range assoluto:
valore massimo – valore minimo
Indica l’intervallo completo dei dati, ma è
una misura molto influenzata da eventuali
outliers*.
Range interquartile*:
terzo quartile – primo quartile
Copre solo la metà intermedia dei dati e
pertanto risente meno di eventuali outliers
(indice più robusto del precedente)
29. *Esercizio sui quartili (n pari)
Sono stati rilevati i seguenti valori di pressione sistolica su un
campione di n=10 pazienti:
Calcolare la mediana e il range interquartile
Interpretare i valori ottenuti dagli indici.
Verificare se sono presenti degli outliers.
62 63 64 64 70 72 76 77 81 81
32. Esercizio sui quartili (n dispari)
Sono stati rilevati i seguenti valori di pressione sistolica su un
campione di n=9 pazienti:
Esercizio:
Calcolare la mediana e il range interquartile e interpretare i valori
ottenuti.
Come cambierebbero tali indici se l’ultimo paziente avesse invece
un valore di pressione sistolica pari a 100?
63 64 64 70 72 76 77 81 81
63 64 64 70 72 76 77 81 100
34. * Esercizio - Trova gli outliers
Esercizio tratto da:
http://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_summarizingdata/bs704_summarizingdata7.html
35. Gestione degli outliers
Se lo stesso soggetto è un outlier su diverse variabili, si può pensare di
eliminarlo
Se il soggetto outlier sembra simile alle altre unità, ad eccezione di un
punteggio anomalo, si può mantenere questo soggetto per l’analisi
adottando tecniche che ne riducano l’influenza
• Se test parametrici e non parametrici forniscono gli stessi risultati, allora
gli outliers non rappresentano un problema
• Se i risultati dei test parametrici sono significativi, mentre quelli dei test
non parametrici non lo sono, allora gli outliers sono un problema in
quanto riducono la potenza dei test.
36. Per variabili quantitative
Diagramma a «scatola e baffi» (boxplot)
• La «scatola» rappresenta la parte centrale della
distribuzione (il 50% centrale delle osservazioni
si trova al suo interno)
• La linea all’interno della «scatola» indica la
mediana
• I «baffi» rappresentano le code della
distribuzione (contengono ognuno circa il 25%
inferiore e superiore delle osservazioni)
• Gli eventuali punti esterni ai baffi indicano dati
anomali (outliers)
40. Come controllare la qualità dei dati
Per le variabili quantitative:
Disegno di boxplot e istogramma e calcolo degli indici di forma:
Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?
Calcolo opportuni indici di variabilità:
I valori per le singole unità statistiche variano per ogni variabile come atteso?
Per le variabili qualitative:
Tabelle di frequenza*:
I nomi e i valori delle singole modalità sono quelli realmente attesi?
Inoltre, per tutte le variabili:
Calcolo opportuni indici di posizione:
Le singole variabili hanno i valori/modalità realmente attesi?
Frequenza dei valori mancanti:
E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
41. *Gestire i dati raggruppati in tabella
Le distribuzioni di frequenza sono delle tabelle che riportano le frequenze di:
Singole modalità/valori (distribuzioni di frequenza semplici):
intervalli di valori (distribuzioni di frequenza per classi):
Fumatore (0=NO; 1=SI) F. assolute F. relative F. percentuali
No 22 0,55 55%
Si 17 0,425 43%
NA 1 0,025 3%
Totale 40 1 100%
Numero figli F. assolute F. relative F. percentuali F. cumulate (%)
0 9 0,225 23% 23%
1 9 0,225 23% 45%
2 14 0,35 35% 80%
3 5 0,125 13% 93%
4 1 0,025 3% 95%
5 2 0,05 5% 100%
Totale 40 1 100%
BMI (kg/m2) F. assolute F. relative F. percentuali F. cumulate (n)
Sottopeso ( <18.5) 3 0,075 8% 3
Normopeso (18.5 - 24.9) 19 0,475 48% 22
Sovrappeso (25 - 29.9) 8 0,2 20% 30
Obesità 1 (30 - 34.9) 5 0,125 13% 35
Obesità 2 (35 - 39.9) 4 0,1 13% 39
Obesità 3 (>39.9) 1 0,025 13% 40
Totale 40 1 100%
Per le analisi si calcola il valore centrale di ogni
classe che verrà poi ponderato per le frequenze
Es. Valore centrale Normopeso: (18.5+24.9)/2= 21.7
Valore centrale Sottopeso: ( ? + 18.5)/2= ???
42. Quali frequenze utilizzare?
Le frequenze assolute si preferiscono in fase di analisi perché, non
essendoci approssimazioni decimali, forniscono risultati più precisi.
Le frequenze relative si preferiscono in fase di interpretazione perché
permettono il confronto della distribuzione di una variabile con campioni di
diversa numerosità.
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di
balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco è
somministrato a 150 pazienti (gruppo A) e un placebo è somministrato ad altri 100 pazienti
(gruppo B)
Frequenze assolute Frequenze relative
Cosa possiamo concludere?
Il farmaco è efficace per curare la
balbuzie?
43. Per variabili qualitative
Grafico a torta o a barre?
Grafico a barre orizzontali in pila
Grafico a colonne raggruppate
Grafico a torta