Statistica descrittiva - consigli pratici

Statistica descrittiva
Consigli pratici
Dott.ssa Paola Pozzolo
sos.unistat@gmail.com
Anno Accademico 2018/2019

Come costruire un dataset in Excel
SOLO la prima riga riporta i nomi delle variabili
(una cella per ogni variabile)
Dalla seconda riga a scendere,
ogni riga corrisponde ad un’unità statistica
La prima colonna riporta l’ID
(numero identificativo univoco per ogni unità)
I dati mancanti devono essere sempre codificati
(es. NA= not available)

Controllare i valori/modalità delle variabili
QUANTITATIVA
QUALITATIVA ORDINALE
QUALITATIVA NOMINALE
Es. variabile: Numero di figli
Valori possibili
(modalità):
Nessun figlio
Un solo figlio
Più di un figlio
Valori assunti: 0 0 1 3 2 2 1 1 0 4 2 …
Valori possibili: 0 1 2 3 4 5 6 …
Valori possibili
(modalità):
No (non ha figli)
Si (ha almeno un figlio)
Indici utilizzabili: - Moda
- Indice eterogeneità di Gini
Indici consigliati*: - Media e deviazione standard
- Mediana e range IQR
Indici consigliati: - Mediana
- Range (totale o interquartile)

Informazioni da scrivere in un report
• Denominazione variabili per esteso ed eventuali abbreviazioni usate nelle tabelle
• Tipologia delle variabili (qualitativo/quantitativo, modalità/valori assunti)
• Quali sono le unità statistiche (caratteristiche, criteri di inclusione/esclusione)
• Caratteristiche del campione (numerosità, metodologia di campionamento)
• Quale è la popolazione di riferimento (con eventuali coordinate temporali e spaziali)

L’importanza di dati di buona qualità
• Nessuna elaborazione statistica
può garantire una qualità delle
conclusioni superiore a quella dei
dati raccolti
 Non possono bastare alcune
“piroette statistiche” per
nascondere la scarsa qualità dei
dati raccolti.
 Un dataset si definisce «sporco»
quando non è stato controllato* e
può contenere dati anomali.

Come controllare la qualità dei dati
 Per le variabili quantitative:
 Disegno di boxplot e istogramma* e calcolo degli indici di forma:
Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?
 Calcolo opportuni indici di variabilità:
I valori per le singole unità statistiche variano per ogni variabile come atteso?
 Per le variabili qualitative:
 Tabelle di frequenza:
I nomi e i valori delle singole modalità sono quelli realmente attesi?
Inoltre, per tutte le variabili:
 Calcolo opportuni indici di posizione:
Le singole variabili hanno i valori/modalità realmente attesi?
 Frequenza dei valori mancanti:
E’ necessario sostituire tali valori o eliminarli dalle analisi successive?

Come si interpreta un istogramma
L’altezza dei rettangoli
è pari alla frequenza
specifica di ogni classe
L’unità di misura dei
due assi cartesiani è
diversa. In questo caso
l’asse x non ha origine
da 0.
L’istogramma studia l’addensamento delle osservazioni nelle varie classi
I valori presenti sull’asse orizzontale
indicano i valori centrali delle classi
L’ampiezza dei rettangoli
è proporzionale
all’ampiezza delle classi,
in questo caso sono tutte
di pari ampiezza*.
Il poligono di frequenza
(linea spezzata)
evidenzia l’andamento
delle frequenze

*Quante classi per l’istogramma?

Modificare classi istogramma in Excel (1/2)
1. Selezionare i dati ( no intestazioni o nomi variabili)
2. Fare clic su Inserisci > Inserisci grafico statistico > Istogramma
3.

Modificare classi istogramma in Excel (2/2)
 Numero di bin: inserire il numero di classi/barre che si vuole utilizzare per
costruire l’istogramma
 Ampiezza bin: inserire l’ampiezza della singola classe/barra (uguale per
tutte le classi/barre)
 Bin di overflow: per raggruppare tutti i valori superiori ad una certa soglia
(da inserire nella casella) in poi fino al valore massimo in un’unica
barra/classe (>)
 Bin di underflow: per raggruppare tutti i valori dal valore minimo fino a
quelli uguali ad una certa soglia (da inserire nella casella) in un’unica
barra/classe (<=)
Per maggiori info: https://support.office.com/it-it/article/creare-un-istogramma-in-excel-85680173-064b-4024-b39d-80f17ff2f4e8

 Disegno di boxplot e istogramma e calcolo degli indici di forma*:
 Calcolo opportuni indici di variabilità*:
 Tabelle di frequenza:
 Calcolo opportuni indici di posizione*:

*Principali indici descrittivi univariati
.
 Indici di posizione
 Media
 Mediana
 Moda
 Indici di forma (solo per variabili quantitative)
 Asimmetria
 Curtosi
 Indici di variabilità (solo per variabili quantitative)
 Deviazione standard
 Coefficiente di variazione
 Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’

Oltre la media aritmetica…
 La media geometrica è la più indicata per calcolare i tassi medi di accrescimento
ma non si può usare se ci sono 0.
 La media armonica è la più indicata quando si calcolano i tempi di reazione.
 La media quadratica evidenzia la presenza di valori estremi molto grandi o molto
piccoli e rende ininfluente la presenza di valori con segni discordi (un po’ positivi e un po’
negativi)
Altezza (in cm)
183
175
170
160
160
186
165
155
Media aritmetica: 183+175+…+155=1354/8=169 cm
Media geometrica: 169 cm
Media armonica: 8/((1/183)+(1/175)+…+(1/155))=169 cm
Media quadratica: =169 cm

Indice di asimmetria
 La coincidenza di moda, mediana e media
aritmetica indica simmetria della
distribuzione (asimmetria = 0).
 La distribuzione Normale ha un indice di
asimmetria pari a 0
 La discrepanza indica asimmetria:
 Forte asimmetria positiva (>3):
 coda a destra
 Forte asimmetria negativa (<-3):
 coda a sinistra
 Per verificare l’asimmetria, è utile analizzare
l’istogramma o il boxplot

Se c’è asimmetria..
Se si è in presenza di una variabile asimmetrica, si consiglia di:
 usare i test non parametrici
oppure
 trasformare i punteggi in modo da ridurre l’asimmetria:
 In caso di asimmetria positiva, la ricodifica calcolando il logaritmo dei valori
della variabile ne riduce l’entità.
N.B. Questa trasformazione non si può utilizzare se la variabile presenta valori negativi. Se ci
sono degli zeri, è necessario prima aggiungere una costante ai dati.
 Quando si ha una variabile di conteggio (valori NON negativi), la ricodifica calcolando
la radice quadrata dei suoi valori riduce un asimmetria positiva
 In caso di asimmetria negativa, la ricodifica calcolando il quadrato dei singoli
valori della variabile ne riduce l’entità

Indice di curtosi
L’indice K** di curtosi* indica quanto è il
peso dei valori posti agli estremi della
distribuzione (code), rispetto a quelli della
parte centrale della distribuzione. Se:
K = 0: i dati hanno una forma normale
K > 0: il peso delle code è maggiore che
nella normale. Più è grande il valore è
K, più è alta la probabilità di trovare
valori estremi (outliers).
K < 0: il peso delle code è minore che nella
normale.
*L’indice di curtosi si utilizza solo per distribuzioni
unimodali

**Interpretazione curtosi in Excel

Esercizio – identificare valore curtosi
La distribuzione rappresentata
dalla linea verde avrà un indice
di curtosi maggiore, pari o
inferiore rispetto alla
distribuzione esponenziale?
E la distribuzione rappresentata
in arancione?

Soluzione esercizio – valori curtosi

Per variabili quantitative:
Media o mediana?
La media è un buon indicatore
quando si verificano entrambe le
seguenti condizioni:
1. la distribuzione è simmetrica
e non presenta outliers
2. c’è poca variabilità* tra i dati.
Per stabilirlo si può calcolare il
coefficiente di variazione:
CV=
𝐝𝐞𝐯𝐢𝐚𝐳𝐢𝐨𝐧𝐞 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝
𝐦𝐞𝐝𝐢𝐚
CV>0.5 indica una grande
variabilità tra i dati ed in
questo caso è meglio usare la
mediana

*Principali indici descrittivi univariati
 Indici di posizione
 Media
 Mediana
 Moda
 Indici di forma (solo per variabili quantitative)
 Asimmetria
 Curtosi
 Indici di variabilità (solo per variabili quantitative)
 Coefficiente di variazione
 Deviazione standard
 Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’

Per variabili quantitative
Range o deviazione standard?
 Quando si riporta la media è buona norma riportare anche la
deviazione standard (stessa unità di misura della media)
 Quando si riporta la mediana la deviazione standard non è
propriamente indicata (nel suo calcolo si utilizza la media e non
la mediana) e quindi è preferibile riportare il range
interquartile (terzo quartile – primo quartile).

Deviazione standard
Misura la dispersione delle singole osservazioni intorno alla
media aritmetica.
 Quando si analizza un campione, per convenzione di divide
per n-1 (invece che per n) ottenendo una deviazione standard
lievemente superiore (rispetto a dividere per n) e questo
rappresenta un approccio più "conservativo" all'analisi dei dati.

Effetti della deviazione standard

Esempio dati con stessa media e ds
Output generati con R

Calcolo il range assoluto o interquartile?
 Range assoluto:
valore massimo – valore minimo
Indica l’intervallo completo dei dati, ma è
una misura molto influenzata da eventuali
outliers*.
 Range interquartile*:
terzo quartile – primo quartile
Copre solo la metà intermedia dei dati e
pertanto risente meno di eventuali outliers
(indice più robusto del precedente)

*Esercizio sui quartili (n pari)
Sono stati rilevati i seguenti valori di pressione sistolica su un
campione di n=10 pazienti:
Calcolare la mediana e il range interquartile
Interpretare i valori ottenuti dagli indici.
Verificare se sono presenti degli outliers.
62 63 64 64 70 72 76 77 81 81

Soluzione esercizio quartili (n pari) – 1/2

Soluzione esercizio quartili (n pari) -2/2
1° quartile 3° quartile

Esercizio sui quartili (n dispari)
Sono stati rilevati i seguenti valori di pressione sistolica su un
campione di n=9 pazienti:
Esercizio:
Calcolare la mediana e il range interquartile e interpretare i valori
ottenuti.
Come cambierebbero tali indici se l’ultimo paziente avesse invece
un valore di pressione sistolica pari a 100?
63 64 64 70 72 76 77 81 81
63 64 64 70 72 76 77 81 100

Soluzione esercizio quartili (n dispari)

* Esercizio - Trova gli outliers
Esercizio tratto da:
http://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_summarizingdata/bs704_summarizingdata7.html

Gestione degli outliers
 Se lo stesso soggetto è un outlier su diverse variabili, si può pensare di
eliminarlo
 Se il soggetto outlier sembra simile alle altre unità, ad eccezione di un
punteggio anomalo, si può mantenere questo soggetto per l’analisi
adottando tecniche che ne riducano l’influenza
• Se test parametrici e non parametrici forniscono gli stessi risultati, allora
gli outliers non rappresentano un problema
• Se i risultati dei test parametrici sono significativi, mentre quelli dei test
non parametrici non lo sono, allora gli outliers sono un problema in
quanto riducono la potenza dei test.

Per variabili quantitative
Diagramma a «scatola e baffi» (boxplot)
• La «scatola» rappresenta la parte centrale della
distribuzione (il 50% centrale delle osservazioni
si trova al suo interno)
• La linea all’interno della «scatola» indica la
mediana
• I «baffi» rappresentano le code della
distribuzione (contengono ognuno circa il 25%
inferiore e superiore delle osservazioni)
• Gli eventuali punti esterni ai baffi indicano dati
anomali (outliers)

Utilizzo dei boxplots per confronti quantitativi

Esercizio – come si interpreta?

Soluzione esercizio – interpretazione boxplots

 Disegno di boxplot e istogramma e calcolo degli indici di forma:
 Calcolo opportuni indici di variabilità:
 Tabelle di frequenza*:
 Calcolo opportuni indici di posizione:

*Gestire i dati raggruppati in tabella
Le distribuzioni di frequenza sono delle tabelle che riportano le frequenze di:
 Singole modalità/valori (distribuzioni di frequenza semplici):
 intervalli di valori (distribuzioni di frequenza per classi):
Fumatore (0=NO; 1=SI) F. assolute F. relative F. percentuali
No 22 0,55 55%
Si 17 0,425 43%
NA 1 0,025 3%
Totale 40 1 100%
Numero figli F. assolute F. relative F. percentuali F. cumulate (%)
0 9 0,225 23% 23%
1 9 0,225 23% 45%
2 14 0,35 35% 80%
3 5 0,125 13% 93%
4 1 0,025 3% 95%
5 2 0,05 5% 100%
Totale 40 1 100%
BMI (kg/m2) F. assolute F. relative F. percentuali F. cumulate (n)
Sottopeso ( <18.5) 3 0,075 8% 3
Normopeso (18.5 - 24.9) 19 0,475 48% 22
Sovrappeso (25 - 29.9) 8 0,2 20% 30
Obesità 1 (30 - 34.9) 5 0,125 13% 35
Obesità 2 (35 - 39.9) 4 0,1 13% 39
Obesità 3 (>39.9) 1 0,025 13% 40
Totale 40 1 100%
Per le analisi si calcola il valore centrale di ogni
classe che verrà poi ponderato per le frequenze
Es. Valore centrale Normopeso: (18.5+24.9)/2= 21.7
Valore centrale Sottopeso: ( ? + 18.5)/2= ???

Quali frequenze utilizzare?
Le frequenze assolute si preferiscono in fase di analisi perché, non
essendoci approssimazioni decimali, forniscono risultati più precisi.
Le frequenze relative si preferiscono in fase di interpretazione perché
permettono il confronto della distribuzione di una variabile con campioni di
diversa numerosità.
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di
balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco è
somministrato a 150 pazienti (gruppo A) e un placebo è somministrato ad altri 100 pazienti
(gruppo B)
Frequenze assolute Frequenze relative
Cosa possiamo concludere?
Il farmaco è efficace per curare la
balbuzie?

Per variabili qualitative
Grafico a torta o a barre?
Grafico a barre orizzontali in pila
Grafico a colonne raggruppate
Grafico a torta

Statistica descrittiva - consigli pratici

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Statistica descrittiva - consigli pratici

Similar to Statistica descrittiva - consigli pratici (20)

Statistica descrittiva - consigli pratici