SlideShare a Scribd company logo
1 of 43
Download to read offline
Statistica descrittiva
Consigli pratici
Dott.ssa Paola Pozzolo
sos.unistat@gmail.com
Anno Accademico 2018/2019
Come costruire un dataset in Excel
SOLO la prima riga riporta i nomi delle variabili
(una cella per ogni variabile)
Dalla seconda riga a scendere,
ogni riga corrisponde ad un’unità statistica
La prima colonna riporta l’ID
(numero identificativo univoco per ogni unità)
I dati mancanti devono essere sempre codificati
(es. NA= not available)
Controllare i valori/modalità delle variabili
QUANTITATIVA
QUALITATIVA ORDINALE
QUALITATIVA NOMINALE
Es. variabile: Numero di figli
Valori possibili
(modalità):
Nessun figlio
Un solo figlio
Più di un figlio
Valori assunti: 0 0 1 3 2 2 1 1 0 4 2 …
Valori possibili: 0 1 2 3 4 5 6 …
Valori possibili
(modalità):
No (non ha figli)
Si (ha almeno un figlio)
Indici utilizzabili: - Moda
- Indice eterogeneità di Gini
Indici consigliati*: - Media e deviazione standard
- Mediana e range IQR
Indici consigliati: - Mediana
- Range (totale o interquartile)
Informazioni da scrivere in un report
• Denominazione variabili per esteso ed eventuali abbreviazioni usate nelle tabelle
• Tipologia delle variabili (qualitativo/quantitativo, modalità/valori assunti)
• Quali sono le unità statistiche (caratteristiche, criteri di inclusione/esclusione)
• Caratteristiche del campione (numerosità, metodologia di campionamento)
• Quale è la popolazione di riferimento (con eventuali coordinate temporali e spaziali)
L’importanza di dati di buona qualità
• Nessuna elaborazione statistica
può garantire una qualità delle
conclusioni superiore a quella dei
dati raccolti
 Non possono bastare alcune
“piroette statistiche” per
nascondere la scarsa qualità dei
dati raccolti.
 Un dataset si definisce «sporco»
quando non è stato controllato* e
può contenere dati anomali.
Come controllare la qualità dei dati
 Per le variabili quantitative:
 Disegno di boxplot e istogramma* e calcolo degli indici di forma:
Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?
 Calcolo opportuni indici di variabilità:
I valori per le singole unità statistiche variano per ogni variabile come atteso?
 Per le variabili qualitative:
 Tabelle di frequenza:
I nomi e i valori delle singole modalità sono quelli realmente attesi?
Inoltre, per tutte le variabili:
 Calcolo opportuni indici di posizione:
Le singole variabili hanno i valori/modalità realmente attesi?
 Frequenza dei valori mancanti:
E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
Come si interpreta un istogramma
L’altezza dei rettangoli
è pari alla frequenza
specifica di ogni classe
L’unità di misura dei
due assi cartesiani è
diversa. In questo caso
l’asse x non ha origine
da 0.
L’istogramma studia l’addensamento delle osservazioni nelle varie classi
I valori presenti sull’asse orizzontale
indicano i valori centrali delle classi
L’ampiezza dei rettangoli
è proporzionale
all’ampiezza delle classi,
in questo caso sono tutte
di pari ampiezza*.
Il poligono di frequenza
(linea spezzata)
evidenzia l’andamento
delle frequenze
*Quante classi per l’istogramma?
Modificare classi istogramma in Excel (1/2)
1. Selezionare i dati ( no intestazioni o nomi variabili)
2. Fare clic su Inserisci > Inserisci grafico statistico > Istogramma
3.
Modificare classi istogramma in Excel (2/2)
 Numero di bin: inserire il numero di classi/barre che si vuole utilizzare per
costruire l’istogramma
 Ampiezza bin: inserire l’ampiezza della singola classe/barra (uguale per
tutte le classi/barre)
 Bin di overflow: per raggruppare tutti i valori superiori ad una certa soglia
(da inserire nella casella) in poi fino al valore massimo in un’unica
barra/classe (>)
 Bin di underflow: per raggruppare tutti i valori dal valore minimo fino a
quelli uguali ad una certa soglia (da inserire nella casella) in un’unica
barra/classe (<=)
Per maggiori info: https://support.office.com/it-it/article/creare-un-istogramma-in-excel-85680173-064b-4024-b39d-80f17ff2f4e8
Come controllare la qualità dei dati
 Per le variabili quantitative:
 Disegno di boxplot e istogramma e calcolo degli indici di forma*:
Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?
 Calcolo opportuni indici di variabilità*:
I valori per le singole unità statistiche variano per ogni variabile come atteso?
 Per le variabili qualitative:
 Tabelle di frequenza:
I nomi e i valori delle singole modalità sono quelli realmente attesi?
Inoltre, per tutte le variabili:
 Calcolo opportuni indici di posizione*:
Le singole variabili hanno i valori/modalità realmente attesi?
 Frequenza dei valori mancanti:
E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
*Principali indici descrittivi univariati
.
 Indici di posizione
 Media
 Mediana
 Moda
 Indici di forma (solo per variabili quantitative)
 Asimmetria
 Curtosi
 Indici di variabilità (solo per variabili quantitative)
 Deviazione standard
 Coefficiente di variazione
 Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’
*
Oltre la media aritmetica…
 La media geometrica è la più indicata per calcolare i tassi medi di accrescimento
ma non si può usare se ci sono 0.
 La media armonica è la più indicata quando si calcolano i tempi di reazione.
 La media quadratica evidenzia la presenza di valori estremi molto grandi o molto
piccoli e rende ininfluente la presenza di valori con segni discordi (un po’ positivi e un po’
negativi)
Altezza (in cm)
183
175
170
160
160
186
165
155
Media aritmetica: 183+175+…+155=1354/8=169 cm
Media geometrica: 169 cm
Media armonica: 8/((1/183)+(1/175)+…+(1/155))=169 cm
Media quadratica: =169 cm
*Principali indici descrittivi univariati
.
 Indici di posizione
 Media
 Mediana
 Moda
 Indici di forma (solo per variabili quantitative)
 Asimmetria
 Curtosi
 Indici di variabilità (solo per variabili quantitative)
 Deviazione standard
 Coefficiente di variazione
 Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’
Indice di asimmetria
 La coincidenza di moda, mediana e media
aritmetica indica simmetria della
distribuzione (asimmetria = 0).
 La distribuzione Normale ha un indice di
asimmetria pari a 0
 La discrepanza indica asimmetria:
 Forte asimmetria positiva (>3):
 coda a destra
 Forte asimmetria negativa (<-3):
 coda a sinistra
 Per verificare l’asimmetria, è utile analizzare
l’istogramma o il boxplot
Se c’è asimmetria..
Se si è in presenza di una variabile asimmetrica, si consiglia di:
 usare i test non parametrici
oppure
 trasformare i punteggi in modo da ridurre l’asimmetria:
 In caso di asimmetria positiva, la ricodifica calcolando il logaritmo dei valori
della variabile ne riduce l’entità.
N.B. Questa trasformazione non si può utilizzare se la variabile presenta valori negativi. Se ci
sono degli zeri, è necessario prima aggiungere una costante ai dati.
 Quando si ha una variabile di conteggio (valori NON negativi), la ricodifica calcolando
la radice quadrata dei suoi valori riduce un asimmetria positiva
 In caso di asimmetria negativa, la ricodifica calcolando il quadrato dei singoli
valori della variabile ne riduce l’entità
Indice di curtosi
L’indice K** di curtosi* indica quanto è il
peso dei valori posti agli estremi della
distribuzione (code), rispetto a quelli della
parte centrale della distribuzione. Se:
K = 0: i dati hanno una forma normale
K > 0: il peso delle code è maggiore che
nella normale. Più è grande il valore è
K, più è alta la probabilità di trovare
valori estremi (outliers).
K < 0: il peso delle code è minore che nella
normale.
*L’indice di curtosi si utilizza solo per distribuzioni
unimodali
**Interpretazione curtosi in Excel
Esercizio – identificare valore curtosi
La distribuzione rappresentata
dalla linea verde avrà un indice
di curtosi maggiore, pari o
inferiore rispetto alla
distribuzione esponenziale?
E la distribuzione rappresentata
in arancione?
Soluzione esercizio – valori curtosi
Per variabili quantitative:
Media o mediana?
La media è un buon indicatore
quando si verificano entrambe le
seguenti condizioni:
1. la distribuzione è simmetrica
e non presenta outliers
2. c’è poca variabilità* tra i dati.
Per stabilirlo si può calcolare il
coefficiente di variazione:
CV=
𝐝𝐞𝐯𝐢𝐚𝐳𝐢𝐨𝐧𝐞 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝
𝐦𝐞𝐝𝐢𝐚
CV>0.5 indica una grande
variabilità tra i dati ed in
questo caso è meglio usare la
mediana
*Principali indici descrittivi univariati
 Indici di posizione
 Media
 Mediana
 Moda
 Indici di forma (solo per variabili quantitative)
 Asimmetria
 Curtosi
 Indici di variabilità (solo per variabili quantitative)
 Coefficiente di variazione
 Deviazione standard
 Range (assoluto e interquartile)
Per le variabili QUALITATIVE,
la variabilità si calcola con
INDICI DI ETEROGENEITA’
Per variabili quantitative
Range o deviazione standard?
 Quando si riporta la media è buona norma riportare anche la
deviazione standard (stessa unità di misura della media)
 Quando si riporta la mediana la deviazione standard non è
propriamente indicata (nel suo calcolo si utilizza la media e non
la mediana) e quindi è preferibile riportare il range
interquartile (terzo quartile – primo quartile).
Deviazione standard
Misura la dispersione delle singole osservazioni intorno alla
media aritmetica.
 Quando si analizza un campione, per convenzione di divide
per n-1 (invece che per n) ottenendo una deviazione standard
lievemente superiore (rispetto a dividere per n) e questo
rappresenta un approccio più "conservativo" all'analisi dei dati.
Effetti della deviazione standard
Esempio dati con stessa media e ds
Output generati con R
Calcolo il range assoluto o interquartile?
 Range assoluto:
valore massimo – valore minimo
Indica l’intervallo completo dei dati, ma è
una misura molto influenzata da eventuali
outliers*.
 Range interquartile*:
terzo quartile – primo quartile
Copre solo la metà intermedia dei dati e
pertanto risente meno di eventuali outliers
(indice più robusto del precedente)
*Esercizio sui quartili (n pari)
Sono stati rilevati i seguenti valori di pressione sistolica su un
campione di n=10 pazienti:
Calcolare la mediana e il range interquartile
Interpretare i valori ottenuti dagli indici.
Verificare se sono presenti degli outliers.
62 63 64 64 70 72 76 77 81 81
Soluzione esercizio quartili (n pari) – 1/2
Soluzione esercizio quartili (n pari) -2/2
1° quartile 3° quartile
Esercizio sui quartili (n dispari)
Sono stati rilevati i seguenti valori di pressione sistolica su un
campione di n=9 pazienti:
Esercizio:
Calcolare la mediana e il range interquartile e interpretare i valori
ottenuti.
Come cambierebbero tali indici se l’ultimo paziente avesse invece
un valore di pressione sistolica pari a 100?
63 64 64 70 72 76 77 81 81
63 64 64 70 72 76 77 81 100
Soluzione esercizio quartili (n dispari)
* Esercizio - Trova gli outliers
Esercizio tratto da:
http://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_summarizingdata/bs704_summarizingdata7.html
Gestione degli outliers
 Se lo stesso soggetto è un outlier su diverse variabili, si può pensare di
eliminarlo
 Se il soggetto outlier sembra simile alle altre unità, ad eccezione di un
punteggio anomalo, si può mantenere questo soggetto per l’analisi
adottando tecniche che ne riducano l’influenza
• Se test parametrici e non parametrici forniscono gli stessi risultati, allora
gli outliers non rappresentano un problema
• Se i risultati dei test parametrici sono significativi, mentre quelli dei test
non parametrici non lo sono, allora gli outliers sono un problema in
quanto riducono la potenza dei test.
Per variabili quantitative
Diagramma a «scatola e baffi» (boxplot)
• La «scatola» rappresenta la parte centrale della
distribuzione (il 50% centrale delle osservazioni
si trova al suo interno)
• La linea all’interno della «scatola» indica la
mediana
• I «baffi» rappresentano le code della
distribuzione (contengono ognuno circa il 25%
inferiore e superiore delle osservazioni)
• Gli eventuali punti esterni ai baffi indicano dati
anomali (outliers)
Utilizzo dei boxplots per confronti quantitativi
Esercizio – come si interpreta?
Soluzione esercizio – interpretazione boxplots
Come controllare la qualità dei dati
 Per le variabili quantitative:
 Disegno di boxplot e istogramma e calcolo degli indici di forma:
Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?
 Calcolo opportuni indici di variabilità:
I valori per le singole unità statistiche variano per ogni variabile come atteso?
 Per le variabili qualitative:
 Tabelle di frequenza*:
I nomi e i valori delle singole modalità sono quelli realmente attesi?
Inoltre, per tutte le variabili:
 Calcolo opportuni indici di posizione:
Le singole variabili hanno i valori/modalità realmente attesi?
 Frequenza dei valori mancanti:
E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
*Gestire i dati raggruppati in tabella
Le distribuzioni di frequenza sono delle tabelle che riportano le frequenze di:
 Singole modalità/valori (distribuzioni di frequenza semplici):
 intervalli di valori (distribuzioni di frequenza per classi):
Fumatore (0=NO; 1=SI) F. assolute F. relative F. percentuali
No 22 0,55 55%
Si 17 0,425 43%
NA 1 0,025 3%
Totale 40 1 100%
Numero figli F. assolute F. relative F. percentuali F. cumulate (%)
0 9 0,225 23% 23%
1 9 0,225 23% 45%
2 14 0,35 35% 80%
3 5 0,125 13% 93%
4 1 0,025 3% 95%
5 2 0,05 5% 100%
Totale 40 1 100%
BMI (kg/m2) F. assolute F. relative F. percentuali F. cumulate (n)
Sottopeso ( <18.5) 3 0,075 8% 3
Normopeso (18.5 - 24.9) 19 0,475 48% 22
Sovrappeso (25 - 29.9) 8 0,2 20% 30
Obesità 1 (30 - 34.9) 5 0,125 13% 35
Obesità 2 (35 - 39.9) 4 0,1 13% 39
Obesità 3 (>39.9) 1 0,025 13% 40
Totale 40 1 100%
Per le analisi si calcola il valore centrale di ogni
classe che verrà poi ponderato per le frequenze
Es. Valore centrale Normopeso: (18.5+24.9)/2= 21.7
Valore centrale Sottopeso: ( ? + 18.5)/2= ???
Quali frequenze utilizzare?
Le frequenze assolute si preferiscono in fase di analisi perché, non
essendoci approssimazioni decimali, forniscono risultati più precisi.
Le frequenze relative si preferiscono in fase di interpretazione perché
permettono il confronto della distribuzione di una variabile con campioni di
diversa numerosità.
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di
balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco è
somministrato a 150 pazienti (gruppo A) e un placebo è somministrato ad altri 100 pazienti
(gruppo B)
Frequenze assolute Frequenze relative
Cosa possiamo concludere?
Il farmaco è efficace per curare la
balbuzie?
Per variabili qualitative
Grafico a torta o a barre?
Grafico a barre orizzontali in pila
Grafico a colonne raggruppate
Grafico a torta

More Related Content

What's hot

SETS USING VENN DIAGRAMS
SETS USING VENN DIAGRAMSSETS USING VENN DIAGRAMS
SETS USING VENN DIAGRAMSSajid Rehman
 
MATRICES
MATRICESMATRICES
MATRICESdaferro
 
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?Smarten Augmented Analytics
 
2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...
2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...
2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...Sergio García Arama
 
Cartesian product of two sets
Cartesian product of two setsCartesian product of two sets
Cartesian product of two setsJanak Singh saud
 
Problemas medioambientais en España
Problemas medioambientais en EspañaProblemas medioambientais en España
Problemas medioambientais en Españaxosea
 
Working with Numerical Data
Working with  Numerical DataWorking with  Numerical Data
Working with Numerical DataGlobal Polis
 
Measures of Central Tendancy
Measures of Central TendancyMeasures of Central Tendancy
Measures of Central TendancyMARIAPPANM4
 
Introduction to real analysis
Introduction to real analysisIntroduction to real analysis
Introduction to real analysisMadhavaDas4
 
Basic Statistics & Data Analysis
Basic Statistics & Data AnalysisBasic Statistics & Data Analysis
Basic Statistics & Data AnalysisAjendra Sharma
 
Gli stimatori e le loro proprietà
Gli stimatori e le loro proprietà Gli stimatori e le loro proprietà
Gli stimatori e le loro proprietà Luigi Pasini
 
El clima i la vegetació
El clima i la vegetacióEl clima i la vegetació
El clima i la vegetaciócpnapenyal
 
Quantile and Expectile Regression
Quantile and Expectile RegressionQuantile and Expectile Regression
Quantile and Expectile RegressionArthur Charpentier
 
Group theory notes
Group theory notesGroup theory notes
Group theory notesmkumaresan
 
Principal Component Analysis and Clustering
Principal Component Analysis and ClusteringPrincipal Component Analysis and Clustering
Principal Component Analysis and ClusteringUsha Vijay
 

What's hot (20)

SETS USING VENN DIAGRAMS
SETS USING VENN DIAGRAMSSETS USING VENN DIAGRAMS
SETS USING VENN DIAGRAMS
 
MATRICES
MATRICESMATRICES
MATRICES
 
Chapter 2
Chapter 2Chapter 2
Chapter 2
 
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
What is ARIMAX Forecasting and How is it Used for Enterprise Analysis?
 
2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...
2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...
2º de Bachillerato GEO - Tema 4 - Los paisajes naturales y las interrelacione...
 
Measures of dispersion discuss 2.2
Measures of dispersion discuss 2.2Measures of dispersion discuss 2.2
Measures of dispersion discuss 2.2
 
Normal distribution
Normal distributionNormal distribution
Normal distribution
 
Cartesian product of two sets
Cartesian product of two setsCartesian product of two sets
Cartesian product of two sets
 
Problemas medioambientais en España
Problemas medioambientais en EspañaProblemas medioambientais en España
Problemas medioambientais en España
 
Working with Numerical Data
Working with  Numerical DataWorking with  Numerical Data
Working with Numerical Data
 
Measures of Central Tendancy
Measures of Central TendancyMeasures of Central Tendancy
Measures of Central Tendancy
 
Introduction to real analysis
Introduction to real analysisIntroduction to real analysis
Introduction to real analysis
 
Basic Statistics & Data Analysis
Basic Statistics & Data AnalysisBasic Statistics & Data Analysis
Basic Statistics & Data Analysis
 
Gli stimatori e le loro proprietà
Gli stimatori e le loro proprietà Gli stimatori e le loro proprietà
Gli stimatori e le loro proprietà
 
El clima i la vegetació
El clima i la vegetacióEl clima i la vegetació
El clima i la vegetació
 
Quantile and Expectile Regression
Quantile and Expectile RegressionQuantile and Expectile Regression
Quantile and Expectile Regression
 
Group theory notes
Group theory notesGroup theory notes
Group theory notes
 
Basic statistics
Basic statisticsBasic statistics
Basic statistics
 
Comentario dun hidrograma
Comentario dun hidrogramaComentario dun hidrograma
Comentario dun hidrograma
 
Principal Component Analysis and Clustering
Principal Component Analysis and ClusteringPrincipal Component Analysis and Clustering
Principal Component Analysis and Clustering
 

Similar to Statistica descrittiva - consigli pratici

Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control chartsLuca Vecchiato
 
La statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLa statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLuigi Pasini
 
Lss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excelLss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excelSimone Vecchi
 
Introduzione v
Introduzione vIntroduzione v
Introduzione vimartini
 
Indici di variabilità
Indici di variabilità Indici di variabilità
Indici di variabilità Luigi Pasini
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativagiosiele
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilitàVispo Srl
 
Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2ESmargiassi
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statisticagiammisarti
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneLuigi Pasini
 
Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _SullivanReeis
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misureDario
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - SchedeNicola Gentili
 

Similar to Statistica descrittiva - consigli pratici (20)

5 Control Charts
5 Control Charts5 Control Charts
5 Control Charts
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
 
La statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLa statistica, medie e indici di variabilità
La statistica, medie e indici di variabilità
 
Lss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excelLss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excel
 
Psicometria Parte I
 Psicometria Parte I Psicometria Parte I
Psicometria Parte I
 
8 Statistica
8 Statistica8 Statistica
8 Statistica
 
Lastatistica
LastatisticaLastatistica
Lastatistica
 
Introduzione v
Introduzione vIntroduzione v
Introduzione v
 
Indici di variabilità
Indici di variabilità Indici di variabilità
Indici di variabilità
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativa
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
 
Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2
 
Statistica sociale
Statistica socialeStatistica sociale
Statistica sociale
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statistica
 
Statistica
StatisticaStatistica
Statistica
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizione
 
Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misure
 
0 introduzione
0 introduzione0 introduzione
0 introduzione
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - Schede
 

Statistica descrittiva - consigli pratici

  • 1. Statistica descrittiva Consigli pratici Dott.ssa Paola Pozzolo sos.unistat@gmail.com Anno Accademico 2018/2019
  • 2. Come costruire un dataset in Excel SOLO la prima riga riporta i nomi delle variabili (una cella per ogni variabile) Dalla seconda riga a scendere, ogni riga corrisponde ad un’unità statistica La prima colonna riporta l’ID (numero identificativo univoco per ogni unità) I dati mancanti devono essere sempre codificati (es. NA= not available)
  • 3. Controllare i valori/modalità delle variabili QUANTITATIVA QUALITATIVA ORDINALE QUALITATIVA NOMINALE Es. variabile: Numero di figli Valori possibili (modalità): Nessun figlio Un solo figlio Più di un figlio Valori assunti: 0 0 1 3 2 2 1 1 0 4 2 … Valori possibili: 0 1 2 3 4 5 6 … Valori possibili (modalità): No (non ha figli) Si (ha almeno un figlio) Indici utilizzabili: - Moda - Indice eterogeneità di Gini Indici consigliati*: - Media e deviazione standard - Mediana e range IQR Indici consigliati: - Mediana - Range (totale o interquartile)
  • 4. Informazioni da scrivere in un report • Denominazione variabili per esteso ed eventuali abbreviazioni usate nelle tabelle • Tipologia delle variabili (qualitativo/quantitativo, modalità/valori assunti) • Quali sono le unità statistiche (caratteristiche, criteri di inclusione/esclusione) • Caratteristiche del campione (numerosità, metodologia di campionamento) • Quale è la popolazione di riferimento (con eventuali coordinate temporali e spaziali)
  • 5. L’importanza di dati di buona qualità • Nessuna elaborazione statistica può garantire una qualità delle conclusioni superiore a quella dei dati raccolti  Non possono bastare alcune “piroette statistiche” per nascondere la scarsa qualità dei dati raccolti.  Un dataset si definisce «sporco» quando non è stato controllato* e può contenere dati anomali.
  • 6. Come controllare la qualità dei dati  Per le variabili quantitative:  Disegno di boxplot e istogramma* e calcolo degli indici di forma: Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?  Calcolo opportuni indici di variabilità: I valori per le singole unità statistiche variano per ogni variabile come atteso?  Per le variabili qualitative:  Tabelle di frequenza: I nomi e i valori delle singole modalità sono quelli realmente attesi? Inoltre, per tutte le variabili:  Calcolo opportuni indici di posizione: Le singole variabili hanno i valori/modalità realmente attesi?  Frequenza dei valori mancanti: E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
  • 7. Come si interpreta un istogramma L’altezza dei rettangoli è pari alla frequenza specifica di ogni classe L’unità di misura dei due assi cartesiani è diversa. In questo caso l’asse x non ha origine da 0. L’istogramma studia l’addensamento delle osservazioni nelle varie classi I valori presenti sull’asse orizzontale indicano i valori centrali delle classi L’ampiezza dei rettangoli è proporzionale all’ampiezza delle classi, in questo caso sono tutte di pari ampiezza*. Il poligono di frequenza (linea spezzata) evidenzia l’andamento delle frequenze
  • 8. *Quante classi per l’istogramma?
  • 9. Modificare classi istogramma in Excel (1/2) 1. Selezionare i dati ( no intestazioni o nomi variabili) 2. Fare clic su Inserisci > Inserisci grafico statistico > Istogramma 3.
  • 10. Modificare classi istogramma in Excel (2/2)  Numero di bin: inserire il numero di classi/barre che si vuole utilizzare per costruire l’istogramma  Ampiezza bin: inserire l’ampiezza della singola classe/barra (uguale per tutte le classi/barre)  Bin di overflow: per raggruppare tutti i valori superiori ad una certa soglia (da inserire nella casella) in poi fino al valore massimo in un’unica barra/classe (>)  Bin di underflow: per raggruppare tutti i valori dal valore minimo fino a quelli uguali ad una certa soglia (da inserire nella casella) in un’unica barra/classe (<=) Per maggiori info: https://support.office.com/it-it/article/creare-un-istogramma-in-excel-85680173-064b-4024-b39d-80f17ff2f4e8
  • 11. Come controllare la qualità dei dati  Per le variabili quantitative:  Disegno di boxplot e istogramma e calcolo degli indici di forma*: Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?  Calcolo opportuni indici di variabilità*: I valori per le singole unità statistiche variano per ogni variabile come atteso?  Per le variabili qualitative:  Tabelle di frequenza: I nomi e i valori delle singole modalità sono quelli realmente attesi? Inoltre, per tutte le variabili:  Calcolo opportuni indici di posizione*: Le singole variabili hanno i valori/modalità realmente attesi?  Frequenza dei valori mancanti: E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
  • 12. *Principali indici descrittivi univariati .  Indici di posizione  Media  Mediana  Moda  Indici di forma (solo per variabili quantitative)  Asimmetria  Curtosi  Indici di variabilità (solo per variabili quantitative)  Deviazione standard  Coefficiente di variazione  Range (assoluto e interquartile) Per le variabili QUALITATIVE, la variabilità si calcola con INDICI DI ETEROGENEITA’
  • 13. *
  • 14. Oltre la media aritmetica…  La media geometrica è la più indicata per calcolare i tassi medi di accrescimento ma non si può usare se ci sono 0.  La media armonica è la più indicata quando si calcolano i tempi di reazione.  La media quadratica evidenzia la presenza di valori estremi molto grandi o molto piccoli e rende ininfluente la presenza di valori con segni discordi (un po’ positivi e un po’ negativi) Altezza (in cm) 183 175 170 160 160 186 165 155 Media aritmetica: 183+175+…+155=1354/8=169 cm Media geometrica: 169 cm Media armonica: 8/((1/183)+(1/175)+…+(1/155))=169 cm Media quadratica: =169 cm
  • 15. *Principali indici descrittivi univariati .  Indici di posizione  Media  Mediana  Moda  Indici di forma (solo per variabili quantitative)  Asimmetria  Curtosi  Indici di variabilità (solo per variabili quantitative)  Deviazione standard  Coefficiente di variazione  Range (assoluto e interquartile) Per le variabili QUALITATIVE, la variabilità si calcola con INDICI DI ETEROGENEITA’
  • 16. Indice di asimmetria  La coincidenza di moda, mediana e media aritmetica indica simmetria della distribuzione (asimmetria = 0).  La distribuzione Normale ha un indice di asimmetria pari a 0  La discrepanza indica asimmetria:  Forte asimmetria positiva (>3):  coda a destra  Forte asimmetria negativa (<-3):  coda a sinistra  Per verificare l’asimmetria, è utile analizzare l’istogramma o il boxplot
  • 17. Se c’è asimmetria.. Se si è in presenza di una variabile asimmetrica, si consiglia di:  usare i test non parametrici oppure  trasformare i punteggi in modo da ridurre l’asimmetria:  In caso di asimmetria positiva, la ricodifica calcolando il logaritmo dei valori della variabile ne riduce l’entità. N.B. Questa trasformazione non si può utilizzare se la variabile presenta valori negativi. Se ci sono degli zeri, è necessario prima aggiungere una costante ai dati.  Quando si ha una variabile di conteggio (valori NON negativi), la ricodifica calcolando la radice quadrata dei suoi valori riduce un asimmetria positiva  In caso di asimmetria negativa, la ricodifica calcolando il quadrato dei singoli valori della variabile ne riduce l’entità
  • 18. Indice di curtosi L’indice K** di curtosi* indica quanto è il peso dei valori posti agli estremi della distribuzione (code), rispetto a quelli della parte centrale della distribuzione. Se: K = 0: i dati hanno una forma normale K > 0: il peso delle code è maggiore che nella normale. Più è grande il valore è K, più è alta la probabilità di trovare valori estremi (outliers). K < 0: il peso delle code è minore che nella normale. *L’indice di curtosi si utilizza solo per distribuzioni unimodali
  • 20. Esercizio – identificare valore curtosi La distribuzione rappresentata dalla linea verde avrà un indice di curtosi maggiore, pari o inferiore rispetto alla distribuzione esponenziale? E la distribuzione rappresentata in arancione?
  • 21. Soluzione esercizio – valori curtosi
  • 22. Per variabili quantitative: Media o mediana? La media è un buon indicatore quando si verificano entrambe le seguenti condizioni: 1. la distribuzione è simmetrica e non presenta outliers 2. c’è poca variabilità* tra i dati. Per stabilirlo si può calcolare il coefficiente di variazione: CV= 𝐝𝐞𝐯𝐢𝐚𝐳𝐢𝐨𝐧𝐞 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝 𝐦𝐞𝐝𝐢𝐚 CV>0.5 indica una grande variabilità tra i dati ed in questo caso è meglio usare la mediana
  • 23. *Principali indici descrittivi univariati  Indici di posizione  Media  Mediana  Moda  Indici di forma (solo per variabili quantitative)  Asimmetria  Curtosi  Indici di variabilità (solo per variabili quantitative)  Coefficiente di variazione  Deviazione standard  Range (assoluto e interquartile) Per le variabili QUALITATIVE, la variabilità si calcola con INDICI DI ETEROGENEITA’
  • 24. Per variabili quantitative Range o deviazione standard?  Quando si riporta la media è buona norma riportare anche la deviazione standard (stessa unità di misura della media)  Quando si riporta la mediana la deviazione standard non è propriamente indicata (nel suo calcolo si utilizza la media e non la mediana) e quindi è preferibile riportare il range interquartile (terzo quartile – primo quartile).
  • 25. Deviazione standard Misura la dispersione delle singole osservazioni intorno alla media aritmetica.  Quando si analizza un campione, per convenzione di divide per n-1 (invece che per n) ottenendo una deviazione standard lievemente superiore (rispetto a dividere per n) e questo rappresenta un approccio più "conservativo" all'analisi dei dati.
  • 27. Esempio dati con stessa media e ds Output generati con R
  • 28. Calcolo il range assoluto o interquartile?  Range assoluto: valore massimo – valore minimo Indica l’intervallo completo dei dati, ma è una misura molto influenzata da eventuali outliers*.  Range interquartile*: terzo quartile – primo quartile Copre solo la metà intermedia dei dati e pertanto risente meno di eventuali outliers (indice più robusto del precedente)
  • 29. *Esercizio sui quartili (n pari) Sono stati rilevati i seguenti valori di pressione sistolica su un campione di n=10 pazienti: Calcolare la mediana e il range interquartile Interpretare i valori ottenuti dagli indici. Verificare se sono presenti degli outliers. 62 63 64 64 70 72 76 77 81 81
  • 30. Soluzione esercizio quartili (n pari) – 1/2
  • 31. Soluzione esercizio quartili (n pari) -2/2 1° quartile 3° quartile
  • 32. Esercizio sui quartili (n dispari) Sono stati rilevati i seguenti valori di pressione sistolica su un campione di n=9 pazienti: Esercizio: Calcolare la mediana e il range interquartile e interpretare i valori ottenuti. Come cambierebbero tali indici se l’ultimo paziente avesse invece un valore di pressione sistolica pari a 100? 63 64 64 70 72 76 77 81 81 63 64 64 70 72 76 77 81 100
  • 34. * Esercizio - Trova gli outliers Esercizio tratto da: http://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_summarizingdata/bs704_summarizingdata7.html
  • 35. Gestione degli outliers  Se lo stesso soggetto è un outlier su diverse variabili, si può pensare di eliminarlo  Se il soggetto outlier sembra simile alle altre unità, ad eccezione di un punteggio anomalo, si può mantenere questo soggetto per l’analisi adottando tecniche che ne riducano l’influenza • Se test parametrici e non parametrici forniscono gli stessi risultati, allora gli outliers non rappresentano un problema • Se i risultati dei test parametrici sono significativi, mentre quelli dei test non parametrici non lo sono, allora gli outliers sono un problema in quanto riducono la potenza dei test.
  • 36. Per variabili quantitative Diagramma a «scatola e baffi» (boxplot) • La «scatola» rappresenta la parte centrale della distribuzione (il 50% centrale delle osservazioni si trova al suo interno) • La linea all’interno della «scatola» indica la mediana • I «baffi» rappresentano le code della distribuzione (contengono ognuno circa il 25% inferiore e superiore delle osservazioni) • Gli eventuali punti esterni ai baffi indicano dati anomali (outliers)
  • 37. Utilizzo dei boxplots per confronti quantitativi
  • 38. Esercizio – come si interpreta?
  • 39. Soluzione esercizio – interpretazione boxplots
  • 40. Come controllare la qualità dei dati  Per le variabili quantitative:  Disegno di boxplot e istogramma e calcolo degli indici di forma: Come si distribuiscono i dati? La distribuzione è simmetrica? Ci sono outliers?  Calcolo opportuni indici di variabilità: I valori per le singole unità statistiche variano per ogni variabile come atteso?  Per le variabili qualitative:  Tabelle di frequenza*: I nomi e i valori delle singole modalità sono quelli realmente attesi? Inoltre, per tutte le variabili:  Calcolo opportuni indici di posizione: Le singole variabili hanno i valori/modalità realmente attesi?  Frequenza dei valori mancanti: E’ necessario sostituire tali valori o eliminarli dalle analisi successive?
  • 41. *Gestire i dati raggruppati in tabella Le distribuzioni di frequenza sono delle tabelle che riportano le frequenze di:  Singole modalità/valori (distribuzioni di frequenza semplici):  intervalli di valori (distribuzioni di frequenza per classi): Fumatore (0=NO; 1=SI) F. assolute F. relative F. percentuali No 22 0,55 55% Si 17 0,425 43% NA 1 0,025 3% Totale 40 1 100% Numero figli F. assolute F. relative F. percentuali F. cumulate (%) 0 9 0,225 23% 23% 1 9 0,225 23% 45% 2 14 0,35 35% 80% 3 5 0,125 13% 93% 4 1 0,025 3% 95% 5 2 0,05 5% 100% Totale 40 1 100% BMI (kg/m2) F. assolute F. relative F. percentuali F. cumulate (n) Sottopeso ( <18.5) 3 0,075 8% 3 Normopeso (18.5 - 24.9) 19 0,475 48% 22 Sovrappeso (25 - 29.9) 8 0,2 20% 30 Obesità 1 (30 - 34.9) 5 0,125 13% 35 Obesità 2 (35 - 39.9) 4 0,1 13% 39 Obesità 3 (>39.9) 1 0,025 13% 40 Totale 40 1 100% Per le analisi si calcola il valore centrale di ogni classe che verrà poi ponderato per le frequenze Es. Valore centrale Normopeso: (18.5+24.9)/2= 21.7 Valore centrale Sottopeso: ( ? + 18.5)/2= ???
  • 42. Quali frequenze utilizzare? Le frequenze assolute si preferiscono in fase di analisi perché, non essendoci approssimazioni decimali, forniscono risultati più precisi. Le frequenze relative si preferiscono in fase di interpretazione perché permettono il confronto della distribuzione di una variabile con campioni di diversa numerosità. Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco è somministrato a 150 pazienti (gruppo A) e un placebo è somministrato ad altri 100 pazienti (gruppo B) Frequenze assolute Frequenze relative Cosa possiamo concludere? Il farmaco è efficace per curare la balbuzie?
  • 43. Per variabili qualitative Grafico a torta o a barre? Grafico a barre orizzontali in pila Grafico a colonne raggruppate Grafico a torta