SlideShare a Scribd company logo
1 of 56
Totale diapositive 56
Totale diapositive 56
Totale diapositive 56
ALTRI VALORI DI CORRISPONDENZA TRA Z
E LA DENSITA’ DI PROBABILITA’
0,500 = P{ z < 0 }
0,500 = P{ z > 0 }
0,900 = P{- 1,65 < z < +1,65 }
0,950 = P{- 1,96 < z < +1,96 }
0,955 = P{- 2 < z < + 2 }
0,990 = P{- 2,58 < z < + 2,58 }
0,997 = P{ - 3 < z < + 3 }
Totale diapositive 56
QUALSIASI DISTRIBUZIONE CONTINUA PUO’
ESSERE STANDARDIZZATA
Una distribuzione standardizzata ha media uguale
a 0 e deviazione standard (o varianza) uguale a 1.
Totale diapositive 56
Il fatto che ci rivolgiamo ad un campione, che è solo una
parte della popolazione, comporta che le “misure” che
effettuiamo sul campione sono in qualche modo sbagliate.
Più correttamente, le STIME che effettuiamo sul campione
hanno un certo grado di INCERTEZZA.
Totale diapositive 56
Quando parliamo di valori tipici della popolazione,
parliamo di PARAMETRI
Quando parliamo di valori tipici di un campione,
parliamo di STATISTICHE.
Quando facciamo inferenza, attribuiamo conclusioni fatte sul
campione alla popolazione, parliamo allora di STIME DI PARAMETRI,
e relativi INTERVALLI DI CONFIDENZA
(o di intervalli di credibilità nella statistica bayesiana)
Si usano le lettere latine per il campione (S, X, Y..)
quelle greche per la popolazione (μ, σ , …)
Totale diapositive 56
Teorema del limite centrale
Se tutti i possibili campioni casuali di numerosità n vengono estratti da
una data popolazione avente media mu e varianza sigma-quadro,
all’aumentare di n le medie di questi campioni approssimeranno una
distribuzione normale, con media mu e varianza sigma-quadro/N.
Indipendentemente dalla forma della distribuzione !
Media della
popolazione Varianza della
popolazione
Media delle
medie
campionarie
Varianza
delle medie
campionarie
Totale diapositive 56
universo
Media, varianza
Media, varianza
campioni
………………
Distribuzione delle medie campionarie
Media, varianza
Media, varianza
Media, varianza
Totale diapositive 56
Teorema del limite centrale
La varianza delle medie campionarie diminuisce all’aumentare della
grandezza del campione (n). Si parla di ERRORE STANDARD.
Più grandi sono i campioni, minore è l’errore standard e più precisa è
la media campionaria nello stimare la media della popolazione.
Totale diapositive 56
Teorema del limite centrale
Distribuendosi le medie campionarie secondo una curva normale,
possiamo conoscere la probabilità che le medie campionarie siano
comprese in un dato intervallo.
Totale diapositive 56
Teorema del limite centrale
UNIVERSO 100000 CASI
Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100
. . .
Media=173 Media=174 Media=176 Media=172 Media=175
Le medie campionarie (sotto) approssimano la media della
popolazione (174) a meno di un certo margine di incertezza
(che dipende dall’errore standard).
Media= 174 Dev.std.=15
Totale diapositive 56
Teorema del limite centrale
UNIVERSO 100000 CASI
Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100
. . .
Media=173 Media=174 Media=176 Media=172 Media=175
Media= 174 Dev.std.=15
n campionario
uguale a 100
Totale diapositive 56
Z
0,95
0,025 0,025
Il 95% di tutte le medie
campionarie sono comprese
nell’intervallo:
p(Z)
Totale diapositive 56
Sappiamo che Z ritaglia un’area di 0,95 con valori corrispondenti
a più/meno 1,96.
Se consideriamo il primo campione estratto
abbiamo che l’incertezza della stima del valore
medio di questo campione riguarda l’intervallo:
Totale diapositive 56
Se stiamo lavorando sul primo campione estratto
abbiamo che l’incertezza della stima del valore medio
dell’altezza nella popolazione riguarda l’intervallo:
Estratti un numero molto elevato di campioni di
numerosità 100, l’altezza è nel 95% dei casi compresa
tra 170,1 e 176,9
Totale diapositive 56
0,95
0,025 0,025
173 176,9170,1
Totale diapositive 56
0,95
0,025 0,025
Prendendo un campione più ampio… n=1000
174 174,9173,1
Totale diapositive 56
170 175,4164,6
0,95
0,025 0,025
Prendendo un campione più piccolo … n=30
Totale diapositive 56
Incertezza e numerosità campionaria
n=1000
n=100
n=50
L’e.s. è funzione di n
Totale diapositive 56
Esempio tratto da M.Pisati, “Analisi dei dati”
Totale diapositive 56
Quando la deviazione standard della popolazione non è nota,
e la numerosità del campione è elevata, è possibile stimare
l’errore standard usando la deviazione standard del campione.
IN TAL CASO PERO’ SI USA LA DISTRIBUZIONE t di Student,
una distribuzione che approssima la curva normale, ma che ha
errori standard più ampi (le code sono più lunghe) ed è
funzione anche della dimensione del campione.
Se n è molto grande T e Z convergono.
Totale diapositive 56
VALORI DI CORRISPONDENZA TRA T
E LA DENSITA’ DI PROBABILITA’:
0,500 = P{ t < 0 }
0,500 = P{ t > 0 }
0,900 = P{- 1,66 < t < +1,66 }
0,950 = P{- 1,98 < t < +1,98 }
0,990 = P{- 2,62 < t < + 2,62 }
0,500 = P{ t < 0 }
0,500 = P{ t > 0 }
0,900 = P{- 1,65 < t < +1,65 }
0,950 = P{- 1,96 < t < +1,96 }
0,990 = P{- 2,57 < t < + 2,57 }
PER n=100 PER n molto grande
(convergono con Z)
Totale diapositive 56
Test di significatività
Se testiamo un’ipotesi su un campione, quanto la risposta
che diamo a questa ipotesi è “vera” anche nella
popolazione?
Totale diapositive 56
μ è la differenza prima-dopo attesa nella
popolazione
Ho: μ = 0
H1: μ ≠ 0
Più la stima nel campione è lontana da 0 e
più è verosimile che Ho sia falsa
Test di ipotesi
Totale diapositive 56
▪ Usualmente rappresenta l’ipotesi “no
associazione” o “no differenza”
L’ipotesi nulla: Ho
Totale diapositive 56
▪ Tipicamente rappresenta quello che si sta
cercando di provare
L’ipotesi alternativa: H1 (HA)
Totale diapositive 56
▪ Noi valutiamo entrambe le ipotesi allo
stesso tempo (si rifiuta Ho, non si
rifiuta Ho)
▪ Si assume che l’ipotesi nulla sia vera e
si calcola la probabilità che il campione
sia stato estratto dalla popolazione
definita dall’ipotesi nulla
Test di ipotesi
Totale diapositive 56
▪ La differenza media della pressione arteriosa
prima-dopo uso dei contraccettivi è pari a
4,8 mm/Hg
▪ Forse Ho è vera e noi abbiamo soltanto
estratto per caso un campione inusuale
▪ Noi dobbiamo misurare quanto sia probabile
aver estratto il nostro campione se l’ipotesi
nulla è vera
Test di ipotesi
esempio
Totale diapositive 56
▪ Qual è la probabilità di aver estratto un
campione che ha una differenza media di
4,8 mm/Hg se fosse vera l’ipotesi nulla (cioè
nessuna reale differenza)?
▪ Questa probabilità è il p-value
▪ Se p è molto piccolo, ci suggerisce che il
risultato osservato non può essere
facilmente spiegato dal caso
Test di ipotesi
valore p (p-value)
Totale diapositive 56
▪ Come si calcola il p-value?
Test di ipotesi
valore p (p-value)
▪
Con la distribuzione campionaria!!
Totale diapositive 56Totale diapositive 168
▪ Se vale Ho …
Calcolo valore p (p-value)
μ
oDistribuzione campionaria di tutte le medie
campionarie per campioni di dimensione n
Totale diapositive 56Totale diapositive 168
▪Per calcolare il p-value si prende la
media campionaria ottenuta e valutiamo
quanto sia inusuale dato Ho
Calcolo valore p (p-value)
μ
Totale diapositive 56
▪Torniamo al problema:
n=10; = -4,8; DS =4,6
▪Quanto la nostra media campionaria è
lontana da μo=0 in “termini statistici”?
▪Dobbiamo perciò misurare quanti errori
standard è –4,8 lontano da 0
Calcolo valore p (p-value)
Totale diapositive 56
Utilizzazione del p-value per
prendere un decisione
P-value = 0,01
E’ questa probabilità piccola abbastanza
per ritenere che l’ipotesi nulla μ = 0 sia
falsa?
Definizione del cut-off
Sotto quale valore soglia riteniamo che un
p-value suggerisca di rifiutare l’ipotesi
nulla?
Totale diapositive 56
Utilizzazione del p-value per
prendere un decisione
Definizione di un cut-off
Standard cut-off: 0,05 (scelta arbitraria)
p<0,05 è detto statisticamente significativo
Totale diapositive 56
Utilizzazione del p-value per
prendere un decisione
Definizione di un cut-off
Standard cut-off: 0,05 (scelta arbitraria)
p<0,05 è detto statisticamente significativo
Totale diapositive 56
Test di livello di significatività
α=5%
Definiamo con α la probabilità dell’errore di I tipo. Questo valore, detto
livello di significatività di un test per H0=innocente
α=P(rifiutare Ipotesi nulla: H0 quando essa è “vera”)
non si possono diminuire entrambi gli errori…
Prima di fare un test si decide il valore di α=0,05 (5%), α=0,01 (1%)
α varia a seconda dei contesti (vedi es. casa farmaceutica)
Totale diapositive 56
Test di verifica
dell’Ipotesisignificato interpretativo
• Un Test accetta o rifiuta H0, non dimostra mai che è
H0 vera o falsa.
• H1 è corroborata (sostenuta) o meno dai dati, mai
accettata o rifiutata e tanto “vera” o “falsa”
• Si dice “test di significatività al 5%”, ma …ho due tipi di
errore… (ma abbiamo deciso di costruire il test per Ho,
che vogliamo tenere “sotto controllo”).
❖ α = 5% = P(rifiutare H0 quando H0 è vera)=P(err I° tipo)
❖ β =P(accettare H0 quando H0 non è vera)=P(err. II° tipo)
Totale diapositive 56
Test di verifica
dell’Ipotesipraticamente…
• Il test è una formula che mi danno gli statistici
(+/- complessa e con +/- senza senso logico/intuitivo)
• premesso che ai dati si possa applicare certi
modelli matematici, gli statistici mi dicono che:
❖ se l’ipotesi H0 è vera, il test deve assumere certi
valori (regione di accettazione) con una certa prob.
❖ se H0 è falsa deve assumerne altri (regione di rifiuto).
• Ergo: calcolo il test con i miei dati e …decido!.
Totale diapositive 56
Test di verifica dell’Ipotesi –
Valore p
Quando comunico l’esito di un test ad altri:
❖ dico solo significativo/non significativo (accetto/rifiuto)
❖ o posso dire di più?
meglio riportare il:
valore p= livello di significatività osservato
ovvero: il più alto valore di α che mi farebbe rifiutare H0
❖ Se p<0,01 rifiuto H0
❖ Se 0,01<p<0,05 si tende a rifiutare
❖ p>0,05 accetto H0
• E’ un indicatore della plausibilità dell’ipotesi H0
Totale diapositive 56
p-values
p-values sono probabilità (numeri tra 0 ed 1)
Valori che si avvicinano a 0 indicano che i
risultati campionari ottenuti sono
inverosimili quando l’ipotesi nulla è vera
Il p-value NON è la probabilità che l’ipotesi
nulla sia vera!
Il p-value per se non dà informazione sulla
qualità scientifica di uno studio
Totale diapositive 56
Test di ipotesi e intervallo
di confidenza
Intervallo di confidenza e p-value sono
complementari
0 1,53 1,87
[ ]
Se 0 non è contenuto nell’intervallo di
confidenza al 95%, allora noi potremmo
rifiutare Ho al livello α = 0,05 (cioè p<0,05)
Totale diapositive 56
Alcune considerazioni
sull’inferenza statistica
Significatività statistica non implica la
causalità
Significatività statistica non va interpretato
come significatività scientifica
Totale diapositive 56
Alcune considerazioni
sull’inferenza statistica
Esempio:
N=100.000, x=0,03 mmHg; s=4,57; p-value=0,04
Grandi dimensioni campionarie possono
produrre piccoli p-values anche quando
l’effetto del fenomeno studiato è molto piccolo
(non significativo dal punto di vista scientifico)
Totale diapositive 56
Alcune considerazioni
sull’inferenza statistica
Esempio:
N=5, x=5,00 mmHg; s=4,57; p-value=0,07
(non si può rifiutare Ho al livello α=0,05)
Questo risultato realmente ci dice che non ci
sia una relazione tra pressione arteriosa ed
uso di contraccettivi orali?
E se prendessimo un campione più grande?
Totale diapositive 56
RIASSUMENDO
Totale diapositive 56
Indici di tendenza centrale per distribuzioni simmetriche e deformate
Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri
biologici (es. numero di eritrociti/mm3, età al primo parto, durata della
gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso
una curva particolare con una forma a campana,
Totale diapositive 56
Questo tipo di curva, che ha un solo 'picco' (classe di massima frequenza o
moda: curva unimodale), viene detta «gaussiana» o «Normale»; essa è
simmetrica, nel senso che si può dividere in due parti, specularmente uguali,
tracciando una linea verticale in corrispondenza del valore di massima
frequenza.
In ogni distribuzione di tipo simmetrico MODA, MEDIA e MEDIANA coincidono
Totale diapositive 56
importante notare che, nelle distribuzioni asimmetriche,
moda, media e mediana non coincidono, ma assumono
la disposizione indicata nel grafico 1 dove, come si
vede, la media è l'indice che più viene influenzato
dall'esistenza di dati estremi.
Totale diapositive 56
Variabilità biologica: indici di variazione (o di dispersione)
Intervallo di variazione
L'intervallo di variazione si ottiene semplicemente calcolando la differenza fra il
dato più alto e quello più basso, oppure specificando il valore del dato più alto e
quello del dato più basso (campo di variazione o range). L'intervallo di
variazione non considera la variabilità delle osservazioni fra i due estremi ed ha
lo svantaggio di dipendere strettamente dal numero di osservazioni e di
aumentare con l'aumentare di esse.
Esempio. La misurazione dell'altezza al garrese di 8 bracchi italiani ha fornito i
seguenti valori (in cm):
54, 57, 57, 58, 59, 60, 60, 61, 66.
L'intervallo di variazione è di 66-54 = 12 cm.
Totale diapositive 56
Deviazione standard
Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più
comune indice di tendenza centrale: la media. In questo caso, per descrivere
compiutamente la popolazione, è sempre necessario dichiarare anche, come
indice di variazione, il valore della deviazione standard.
La deviazione standard (o scarto quadratico medio) rappresenta la distanza
media dei dati dalla loro media. La deviazione standard è un ottimo indice di
variazione dei dati quando essi sono distribuiti normalmente e rappresenta
probabilmente l'indice di variazione usato più comunemente. Tuttavia è bene
ripetere ancora una volta che esso deve essere utilizzato soltanto quando i dati
hanno una distribuzione normale.
Totale diapositive 56
Per riassumere:
volendo descrivere dati a distribuzione normale, conviene specificare media e
deviazione standard;
volendo descrivere dati a distribuzione deformata, conviene specificare mediana
e percentili.
dati a distribuzione simmetrica ..... usare media e deviazione standard
dati a distribuzione non simmetrica ..... usare mediana e percentili
Calcolo della deviazione standard
La formula serve a calcolare la deviazione standard di una serie di misure. La
«devianza» è la somma dei quadrati delle deviazioni dei valori individuali dalla
loro media aritmetica (m), mentre i «gradi di libertà» sono il numero di
osservazioni (n) di cui è composto il campione, meno 1 (cioè: gradi libertà = n-
1).
Totale diapositive 56
Indici di variazione: caratteristiche
Totale diapositive 56
Il range o intervallo di variazione è rappresentato dalla distanza fra il dato con il valore
minimo e quello con il valore massimo. Presenta l'inconveniente di essere influenzato
dai valori estremi; in effetti, basta un solo valore eccezionalmente al di sopra (o al di
sotto) degli altri dati per far aumentare il range. Inoltre, esso non è agevolmente
utilizzabile nel calcolo statistico.
La deviazione standard è adatta a manipolazioni matematiche, ma dovrebbe essere
utilizzata soltanto se i dati di origine hanno distribuzione Normale.
I percentili sono validi sia per distribuzioni normali (si ricorda che, in tal caso, il 50°
percentile è uguale alla media) che non normali. In ogni caso, al fine di fornire un'idea
della variabilità dei dati, è bene indicare sempre non soltanto la mediana ma anche - ed
almeno - il 25° ed il 75° percentile.
Totale diapositive 56
Variabilità biologica, deviazione standard e normalità
É già stato detto che fonti di variazione sono presenti in ogni misurazione di
un carattere biologico. Tale variabilità non è tuttavia del tutto imprevedibile:
infatti, molti fenomeni naturali seguono un modello teorico definito «curva di
distribuzione Normale» o «gaussiana».
Questo modello è particolarmente utile, in quanto possiamo impiegarlo
conoscendo soltanto la media e la deviazione standard. Infatti, in una
gaussiana il 95% dei dati cade nell'intervallo media ± 2 volte la deviazione
standard.
Più precisamente, si può dimostrare che l'intervallo (media ± deviazione
standard) comprende il 68% circa dei dati; l'intervallo (media ± 2 deviazioni
standard) ne comprende il 95% e l'intervallo (media ± 3 deviazioni standard)
comprende pressoché tutti i dati (99.7%).
Totale diapositive 56
una delle domande più frequenti che sorgono immediatamente quando si
viene a conoscenza di un valore di una misura biologica eseguita su un
individuo è:
«si tratta di un valore «normale»?
ESEMPI. Sono stati ottenuti i seguenti valori. Possono essere considerati
"normali"?
- 240 pulsazioni cardiache/minuto in un pappagallino ondulato;
- 150.000 linfociti per mm cubo nel sangue di un bovino;
- 45 atti respiratori/minuto in un cane boxer adulto.

More Related Content

Similar to 03statistica errore standard_56

Test delle ipotesi
Test delle ipotesiTest delle ipotesi
Test delle ipotesiArahell
 
Santoro - Principi di statistica medica
Santoro - Principi di statistica medicaSantoro - Principi di statistica medica
Santoro - Principi di statistica medicaEugenio Santoro
 
02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenzaAngelo Barbato
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarieVispo Srl
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statisticaVispo Srl
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoRiccardo Narizzano
 
Le distribuzioni di probabilità
Le distribuzioni di probabilitàLe distribuzioni di probabilità
Le distribuzioni di probabilitàVispo Srl
 
Verifica delle ipotesi - Lezione 9
Verifica delle ipotesi - Lezione 9Verifica delle ipotesi - Lezione 9
Verifica delle ipotesi - Lezione 9Sergio Pinna
 
8.7 il teorema del limite centrale e la legge dei grandi numeri
8.7   il teorema del limite centrale e la legge dei grandi numeri8.7   il teorema del limite centrale e la legge dei grandi numeri
8.7 il teorema del limite centrale e la legge dei grandi numeriRiccardo Rigon
 

Similar to 03statistica errore standard_56 (11)

Test delle ipotesi
Test delle ipotesiTest delle ipotesi
Test delle ipotesi
 
Santoro - Principi di statistica medica
Santoro - Principi di statistica medicaSantoro - Principi di statistica medica
Santoro - Principi di statistica medica
 
02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza
 
La statistica e il futuro
La statistica e il futuroLa statistica e il futuro
La statistica e il futuro
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarie
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statistica
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del gioco
 
Le distribuzioni di probabilità
Le distribuzioni di probabilitàLe distribuzioni di probabilità
Le distribuzioni di probabilità
 
Verifica delle ipotesi - Lezione 9
Verifica delle ipotesi - Lezione 9Verifica delle ipotesi - Lezione 9
Verifica delle ipotesi - Lezione 9
 
Psicometria Parte II
Psicometria Parte II Psicometria Parte II
Psicometria Parte II
 
8.7 il teorema del limite centrale e la legge dei grandi numeri
8.7   il teorema del limite centrale e la legge dei grandi numeri8.7   il teorema del limite centrale e la legge dei grandi numeri
8.7 il teorema del limite centrale e la legge dei grandi numeri
 

More from Angelo Barbato

Outpatient riabilitazione
Outpatient riabilitazioneOutpatient riabilitazione
Outpatient riabilitazioneAngelo Barbato
 
007 italian health_data_management_59
007 italian health_data_management_59007 italian health_data_management_59
007 italian health_data_management_59Angelo Barbato
 
Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42Angelo Barbato
 
Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17Angelo Barbato
 
Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53Angelo Barbato
 
Medlav02 legislazione 49
Medlav02 legislazione 49Medlav02 legislazione 49
Medlav02 legislazione 49Angelo Barbato
 
Medlav01 introduzione 26
Medlav01 introduzione 26Medlav01 introduzione 26
Medlav01 introduzione 26Angelo Barbato
 
04 studi epidemiologici_62
04 studi epidemiologici_6204 studi epidemiologici_62
04 studi epidemiologici_62Angelo Barbato
 
01 statistica programma 2013
01 statistica programma 201301 statistica programma 2013
01 statistica programma 2013Angelo Barbato
 
05lezione metanalisi 28
05lezione metanalisi 2805lezione metanalisi 28
05lezione metanalisi 28Angelo Barbato
 
06lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 4006lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 40Angelo Barbato
 
Il Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato CronicoIl Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato CronicoAngelo Barbato
 
Mancato accesso credito
Mancato accesso creditoMancato accesso credito
Mancato accesso creditoAngelo Barbato
 

More from Angelo Barbato (17)

Territory health care
Territory health careTerritory health care
Territory health care
 
Outpatient riabilitazione
Outpatient riabilitazioneOutpatient riabilitazione
Outpatient riabilitazione
 
20151023 zero disease
20151023 zero disease20151023 zero disease
20151023 zero disease
 
007 italian health_data_management_59
007 italian health_data_management_59007 italian health_data_management_59
007 italian health_data_management_59
 
Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42
 
Medlav06 dlgs 230 95
Medlav06 dlgs 230 95Medlav06 dlgs 230 95
Medlav06 dlgs 230 95
 
Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17
 
Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53
 
Medlav02 legislazione 49
Medlav02 legislazione 49Medlav02 legislazione 49
Medlav02 legislazione 49
 
Medlav01 introduzione 26
Medlav01 introduzione 26Medlav01 introduzione 26
Medlav01 introduzione 26
 
Medlav05 rischi 99
Medlav05 rischi 99Medlav05 rischi 99
Medlav05 rischi 99
 
04 studi epidemiologici_62
04 studi epidemiologici_6204 studi epidemiologici_62
04 studi epidemiologici_62
 
01 statistica programma 2013
01 statistica programma 201301 statistica programma 2013
01 statistica programma 2013
 
05lezione metanalisi 28
05lezione metanalisi 2805lezione metanalisi 28
05lezione metanalisi 28
 
06lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 4006lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 40
 
Il Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato CronicoIl Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato Cronico
 
Mancato accesso credito
Mancato accesso creditoMancato accesso credito
Mancato accesso credito
 

03statistica errore standard_56

  • 3. Totale diapositive 56 ALTRI VALORI DI CORRISPONDENZA TRA Z E LA DENSITA’ DI PROBABILITA’ 0,500 = P{ z < 0 } 0,500 = P{ z > 0 } 0,900 = P{- 1,65 < z < +1,65 } 0,950 = P{- 1,96 < z < +1,96 } 0,955 = P{- 2 < z < + 2 } 0,990 = P{- 2,58 < z < + 2,58 } 0,997 = P{ - 3 < z < + 3 }
  • 4. Totale diapositive 56 QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE STANDARDIZZATA Una distribuzione standardizzata ha media uguale a 0 e deviazione standard (o varianza) uguale a 1.
  • 5. Totale diapositive 56 Il fatto che ci rivolgiamo ad un campione, che è solo una parte della popolazione, comporta che le “misure” che effettuiamo sul campione sono in qualche modo sbagliate. Più correttamente, le STIME che effettuiamo sul campione hanno un certo grado di INCERTEZZA.
  • 6. Totale diapositive 56 Quando parliamo di valori tipici della popolazione, parliamo di PARAMETRI Quando parliamo di valori tipici di un campione, parliamo di STATISTICHE. Quando facciamo inferenza, attribuiamo conclusioni fatte sul campione alla popolazione, parliamo allora di STIME DI PARAMETRI, e relativi INTERVALLI DI CONFIDENZA (o di intervalli di credibilità nella statistica bayesiana) Si usano le lettere latine per il campione (S, X, Y..) quelle greche per la popolazione (μ, σ , …)
  • 7. Totale diapositive 56 Teorema del limite centrale Se tutti i possibili campioni casuali di numerosità n vengono estratti da una data popolazione avente media mu e varianza sigma-quadro, all’aumentare di n le medie di questi campioni approssimeranno una distribuzione normale, con media mu e varianza sigma-quadro/N. Indipendentemente dalla forma della distribuzione ! Media della popolazione Varianza della popolazione Media delle medie campionarie Varianza delle medie campionarie
  • 8. Totale diapositive 56 universo Media, varianza Media, varianza campioni ……………… Distribuzione delle medie campionarie Media, varianza Media, varianza Media, varianza
  • 9. Totale diapositive 56 Teorema del limite centrale La varianza delle medie campionarie diminuisce all’aumentare della grandezza del campione (n). Si parla di ERRORE STANDARD. Più grandi sono i campioni, minore è l’errore standard e più precisa è la media campionaria nello stimare la media della popolazione.
  • 10. Totale diapositive 56 Teorema del limite centrale Distribuendosi le medie campionarie secondo una curva normale, possiamo conoscere la probabilità che le medie campionarie siano comprese in un dato intervallo.
  • 11. Totale diapositive 56 Teorema del limite centrale UNIVERSO 100000 CASI Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100 . . . Media=173 Media=174 Media=176 Media=172 Media=175 Le medie campionarie (sotto) approssimano la media della popolazione (174) a meno di un certo margine di incertezza (che dipende dall’errore standard). Media= 174 Dev.std.=15
  • 12. Totale diapositive 56 Teorema del limite centrale UNIVERSO 100000 CASI Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100 . . . Media=173 Media=174 Media=176 Media=172 Media=175 Media= 174 Dev.std.=15 n campionario uguale a 100
  • 13. Totale diapositive 56 Z 0,95 0,025 0,025 Il 95% di tutte le medie campionarie sono comprese nell’intervallo: p(Z)
  • 14. Totale diapositive 56 Sappiamo che Z ritaglia un’area di 0,95 con valori corrispondenti a più/meno 1,96. Se consideriamo il primo campione estratto abbiamo che l’incertezza della stima del valore medio di questo campione riguarda l’intervallo:
  • 15. Totale diapositive 56 Se stiamo lavorando sul primo campione estratto abbiamo che l’incertezza della stima del valore medio dell’altezza nella popolazione riguarda l’intervallo: Estratti un numero molto elevato di campioni di numerosità 100, l’altezza è nel 95% dei casi compresa tra 170,1 e 176,9
  • 16. Totale diapositive 56 0,95 0,025 0,025 173 176,9170,1
  • 17. Totale diapositive 56 0,95 0,025 0,025 Prendendo un campione più ampio… n=1000 174 174,9173,1
  • 18. Totale diapositive 56 170 175,4164,6 0,95 0,025 0,025 Prendendo un campione più piccolo … n=30
  • 19. Totale diapositive 56 Incertezza e numerosità campionaria n=1000 n=100 n=50 L’e.s. è funzione di n
  • 20. Totale diapositive 56 Esempio tratto da M.Pisati, “Analisi dei dati”
  • 21. Totale diapositive 56 Quando la deviazione standard della popolazione non è nota, e la numerosità del campione è elevata, è possibile stimare l’errore standard usando la deviazione standard del campione. IN TAL CASO PERO’ SI USA LA DISTRIBUZIONE t di Student, una distribuzione che approssima la curva normale, ma che ha errori standard più ampi (le code sono più lunghe) ed è funzione anche della dimensione del campione. Se n è molto grande T e Z convergono.
  • 22. Totale diapositive 56 VALORI DI CORRISPONDENZA TRA T E LA DENSITA’ DI PROBABILITA’: 0,500 = P{ t < 0 } 0,500 = P{ t > 0 } 0,900 = P{- 1,66 < t < +1,66 } 0,950 = P{- 1,98 < t < +1,98 } 0,990 = P{- 2,62 < t < + 2,62 } 0,500 = P{ t < 0 } 0,500 = P{ t > 0 } 0,900 = P{- 1,65 < t < +1,65 } 0,950 = P{- 1,96 < t < +1,96 } 0,990 = P{- 2,57 < t < + 2,57 } PER n=100 PER n molto grande (convergono con Z)
  • 23. Totale diapositive 56 Test di significatività Se testiamo un’ipotesi su un campione, quanto la risposta che diamo a questa ipotesi è “vera” anche nella popolazione?
  • 24. Totale diapositive 56 μ è la differenza prima-dopo attesa nella popolazione Ho: μ = 0 H1: μ ≠ 0 Più la stima nel campione è lontana da 0 e più è verosimile che Ho sia falsa Test di ipotesi
  • 25. Totale diapositive 56 ▪ Usualmente rappresenta l’ipotesi “no associazione” o “no differenza” L’ipotesi nulla: Ho
  • 26. Totale diapositive 56 ▪ Tipicamente rappresenta quello che si sta cercando di provare L’ipotesi alternativa: H1 (HA)
  • 27. Totale diapositive 56 ▪ Noi valutiamo entrambe le ipotesi allo stesso tempo (si rifiuta Ho, non si rifiuta Ho) ▪ Si assume che l’ipotesi nulla sia vera e si calcola la probabilità che il campione sia stato estratto dalla popolazione definita dall’ipotesi nulla Test di ipotesi
  • 28. Totale diapositive 56 ▪ La differenza media della pressione arteriosa prima-dopo uso dei contraccettivi è pari a 4,8 mm/Hg ▪ Forse Ho è vera e noi abbiamo soltanto estratto per caso un campione inusuale ▪ Noi dobbiamo misurare quanto sia probabile aver estratto il nostro campione se l’ipotesi nulla è vera Test di ipotesi esempio
  • 29. Totale diapositive 56 ▪ Qual è la probabilità di aver estratto un campione che ha una differenza media di 4,8 mm/Hg se fosse vera l’ipotesi nulla (cioè nessuna reale differenza)? ▪ Questa probabilità è il p-value ▪ Se p è molto piccolo, ci suggerisce che il risultato osservato non può essere facilmente spiegato dal caso Test di ipotesi valore p (p-value)
  • 30. Totale diapositive 56 ▪ Come si calcola il p-value? Test di ipotesi valore p (p-value) ▪ Con la distribuzione campionaria!!
  • 31. Totale diapositive 56Totale diapositive 168 ▪ Se vale Ho … Calcolo valore p (p-value) μ oDistribuzione campionaria di tutte le medie campionarie per campioni di dimensione n
  • 32. Totale diapositive 56Totale diapositive 168 ▪Per calcolare il p-value si prende la media campionaria ottenuta e valutiamo quanto sia inusuale dato Ho Calcolo valore p (p-value) μ
  • 33. Totale diapositive 56 ▪Torniamo al problema: n=10; = -4,8; DS =4,6 ▪Quanto la nostra media campionaria è lontana da μo=0 in “termini statistici”? ▪Dobbiamo perciò misurare quanti errori standard è –4,8 lontano da 0 Calcolo valore p (p-value)
  • 34. Totale diapositive 56 Utilizzazione del p-value per prendere un decisione P-value = 0,01 E’ questa probabilità piccola abbastanza per ritenere che l’ipotesi nulla μ = 0 sia falsa? Definizione del cut-off Sotto quale valore soglia riteniamo che un p-value suggerisca di rifiutare l’ipotesi nulla?
  • 35. Totale diapositive 56 Utilizzazione del p-value per prendere un decisione Definizione di un cut-off Standard cut-off: 0,05 (scelta arbitraria) p<0,05 è detto statisticamente significativo
  • 36. Totale diapositive 56 Utilizzazione del p-value per prendere un decisione Definizione di un cut-off Standard cut-off: 0,05 (scelta arbitraria) p<0,05 è detto statisticamente significativo
  • 37. Totale diapositive 56 Test di livello di significatività α=5% Definiamo con α la probabilità dell’errore di I tipo. Questo valore, detto livello di significatività di un test per H0=innocente α=P(rifiutare Ipotesi nulla: H0 quando essa è “vera”) non si possono diminuire entrambi gli errori… Prima di fare un test si decide il valore di α=0,05 (5%), α=0,01 (1%) α varia a seconda dei contesti (vedi es. casa farmaceutica)
  • 38. Totale diapositive 56 Test di verifica dell’Ipotesisignificato interpretativo • Un Test accetta o rifiuta H0, non dimostra mai che è H0 vera o falsa. • H1 è corroborata (sostenuta) o meno dai dati, mai accettata o rifiutata e tanto “vera” o “falsa” • Si dice “test di significatività al 5%”, ma …ho due tipi di errore… (ma abbiamo deciso di costruire il test per Ho, che vogliamo tenere “sotto controllo”). ❖ α = 5% = P(rifiutare H0 quando H0 è vera)=P(err I° tipo) ❖ β =P(accettare H0 quando H0 non è vera)=P(err. II° tipo)
  • 39. Totale diapositive 56 Test di verifica dell’Ipotesipraticamente… • Il test è una formula che mi danno gli statistici (+/- complessa e con +/- senza senso logico/intuitivo) • premesso che ai dati si possa applicare certi modelli matematici, gli statistici mi dicono che: ❖ se l’ipotesi H0 è vera, il test deve assumere certi valori (regione di accettazione) con una certa prob. ❖ se H0 è falsa deve assumerne altri (regione di rifiuto). • Ergo: calcolo il test con i miei dati e …decido!.
  • 40. Totale diapositive 56 Test di verifica dell’Ipotesi – Valore p Quando comunico l’esito di un test ad altri: ❖ dico solo significativo/non significativo (accetto/rifiuto) ❖ o posso dire di più? meglio riportare il: valore p= livello di significatività osservato ovvero: il più alto valore di α che mi farebbe rifiutare H0 ❖ Se p<0,01 rifiuto H0 ❖ Se 0,01<p<0,05 si tende a rifiutare ❖ p>0,05 accetto H0 • E’ un indicatore della plausibilità dell’ipotesi H0
  • 41. Totale diapositive 56 p-values p-values sono probabilità (numeri tra 0 ed 1) Valori che si avvicinano a 0 indicano che i risultati campionari ottenuti sono inverosimili quando l’ipotesi nulla è vera Il p-value NON è la probabilità che l’ipotesi nulla sia vera! Il p-value per se non dà informazione sulla qualità scientifica di uno studio
  • 42. Totale diapositive 56 Test di ipotesi e intervallo di confidenza Intervallo di confidenza e p-value sono complementari 0 1,53 1,87 [ ] Se 0 non è contenuto nell’intervallo di confidenza al 95%, allora noi potremmo rifiutare Ho al livello α = 0,05 (cioè p<0,05)
  • 43. Totale diapositive 56 Alcune considerazioni sull’inferenza statistica Significatività statistica non implica la causalità Significatività statistica non va interpretato come significatività scientifica
  • 44. Totale diapositive 56 Alcune considerazioni sull’inferenza statistica Esempio: N=100.000, x=0,03 mmHg; s=4,57; p-value=0,04 Grandi dimensioni campionarie possono produrre piccoli p-values anche quando l’effetto del fenomeno studiato è molto piccolo (non significativo dal punto di vista scientifico)
  • 45. Totale diapositive 56 Alcune considerazioni sull’inferenza statistica Esempio: N=5, x=5,00 mmHg; s=4,57; p-value=0,07 (non si può rifiutare Ho al livello α=0,05) Questo risultato realmente ci dice che non ci sia una relazione tra pressione arteriosa ed uso di contraccettivi orali? E se prendessimo un campione più grande?
  • 47. Totale diapositive 56 Indici di tendenza centrale per distribuzioni simmetriche e deformate Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri biologici (es. numero di eritrociti/mm3, età al primo parto, durata della gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso una curva particolare con una forma a campana,
  • 48. Totale diapositive 56 Questo tipo di curva, che ha un solo 'picco' (classe di massima frequenza o moda: curva unimodale), viene detta «gaussiana» o «Normale»; essa è simmetrica, nel senso che si può dividere in due parti, specularmente uguali, tracciando una linea verticale in corrispondenza del valore di massima frequenza. In ogni distribuzione di tipo simmetrico MODA, MEDIA e MEDIANA coincidono
  • 49. Totale diapositive 56 importante notare che, nelle distribuzioni asimmetriche, moda, media e mediana non coincidono, ma assumono la disposizione indicata nel grafico 1 dove, come si vede, la media è l'indice che più viene influenzato dall'esistenza di dati estremi.
  • 50. Totale diapositive 56 Variabilità biologica: indici di variazione (o di dispersione) Intervallo di variazione L'intervallo di variazione si ottiene semplicemente calcolando la differenza fra il dato più alto e quello più basso, oppure specificando il valore del dato più alto e quello del dato più basso (campo di variazione o range). L'intervallo di variazione non considera la variabilità delle osservazioni fra i due estremi ed ha lo svantaggio di dipendere strettamente dal numero di osservazioni e di aumentare con l'aumentare di esse. Esempio. La misurazione dell'altezza al garrese di 8 bracchi italiani ha fornito i seguenti valori (in cm): 54, 57, 57, 58, 59, 60, 60, 61, 66. L'intervallo di variazione è di 66-54 = 12 cm.
  • 51. Totale diapositive 56 Deviazione standard Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più comune indice di tendenza centrale: la media. In questo caso, per descrivere compiutamente la popolazione, è sempre necessario dichiarare anche, come indice di variazione, il valore della deviazione standard. La deviazione standard (o scarto quadratico medio) rappresenta la distanza media dei dati dalla loro media. La deviazione standard è un ottimo indice di variazione dei dati quando essi sono distribuiti normalmente e rappresenta probabilmente l'indice di variazione usato più comunemente. Tuttavia è bene ripetere ancora una volta che esso deve essere utilizzato soltanto quando i dati hanno una distribuzione normale.
  • 52. Totale diapositive 56 Per riassumere: volendo descrivere dati a distribuzione normale, conviene specificare media e deviazione standard; volendo descrivere dati a distribuzione deformata, conviene specificare mediana e percentili. dati a distribuzione simmetrica ..... usare media e deviazione standard dati a distribuzione non simmetrica ..... usare mediana e percentili Calcolo della deviazione standard La formula serve a calcolare la deviazione standard di una serie di misure. La «devianza» è la somma dei quadrati delle deviazioni dei valori individuali dalla loro media aritmetica (m), mentre i «gradi di libertà» sono il numero di osservazioni (n) di cui è composto il campione, meno 1 (cioè: gradi libertà = n- 1).
  • 53. Totale diapositive 56 Indici di variazione: caratteristiche
  • 54. Totale diapositive 56 Il range o intervallo di variazione è rappresentato dalla distanza fra il dato con il valore minimo e quello con il valore massimo. Presenta l'inconveniente di essere influenzato dai valori estremi; in effetti, basta un solo valore eccezionalmente al di sopra (o al di sotto) degli altri dati per far aumentare il range. Inoltre, esso non è agevolmente utilizzabile nel calcolo statistico. La deviazione standard è adatta a manipolazioni matematiche, ma dovrebbe essere utilizzata soltanto se i dati di origine hanno distribuzione Normale. I percentili sono validi sia per distribuzioni normali (si ricorda che, in tal caso, il 50° percentile è uguale alla media) che non normali. In ogni caso, al fine di fornire un'idea della variabilità dei dati, è bene indicare sempre non soltanto la mediana ma anche - ed almeno - il 25° ed il 75° percentile.
  • 55. Totale diapositive 56 Variabilità biologica, deviazione standard e normalità É già stato detto che fonti di variazione sono presenti in ogni misurazione di un carattere biologico. Tale variabilità non è tuttavia del tutto imprevedibile: infatti, molti fenomeni naturali seguono un modello teorico definito «curva di distribuzione Normale» o «gaussiana». Questo modello è particolarmente utile, in quanto possiamo impiegarlo conoscendo soltanto la media e la deviazione standard. Infatti, in una gaussiana il 95% dei dati cade nell'intervallo media ± 2 volte la deviazione standard. Più precisamente, si può dimostrare che l'intervallo (media ± deviazione standard) comprende il 68% circa dei dati; l'intervallo (media ± 2 deviazioni standard) ne comprende il 95% e l'intervallo (media ± 3 deviazioni standard) comprende pressoché tutti i dati (99.7%).
  • 56. Totale diapositive 56 una delle domande più frequenti che sorgono immediatamente quando si viene a conoscenza di un valore di una misura biologica eseguita su un individuo è: «si tratta di un valore «normale»? ESEMPI. Sono stati ottenuti i seguenti valori. Possono essere considerati "normali"? - 240 pulsazioni cardiache/minuto in un pappagallino ondulato; - 150.000 linfociti per mm cubo nel sangue di un bovino; - 45 atti respiratori/minuto in un cane boxer adulto.