03statistica errore standard_56

Totale diapositive 56
ALTRI VALORI DI CORRISPONDENZA TRA Z
E LA DENSITA’ DI PROBABILITA’
0,500 = P{ z < 0 }
0,500 = P{ z > 0 }
0,900 = P{- 1,65 < z < +1,65 }
0,950 = P{- 1,96 < z < +1,96 }
0,955 = P{- 2 < z < + 2 }
0,990 = P{- 2,58 < z < + 2,58 }
0,997 = P{ - 3 < z < + 3 }

QUALSIASI DISTRIBUZIONE CONTINUA PUO’
ESSERE STANDARDIZZATA
Una distribuzione standardizzata ha media uguale
a 0 e deviazione standard (o varianza) uguale a 1.

Il fatto che ci rivolgiamo ad un campione, che è solo una
parte della popolazione, comporta che le “misure” che
effettuiamo sul campione sono in qualche modo sbagliate.
Più correttamente, le STIME che effettuiamo sul campione
hanno un certo grado di INCERTEZZA.

Quando parliamo di valori tipici della popolazione,
parliamo di PARAMETRI
Quando parliamo di valori tipici di un campione,
parliamo di STATISTICHE.
Quando facciamo inferenza, attribuiamo conclusioni fatte sul
campione alla popolazione, parliamo allora di STIME DI PARAMETRI,
e relativi INTERVALLI DI CONFIDENZA
(o di intervalli di credibilità nella statistica bayesiana)
Si usano le lettere latine per il campione (S, X, Y..)
quelle greche per la popolazione (μ, σ , …)

Teorema del limite centrale
Se tutti i possibili campioni casuali di numerosità n vengono estratti da
una data popolazione avente media mu e varianza sigma-quadro,
all’aumentare di n le medie di questi campioni approssimeranno una
distribuzione normale, con media mu e varianza sigma-quadro/N.
Indipendentemente dalla forma della distribuzione !
Media della
popolazione Varianza della
popolazione
Media delle
medie
campionarie
Varianza
delle medie
campionarie

universo
Media, varianza
Media, varianza
campioni
………………
Distribuzione delle medie campionarie
Media, varianza
Media, varianza
Media, varianza

La varianza delle medie campionarie diminuisce all’aumentare della
grandezza del campione (n). Si parla di ERRORE STANDARD.
Più grandi sono i campioni, minore è l’errore standard e più precisa è
la media campionaria nello stimare la media della popolazione.

Distribuendosi le medie campionarie secondo una curva normale,
possiamo conoscere la probabilità che le medie campionarie siano
comprese in un dato intervallo.

UNIVERSO 100000 CASI
Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100
. . .
Media=173 Media=174 Media=176 Media=172 Media=175
Le medie campionarie (sotto) approssimano la media della
popolazione (174) a meno di un certo margine di incertezza
(che dipende dall’errore standard).
Media= 174 Dev.std.=15

UNIVERSO 100000 CASI
Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100
. . .
Media=173 Media=174 Media=176 Media=172 Media=175
Media= 174 Dev.std.=15
n campionario
uguale a 100

Z
0,95
0,025 0,025
Il 95% di tutte le medie
campionarie sono comprese
nell’intervallo:
p(Z)

Sappiamo che Z ritaglia un’area di 0,95 con valori corrispondenti
a più/meno 1,96.
Se consideriamo il primo campione estratto
abbiamo che l’incertezza della stima del valore
medio di questo campione riguarda l’intervallo:

Se stiamo lavorando sul primo campione estratto
abbiamo che l’incertezza della stima del valore medio
dell’altezza nella popolazione riguarda l’intervallo:
Estratti un numero molto elevato di campioni di
numerosità 100, l’altezza è nel 95% dei casi compresa
tra 170,1 e 176,9

0,95
0,025 0,025
173 176,9170,1

0,95
0,025 0,025
Prendendo un campione più ampio… n=1000
174 174,9173,1

170 175,4164,6
0,95
0,025 0,025
Prendendo un campione più piccolo … n=30

Incertezza e numerosità campionaria
n=1000
n=100
n=50
L’e.s. è funzione di n

Esempio tratto da M.Pisati, “Analisi dei dati”

Quando la deviazione standard della popolazione non è nota,
e la numerosità del campione è elevata, è possibile stimare
l’errore standard usando la deviazione standard del campione.
IN TAL CASO PERO’ SI USA LA DISTRIBUZIONE t di Student,
una distribuzione che approssima la curva normale, ma che ha
errori standard più ampi (le code sono più lunghe) ed è
funzione anche della dimensione del campione.
Se n è molto grande T e Z convergono.

VALORI DI CORRISPONDENZA TRA T
E LA DENSITA’ DI PROBABILITA’:
0,500 = P{ t < 0 }
0,500 = P{ t > 0 }
0,900 = P{- 1,66 < t < +1,66 }
0,950 = P{- 1,98 < t < +1,98 }
0,990 = P{- 2,62 < t < + 2,62 }
0,500 = P{ t < 0 }
0,500 = P{ t > 0 }
0,900 = P{- 1,65 < t < +1,65 }
0,950 = P{- 1,96 < t < +1,96 }
0,990 = P{- 2,57 < t < + 2,57 }
PER n=100 PER n molto grande
(convergono con Z)

Test di significatività
Se testiamo un’ipotesi su un campione, quanto la risposta
che diamo a questa ipotesi è “vera” anche nella
popolazione?

μ è la differenza prima-dopo attesa nella
popolazione
Ho: μ = 0
H1: μ ≠ 0
Più la stima nel campione è lontana da 0 e
più è verosimile che Ho sia falsa
Test di ipotesi

▪ Usualmente rappresenta l’ipotesi “no
associazione” o “no differenza”
L’ipotesi nulla: Ho

▪ Tipicamente rappresenta quello che si sta
cercando di provare
L’ipotesi alternativa: H1 (HA)

▪ Noi valutiamo entrambe le ipotesi allo
stesso tempo (si rifiuta Ho, non si
rifiuta Ho)
▪ Si assume che l’ipotesi nulla sia vera e
si calcola la probabilità che il campione
sia stato estratto dalla popolazione
definita dall’ipotesi nulla
Test di ipotesi

▪ La differenza media della pressione arteriosa
prima-dopo uso dei contraccettivi è pari a
4,8 mm/Hg
▪ Forse Ho è vera e noi abbiamo soltanto
estratto per caso un campione inusuale
▪ Noi dobbiamo misurare quanto sia probabile
aver estratto il nostro campione se l’ipotesi
nulla è vera
Test di ipotesi
esempio

▪ Qual è la probabilità di aver estratto un
campione che ha una differenza media di
4,8 mm/Hg se fosse vera l’ipotesi nulla (cioè
nessuna reale differenza)?
▪ Questa probabilità è il p-value
▪ Se p è molto piccolo, ci suggerisce che il
risultato osservato non può essere
facilmente spiegato dal caso
Test di ipotesi
valore p (p-value)

▪ Come si calcola il p-value?
Test di ipotesi
valore p (p-value)
▪
Con la distribuzione campionaria!!

Totale diapositive 56Totale diapositive 168
▪ Se vale Ho …
Calcolo valore p (p-value)
μ
oDistribuzione campionaria di tutte le medie
campionarie per campioni di dimensione n

Totale diapositive 56Totale diapositive 168
▪Per calcolare il p-value si prende la
media campionaria ottenuta e valutiamo
quanto sia inusuale dato Ho
μ

▪Torniamo al problema:
n=10; = -4,8; DS =4,6
▪Quanto la nostra media campionaria è
lontana da μo=0 in “termini statistici”?
▪Dobbiamo perciò misurare quanti errori
standard è –4,8 lontano da 0

Utilizzazione del p-value per
prendere un decisione
P-value = 0,01
E’ questa probabilità piccola abbastanza
per ritenere che l’ipotesi nulla μ = 0 sia
falsa?
Definizione del cut-off
Sotto quale valore soglia riteniamo che un
p-value suggerisca di rifiutare l’ipotesi
nulla?

Utilizzazione del p-value per
prendere un decisione
Definizione di un cut-off
Standard cut-off: 0,05 (scelta arbitraria)
p<0,05 è detto statisticamente significativo

Test di livello di significatività
α=5%
Definiamo con α la probabilità dell’errore di I tipo. Questo valore, detto
livello di significatività di un test per H0=innocente
α=P(rifiutare Ipotesi nulla: H0 quando essa è “vera”)
non si possono diminuire entrambi gli errori…
Prima di fare un test si decide il valore di α=0,05 (5%), α=0,01 (1%)
α varia a seconda dei contesti (vedi es. casa farmaceutica)

Test di verifica
dell’Ipotesisignificato interpretativo
• Un Test accetta o rifiuta H0, non dimostra mai che è
H0 vera o falsa.
• H1 è corroborata (sostenuta) o meno dai dati, mai
accettata o rifiutata e tanto “vera” o “falsa”
• Si dice “test di significatività al 5%”, ma …ho due tipi di
errore… (ma abbiamo deciso di costruire il test per Ho,
che vogliamo tenere “sotto controllo”).
❖ α = 5% = P(rifiutare H0 quando H0 è vera)=P(err I° tipo)
❖ β =P(accettare H0 quando H0 non è vera)=P(err. II° tipo)

Test di verifica
dell’Ipotesipraticamente…
• Il test è una formula che mi danno gli statistici
(+/- complessa e con +/- senza senso logico/intuitivo)
• premesso che ai dati si possa applicare certi
modelli matematici, gli statistici mi dicono che:
❖ se l’ipotesi H0 è vera, il test deve assumere certi
valori (regione di accettazione) con una certa prob.
❖ se H0 è falsa deve assumerne altri (regione di rifiuto).
• Ergo: calcolo il test con i miei dati e …decido!.

Test di verifica dell’Ipotesi –
Valore p
Quando comunico l’esito di un test ad altri:
❖ dico solo significativo/non significativo (accetto/rifiuto)
❖ o posso dire di più?
meglio riportare il:
valore p= livello di significatività osservato
ovvero: il più alto valore di α che mi farebbe rifiutare H0
❖ Se p<0,01 rifiuto H0
❖ Se 0,01<p<0,05 si tende a rifiutare
❖ p>0,05 accetto H0
• E’ un indicatore della plausibilità dell’ipotesi H0

p-values
p-values sono probabilità (numeri tra 0 ed 1)
Valori che si avvicinano a 0 indicano che i
risultati campionari ottenuti sono
inverosimili quando l’ipotesi nulla è vera
Il p-value NON è la probabilità che l’ipotesi
nulla sia vera!
Il p-value per se non dà informazione sulla
qualità scientifica di uno studio

Test di ipotesi e intervallo
di confidenza
Intervallo di confidenza e p-value sono
complementari
0 1,53 1,87
[ ]
Se 0 non è contenuto nell’intervallo di
confidenza al 95%, allora noi potremmo
rifiutare Ho al livello α = 0,05 (cioè p<0,05)

Alcune considerazioni
sull’inferenza statistica
Significatività statistica non implica la
causalità
Significatività statistica non va interpretato
come significatività scientifica

Esempio:
N=100.000, x=0,03 mmHg; s=4,57; p-value=0,04
Grandi dimensioni campionarie possono
produrre piccoli p-values anche quando
l’effetto del fenomeno studiato è molto piccolo
(non significativo dal punto di vista scientifico)

Esempio:
N=5, x=5,00 mmHg; s=4,57; p-value=0,07
(non si può rifiutare Ho al livello α=0,05)
Questo risultato realmente ci dice che non ci
sia una relazione tra pressione arteriosa ed
uso di contraccettivi orali?
E se prendessimo un campione più grande?

RIASSUMENDO

Indici di tendenza centrale per distribuzioni simmetriche e deformate
Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri
biologici (es. numero di eritrociti/mm3, età al primo parto, durata della
gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso
una curva particolare con una forma a campana,

Questo tipo di curva, che ha un solo 'picco' (classe di massima frequenza o
moda: curva unimodale), viene detta «gaussiana» o «Normale»; essa è
simmetrica, nel senso che si può dividere in due parti, specularmente uguali,
tracciando una linea verticale in corrispondenza del valore di massima
frequenza.
In ogni distribuzione di tipo simmetrico MODA, MEDIA e MEDIANA coincidono

importante notare che, nelle distribuzioni asimmetriche,
moda, media e mediana non coincidono, ma assumono
la disposizione indicata nel grafico 1 dove, come si
vede, la media è l'indice che più viene influenzato
dall'esistenza di dati estremi.

Variabilità biologica: indici di variazione (o di dispersione)
Intervallo di variazione
L'intervallo di variazione si ottiene semplicemente calcolando la differenza fra il
dato più alto e quello più basso, oppure specificando il valore del dato più alto e
quello del dato più basso (campo di variazione o range). L'intervallo di
variazione non considera la variabilità delle osservazioni fra i due estremi ed ha
lo svantaggio di dipendere strettamente dal numero di osservazioni e di
aumentare con l'aumentare di esse.
Esempio. La misurazione dell'altezza al garrese di 8 bracchi italiani ha fornito i
seguenti valori (in cm):
54, 57, 57, 58, 59, 60, 60, 61, 66.
L'intervallo di variazione è di 66-54 = 12 cm.

Deviazione standard
Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più
comune indice di tendenza centrale: la media. In questo caso, per descrivere
compiutamente la popolazione, è sempre necessario dichiarare anche, come
indice di variazione, il valore della deviazione standard.
La deviazione standard (o scarto quadratico medio) rappresenta la distanza
media dei dati dalla loro media. La deviazione standard è un ottimo indice di
variazione dei dati quando essi sono distribuiti normalmente e rappresenta
probabilmente l'indice di variazione usato più comunemente. Tuttavia è bene
ripetere ancora una volta che esso deve essere utilizzato soltanto quando i dati
hanno una distribuzione normale.

Per riassumere:
volendo descrivere dati a distribuzione normale, conviene specificare media e
deviazione standard;
volendo descrivere dati a distribuzione deformata, conviene specificare mediana
e percentili.
dati a distribuzione simmetrica ..... usare media e deviazione standard
dati a distribuzione non simmetrica ..... usare mediana e percentili
Calcolo della deviazione standard
La formula serve a calcolare la deviazione standard di una serie di misure. La
«devianza» è la somma dei quadrati delle deviazioni dei valori individuali dalla
loro media aritmetica (m), mentre i «gradi di libertà» sono il numero di
osservazioni (n) di cui è composto il campione, meno 1 (cioè: gradi libertà = n-
1).

Indici di variazione: caratteristiche

Il range o intervallo di variazione è rappresentato dalla distanza fra il dato con il valore
minimo e quello con il valore massimo. Presenta l'inconveniente di essere influenzato
dai valori estremi; in effetti, basta un solo valore eccezionalmente al di sopra (o al di
sotto) degli altri dati per far aumentare il range. Inoltre, esso non è agevolmente
utilizzabile nel calcolo statistico.
La deviazione standard è adatta a manipolazioni matematiche, ma dovrebbe essere
utilizzata soltanto se i dati di origine hanno distribuzione Normale.
I percentili sono validi sia per distribuzioni normali (si ricorda che, in tal caso, il 50°
percentile è uguale alla media) che non normali. In ogni caso, al fine di fornire un'idea
della variabilità dei dati, è bene indicare sempre non soltanto la mediana ma anche - ed
almeno - il 25° ed il 75° percentile.

Variabilità biologica, deviazione standard e normalità
É già stato detto che fonti di variazione sono presenti in ogni misurazione di
un carattere biologico. Tale variabilità non è tuttavia del tutto imprevedibile:
infatti, molti fenomeni naturali seguono un modello teorico definito «curva di
distribuzione Normale» o «gaussiana».
Questo modello è particolarmente utile, in quanto possiamo impiegarlo
conoscendo soltanto la media e la deviazione standard. Infatti, in una
gaussiana il 95% dei dati cade nell'intervallo media ± 2 volte la deviazione
standard.
Più precisamente, si può dimostrare che l'intervallo (media ± deviazione
standard) comprende il 68% circa dei dati; l'intervallo (media ± 2 deviazioni
standard) ne comprende il 95% e l'intervallo (media ± 3 deviazioni standard)
comprende pressoché tutti i dati (99.7%).

una delle domande più frequenti che sorgono immediatamente quando si
viene a conoscenza di un valore di una misura biologica eseguita su un
individuo è:
«si tratta di un valore «normale»?
ESEMPI. Sono stati ottenuti i seguenti valori. Possono essere considerati
"normali"?
- 240 pulsazioni cardiache/minuto in un pappagallino ondulato;
- 150.000 linfociti per mm cubo nel sangue di un bovino;
- 45 atti respiratori/minuto in un cane boxer adulto.

03statistica errore standard_56

Recommended

Recommended

More Related Content

Similar to 03statistica errore standard_56

Similar to 03statistica errore standard_56 (11)

More from Angelo Barbato

More from Angelo Barbato (17)

03statistica errore standard_56