Gli Stimatori e le loro proprietà.
Quando si fa inferenza si cerca di indurre le caratteristiche sconosciute della
popolazione a partire dalle informazioni campionarie. Più precisamente, fare inferenza
significa:
Stimare: approssimare un parametro ignoto a partire dai dati campionari.
Testare delle ipotesi: verificare, utilizzando i dati campionari, la significatività
statistica di ipotesi sulla distribuzione dei caratteri studiati, cioè sulla forma della
distribuzione e sui valori che la qualificano: la media e lo scarto quadratico medio.
In questa Unità didattica tratteremo il problema della stima puntuale, nella prossima
unità della stima per intervalli ed infine, nella terza ed ultima unità didattica
affronteremo il tema della prova delle ipotesi.
1Cos'è la Statistica - G. Garau, L. Schirru
La stima puntuale
N.B. Si possono stimare solo caratteristiche numeriche.
Sia il parametro da stimare (ad esempio media, varianza, ecc), per ottenere una
stima di bisogna scegliere una funzione dei dati del campione adeguata.
Ad esempio, per stimare il valore atteso si potrà utilizzare la media campionaria;
per stimare si potrà utilizzare la varianza campionaria.
Ma come valutare queste stime?
Quello che vogliamo valutare non è tanto la differenza tra valore vero e valore stimato
(non si conosce il vero valore), piuttosto quale è la regola di stima o funzione dei dati
campionari, cioè ciò che prende il nome di stimatore.



2

2Cos'è la Statistica - G. Garau, L. Schirru
La regola di stima
La regola di stima definisce una variabile casuale che si chiama stimatore di
sono le diverse realizzazioni campionarie.
Ad ogni campione estratto o osservato corrisponde una realizzazione di Θ, dove Θ
è lo spazio parametrico di tutti i possibili stimatori, che prende il nome di stima di ottenuta
a partire dal campione.

 nxxxf ...,,, 21
ix
ˆ

3Cos'è la Statistica - G. Garau, L. Schirru
Esempio
Si vuole stimare l’altezza media degli individui di una data popolazione a partire da
questo campione: 170, 160, 180, 180, 170.
Se si utilizza la funzione media campionaria si ottiene:
Un altro campione, sempre estratto dalla stessa popolazione, potrebbe dare un altro
risultato e utilizzando nuovamente la stessa funzione di stima si otterrebbe un altro
valore di .
Se invece si utilizza un’altra funzione di stima, ad esempio la mediana ( ) si ottiene:*
x
172
5
860
ˆ  x
x
ˆ
170ˆ *
 x
4Cos'è la Statistica - G. Garau, L. Schirru
Le proprietà degli stimatori
La qualità delle stime può essere valutata esaminando le proprietà degli stimatori:
 correttezza (o assenza di distorsione)
 efficienza
 consistenza
5Cos'è la Statistica - G. Garau, L. Schirru
Le proprietà degli stimatori: Correttezza
Uno stimatore di è non distorto se e solamente se:ˆ 
   ˆE
   ˆESe invece si dice che lo stimatore è distorto e lo scarto si chiama bias o
distorsione:
    ˆEB
L’assenza di distorsione significa che in media, per tutti i possibili campioni, la funzione
di stima scelta fornisce il vero valore del parametro stimato.
Per approfondimenti si rimanda al libro
6Cos'è la Statistica - G. Garau, L. Schirru
Le proprietà degli stimatori: Efficienza
Può capitare che uno parametro ammetta più funzioni di stima corrette.
Nel caso di un carattere X distribuito normalmente, la media campionaria e la mediana campionaria
sono entrambi stimatori corretti. Si pone quindi il problema di quale scegliere tra i due.
Si sceglie, tra stimatori corretti, quello che ha la varianza più piccola ed è quindi maggiormente
concentrato.
Stimatore efficiente
Stimatore non efficiente
Si utilizza la varianza come misura dell’efficienza perché la varianza è una misura della dispersione
dei valori attorno al parametro .
7
Le proprietà degli stimatori: Consistenza
Uno stimatore è consistente se all’aumentare della dimensione del campione si
concentra sempre di più intorno al parametro da stimare.
Definiamo meglio il concetto
La varianza è una buona misura della dispersione della distribuzione rispetto alla
media si può affermare, infatti, che l’errore quadratico medio è una buona misura della
dispersione di rispetto al valore del parametro da stimare.
ˆ

 2
ˆEQM   E
La consistenza richiede che la precedente misura (EQM) si annulli al crescere di n:
Errore quadratico medio
   nE per0ˆ 2
è consistente se
L’EQM è quindi legato alla distorsione ed alla varianza.
In altri termini consente di considerare congiuntamente la proprietà della correttezza e
quella dell’efficienza.
Per approfondimenti si rimanda al libro
8Cos'è la Statistica - G. Garau, L. Schirru
Le proprietà degli stimatori: Conclusioni
La correttezza, cioè l’assenza di distorsione, è importante se si lavora con piccoli
campioni.
La consistenza è, invece, importante quando si utilizzano grandi campioni.
Dopo aver considerato le qualità degli stimatori, si presentano ora due criteri per
scegliere tra stimatori entrambi corretti ed efficienti:
 Sufficienza
 Robustezza
Sufficienza: uno stimatore è sufficiente quando riassume in se tutta l’informazione
presente nel campione e rilevante per il parametro.
Robustezza: definisce l’insensibilità a dati atipici o abnormi.
Per approfondimenti si rimanda al libro
9Cos'è la Statistica - G. Garau, L. Schirru
Esempi di stimatori
Per determinare in modo probabilistico il grado di fiducia di una stima per intervalli bisogna
conoscere la distribuzione degli stimatori per poi confrontarla con delle distribuzioni note.
Caso 1: La distribuzione delle x è normale
Caso 2: La distribuzione delle x non è normale
Se allora è una combinazione lineare delle xi e quindi sarà
distribuita normalmente e avrà:
  iNxi
;,~ 2
 x
 
  n
x
xE
2
var 



Se invece non si conosce la distribuzione delle xi o se queste seguono una distribuzione
diversa dalla normale, allora si utilizza il Teorema del Limite Centrale.
Teorema del Limite Centrale: Sia data una successione di variabili casuali
indipendente e identicamente distribuita , non necessariamente distribuita con
una normale . Per n grande la distribuzione della media
tende verso una e ciò qualunque sia la legge delle xi.
 2
,
 nxxx ...,,, 21  ix
n
x
1
 n
N
2
,
10Cos'è la Statistica - G. Garau, L. Schirru
La stima per intervalli
Una stima puntuale, poiché corrisponde all’integrale in un punto, ha probabilità pari a zero di
essere esatta e quindi, ha senso, dal punto di vista probabilistico, solo la stima per intervalli; più
precisamente il calcolo della probabilità che x appartenga ad un intervallo definito: .
Quando si effettua la stima per intervalli si costruisce un intervallo intorno ad una stima puntuale,
risultato dell’osservazione campionaria.
 21 , xxX 
Estrazione del primo campione: comprende il parametro 
Estrazione del secondo campione: comprende il parametro 
Estrazione del quinto campione: non comprende il parametro 
8 intervalli su 10 comprendono il parametro
11Cos'è la Statistica - G. Garau, L. Schirru
Livello di confidenza
Livello di confidenza: Si chiama livello di confidenza di una stima per intervalli la probabilità (1 – a)
che l’intervallo casuale contenga il vero valore di ,
a è il rischio dell’errore, cioè la probabilità che l’intervallo non contenga .
Nella stima per intervalli si hanno due obiettivi in contrasto tra loro:
• il livello di confidenza deve essere il più alto possibile;
• la lunghezza dell’intervallo deve invece essere la minore possibile (stima più precisa)
  supinf
ˆ,ˆ1: a  P
12
Le tappe per la costruzione della stima per intervalli
Ecco le tappe da seguire nella costruzione di una stima per intervalli:
1. Scelta della statistica Q;
2. Determinazione dell’intervallo per Q;
3. Trasformazione di questo intervallo per .
1. Se  è il parametro da stimare bisogna cercare una statistica Q, funzione del campione e del
parametro, che non dipenda da nessun altro parametro ignoto e di cui si conosca la distribuzione.
E’ chiaro che la statistica deve essere tale da permettere l’esplicitazione univoca di .
2. Si determini l’intervallo per Q tale che:   a 1),( supinf
QQQP
2
1sup
2
inf
a
a



QQ
QQ
In generale si sceglie:
3. Si trasforma l’intervallo precedente in un intervallo per ; si estrae un campione e da questo si
calcola la media campionaria e la deviazione standard campionaria. Si ottiene così un intervallo di
stima in corrispondenza di ogni estrazione campionaria.
13Cos'è la Statistica - G. Garau, L. Schirru
Le tappe per la costruzione della stima per intervalli:Esempio
Per  noto la statistica soddisfa le seguenti condizioni:)1,0(~ N
n
x
Z



i. È funzione delle osservazioni campionarie,
ii. Non dipende da altri parametri ignoti,
iii. Consente l’esplicazione di , parametro da stimare, nel modo seguente:
z
n
xx
n
Z 



ˆ
Intervallo di confidenza
14
Cos'è la Statistica - G. Garau, L. Schirru
Intervallo di confidenza per la media
Si utilizza a seconda dei casi:
Da entrambi si
può esplicitare 
La lunghezza dell’intervallo di confidenza dipende:
 dal livello di confidenza (1 – a)
 dalla dispersione della popolazione 2
 dall’ampiezza del campione n
15
Cos'è la Statistica - G. Garau, L. Schirru
Intervallo di confidenza per la media
Intervallo di confidenza per la media quando la varianza è nota.
Se 2 è noto si preferisce Z perché la sua distribuzione è meno dispersa di T di Student.
Per un livello di confidenza (1 - a) si avrà:
16Cos'è la Statistica - G. Garau, L. Schirru
Intervallo di confidenza per la media
Intervallo di confidenza per la media quando la varianza è ignota.
Se 2 è ignoto bisogna stimarlo e si userà Tn-1 (n-1 sono i gradi di libertà). La distribuzione è
simmetrica, come la normale, ma la sua forma dipende dai gradi di libertà e in particolare per n
piccolo la curva risulta più appiattita della curva normale.
In questo caso dipenderà dal campione sia il centro (la media campionaria) che la dispersione xˆ
17Cos'è la Statistica - G. Garau, L. Schirru
Intervallo di confidenza per la varianza
Anche in questo caso si hanno
a disposizione due statistiche
 è noto  si stima puntualmente con x
Entrambe le statistiche seguono la legge del c2 per cui gli intervalli di confidenza che costruiremo
si applicano solo nel caso di popolazioni normali. Esplicitiamo 2
18Cos'è la Statistica - G. Garau, L. Schirru
Intervallo di confidenza per la varianza
Intervallo di confidenza per la varianza quando la media è nota
Si utilizza e l’intervallo sarà:
Il c2 non è simmetrico per cui si devono cercare entrambe le soglie. Per 1 - a=90% e n=5 si ha:
2
~ nn
Q c ],[ 21,2, aa nn
qq
Per n=5 il valore del c2 che
corrisponde al 5% dell’area è pari a
1.145 e il valore del c2 che
corrisponde al 95% dell’area è
11.07; quindi:
   90.007.11,145.1 nQP
Utilizzando la relazione in a) in cui si esplicita 2 si ottiene l’intervallo casuale che dipende dal
campione e che comprende il vero valore di 2 con una probabilità 1 – a.
19Cos'è la Statistica - G. Garau, L. Schirru
Intervallo di confidenza per la varianza
Intervallo di confidenza per la varianza quando la media è ignota
Nel caso in cui  non sia nota si utilizza Qn-1, in cui i gradi di libertà sono inferiori di uno rispetto al
caso in cui la media è nota e questo perché è necessario stimare anche  attraverso (media
campionaria). L’intervallo sarà:
x
],[ 21),1(2),1( aa  nn
qq
Utilizzando la relazione b) per esplicitare 2 si ottiene l’intervallo casuale funzione del campione:
20
Intervallo di confidenza per una proporzione della popolazione
Intervallo di confidenza per una proporzione della popolazione
La proporzione campionaria P è una media campionaria , anche se sotto una forma diversa. Ad
esempio se osserviamo 4 democratici in un campione di 10 persone si sa che:
X
Allo stesso modo, la proporzione della popolazione p coincide esattamente con la media  della
popolazione, anche se espressa in forma diversa. A questo punto il modo più semplice di costruire
un Intervallo di confidenza al 95% per una proporzione è:
Occorre ricordare che nel costruire questo intervallo di confidenza la proporzione p della
popolazione è stata sostituita con P, proporzione campionaria. Questo determina una maggiore
probabilità di errore, in quanto aumentano le fonti di errore, ma per grandi campioni il problema
non sussiste.
21Cos'è la Statistica - G. Garau, L. Schirru
La prova delle ipotesi
La prova delle ipotesi consiste nel verificare, attraverso il campione, la significatività statistica di
ipotesi sulla distribuzione di caratteri oggetto di studio.
Con la stima si vuole quantificare, con la prova delle ipotesi si vuole validare la stima.
Una ipotesi è confermata se si può ammettere, con un certo grado di fiducia, che il campione
proviene da una distribuzione che soddisfa l’ipotesi sottoposta a test, altrimenti l’ipotesi è rifiutata.
Una prova delle ipotesi consiste in una regola di decisione che conduce ad
accettare/rifiutare l’ipotesi a seconda dell’informazione campionaria.
Ad esempio si può verificare se una media è significativamente diversa da un dato valore o se una
proporzione è significativamente superiore al 50%, e così via.
La prova delle ipotesi e la stima per intervalli sono strumenti complementari.
La prova delle ipotesi può essere utilizzata anche per verificare aspetti qualitativi di una
distribuzione, come ad esempio la conformità ad una distribuzione teorica (ad esempio normale o
binomiale, ecc.), o l’indipendenza di due caratteri qualitativi come ad esempio sesso ed opinione su
un determinato problema.
22Cos'è la Statistica - G. Garau, L. Schirru
La prova delle ipotesi
Una prova delle ipotesi consiste in una regola di decisione che conduce ad
accettare/rifiutare l’ipotesi a seconda dell’informazione campionaria.
Si definisce:
H0 l’ipotesi nulla o da verificare
H1 l’ipotesi alternativa.
Es.: Supponete di voler testare il salario medio giornaliero in un dato settore di attività economica,
espresso in milioni di lire.
H0 :   0 =100
H1 :   1 =120
Tale ipotesi alternativa è giustificata se il campione proviene da una popolazione con media 100 o
da una con media 120.
23Cos'è la Statistica - G. Garau, L. Schirru
Non sempre è possibile formulare ipotesi alternative così precise e spesso ad H1 corrisponde un
insieme di possibilità. Si può avere:
La prova delle ipotesi: l’ipotesi alternativa.
011
011
011
:
:
:






H
H
H
In generale si preferisce strutturare il test, quindi l’ipotesi alternativa, in uno dei due primi modi
perchè in tal caso si ha una unica zona di rifiuto del test. Nel terzo caso invece la zona di rifiuto è
divisa nelle due code della distribuzione e questo non permette il calcolo dell’errore di seconda
specie (vedi slide 10).
Per procedere alla prova delle ipotesi bisogna procedere nel modo seguente. Si deve cercare una
statistica Q0, funzione del campione e tale che:
- La distribuzione di Q dipenda dall’ipotesi da verificare;
- La distribuzione di Q0 sia nota sotto H0 (se vale H0);
- il valore di q0 di Q0, per un campione dato possa essere univocamente determinato sotto H0.
24Cos'è la Statistica - G. Garau, L. Schirru
Supponete che nella verifica del salario medio, 2 sia noto e pari a 441 per cui  =21.
La statistica da usare è:
La prova delle ipotesi.
x
x
Z

0
0









 
1,~ 0
0
x
NZ


In effetti (si distribuisce come una normale con media e varianza 1) e
il centro dipenderà dalla vera media .
Sotto H0 si ha che =0 e la distribuzione di Z sarà Z0~N(0,1).
Utilizzando tale statistica si può enunciare la seguente regola:
x

 0
Si rifiuta H0 se il valore osservato q0 (calcolato sul campione osservato)
si allontana “molto” dal centro della distribuzione di Q0 sotto H0.
25Cos'è la Statistica - G. Garau, L. Schirru
Supponete che nella verifica del salario medio, 2 sia noto e pari a 441 per cui  =21.
La statistica da usare è:
La prova delle ipotesi.
x
x
Z

0
0









 
1,~ 0
0
x
NZ


In effetti (si distribuisce come una normale con media e varianza 1) e
il centro dipenderà dalla vera media .
Sotto H0 si ha che =0 e la distribuzione di Z sarà Z0~N(0,1).
Utilizzando tale statistica si può enunciare la seguente regola:
x

 0
Si rifiuta H0 se il valore osservato q0 (calcolato sul campione osservato)
si allontana “molto” dal centro della distribuzione di Q0 sotto H0.
Si rifiuta H0 quando Z0 si allontana molto da 0, quando cioè x medio è
molto diversa da 0 (ciò significa che il campione da risultati in
apparente contrasto con le ipotesi formulate).
26Cos'è la Statistica - G. Garau, L. Schirru
La regione critica
00
00
accettasi
rifiutasi
HRq
HRq


Formalmente, se R è la regione critica in cui si rifiuta H0 si può scrivere:
Considerate ora H0 perché R si specifica di conseguenza:
Se si considera il primo caso 1 > 0, si rifiuterà H0 solo se z0 diventa molto più grande di zero, in
altri termini se x medio supera una data soglia r.
In effetti se il test è unilaterale, per tutti i valori di x medio inferiori a μ0, H0 è più ragionevole di H1.
27Cos'è la Statistica - G. Garau, L. Schirru
Errore nella decisione
Spingendoci un po’ oltre nella regola di decisione: tra tutti i campioni che provengono da una
popolazione conforme a H0, alcuni di questi possono condurre a rifiutare H0.
Estraiamo dalla popolazione A (quella sotto H0, caratterizzata da un salario medio pari a 100) gli
individui meglio pagati, rischiamo di rifiutare H0 per accettare H1==120.
Ecco come si ragiona:
Se si decide per H0
Quando H0 è vera
Se si decide per H1
Quando H1 è vera
28
Errore nella decisione
Se si rifiuta H0
accettando H1
Quando H0 è vera
Se si rifiuta H1
accettando H0
Quando H1 è vera
Si indica con a
Si indica con b
29Cos'è la Statistica - G. Garau, L. Schirru
Zona di accettazione e di rifiuto
Considerate la distribuzione di nei due casi, H0: =100 e H1: =120 e osservate le aree a e b.
I due rischi variano in senso contrario, cioè a cresce con R, ma se cresce R diminuisce b. Insomma
se diminuisce un rischio aumenta l’altro.
x
Il legame tra a b è fondamentale perché nello scegliere il valore di uno bisogna tener conto del
valore dell’altro.
30Cos'è la Statistica - G. Garau, L. Schirru
Zona di accettazione e di rifiuto
Inoltre b diventa molto grande quando H1 è vicina ad H0. Ciò significa che è molto difficile
discriminare tra ipotesi simili.
Non potendo evitare l’errore bisogna cercare di minimizzare il rischio di prendere una decisione
sbagliata.
Il rischio totale è:
p0a+p1b
Dove: p0 e p1 sono le probabilità che H0 e H1 siano vere e in generale sono ignote. Inoltre b non può
essere calcolato quando, ad esempio H1 è un’ipotesi composta.
31Cos'è la Statistica - G. Garau, L. Schirru
Come effettuare un test delle ipotesi
Si procede nel modo seguente:
1. Si fissa un rischio a ragionevole (ricordando che se a è troppo piccolo b sarà troppo grande)
2. Si determina R:
o Scegliendo la forma a seconda di come è formulata H1;
o Si calcolano i valori di soglia corrispondenti ad a.
3. Si calcola q0 di Q0 per il campione osservato;
4. Si decide nel modo seguente:
o Si rifiuta
o Si accetta ;se
;se
00
00
RqH
RqH


32Cos'è la Statistica - G. Garau, L. Schirru
La potenza del test
I criteri che consentono di scegliere, quando si hanno a disposizione diverse statistiche per
effettuare la stessa ipotesi, sono:
 Potenza del test (per confrontare dei test semplici)
 Curva di efficacia (nel caso di ipotesi composte)
Ricordate che l’obiettivo, nel costruire un test, è quello di minimizzare il rischio totale dell’errore.
Tra due test il migliore sarà quello che, a parità di a, minimizza b. Un test è più efficace quando b è
debole. Il complemento ad uno di b, ossia 1-b misura la potenza del test.
Per approfondire questo argomento si rimanda al libro di testo
33Cos'è la Statistica - G. Garau, L. Schirru

Inferenza statistica

  • 1.
    Gli Stimatori ele loro proprietà. Quando si fa inferenza si cerca di indurre le caratteristiche sconosciute della popolazione a partire dalle informazioni campionarie. Più precisamente, fare inferenza significa: Stimare: approssimare un parametro ignoto a partire dai dati campionari. Testare delle ipotesi: verificare, utilizzando i dati campionari, la significatività statistica di ipotesi sulla distribuzione dei caratteri studiati, cioè sulla forma della distribuzione e sui valori che la qualificano: la media e lo scarto quadratico medio. In questa Unità didattica tratteremo il problema della stima puntuale, nella prossima unità della stima per intervalli ed infine, nella terza ed ultima unità didattica affronteremo il tema della prova delle ipotesi. 1Cos'è la Statistica - G. Garau, L. Schirru
  • 2.
    La stima puntuale N.B.Si possono stimare solo caratteristiche numeriche. Sia il parametro da stimare (ad esempio media, varianza, ecc), per ottenere una stima di bisogna scegliere una funzione dei dati del campione adeguata. Ad esempio, per stimare il valore atteso si potrà utilizzare la media campionaria; per stimare si potrà utilizzare la varianza campionaria. Ma come valutare queste stime? Quello che vogliamo valutare non è tanto la differenza tra valore vero e valore stimato (non si conosce il vero valore), piuttosto quale è la regola di stima o funzione dei dati campionari, cioè ciò che prende il nome di stimatore.    2  2Cos'è la Statistica - G. Garau, L. Schirru
  • 3.
    La regola distima La regola di stima definisce una variabile casuale che si chiama stimatore di sono le diverse realizzazioni campionarie. Ad ogni campione estratto o osservato corrisponde una realizzazione di Θ, dove Θ è lo spazio parametrico di tutti i possibili stimatori, che prende il nome di stima di ottenuta a partire dal campione.   nxxxf ...,,, 21 ix ˆ  3Cos'è la Statistica - G. Garau, L. Schirru
  • 4.
    Esempio Si vuole stimarel’altezza media degli individui di una data popolazione a partire da questo campione: 170, 160, 180, 180, 170. Se si utilizza la funzione media campionaria si ottiene: Un altro campione, sempre estratto dalla stessa popolazione, potrebbe dare un altro risultato e utilizzando nuovamente la stessa funzione di stima si otterrebbe un altro valore di . Se invece si utilizza un’altra funzione di stima, ad esempio la mediana ( ) si ottiene:* x 172 5 860 ˆ  x x ˆ 170ˆ *  x 4Cos'è la Statistica - G. Garau, L. Schirru
  • 5.
    Le proprietà deglistimatori La qualità delle stime può essere valutata esaminando le proprietà degli stimatori:  correttezza (o assenza di distorsione)  efficienza  consistenza 5Cos'è la Statistica - G. Garau, L. Schirru
  • 6.
    Le proprietà deglistimatori: Correttezza Uno stimatore di è non distorto se e solamente se:ˆ     ˆE    ˆESe invece si dice che lo stimatore è distorto e lo scarto si chiama bias o distorsione:     ˆEB L’assenza di distorsione significa che in media, per tutti i possibili campioni, la funzione di stima scelta fornisce il vero valore del parametro stimato. Per approfondimenti si rimanda al libro 6Cos'è la Statistica - G. Garau, L. Schirru
  • 7.
    Le proprietà deglistimatori: Efficienza Può capitare che uno parametro ammetta più funzioni di stima corrette. Nel caso di un carattere X distribuito normalmente, la media campionaria e la mediana campionaria sono entrambi stimatori corretti. Si pone quindi il problema di quale scegliere tra i due. Si sceglie, tra stimatori corretti, quello che ha la varianza più piccola ed è quindi maggiormente concentrato. Stimatore efficiente Stimatore non efficiente Si utilizza la varianza come misura dell’efficienza perché la varianza è una misura della dispersione dei valori attorno al parametro . 7
  • 8.
    Le proprietà deglistimatori: Consistenza Uno stimatore è consistente se all’aumentare della dimensione del campione si concentra sempre di più intorno al parametro da stimare. Definiamo meglio il concetto La varianza è una buona misura della dispersione della distribuzione rispetto alla media si può affermare, infatti, che l’errore quadratico medio è una buona misura della dispersione di rispetto al valore del parametro da stimare. ˆ   2 ˆEQM   E La consistenza richiede che la precedente misura (EQM) si annulli al crescere di n: Errore quadratico medio    nE per0ˆ 2 è consistente se L’EQM è quindi legato alla distorsione ed alla varianza. In altri termini consente di considerare congiuntamente la proprietà della correttezza e quella dell’efficienza. Per approfondimenti si rimanda al libro 8Cos'è la Statistica - G. Garau, L. Schirru
  • 9.
    Le proprietà deglistimatori: Conclusioni La correttezza, cioè l’assenza di distorsione, è importante se si lavora con piccoli campioni. La consistenza è, invece, importante quando si utilizzano grandi campioni. Dopo aver considerato le qualità degli stimatori, si presentano ora due criteri per scegliere tra stimatori entrambi corretti ed efficienti:  Sufficienza  Robustezza Sufficienza: uno stimatore è sufficiente quando riassume in se tutta l’informazione presente nel campione e rilevante per il parametro. Robustezza: definisce l’insensibilità a dati atipici o abnormi. Per approfondimenti si rimanda al libro 9Cos'è la Statistica - G. Garau, L. Schirru
  • 10.
    Esempi di stimatori Perdeterminare in modo probabilistico il grado di fiducia di una stima per intervalli bisogna conoscere la distribuzione degli stimatori per poi confrontarla con delle distribuzioni note. Caso 1: La distribuzione delle x è normale Caso 2: La distribuzione delle x non è normale Se allora è una combinazione lineare delle xi e quindi sarà distribuita normalmente e avrà:   iNxi ;,~ 2  x     n x xE 2 var     Se invece non si conosce la distribuzione delle xi o se queste seguono una distribuzione diversa dalla normale, allora si utilizza il Teorema del Limite Centrale. Teorema del Limite Centrale: Sia data una successione di variabili casuali indipendente e identicamente distribuita , non necessariamente distribuita con una normale . Per n grande la distribuzione della media tende verso una e ciò qualunque sia la legge delle xi.  2 ,  nxxx ...,,, 21  ix n x 1  n N 2 , 10Cos'è la Statistica - G. Garau, L. Schirru
  • 11.
    La stima perintervalli Una stima puntuale, poiché corrisponde all’integrale in un punto, ha probabilità pari a zero di essere esatta e quindi, ha senso, dal punto di vista probabilistico, solo la stima per intervalli; più precisamente il calcolo della probabilità che x appartenga ad un intervallo definito: . Quando si effettua la stima per intervalli si costruisce un intervallo intorno ad una stima puntuale, risultato dell’osservazione campionaria.  21 , xxX  Estrazione del primo campione: comprende il parametro  Estrazione del secondo campione: comprende il parametro  Estrazione del quinto campione: non comprende il parametro  8 intervalli su 10 comprendono il parametro 11Cos'è la Statistica - G. Garau, L. Schirru
  • 12.
    Livello di confidenza Livellodi confidenza: Si chiama livello di confidenza di una stima per intervalli la probabilità (1 – a) che l’intervallo casuale contenga il vero valore di , a è il rischio dell’errore, cioè la probabilità che l’intervallo non contenga . Nella stima per intervalli si hanno due obiettivi in contrasto tra loro: • il livello di confidenza deve essere il più alto possibile; • la lunghezza dell’intervallo deve invece essere la minore possibile (stima più precisa)   supinf ˆ,ˆ1: a  P 12
  • 13.
    Le tappe perla costruzione della stima per intervalli Ecco le tappe da seguire nella costruzione di una stima per intervalli: 1. Scelta della statistica Q; 2. Determinazione dell’intervallo per Q; 3. Trasformazione di questo intervallo per . 1. Se  è il parametro da stimare bisogna cercare una statistica Q, funzione del campione e del parametro, che non dipenda da nessun altro parametro ignoto e di cui si conosca la distribuzione. E’ chiaro che la statistica deve essere tale da permettere l’esplicitazione univoca di . 2. Si determini l’intervallo per Q tale che:   a 1),( supinf QQQP 2 1sup 2 inf a a    QQ QQ In generale si sceglie: 3. Si trasforma l’intervallo precedente in un intervallo per ; si estrae un campione e da questo si calcola la media campionaria e la deviazione standard campionaria. Si ottiene così un intervallo di stima in corrispondenza di ogni estrazione campionaria. 13Cos'è la Statistica - G. Garau, L. Schirru
  • 14.
    Le tappe perla costruzione della stima per intervalli:Esempio Per  noto la statistica soddisfa le seguenti condizioni:)1,0(~ N n x Z    i. È funzione delle osservazioni campionarie, ii. Non dipende da altri parametri ignoti, iii. Consente l’esplicazione di , parametro da stimare, nel modo seguente: z n xx n Z     ˆ Intervallo di confidenza 14 Cos'è la Statistica - G. Garau, L. Schirru
  • 15.
    Intervallo di confidenzaper la media Si utilizza a seconda dei casi: Da entrambi si può esplicitare  La lunghezza dell’intervallo di confidenza dipende:  dal livello di confidenza (1 – a)  dalla dispersione della popolazione 2  dall’ampiezza del campione n 15 Cos'è la Statistica - G. Garau, L. Schirru
  • 16.
    Intervallo di confidenzaper la media Intervallo di confidenza per la media quando la varianza è nota. Se 2 è noto si preferisce Z perché la sua distribuzione è meno dispersa di T di Student. Per un livello di confidenza (1 - a) si avrà: 16Cos'è la Statistica - G. Garau, L. Schirru
  • 17.
    Intervallo di confidenzaper la media Intervallo di confidenza per la media quando la varianza è ignota. Se 2 è ignoto bisogna stimarlo e si userà Tn-1 (n-1 sono i gradi di libertà). La distribuzione è simmetrica, come la normale, ma la sua forma dipende dai gradi di libertà e in particolare per n piccolo la curva risulta più appiattita della curva normale. In questo caso dipenderà dal campione sia il centro (la media campionaria) che la dispersione xˆ 17Cos'è la Statistica - G. Garau, L. Schirru
  • 18.
    Intervallo di confidenzaper la varianza Anche in questo caso si hanno a disposizione due statistiche  è noto  si stima puntualmente con x Entrambe le statistiche seguono la legge del c2 per cui gli intervalli di confidenza che costruiremo si applicano solo nel caso di popolazioni normali. Esplicitiamo 2 18Cos'è la Statistica - G. Garau, L. Schirru
  • 19.
    Intervallo di confidenzaper la varianza Intervallo di confidenza per la varianza quando la media è nota Si utilizza e l’intervallo sarà: Il c2 non è simmetrico per cui si devono cercare entrambe le soglie. Per 1 - a=90% e n=5 si ha: 2 ~ nn Q c ],[ 21,2, aa nn qq Per n=5 il valore del c2 che corrisponde al 5% dell’area è pari a 1.145 e il valore del c2 che corrisponde al 95% dell’area è 11.07; quindi:    90.007.11,145.1 nQP Utilizzando la relazione in a) in cui si esplicita 2 si ottiene l’intervallo casuale che dipende dal campione e che comprende il vero valore di 2 con una probabilità 1 – a. 19Cos'è la Statistica - G. Garau, L. Schirru
  • 20.
    Intervallo di confidenzaper la varianza Intervallo di confidenza per la varianza quando la media è ignota Nel caso in cui  non sia nota si utilizza Qn-1, in cui i gradi di libertà sono inferiori di uno rispetto al caso in cui la media è nota e questo perché è necessario stimare anche  attraverso (media campionaria). L’intervallo sarà: x ],[ 21),1(2),1( aa  nn qq Utilizzando la relazione b) per esplicitare 2 si ottiene l’intervallo casuale funzione del campione: 20
  • 21.
    Intervallo di confidenzaper una proporzione della popolazione Intervallo di confidenza per una proporzione della popolazione La proporzione campionaria P è una media campionaria , anche se sotto una forma diversa. Ad esempio se osserviamo 4 democratici in un campione di 10 persone si sa che: X Allo stesso modo, la proporzione della popolazione p coincide esattamente con la media  della popolazione, anche se espressa in forma diversa. A questo punto il modo più semplice di costruire un Intervallo di confidenza al 95% per una proporzione è: Occorre ricordare che nel costruire questo intervallo di confidenza la proporzione p della popolazione è stata sostituita con P, proporzione campionaria. Questo determina una maggiore probabilità di errore, in quanto aumentano le fonti di errore, ma per grandi campioni il problema non sussiste. 21Cos'è la Statistica - G. Garau, L. Schirru
  • 22.
    La prova delleipotesi La prova delle ipotesi consiste nel verificare, attraverso il campione, la significatività statistica di ipotesi sulla distribuzione di caratteri oggetto di studio. Con la stima si vuole quantificare, con la prova delle ipotesi si vuole validare la stima. Una ipotesi è confermata se si può ammettere, con un certo grado di fiducia, che il campione proviene da una distribuzione che soddisfa l’ipotesi sottoposta a test, altrimenti l’ipotesi è rifiutata. Una prova delle ipotesi consiste in una regola di decisione che conduce ad accettare/rifiutare l’ipotesi a seconda dell’informazione campionaria. Ad esempio si può verificare se una media è significativamente diversa da un dato valore o se una proporzione è significativamente superiore al 50%, e così via. La prova delle ipotesi e la stima per intervalli sono strumenti complementari. La prova delle ipotesi può essere utilizzata anche per verificare aspetti qualitativi di una distribuzione, come ad esempio la conformità ad una distribuzione teorica (ad esempio normale o binomiale, ecc.), o l’indipendenza di due caratteri qualitativi come ad esempio sesso ed opinione su un determinato problema. 22Cos'è la Statistica - G. Garau, L. Schirru
  • 23.
    La prova delleipotesi Una prova delle ipotesi consiste in una regola di decisione che conduce ad accettare/rifiutare l’ipotesi a seconda dell’informazione campionaria. Si definisce: H0 l’ipotesi nulla o da verificare H1 l’ipotesi alternativa. Es.: Supponete di voler testare il salario medio giornaliero in un dato settore di attività economica, espresso in milioni di lire. H0 :   0 =100 H1 :   1 =120 Tale ipotesi alternativa è giustificata se il campione proviene da una popolazione con media 100 o da una con media 120. 23Cos'è la Statistica - G. Garau, L. Schirru
  • 24.
    Non sempre èpossibile formulare ipotesi alternative così precise e spesso ad H1 corrisponde un insieme di possibilità. Si può avere: La prova delle ipotesi: l’ipotesi alternativa. 011 011 011 : : :       H H H In generale si preferisce strutturare il test, quindi l’ipotesi alternativa, in uno dei due primi modi perchè in tal caso si ha una unica zona di rifiuto del test. Nel terzo caso invece la zona di rifiuto è divisa nelle due code della distribuzione e questo non permette il calcolo dell’errore di seconda specie (vedi slide 10). Per procedere alla prova delle ipotesi bisogna procedere nel modo seguente. Si deve cercare una statistica Q0, funzione del campione e tale che: - La distribuzione di Q dipenda dall’ipotesi da verificare; - La distribuzione di Q0 sia nota sotto H0 (se vale H0); - il valore di q0 di Q0, per un campione dato possa essere univocamente determinato sotto H0. 24Cos'è la Statistica - G. Garau, L. Schirru
  • 25.
    Supponete che nellaverifica del salario medio, 2 sia noto e pari a 441 per cui  =21. La statistica da usare è: La prova delle ipotesi. x x Z  0 0            1,~ 0 0 x NZ   In effetti (si distribuisce come una normale con media e varianza 1) e il centro dipenderà dalla vera media . Sotto H0 si ha che =0 e la distribuzione di Z sarà Z0~N(0,1). Utilizzando tale statistica si può enunciare la seguente regola: x   0 Si rifiuta H0 se il valore osservato q0 (calcolato sul campione osservato) si allontana “molto” dal centro della distribuzione di Q0 sotto H0. 25Cos'è la Statistica - G. Garau, L. Schirru
  • 26.
    Supponete che nellaverifica del salario medio, 2 sia noto e pari a 441 per cui  =21. La statistica da usare è: La prova delle ipotesi. x x Z  0 0            1,~ 0 0 x NZ   In effetti (si distribuisce come una normale con media e varianza 1) e il centro dipenderà dalla vera media . Sotto H0 si ha che =0 e la distribuzione di Z sarà Z0~N(0,1). Utilizzando tale statistica si può enunciare la seguente regola: x   0 Si rifiuta H0 se il valore osservato q0 (calcolato sul campione osservato) si allontana “molto” dal centro della distribuzione di Q0 sotto H0. Si rifiuta H0 quando Z0 si allontana molto da 0, quando cioè x medio è molto diversa da 0 (ciò significa che il campione da risultati in apparente contrasto con le ipotesi formulate). 26Cos'è la Statistica - G. Garau, L. Schirru
  • 27.
    La regione critica 00 00 accettasi rifiutasi HRq HRq   Formalmente,se R è la regione critica in cui si rifiuta H0 si può scrivere: Considerate ora H0 perché R si specifica di conseguenza: Se si considera il primo caso 1 > 0, si rifiuterà H0 solo se z0 diventa molto più grande di zero, in altri termini se x medio supera una data soglia r. In effetti se il test è unilaterale, per tutti i valori di x medio inferiori a μ0, H0 è più ragionevole di H1. 27Cos'è la Statistica - G. Garau, L. Schirru
  • 28.
    Errore nella decisione Spingendociun po’ oltre nella regola di decisione: tra tutti i campioni che provengono da una popolazione conforme a H0, alcuni di questi possono condurre a rifiutare H0. Estraiamo dalla popolazione A (quella sotto H0, caratterizzata da un salario medio pari a 100) gli individui meglio pagati, rischiamo di rifiutare H0 per accettare H1==120. Ecco come si ragiona: Se si decide per H0 Quando H0 è vera Se si decide per H1 Quando H1 è vera 28
  • 29.
    Errore nella decisione Sesi rifiuta H0 accettando H1 Quando H0 è vera Se si rifiuta H1 accettando H0 Quando H1 è vera Si indica con a Si indica con b 29Cos'è la Statistica - G. Garau, L. Schirru
  • 30.
    Zona di accettazionee di rifiuto Considerate la distribuzione di nei due casi, H0: =100 e H1: =120 e osservate le aree a e b. I due rischi variano in senso contrario, cioè a cresce con R, ma se cresce R diminuisce b. Insomma se diminuisce un rischio aumenta l’altro. x Il legame tra a b è fondamentale perché nello scegliere il valore di uno bisogna tener conto del valore dell’altro. 30Cos'è la Statistica - G. Garau, L. Schirru
  • 31.
    Zona di accettazionee di rifiuto Inoltre b diventa molto grande quando H1 è vicina ad H0. Ciò significa che è molto difficile discriminare tra ipotesi simili. Non potendo evitare l’errore bisogna cercare di minimizzare il rischio di prendere una decisione sbagliata. Il rischio totale è: p0a+p1b Dove: p0 e p1 sono le probabilità che H0 e H1 siano vere e in generale sono ignote. Inoltre b non può essere calcolato quando, ad esempio H1 è un’ipotesi composta. 31Cos'è la Statistica - G. Garau, L. Schirru
  • 32.
    Come effettuare untest delle ipotesi Si procede nel modo seguente: 1. Si fissa un rischio a ragionevole (ricordando che se a è troppo piccolo b sarà troppo grande) 2. Si determina R: o Scegliendo la forma a seconda di come è formulata H1; o Si calcolano i valori di soglia corrispondenti ad a. 3. Si calcola q0 di Q0 per il campione osservato; 4. Si decide nel modo seguente: o Si rifiuta o Si accetta ;se ;se 00 00 RqH RqH   32Cos'è la Statistica - G. Garau, L. Schirru
  • 33.
    La potenza deltest I criteri che consentono di scegliere, quando si hanno a disposizione diverse statistiche per effettuare la stessa ipotesi, sono:  Potenza del test (per confrontare dei test semplici)  Curva di efficacia (nel caso di ipotesi composte) Ricordate che l’obiettivo, nel costruire un test, è quello di minimizzare il rischio totale dell’errore. Tra due test il migliore sarà quello che, a parità di a, minimizza b. Un test è più efficace quando b è debole. Il complemento ad uno di b, ossia 1-b misura la potenza del test. Per approfondire questo argomento si rimanda al libro di testo 33Cos'è la Statistica - G. Garau, L. Schirru

Editor's Notes

  • #2 Titolo: Gli stimatori e le loro proprietà.
  • #3 La stima puntuale
  • #4 La stima puntuale
  • #5 Seconda schermata
  • #6 Titolo: Le proprietà degli stimatori
  • #7 Titolo: Le proprietà degli stimatori: Correttezza
  • #8 Titolo: Le proprietà degli stimatori: Efficienza
  • #9 Titolo: Le proprietà degli stimatori: Consistenza
  • #10 Titolo: Le proprietà degli stimatori: Conclusioni
  • #11 Esempi di stimatori.
  • #12 Titolo: La stima per intervalli
  • #13 Titolo: Il livello di confidenza
  • #14 Titolo: Le tappe per la costruzione della stima per intervalli
  • #15 Titolo: Esempio
  • #16 Titolo: Intervallo di confidenza per la media
  • #17 Seconda schermata: Intervallo di confidenza per la media se la varianza è nota
  • #18 Terza schermata: Intervallo di confidenza per la media se la varianza è ignota
  • #19 Titolo: Intervallo di confidenza per la varianza
  • #20 Seconda schermata: Intervallo di confidenza per la varianza se la media è nota
  • #21 Terza schermata: Intervallo di confidenza per la varianza se la media è ignota
  • #22 Titolo: Intervallo di confidenza per una proporzione della popolazione
  • #23 Titolo: La prova delle ipotesi.
  • #24 Titolo: La prova delle ipotesi.
  • #25 Titolo: L’ipotesi alternativa.
  • #26 Titolo: La prova delle ipotesi.
  • #27 Titolo: La prova delle ipotesi.
  • #28 Titolo: La regione critica
  • #29 Titolo: Errore nella decisione
  • #30 Seconda schermata: Errore nella decisione
  • #31 Titolo: Zona di accettazione e di rifiuto.
  • #32 Seconda schermata: Zona di accettazione e di rifiuto.
  • #33 Titolo: Come effettuare un test delle ipotesi.