1. Inferenza statistica e statistica descrittiva:
Distribuzione dei Dati
LucioFontana-Expectations(MoMA),1959
Riccardo Rigon
2. R. Rigon
Obbiettivi
2
•In queste pagine si ricordano gli elementi fondanti dell’analisi statistica.
•Si definiscono, popolazione, campione e varie statistiche elementari, media,
varianza, covarianza.
•Si discute dell’esistenza delle statistiche e del loro valore.
Introduzione
3. R. Rigon
3
L’inferenza statistica assume che un insieme di dati rappresenti un
sottoinsieme di casi tra tutti i possibili, normalmente detto
campione.
Tutti i casi possibili rappresentano la
popolazione
da cui l’insieme di dati è stato estratto. Il campione è noto. La popolazione,
in genere no. Sulla popolazione, è sempre implicito, si fanno delle ipotesi.
Introduzione
Campione e Popolazione
4. R. Rigon
1860 1880 1900 1920 1940 1960 1980 2000
8
9
10
11
12
13
14
15
a) Bergen:Sep temperature
time
Temperature(o
C)
5 6 7 8 9 10 11 12 13 14 15
0
5
10
15
20
25
30
b) Bergen:Sep temperature distribution (1861−1997)
Frequency
Temperature (o
C)
Analisi Esplorativa dei dati
rappresentazione temporale - istogramma
4
Un insieme di n dati costituisce dunque un campione di dati.
Tali dati possono essere rappresentati in vari modi. Ogni forma di
rappresentazione ne mette in rilievo alcune caratteristiche.
Serie
temporale
Istogramma
Analisi esplorativa
6. R. Rigon
6
Inferenza statistica
•L’inferenza statistica è il processo che consente di formulare delle
conclusioni relative ad una popolazione sulla base di un campione di
osservazioni estratte a caso dalla popolazione
•Centrale all’inferenza statistica classica è la nozione di distribuzione
campionaria, ovvero come variano le statistiche dei campioni, se i campioni
casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla
popolazione
Introduzione
7. R. Rigon
7
Inferenza statistica
•Anche se, in ciascuna applicazione pratica dell’inferenza statistica, il
ricercatore dispone solamente di un unico campione casuale di grandezza
n, la possibilità che il campionamento venga ripetuto fornisce il
fondamento concettuale per decidere quanto il campione osservato sia
informativo della popolazione nel suo complesso
Introduzione
8. R. Rigon
8
Assegnato l’insieme di dati
hi = {h1, · · ·, hn}
La distribuzione cumulata dei dati è definita da
e prodotto da esso l’insieme ordinato in modo crescente
ˆhj = (ˆh1, · · ·, ˆhn) ˆh1 ⇥ ˆh2 ⇥ · ⇥ ˆhn
ECDFi(ˆh) :=
1
n
i
j=1
j
Introduzione
Distribuzione Empirica dei dati
9. R. Rigon
9
20 40 60 80
0.00.20.40.60.81.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
La distribuzione cumulativa empirica può essere rappresentata come illustrato. Il
valore in ordinate individuato dalla curva si dice anche frequenza di non
superamento o quantile
Distribuzione Empirica dei dati
Introduzione
10. R. Rigon
10
20 40 60 80
0.00.20.40.60.81.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.5 quantile
Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.
Introduzione
Quantili
11. R. Rigon
11
20 40 60 80
0.00.20.40.60.81.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.5 quantile
Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.
Quantili
Introduzione