SlideShare a Scribd company logo
1 of 146
Totale diapositive 146
1. Indroduzione alla statistica
1.1 Definizione di statistica
La statistica è un insieme di metodi e tecniche,
basate sulla matematica e la probabilità che
permettono di:
•osservare i fenomeni
• descriverne le caratteristiche in termini
quantitativi e sintetici
•generare ipotesi esplicative
•verificare tali ipotesi
•valutare relazioni ed associazioni
Totale diapositive 146
Iniziamo…
Totale diapositive 146
Quando entra in gioco la probabilità?
Conosco tutto Conosco parte (campione)
! Certezza Incertezza ?
Totale diapositive 146
Quadro argomenti
Totale diapositive 146
Il concetto di misura
“Misura ciò che è misurabile,e rendi
misurabile ciò che non lo è”
Galileo Galilei
Totale diapositive 146
Il concetto di misura
Misura Indicazione quantitativa di una
grandezza in relazione a una opportuna unità
di misura. Ogni misurazione comporta un
confronto con un riferimento noto.
La misura non può dare un risultato esatto:
Qualsiasi misura è sempre caratterizzata da
una approssimazione.
Totale diapositive 146
Totale diapositive 146
Il concetto di misura
le cifre significative
Quando si devono considerare le approssimazioni, il
numero di cifre riportate è importante e anche gli zeri
diventano significativi!
Ad esempio, consideriamo due misure della stessa
lunghezza x:
x = 3 m
e
x = 3.00 m
Il dato è lo stesso, ma il metadato è diverso: il primo
dato contiene un’incertezza di un metro, mentre nel
secondo l’incertezza è di un centimetro!
Totale diapositive 146
1.2 Dati
La scelta del metodo di analisi
statistica
dipende dal tipo di dati
Ad. es. ha senso fare la media della variabile stato civile?
Totale diapositive 146
VARIABILI
QUALITATIVE
ORDINALI E NOMINALI
• Una variabile si dice qualitativa se è un
attributo non misurabile.
Ad esempio: il genere (maschio o
femmina) , il colore degli occhi, il livello
di scolarità, etc.
– Un carattere qualitativo ordinale
assume valori che posseggono
naturalmente un ordine ovvero che
possono essere disposti lungo una
scala (gli attributi "pessimo",
"cattivo", "mediocre", "buono" e
"ottimo").
– Un carattere qualitativo nominale
assume valori che non posseggono
alcun ordine naturale (le malattie o i
giorni della settimana).
• Un carattere quantitativo
esprime una quantità, ovvero dei
valori numerici (l'altezza o il
numero di figli).
– Discreto se può assumere
solo alcuni dei valori
compresi in un intervallo (il
numero di figli o gli anni di
età).
– Continuo se può assumere
tutti i valori contenuti in un
determinato intervallo (ad
esempio, il peso).
– Binomiale se ha due sole
possibilità.
VARIABILI
QUANTITATIVE CONTINUE
DISCRETE
BINOMIALI
CONTINUE DISCRETE
BINOMIALI
Totale diapositive 146
DATI:
classificazione
Categorici/qualitativi o numerici
Categorici (due categorie, variabili
dicotomiche)
Maschio/femmina
Coniugato/single
Fumatore/non fumatore
Diabetico/non diabetico
Categorici (più di due
categorie)
Non fumatori/ex-fumatori/fumatori (<20) / fumatori (>20)
Coniugato/single/divorziato/separato/vedovo
Totale diapositive 146
I dati numerici (quantitativi) possono
essere: Dati discreti o dati di tipo continuo
Dati
discretiQuando le osservazioni possono assumere solo
alcuni valori numerici:
Numero delle visite di un paziente in un anno
Numero di figli
Dati
continuiDi solito sono ottenuti tramite un metodo di misurazione
Altezza/peso/età/pressione
Numero di cellule linfocitarie CD4+
Totale diapositive 146
Come organizzo le mie informazioni
per renderle più facilmente leggibili
ed analizzabili?
Griglia rettangolare
righe: unità di osservazione
colonne: caratteristiche osservate su ciascuna unità
LA BASE (MATRICE) DEI
DATI
Totale diapositive 146
Unità
1
2
3
.
.
.
n
caratteristiche/variabil
isesso età istruz. peso occup.
•Progettazione dell’inserimento dati
•Codifica dei dati non numerici
Stato civile n. figli
M 2
5
diplom
a
7
0
cuoco coniugat
o
1
La base dei dati
Totale diapositive 146
LA MATRICE DELLE
INFORMAZIONI
E DEI DATI
Ogni riga contiene le informazioni
di ogni unità di osservazione
RECORD
Ogni colonna contiene
le informazioni relative
a caratteristiche
costanti dell’analisi Di
ogni osservazione
CAMPI DELLE
VARIABILI
V
A
R
I
A
B
I
L
I
Soggetto Sesso Età Stato
Civile
Professione
1 Maschio 34 Celibe Impiegato
2 Maschio 32 Celibe Insegnante
3 Femmina 45 Sposata Operaia
4 Maschio 31 Sposato Agricoltore
5 Femmina 29 Separata Impiegato
6 Maschio 27 Celibe Impiegato
RECORD
Totale diapositive 146
I
D
SESS
O
ETA
'
PESO BM
I1 M 5
5
…
.
…
.2 F 5
4
…
.
…
.3 F 5
2
…
.
…
.4 M 3
3
…
.
…
.5 M 3
4
…
.
…
.6 M 4
5
…
.
…
.7 F 4
2
…
.
…
.8 M 6
7
…
.
…
.9 M 3
3
…
.
…
.1
0
F 1
3
…
.
…
.1
1
F 2
3
…
.
…
.1
2
F 2
5
…
.
…
.1
3
F 4
5
…
.
…
.1
4
F 6
5
…
.
…
.1
5
M 4
3
…
.
…
.1
6
F 4
3
…
.
…
.1
7
F 2
3
…
.
…
.1
8
F 1
2
…
.
…
.1
9
M 3
4
…
.
…
.2
0
F 6
5
…
.
…
.2
1
M 4
5
…
.
…
.2
2
M 3
4
…
.
…
.2
3
M 3
4
…
.
…
.
1.3 Distribuzione di frequenza
Quanti sono i maschi nel
gruppo di individui che sto
esaminando?
Come si distribuisce il BMI
(Body Mass Index) nella
popolazione che sto
esaminando?
Devo estrarre dalla mia matrice
dei dati
LA DISTRIBUZIONE
DI FREQUENZA
delle variabili che mi interessano
Totale diapositive 146
Distribuzione di frequenza del sesso in una popolazione di 185 pazienti
con AIDS diagnosticati tra Ottobre 1996 –30 Aprile 1997 nel Lazio
Sesso frequenza = n
Maschi 135
Femmine 50
Totale 185
Lazio
Sesso frequenza = n
Maschi 250
Femmine 118
Totale 368
Toscana
Frequenza relativa
(%)
73
27
10
0
Frequenza relativa
(%)
68
32
10
0
Distribuzione di frequenza
Totale diapositive 146
Frequenza semplice (n):
numero di volte in cui i valori di una specifica variabile sono
stati osservati (= 135 maschi)
Frequenza relativa o percentuale:
= f
(135/185) * 100 =
n
N
* 100 = f %
n
N
frequenza percentuale di maschi nella
popolazione di pazienti con AIDS Lazio
Distribuzione di frequenza
Totale diapositive 146
Distribuzione per classi di età delle donne ricoverate per
intervento chirurgico sulla mammella nel 1997 nel Lazio
✓Distribuzione di frequenza cumulata: somma delle frequenze relative
all’aumentare dei valori della variabile
età in
classi
Frequenz
a
% %
valid
a
%
cumulat
a
<40 2 0,05 0,05 0,05
40-49 1068 27,50 27,57 27,62
50-69 1813 46,69 46,80 74,42
70-79 990 25,50 25,55 99,97
>=79 1 0,03 0,03 100,00
Totale casi
validi
3874 99,8 100,0
Mancante di
sistem
a
9 0,2
Total
e
3883 100,0
Totale diapositive 146
MISURE DI
- TENDENZA CENTRALE
- DI DISPERSIONE
MISURE TENDENZA CENTRALE MISURE DISPERSIONE
Inrorno a quali valori i dati si concentrano Quanto i dati differiscono tra loro
Totale diapositive 146
1.4 Statistica descrittiva: misure di
tendenza centrale
Totale diapositive 146
Misure di
-tendenza centrale
- di dispersione
A cosa servono?
Sintetizzare
Descrivere
Totale diapositive 146
Misure di tendenza centrale
La prima condizione che vincola la scelta del
tipo di misura è rappresentato dal tipo di
variabile in cui è espresso il carattere rilevato.
moda
media
mediana
Totale diapositive 146
moda
Definizione: è la modalità che presenta la
frequenza assoluta più alta. E’ in pratica il
valore osservato più comunemente.
La moda può essere calcolata per
qualsiasi tipo di dati.
Totale diapositive 146
moda: esempio 1
Numero di
figliper
famiglia
Frequenz
adi
famiglie
Frequenz
acumulat
a
0 50 50
1 120 17
02 200 37
03 40 41
04 20 43
05-
7
5 43
5
Totale diapositive 146
mediana
• Definizione: è il valore che, in una serie
ordinata di modalità, occupa il posto centrale,
cioè ripartisce le osservazioni in due gruppi di
uguale numerosità; il 50% delle osservazioni
è inferiore alla mediana, il 50% superiore.
• Può essere calcolata per variabili le cui
modalità possano essere ordinabili.
Totale diapositive 146
mediana
• Se si dispongono le osservazioni in ordine crescente o
decrescente, l’osservazione di mezzo è la mediana. Se il numero
delle osservazioni, n, è dispari vi sarà un unico valore di
mediana :
• se n è pari, non esiste una osservazione centrale e la
mediana si definisce per convenzione come la media
delle due osservazioni centrali:
5, 15, 20, 25, 45, 60, 89,
la mediana è 25.
5, 15, 20, 25, 45, 60, 70, 89
la mediana è (25+45)/2=35.
Totale diapositive 146
mediana: esempio 1
L’osservazione centrale è data da (435+1)/2=218 che
appartiene alla modalità ‘numero di figli’=2. Quindi la
mediana è 2.
Numero di
figliper
famiglia
Frequenz
adi
famiglie
Frequenz
acumulat
a
0 50 50
1 120 17
02 200 37
03 40 41
04 20 43
05-
7
5 43
5
11,
539,
185,
194,
398,
9100,
0
Frequenza %
cumulat
a
Totale diapositive 146
Frequenze cumulative, mediana e centili
Questo tracciato è utile per determinare graficamente i centili (o percentili)
di una distribuzione.
Totale diapositive 146
Per PERCENTILE o CENTILE si intende il livello di misura al di sotto del
quale cade una determinata percentuale della distribuzione
Nell'esempio, il 25° percentile corrisponde a 58.8 cm circa, il 50° a poco meno di
61 cm ed il 75° a 63.3 cm circa.
Ciò significa che il 25% dei nostri bracchi era più basso di 58.8 cm, il 50% era più
basso di 61 cm ecc.
Per esempio, il 90% dei bracchi è più basso di 65 cm, e quindi un cane alto 65 cm
cadrà nel "90esimo percentile".
Il 25° percentile è detto anche "primo quartile" in quanto raccoglie il primo quarto
della popolazione; analogamente, il 75° percentile è detto anche "terzo quartile".
Il 50° percentile, detto anche mediana, è un indice di tendenza centrale fra i più
importanti, e la sua applicazione pratica verrà accennata in seguito.
Se i dati sono ordinati in senso crescente (o decrescente), calcolare la mediana è
molto facile. Infatti, tenendo presente che la mediana è quel valore che lascia alla
sua sinistra e alla sua destra un numero uguale di unità, allora:
n+1/2
Totale diapositive 146
Definizione: è la somma dei valori osservati
divisa per il numero delle osservazioni
• per tabelle di dati
media aritmetica
soggetti numero
di esami
1 3
2 4
3 6
4 2
5 1
6 2
Il numero medio di esami è
dato da:
3+4+6+2+1+2 = 3
6
Totale diapositive 146
media aritmetica
-Per tabelle di frequenza
Il numero medio di figli è dato
da:
Numero di
figli per
famiglia
Frequenza
di famiglie
0 50
1 120
2 200
3 40
4 20
5-7 5 81
435
780
435
1201500
,
....
.
media ==
++×+×
=
Totale diapositive 146
Scegliere la statistica descrittiva
appropriata
La scelta dipende dalla distribuzione dei
dati
• Gruppo a: 11,12,13,13,14,15; media=13
• Gruppo b: 11,12,13,13,14,25; media=17
mediana=13
La media è condizionata dagli
estremi
Totale diapositive 146
MEDIA
Si calcola sommando tutti i valori della osservazione e dividendo per il numero dei
valori
Facile da calcolare e si utilizza quando non abbiamo grossa dispersione dei dati
degenze in ospedale per una certa patologia
5;5;5;7;10;20;102 sono i giorni
Media = 154/7= 22
Il risultato è atipico poiche le degenze di 22 giorni si verificano molto raramente
In questo caso è piu informativa la mediana (quadro piu reale)
MEDIANA
Corrisponde al valore centrale quando i valori sono ordinati in modo crescente
½ (n+1)esima della serie ordinata
Se n è pari non esiste un valore centrale e la mediana è la media aritmetica dei
due valori centrali
Totale diapositive 146
Abbiamo 7 osservazioni mediana ½ (n+1)= ½ 7+1= 4
La mediana sarà la quarta osservazione ovvero 7 (una volta ordinate in
ordine crescente)
MODA
È il valore chi si verifica piu frequentemente (massima frequenza)
Totale diapositive 146
La moda è utilizzata raramente come misura descrittiva
In questo caso sarebbe 5 (il valore piu frequente)
MEDIA PESATA
È utile quando alcuni valori del set di osservazioni sono piu importanti di altri
1) Quando alcuni valori sono misurati piu precisamente di altri
2) Quando due o piu medie (o proporzioni) si uniscono insieme
temperature medie giornaliere all’interno di una sala ospedaliera in diversi giorni
della settimana
Giorni lavorativi: 22,23,21,21,20 media 107/5=21,4°C
Fine settimana 17,15 media 32 /2=16°C
La media di tutte le temperature per i 7 giorni non è 21,4+16/2= 18,7°C
Totale diapositive 146
Perchè 21,4 è basato su 5 osservazioni mentre 16 solo su 2 osservazioni
Se vogliamo unire le due medie è necessario dare piu peso al valore 21,4 che
al valore 16
La media per tutti e sette i giorni
(5 x 21,4 + 2 x 32) /5+2= 139 / 7 = 19,8°C
Questa è la media pesata perchè alla media del gruppo con piu osservazioni
viene dato un peso maggiore
Abbiamo 5 pesi per i giorni lavorativi e 2 per il gruppo fine settimana
La formula di una media pesata è:
Xw= Σ WY/ Σ W
W= peso associato all’osservazione y
Se i pesi sono tutti uguali a media pesata è = alla media aritmetica
Totale diapositive 146
Riassumendo:
• I dati numerici (quantitativi) possono
essere sinteticamente descritti da
media e mediana
• La mediana è consigliabile quando la
media è poco rappresentativa
(presenza di dati troncati oppure presenza
di “outliers”)
Totale diapositive 146
Altre misure: i quartili
il valore al di sotto del quale cade un quarto delle
osservazioni ordinate si chiame quartile inferiore o
primo quartile; il valore che è superato da un quarto delle
osservazioni si chiama quartile superiore o terzo quartile. La
distanza tra di essi è detta distanza interquartile. La
mediana è definita come il secondo quartile
50% delle osservazioni
25% delle osservazioni
1° 2° =mediana
3°
25% delle osservazioni
0,23,23,24 …… …34,35,… …77,77,78,101
Totale diapositive 146
percentili
se anziché dividere i dati in 4 parti, si dividono in
100 parti, si ottengono i percentili. Ad esempio, il
5-esimo percentile è il valore al di sotto del quale
cade il 5% delle osservazioni. Così il primo quartile
corrisponde al 25-esimo percentile.
5% delle
osservazioni
1° quartile = 25° percentile
Totale diapositive 146
PERCENTILI
Se la distribuzione cumulativa delle frequenze relative è calcolata per una variabile y
➢ il valore che separa l’ 1% delle osservazioni è il primo percentile
➢ il valore che divide il 2% delle osservazioni è il secondo percentile e cosi via
QUARTILI
Normalmente utilizziamo I valori che separano i dati in 4 gruppi di uguale grandezza
➢ 25esimo percentile chiamato 1° Quartile
➢50esimo percentile chiamato 2° Quartile
➢75esimo percentile chiamato 3° Quartile
La differenza tra tra il 25esimo e il 75esimo quartile è la distanza interquartile e
contiene il 50% centrale delle osservazioni
Il 50esimo percentile è la mediana
La rappresentazione grafica dei 5 numeri è il “ box and whisker plot”
È da l’idea della grandezza totale e della variabilità
La mediana è il valore che divide i dati in due metà col 50% delle osservazioni in
ciascuna metà
Totale diapositive 146
Box-plot
Da Wikipedia, l'enciclopedia libera.
In statistica il box-plot, detto anche box and
whiskers plot (diagramma a scatola e baffi)
o semplicemente boxplot, è una
rappresentazione grafica utilizzata per
descrivere la distribuzione di un campione
tramite semplici indici di dispersione e di
posizione.
Viene rappresentato (orientato
orizzontalmente o verticalmente) tramite un
rettangolo diviso in due parti, da cui escono
due segmenti. Il rettangolo (la "scatola") è
delimitato dal primo e dal terzo quartile, q1/4
e q3/4, e diviso al suo interno dalla mediana,
q1/2. I segmenti (i "baffi") sono delimitati dal
minimo e dal massimo dei valori.
In questo modo vengono rappresentati
graficamente i quattro intervalli ugualmente
popolati delimitati dai quartili.
Totale diapositive 146
Se le due metà sono di nuovo divise in due metà per ottenere la mediana di
ciascuna metà abbiamo il 25esimo e il 75esimo quartile
Possiamo indicare con Ymin il valore piu piccolo e con Ymax il valore pi
grande
Questi 5 valori Ymin Ymax 25esimo 50esimo e 75esimo sono I numeri usati
nel “ box and whisker plot”
La parte della scatola a destra della mediana e il suo baffo sono piu lunghi la
misura è asimmetrica a destra
Totale diapositive 146
Percentili: box and whisker plot
25°
75°
97½°
2½°
Totale diapositive 146
Supponiamo di avere due popolazioni con lo stesso numero di
individui che vogliamo confrontare e che troviamo uguale media e
uguale deviazione standard concludiamo che sono uguali
ma i dati grezzi ci fanno notare come in un caso ho valori out-liers
ossia vicini ai valori estremi
quindi ho due differenti distribuzioni e una delle due è assimmetrica in
questo caso media e SD ci danno una visione errata dello stato di cose
e quindi pur potendo calcolare media e SD queste misure non mi
riassumono in questo caso la distribuzione dei miei valori
Totale diapositive 146
Un approccio alternativo è:
manipolare matematicamente la distribuzione e “normalizzarla”
usare la mediana ossia il valore rispetto al quale metà dei valori
della popolazione risulatano superiori e l’altra inferiori
inoltre per la misura della dispersine si riporta il valore che che
separa il 25% inferiore della popolazione dal resto e il valore che
separa il 25% superiore dal rimanente 75%
calcolare i percentili è buon sistema per valutare quanto una
popolazione si ad atti ad una distribuzione normale
se i valori percentili non sono troppo diversi da quelli attesi sulla
base di media e deviazione standard allora la distribuzione normale
rappresenta bene la popolazione reale dei dati
Totale diapositive 146 *
Gli Indici di VARIABILITA’
- Campo di variazione
- Scarto dalla media
- Varianza
- Scarto quadratico medio
- Coefficiente di variazione
Elementi di Statistica descrittiva
Totale diapositive 146
Indici di Variabilità
I valori medi sono indici importanti per la
descrizione sintetica di un fenomeno
statistico
Hanno però il limite di non darci alcuna
informazione sulla distribuzione dei
dati
Totale diapositive 146
Esempio
In tre differenti prove di matematica 4 studenti
hanno riportato le seguenti valutazioni
In tutte e tre le prove la media è 6,25
ma i dati sono chiaramente distribuiti in modo
diverso
Totale diapositive 146
Diagramma di distribuzione delle tre prove
Totale diapositive 146
• nel caso della 1a prova e 2a prova sarà
opportuno fare un recupero per alcuni
studenti
• nel caso della 3a prova l’insegnante può
ritenere che gli obiettivi siano stati raggiunti
dalla classe, anche se ad un livello solo
sufficiente
Totale diapositive 146
• Campo di variazione (Range)
• Scarto medio dalla media
• Varianza e scarto quadratico medio
• Coefficiente di variazione
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
Totale diapositive 146
Campo variazione = x max – x min
Campo di variazione
E’ il più semplice degli indici di variazione:
Si calcola facendo la differenza tra il dato
più grande e il dato più piccolo
Rappresenta l’ampiezza dell’intervallo dei
dati
Totale diapositive 146
Esempio
Consideriamo le valutazioni della prima prova
Xmax = 9;
Xmin = 3 Range = 9 – 3 = 6
Totale diapositive 146Totale diapositive 168
Calcoliamo il Range per tutte le tre prove
Range 1a prova = 6 ⇒ dati più dispersi,
risultati più eterogenei
Range 3a prova = 1 ⇒ dati più concentrati,
risultati più omogenei
Range 2a prova = Range 1a prova = 6
Stessa Distribuzione?
Totale diapositive 146
Vediamo graficamente
Totale diapositive 146
Osservazioni:
1. Il campo di variazione dà informazioni sulla
distribuzione dei dati:
• più R è piccolo più i dati sono concentrati;
• più R è grande più i dati sono dispersi.
2. R è espresso nella stessa unità di misura dei dati
3. Tuttavia R tiene conto solo dei dati estremi della
distribuzione e non di tutti i dati, pertanto
distribuzioni diverse ma con gli stessi valori
estremi hanno range uguali
Es. Range 1aprova = Range 2a prova.
ma distribuzione 1a prova ≠ Distribuzione 2a prova
Totale diapositive 146
Scarto medio dalla media aritmetica
Un altro modo per calcolare la variabilità dei
dati (tenendo conto di tutti i dati) consiste
nel calcolare la distanza di tutti i dati
dalla media e fare la media aritmetica di
tali distanze
Scarto medio = Distanza media dei dati dalla
media
Totale diapositive 146
Esempio
Consideriamo le valutazioni della prima prova
⏐Δx1⏐ = ⏐ 3 – 6,25 ⏐ = 3,25; ⏐Δx2⏐ = ⏐ 5 – 6,25 ⏐ = 1,25;
⏐Δx3⏐ = ⏐ 8 – 6,25 ⏐ = 1,75; ⏐Δx4⏐ = ⏐ 9 – 6,25 ⏐ = 2,75;
Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25
4
Totale diapositive 146Totale diapositive 168
Calcoliamo lo Scarto medio per tutte le tre prove
Scarto 1a prova = 2,25 ⇒ dati più dispersi,
risultati più eterogenei
Scarto 3a prova = 0,38 ⇒dati più concentrati,
risultati più omogenei
Scarto 2a pr. ≠ Scarto 1a pr.“Le Distribuzioni Differiscono”
Totale diapositive 146
Diagramma degli scarti dalla media
Totale diapositive 146
Osservazioni:
1. Lo scarto medio dalla media dà informazioni sulla
distribuzione dei dati:
• più SM è piccolo più i dati sono concentrati;
• più SM è grande più i dati sono dispersi.
2. SM è espresso nella stessa unità di misura dei
dati
3. Non ha l'inconveniente del “Campo di variazione”
In quanto SM tiene conto di tutti i dati della
distribuzione
Totale diapositive 146
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e
tengono conto della distribuzione di tutti i
dati.
Varianza
Rappresenta la media aritmetica dei
quadrati delle distanze dei dati dalla media
M
Totale diapositive 146
Totale diapositive 146
Esempio - Varianza
Consideriamo le valutazioni della prima prova
(Δx1)2 = (3 – 6,25 )2 = 10,5625; (Δx2)2 = (5 – 6,25 )2 = 1,5625;
(Δx3)2 = (8 – 6,25 )2 = 3,0625; (Δx4)2 = (9 – 6,25 )2 = 7,5625;
σ2 = 10,5625+1,5625+3,0625+7,5625 =
5,6875
4
Totale diapositive 146
Calcoliamo la Varianza per tutte le tre prove
Varianza 1aprova = 5,69 ⇒ dati più dispersi,
risultati più eterogenei
Varianza 3a prova = 0,19 ⇒ dati più concentrati,
risultati più omogenei
Varianza 2a pr. ≠ Varianza 1a pr “Le Distribuzioni
Differiscono”
Totale diapositive 146
Scarto quadratico medio o
Deviazione standard
È uguale alla radice quadrata della varianza
Totale diapositive 146
Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova
Totale diapositive 146
Calcoliamo lo Scarto quadratico medio per tutte le
prove
Scarto q. 1aprova = 2,38 ⇒ dati più dispersi,
risultati più eterogenei
Scarto q. 3aprova = 0,43 ⇒ dati più concentrati,
risultati più omogenei
Scarto q. 2a pr. ≠ Scarto q. 1a pr “Le Distribuzioni
Differiscono”
Totale diapositive 146
Osservazioni:
1. La varianza σ2 e lo scarto quadratico medio σ
danno
informazioni sulla distribuzione dei dati:
• più σ2 e σ sono piccoli più i dati sono concentrati;
• più σ2 e σ sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della
distribuzione
Totale diapositive 146
3. Entrambi si basano sulla proprietà della media per
cui
la somma dei quadrati degli scarti dalla media è
minima
4. La varianza è espressa mediante il quadrato
dell’unità
di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura
dei
dati e pertanto viene preferito alla varianza
Totale diapositive 146Totale diapositive 146
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le
precedenti sono misure assolute) ed è una
grandezza adimensionale.
E’ particolarmente utile quando si devono
confrontare le distribuzioni di due gruppi con medie
molto diverse o con dati espressi in scale differenti
(es. confronto tra variazione del peso e variazione
dell’altezza).
Totale diapositive 146
Se i valori di CV sono esterni a quelli indicati o si è in
presenza di errori di rilevazione, oppure il fenomeno
presenta aspetti particolari.
• se CV è molto basso (2 – 3 %) bisogna
sospettare l’esistenza di fattori limitanti la variabilità,
• se CV è molto alto (intorno al 40% o più) è molto
probabile l’esistenza di fattori che aumentano la
variabilità
In natura il coeff. di variazione tende a rimanere costante
per ogni fenomeno:
i valori normalmente variano dal 5% al 15%
Totale diapositive 146Totale diapositive 168
Calcoliamo il Coeff. di variazione delle tre prove
CV 1a prova = 38,16% ⇒ dati più dispersi,
risultati più eterogenei
CV 3a prova = 6,93% ⇒ dati più concentrati,
risultati più omogenei
CV 2a pr. ≠ CV 1a pr ⇒ “Le Distribuzioni
Differiscono”
Totale diapositive 146
Un esempio: la distribuzione normale
Totale diapositive 146
Le misure di Forma
Sono indici sintetici utilizzati per evidenziare
particolarità nella forma della distribuzione.
Noi esamineremo:
• l’asimmetria
• la curtosi
Totale diapositive 146
Asimmetria
Una distribuzione è simmetrica quando la sua
curva di frequenza presenta un asse di
simmetria
In una distribuzione simmetrica media,
mediana e moda sono coincidenti.
media =
mediana =
moda
In una distribuzione
asimmetrica media,
mediana e moda non sono
più coincidenti
e proprio la differenza
(distanza) tra la media e
la moda può essere
considerata una misura
della asimmetria
Totale diapositive 146
Un altro coeff di asimmetria è il
Coeff. di asimmetria (di Fisher)
σ = scarto quadratico medio
Se a = 0 distribuzione
simmetrica
Se a > 0 asimmetria destra
Se a < 0 asimmetria sinistra
Sono state proposte diverse misure dell’ asimmetria, per
esempio le più semplici sono:
Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson
Totale diapositive 146
moda < mediana <
media
Asimmetria positiva (as. Destra)
La distribuzione è asimmetrica quando non
presenta nessun asse di simmetria.
Si ha un’asimmetria positiva o destra quando il
ramo destro della curva è più lungo di quello
sinistro
In questo caso si
ha:
media=63,65
moda = 48
mediana =58
Totale diapositive 146
media < mediana <
moda
Asimmetria negativa (as. Sinistra)
Si ha un’asimmetria negativa o sinistra quando il
ramo sinistro della curva è più lungo di quello
destro
In questo caso si
ha:
media = 85,24
moda = 100mediana = 90
Totale diapositive 146
Curtosi
Se una distribuzione è simmetrica o quasi
simmetrica allora può esser più o meno
appuntita o più o meno appiattita rispetto alla
distribuzione normale (o di Gauss)
Se la curva è
• più appuntita si dice curva Leptocurtica
• più appiattita si dice curva Platicurtica
Coeff. di curtosi di
Pearson
σ σ = scarto quadratico medio
0 ≤ K < + inf
Se K = 3 distribuzione normale
se K > 3 curva leptocurtica
Se K < 3 curva platicurtica.
Totale diapositive 146Totale diapositive 168
Curtosi
leptocurtosi
K = 8,57
platicurtosi
K = 2,8
curva normale
K = 3
Totale diapositive 146
Curtosi
Spesso il coeff. di curtosi viene indicato con b2
che, come visto, nel caso della distribuzione
normale è = 3
pertanto, talvolta, la curtosi viene indicata con
(b2 – 3)
Allora:
se la distribuzione è normale (b2 – 3 ) = 0
se la distribuzione è leptocurtica (b2 – 3 ) > 0
se la distribuzione è platicurtica (b2 – 3 ) < 0
Totale diapositive 146
Totale diapositive 146
media=3 media=3 media=3
Misure di dispersione
Totale diapositive 146
Misure di dispersione
Sono necessari degli indicatori che sintetizzano queste
diverse situazioni.
•Campo di variazione (Range)
•deviazione standard
•varianza
Totale diapositive 146
Campo di variazione
Chiamato anche RANGE
E’ definito come la differenza tra il più grande ed il
più piccolo valore osservato.
Range = max - min
Totale diapositive 146
Deviazioni dalla media:
graficamente
= MEDIA
Totale diapositive 146
Varianza
è definita come il quadrato della
deviazione standard, cioè:
( ) 21
2
SD
n
mediax
varianza
n
i i
=
−
=
∑=
Totale diapositive 146
è definito come la radice quadrata della
somma dei quadrati delle differenze delle
osservazioni dalla loro media, cioè:
Deviazione standard
( )
n
medi
a
x
SD
n
i i∑=
−
= 1
2
Totale diapositive 146
media=3 media=3 media=3
Misure di dispersione
Totale diapositive 146
Numero di giorni di vacanza al mese
Soggetto Situazione 1 Situazione 2 Situazione 3
1 3 1 1
82 3 2 0
3 3 0 0
4 3 4 0
5 3 5 0
6 3 6 0
Media 3 3 3
Dev.std 0 2,4 7,4
Maggiore è la variabilità in un insieme di dati, più
grande è la sua deviazione standard.
Deviazione standard: esempio 1
Totale diapositive 146
coefficiente di variazione
Definizione: è definito come rapporto tra la deviazione
standard e la media.
E’ utile per confrontare la variabilità di fenomeni tra
di loro diversi per l’unità di misura in cui sono espressi
(ad esempio variabilità della statura e del peso
corporeo)
x
SD
CV =
Totale diapositive 146
Coefficiente di variazione: esempio
Altezza nella popolazione maschile A:
media= 175 cm
SD = 15 cm
Peso nella popolazione maschile A:
media= 74 Kg
SD = 10 Kg
CV_altezza= 15/175 =8,5%
CV_peso= 10/74 =13,5%
Totale diapositive 146
VARIANZA E DEVIAZIONE STANDARD
La varianza misura la variabilità e si basa sulla differenza tra ogni osservazione e
la media
Supponiamo una popolazione di N individui a cui misuriamo la temperatura T
Se la media di T è M la differenza tra I valori di T e la media sono
T1-M,T2-M,T3-M e cosi via
Se tra questi valori ci sono grandi deviazioni la variabilità attorno alla media è
grande
Se le deviazioni sono piccole le osservazioni sono distribuite vicino alla media e la
variabilità è piccola
Queste differenze sono la chiave per misurare la variabilità in modo efficiente
Il valore medio delle deviazioni non puo essere usato come misura della variabilità
poiche le differenze positive devono essere cancellate esattamente dalle
differenze negative
Totale diapositive 146
Quindi la Σ(T-M) deve essere zero e anche la media delle deviazioni deve essere
zero
Per superare il problema delle deviazioni negative che cancellano le positive
basta elevare al quadrato le deviazioni
Il valore medio dei quadrati delle deviazioni viene chiamamto varianza della
popolazione
In una popolazione di N individui ognuno associato ad un valore di temperatura T
la media della popolazione
M= Σ T / N
La varianza nella popolazione
V = Σ(T-M)2/N
In realtà la varianza non è molto usata poiché i dati per il totale della popolazione
possono non essere disponibili
In questo caso si prende dalla popolazione un campione di t osservazioni
La media m = Σt/n è la stima della M media della popolazione totale
Totale diapositive 146
In questo caso avremo
S2 = Σ (t-m) 2/(n-1)
Che ci da la stima CAMPIONARIA della varianza nella popolazione
Qui la somma dei quadrati è divisa per n-1 non solo per n
Questo perche in un campione la media di (t-m)2 sarà piu’ piccola del valore
(T-M) della popolazione tutta e quindi
Σ (t-m)2 /n
Sarà una sottostima della varianza della popolazione
Se divido per n-1 invece che per n rimuovo questo BIAS dalla stima
campionaria
Il denominatore n-1 sono i Gradi di Libertà
Questi possono essere pensati come il numero di confronti indipendenti di t
con m quindi se n-1 delle differenze t-m sono note possiamo determinare
l’ultima differenza poiché la somma di tutte le differenze deve essere zero
Totale diapositive 146
Il principale svantaggio della varianza è che l’unità di misura della varianza
equivale al quadrato dell’unità di misura delle osservazioni originarie
Per cui se le osservazioni riguardano l’altezza in cm la varianza avra come unita
di misura i cm2
Per evitare questo si usa la radice quadrata della varianza come misura della
variabilità
SD ( deviazione standard)
S = √Σ (t-m)2 / (n-1)
La deviazione standard è una misura descrittiva della variabilità
È una deviazione media delle osservazione dalla media nel senso che alcune
deviazioni saranno maggiori e altre minori
A condizione che n non sia troppo piccolo l’intervallo m+- 2s dovrebbe includere
il 95% di tutte le osservazioni del campione
Totale diapositive 146
Di solito la calcola un computer
Nel caso di un calcolo a mano basta ricordare che il numeratore puo essere
sviluppato come:
Σ (t-m)2 = Σt2 - (Σm)2 /n
Durata degenza in ospedale
y: 5 5 5 7 10 20 102; Σy= 154
y2 25, 25, 25, 49, 100, 400, 10404 Σy2 = 11028
Il numeratore della varianza è √Σ (t-m)2 = Σt2 - (Σm)2 /n= 11028-1542 /7= 7640
s2 = 7640/6= 1273,3
s= √1273,3= 35,68 giorni
Totale diapositive 146
L’intervallo m+- 2s
Sarà 22+- 71
Ovvero da -49 a 93 che esclude una sola osservazione tra le sette rilevate invece
del 5%
INTERVALLO DI NORMALITA’
L’intervallo media +-2DS che contiene circa il 95% delle osservazioni è
l’intervallo di normalità di una variabile
L’uso della parola NORMALE è infelice poichè gli individui che danno
l’informazione per la variabile non sono necessariamente normali “sani” e
allostesso modo
Una persona con valori al di fuori di questo intervallo non necessariamente è
malata
Se la distribuzione è simmetrica l'intervallo di normalità include il valore centrale
del 95% dei valori con il 47,5% dei valori inferiori a m-2DS e il 47,5% dei valori
superiori a m+2DS
Totale diapositive 146
Totale diapositive 146
Totale diapositive 146
Totale diapositive 146Totale diapositive 168
Statistica descrittiva - Grafici
Totale diapositive 146Totale diapositive 168
Istogramma
Totale diapositive 146Totale diapositive 168
Grafico a torta
Totale diapositive 146Totale diapositive 168
Grafici da evitare
Totale diapositive 146Totale diapositive 168
Grafici da evitare
Totale diapositive 146Totale diapositive 168
Grafici da evitare
Totale diapositive 146Totale diapositive 168
dove siamo arrivati?
Totale diapositive 146
Statistica inferenziale
Ovvero, come
descrivere la
popolazione partendo
da un campione
Totale diapositive 146Totale diapositive 168
Statistica inferenziale
Quando:
• Non possiamo o non vogliamo misurare
tutta la popolazione
• Vogliamo comunque descriverla
• Vogliamo avere una stima degli indici
visti fino ad ora, ma entra in gioco
l’Incertezza e quindi la probabilità:
Probabilità = 0 ... 1 = 0% …100%
Totale diapositive 146Totale diapositive 168
Principi di inferenza statistica
• La distribuzione normale
• La distribuzione campionaria
• Deviazione standard e errore standard
• Intervalli di confidenza
• Test di ipotesi (P-value)
Totale diapositive 146
Sommario
Distribuzione Normale o di Gauss:
•Rappresentazione matematica
•integrali
•valor medio
•Stima della varianza
•Somma in quadratura
Totale diapositive 146
Distribuzione Normale o di Gauss
In teoria della probabilità la
distribuzione normale, o di Gauss
(o gaussiana) dal nome del
matematico tedesco Carl Friederich
Gauss, è una distribuzione di
probabilità continua che è spesso
usata come prima approssimazione
per descrivere variabili casuali a
valori reali che tendono a
concentrarsi attorno a un singolo
valor medio. Il grafico della funzione
di densità di probabilità associata è
simmetrico e ha una forma a
campana, nota come Campana di
Gauss (o anche come curva degli
errori, curva a campana, ogiva).
Totale diapositive 146
Distribuzione Normale o di Gauss
Valore vero di una grandezza: quello a cui ci si
avvicina sempre più facendo un gran numero di
misure (vedi esempi dei dadi).
Se le misure sono soggette ad errori casuali
“piccoli” e posso trascurare gli errori sistematici,
la loro distribuzione può assumere la forma di
una campana centrata sul valore più probabile, in
altre parole da funzione di distribuzione di
probabilità che meglio approssima la mia
distribuzione di
dati può essere la funzione di Gauss:
Totale diapositive 146
Distribuzione Normale
La curva è centrata sul valore x=m ed in
corrispondenza di
esso assume il valore
La funzione è normalizzata
posso partire dalla
distribuzione
e trovare il coefficiente di
normalizzazione dalla
condizione
Totale diapositive 146
Distribuzione Normale
• Teorema del limite centrale
Le medie di campioni di dimensioni n
sufficientemente grandi estratti da una popolazione
comunque distribuita, seguono la legge di
distribuzione normale con media m e varianza σ2/n.
Da questo si deduce immediatamente l’importanza
di studiare la distribuzione normale o gaussiana
Il teorema si può utilizzare anche nel limite della
somma di un numero relativamente piccolo di
variabili, dell’ordine della decina.
Totale diapositive 146
Distribuzione Normale
• Integrali della funzione
L’integrale della funzione di Gauss non è risolvibile
matematicamente, ma attraverso metodi numerici.
La probabilità che una variabile aleatoria cada in un
intervallo centrato su m (valor medio) di larghezza
σ è data da:
Totale diapositive 146
Distribuzione Normale
• Integrali della funzione
Nel grafico si vede la probabilità che la mia variabile
aleatoria cada in un intervallo di larghezza tσ
centrato sempre sul valo medio m
Questo corrisponde ad un
• limitedi confidenza del 68,27% tσ=1,
• limitedi confidenza del 95,40% tσ=2,
• limitedi confidenza del 99,70% tσ=3 etc.
Totale diapositive 146
Distribuzione Normale
• Integrali della funzione
Ricapitolando:
Probabilità che le misure siano comprese tra
1. m – 1σ e m+ 1σ 68,27%
2. m – 2σ e m+ 2σ 95,45%
3. m –3σ e m+ 3σ 99,73%
Totale diapositive 146
Distribuzione Normale
• Distribuzione standardizzata
Eseguendo la sostituzione X=(x – m)/σ riduco alla
stessaforma tutte le distribuzioni normali, rendendo
m=0 il valor medio (distribuzione centrata nello zero)
e prendo σ come unità di misura, ovvero ho
una distribuzione con
σ=1
Gli scarti x – m diventano
scarti ridotti (x – m)/σ
e la probabilità sarà
Totale diapositive 146
Distribuzione Normale
• Media come migliore stima
La stima migliore per σ si ottiene derivando rispetto
a σ e ponendo la derivata uguale a zero, quindi
O sostituendo il valor medio al valore vero
Totale diapositive 146Totale diapositive 168
La distribuzione normale
Fonti di variazione sono presenti in ogni misurazione.
Tale variabilità non è del tutto imprevedibile: infatti
molti fenomeni seguono una distribuzione normale.
Questo modello è utile in quanto possiamo
impiegarlo conoscendo soltanto la media e la deviazione
standard
Totale diapositive 146Totale diapositive 168
50
%
50
%
Proprietà della Distribuzione
Normale
media
Totale diapositive 146Totale diapositive 168
+2SD
95
%
-2SD
2.5
%
2.5
%
Proprietà della Distribuzione
Normale
Totale diapositive 146Totale diapositive 168
-1SD +1SD
16
%
16
%
68
%
Proprietà della Distribuzione
Normale
Totale diapositive 146Totale diapositive 168
Si dimostra che:
media ± deviazione standard
comprende il 68% circa dei dati
media ± 2 deviazione standard
comprende il 95% dei dati
media ± 3 deviazione standard
comprende pressoché tutti i dati (99.7%)
Proprietà della
Distribuzione Normale
Totale diapositive 146Totale diapositive 168
Distribuzione campionaria
E’ la distribuzione di frequenza di
tutte le medie campionarie ottenute
da tutti i possibili campioni della
stessa grandezza estratti dalla
popolazione in studio
Totale diapositive 146Totale diapositive 168
Distribuzione della
media campionaria
µ
σ
Popolazione
I campioni estraibili sono infiniti, quindi infinite medie
campionarie
Totale diapositive 146Totale diapositive 168
Numerosità campionaria e
Errore di campionamento
All’aumentare della numerosità del
campione la media del campione tende
ad avvicinarsi alla media della
popolazione. Pertanto, maggiore è la
dimensione del campione, minore è
l’errore campionario insito nella stima
della media della popolazione con la
media del campione
Totale diapositive 146Totale diapositive 168
Distribuzione
campionariaesempio n=10,
200 campioni
Totale diapositive 146Totale diapositive 168
Distribuzione
campionariaesempio n=40,
200 campioni
Totale diapositive 146Totale diapositive 168
Distribuzione
campionariaesempio n=100,
200 campioni
Totale diapositive 146Totale diapositive 168
Media della
“Media campionaria”
Per campioni di qualsiasi numerosità, la
media di tutte le possibili medie
campionarie è uguale alla media della
popolazione:
Totale diapositive 146Totale diapositive 168
Errore standard della
“Media campionaria”
Per campioni di qualsiasi numerosità,
l’errore standard di tutte le possibili
medie campionarie è uguale alla
deviazione standard della popolazione
diviso la radice quadrata della numerosità
n:
Totale diapositive 146Totale diapositive 168
Variabilità di una stima
campionariadeviazione standard misura la variabilità nella
popolazione
errore standard misura la precisione di una
stima come la media campionaria
Totale diapositive 146Totale diapositive 168
Teorema del limite centrale
➢Per un campione relativamente grande, la
variabile media campionaria è
approssimativamente distribuita in modo
normale indipendentemente dalla
distribuzione della variabile sotto studio
➢L’approssimazione diventa migliore al
crescere della dimensione del campione
Totale diapositive 146Totale diapositive 168
Distribuzione campionaria e
distribuzione normale
Totale diapositive 146Totale diapositive 168
Errore standard della
“Media campionaria”
Tanto più grande è n, tanto più piccolo
è l’errore standard e quindi i valori
calcolati su tutti i possibili
campioni sono più vicini alla media µ
della popolazione
Totale diapositive 146Totale diapositive 168
E’ possibile costruire un intervallo
che, con una probabilità prefissata,
contiene la vera media nella
popolazione
Intervallo di Confidenza
della media campionaria
Totale diapositive 146Totale diapositive 168
ERRORE STANDARD (ES) e
INTERVALLI DI CONFIDENZA (IC)
➢ Serve per determinare quanto la media di un campione sia
vicina alla media della popolazione generale
➢ E’ correlato all’errore standard in quanto non è altro che
una deviazione standard riferita però alle medie campionarie e
non alle osservazioni individuali
➢ Può fornire un’idea di quanto sia variabile una singola
stima della media
Totale diapositive 146Totale diapositive 168
CALCOLO INTERVALLO DI
CONFIDENZA
Interpretazione: Intervallo di valori in cui si può essere sicuri al 95% che
cadano le medie campionarie
Intervallo di probabilità al 95%= μ ± 2ES
+2ES
95%
-2ES
2.5
%
2.5
%
μ
Totale diapositive 146Totale diapositive 168
Intervallo di Confidenza
della media campionaria
µ
Totale diapositive 146Totale diapositive 168
CALCOLO INTERVALLO DI
CONFIDENZA
Intervallo di probabilità al 95%= μ ± 2ES
Nota: In realtà μ e σ sono ignoti. Per il calcolo li sostituiamo
con x e DS
Intervallo di confidenza al 95% (IC 95%) = x ± 2ESM
Totale diapositive 146Totale diapositive 168
Intervallo di Confidenza
della media campionaria
La media campionaria è: 530
La numerosità è: 10
La variabilità è: 100
Errore standard: 100/√10 = 31.62
Limite inferiore = 530-1.96*31.62 = 468.02
Limite superiore = 530+1.96*31.62 = 591.98
Quindi l’intervallo di fiducia al 95% sarà:
468.02 ≤ μ ≤ 591.98

More Related Content

What's hot

Il Terzo Settore in Italia: prima e dopo la riforma
Il Terzo Settore in Italia: prima e dopo la riforma Il Terzo Settore in Italia: prima e dopo la riforma
Il Terzo Settore in Italia: prima e dopo la riforma CLELIA SFRAPPA
 
Epidemiologia specializzazione[1]
Epidemiologia specializzazione[1]Epidemiologia specializzazione[1]
Epidemiologia specializzazione[1]Dario
 
Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...
Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...
Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...Complexity Institute
 
Basics of probability
Basics of probabilityBasics of probability
Basics of probabilitysuncil0071
 
La classificazione dei viventi
La classificazione dei viventiLa classificazione dei viventi
La classificazione dei viventiGianni Bianciardi
 

What's hot (6)

Il Terzo Settore in Italia: prima e dopo la riforma
Il Terzo Settore in Italia: prima e dopo la riforma Il Terzo Settore in Italia: prima e dopo la riforma
Il Terzo Settore in Italia: prima e dopo la riforma
 
PRINCIPI DI EPIDEMIOLOGIA
PRINCIPI DI EPIDEMIOLOGIAPRINCIPI DI EPIDEMIOLOGIA
PRINCIPI DI EPIDEMIOLOGIA
 
Epidemiologia specializzazione[1]
Epidemiologia specializzazione[1]Epidemiologia specializzazione[1]
Epidemiologia specializzazione[1]
 
Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...
Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...
Pragmatica della comunicazione umana - Al Complexity Literacy Meeting il libr...
 
Basics of probability
Basics of probabilityBasics of probability
Basics of probability
 
La classificazione dei viventi
La classificazione dei viventiLa classificazione dei viventi
La classificazione dei viventi
 

Viewers also liked

Introduzione v
Introduzione vIntroduzione v
Introduzione vimartini
 
Exercicios de psicometria 1
Exercicios de psicometria 1Exercicios de psicometria 1
Exercicios de psicometria 1Ivana Macedo
 
C$r psicrometria2012(5 a)blogar
C$r psicrometria2012(5 a)blogarC$r psicrometria2012(5 a)blogar
C$r psicrometria2012(5 a)blogarCaetanoJoseMaria
 
C$r psicrometria2012(1)blogar
C$r psicrometria2012(1)blogarC$r psicrometria2012(1)blogar
C$r psicrometria2012(1)blogarCaetanoJoseMaria
 
07 exercícios de psicrometria
07 exercícios de psicrometria07 exercícios de psicrometria
07 exercícios de psicrometriaHebert Cavalcante
 

Viewers also liked (9)

Introduzione v
Introduzione vIntroduzione v
Introduzione v
 
Psicometria Parte I
 Psicometria Parte I Psicometria Parte I
Psicometria Parte I
 
R e la statistica
R e la statisticaR e la statistica
R e la statistica
 
Exercicios de psicometria 1
Exercicios de psicometria 1Exercicios de psicometria 1
Exercicios de psicometria 1
 
Psicometria
PsicometriaPsicometria
Psicometria
 
C$r psicrometria2012(5 a)blogar
C$r psicrometria2012(5 a)blogarC$r psicrometria2012(5 a)blogar
C$r psicrometria2012(5 a)blogar
 
C$r psicrometria2012(1)blogar
C$r psicrometria2012(1)blogarC$r psicrometria2012(1)blogar
C$r psicrometria2012(1)blogar
 
07 exercícios de psicrometria
07 exercícios de psicrometria07 exercícios de psicrometria
07 exercícios de psicrometria
 
Psicometria Parte II
Psicometria Parte II Psicometria Parte II
Psicometria Parte II
 

Similar to 02statistica 146 sino_intervallo_confidenza

Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misureDario
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control chartsLuca Vecchiato
 
Santoro - Principi di statistica medica
Santoro - Principi di statistica medicaSantoro - Principi di statistica medica
Santoro - Principi di statistica medicaEugenio Santoro
 
03statistica errore standard_56
03statistica errore standard_5603statistica errore standard_56
03statistica errore standard_56Angelo Barbato
 
Questionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammiQuestionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammiDario
 
Indagine statistica e presentazione su LIM
Indagine statistica e presentazione su LIMIndagine statistica e presentazione su LIM
Indagine statistica e presentazione su LIMisisstrianoterzigno
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1ESmargiassi
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativagiosiele
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoRiccardo Narizzano
 
Project - Data analysis
Project - Data analysisProject - Data analysis
Project - Data analysisMarco Cucco
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...Istituto nazionale di statistica
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilitàVispo Srl
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarieVispo Srl
 
I metodi quantitativi
I metodi quantitativiI metodi quantitativi
I metodi quantitativiVispo Srl
 

Similar to 02statistica 146 sino_intervallo_confidenza (20)

8 Statistica
8 Statistica8 Statistica
8 Statistica
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misure
 
5 Control Charts
5 Control Charts5 Control Charts
5 Control Charts
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
 
Santoro - Principi di statistica medica
Santoro - Principi di statistica medicaSantoro - Principi di statistica medica
Santoro - Principi di statistica medica
 
03statistica errore standard_56
03statistica errore standard_5603statistica errore standard_56
03statistica errore standard_56
 
Cenni di statistica descrittiva univariata
Cenni di statistica descrittiva univariataCenni di statistica descrittiva univariata
Cenni di statistica descrittiva univariata
 
0 introduzione
0 introduzione0 introduzione
0 introduzione
 
Questionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammiQuestionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammi
 
Indagine statistica e presentazione su LIM
Indagine statistica e presentazione su LIMIndagine statistica e presentazione su LIM
Indagine statistica e presentazione su LIM
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativa
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del gioco
 
Project - Data analysis
Project - Data analysisProject - Data analysis
Project - Data analysis
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
 
Silvia Romano
Silvia RomanoSilvia Romano
Silvia Romano
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarie
 
Lastatistica
LastatisticaLastatistica
Lastatistica
 
I metodi quantitativi
I metodi quantitativiI metodi quantitativi
I metodi quantitativi
 

More from Angelo Barbato

Outpatient riabilitazione
Outpatient riabilitazioneOutpatient riabilitazione
Outpatient riabilitazioneAngelo Barbato
 
007 italian health_data_management_59
007 italian health_data_management_59007 italian health_data_management_59
007 italian health_data_management_59Angelo Barbato
 
Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42Angelo Barbato
 
Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17Angelo Barbato
 
Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53Angelo Barbato
 
Medlav02 legislazione 49
Medlav02 legislazione 49Medlav02 legislazione 49
Medlav02 legislazione 49Angelo Barbato
 
Medlav01 introduzione 26
Medlav01 introduzione 26Medlav01 introduzione 26
Medlav01 introduzione 26Angelo Barbato
 
04 studi epidemiologici_62
04 studi epidemiologici_6204 studi epidemiologici_62
04 studi epidemiologici_62Angelo Barbato
 
01 statistica programma 2013
01 statistica programma 201301 statistica programma 2013
01 statistica programma 2013Angelo Barbato
 
05lezione metanalisi 28
05lezione metanalisi 2805lezione metanalisi 28
05lezione metanalisi 28Angelo Barbato
 
06lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 4006lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 40Angelo Barbato
 
Il Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato CronicoIl Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato CronicoAngelo Barbato
 
Mancato accesso credito
Mancato accesso creditoMancato accesso credito
Mancato accesso creditoAngelo Barbato
 

More from Angelo Barbato (17)

Territory health care
Territory health careTerritory health care
Territory health care
 
Outpatient riabilitazione
Outpatient riabilitazioneOutpatient riabilitazione
Outpatient riabilitazione
 
20151023 zero disease
20151023 zero disease20151023 zero disease
20151023 zero disease
 
007 italian health_data_management_59
007 italian health_data_management_59007 italian health_data_management_59
007 italian health_data_management_59
 
Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42Medlav07 ergonomia e_lavoro_42
Medlav07 ergonomia e_lavoro_42
 
Medlav06 dlgs 230 95
Medlav06 dlgs 230 95Medlav06 dlgs 230 95
Medlav06 dlgs 230 95
 
Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17Medlav04 dlgs2009 106_17
Medlav04 dlgs2009 106_17
 
Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53Medlav03 dlgs 2008_81_53
Medlav03 dlgs 2008_81_53
 
Medlav02 legislazione 49
Medlav02 legislazione 49Medlav02 legislazione 49
Medlav02 legislazione 49
 
Medlav01 introduzione 26
Medlav01 introduzione 26Medlav01 introduzione 26
Medlav01 introduzione 26
 
Medlav05 rischi 99
Medlav05 rischi 99Medlav05 rischi 99
Medlav05 rischi 99
 
04 studi epidemiologici_62
04 studi epidemiologici_6204 studi epidemiologici_62
04 studi epidemiologici_62
 
01 statistica programma 2013
01 statistica programma 201301 statistica programma 2013
01 statistica programma 2013
 
05lezione metanalisi 28
05lezione metanalisi 2805lezione metanalisi 28
05lezione metanalisi 28
 
06lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 4006lezione farmacoepidemiologia 40
06lezione farmacoepidemiologia 40
 
Il Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato CronicoIl Malato Acuto ed il Malato Cronico
Il Malato Acuto ed il Malato Cronico
 
Mancato accesso credito
Mancato accesso creditoMancato accesso credito
Mancato accesso credito
 

02statistica 146 sino_intervallo_confidenza

  • 1. Totale diapositive 146 1. Indroduzione alla statistica 1.1 Definizione di statistica La statistica è un insieme di metodi e tecniche, basate sulla matematica e la probabilità che permettono di: •osservare i fenomeni • descriverne le caratteristiche in termini quantitativi e sintetici •generare ipotesi esplicative •verificare tali ipotesi •valutare relazioni ed associazioni
  • 3. Totale diapositive 146 Quando entra in gioco la probabilità? Conosco tutto Conosco parte (campione) ! Certezza Incertezza ?
  • 5. Totale diapositive 146 Il concetto di misura “Misura ciò che è misurabile,e rendi misurabile ciò che non lo è” Galileo Galilei
  • 6. Totale diapositive 146 Il concetto di misura Misura Indicazione quantitativa di una grandezza in relazione a una opportuna unità di misura. Ogni misurazione comporta un confronto con un riferimento noto. La misura non può dare un risultato esatto: Qualsiasi misura è sempre caratterizzata da una approssimazione.
  • 8. Totale diapositive 146 Il concetto di misura le cifre significative Quando si devono considerare le approssimazioni, il numero di cifre riportate è importante e anche gli zeri diventano significativi! Ad esempio, consideriamo due misure della stessa lunghezza x: x = 3 m e x = 3.00 m Il dato è lo stesso, ma il metadato è diverso: il primo dato contiene un’incertezza di un metro, mentre nel secondo l’incertezza è di un centimetro!
  • 9. Totale diapositive 146 1.2 Dati La scelta del metodo di analisi statistica dipende dal tipo di dati Ad. es. ha senso fare la media della variabile stato civile?
  • 10. Totale diapositive 146 VARIABILI QUALITATIVE ORDINALI E NOMINALI • Una variabile si dice qualitativa se è un attributo non misurabile. Ad esempio: il genere (maschio o femmina) , il colore degli occhi, il livello di scolarità, etc. – Un carattere qualitativo ordinale assume valori che posseggono naturalmente un ordine ovvero che possono essere disposti lungo una scala (gli attributi "pessimo", "cattivo", "mediocre", "buono" e "ottimo"). – Un carattere qualitativo nominale assume valori che non posseggono alcun ordine naturale (le malattie o i giorni della settimana). • Un carattere quantitativo esprime una quantità, ovvero dei valori numerici (l'altezza o il numero di figli). – Discreto se può assumere solo alcuni dei valori compresi in un intervallo (il numero di figli o gli anni di età). – Continuo se può assumere tutti i valori contenuti in un determinato intervallo (ad esempio, il peso). – Binomiale se ha due sole possibilità. VARIABILI QUANTITATIVE CONTINUE DISCRETE BINOMIALI CONTINUE DISCRETE BINOMIALI
  • 11. Totale diapositive 146 DATI: classificazione Categorici/qualitativi o numerici Categorici (due categorie, variabili dicotomiche) Maschio/femmina Coniugato/single Fumatore/non fumatore Diabetico/non diabetico Categorici (più di due categorie) Non fumatori/ex-fumatori/fumatori (<20) / fumatori (>20) Coniugato/single/divorziato/separato/vedovo
  • 12. Totale diapositive 146 I dati numerici (quantitativi) possono essere: Dati discreti o dati di tipo continuo Dati discretiQuando le osservazioni possono assumere solo alcuni valori numerici: Numero delle visite di un paziente in un anno Numero di figli Dati continuiDi solito sono ottenuti tramite un metodo di misurazione Altezza/peso/età/pressione Numero di cellule linfocitarie CD4+
  • 13. Totale diapositive 146 Come organizzo le mie informazioni per renderle più facilmente leggibili ed analizzabili? Griglia rettangolare righe: unità di osservazione colonne: caratteristiche osservate su ciascuna unità LA BASE (MATRICE) DEI DATI
  • 14. Totale diapositive 146 Unità 1 2 3 . . . n caratteristiche/variabil isesso età istruz. peso occup. •Progettazione dell’inserimento dati •Codifica dei dati non numerici Stato civile n. figli M 2 5 diplom a 7 0 cuoco coniugat o 1 La base dei dati
  • 15. Totale diapositive 146 LA MATRICE DELLE INFORMAZIONI E DEI DATI Ogni riga contiene le informazioni di ogni unità di osservazione RECORD Ogni colonna contiene le informazioni relative a caratteristiche costanti dell’analisi Di ogni osservazione CAMPI DELLE VARIABILI V A R I A B I L I Soggetto Sesso Età Stato Civile Professione 1 Maschio 34 Celibe Impiegato 2 Maschio 32 Celibe Insegnante 3 Femmina 45 Sposata Operaia 4 Maschio 31 Sposato Agricoltore 5 Femmina 29 Separata Impiegato 6 Maschio 27 Celibe Impiegato RECORD
  • 16. Totale diapositive 146 I D SESS O ETA ' PESO BM I1 M 5 5 … . … .2 F 5 4 … . … .3 F 5 2 … . … .4 M 3 3 … . … .5 M 3 4 … . … .6 M 4 5 … . … .7 F 4 2 … . … .8 M 6 7 … . … .9 M 3 3 … . … .1 0 F 1 3 … . … .1 1 F 2 3 … . … .1 2 F 2 5 … . … .1 3 F 4 5 … . … .1 4 F 6 5 … . … .1 5 M 4 3 … . … .1 6 F 4 3 … . … .1 7 F 2 3 … . … .1 8 F 1 2 … . … .1 9 M 3 4 … . … .2 0 F 6 5 … . … .2 1 M 4 5 … . … .2 2 M 3 4 … . … .2 3 M 3 4 … . … . 1.3 Distribuzione di frequenza Quanti sono i maschi nel gruppo di individui che sto esaminando? Come si distribuisce il BMI (Body Mass Index) nella popolazione che sto esaminando? Devo estrarre dalla mia matrice dei dati LA DISTRIBUZIONE DI FREQUENZA delle variabili che mi interessano
  • 17. Totale diapositive 146 Distribuzione di frequenza del sesso in una popolazione di 185 pazienti con AIDS diagnosticati tra Ottobre 1996 –30 Aprile 1997 nel Lazio Sesso frequenza = n Maschi 135 Femmine 50 Totale 185 Lazio Sesso frequenza = n Maschi 250 Femmine 118 Totale 368 Toscana Frequenza relativa (%) 73 27 10 0 Frequenza relativa (%) 68 32 10 0 Distribuzione di frequenza
  • 18. Totale diapositive 146 Frequenza semplice (n): numero di volte in cui i valori di una specifica variabile sono stati osservati (= 135 maschi) Frequenza relativa o percentuale: = f (135/185) * 100 = n N * 100 = f % n N frequenza percentuale di maschi nella popolazione di pazienti con AIDS Lazio Distribuzione di frequenza
  • 19. Totale diapositive 146 Distribuzione per classi di età delle donne ricoverate per intervento chirurgico sulla mammella nel 1997 nel Lazio ✓Distribuzione di frequenza cumulata: somma delle frequenze relative all’aumentare dei valori della variabile età in classi Frequenz a % % valid a % cumulat a <40 2 0,05 0,05 0,05 40-49 1068 27,50 27,57 27,62 50-69 1813 46,69 46,80 74,42 70-79 990 25,50 25,55 99,97 >=79 1 0,03 0,03 100,00 Totale casi validi 3874 99,8 100,0 Mancante di sistem a 9 0,2 Total e 3883 100,0
  • 20. Totale diapositive 146 MISURE DI - TENDENZA CENTRALE - DI DISPERSIONE MISURE TENDENZA CENTRALE MISURE DISPERSIONE Inrorno a quali valori i dati si concentrano Quanto i dati differiscono tra loro
  • 21. Totale diapositive 146 1.4 Statistica descrittiva: misure di tendenza centrale
  • 22. Totale diapositive 146 Misure di -tendenza centrale - di dispersione A cosa servono? Sintetizzare Descrivere
  • 23. Totale diapositive 146 Misure di tendenza centrale La prima condizione che vincola la scelta del tipo di misura è rappresentato dal tipo di variabile in cui è espresso il carattere rilevato. moda media mediana
  • 24. Totale diapositive 146 moda Definizione: è la modalità che presenta la frequenza assoluta più alta. E’ in pratica il valore osservato più comunemente. La moda può essere calcolata per qualsiasi tipo di dati.
  • 25. Totale diapositive 146 moda: esempio 1 Numero di figliper famiglia Frequenz adi famiglie Frequenz acumulat a 0 50 50 1 120 17 02 200 37 03 40 41 04 20 43 05- 7 5 43 5
  • 26. Totale diapositive 146 mediana • Definizione: è il valore che, in una serie ordinata di modalità, occupa il posto centrale, cioè ripartisce le osservazioni in due gruppi di uguale numerosità; il 50% delle osservazioni è inferiore alla mediana, il 50% superiore. • Può essere calcolata per variabili le cui modalità possano essere ordinabili.
  • 27. Totale diapositive 146 mediana • Se si dispongono le osservazioni in ordine crescente o decrescente, l’osservazione di mezzo è la mediana. Se il numero delle osservazioni, n, è dispari vi sarà un unico valore di mediana : • se n è pari, non esiste una osservazione centrale e la mediana si definisce per convenzione come la media delle due osservazioni centrali: 5, 15, 20, 25, 45, 60, 89, la mediana è 25. 5, 15, 20, 25, 45, 60, 70, 89 la mediana è (25+45)/2=35.
  • 28. Totale diapositive 146 mediana: esempio 1 L’osservazione centrale è data da (435+1)/2=218 che appartiene alla modalità ‘numero di figli’=2. Quindi la mediana è 2. Numero di figliper famiglia Frequenz adi famiglie Frequenz acumulat a 0 50 50 1 120 17 02 200 37 03 40 41 04 20 43 05- 7 5 43 5 11, 539, 185, 194, 398, 9100, 0 Frequenza % cumulat a
  • 29. Totale diapositive 146 Frequenze cumulative, mediana e centili Questo tracciato è utile per determinare graficamente i centili (o percentili) di una distribuzione.
  • 30. Totale diapositive 146 Per PERCENTILE o CENTILE si intende il livello di misura al di sotto del quale cade una determinata percentuale della distribuzione Nell'esempio, il 25° percentile corrisponde a 58.8 cm circa, il 50° a poco meno di 61 cm ed il 75° a 63.3 cm circa. Ciò significa che il 25% dei nostri bracchi era più basso di 58.8 cm, il 50% era più basso di 61 cm ecc. Per esempio, il 90% dei bracchi è più basso di 65 cm, e quindi un cane alto 65 cm cadrà nel "90esimo percentile". Il 25° percentile è detto anche "primo quartile" in quanto raccoglie il primo quarto della popolazione; analogamente, il 75° percentile è detto anche "terzo quartile". Il 50° percentile, detto anche mediana, è un indice di tendenza centrale fra i più importanti, e la sua applicazione pratica verrà accennata in seguito. Se i dati sono ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti, tenendo presente che la mediana è quel valore che lascia alla sua sinistra e alla sua destra un numero uguale di unità, allora: n+1/2
  • 31. Totale diapositive 146 Definizione: è la somma dei valori osservati divisa per il numero delle osservazioni • per tabelle di dati media aritmetica soggetti numero di esami 1 3 2 4 3 6 4 2 5 1 6 2 Il numero medio di esami è dato da: 3+4+6+2+1+2 = 3 6
  • 32. Totale diapositive 146 media aritmetica -Per tabelle di frequenza Il numero medio di figli è dato da: Numero di figli per famiglia Frequenza di famiglie 0 50 1 120 2 200 3 40 4 20 5-7 5 81 435 780 435 1201500 , .... . media == ++×+× =
  • 33. Totale diapositive 146 Scegliere la statistica descrittiva appropriata La scelta dipende dalla distribuzione dei dati • Gruppo a: 11,12,13,13,14,15; media=13 • Gruppo b: 11,12,13,13,14,25; media=17 mediana=13 La media è condizionata dagli estremi
  • 34. Totale diapositive 146 MEDIA Si calcola sommando tutti i valori della osservazione e dividendo per il numero dei valori Facile da calcolare e si utilizza quando non abbiamo grossa dispersione dei dati degenze in ospedale per una certa patologia 5;5;5;7;10;20;102 sono i giorni Media = 154/7= 22 Il risultato è atipico poiche le degenze di 22 giorni si verificano molto raramente In questo caso è piu informativa la mediana (quadro piu reale) MEDIANA Corrisponde al valore centrale quando i valori sono ordinati in modo crescente ½ (n+1)esima della serie ordinata Se n è pari non esiste un valore centrale e la mediana è la media aritmetica dei due valori centrali
  • 35. Totale diapositive 146 Abbiamo 7 osservazioni mediana ½ (n+1)= ½ 7+1= 4 La mediana sarà la quarta osservazione ovvero 7 (una volta ordinate in ordine crescente) MODA È il valore chi si verifica piu frequentemente (massima frequenza)
  • 36. Totale diapositive 146 La moda è utilizzata raramente come misura descrittiva In questo caso sarebbe 5 (il valore piu frequente) MEDIA PESATA È utile quando alcuni valori del set di osservazioni sono piu importanti di altri 1) Quando alcuni valori sono misurati piu precisamente di altri 2) Quando due o piu medie (o proporzioni) si uniscono insieme temperature medie giornaliere all’interno di una sala ospedaliera in diversi giorni della settimana Giorni lavorativi: 22,23,21,21,20 media 107/5=21,4°C Fine settimana 17,15 media 32 /2=16°C La media di tutte le temperature per i 7 giorni non è 21,4+16/2= 18,7°C
  • 37. Totale diapositive 146 Perchè 21,4 è basato su 5 osservazioni mentre 16 solo su 2 osservazioni Se vogliamo unire le due medie è necessario dare piu peso al valore 21,4 che al valore 16 La media per tutti e sette i giorni (5 x 21,4 + 2 x 32) /5+2= 139 / 7 = 19,8°C Questa è la media pesata perchè alla media del gruppo con piu osservazioni viene dato un peso maggiore Abbiamo 5 pesi per i giorni lavorativi e 2 per il gruppo fine settimana La formula di una media pesata è: Xw= Σ WY/ Σ W W= peso associato all’osservazione y Se i pesi sono tutti uguali a media pesata è = alla media aritmetica
  • 38. Totale diapositive 146 Riassumendo: • I dati numerici (quantitativi) possono essere sinteticamente descritti da media e mediana • La mediana è consigliabile quando la media è poco rappresentativa (presenza di dati troncati oppure presenza di “outliers”)
  • 39. Totale diapositive 146 Altre misure: i quartili il valore al di sotto del quale cade un quarto delle osservazioni ordinate si chiame quartile inferiore o primo quartile; il valore che è superato da un quarto delle osservazioni si chiama quartile superiore o terzo quartile. La distanza tra di essi è detta distanza interquartile. La mediana è definita come il secondo quartile 50% delle osservazioni 25% delle osservazioni 1° 2° =mediana 3° 25% delle osservazioni 0,23,23,24 …… …34,35,… …77,77,78,101
  • 40. Totale diapositive 146 percentili se anziché dividere i dati in 4 parti, si dividono in 100 parti, si ottengono i percentili. Ad esempio, il 5-esimo percentile è il valore al di sotto del quale cade il 5% delle osservazioni. Così il primo quartile corrisponde al 25-esimo percentile. 5% delle osservazioni 1° quartile = 25° percentile
  • 41. Totale diapositive 146 PERCENTILI Se la distribuzione cumulativa delle frequenze relative è calcolata per una variabile y ➢ il valore che separa l’ 1% delle osservazioni è il primo percentile ➢ il valore che divide il 2% delle osservazioni è il secondo percentile e cosi via QUARTILI Normalmente utilizziamo I valori che separano i dati in 4 gruppi di uguale grandezza ➢ 25esimo percentile chiamato 1° Quartile ➢50esimo percentile chiamato 2° Quartile ➢75esimo percentile chiamato 3° Quartile La differenza tra tra il 25esimo e il 75esimo quartile è la distanza interquartile e contiene il 50% centrale delle osservazioni Il 50esimo percentile è la mediana La rappresentazione grafica dei 5 numeri è il “ box and whisker plot” È da l’idea della grandezza totale e della variabilità La mediana è il valore che divide i dati in due metà col 50% delle osservazioni in ciascuna metà
  • 42. Totale diapositive 146 Box-plot Da Wikipedia, l'enciclopedia libera. In statistica il box-plot, detto anche box and whiskers plot (diagramma a scatola e baffi) o semplicemente boxplot, è una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite semplici indici di dispersione e di posizione. Viene rappresentato (orientato orizzontalmente o verticalmente) tramite un rettangolo diviso in due parti, da cui escono due segmenti. Il rettangolo (la "scatola") è delimitato dal primo e dal terzo quartile, q1/4 e q3/4, e diviso al suo interno dalla mediana, q1/2. I segmenti (i "baffi") sono delimitati dal minimo e dal massimo dei valori. In questo modo vengono rappresentati graficamente i quattro intervalli ugualmente popolati delimitati dai quartili.
  • 43. Totale diapositive 146 Se le due metà sono di nuovo divise in due metà per ottenere la mediana di ciascuna metà abbiamo il 25esimo e il 75esimo quartile Possiamo indicare con Ymin il valore piu piccolo e con Ymax il valore pi grande Questi 5 valori Ymin Ymax 25esimo 50esimo e 75esimo sono I numeri usati nel “ box and whisker plot” La parte della scatola a destra della mediana e il suo baffo sono piu lunghi la misura è asimmetrica a destra
  • 44. Totale diapositive 146 Percentili: box and whisker plot 25° 75° 97½° 2½°
  • 45. Totale diapositive 146 Supponiamo di avere due popolazioni con lo stesso numero di individui che vogliamo confrontare e che troviamo uguale media e uguale deviazione standard concludiamo che sono uguali ma i dati grezzi ci fanno notare come in un caso ho valori out-liers ossia vicini ai valori estremi quindi ho due differenti distribuzioni e una delle due è assimmetrica in questo caso media e SD ci danno una visione errata dello stato di cose e quindi pur potendo calcolare media e SD queste misure non mi riassumono in questo caso la distribuzione dei miei valori
  • 46. Totale diapositive 146 Un approccio alternativo è: manipolare matematicamente la distribuzione e “normalizzarla” usare la mediana ossia il valore rispetto al quale metà dei valori della popolazione risulatano superiori e l’altra inferiori inoltre per la misura della dispersine si riporta il valore che che separa il 25% inferiore della popolazione dal resto e il valore che separa il 25% superiore dal rimanente 75% calcolare i percentili è buon sistema per valutare quanto una popolazione si ad atti ad una distribuzione normale se i valori percentili non sono troppo diversi da quelli attesi sulla base di media e deviazione standard allora la distribuzione normale rappresenta bene la popolazione reale dei dati
  • 47. Totale diapositive 146 * Gli Indici di VARIABILITA’ - Campo di variazione - Scarto dalla media - Varianza - Scarto quadratico medio - Coefficiente di variazione Elementi di Statistica descrittiva
  • 48. Totale diapositive 146 Indici di Variabilità I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati
  • 49. Totale diapositive 146 Esempio In tre differenti prove di matematica 4 studenti hanno riportato le seguenti valutazioni In tutte e tre le prove la media è 6,25 ma i dati sono chiaramente distribuiti in modo diverso
  • 50. Totale diapositive 146 Diagramma di distribuzione delle tre prove
  • 51. Totale diapositive 146 • nel caso della 1a prova e 2a prova sarà opportuno fare un recupero per alcuni studenti • nel caso della 3a prova l’insegnante può ritenere che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente
  • 52. Totale diapositive 146 • Campo di variazione (Range) • Scarto medio dalla media • Varianza e scarto quadratico medio • Coefficiente di variazione In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli indici di variabilità (o dispersione) Vedremo i seguenti indici
  • 53. Totale diapositive 146 Campo variazione = x max – x min Campo di variazione E’ il più semplice degli indici di variazione: Si calcola facendo la differenza tra il dato più grande e il dato più piccolo Rappresenta l’ampiezza dell’intervallo dei dati
  • 54. Totale diapositive 146 Esempio Consideriamo le valutazioni della prima prova Xmax = 9; Xmin = 3 Range = 9 – 3 = 6
  • 55. Totale diapositive 146Totale diapositive 168 Calcoliamo il Range per tutte le tre prove Range 1a prova = 6 ⇒ dati più dispersi, risultati più eterogenei Range 3a prova = 1 ⇒ dati più concentrati, risultati più omogenei Range 2a prova = Range 1a prova = 6 Stessa Distribuzione?
  • 57. Totale diapositive 146 Osservazioni: 1. Il campo di variazione dà informazioni sulla distribuzione dei dati: • più R è piccolo più i dati sono concentrati; • più R è grande più i dati sono dispersi. 2. R è espresso nella stessa unità di misura dei dati 3. Tuttavia R tiene conto solo dei dati estremi della distribuzione e non di tutti i dati, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali Es. Range 1aprova = Range 2a prova. ma distribuzione 1a prova ≠ Distribuzione 2a prova
  • 58. Totale diapositive 146 Scarto medio dalla media aritmetica Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze Scarto medio = Distanza media dei dati dalla media
  • 59. Totale diapositive 146 Esempio Consideriamo le valutazioni della prima prova ⏐Δx1⏐ = ⏐ 3 – 6,25 ⏐ = 3,25; ⏐Δx2⏐ = ⏐ 5 – 6,25 ⏐ = 1,25; ⏐Δx3⏐ = ⏐ 8 – 6,25 ⏐ = 1,75; ⏐Δx4⏐ = ⏐ 9 – 6,25 ⏐ = 2,75; Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4
  • 60. Totale diapositive 146Totale diapositive 168 Calcoliamo lo Scarto medio per tutte le tre prove Scarto 1a prova = 2,25 ⇒ dati più dispersi, risultati più eterogenei Scarto 3a prova = 0,38 ⇒dati più concentrati, risultati più omogenei Scarto 2a pr. ≠ Scarto 1a pr.“Le Distribuzioni Differiscono”
  • 61. Totale diapositive 146 Diagramma degli scarti dalla media
  • 62. Totale diapositive 146 Osservazioni: 1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati: • più SM è piccolo più i dati sono concentrati; • più SM è grande più i dati sono dispersi. 2. SM è espresso nella stessa unità di misura dei dati 3. Non ha l'inconveniente del “Campo di variazione” In quanto SM tiene conto di tutti i dati della distribuzione
  • 63. Totale diapositive 146 Varianza e Scarto quadratico medio Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati. Varianza Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M
  • 65. Totale diapositive 146 Esempio - Varianza Consideriamo le valutazioni della prima prova (Δx1)2 = (3 – 6,25 )2 = 10,5625; (Δx2)2 = (5 – 6,25 )2 = 1,5625; (Δx3)2 = (8 – 6,25 )2 = 3,0625; (Δx4)2 = (9 – 6,25 )2 = 7,5625; σ2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4
  • 66. Totale diapositive 146 Calcoliamo la Varianza per tutte le tre prove Varianza 1aprova = 5,69 ⇒ dati più dispersi, risultati più eterogenei Varianza 3a prova = 0,19 ⇒ dati più concentrati, risultati più omogenei Varianza 2a pr. ≠ Varianza 1a pr “Le Distribuzioni Differiscono”
  • 67. Totale diapositive 146 Scarto quadratico medio o Deviazione standard È uguale alla radice quadrata della varianza
  • 68. Totale diapositive 146 Esempio - Scarto quadratico medio Riprendiamo le valutazioni della prima prova
  • 69. Totale diapositive 146 Calcoliamo lo Scarto quadratico medio per tutte le prove Scarto q. 1aprova = 2,38 ⇒ dati più dispersi, risultati più eterogenei Scarto q. 3aprova = 0,43 ⇒ dati più concentrati, risultati più omogenei Scarto q. 2a pr. ≠ Scarto q. 1a pr “Le Distribuzioni Differiscono”
  • 70. Totale diapositive 146 Osservazioni: 1. La varianza σ2 e lo scarto quadratico medio σ danno informazioni sulla distribuzione dei dati: • più σ2 e σ sono piccoli più i dati sono concentrati; • più σ2 e σ sono grandi più i dati sono dispersi. 2. Entrambi gli indici tengono conto di tutti i dati della distribuzione
  • 71. Totale diapositive 146 3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è minima 4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati 5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza
  • 72. Totale diapositive 146Totale diapositive 146 Il coefficiente di variazione CV Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale. E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).
  • 73. Totale diapositive 146 Se i valori di CV sono esterni a quelli indicati o si è in presenza di errori di rilevazione, oppure il fenomeno presenta aspetti particolari. • se CV è molto basso (2 – 3 %) bisogna sospettare l’esistenza di fattori limitanti la variabilità, • se CV è molto alto (intorno al 40% o più) è molto probabile l’esistenza di fattori che aumentano la variabilità In natura il coeff. di variazione tende a rimanere costante per ogni fenomeno: i valori normalmente variano dal 5% al 15%
  • 74. Totale diapositive 146Totale diapositive 168 Calcoliamo il Coeff. di variazione delle tre prove CV 1a prova = 38,16% ⇒ dati più dispersi, risultati più eterogenei CV 3a prova = 6,93% ⇒ dati più concentrati, risultati più omogenei CV 2a pr. ≠ CV 1a pr ⇒ “Le Distribuzioni Differiscono”
  • 75. Totale diapositive 146 Un esempio: la distribuzione normale
  • 76. Totale diapositive 146 Le misure di Forma Sono indici sintetici utilizzati per evidenziare particolarità nella forma della distribuzione. Noi esamineremo: • l’asimmetria • la curtosi
  • 77. Totale diapositive 146 Asimmetria Una distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetria In una distribuzione simmetrica media, mediana e moda sono coincidenti. media = mediana = moda In una distribuzione asimmetrica media, mediana e moda non sono più coincidenti e proprio la differenza (distanza) tra la media e la moda può essere considerata una misura della asimmetria
  • 78. Totale diapositive 146 Un altro coeff di asimmetria è il Coeff. di asimmetria (di Fisher) σ = scarto quadratico medio Se a = 0 distribuzione simmetrica Se a > 0 asimmetria destra Se a < 0 asimmetria sinistra Sono state proposte diverse misure dell’ asimmetria, per esempio le più semplici sono: Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson
  • 79. Totale diapositive 146 moda < mediana < media Asimmetria positiva (as. Destra) La distribuzione è asimmetrica quando non presenta nessun asse di simmetria. Si ha un’asimmetria positiva o destra quando il ramo destro della curva è più lungo di quello sinistro In questo caso si ha: media=63,65 moda = 48 mediana =58
  • 80. Totale diapositive 146 media < mediana < moda Asimmetria negativa (as. Sinistra) Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della curva è più lungo di quello destro In questo caso si ha: media = 85,24 moda = 100mediana = 90
  • 81. Totale diapositive 146 Curtosi Se una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss) Se la curva è • più appuntita si dice curva Leptocurtica • più appiattita si dice curva Platicurtica Coeff. di curtosi di Pearson σ σ = scarto quadratico medio 0 ≤ K < + inf Se K = 3 distribuzione normale se K > 3 curva leptocurtica Se K < 3 curva platicurtica.
  • 82. Totale diapositive 146Totale diapositive 168 Curtosi leptocurtosi K = 8,57 platicurtosi K = 2,8 curva normale K = 3
  • 83. Totale diapositive 146 Curtosi Spesso il coeff. di curtosi viene indicato con b2 che, come visto, nel caso della distribuzione normale è = 3 pertanto, talvolta, la curtosi viene indicata con (b2 – 3) Allora: se la distribuzione è normale (b2 – 3 ) = 0 se la distribuzione è leptocurtica (b2 – 3 ) > 0 se la distribuzione è platicurtica (b2 – 3 ) < 0
  • 85. Totale diapositive 146 media=3 media=3 media=3 Misure di dispersione
  • 86. Totale diapositive 146 Misure di dispersione Sono necessari degli indicatori che sintetizzano queste diverse situazioni. •Campo di variazione (Range) •deviazione standard •varianza
  • 87. Totale diapositive 146 Campo di variazione Chiamato anche RANGE E’ definito come la differenza tra il più grande ed il più piccolo valore osservato. Range = max - min
  • 88. Totale diapositive 146 Deviazioni dalla media: graficamente = MEDIA
  • 89. Totale diapositive 146 Varianza è definita come il quadrato della deviazione standard, cioè: ( ) 21 2 SD n mediax varianza n i i = − = ∑=
  • 90. Totale diapositive 146 è definito come la radice quadrata della somma dei quadrati delle differenze delle osservazioni dalla loro media, cioè: Deviazione standard ( ) n medi a x SD n i i∑= − = 1 2
  • 91. Totale diapositive 146 media=3 media=3 media=3 Misure di dispersione
  • 92. Totale diapositive 146 Numero di giorni di vacanza al mese Soggetto Situazione 1 Situazione 2 Situazione 3 1 3 1 1 82 3 2 0 3 3 0 0 4 3 4 0 5 3 5 0 6 3 6 0 Media 3 3 3 Dev.std 0 2,4 7,4 Maggiore è la variabilità in un insieme di dati, più grande è la sua deviazione standard. Deviazione standard: esempio 1
  • 93. Totale diapositive 146 coefficiente di variazione Definizione: è definito come rapporto tra la deviazione standard e la media. E’ utile per confrontare la variabilità di fenomeni tra di loro diversi per l’unità di misura in cui sono espressi (ad esempio variabilità della statura e del peso corporeo) x SD CV =
  • 94. Totale diapositive 146 Coefficiente di variazione: esempio Altezza nella popolazione maschile A: media= 175 cm SD = 15 cm Peso nella popolazione maschile A: media= 74 Kg SD = 10 Kg CV_altezza= 15/175 =8,5% CV_peso= 10/74 =13,5%
  • 95. Totale diapositive 146 VARIANZA E DEVIAZIONE STANDARD La varianza misura la variabilità e si basa sulla differenza tra ogni osservazione e la media Supponiamo una popolazione di N individui a cui misuriamo la temperatura T Se la media di T è M la differenza tra I valori di T e la media sono T1-M,T2-M,T3-M e cosi via Se tra questi valori ci sono grandi deviazioni la variabilità attorno alla media è grande Se le deviazioni sono piccole le osservazioni sono distribuite vicino alla media e la variabilità è piccola Queste differenze sono la chiave per misurare la variabilità in modo efficiente Il valore medio delle deviazioni non puo essere usato come misura della variabilità poiche le differenze positive devono essere cancellate esattamente dalle differenze negative
  • 96. Totale diapositive 146 Quindi la Σ(T-M) deve essere zero e anche la media delle deviazioni deve essere zero Per superare il problema delle deviazioni negative che cancellano le positive basta elevare al quadrato le deviazioni Il valore medio dei quadrati delle deviazioni viene chiamamto varianza della popolazione In una popolazione di N individui ognuno associato ad un valore di temperatura T la media della popolazione M= Σ T / N La varianza nella popolazione V = Σ(T-M)2/N In realtà la varianza non è molto usata poiché i dati per il totale della popolazione possono non essere disponibili In questo caso si prende dalla popolazione un campione di t osservazioni La media m = Σt/n è la stima della M media della popolazione totale
  • 97. Totale diapositive 146 In questo caso avremo S2 = Σ (t-m) 2/(n-1) Che ci da la stima CAMPIONARIA della varianza nella popolazione Qui la somma dei quadrati è divisa per n-1 non solo per n Questo perche in un campione la media di (t-m)2 sarà piu’ piccola del valore (T-M) della popolazione tutta e quindi Σ (t-m)2 /n Sarà una sottostima della varianza della popolazione Se divido per n-1 invece che per n rimuovo questo BIAS dalla stima campionaria Il denominatore n-1 sono i Gradi di Libertà Questi possono essere pensati come il numero di confronti indipendenti di t con m quindi se n-1 delle differenze t-m sono note possiamo determinare l’ultima differenza poiché la somma di tutte le differenze deve essere zero
  • 98. Totale diapositive 146 Il principale svantaggio della varianza è che l’unità di misura della varianza equivale al quadrato dell’unità di misura delle osservazioni originarie Per cui se le osservazioni riguardano l’altezza in cm la varianza avra come unita di misura i cm2 Per evitare questo si usa la radice quadrata della varianza come misura della variabilità SD ( deviazione standard) S = √Σ (t-m)2 / (n-1) La deviazione standard è una misura descrittiva della variabilità È una deviazione media delle osservazione dalla media nel senso che alcune deviazioni saranno maggiori e altre minori A condizione che n non sia troppo piccolo l’intervallo m+- 2s dovrebbe includere il 95% di tutte le osservazioni del campione
  • 99. Totale diapositive 146 Di solito la calcola un computer Nel caso di un calcolo a mano basta ricordare che il numeratore puo essere sviluppato come: Σ (t-m)2 = Σt2 - (Σm)2 /n Durata degenza in ospedale y: 5 5 5 7 10 20 102; Σy= 154 y2 25, 25, 25, 49, 100, 400, 10404 Σy2 = 11028 Il numeratore della varianza è √Σ (t-m)2 = Σt2 - (Σm)2 /n= 11028-1542 /7= 7640 s2 = 7640/6= 1273,3 s= √1273,3= 35,68 giorni
  • 100. Totale diapositive 146 L’intervallo m+- 2s Sarà 22+- 71 Ovvero da -49 a 93 che esclude una sola osservazione tra le sette rilevate invece del 5% INTERVALLO DI NORMALITA’ L’intervallo media +-2DS che contiene circa il 95% delle osservazioni è l’intervallo di normalità di una variabile L’uso della parola NORMALE è infelice poichè gli individui che danno l’informazione per la variabile non sono necessariamente normali “sani” e allostesso modo Una persona con valori al di fuori di questo intervallo non necessariamente è malata Se la distribuzione è simmetrica l'intervallo di normalità include il valore centrale del 95% dei valori con il 47,5% dei valori inferiori a m-2DS e il 47,5% dei valori superiori a m+2DS
  • 104. Totale diapositive 146Totale diapositive 168 Statistica descrittiva - Grafici
  • 105. Totale diapositive 146Totale diapositive 168 Istogramma
  • 106. Totale diapositive 146Totale diapositive 168 Grafico a torta
  • 107. Totale diapositive 146Totale diapositive 168 Grafici da evitare
  • 108. Totale diapositive 146Totale diapositive 168 Grafici da evitare
  • 109. Totale diapositive 146Totale diapositive 168 Grafici da evitare
  • 110. Totale diapositive 146Totale diapositive 168 dove siamo arrivati?
  • 111. Totale diapositive 146 Statistica inferenziale Ovvero, come descrivere la popolazione partendo da un campione
  • 112. Totale diapositive 146Totale diapositive 168 Statistica inferenziale Quando: • Non possiamo o non vogliamo misurare tutta la popolazione • Vogliamo comunque descriverla • Vogliamo avere una stima degli indici visti fino ad ora, ma entra in gioco l’Incertezza e quindi la probabilità: Probabilità = 0 ... 1 = 0% …100%
  • 113. Totale diapositive 146Totale diapositive 168 Principi di inferenza statistica • La distribuzione normale • La distribuzione campionaria • Deviazione standard e errore standard • Intervalli di confidenza • Test di ipotesi (P-value)
  • 114. Totale diapositive 146 Sommario Distribuzione Normale o di Gauss: •Rappresentazione matematica •integrali •valor medio •Stima della varianza •Somma in quadratura
  • 115. Totale diapositive 146 Distribuzione Normale o di Gauss In teoria della probabilità la distribuzione normale, o di Gauss (o gaussiana) dal nome del matematico tedesco Carl Friederich Gauss, è una distribuzione di probabilità continua che è spesso usata come prima approssimazione per descrivere variabili casuali a valori reali che tendono a concentrarsi attorno a un singolo valor medio. Il grafico della funzione di densità di probabilità associata è simmetrico e ha una forma a campana, nota come Campana di Gauss (o anche come curva degli errori, curva a campana, ogiva).
  • 116. Totale diapositive 146 Distribuzione Normale o di Gauss Valore vero di una grandezza: quello a cui ci si avvicina sempre più facendo un gran numero di misure (vedi esempi dei dadi). Se le misure sono soggette ad errori casuali “piccoli” e posso trascurare gli errori sistematici, la loro distribuzione può assumere la forma di una campana centrata sul valore più probabile, in altre parole da funzione di distribuzione di probabilità che meglio approssima la mia distribuzione di dati può essere la funzione di Gauss:
  • 117. Totale diapositive 146 Distribuzione Normale La curva è centrata sul valore x=m ed in corrispondenza di esso assume il valore La funzione è normalizzata posso partire dalla distribuzione e trovare il coefficiente di normalizzazione dalla condizione
  • 118. Totale diapositive 146 Distribuzione Normale • Teorema del limite centrale Le medie di campioni di dimensioni n sufficientemente grandi estratti da una popolazione comunque distribuita, seguono la legge di distribuzione normale con media m e varianza σ2/n. Da questo si deduce immediatamente l’importanza di studiare la distribuzione normale o gaussiana Il teorema si può utilizzare anche nel limite della somma di un numero relativamente piccolo di variabili, dell’ordine della decina.
  • 119. Totale diapositive 146 Distribuzione Normale • Integrali della funzione L’integrale della funzione di Gauss non è risolvibile matematicamente, ma attraverso metodi numerici. La probabilità che una variabile aleatoria cada in un intervallo centrato su m (valor medio) di larghezza σ è data da:
  • 120. Totale diapositive 146 Distribuzione Normale • Integrali della funzione Nel grafico si vede la probabilità che la mia variabile aleatoria cada in un intervallo di larghezza tσ centrato sempre sul valo medio m Questo corrisponde ad un • limitedi confidenza del 68,27% tσ=1, • limitedi confidenza del 95,40% tσ=2, • limitedi confidenza del 99,70% tσ=3 etc.
  • 121. Totale diapositive 146 Distribuzione Normale • Integrali della funzione Ricapitolando: Probabilità che le misure siano comprese tra 1. m – 1σ e m+ 1σ 68,27% 2. m – 2σ e m+ 2σ 95,45% 3. m –3σ e m+ 3σ 99,73%
  • 122. Totale diapositive 146 Distribuzione Normale • Distribuzione standardizzata Eseguendo la sostituzione X=(x – m)/σ riduco alla stessaforma tutte le distribuzioni normali, rendendo m=0 il valor medio (distribuzione centrata nello zero) e prendo σ come unità di misura, ovvero ho una distribuzione con σ=1 Gli scarti x – m diventano scarti ridotti (x – m)/σ e la probabilità sarà
  • 123. Totale diapositive 146 Distribuzione Normale • Media come migliore stima La stima migliore per σ si ottiene derivando rispetto a σ e ponendo la derivata uguale a zero, quindi O sostituendo il valor medio al valore vero
  • 124. Totale diapositive 146Totale diapositive 168 La distribuzione normale Fonti di variazione sono presenti in ogni misurazione. Tale variabilità non è del tutto imprevedibile: infatti molti fenomeni seguono una distribuzione normale. Questo modello è utile in quanto possiamo impiegarlo conoscendo soltanto la media e la deviazione standard
  • 125. Totale diapositive 146Totale diapositive 168 50 % 50 % Proprietà della Distribuzione Normale media
  • 126. Totale diapositive 146Totale diapositive 168 +2SD 95 % -2SD 2.5 % 2.5 % Proprietà della Distribuzione Normale
  • 127. Totale diapositive 146Totale diapositive 168 -1SD +1SD 16 % 16 % 68 % Proprietà della Distribuzione Normale
  • 128. Totale diapositive 146Totale diapositive 168 Si dimostra che: media ± deviazione standard comprende il 68% circa dei dati media ± 2 deviazione standard comprende il 95% dei dati media ± 3 deviazione standard comprende pressoché tutti i dati (99.7%) Proprietà della Distribuzione Normale
  • 129. Totale diapositive 146Totale diapositive 168 Distribuzione campionaria E’ la distribuzione di frequenza di tutte le medie campionarie ottenute da tutti i possibili campioni della stessa grandezza estratti dalla popolazione in studio
  • 130. Totale diapositive 146Totale diapositive 168 Distribuzione della media campionaria µ σ Popolazione I campioni estraibili sono infiniti, quindi infinite medie campionarie
  • 131. Totale diapositive 146Totale diapositive 168 Numerosità campionaria e Errore di campionamento All’aumentare della numerosità del campione la media del campione tende ad avvicinarsi alla media della popolazione. Pertanto, maggiore è la dimensione del campione, minore è l’errore campionario insito nella stima della media della popolazione con la media del campione
  • 132. Totale diapositive 146Totale diapositive 168 Distribuzione campionariaesempio n=10, 200 campioni
  • 133. Totale diapositive 146Totale diapositive 168 Distribuzione campionariaesempio n=40, 200 campioni
  • 134. Totale diapositive 146Totale diapositive 168 Distribuzione campionariaesempio n=100, 200 campioni
  • 135. Totale diapositive 146Totale diapositive 168 Media della “Media campionaria” Per campioni di qualsiasi numerosità, la media di tutte le possibili medie campionarie è uguale alla media della popolazione:
  • 136. Totale diapositive 146Totale diapositive 168 Errore standard della “Media campionaria” Per campioni di qualsiasi numerosità, l’errore standard di tutte le possibili medie campionarie è uguale alla deviazione standard della popolazione diviso la radice quadrata della numerosità n:
  • 137. Totale diapositive 146Totale diapositive 168 Variabilità di una stima campionariadeviazione standard misura la variabilità nella popolazione errore standard misura la precisione di una stima come la media campionaria
  • 138. Totale diapositive 146Totale diapositive 168 Teorema del limite centrale ➢Per un campione relativamente grande, la variabile media campionaria è approssimativamente distribuita in modo normale indipendentemente dalla distribuzione della variabile sotto studio ➢L’approssimazione diventa migliore al crescere della dimensione del campione
  • 139. Totale diapositive 146Totale diapositive 168 Distribuzione campionaria e distribuzione normale
  • 140. Totale diapositive 146Totale diapositive 168 Errore standard della “Media campionaria” Tanto più grande è n, tanto più piccolo è l’errore standard e quindi i valori calcolati su tutti i possibili campioni sono più vicini alla media µ della popolazione
  • 141. Totale diapositive 146Totale diapositive 168 E’ possibile costruire un intervallo che, con una probabilità prefissata, contiene la vera media nella popolazione Intervallo di Confidenza della media campionaria
  • 142. Totale diapositive 146Totale diapositive 168 ERRORE STANDARD (ES) e INTERVALLI DI CONFIDENZA (IC) ➢ Serve per determinare quanto la media di un campione sia vicina alla media della popolazione generale ➢ E’ correlato all’errore standard in quanto non è altro che una deviazione standard riferita però alle medie campionarie e non alle osservazioni individuali ➢ Può fornire un’idea di quanto sia variabile una singola stima della media
  • 143. Totale diapositive 146Totale diapositive 168 CALCOLO INTERVALLO DI CONFIDENZA Interpretazione: Intervallo di valori in cui si può essere sicuri al 95% che cadano le medie campionarie Intervallo di probabilità al 95%= μ ± 2ES +2ES 95% -2ES 2.5 % 2.5 % μ
  • 144. Totale diapositive 146Totale diapositive 168 Intervallo di Confidenza della media campionaria µ
  • 145. Totale diapositive 146Totale diapositive 168 CALCOLO INTERVALLO DI CONFIDENZA Intervallo di probabilità al 95%= μ ± 2ES Nota: In realtà μ e σ sono ignoti. Per il calcolo li sostituiamo con x e DS Intervallo di confidenza al 95% (IC 95%) = x ± 2ESM
  • 146. Totale diapositive 146Totale diapositive 168 Intervallo di Confidenza della media campionaria La media campionaria è: 530 La numerosità è: 10 La variabilità è: 100 Errore standard: 100/√10 = 31.62 Limite inferiore = 530-1.96*31.62 = 468.02 Limite superiore = 530+1.96*31.62 = 591.98 Quindi l’intervallo di fiducia al 95% sarà: 468.02 ≤ μ ≤ 591.98