1. Totale diapositive 146
1. Indroduzione alla statistica
1.1 Definizione di statistica
La statistica è un insieme di metodi e tecniche,
basate sulla matematica e la probabilità che
permettono di:
•osservare i fenomeni
• descriverne le caratteristiche in termini
quantitativi e sintetici
•generare ipotesi esplicative
•verificare tali ipotesi
•valutare relazioni ed associazioni
5. Totale diapositive 146
Il concetto di misura
“Misura ciò che è misurabile,e rendi
misurabile ciò che non lo è”
Galileo Galilei
6. Totale diapositive 146
Il concetto di misura
Misura Indicazione quantitativa di una
grandezza in relazione a una opportuna unità
di misura. Ogni misurazione comporta un
confronto con un riferimento noto.
La misura non può dare un risultato esatto:
Qualsiasi misura è sempre caratterizzata da
una approssimazione.
8. Totale diapositive 146
Il concetto di misura
le cifre significative
Quando si devono considerare le approssimazioni, il
numero di cifre riportate è importante e anche gli zeri
diventano significativi!
Ad esempio, consideriamo due misure della stessa
lunghezza x:
x = 3 m
e
x = 3.00 m
Il dato è lo stesso, ma il metadato è diverso: il primo
dato contiene un’incertezza di un metro, mentre nel
secondo l’incertezza è di un centimetro!
9. Totale diapositive 146
1.2 Dati
La scelta del metodo di analisi
statistica
dipende dal tipo di dati
Ad. es. ha senso fare la media della variabile stato civile?
10. Totale diapositive 146
VARIABILI
QUALITATIVE
ORDINALI E NOMINALI
• Una variabile si dice qualitativa se è un
attributo non misurabile.
Ad esempio: il genere (maschio o
femmina) , il colore degli occhi, il livello
di scolarità, etc.
– Un carattere qualitativo ordinale
assume valori che posseggono
naturalmente un ordine ovvero che
possono essere disposti lungo una
scala (gli attributi "pessimo",
"cattivo", "mediocre", "buono" e
"ottimo").
– Un carattere qualitativo nominale
assume valori che non posseggono
alcun ordine naturale (le malattie o i
giorni della settimana).
• Un carattere quantitativo
esprime una quantità, ovvero dei
valori numerici (l'altezza o il
numero di figli).
– Discreto se può assumere
solo alcuni dei valori
compresi in un intervallo (il
numero di figli o gli anni di
età).
– Continuo se può assumere
tutti i valori contenuti in un
determinato intervallo (ad
esempio, il peso).
– Binomiale se ha due sole
possibilità.
VARIABILI
QUANTITATIVE CONTINUE
DISCRETE
BINOMIALI
CONTINUE DISCRETE
BINOMIALI
11. Totale diapositive 146
DATI:
classificazione
Categorici/qualitativi o numerici
Categorici (due categorie, variabili
dicotomiche)
Maschio/femmina
Coniugato/single
Fumatore/non fumatore
Diabetico/non diabetico
Categorici (più di due
categorie)
Non fumatori/ex-fumatori/fumatori (<20) / fumatori (>20)
Coniugato/single/divorziato/separato/vedovo
12. Totale diapositive 146
I dati numerici (quantitativi) possono
essere: Dati discreti o dati di tipo continuo
Dati
discretiQuando le osservazioni possono assumere solo
alcuni valori numerici:
Numero delle visite di un paziente in un anno
Numero di figli
Dati
continuiDi solito sono ottenuti tramite un metodo di misurazione
Altezza/peso/età/pressione
Numero di cellule linfocitarie CD4+
13. Totale diapositive 146
Come organizzo le mie informazioni
per renderle più facilmente leggibili
ed analizzabili?
Griglia rettangolare
righe: unità di osservazione
colonne: caratteristiche osservate su ciascuna unità
LA BASE (MATRICE) DEI
DATI
15. Totale diapositive 146
LA MATRICE DELLE
INFORMAZIONI
E DEI DATI
Ogni riga contiene le informazioni
di ogni unità di osservazione
RECORD
Ogni colonna contiene
le informazioni relative
a caratteristiche
costanti dell’analisi Di
ogni osservazione
CAMPI DELLE
VARIABILI
V
A
R
I
A
B
I
L
I
Soggetto Sesso Età Stato
Civile
Professione
1 Maschio 34 Celibe Impiegato
2 Maschio 32 Celibe Insegnante
3 Femmina 45 Sposata Operaia
4 Maschio 31 Sposato Agricoltore
5 Femmina 29 Separata Impiegato
6 Maschio 27 Celibe Impiegato
RECORD
16. Totale diapositive 146
I
D
SESS
O
ETA
'
PESO BM
I1 M 5
5
…
.
…
.2 F 5
4
…
.
…
.3 F 5
2
…
.
…
.4 M 3
3
…
.
…
.5 M 3
4
…
.
…
.6 M 4
5
…
.
…
.7 F 4
2
…
.
…
.8 M 6
7
…
.
…
.9 M 3
3
…
.
…
.1
0
F 1
3
…
.
…
.1
1
F 2
3
…
.
…
.1
2
F 2
5
…
.
…
.1
3
F 4
5
…
.
…
.1
4
F 6
5
…
.
…
.1
5
M 4
3
…
.
…
.1
6
F 4
3
…
.
…
.1
7
F 2
3
…
.
…
.1
8
F 1
2
…
.
…
.1
9
M 3
4
…
.
…
.2
0
F 6
5
…
.
…
.2
1
M 4
5
…
.
…
.2
2
M 3
4
…
.
…
.2
3
M 3
4
…
.
…
.
1.3 Distribuzione di frequenza
Quanti sono i maschi nel
gruppo di individui che sto
esaminando?
Come si distribuisce il BMI
(Body Mass Index) nella
popolazione che sto
esaminando?
Devo estrarre dalla mia matrice
dei dati
LA DISTRIBUZIONE
DI FREQUENZA
delle variabili che mi interessano
17. Totale diapositive 146
Distribuzione di frequenza del sesso in una popolazione di 185 pazienti
con AIDS diagnosticati tra Ottobre 1996 –30 Aprile 1997 nel Lazio
Sesso frequenza = n
Maschi 135
Femmine 50
Totale 185
Lazio
Sesso frequenza = n
Maschi 250
Femmine 118
Totale 368
Toscana
Frequenza relativa
(%)
73
27
10
0
Frequenza relativa
(%)
68
32
10
0
Distribuzione di frequenza
18. Totale diapositive 146
Frequenza semplice (n):
numero di volte in cui i valori di una specifica variabile sono
stati osservati (= 135 maschi)
Frequenza relativa o percentuale:
= f
(135/185) * 100 =
n
N
* 100 = f %
n
N
frequenza percentuale di maschi nella
popolazione di pazienti con AIDS Lazio
Distribuzione di frequenza
19. Totale diapositive 146
Distribuzione per classi di età delle donne ricoverate per
intervento chirurgico sulla mammella nel 1997 nel Lazio
✓Distribuzione di frequenza cumulata: somma delle frequenze relative
all’aumentare dei valori della variabile
età in
classi
Frequenz
a
% %
valid
a
%
cumulat
a
<40 2 0,05 0,05 0,05
40-49 1068 27,50 27,57 27,62
50-69 1813 46,69 46,80 74,42
70-79 990 25,50 25,55 99,97
>=79 1 0,03 0,03 100,00
Totale casi
validi
3874 99,8 100,0
Mancante di
sistem
a
9 0,2
Total
e
3883 100,0
20. Totale diapositive 146
MISURE DI
- TENDENZA CENTRALE
- DI DISPERSIONE
MISURE TENDENZA CENTRALE MISURE DISPERSIONE
Inrorno a quali valori i dati si concentrano Quanto i dati differiscono tra loro
23. Totale diapositive 146
Misure di tendenza centrale
La prima condizione che vincola la scelta del
tipo di misura è rappresentato dal tipo di
variabile in cui è espresso il carattere rilevato.
moda
media
mediana
24. Totale diapositive 146
moda
Definizione: è la modalità che presenta la
frequenza assoluta più alta. E’ in pratica il
valore osservato più comunemente.
La moda può essere calcolata per
qualsiasi tipo di dati.
25. Totale diapositive 146
moda: esempio 1
Numero di
figliper
famiglia
Frequenz
adi
famiglie
Frequenz
acumulat
a
0 50 50
1 120 17
02 200 37
03 40 41
04 20 43
05-
7
5 43
5
26. Totale diapositive 146
mediana
• Definizione: è il valore che, in una serie
ordinata di modalità, occupa il posto centrale,
cioè ripartisce le osservazioni in due gruppi di
uguale numerosità; il 50% delle osservazioni
è inferiore alla mediana, il 50% superiore.
• Può essere calcolata per variabili le cui
modalità possano essere ordinabili.
27. Totale diapositive 146
mediana
• Se si dispongono le osservazioni in ordine crescente o
decrescente, l’osservazione di mezzo è la mediana. Se il numero
delle osservazioni, n, è dispari vi sarà un unico valore di
mediana :
• se n è pari, non esiste una osservazione centrale e la
mediana si definisce per convenzione come la media
delle due osservazioni centrali:
5, 15, 20, 25, 45, 60, 89,
la mediana è 25.
5, 15, 20, 25, 45, 60, 70, 89
la mediana è (25+45)/2=35.
28. Totale diapositive 146
mediana: esempio 1
L’osservazione centrale è data da (435+1)/2=218 che
appartiene alla modalità ‘numero di figli’=2. Quindi la
mediana è 2.
Numero di
figliper
famiglia
Frequenz
adi
famiglie
Frequenz
acumulat
a
0 50 50
1 120 17
02 200 37
03 40 41
04 20 43
05-
7
5 43
5
11,
539,
185,
194,
398,
9100,
0
Frequenza %
cumulat
a
29. Totale diapositive 146
Frequenze cumulative, mediana e centili
Questo tracciato è utile per determinare graficamente i centili (o percentili)
di una distribuzione.
30. Totale diapositive 146
Per PERCENTILE o CENTILE si intende il livello di misura al di sotto del
quale cade una determinata percentuale della distribuzione
Nell'esempio, il 25° percentile corrisponde a 58.8 cm circa, il 50° a poco meno di
61 cm ed il 75° a 63.3 cm circa.
Ciò significa che il 25% dei nostri bracchi era più basso di 58.8 cm, il 50% era più
basso di 61 cm ecc.
Per esempio, il 90% dei bracchi è più basso di 65 cm, e quindi un cane alto 65 cm
cadrà nel "90esimo percentile".
Il 25° percentile è detto anche "primo quartile" in quanto raccoglie il primo quarto
della popolazione; analogamente, il 75° percentile è detto anche "terzo quartile".
Il 50° percentile, detto anche mediana, è un indice di tendenza centrale fra i più
importanti, e la sua applicazione pratica verrà accennata in seguito.
Se i dati sono ordinati in senso crescente (o decrescente), calcolare la mediana è
molto facile. Infatti, tenendo presente che la mediana è quel valore che lascia alla
sua sinistra e alla sua destra un numero uguale di unità, allora:
n+1/2
31. Totale diapositive 146
Definizione: è la somma dei valori osservati
divisa per il numero delle osservazioni
• per tabelle di dati
media aritmetica
soggetti numero
di esami
1 3
2 4
3 6
4 2
5 1
6 2
Il numero medio di esami è
dato da:
3+4+6+2+1+2 = 3
6
32. Totale diapositive 146
media aritmetica
-Per tabelle di frequenza
Il numero medio di figli è dato
da:
Numero di
figli per
famiglia
Frequenza
di famiglie
0 50
1 120
2 200
3 40
4 20
5-7 5 81
435
780
435
1201500
,
....
.
media ==
++×+×
=
33. Totale diapositive 146
Scegliere la statistica descrittiva
appropriata
La scelta dipende dalla distribuzione dei
dati
• Gruppo a: 11,12,13,13,14,15; media=13
• Gruppo b: 11,12,13,13,14,25; media=17
mediana=13
La media è condizionata dagli
estremi
34. Totale diapositive 146
MEDIA
Si calcola sommando tutti i valori della osservazione e dividendo per il numero dei
valori
Facile da calcolare e si utilizza quando non abbiamo grossa dispersione dei dati
degenze in ospedale per una certa patologia
5;5;5;7;10;20;102 sono i giorni
Media = 154/7= 22
Il risultato è atipico poiche le degenze di 22 giorni si verificano molto raramente
In questo caso è piu informativa la mediana (quadro piu reale)
MEDIANA
Corrisponde al valore centrale quando i valori sono ordinati in modo crescente
½ (n+1)esima della serie ordinata
Se n è pari non esiste un valore centrale e la mediana è la media aritmetica dei
due valori centrali
35. Totale diapositive 146
Abbiamo 7 osservazioni mediana ½ (n+1)= ½ 7+1= 4
La mediana sarà la quarta osservazione ovvero 7 (una volta ordinate in
ordine crescente)
MODA
È il valore chi si verifica piu frequentemente (massima frequenza)
36. Totale diapositive 146
La moda è utilizzata raramente come misura descrittiva
In questo caso sarebbe 5 (il valore piu frequente)
MEDIA PESATA
È utile quando alcuni valori del set di osservazioni sono piu importanti di altri
1) Quando alcuni valori sono misurati piu precisamente di altri
2) Quando due o piu medie (o proporzioni) si uniscono insieme
temperature medie giornaliere all’interno di una sala ospedaliera in diversi giorni
della settimana
Giorni lavorativi: 22,23,21,21,20 media 107/5=21,4°C
Fine settimana 17,15 media 32 /2=16°C
La media di tutte le temperature per i 7 giorni non è 21,4+16/2= 18,7°C
37. Totale diapositive 146
Perchè 21,4 è basato su 5 osservazioni mentre 16 solo su 2 osservazioni
Se vogliamo unire le due medie è necessario dare piu peso al valore 21,4 che
al valore 16
La media per tutti e sette i giorni
(5 x 21,4 + 2 x 32) /5+2= 139 / 7 = 19,8°C
Questa è la media pesata perchè alla media del gruppo con piu osservazioni
viene dato un peso maggiore
Abbiamo 5 pesi per i giorni lavorativi e 2 per il gruppo fine settimana
La formula di una media pesata è:
Xw= Σ WY/ Σ W
W= peso associato all’osservazione y
Se i pesi sono tutti uguali a media pesata è = alla media aritmetica
38. Totale diapositive 146
Riassumendo:
• I dati numerici (quantitativi) possono
essere sinteticamente descritti da
media e mediana
• La mediana è consigliabile quando la
media è poco rappresentativa
(presenza di dati troncati oppure presenza
di “outliers”)
39. Totale diapositive 146
Altre misure: i quartili
il valore al di sotto del quale cade un quarto delle
osservazioni ordinate si chiame quartile inferiore o
primo quartile; il valore che è superato da un quarto delle
osservazioni si chiama quartile superiore o terzo quartile. La
distanza tra di essi è detta distanza interquartile. La
mediana è definita come il secondo quartile
50% delle osservazioni
25% delle osservazioni
1° 2° =mediana
3°
25% delle osservazioni
0,23,23,24 …… …34,35,… …77,77,78,101
40. Totale diapositive 146
percentili
se anziché dividere i dati in 4 parti, si dividono in
100 parti, si ottengono i percentili. Ad esempio, il
5-esimo percentile è il valore al di sotto del quale
cade il 5% delle osservazioni. Così il primo quartile
corrisponde al 25-esimo percentile.
5% delle
osservazioni
1° quartile = 25° percentile
41. Totale diapositive 146
PERCENTILI
Se la distribuzione cumulativa delle frequenze relative è calcolata per una variabile y
➢ il valore che separa l’ 1% delle osservazioni è il primo percentile
➢ il valore che divide il 2% delle osservazioni è il secondo percentile e cosi via
QUARTILI
Normalmente utilizziamo I valori che separano i dati in 4 gruppi di uguale grandezza
➢ 25esimo percentile chiamato 1° Quartile
➢50esimo percentile chiamato 2° Quartile
➢75esimo percentile chiamato 3° Quartile
La differenza tra tra il 25esimo e il 75esimo quartile è la distanza interquartile e
contiene il 50% centrale delle osservazioni
Il 50esimo percentile è la mediana
La rappresentazione grafica dei 5 numeri è il “ box and whisker plot”
È da l’idea della grandezza totale e della variabilità
La mediana è il valore che divide i dati in due metà col 50% delle osservazioni in
ciascuna metà
42. Totale diapositive 146
Box-plot
Da Wikipedia, l'enciclopedia libera.
In statistica il box-plot, detto anche box and
whiskers plot (diagramma a scatola e baffi)
o semplicemente boxplot, è una
rappresentazione grafica utilizzata per
descrivere la distribuzione di un campione
tramite semplici indici di dispersione e di
posizione.
Viene rappresentato (orientato
orizzontalmente o verticalmente) tramite un
rettangolo diviso in due parti, da cui escono
due segmenti. Il rettangolo (la "scatola") è
delimitato dal primo e dal terzo quartile, q1/4
e q3/4, e diviso al suo interno dalla mediana,
q1/2. I segmenti (i "baffi") sono delimitati dal
minimo e dal massimo dei valori.
In questo modo vengono rappresentati
graficamente i quattro intervalli ugualmente
popolati delimitati dai quartili.
43. Totale diapositive 146
Se le due metà sono di nuovo divise in due metà per ottenere la mediana di
ciascuna metà abbiamo il 25esimo e il 75esimo quartile
Possiamo indicare con Ymin il valore piu piccolo e con Ymax il valore pi
grande
Questi 5 valori Ymin Ymax 25esimo 50esimo e 75esimo sono I numeri usati
nel “ box and whisker plot”
La parte della scatola a destra della mediana e il suo baffo sono piu lunghi la
misura è asimmetrica a destra
45. Totale diapositive 146
Supponiamo di avere due popolazioni con lo stesso numero di
individui che vogliamo confrontare e che troviamo uguale media e
uguale deviazione standard concludiamo che sono uguali
ma i dati grezzi ci fanno notare come in un caso ho valori out-liers
ossia vicini ai valori estremi
quindi ho due differenti distribuzioni e una delle due è assimmetrica in
questo caso media e SD ci danno una visione errata dello stato di cose
e quindi pur potendo calcolare media e SD queste misure non mi
riassumono in questo caso la distribuzione dei miei valori
46. Totale diapositive 146
Un approccio alternativo è:
manipolare matematicamente la distribuzione e “normalizzarla”
usare la mediana ossia il valore rispetto al quale metà dei valori
della popolazione risulatano superiori e l’altra inferiori
inoltre per la misura della dispersine si riporta il valore che che
separa il 25% inferiore della popolazione dal resto e il valore che
separa il 25% superiore dal rimanente 75%
calcolare i percentili è buon sistema per valutare quanto una
popolazione si ad atti ad una distribuzione normale
se i valori percentili non sono troppo diversi da quelli attesi sulla
base di media e deviazione standard allora la distribuzione normale
rappresenta bene la popolazione reale dei dati
47. Totale diapositive 146 *
Gli Indici di VARIABILITA’
- Campo di variazione
- Scarto dalla media
- Varianza
- Scarto quadratico medio
- Coefficiente di variazione
Elementi di Statistica descrittiva
48. Totale diapositive 146
Indici di Variabilità
I valori medi sono indici importanti per la
descrizione sintetica di un fenomeno
statistico
Hanno però il limite di non darci alcuna
informazione sulla distribuzione dei
dati
49. Totale diapositive 146
Esempio
In tre differenti prove di matematica 4 studenti
hanno riportato le seguenti valutazioni
In tutte e tre le prove la media è 6,25
ma i dati sono chiaramente distribuiti in modo
diverso
51. Totale diapositive 146
• nel caso della 1a prova e 2a prova sarà
opportuno fare un recupero per alcuni
studenti
• nel caso della 3a prova l’insegnante può
ritenere che gli obiettivi siano stati raggiunti
dalla classe, anche se ad un livello solo
sufficiente
52. Totale diapositive 146
• Campo di variazione (Range)
• Scarto medio dalla media
• Varianza e scarto quadratico medio
• Coefficiente di variazione
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
53. Totale diapositive 146
Campo variazione = x max – x min
Campo di variazione
E’ il più semplice degli indici di variazione:
Si calcola facendo la differenza tra il dato
più grande e il dato più piccolo
Rappresenta l’ampiezza dell’intervallo dei
dati
55. Totale diapositive 146Totale diapositive 168
Calcoliamo il Range per tutte le tre prove
Range 1a prova = 6 ⇒ dati più dispersi,
risultati più eterogenei
Range 3a prova = 1 ⇒ dati più concentrati,
risultati più omogenei
Range 2a prova = Range 1a prova = 6
Stessa Distribuzione?
57. Totale diapositive 146
Osservazioni:
1. Il campo di variazione dà informazioni sulla
distribuzione dei dati:
• più R è piccolo più i dati sono concentrati;
• più R è grande più i dati sono dispersi.
2. R è espresso nella stessa unità di misura dei dati
3. Tuttavia R tiene conto solo dei dati estremi della
distribuzione e non di tutti i dati, pertanto
distribuzioni diverse ma con gli stessi valori
estremi hanno range uguali
Es. Range 1aprova = Range 2a prova.
ma distribuzione 1a prova ≠ Distribuzione 2a prova
58. Totale diapositive 146
Scarto medio dalla media aritmetica
Un altro modo per calcolare la variabilità dei
dati (tenendo conto di tutti i dati) consiste
nel calcolare la distanza di tutti i dati
dalla media e fare la media aritmetica di
tali distanze
Scarto medio = Distanza media dei dati dalla
media
59. Totale diapositive 146
Esempio
Consideriamo le valutazioni della prima prova
⏐Δx1⏐ = ⏐ 3 – 6,25 ⏐ = 3,25; ⏐Δx2⏐ = ⏐ 5 – 6,25 ⏐ = 1,25;
⏐Δx3⏐ = ⏐ 8 – 6,25 ⏐ = 1,75; ⏐Δx4⏐ = ⏐ 9 – 6,25 ⏐ = 2,75;
Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25
4
60. Totale diapositive 146Totale diapositive 168
Calcoliamo lo Scarto medio per tutte le tre prove
Scarto 1a prova = 2,25 ⇒ dati più dispersi,
risultati più eterogenei
Scarto 3a prova = 0,38 ⇒dati più concentrati,
risultati più omogenei
Scarto 2a pr. ≠ Scarto 1a pr.“Le Distribuzioni Differiscono”
62. Totale diapositive 146
Osservazioni:
1. Lo scarto medio dalla media dà informazioni sulla
distribuzione dei dati:
• più SM è piccolo più i dati sono concentrati;
• più SM è grande più i dati sono dispersi.
2. SM è espresso nella stessa unità di misura dei
dati
3. Non ha l'inconveniente del “Campo di variazione”
In quanto SM tiene conto di tutti i dati della
distribuzione
63. Totale diapositive 146
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e
tengono conto della distribuzione di tutti i
dati.
Varianza
Rappresenta la media aritmetica dei
quadrati delle distanze dei dati dalla media
M
66. Totale diapositive 146
Calcoliamo la Varianza per tutte le tre prove
Varianza 1aprova = 5,69 ⇒ dati più dispersi,
risultati più eterogenei
Varianza 3a prova = 0,19 ⇒ dati più concentrati,
risultati più omogenei
Varianza 2a pr. ≠ Varianza 1a pr “Le Distribuzioni
Differiscono”
69. Totale diapositive 146
Calcoliamo lo Scarto quadratico medio per tutte le
prove
Scarto q. 1aprova = 2,38 ⇒ dati più dispersi,
risultati più eterogenei
Scarto q. 3aprova = 0,43 ⇒ dati più concentrati,
risultati più omogenei
Scarto q. 2a pr. ≠ Scarto q. 1a pr “Le Distribuzioni
Differiscono”
70. Totale diapositive 146
Osservazioni:
1. La varianza σ2 e lo scarto quadratico medio σ
danno
informazioni sulla distribuzione dei dati:
• più σ2 e σ sono piccoli più i dati sono concentrati;
• più σ2 e σ sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della
distribuzione
71. Totale diapositive 146
3. Entrambi si basano sulla proprietà della media per
cui
la somma dei quadrati degli scarti dalla media è
minima
4. La varianza è espressa mediante il quadrato
dell’unità
di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura
dei
dati e pertanto viene preferito alla varianza
72. Totale diapositive 146Totale diapositive 146
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le
precedenti sono misure assolute) ed è una
grandezza adimensionale.
E’ particolarmente utile quando si devono
confrontare le distribuzioni di due gruppi con medie
molto diverse o con dati espressi in scale differenti
(es. confronto tra variazione del peso e variazione
dell’altezza).
73. Totale diapositive 146
Se i valori di CV sono esterni a quelli indicati o si è in
presenza di errori di rilevazione, oppure il fenomeno
presenta aspetti particolari.
• se CV è molto basso (2 – 3 %) bisogna
sospettare l’esistenza di fattori limitanti la variabilità,
• se CV è molto alto (intorno al 40% o più) è molto
probabile l’esistenza di fattori che aumentano la
variabilità
In natura il coeff. di variazione tende a rimanere costante
per ogni fenomeno:
i valori normalmente variano dal 5% al 15%
74. Totale diapositive 146Totale diapositive 168
Calcoliamo il Coeff. di variazione delle tre prove
CV 1a prova = 38,16% ⇒ dati più dispersi,
risultati più eterogenei
CV 3a prova = 6,93% ⇒ dati più concentrati,
risultati più omogenei
CV 2a pr. ≠ CV 1a pr ⇒ “Le Distribuzioni
Differiscono”
76. Totale diapositive 146
Le misure di Forma
Sono indici sintetici utilizzati per evidenziare
particolarità nella forma della distribuzione.
Noi esamineremo:
• l’asimmetria
• la curtosi
77. Totale diapositive 146
Asimmetria
Una distribuzione è simmetrica quando la sua
curva di frequenza presenta un asse di
simmetria
In una distribuzione simmetrica media,
mediana e moda sono coincidenti.
media =
mediana =
moda
In una distribuzione
asimmetrica media,
mediana e moda non sono
più coincidenti
e proprio la differenza
(distanza) tra la media e
la moda può essere
considerata una misura
della asimmetria
78. Totale diapositive 146
Un altro coeff di asimmetria è il
Coeff. di asimmetria (di Fisher)
σ = scarto quadratico medio
Se a = 0 distribuzione
simmetrica
Se a > 0 asimmetria destra
Se a < 0 asimmetria sinistra
Sono state proposte diverse misure dell’ asimmetria, per
esempio le più semplici sono:
Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson
79. Totale diapositive 146
moda < mediana <
media
Asimmetria positiva (as. Destra)
La distribuzione è asimmetrica quando non
presenta nessun asse di simmetria.
Si ha un’asimmetria positiva o destra quando il
ramo destro della curva è più lungo di quello
sinistro
In questo caso si
ha:
media=63,65
moda = 48
mediana =58
80. Totale diapositive 146
media < mediana <
moda
Asimmetria negativa (as. Sinistra)
Si ha un’asimmetria negativa o sinistra quando il
ramo sinistro della curva è più lungo di quello
destro
In questo caso si
ha:
media = 85,24
moda = 100mediana = 90
81. Totale diapositive 146
Curtosi
Se una distribuzione è simmetrica o quasi
simmetrica allora può esser più o meno
appuntita o più o meno appiattita rispetto alla
distribuzione normale (o di Gauss)
Se la curva è
• più appuntita si dice curva Leptocurtica
• più appiattita si dice curva Platicurtica
Coeff. di curtosi di
Pearson
σ σ = scarto quadratico medio
0 ≤ K < + inf
Se K = 3 distribuzione normale
se K > 3 curva leptocurtica
Se K < 3 curva platicurtica.
82. Totale diapositive 146Totale diapositive 168
Curtosi
leptocurtosi
K = 8,57
platicurtosi
K = 2,8
curva normale
K = 3
83. Totale diapositive 146
Curtosi
Spesso il coeff. di curtosi viene indicato con b2
che, come visto, nel caso della distribuzione
normale è = 3
pertanto, talvolta, la curtosi viene indicata con
(b2 – 3)
Allora:
se la distribuzione è normale (b2 – 3 ) = 0
se la distribuzione è leptocurtica (b2 – 3 ) > 0
se la distribuzione è platicurtica (b2 – 3 ) < 0
86. Totale diapositive 146
Misure di dispersione
Sono necessari degli indicatori che sintetizzano queste
diverse situazioni.
•Campo di variazione (Range)
•deviazione standard
•varianza
87. Totale diapositive 146
Campo di variazione
Chiamato anche RANGE
E’ definito come la differenza tra il più grande ed il
più piccolo valore osservato.
Range = max - min
89. Totale diapositive 146
Varianza
è definita come il quadrato della
deviazione standard, cioè:
( ) 21
2
SD
n
mediax
varianza
n
i i
=
−
=
∑=
90. Totale diapositive 146
è definito come la radice quadrata della
somma dei quadrati delle differenze delle
osservazioni dalla loro media, cioè:
Deviazione standard
( )
n
medi
a
x
SD
n
i i∑=
−
= 1
2
92. Totale diapositive 146
Numero di giorni di vacanza al mese
Soggetto Situazione 1 Situazione 2 Situazione 3
1 3 1 1
82 3 2 0
3 3 0 0
4 3 4 0
5 3 5 0
6 3 6 0
Media 3 3 3
Dev.std 0 2,4 7,4
Maggiore è la variabilità in un insieme di dati, più
grande è la sua deviazione standard.
Deviazione standard: esempio 1
93. Totale diapositive 146
coefficiente di variazione
Definizione: è definito come rapporto tra la deviazione
standard e la media.
E’ utile per confrontare la variabilità di fenomeni tra
di loro diversi per l’unità di misura in cui sono espressi
(ad esempio variabilità della statura e del peso
corporeo)
x
SD
CV =
94. Totale diapositive 146
Coefficiente di variazione: esempio
Altezza nella popolazione maschile A:
media= 175 cm
SD = 15 cm
Peso nella popolazione maschile A:
media= 74 Kg
SD = 10 Kg
CV_altezza= 15/175 =8,5%
CV_peso= 10/74 =13,5%
95. Totale diapositive 146
VARIANZA E DEVIAZIONE STANDARD
La varianza misura la variabilità e si basa sulla differenza tra ogni osservazione e
la media
Supponiamo una popolazione di N individui a cui misuriamo la temperatura T
Se la media di T è M la differenza tra I valori di T e la media sono
T1-M,T2-M,T3-M e cosi via
Se tra questi valori ci sono grandi deviazioni la variabilità attorno alla media è
grande
Se le deviazioni sono piccole le osservazioni sono distribuite vicino alla media e la
variabilità è piccola
Queste differenze sono la chiave per misurare la variabilità in modo efficiente
Il valore medio delle deviazioni non puo essere usato come misura della variabilità
poiche le differenze positive devono essere cancellate esattamente dalle
differenze negative
96. Totale diapositive 146
Quindi la Σ(T-M) deve essere zero e anche la media delle deviazioni deve essere
zero
Per superare il problema delle deviazioni negative che cancellano le positive
basta elevare al quadrato le deviazioni
Il valore medio dei quadrati delle deviazioni viene chiamamto varianza della
popolazione
In una popolazione di N individui ognuno associato ad un valore di temperatura T
la media della popolazione
M= Σ T / N
La varianza nella popolazione
V = Σ(T-M)2/N
In realtà la varianza non è molto usata poiché i dati per il totale della popolazione
possono non essere disponibili
In questo caso si prende dalla popolazione un campione di t osservazioni
La media m = Σt/n è la stima della M media della popolazione totale
97. Totale diapositive 146
In questo caso avremo
S2 = Σ (t-m) 2/(n-1)
Che ci da la stima CAMPIONARIA della varianza nella popolazione
Qui la somma dei quadrati è divisa per n-1 non solo per n
Questo perche in un campione la media di (t-m)2 sarà piu’ piccola del valore
(T-M) della popolazione tutta e quindi
Σ (t-m)2 /n
Sarà una sottostima della varianza della popolazione
Se divido per n-1 invece che per n rimuovo questo BIAS dalla stima
campionaria
Il denominatore n-1 sono i Gradi di Libertà
Questi possono essere pensati come il numero di confronti indipendenti di t
con m quindi se n-1 delle differenze t-m sono note possiamo determinare
l’ultima differenza poiché la somma di tutte le differenze deve essere zero
98. Totale diapositive 146
Il principale svantaggio della varianza è che l’unità di misura della varianza
equivale al quadrato dell’unità di misura delle osservazioni originarie
Per cui se le osservazioni riguardano l’altezza in cm la varianza avra come unita
di misura i cm2
Per evitare questo si usa la radice quadrata della varianza come misura della
variabilità
SD ( deviazione standard)
S = √Σ (t-m)2 / (n-1)
La deviazione standard è una misura descrittiva della variabilità
È una deviazione media delle osservazione dalla media nel senso che alcune
deviazioni saranno maggiori e altre minori
A condizione che n non sia troppo piccolo l’intervallo m+- 2s dovrebbe includere
il 95% di tutte le osservazioni del campione
99. Totale diapositive 146
Di solito la calcola un computer
Nel caso di un calcolo a mano basta ricordare che il numeratore puo essere
sviluppato come:
Σ (t-m)2 = Σt2 - (Σm)2 /n
Durata degenza in ospedale
y: 5 5 5 7 10 20 102; Σy= 154
y2 25, 25, 25, 49, 100, 400, 10404 Σy2 = 11028
Il numeratore della varianza è √Σ (t-m)2 = Σt2 - (Σm)2 /n= 11028-1542 /7= 7640
s2 = 7640/6= 1273,3
s= √1273,3= 35,68 giorni
100. Totale diapositive 146
L’intervallo m+- 2s
Sarà 22+- 71
Ovvero da -49 a 93 che esclude una sola osservazione tra le sette rilevate invece
del 5%
INTERVALLO DI NORMALITA’
L’intervallo media +-2DS che contiene circa il 95% delle osservazioni è
l’intervallo di normalità di una variabile
L’uso della parola NORMALE è infelice poichè gli individui che danno
l’informazione per la variabile non sono necessariamente normali “sani” e
allostesso modo
Una persona con valori al di fuori di questo intervallo non necessariamente è
malata
Se la distribuzione è simmetrica l'intervallo di normalità include il valore centrale
del 95% dei valori con il 47,5% dei valori inferiori a m-2DS e il 47,5% dei valori
superiori a m+2DS
112. Totale diapositive 146Totale diapositive 168
Statistica inferenziale
Quando:
• Non possiamo o non vogliamo misurare
tutta la popolazione
• Vogliamo comunque descriverla
• Vogliamo avere una stima degli indici
visti fino ad ora, ma entra in gioco
l’Incertezza e quindi la probabilità:
Probabilità = 0 ... 1 = 0% …100%
113. Totale diapositive 146Totale diapositive 168
Principi di inferenza statistica
• La distribuzione normale
• La distribuzione campionaria
• Deviazione standard e errore standard
• Intervalli di confidenza
• Test di ipotesi (P-value)
115. Totale diapositive 146
Distribuzione Normale o di Gauss
In teoria della probabilità la
distribuzione normale, o di Gauss
(o gaussiana) dal nome del
matematico tedesco Carl Friederich
Gauss, è una distribuzione di
probabilità continua che è spesso
usata come prima approssimazione
per descrivere variabili casuali a
valori reali che tendono a
concentrarsi attorno a un singolo
valor medio. Il grafico della funzione
di densità di probabilità associata è
simmetrico e ha una forma a
campana, nota come Campana di
Gauss (o anche come curva degli
errori, curva a campana, ogiva).
116. Totale diapositive 146
Distribuzione Normale o di Gauss
Valore vero di una grandezza: quello a cui ci si
avvicina sempre più facendo un gran numero di
misure (vedi esempi dei dadi).
Se le misure sono soggette ad errori casuali
“piccoli” e posso trascurare gli errori sistematici,
la loro distribuzione può assumere la forma di
una campana centrata sul valore più probabile, in
altre parole da funzione di distribuzione di
probabilità che meglio approssima la mia
distribuzione di
dati può essere la funzione di Gauss:
117. Totale diapositive 146
Distribuzione Normale
La curva è centrata sul valore x=m ed in
corrispondenza di
esso assume il valore
La funzione è normalizzata
posso partire dalla
distribuzione
e trovare il coefficiente di
normalizzazione dalla
condizione
118. Totale diapositive 146
Distribuzione Normale
• Teorema del limite centrale
Le medie di campioni di dimensioni n
sufficientemente grandi estratti da una popolazione
comunque distribuita, seguono la legge di
distribuzione normale con media m e varianza σ2/n.
Da questo si deduce immediatamente l’importanza
di studiare la distribuzione normale o gaussiana
Il teorema si può utilizzare anche nel limite della
somma di un numero relativamente piccolo di
variabili, dell’ordine della decina.
119. Totale diapositive 146
Distribuzione Normale
• Integrali della funzione
L’integrale della funzione di Gauss non è risolvibile
matematicamente, ma attraverso metodi numerici.
La probabilità che una variabile aleatoria cada in un
intervallo centrato su m (valor medio) di larghezza
σ è data da:
120. Totale diapositive 146
Distribuzione Normale
• Integrali della funzione
Nel grafico si vede la probabilità che la mia variabile
aleatoria cada in un intervallo di larghezza tσ
centrato sempre sul valo medio m
Questo corrisponde ad un
• limitedi confidenza del 68,27% tσ=1,
• limitedi confidenza del 95,40% tσ=2,
• limitedi confidenza del 99,70% tσ=3 etc.
121. Totale diapositive 146
Distribuzione Normale
• Integrali della funzione
Ricapitolando:
Probabilità che le misure siano comprese tra
1. m – 1σ e m+ 1σ 68,27%
2. m – 2σ e m+ 2σ 95,45%
3. m –3σ e m+ 3σ 99,73%
122. Totale diapositive 146
Distribuzione Normale
• Distribuzione standardizzata
Eseguendo la sostituzione X=(x – m)/σ riduco alla
stessaforma tutte le distribuzioni normali, rendendo
m=0 il valor medio (distribuzione centrata nello zero)
e prendo σ come unità di misura, ovvero ho
una distribuzione con
σ=1
Gli scarti x – m diventano
scarti ridotti (x – m)/σ
e la probabilità sarà
123. Totale diapositive 146
Distribuzione Normale
• Media come migliore stima
La stima migliore per σ si ottiene derivando rispetto
a σ e ponendo la derivata uguale a zero, quindi
O sostituendo il valor medio al valore vero
124. Totale diapositive 146Totale diapositive 168
La distribuzione normale
Fonti di variazione sono presenti in ogni misurazione.
Tale variabilità non è del tutto imprevedibile: infatti
molti fenomeni seguono una distribuzione normale.
Questo modello è utile in quanto possiamo
impiegarlo conoscendo soltanto la media e la deviazione
standard
128. Totale diapositive 146Totale diapositive 168
Si dimostra che:
media ± deviazione standard
comprende il 68% circa dei dati
media ± 2 deviazione standard
comprende il 95% dei dati
media ± 3 deviazione standard
comprende pressoché tutti i dati (99.7%)
Proprietà della
Distribuzione Normale
129. Totale diapositive 146Totale diapositive 168
Distribuzione campionaria
E’ la distribuzione di frequenza di
tutte le medie campionarie ottenute
da tutti i possibili campioni della
stessa grandezza estratti dalla
popolazione in studio
130. Totale diapositive 146Totale diapositive 168
Distribuzione della
media campionaria
µ
σ
Popolazione
I campioni estraibili sono infiniti, quindi infinite medie
campionarie
131. Totale diapositive 146Totale diapositive 168
Numerosità campionaria e
Errore di campionamento
All’aumentare della numerosità del
campione la media del campione tende
ad avvicinarsi alla media della
popolazione. Pertanto, maggiore è la
dimensione del campione, minore è
l’errore campionario insito nella stima
della media della popolazione con la
media del campione
135. Totale diapositive 146Totale diapositive 168
Media della
“Media campionaria”
Per campioni di qualsiasi numerosità, la
media di tutte le possibili medie
campionarie è uguale alla media della
popolazione:
136. Totale diapositive 146Totale diapositive 168
Errore standard della
“Media campionaria”
Per campioni di qualsiasi numerosità,
l’errore standard di tutte le possibili
medie campionarie è uguale alla
deviazione standard della popolazione
diviso la radice quadrata della numerosità
n:
137. Totale diapositive 146Totale diapositive 168
Variabilità di una stima
campionariadeviazione standard misura la variabilità nella
popolazione
errore standard misura la precisione di una
stima come la media campionaria
138. Totale diapositive 146Totale diapositive 168
Teorema del limite centrale
➢Per un campione relativamente grande, la
variabile media campionaria è
approssimativamente distribuita in modo
normale indipendentemente dalla
distribuzione della variabile sotto studio
➢L’approssimazione diventa migliore al
crescere della dimensione del campione
140. Totale diapositive 146Totale diapositive 168
Errore standard della
“Media campionaria”
Tanto più grande è n, tanto più piccolo
è l’errore standard e quindi i valori
calcolati su tutti i possibili
campioni sono più vicini alla media µ
della popolazione
141. Totale diapositive 146Totale diapositive 168
E’ possibile costruire un intervallo
che, con una probabilità prefissata,
contiene la vera media nella
popolazione
Intervallo di Confidenza
della media campionaria
142. Totale diapositive 146Totale diapositive 168
ERRORE STANDARD (ES) e
INTERVALLI DI CONFIDENZA (IC)
➢ Serve per determinare quanto la media di un campione sia
vicina alla media della popolazione generale
➢ E’ correlato all’errore standard in quanto non è altro che
una deviazione standard riferita però alle medie campionarie e
non alle osservazioni individuali
➢ Può fornire un’idea di quanto sia variabile una singola
stima della media
143. Totale diapositive 146Totale diapositive 168
CALCOLO INTERVALLO DI
CONFIDENZA
Interpretazione: Intervallo di valori in cui si può essere sicuri al 95% che
cadano le medie campionarie
Intervallo di probabilità al 95%= μ ± 2ES
+2ES
95%
-2ES
2.5
%
2.5
%
μ
145. Totale diapositive 146Totale diapositive 168
CALCOLO INTERVALLO DI
CONFIDENZA
Intervallo di probabilità al 95%= μ ± 2ES
Nota: In realtà μ e σ sono ignoti. Per il calcolo li sostituiamo
con x e DS
Intervallo di confidenza al 95% (IC 95%) = x ± 2ESM
146. Totale diapositive 146Totale diapositive 168
Intervallo di Confidenza
della media campionaria
La media campionaria è: 530
La numerosità è: 10
La variabilità è: 100
Errore standard: 100/√10 = 31.62
Limite inferiore = 530-1.96*31.62 = 468.02
Limite superiore = 530+1.96*31.62 = 591.98
Quindi l’intervallo di fiducia al 95% sarà:
468.02 ≤ μ ≤ 591.98