Corso di Statistica del Prof. Garau.
Slide a cura di Giorgio Garau e Lucia Schirru.
Una caratteristica importante di una distribuzione statistica è la sua variabilità. La variabilità è, infatti, la quantità di dispersione presente nei dati.
Come gli indici di posizione, anche gli indici di dispersione o variabilità servono per descrivere sinteticamente (o caratterizzare) le distribuzioni statistiche quantitative (per le variabili qualitative si usano gli indici di diversità).
1. Le misure di variabilità
Una caratteristica importante di una distribuzione statistica è la sua variabilità. La variabilità è, infatti, la
quantità di dispersione presente nei dati. Come gli indici di posizione, anche gli indici di dispersione o
variabilità servono per descrivere sinteticamente (o caratterizzare) le distribuzioni statistiche
quantitative (per le variabili qualitative si usano gli indici di diversità).
Dati due insiemi di dati, questi possono
differire sia nella posizione del valore
centrale (media) che nella variabilità;
oppure, come mostrato in figura, possono
essere caratterizzati dalla stessa variabilità,
ma da diverso valore centrale;
o ancora, come mostra questa figura,
possono avere lo stesso valore centrale, ma
avere una diversa variabilità
Cos’è la Statistica - G. Garau, L. Schirru 1
2. Il range o campo di variazione
Il range è la differenza tra l’osservazione più grande e quella più piccola in un insieme di dati. E’
importante sottolineare che il range deve assumere sempre valori maggiori di zero. Quindi dobbiamo
considerare il valore assoluto.
Il range interquartile è la differenza tra il terzo e il primo quartile in un insieme di dati:
Sebbene il range sia una misura della dispersione totale e il range interquartile una
misura della dispersione centrale, nessuna di queste due misure di variabilità tiene
conto di come le osservazioni si distribuiscano o si concentrino intorno a una misura di
tendenza centrale, come ad esempio la media.
Presentiamo perciò altre misure di variabilità più appropriate.
Cos’è la Statistica - G. Garau, L. Schirru 2
3. Lo scostamento semplice medio dalla media
Un’altra misura di variabilità è lo scostamento semplice medio
questa non è però una buona misura perché la somma degli scarti positivi annulla quella degli
scarti negativi dando sempre luogo ad una media nulla.
Dimostrazione
Questo inconveniente può essere evitato ignorando tutti i segni negativi e facendo la media dei
valori assoluti degli scarti:
La somma degli scarti assoluti è
diversa da zero ma non permette
di mettere in evidenza gli scarti
maggiori, perciò si usa il quadrato
Utilizzando la somma del quadrato degli scarti dalla media si accentuano gli scarti maggiori.
La somma dei quadrati degli scarti è minima quando gli scarti sono calcolati da M
Cos’è la Statistica - G. Garau, L. Schirru 3
4. Lo Scostamento semplice dalla mediana
Lo scostamento semplice dalla mediana è il minimo fra tutti i possibili scarti assoluti.
Verifichiamolo:
Cos’è la Statistica - G. Garau, L. Schirru 4
5. La varianza e lo scarto quadratico medio.
Si considerino perciò due misure della variabilità, la varianza (σ2) e lo scarto quadratico
medio (σ, radice quadrata della varianza), che sintetizzano la dispersione dei valori
osservati attorno alla loro media
Una difficoltà nella interpretazione della varianza deriva dal fatto che essa è espressa nell’unità
di misura del fenomeno elevato al quadrato.
Per questo motivo si usa lo scarto quadratico medio, o deviazione standard che è così
definito
Calcolato utilizzando le
frequenze assolute
Nel caso in cui le
modalità si ripetano più
volte (media
ponderata)
Calcolato utilizzando le
frequenze relative
Cos’è la Statistica - G. Garau, L. Schirru 5
6. Esempio
Si confrontino le due distribuzioni di voti conseguiti dagli studenti A e B. Cosa si può dedurre?
Se si confrontano queste distribuzioni per il valore
assunto dalla media, si noterà che entrambe
assumono come valore medio 3.5; si dovrebbe
quindi concludere che le distribuzioni sono identiche.
La rappresentazione grafica, fornita in figura, indica
però, che la distribuzione B è più dispersa
della distribuzione A, ma non fornisce una misura
della distanza tra le due dispersioni.
Tale misura è fornita dagli indicatori di variabilità.
VOTI
Range A = |1-6| =5
Range B = |1-6| =5
Anche il Range delle due distribuzioni coincide, per cui è necessario calcolare la varianza e lo
scarto quadratico medio per verificare l’effettiva differenza tra le due distribuzioni.
Cos’è la Statistica - G. Garau, L. Schirru 6
7. Calcolo della varianza e dello scarto quadratico medio
Per comodità si riportano tutti i dati in tabella in modo da non commettere errori di calcolo.
Sommando i quadrati degli scarti dalla media (pesati per le rispettive frequenze) si ottiene il
valore della varianza.
Per la distribuzione A corrisponde a 0.8502 Per la distribuzione B corrisponde a 2.25.
Il valore dello scarto quadratico medio è pari a: 0.9221 per la distribuzione A mentre per la
distribuzione B è pari a 1.5.
Questo significa che, come già si intuiva graficamente, nella Classe B i voti sono
maggiormente dispersi intorno alla media.
Cos'è la Statistica - G. Garau, L. Schirru 7
8. Le proprietà della varianza
La varianza è pari alla media aritmetica dei quadrati meno il quadrato della media aritmetica
La varianza di una costante è pari a 0
La varianza del prodotto tra una variabile e una costante è pari al quadrato della costante per la
varianza della variabile.
La varianza della somma tra una variabile e una costante è pari alla varianza della variabile.
Cos'è la Statistica - G. Garau, L. Schirru 8
9. Il coefficiente di variazione
La varianza e lo scarto quadratico medio sono indici assoluti per cui è
opportuno introdurre indici relativi o normalizzati.
Un indice relativo molto usato, purché la media sia maggiore di zero (M > 0), è il
rapporto tra lo scarto quadratico medio σ e la media aritmetica M.
Si tratta del coefficiente di variazione CV.
Cos'è la Statistica - G. Garau, L. Schirru 9
10. Le differenze medie
Le differenze medie sono indici di mutua variabilità che esaminano le differenze tra le modalità
prese a due a due e ne operano una sintesi tramite una opportuna media.
La differenza semplice media è un indice assoluto di mutua variabilità ottenuto operando i
confronti tra le n modalità prese a due a due, non considerando i confronti tra ciascuna modalità
e se stessa (n ・(n−1) confronti in tutto) e facendo la media aritmetica delle differenze.
La differenza semplice media con ripetizione è un indice assoluto di mutua variabilità ottenuto
operando i confronti tra le n modalità a due a due, considerando anche i confronti tra ciascuna
modalità e se stessa (n2 confronti in tutto) e facendo la media aritmetica delle differenze.
Cos’è la Statistica - G. Garau, L. Schirru 10
11. Gli indici di concentrazione
La concentrazione è una misura della mutua variabilità, cioè della variabilità tra ogni possibile
modalità di una variabile e tutte le altre.
L’analisi di concentrazione si può applicare alle variabili quantitative (es. reddito e popolazione)
perché queste variabili sono “trasferibili” da un possessore ad un altro (es. persona, nazione)
il totale posseduto da n unità statistiche.
T
yi
n
i
1
Si indica con
La concentrazione studia il modo in cui l’ammontare totale T si distribuisce fra le n classi.
Si possono considerare due situazioni estreme
- concentrazione minima (equidistribuzione):
le n unità statistiche possiedono uguale quantità
della variabile.
-concentrazione massima:
una unità possiede il totale e le altre n−1
possiedono un ammontare nullo della variabile.
y
1
n
y
T
n
y
n
i
i
i
y
T
n
y i n
0 ( 1, ... 1)
i
Cos’è la Statistica - G. Garau, L. Schirru 11
12. La rappresentazione grafica: Lorenz e Gini
Si consideri una distribuzione unitaria i cui termini
sono non negativi e disposti in ordine crescente:
Prendendo le prime unità (i), che saranno le più
povere e confrontando ciò che esse possiedono
con ciò che ad esse spetterebbe in una situazione
di equidistribuzione, in cui ai = μ (ogni unità
possiede esattamente il valore medio)
Se si divide per l’ammontare complessivo del carattere, An
numero delle unità
unità totali
Pi
si ottiene
Dove:
a a ai a
0 ... ...
*
1 2
a a i
A ... e A ...
i i i
*
A
A
i
i
i
Qi = % del carattere posseduto dalle prime i unità.
i
i
Ai A
n
Vale la relazione: Che può essere così trasformata:
n
i
Qi è tanto più vicino a Pi quanto più si è prossimi alla situazione di equidistribuzione
n
1
*
An a1 ... ai ...an n An
n
n
A
P
A
n
i
n
Q
media sino ad i media generale
12
Cos’è la Statistica - G. Garau, L. Schirru
13. Esempio 1: Costruzione di una Spezzata di Lorenz per
distribuzioni unitarie.
La tabella riporta la Popolazione del Lazio
suddivisa per provincia di residenza (1990)
Riportando in un grafico i valori di Pi e Qi si ottiene la
spezzata di Lorenz.
Sulla bisettrice si trovano i punti tali che pi = qi.
-L’area tra la bisettrice e la spezzata di Lorenz è la
curva di concentrazione.
-Interpretazione dell’area: più è grande, maggiore è la
concentrazione.
- Nelle 3 province più piccole, ad esempio, risiede il
17.4% contro il 60% (equidistribuzione).
13
Cos’è la Statistica - G. Garau, L. Schirru
14. Esempio 2: Costruzione della spezzata di Lorenz per distribuzioni in classi
Si consideri ora il caso in cui il carattere
(trasferibile) sia ripartito in classi:
è cioè noto l’ammontare xi del carattere
posseduto congiuntamente dalle ni unità che
appartengono alla classe i.
Le aziende della prima classe (cioè il
15.8% delle aziende totali) contribuiscono
solo al 1.58% del fatturato totale.
Cos’è la Statistica - G. Garau, L. Schirru 14
15. L’indice di concentrazione per distribuzioni unitarie
Oltre alla rappresentazione grafica è necessario utilizzare un indicatore per costruire della concentrazione e
in questo caso pare naturale una misura dell’area compresa tra la retta di equidistribuzione e la spezzata di
Lorenz.
Nel caso di distribuzioni unitarie l’area può essere scomposta nella somma di n trapezi, in particolare
l’i−esimo trapezio ha basi pari a Pi−1 − Qi−1 e Pi − Qi e altezza costante pari a 1/n.
1 1
1 1
Effettuando i vari passaggi si ottiene la seguente
formula:
g
Utilizzando i dati dell’Esempio 1 si costruisce l’indice
di concentrazione della popolazione del Lazio.
Questo valore indica un
grado di concentrazione
molto elevato, pari al 72%
della concentrazione
massima.
2
Area : (( ) ( ))
somma delle due basi
altezza
i i i i i
n
S P Q P Q
( )
1
2
1
1
i
n
i
Pi Q
n
Cos’è la Statistica - G. Garau, L. Schirru 15
16. L’indice di concentrazione per distribuzioni in classi
Nel caso di distribuzioni in classi si avrà
invece un’area, scomposta in un numero di
trapezi uguale al numero delle classi
considerate. L’altezza non sarà più costante
ma sarà uguale a
S sarà quindi uguale a:
1
S [(PN i QN i ) (P Q )] f
Riprendendo i dati del secondo esempio:
k
i
2
1
( ) ( )
B1 B2
PN(i) PN(i1) fi
N ( i 1) N ( i 1)
i
In questo secondo caso la concentrazione è pari al 55% della concentrazione massima.
Cos’è la Statistica - G. Garau, L. Schirru 16
Editor's Notes
Titolo: Le misure di variabilità
Le misure di variabilità: il range
Titolo: Lo scostamento semplice medio dalla media e dalla mediana
Titolo: Lo scostamento semplice dalla mediana.
Le misure di variabilità: la varianza e lo scarto quadratico medio.
Titolo: Esempio di calcolo degli indici di variabilità.
Titolo: Esempio di calcolo della varianza e dello scarto quadratico medio.
Titolo: Le proprietà della varianza.
Titolo: Il coefficiente di variazione
Titolo: Le differenze medie.
Titolo: Gli indici di concentrazione
Titolo: La rappresentazione grafica, Lorenz e Gini
Titolo: Esempio 1: Costruzione di una spezzata di Lorenz (per distribuzioni unitarie).
Titolo: Esempio 2: Costruzione di una spezzata di Lorenz (per distribuzioni in classi)
Titolo: L’indice di concentrazione per distribuzioni unitarie
Titolo: L’indice di concentrazione per distribuzioni in classi