1. Gli indici di mutua variabilita
Questo paragrafo sostituisce gli indici di concentrazione del libro: Cos'e la
Statistica.
La statistica e necessaria per misurare la diversita dei fenomeni; senza la
diversita non ci sarebbe bisogno della statistica. Si pensi a una popolazione
in cui tutti gli abitanti sono della stessa altezza, dichiarano lo stesso reddito
e votano per gli stessi candidati alle elezioni, sono tutti biondi e diplomati.
Abbiamo elencato delle caratteristiche, quantitative o qualitative, che come
ben sappiamo e contrariamente all'ipotesi in esempio, variano da individuo a
individuo. Per misurare quanto variano si utilizzano degli indicatori dierenti
a seconda che il carattere sia quantitativo o qualitativo. Nel primo caso
gli indicatori sono di variabilita, mentre se si osservano caratteri qualitativi
si utilizzano indicatori di mutabilita. Partiamo dai fenomeni quantitativi,
trasferibili tra le unita statistiche, e de
2. niamo l'indicatore di concentrazione.
La concentrazione
La concentrazione e una misura della mutua variabilita, cioe della variabilita
tra ogni possibile modalita di una variabile e tutte le altre. Come anticipa-
to, l'analisi di concentrazione si puo applicare alle sole variabili quantitative
trasferibili. Una variabile quantitativa si dice trasferibile se puo passare (ma-
terialmente o idealmente) da un possessore ad un altro. Esempi di variabili
trasferibili sono il reddito e la popolazione.
La concentrazione studia, quindi, il modo in cui l'ammontare totale T si
distribuisce fra le n unita e si indica con T =
Pn
i=1 yi il totale posseduto da
n unita statistiche.
Le due situazioni estreme sono:
- la concentrazione minima (ovvero equidistribuzione): le n unita
statistiche possiedono uguale quantita della variabile
yi =
T
n
=
Pn
i=1 yi
n
= y
3. 2 G. Garau, L. Schirru
- la concentrazione massima: una unita possiede il totale e le altre
n 1 possiedono un ammontare nullo della variabile.
yn = T
yi = 0 (i = 1; : : : ; n 1):
Il reddito di un paese si de
4. nisce concentrato se una porzione elevata del
reddito totale e posseduta da una piccola porzione di persone. Quindi al
diminuire del numero di possessori, aumenta la concentrazione del reddito.
Viceversa, al crescere del numero di possessori diminuisce la concentrazione,
5. no ad arrivare all'equidistribuzione, che e il caso limite in cui tutti hanno
la stessa quantita del reddito totale.
Per valutare se una variabile quantitativa e piu o meno concentrata, o
se si vuole fare il confronto tra il livello di concentrazione in tempi o luo-
ghi diversi, si puo utilizzare una rappresentare gra
6. ca. Nel caso in cui non
sia interpretabile il risultato gra
7. co si procede al calcolo dell'indicatore di
concentrazione.
La rappresentazione gra
8. ca: curve di Lorenz (1904) e
Gini (1914)
Si consideri una distribuzione unitaria i cui termini sono non negativi e
disposti in ordine crescente:
0 a1 a2 : : : ai : : : an
Prendendo le prime unita (i), che saranno le piu povere e confrontando cio che
possiedono con cio che gli spetterebbe in una situazione di equidistribuzione,
in cui ai = (ogni unita possiede esattamente il valore medio), si de
9. nisce
Ai
1:
Ai = a1 + : : : + ai e A
i = + : : : + = i
Se si divide per l'ammontare complessivo del carattere, An, dove:
An = a1 + : : : + ai + : : : + an e A
n = n An = A
n
1In generale si indica con un asterisco (*) una situazione ipotetica, virtuale di riferi-
mento. In questo caso Ai
rappresenta cio che spetterebbe alle prime i unita in situazione
di equidistribuzione
10. G. Garau, L. Schirru 3
si ottiene:
Qi =
Ai
An
ossia la percentuale del carattere posseduto dalle prime i unita, e
Pi =
Ai
An
=
i
n
=
i
n
Dove Pi e il numero delle unita in rapporto alle unita totali (interpretabile
anche come una frequenza relativa cumulata):
Pi =
somma delle unita
11. no alla i esima
unita totali
Vale la relazione:
Ai
|{iz}
media sino ad i
An
|{nz}
media generale
che, moltiplicando a sinistra e a destra dell'equazione, per i
An
, si trasforma
cos:
i
An
Ai
i An
n
i
An
Ai
An
i
n
Qi Pi
Dall'equazione risulta che Qi e minore o al massimo uguale a Pi ed e tanto
piu vicino a Pi quanto piu si e prossimi alla situazione di equidistribuzione.
Esempio: Si consideri la seguente tabella della popolazione del Lazio suddi-
visa per provincia di residenza (1990).
Popolazione del Lazio
i ai Ai Pi Qi
Rieti 1 146 146 0.2 0.028
Viterbo 2 278 424 0.4 0.082
Latina 3 471 895 0.6 0.174
Frosinone 4 483 1378 0.8 0.267
Roma 5 3778 5156 1 1
12. 4 G. Garau, L. Schirru
La tabella, in cui i dati sono stati ordinati in modo crescente, comprende
anche i passaggi di calcolo necessari alla rappresentazione gra
16. gura 1 e la seguente:
- Sulla bisettrice si trovano i punti tali che pi = qi.
- L'area tra la bisettrice e la spezzata di Lorenz e la curva di concentra-
zione.
- Piu l'area e grande, maggiore e la concentrazione, perche la curva dista
dalla retta di equidistribuzione.
- Nelle 3 province piu piccole (Rieti, Viterbo e Latina) risiede il 17.4%
della popolazione, mentre in una situazione di equidistribuzione do-
vrebbe risiedervi il 60%.
Figura 1: Spezzata di Lorenz: la concentrazione della popolazione tra le 5 province del
Lazio (1990)
Si consideri invece il caso in cui il carattere (trasferibile) sia ripartito in classi:
e cioe noto l'ammontare xi del carattere posseduto congiuntamente dalle ni
unita che appartengono alla classe i.
17. G. Garau, L. Schirru 5
Esempio: Distribuzione del fatturato in 911 imprese del settore X. In
tabella sono inseriti i calcoli necessari alla costruzione della spezzata di
Lorenz.
Fatturato ni Xi Ni PN(i) AN(i) QN(i)
(milioni euro)
0{1 144 87 144 0.158 87 0.0158
1{5 457 1168 601 0.660 1255 0.2286
5{10 171 1200 772 0.847 2455 0.4472
10{25 112 1757 884 0.970 4212 0.7672
25 27 1278 911 1 5490 1
I dati della tabella, rappresentati in
18. gura 2 si possono interpretare cos: le
aziende della prima classe (il 15.8% del totale delle aziende) contribuiscono
solo all'1.58% del fatturato totale. Il 97% delle aziende possiede il 77% del
fatturato totale, il che signi
19. ca che alle 27 aziende dell'ultima classe (il 3%)
spetta il 23% del fatturato complessivo.
Figura 2: Spezzata di Lorenz: Fatturato
Queste considerazioni fanno pensare che il fatturato non sia propriamente
ben distribuito tra le aziende. Ma per avere una misura della concentrazione
e necessario utilizzare un indicatore speci
20. co. Si presenta quindi l'indice di
concentrazione di Gini.
La costruzione dell'indice di concentrazione
Negli esempi proposti sono stati considerati due fenomeni diversi, relativi a
variabili trasferibili (popolazione e fatturato), a cui corrispondono due curve
21. 6 G. Garau, L. Schirru
di concentrazione tra di loro non confrontabili. Ci si e limitati, quindi, a
considerazioni gra
22. che che in alcuni casi permettono comunque di osservare la
dinamica dei fenomeni di concentrazione. E' tuttavia opportuno aancare al
gra
23. co una misura della concentrazione, un indicatore, che nel caso speci
24. co
non e altro che l'area compresa tra la retta di equidistribuzione e la spezzata
di Lorenz. Come si procede? Nel caso di distribuzioni unitarie l'area puo
essere scomposta nella somma di n trapezi (
25. gura 3). In particolare, le basi
maggiore e minore dell'iesimo trapezio sono Pi1Qi1 e PiQi e altezza
e costante e uguale a 1
n.
Figura 3: Spezzata di Lorenz per Distribuzioni unitarie
Si ricorda che l'area del trapezio si calcola con la formula: ((BMA + BMI)
h)=2.
Area Si : |((Pi Qi) +{(zPi1 Qi1)})
somma delle 2 basi
1
|{nz}
altezza
1
2
La somma delle aree di questi n trapezi si puo scrivere cos:
S =
Xn
i=1
[(PiQi)+(Pi1Qi1)]
1
n
1
2
=
1
2n
Xn
[
i=1
(PiQi)+
Xn1
i=0
(PiQi)]
se si considera che (Pn Qn) = 0 e che (P0 Q0) = 0, allora:
S =
1
2n
[
Xn1
i=1
(Pi Qi) +
Xn1
i=1
(Pi Qi)] =
1
n
Xn1
i=1
(Pi Qi)
26. G. Garau, L. Schirru 7
Un indice cos calcolato non e di immediata interpretazione. Bisogna percio
normalizzarlo, ottenendo un indicatore che varia tra 0 e 1. Si normalizza
dividendo S per il valore massimo che puo assumere l'area di concentrazione.
Quando n e molto elevato la concentrazione massima corrisponde all'area del
triangolo sotto la retta di equidistribuzione. Il triangolo ha base e altezza
uguale a 1 quindi la sua area sara: (1 1)=2, quindi 1=2. Per cui l'indice
normalizzato di Gini corrisponde a:
g =
2
n
Xn1
i=1
(Pi Qi)
Quando invece n non e molto elevato, i lati del triangolo saranno 1 e n1
n ,
quindi l'area (e la massima concentrazione) sara uguale a n1
2n . Per cui
l'indicatore normalizzato diventa il seguente:
g =
2
n 1
Xn1
i=1
(Pi Qi)
Si consideri nuovamente l'esempio sulla concentrazione della popolazione e si
calcoli l'indice di concentrazione:
g =
2
4
[(0:2 0:028) + 0:318 + 0:426 + 0:533] = 0:7245
Questo valore indica un grado di concentrazione molto elevato, pari al 72%
della concentrazione massima.
Nel caso di distribuzioni in classi si avra invece un'area, scomposta in un
numero di trapezi uguale al numero delle classi considerate. L'altezza non
sara piu costante ma sara uguale a PN(i) PN(i1) = fi | {z }
vedi figura 3
S sara quindi uguale a:
S =
1
2
Xk
i=1
[(PN(i) QN(i)) + (PN(i1) QN(i1))]fi
Anche in questo caso il valore di massima concentrazione puo essere appros-
simato ad 1/2 per n sucientemente grande, per cui l'indice di Gini per dati
27. 8 G. Garau, L. Schirru
ripartiti in classi (R), si puo calcolare rapportando S al suo valore massimo,
R = S
1=2 = 2S.
R =
Xk
i=1
[(PN(i) QN(i)) + (PN(i1) QN(i1))]fi
Riprendendo i dati del secondo esempio si ottiene:
fi PN(i) QN(i) PN(i1) QN(i1) (B1 + B2) fi
0.158 0.1422 0 0.0225
0.502 0.4311 0.1422 0.2876
0.188 0.4002 0.4311 0.1561
0.123 0.2031 0.4002 0.0742
0.030 0 0.2031 0.0060
0.5463 $ R
La concentrazione e pari al 55% della concentrazione massima.
Quando n e sucientemente elevato l'indice di concentrazione si calcola
utilizzando la seguente formula:
R =
n
n 1
Xk
i=1
[(PN(i) QN(i)) + (PN(i1) QN(i1))]fi
Esempio: Analizzare in quale, tra i settori A e B, vi sia maggiore concen-
trazione degli addetti2. Calcolare prima il numero medio di addetti e la
varianza.
settore A settore B
n.addetti n.imprese n.addetti n.imprese
3 5 2 5
5 5 3 5
10 4 10 4
12 5 12 5
20 1 35 1
20 20
Si indica con X il numero degli addetti del settore A e con Y il numero degli
addetti del settore B.
2La tabella si legge cos: nel settore A 5 imprese su 20 hanno 3 addetti; altre 5 ne
hanno 5 e cos via.
28. G. Garau, L. Schirru 9
Xi ni
3 5
5 5
10 4
12 5
20 1
20
Yi ni
2 5
3 5
10 4
12 5
35 1
20
M(X) =
3 5 + 5 5 + : : : + 20 1
20
=
160
20
= 8
V (X) =
P
X2
i ni z }| {
M(X2)(M(X))2 =
=
32 5 + 52 5 + 102 4 + 122 5 + 202 1
20
82 = 20:5
M(Y ) =
10 + 15 + 40 + 60 + 35
20
= 8
V (Y ) = M(Y 2)(M(Y ))2 =
4 5 + 9 5 + : : :
20
64 = 125:564 = 56:5
Le medie sono uguali ma la variabilita e maggiore nel settore B. Cio e dovuto
alla presenza di una impresa con ben 35 addetti.
Si puo quindi supporre che nel settore B ci sia maggiore concentrazione!?!
Per dimostrarlo si deve costruire la curva di concentrazione e nella tabella
che segue si riportano i dati necessari alla sua rappresentazione:
settore A settore B
Ai fi PN(i) QN(i) Ai fi PN(i) QN(i)
15 0,25 0,25 0,09 10 0,25 0,25 0,06
40 0,25 0,50 0,25 25 0,25 0,50 0,16
80 0,20 0,70 0,50 65 0,20 0,70 0,41
140 0,25 0,95 0,88 125 0,25 0,95 0,78
160 0,05 1 1 160 0,05 1 1
Come risulta dalla
29. gura 4, nel settore B c'e maggiore concentrazione che
nel settore A, perche l'area di concentrazione e piu grande. Per confrontare
i due settori e stato suciente costruire il gra
31. 10 G. Garau, L. Schirru
Figura 4: Confronto tra i settori A e B
Si aggiunge al confronto un terzo settore (C) le cui imprese hanno le seguenti
dimensioni (numero di addetti):
settore C
n.addetti n.imprese
2 5
5 5
8 4
10 5
43 1
20
Si indica con Z il numero di addetti nel settore C. Dopo aver calcolato anche
per questo settore il valore medio e la varianza si confronti la concentrazione
di addetti col settore B (che risulta piu concentrato del settore A).
settore C
Zi ni Ai fi PN(i) QN(i)
2 5 10 0,25 0,25 0,06
5 5 35 0,25 0,50 0,22
8 4 67 0,20 0,70 0,42
10 5 117 0,25 0,95 0,73
43 1 160 0,05 1 1,00
M(Z) = (10 + 25 + 32 + 50 + 43)=20 = 8
V (Z) = (20 + 125 + 256 + 500 + 1849)=20 64 = 137:5 64 = 73:5
32. G. Garau, L. Schirru 11
In C la variabilita e maggiore che in B. Si procede ora alla veri
33. ca della
concentrazione e per farlo e necessario costruire la spezzata di Lorenz, che si
riporta in
34. gura 5.
Figura 5: Confronto tra i settori B e C
In questo caso le due curve si intersecano per cui la rappresentazione gra
35. ca
non e piu suciente a fare una comparazione, bisogna percio calcolare l'indice
di concentrazione:
B:
fi B1 = (PN(i) QN(i)) B2 = (PN(i1) QN(i1)) fi(B1 + B2)
0.25 0.25-0.06 0 0.05
0.25 0.50-0.16 0.19 0.13
0.20 0.70-0.41 0.34 0.13
0.25 0.95-0.78 0.29 0.12
0.05 0 0.17 0.01
R = 0:43
C:
fi B1 = (PN(i) QN(i)) B2 = (PN(i1) QN(i1)) fi(B1 + B2)
0.25 0.25-0.06 0 0.05
0.25 0.50-0.22 0.19 0.12
0.20 0.70-0.42 0.28 0.11
0.25 0.95-0.73 0.28 0.13
0.05 0 0.22 0.01
R = 0:41
In eetti, anche se di poco, nel settore B si osserva una maggior concentra-
zione che nel settore C.
36. 12 G. Garau, L. Schirru
Esempio: La seguente tabella riporta il numero di aziende di un settore, clas-
si
37. cate per classi di fatturato e forma giuridica. Si confronti la concentrazione
del fatturato tra le SPA e le SNC.
y SPA SNC SAS altre
x
1-5 0 122 15 23 160
5-10 3 87 45 35 170
10-30 25 1 10 14 50
30-50 12 0 0 8 20
40 210 70 80 400
Nel caso in esame si conosce il numero di aziende che appartiene ad ogni
classe di fatturato ma non il singolo fatturato che puo essere, pero, stimato
ipotizzando (come usualmente si fa quando si calcola la media per dati rag-
gruppati in classi) che vi sia una distribuzione uniforme con densita uguale
in tutto l'intervallo, e si prende come rappresentativo di ogni classe il punto
centrale della stessa.
Nella pagina che segue si riportano le tabelle relative alle SPA e alle SNC e
i calcoli necessari alla costruzione dell'indice di concentrazione. Confrontando
i valori ottenuti si puo aermare che nelle SNC la concentrazione del fatturato
e superiore che nelle SPA.
39. 14 G. Garau, L. Schirru
L'indice di eterogeneita
Per i caratteri qualitativi non e possibile misurare le dierenze tra le mo-
dalita, per cui la diversita si misura con gli indicatori di mutabilita, nello
speci
40. co con l'indice di eterogeneita di Gini. Questo indicatore misura la va-
riabilita delle frequenze relative, che e calcolabile anche per le modalita qua-
litative. Come gia fatto per le variabili quantitative, in cui abbiamo de
41. nito
i due casi estremi che si possono manifestare nella distribuzione: massima
concentrazione e equidistribuzione, anche per le variabili qualitative si pos-
sono presentare due situazioni estreme: l'omogeneita (quando tutte le unita
statistiche considerate presentano la stessa modalita) e l'eterogeneita (se nel-
la distribuzione ci sono tutte le modalita possibili del carattere considerato
e a ognuna di esse e associata la medesima frequenza).
L'indice di eterogeneita di Gini gode di tutte le proprieta degli indici di
eterogeneita (assume valore zero se e solo se il collettivo e omogeneo e varia
al variare dell'eterogeneita tra i termini). Si pensi a un carattere qualitativo
con k modalita. L'indice di Gini (S) assume la seguente forma:
S = 1
Xk
i=1
f2
i
e vale zero se il collettivo considerato e omogeneo. In questo caso si osservera
infatti solo una delle k modalita del carattere, che avra frequenza assoluta
pari a N e frequenza relativa pari a 1. Le frequenze relative delle k 1
restanti modalita saranno invece nulle.
Modalita Frequenze assolute fi f2
i
a1 N N=N (N=N)2
a2 0 0 0
... ... ... ...
ai 0 0 0
... ... ... ...
ak 0 0 0
N 1
N
N
2
In questo caso l'indice assume il suo valore minimo:
min(S) = 1
N
N
2
= 0
L'indice S assume, invece il suo valore massimo quando le frequenze so-
no uniformemente distribuite tra le k modalita, ovvero in caso di massima
eterogeneita:
42. G. Garau, L. Schirru 15
Modalita Frequenze assolute fi f2
i
a1 N=k 1=k 1=k2
a2 N=k 1=k 1=k2
... ... ... ...
ai N=k 1=k 1=k2
... ... ... ...
ak N=k 1=k 1=k2
N 1 k 1
k2
che, dividendo per k, diventa:
max(S) = 1
1
k
=
k 1
k
Il max(S) serve per calcolare l'indice di eterogeneita relativo o normalizzato,
S (utilizzato per confrontare l'eterogeneita di piu collettivi, in particolare
quando e diverso il numero di modalita delle distribuzioni da confrontare) e si
ottiene rapportando l'indice assoluto, calcolato sulla distribuzione osservata
del carattere, al massimo valore possibile calcolato sulla distribuzione teorica.
S =
S
max(S)
=
1
Pk
f2
i=1 i
k1
k
!
Esempio: Nella tabella che segue si riportano le caratteristiche degli addetti
di un'azienda. Calcolare l'indice di eterogeneita della quali
43. ca funzionale e
del regime di impiego.
ID Stipendio Eta Anni servizio Quali
44. ca funzionale Regime di impiego
1 2650 40 15 Operaio Tempo pieno
2 2600 43 5 Operaio Part time
3 2050 35 6 Impiegato Tempo pieno
4 3500 27 6 Dirigente Part time
5 1400 36 3 Dirigente Collaboratori esterni
6 2400 30 12 Impiegato Tempo pieno
7 1900 41 13 Operaio Tempo pieno
8 2100 35 4 Impiegato Tempo pieno
9 2100 27 7 Operaio Tempo pieno
10 3050 38 18 Dirigente Tempo pieno
11 2800 38 20 Operaio Collaboratori esterni
12 2950 41 11 Operaio Collaboratori esterni
13 1900 36 4 Dirigente Collaboratori esterni
14 1650 29 11 Impiegato Collaboratori esterni
15 2550 40 4 Impiegato Collaboratori esterni
16 2000 23 10 Impiegato Tempo pieno
17 2150 26 8 Operaio Collaboratori esterni
18 2900 41 9 Dirigente Tempo pieno
19 2450 35 12 Operaio Collaboratori esterni
20 1950 31 8 Dirigente Collaboratori esterni
45. 16 G. Garau, L. Schirru
Si raggruppano gli addetti per quali
46. ca funzionale e si riportano nella tabella
che segue, in cui si indicano anche i passaggi per il calcolo dell'indicatore di
eterogeneita.
Quali
47. ca funzionale ni fi f2
i
Dirigente 6 0,3 0,09
Impiegato 6 0,3 0,09
Operaio 8 0,4 0,16
Totale addetti 20 1 0,34
indice di eterogeneita 0,66
S (max) 0,67
Indice di eterogeneita normalizzato 0,99
Si sostituiscono i valori calcolati nella formula dell'indice di eterogeneita:
S = 1
Xk
i=1
f2
i = 1 0; 34 = 0; 66
Questo valore deve essere normalizzato, quindi rapportato al valore massimo
dell'indicatore, che in questo caso corrisponde a 1 1
k = 1 1
3 = 0; 67.
S =
S
max(S)
=
0; 66
0; 67
= 0; 99
La distribuzione e molto eterogenea. Tutte le modalita sono presenti e con
frequenze molto simili tra loro.
Per valutare anche il grado di eterogeneita del regime d'impiego ripetiamo il
procedimento appena presentato. Partiamo con la tabella.
Regime d'impiego ni fi f2
i
Collaboratori esterni 9 0,45 0,2025
Part time 2 0,1 0,01
Tempo pieno 9 0,45 0,2025
Totale addetti 20 1 0,415
indice di eterogeneita 0,59
G (max) 0,67
Indice di eterogeneita normalizzato 0,8775
Anche in questo caso la distribuzione e abbastanza eterogenea. Stavolta pero,
anche se sono presenti tutte le modalita, le frequenze non sono equilibrate
tra loro.