Indici di mutua variabilità

1. Gli indici di mutua variabilita Questo paragrafo sostituisce gli indici di concentrazione del libro: Cos'e la Statistica. La statistica e necessaria per misurare la diversita dei fenomeni; senza la diversita non ci sarebbe bisogno della statistica. Si pensi a una popolazione in cui tutti gli abitanti sono della stessa altezza, dichiarano lo stesso reddito e votano per gli stessi candidati alle elezioni, sono tutti biondi e diplomati. Abbiamo elencato delle caratteristiche, quantitative o qualitative, che come ben sappiamo e contrariamente all'ipotesi in esempio, variano da individuo a individuo. Per misurare quanto variano si utilizzano degli indicatori dierenti a seconda che il carattere sia quantitativo o qualitativo. Nel primo caso gli indicatori sono di variabilita, mentre se si osservano caratteri qualitativi si utilizzano indicatori di mutabilita. Partiamo dai fenomeni quantitativi, trasferibili tra le unita statistiche, e de

2. niamo l'indicatore di concentrazione. La concentrazione La concentrazione e una misura della mutua variabilita, cioe della variabilita tra ogni possibile modalita di una variabile e tutte le altre. Come anticipa- to, l'analisi di concentrazione si puo applicare alle sole variabili quantitative trasferibili. Una variabile quantitativa si dice trasferibile se puo passare (ma- terialmente o idealmente) da un possessore ad un altro. Esempi di variabili trasferibili sono il reddito e la popolazione. La concentrazione studia, quindi, il modo in cui l'ammontare totale T si distribuisce fra le n unita e si indica con T = Pn i=1 yi il totale posseduto da n unita statistiche. Le due situazioni estreme sono: - la concentrazione minima (ovvero equidistribuzione): le n unita statistiche possiedono uguale quantita della variabile yi = T n = Pn i=1 yi n = y

3. 2 G. Garau, L. Schirru - la concentrazione massima: una unita possiede il totale e le altre n 1 possiedono un ammontare nullo della variabile. yn = T yi = 0 (i = 1; : : : ; n 1): Il reddito di un paese si de

4. nisce concentrato se una porzione elevata del reddito totale e posseduta da una piccola porzione di persone. Quindi al diminuire del numero di possessori, aumenta la concentrazione del reddito. Viceversa, al crescere del numero di possessori diminuisce la concentrazione,

5. no ad arrivare all'equidistribuzione, che e il caso limite in cui tutti hanno la stessa quantita del reddito totale. Per valutare se una variabile quantitativa e piu o meno concentrata, o se si vuole fare il confronto tra il livello di concentrazione in tempi o luo- ghi diversi, si puo utilizzare una rappresentare gra

6. ca. Nel caso in cui non sia interpretabile il risultato gra

7. co si procede al calcolo dell'indicatore di concentrazione. La rappresentazione gra

8. ca: curve di Lorenz (1904) e Gini (1914) Si consideri una distribuzione unitaria i cui termini sono non negativi e disposti in ordine crescente: 0 a1 a2 : : : ai : : : an Prendendo le prime unita (i), che saranno le piu povere e confrontando cio che possiedono con cio che gli spetterebbe in una situazione di equidistribuzione, in cui ai = (ogni unita possiede esattamente il valore medio), si de

9. nisce Ai 1: Ai = a1 + : : : + ai e A i = + : : : + = i Se si divide per l'ammontare complessivo del carattere, An, dove: An = a1 + : : : + ai + : : : + an e A n = n An = A n 1In generale si indica con un asterisco (*) una situazione ipotetica, virtuale di riferi- mento. In questo caso Ai rappresenta cio che spetterebbe alle prime i unita in situazione di equidistribuzione

10. G. Garau, L. Schirru 3 si ottiene: Qi = Ai An ossia la percentuale del carattere posseduto dalle prime i unita, e Pi = Ai An = i n = i n Dove Pi e il numero delle unita in rapporto alle unita totali (interpretabile anche come una frequenza relativa cumulata): Pi = somma delle unita

11. no alla i esima unita totali Vale la relazione: Ai |{iz} media sino ad i An |{nz} media generale che, moltiplicando a sinistra e a destra dell'equazione, per i An , si trasforma cos: i An Ai i An n i An Ai An i n Qi Pi Dall'equazione risulta che Qi e minore o al massimo uguale a Pi ed e tanto piu vicino a Pi quanto piu si e prossimi alla situazione di equidistribuzione. Esempio: Si consideri la seguente tabella della popolazione del Lazio suddi- visa per provincia di residenza (1990). Popolazione del Lazio i ai Ai Pi Qi Rieti 1 146 146 0.2 0.028 Viterbo 2 278 424 0.4 0.082 Latina 3 471 895 0.6 0.174 Frosinone 4 483 1378 0.8 0.267 Roma 5 3778 5156 1 1

12. 4 G. Garau, L. Schirru La tabella, in cui i dati sono stati ordinati in modo crescente, comprende anche i passaggi di calcolo necessari alla rappresentazione gra

13. ca. La

14. gura 1 e un diagramma a dispersione in cui si uniscono i punti (valori di Pi e Qi) e rappresenta la spezzata di Lorenz. L'interpretazione del gra

15. co in

16. gura 1 e la seguente: - Sulla bisettrice si trovano i punti tali che pi = qi. - L'area tra la bisettrice e la spezzata di Lorenz e la curva di concentrazione. - Piu l'area e grande, maggiore e la concentrazione, perche la curva dista dalla retta di equidistribuzione. - Nelle 3 province piu piccole (Rieti, Viterbo e Latina) risiede il 17.4% della popolazione, mentre in una situazione di equidistribuzione do- vrebbe risiedervi il 60%. Figura 1: Spezzata di Lorenz: la concentrazione della popolazione tra le 5 province del Lazio (1990) Si consideri invece il caso in cui il carattere (trasferibile) sia ripartito in classi: e cioe noto l'ammontare xi del carattere posseduto congiuntamente dalle ni unita che appartengono alla classe i.

17. G. Garau, L. Schirru 5 Esempio: Distribuzione del fatturato in 911 imprese del settore X. In tabella sono inseriti i calcoli necessari alla costruzione della spezzata di Lorenz. Fatturato ni Xi Ni PN(i) AN(i) QN(i) (milioni euro) 0{1 144 87 144 0.158 87 0.0158 1{5 457 1168 601 0.660 1255 0.2286 5{10 171 1200 772 0.847 2455 0.4472 10{25 112 1757 884 0.970 4212 0.7672 25 27 1278 911 1 5490 1 I dati della tabella, rappresentati in

18. gura 2 si possono interpretare cos: le aziende della prima classe (il 15.8% del totale delle aziende) contribuiscono solo all'1.58% del fatturato totale. Il 97% delle aziende possiede il 77% del fatturato totale, il che signi

19. ca che alle 27 aziende dell'ultima classe (il 3%) spetta il 23% del fatturato complessivo. Figura 2: Spezzata di Lorenz: Fatturato Queste considerazioni fanno pensare che il fatturato non sia propriamente ben distribuito tra le aziende. Ma per avere una misura della concentrazione e necessario utilizzare un indicatore speci

20. co. Si presenta quindi l'indice di concentrazione di Gini. La costruzione dell'indice di concentrazione Negli esempi proposti sono stati considerati due fenomeni diversi, relativi a variabili trasferibili (popolazione e fatturato), a cui corrispondono due curve

21. 6 G. Garau, L. Schirru di concentrazione tra di loro non confrontabili. Ci si e limitati, quindi, a considerazioni gra

22. che che in alcuni casi permettono comunque di osservare la dinamica dei fenomeni di concentrazione. E' tuttavia opportuno aancare al gra

23. co una misura della concentrazione, un indicatore, che nel caso speci

24. co non e altro che l'area compresa tra la retta di equidistribuzione e la spezzata di Lorenz. Come si procede? Nel caso di distribuzioni unitarie l'area puo essere scomposta nella somma di n trapezi (

25. gura 3). In particolare, le basi maggiore e minore dell'iesimo trapezio sono Pi1Qi1 e PiQi e altezza e costante e uguale a 1 n. Figura 3: Spezzata di Lorenz per Distribuzioni unitarie Si ricorda che l'area del trapezio si calcola con la formula: ((BMA + BMI) h)=2. Area Si : |((Pi Qi) +{(zPi1 Qi1)}) somma delle 2 basi 1 |{nz} altezza 1 2 La somma delle aree di questi n trapezi si puo scrivere cos: S = Xn i=1 [(PiQi)+(Pi1Qi1)] 1 n 1 2 = 1 2n Xn [ i=1 (PiQi)+ Xn1 i=0 (PiQi)] se si considera che (Pn Qn) = 0 e che (P0 Q0) = 0, allora: S = 1 2n [ Xn1 i=1 (Pi Qi) + Xn1 i=1 (Pi Qi)] = 1 n Xn1 i=1 (Pi Qi)

26. G. Garau, L. Schirru 7 Un indice cos calcolato non e di immediata interpretazione. Bisogna percio normalizzarlo, ottenendo un indicatore che varia tra 0 e 1. Si normalizza dividendo S per il valore massimo che puo assumere l'area di concentrazione. Quando n e molto elevato la concentrazione massima corrisponde all'area del triangolo sotto la retta di equidistribuzione. Il triangolo ha base e altezza uguale a 1 quindi la sua area sara: (1 1)=2, quindi 1=2. Per cui l'indice normalizzato di Gini corrisponde a: g = 2 n Xn1 i=1 (Pi Qi) Quando invece n non e molto elevato, i lati del triangolo saranno 1 e n1 n , quindi l'area (e la massima concentrazione) sara uguale a n1 2n . Per cui l'indicatore normalizzato diventa il seguente: g = 2 n 1 Xn1 i=1 (Pi Qi) Si consideri nuovamente l'esempio sulla concentrazione della popolazione e si calcoli l'indice di concentrazione: g = 2 4 [(0:2 0:028) + 0:318 + 0:426 + 0:533] = 0:7245 Questo valore indica un grado di concentrazione molto elevato, pari al 72% della concentrazione massima. Nel caso di distribuzioni in classi si avra invece un'area, scomposta in un numero di trapezi uguale al numero delle classi considerate. L'altezza non sara piu costante ma sara uguale a PN(i) PN(i1) = fi | {z } vedi figura 3 S sara quindi uguale a: S = 1 2 Xk i=1 [(PN(i) QN(i)) + (PN(i1) QN(i1))]fi Anche in questo caso il valore di massima concentrazione puo essere appros- simato ad 1/2 per n sucientemente grande, per cui l'indice di Gini per dati

27. 8 G. Garau, L. Schirru ripartiti in classi (R), si puo calcolare rapportando S al suo valore massimo, R = S 1=2 = 2S. R = Xk i=1 [(PN(i) QN(i)) + (PN(i1) QN(i1))]fi Riprendendo i dati del secondo esempio si ottiene: fi PN(i) QN(i) PN(i1) QN(i1) (B1 + B2) fi 0.158 0.1422 0 0.0225 0.502 0.4311 0.1422 0.2876 0.188 0.4002 0.4311 0.1561 0.123 0.2031 0.4002 0.0742 0.030 0 0.2031 0.0060 0.5463 $ R La concentrazione e pari al 55% della concentrazione massima. Quando n e sucientemente elevato l'indice di concentrazione si calcola utilizzando la seguente formula: R = n n 1 Xk i=1 [(PN(i) QN(i)) + (PN(i1) QN(i1))]fi Esempio: Analizzare in quale, tra i settori A e B, vi sia maggiore concentrazione degli addetti2. Calcolare prima il numero medio di addetti e la varianza. settore A settore B n.addetti n.imprese n.addetti n.imprese 3 5 2 5 5 5 3 5 10 4 10 4 12 5 12 5 20 1 35 1 20 20 Si indica con X il numero degli addetti del settore A e con Y il numero degli addetti del settore B. 2La tabella si legge cos: nel settore A 5 imprese su 20 hanno 3 addetti; altre 5 ne hanno 5 e cos via.

28. G. Garau, L. Schirru 9 Xi ni 3 5 5 5 10 4 12 5 20 1 20 Yi ni 2 5 3 5 10 4 12 5 35 1 20 M(X) = 3 5 + 5 5 + : : : + 20 1 20 = 160 20 = 8 V (X) = P X2 i ni z }| { M(X2)(M(X))2 = = 32 5 + 52 5 + 102 4 + 122 5 + 202 1 20 82 = 20:5 M(Y ) = 10 + 15 + 40 + 60 + 35 20 = 8 V (Y ) = M(Y 2)(M(Y ))2 = 4 5 + 9 5 + : : : 20 64 = 125:564 = 56:5 Le medie sono uguali ma la variabilita e maggiore nel settore B. Cio e dovuto alla presenza di una impresa con ben 35 addetti. Si puo quindi supporre che nel settore B ci sia maggiore concentrazione!?! Per dimostrarlo si deve costruire la curva di concentrazione e nella tabella che segue si riportano i dati necessari alla sua rappresentazione: settore A settore B Ai fi PN(i) QN(i) Ai fi PN(i) QN(i) 15 0,25 0,25 0,09 10 0,25 0,25 0,06 40 0,25 0,50 0,25 25 0,25 0,50 0,16 80 0,20 0,70 0,50 65 0,20 0,70 0,41 140 0,25 0,95 0,88 125 0,25 0,95 0,78 160 0,05 1 1 160 0,05 1 1 Come risulta dalla

29. gura 4, nel settore B c'e maggiore concentrazione che nel settore A, perche l'area di concentrazione e piu grande. Per confrontare i due settori e stato suciente costruire il gra

30. co.

31. 10 G. Garau, L. Schirru Figura 4: Confronto tra i settori A e B Si aggiunge al confronto un terzo settore (C) le cui imprese hanno le seguenti dimensioni (numero di addetti): settore C n.addetti n.imprese 2 5 5 5 8 4 10 5 43 1 20 Si indica con Z il numero di addetti nel settore C. Dopo aver calcolato anche per questo settore il valore medio e la varianza si confronti la concentrazione di addetti col settore B (che risulta piu concentrato del settore A). settore C Zi ni Ai fi PN(i) QN(i) 2 5 10 0,25 0,25 0,06 5 5 35 0,25 0,50 0,22 8 4 67 0,20 0,70 0,42 10 5 117 0,25 0,95 0,73 43 1 160 0,05 1 1,00 M(Z) = (10 + 25 + 32 + 50 + 43)=20 = 8 V (Z) = (20 + 125 + 256 + 500 + 1849)=20 64 = 137:5 64 = 73:5

32. G. Garau, L. Schirru 11 In C la variabilita e maggiore che in B. Si procede ora alla veri

33. ca della concentrazione e per farlo e necessario costruire la spezzata di Lorenz, che si riporta in

34. gura 5. Figura 5: Confronto tra i settori B e C In questo caso le due curve si intersecano per cui la rappresentazione gra

35. ca non e piu suciente a fare una comparazione, bisogna percio calcolare l'indice di concentrazione: B: fi B1 = (PN(i) QN(i)) B2 = (PN(i1) QN(i1)) fi(B1 + B2) 0.25 0.25-0.06 0 0.05 0.25 0.50-0.16 0.19 0.13 0.20 0.70-0.41 0.34 0.13 0.25 0.95-0.78 0.29 0.12 0.05 0 0.17 0.01 R = 0:43 C: fi B1 = (PN(i) QN(i)) B2 = (PN(i1) QN(i1)) fi(B1 + B2) 0.25 0.25-0.06 0 0.05 0.25 0.50-0.22 0.19 0.12 0.20 0.70-0.42 0.28 0.11 0.25 0.95-0.73 0.28 0.13 0.05 0 0.22 0.01 R = 0:41 In eetti, anche se di poco, nel settore B si osserva una maggior concentrazione che nel settore C.

36. 12 G. Garau, L. Schirru Esempio: La seguente tabella riporta il numero di aziende di un settore, classi

37. cate per classi di fatturato e forma giuridica. Si confronti la concentrazione del fatturato tra le SPA e le SNC. y SPA SNC SAS altre x 1-5 0 122 15 23 160 5-10 3 87 45 35 170 10-30 25 1 10 14 50 30-50 12 0 0 8 20 40 210 70 80 400 Nel caso in esame si conosce il numero di aziende che appartiene ad ogni classe di fatturato ma non il singolo fatturato che puo essere, pero, stimato ipotizzando (come usualmente si fa quando si calcola la media per dati rag- gruppati in classi) che vi sia una distribuzione uniforme con densita uguale in tutto l'intervallo, e si prende come rappresentativo di ogni classe il punto centrale della stessa. Nella pagina che segue si riportano le tabelle relative alle SPA e alle SNC e i calcoli necessari alla costruzione dell'indice di concentrazione. Confrontando i valori ottenuti si puo aermare che nelle SNC la concentrazione del fatturato e superiore che nelle SPA.

38. G. Garau, L. Schirru 13 SPA xmin xmax ni Ni fi PN(i) ai AN(i) QN(i) PN(i) QN(i) PN(i1) QN(i1) fi(B1 + B2) 1-5 1 5 0 0 0 0 0 0 0,00 0,00 0 0,00 5-10 5 10 3 3 0,08 0,08 22,5 22,5 0,02 0,05 0 0,00 10-30 10 30 25 25 0,63 0,70 500 522,5 0,52 0,18 0,05 0,14 30-50 30 50 12 12 0,3 1 480 1002,5 1,00 0 0,18 0,05 40 0,20 SNC SNC xmin xmax ni Ni fi PN(i) ai AN(i) QN(i) PN(i) QN(i) PN(i1) QN(i1) fi(B1 + B2) 1-5 1 5 122 122 0,58 0,58 366 366 0,35 0,23 0 0,13 5-10 5 10 87 87 0,41 0,995 652,5 1018,5 0,98 0,01 0,23 0,10 10-30 10 30 1 1 0,00 1,00 20 1038,5 1 0 0,01 0 30-50 30 50 0 0 0,00 1 0 1038,5 1 0 0 0 210 0,23

39. 14 G. Garau, L. Schirru L'indice di eterogeneita Per i caratteri qualitativi non e possibile misurare le dierenze tra le modalita, per cui la diversita si misura con gli indicatori di mutabilita, nello speci

40. co con l'indice di eterogeneita di Gini. Questo indicatore misura la variabilita delle frequenze relative, che e calcolabile anche per le modalita qualitative. Come gia fatto per le variabili quantitative, in cui abbiamo de

41. nito i due casi estremi che si possono manifestare nella distribuzione: massima concentrazione e equidistribuzione, anche per le variabili qualitative si possono presentare due situazioni estreme: l'omogeneita (quando tutte le unita statistiche considerate presentano la stessa modalita) e l'eterogeneita (se nella distribuzione ci sono tutte le modalita possibili del carattere considerato e a ognuna di esse e associata la medesima frequenza). L'indice di eterogeneita di Gini gode di tutte le proprieta degli indici di eterogeneita (assume valore zero se e solo se il collettivo e omogeneo e varia al variare dell'eterogeneita tra i termini). Si pensi a un carattere qualitativo con k modalita. L'indice di Gini (S) assume la seguente forma: S = 1 Xk i=1 f2 i e vale zero se il collettivo considerato e omogeneo. In questo caso si osservera infatti solo una delle k modalita del carattere, che avra frequenza assoluta pari a N e frequenza relativa pari a 1. Le frequenze relative delle k 1 restanti modalita saranno invece nulle. Modalita Frequenze assolute fi f2 i a1 N N=N (N=N)2 a2 0 0 0 ... ... ... ... ai 0 0 0 ... ... ... ... ak 0 0 0 N 1 N N 2 In questo caso l'indice assume il suo valore minimo: min(S) = 1 N N 2 = 0 L'indice S assume, invece il suo valore massimo quando le frequenze sono uniformemente distribuite tra le k modalita, ovvero in caso di massima eterogeneita:

42. G. Garau, L. Schirru 15 Modalita Frequenze assolute fi f2 i a1 N=k 1=k 1=k2 a2 N=k 1=k 1=k2 ... ... ... ... ai N=k 1=k 1=k2 ... ... ... ... ak N=k 1=k 1=k2 N 1 k 1 k2 che, dividendo per k, diventa: max(S) = 1 1 k = k 1 k Il max(S) serve per calcolare l'indice di eterogeneita relativo o normalizzato, S (utilizzato per confrontare l'eterogeneita di piu collettivi, in particolare quando e diverso il numero di modalita delle distribuzioni da confrontare) e si ottiene rapportando l'indice assoluto, calcolato sulla distribuzione osservata del carattere, al massimo valore possibile calcolato sulla distribuzione teorica. S = S max(S) = 1 Pk f2 i=1 i k1 k ! Esempio: Nella tabella che segue si riportano le caratteristiche degli addetti di un'azienda. Calcolare l'indice di eterogeneita della quali

43. ca funzionale e del regime di impiego. ID Stipendio Eta Anni servizio Quali

44. ca funzionale Regime di impiego 1 2650 40 15 Operaio Tempo pieno 2 2600 43 5 Operaio Part time 3 2050 35 6 Impiegato Tempo pieno 4 3500 27 6 Dirigente Part time 5 1400 36 3 Dirigente Collaboratori esterni 6 2400 30 12 Impiegato Tempo pieno 7 1900 41 13 Operaio Tempo pieno 8 2100 35 4 Impiegato Tempo pieno 9 2100 27 7 Operaio Tempo pieno 10 3050 38 18 Dirigente Tempo pieno 11 2800 38 20 Operaio Collaboratori esterni 12 2950 41 11 Operaio Collaboratori esterni 13 1900 36 4 Dirigente Collaboratori esterni 14 1650 29 11 Impiegato Collaboratori esterni 15 2550 40 4 Impiegato Collaboratori esterni 16 2000 23 10 Impiegato Tempo pieno 17 2150 26 8 Operaio Collaboratori esterni 18 2900 41 9 Dirigente Tempo pieno 19 2450 35 12 Operaio Collaboratori esterni 20 1950 31 8 Dirigente Collaboratori esterni

45. 16 G. Garau, L. Schirru Si raggruppano gli addetti per quali

46. ca funzionale e si riportano nella tabella che segue, in cui si indicano anche i passaggi per il calcolo dell'indicatore di eterogeneita. Quali

47. ca funzionale ni fi f2 i Dirigente 6 0,3 0,09 Impiegato 6 0,3 0,09 Operaio 8 0,4 0,16 Totale addetti 20 1 0,34 indice di eterogeneita 0,66 S (max) 0,67 Indice di eterogeneita normalizzato 0,99 Si sostituiscono i valori calcolati nella formula dell'indice di eterogeneita: S = 1 Xk i=1 f2 i = 1 0; 34 = 0; 66 Questo valore deve essere normalizzato, quindi rapportato al valore massimo dell'indicatore, che in questo caso corrisponde a 1 1 k = 1 1 3 = 0; 67. S = S max(S) = 0; 66 0; 67 = 0; 99 La distribuzione e molto eterogenea. Tutte le modalita sono presenti e con frequenze molto simili tra loro. Per valutare anche il grado di eterogeneita del regime d'impiego ripetiamo il procedimento appena presentato. Partiamo con la tabella. Regime d'impiego ni fi f2 i Collaboratori esterni 9 0,45 0,2025 Part time 2 0,1 0,01 Tempo pieno 9 0,45 0,2025 Totale addetti 20 1 0,415 indice di eterogeneita 0,59 G (max) 0,67 Indice di eterogeneita normalizzato 0,8775 Anche in questo caso la distribuzione e abbastanza eterogenea. Stavolta pero, anche se sono presenti tutte le modalita, le frequenze non sono equilibrate tra loro.

Indici di mutua variabilità

Recommended

Recommended

More Related Content

Similar to Indici di mutua variabilità

Similar to Indici di mutua variabilità (16)

More from Lucia Schirru

More from Lucia Schirru (9)

Recently uploaded

Recently uploaded (7)

Indici di mutua variabilità