2. Estratègia que hem d’utilitzar per analitzar un conjunt de
dades d’una variable numèrica:
1) Comencen amb un gràfic (histograma)
2) Identifiquem l'aspecte general (centre, dispersió, forma)
i les desviacions atípiques
3) Escollim resums numèrics per descriure de forma breu
el que hem identificat en la descripció gràfica
A més a més...
4) Quan tenim un gran número d’observacions, a vegades
la forma de la distribució és molt regular i la podem
descriure mitjançant una corba: corba de densitat
2
4. Corba de densitat
Corba de densitat: és una descripció general de la forma
de la distribució
Està sempre en o per sobre l’eix horitzontal
Defineix per sota una àrea exactament igual a 1
Serveix per:
Descriure fàcilment la forma de la distribució
Per calcular ràpidament proporcions de casos per
intervals concrets
Perd el detall de l’histograma (ignora les irregularitats:
observacions atípiques, buits), però és pràctic com a
descripció general de la forma
4
5. Corbes normals
La mitjana i la mediana són iguals i es troben al centre
Els quartils divideixen l’àrea per sota de la corba en quatre
parts iguals. Es poden ubicar si se sap l'àrea al voltant de la
mediana
La desviació típica sols es pot ubicar mitjançant càlculs
matemàtics avançats i per distribucions concretes
5
6. Corbes normals
La corba de densitat és una descripció idealitzada d’una
distribució de dades. Per tant, distingir entre:
La mitjana i la desviació típica
d’una distribució concreta x s
La mitjana i la desviació típica σ
d’una corba de densitat
Característiques corbes normals:
Descriuen a les distribucions normals
Simètriques
Unimodals (muntanya amb una sola cima)
Forma de campana (campana de Gauss)
Es descriuen amb la mitjana (al centre de la corba) i la
desviació típica (controla la dispersió de la corba normal)
6
8. Distribucions normals
Notació per identificar a la distribució normal
Distribució normal de mitjana µ i desviació típica σ
N (µ ,σ ) p.ex. alçada noies N(1,64 , 0,06)
Per què són interessants les distribucions normals?
Són una bona descripció de les distribucions de
fenòmens reals ( p. ex: les notes d’un examen)
Es reprodueixen en molts experiments amb atzar
S’utilitzen molt en procediments d’inferència estadística
No obstant... Molts altres fenòmens reals tenen
distribucions diferents (p.ex: la distribució de la renda és
asimètrica a la dreta) 8
9. Distribucions normals
Transformació de les observacions a observacions
estandaritzades (z)
Si x és una observació d’una distribució de mitjana µ i
desviació típica σ, el valor estandaritzat de x és:
x−µ
z=
σ
Per què serveixen les observacions estandaritzades?
Per expressar les observacions en una escala comuna
Per apreciar immediatament a quantes desviacions típiques es
troba l’observació respecte de la mitjana i en quina direcció
Un cop estandaritzem, observacions positives es troben per
sobre de la mitjana i les negatives es troben per sota de la mitjana
9
10. Exemple:
La distribució d’altures de les noies entre 18 i 24 anys és
aproximadament normal amb una mitjana de 1,64 i una
desviació típica de 0,06m:
N(1,64 , 0,06)
Una noia de 1,72m d’altura, té una altura estandaritzada de:
alçada − 1,64 1,72 − 1,64
z= = = 1,33
0,06 0,06
O sigui, la seva altura és 1,33 desviacions típiques major
que la mitjana.
10
11. Distribució normal estandaritzada
La distribució normal estandaritzada és la distribució normal
N(0,1) de mitjana 0 i desviació típica 1
Si una variable x té una distribució normal N(µ,σ), llavors la
variable estandaritzada z té una distribució normal estandaritzada
N(0,1)
x−µ
z= z = distribució normal
x = distribució normal σ
N(µ,σ) estandaritzada
N(0,1)
Càlcul de proporcions amb la distribució normal
Totes les distribucions normals son la mateixa quan les
estandaritzem N(0,1). Així, podem trobar les àrees per sota de
qualsevol corba normal estandaritzada utilitzant una sola
taula, una taula que dona les àrees per sota de la curva
normal estandaritzada (Taula A, Moore) 11
13. Distribució normal estandaritzada
La taula A és la taula de les àrees sota la corba normal
estandaritzada. El valor de la taula corresponent a cada
valor d z és l’àrea sota la corba situada a l’esquerra de z
13
14. Distribució normal estandaritzada
Procediment per trobar proporcions d’observacions a
la distribució normal
1) Plantejar el problema respecte a la variable observada x
2) Estandaritzar x per replantejar el problema respecte a la
variable normalitzada z.
3) Fer un dibuix per situar l’àrea sota de la corba normal
estandaritzada
4) Trobar l’àrea sota la corba normal estandaritzada,
utilitzant la Taula A i tenint en compte que l’àrea total
sota la corba és de 1. Si volem trobar l’àrea entre un
interval en concret, restem l’àrea de l’esquerre d’un valor
de l’àrea de l’esquerra de l’altre valor (veure gràficament)
14
15. Exemple 1:
La distribució del nivell de colesterol en els nois de 14 anys té
una mitjana de 170 mg/dl i una desviació típica de 30 mg/dl.
Si la distribució és aproximadament normal, quin percentatge
de nois de 14 anys té més de 240 mg/dl de colesterol? (nivell
perillós per a la salut)
1) Plantegem el problema
x : nivell de colesterol, amb distribució N(170,30)
Pregunta: quina proporció de joves de 14 anys té x > 240?
2) Estandaritzem la variable d’interès (x>240):
x−µ 240 − 170
z= = = 2,33
σ 30
15
16. Exemple 1:
3) Situem l’àrea d'interès a la corba normal estandaritzada
La taula ens dona la
proporció a l’esquerra del
valor z. Si volem el de la
dreta hem de fer 1-valor
4) Busco a la Taula A. L’àrea a l’esquerra de z=2,33 és 0,99
L’àrea d’interès és 1 – 0,99 = 0,01. Per tant, podem
concloure que sols un 1% dels nois de 14 anys tenen un
nivell perillós de colesterol
16
18. Exemple 2:
La distribució d’alçades de les noies entre 18 i 24 anys és
aproximadament normal amb una mitjana de 1,64m i una
desviació típica de 0,06m. Quina proporció de noies tenen
una alçada menor a 1,72m?
1) Plantegem el problema
x : alçada, amb distribució N(1,64, 0,06)
Pregunta: quina proporció de noies té x <1,72?
2) Estandaritzem la variable d’interès (x<1,72):
x−µ 1,72 − 1,64
z= = = 1,33
σ 0,06
18
19. Exemple 2:
3) Situem l’àrea d'interès a la corba normal estandaritzada
z =1,33
4) Busco a la Taula A. L’àrea a l’esquerra de z=1,33 és
0,9082 (aprox = 0,91)
Per tant, podem concloure que un 91% de les noies entre 18
i 24 anys tenen una alçada menor a 1,72m
19
20. Distribució normal estandaritzada
Procediment per trobar un valor donada una proporció
Exemple: Les notes d’un examen tenen una distribució
N(430,100). Quina ha de ser la nota d’un alumne per pertànyer
al 10% d’alumnes amb millor nota?
1) Plantejar el problema: Nota amb una àrea de 0,9 a l’esquerra
2) Plantejar el problema en termes de l’àrea situada a l’esquerra
de z, i utilitzar la taula A en direcció contraria:
El valor més pròxim a 0,9 és 0,8997 i correspon a z=1,28
3) Desestandaritzar per passar de la z al valor de la variable x:
x−µ
z= x = zσ + µ = 1,28(100) + 430 = 558
σ
Un estudiant ha d’obtenir al menys 558 punts per estar entre
el 10% dels millors estudiants! 20
21. Regla del 68-95-99,7
En una distribució normal de mitjana µ i desviació típica σ:
El 68% de les observacions es troben entre µ-σ i µ+σ
El 95% de les observacions es troben entre µ-2σ i µ+2σ
El 99,7% de les observacions es troben entre µ-3σ i µ+3σ
21
24. Mesures de desigualtat
Per què mesures de desigualtat?
A vegades ens interessa analitzar les diferències que hi
ha entre els valors d’una mateixa variable. Exemples:
Desigualtat de la renda o la riquesa
Diferències de salaris entre treballadors d’una
empresa
Diferències de vendes, inversions, quotes de mercat
entre empreses
Podem tenir dues distribucions amb un grau de desigualtat
molt diferent, però amb la mateixa mitjana i mediana
Per tant, necessitem mesures que ens ajudin a descriure els
desequilibris (grau desigualtat) dels valors d’una distribució.
24
25. Mesures de desigualtat: Exemple 1
Exemple: Distribució de la renda entre diferents individus
% Població % Riquesa
Individus Riquesa % Població % Riquesa
acumulada (pi) acumulada (qi)
A 1 0,1 0,1 0,009 0,009
B 1 0,1 0,2 0,009 0,018
C 1 0,1 0,3 0,009 0,027
D 1 0,1 0,4 0,009 0,036
E 1 0,1 0,5 0,009 0,045
F 1 0,1 0,6 0,009 0,054
G 1 0,1 0,7 0,009 0,064
H 2 0,1 0,8 0,018 0,082
I 2 0,1 0,9 0,018 0,1
J 99 0,1 1 0,9 1
10 110 1 1 1 1
La comparació d’aquestes dues columnes mostra la desigualtat
25
26. Mesures de desigualtat: Exemple 1
% Població % Riquesa
acumulada acumulada
El 10% de la població té el 0,9%
0,1 0,009
El 20% de la població té el 1,8% 0,2 0,018
El 30% de la població té el 2,7% 0,3 0,027
El 40% de la població té el 3,6% 0,4 0,036
El 50% de la població té el 4,5% 0,5 0,045
El 60% de la població té el 5,4% 0,6 0,054
El 70% de la població té el 6,4% 0,7 0,064
El 80% de la població té el 8,2% 0,8 0,082
El 90% de la població té el 10% 0,9 0,1
El 100% de la població té el 100% 1 1
Aquí es veu la desigualtat de la distribució
26
27. Exemple 2: igualtat perfecte
% Població % Riquesa
acumulada acumulada
El 10% de la població té el 10%
0,1 0,1
El 20% de la població té el 20% 0,2 0,2
El 30% de la població té el 30% 0,3 0,3
El 40% de la població té el 40% 0,4 0,4
El 50% de la població té el 50% 0,5 0,5
El 60% de la població té el 60% 0,6 0,6
El 70% de la població té el 70% 0,7 0,7
El 80% de la població té el 80% 0,8 0,8
El 90% de la població té el 90% 0,9 0,9
El 100% de la població té el 100% 1 1
Igualtat perfecta: tothom té el mateix. Totes les proporcions
son iguals! 27
28. Exemple 3: desigualtat perfecte
% Població % Riquesa
acumulada acumulada
El 10% de la població té el 0% 0,1 0
El 20% de la població té el 0% 0,2 0
El 30% de la població té el 0% 0,3 0
El 40% de la població té el 0% 0,4 0
El 50% de la població té el 0% 0,5 0
El 60% de la població té el 0% 0,6 0
El 70% de la població té el 0% 0,7 0
El 80% de la població té el 0% 0,8 0
El 90% de la població té el 0% 0,9 0
El 100% de la població té el 100% 1 1
Desigualtat perfecta: hi ha un individu que ho té tot!
28
29. Índex de Lorenz-Gini
k −1 - pi: proporció de població
∑(p − q ) i i acumulada del grup (individu) i
IL = i =1
k −1 - qi: proporció de riquesa
∑p
i =1
i acumulada del grup (individu) i
Fluctua entre 0 i 1 i mesura el grau de desigualtat d’una
distribució
Val igual a 0 si hi ha màxima igualtat: quan més proper
a 0 més igualtat
Val igual a 1 si hi ha màxima desigualtat: quan més
proper a 1 més desigualtat
29
32. Índex de Lorenz-Gini
Exemple 1:
k −1
∑(p − qi )
i
(0,1 − 0,009) + (0,2 − 0,018) + ... + (0,9 − 0,1)
IL = i =1
k −1
= = 0,091
(0,1 + 0,2 + ... + 0,9)
∑p
i =1
i
Exemple 2 (igualtat perfecte):
k −1
∑(p − q ) i i
(0,1 − 0,1) + (0,2 − 0,2) + ... + (0,9 − 0,9)
IL = i =1
k −1
= =0
(0,1 + 0,2 + ... + 0,9)
∑p
i =1
i
Exemple 3 (desigualtat perfecte):
k −1
∑( p − qi )
i
(0,1 − 0) + (0,2 − 0) + ... + (0,9 − 0)
IL = i =1
k −1
= =1
(0,1 + 0,02 + ... + 0,9)
∑p
i =1
i
32
33. Corba de Lorenz
És la representació gràfica de l’índex de Lorenz-Gini
Com es construeix?
1. S’ordena als individus de menor a major renda
2. Se’ls divideix en grups d’igual grandària (preferiblement):
decils és el més comú (10% de la població a cada grup) o
quintils (20%) (dependrà també de les dades disponibles)
3. Es calcula el percentatge de població total que representa
cada grup, així com el percentatge acumulat de població
que representa cada grup
4. Es calcula el percentatge de la renda total que posseeix
cada grup prèviament definits així com el percentatge
acumulat de renda que posseeix cada grup
33
34. Corba de Lorenz (1,1) sempre hi és
Exemple1:
1
0,9
0,8
Proporció valors acumulats
0,7
0,6
Quant més allunyada 0,5
de la diagonal (corba 0,4
de màxima igualtat) 0,3
més desigualtat hi ha 0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
(0,0) sempre Fre qüe ncia re lativa acum ulada
hi és
34
35. Corbes de Lorenz
Exemple 2 : Màxima igualtat. Tothom té el mateix,
totes les proporcions son iguals.
1
0,9
0,8
Proporció valors acumulats
0,7
La corba 0,6
coincideix amb 0,5
0,4
la diagonal 0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
Fr e q ü e n cia r e lativa acu m u lad a
35
36. Corbes de Lorenz
Exemple 3: Màxima desigualtat. Hi ha un individu
que ho té tot.
1
0,9
0,8
Proporció valors acumulats
0,7
0,6
La corba va
0,5 sobre els eixos
0,4
0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
Freqüencia relativa acum ulada
36
37. Exemple 4:
%
% Població %
Decil Renda
acumulada Renda
Acumulada
El 10% de la població té el 2,7% 1 0,1 2,7 2,7
2 0,2 4,6 7,3
El 20% de la població té el 7,3%
3 0,3 5,7 13
……
4 0,4 6,8 19,8
5 0,5 7,9 27,7
6 0,6 9 36,7
7 0,7 10,4 47,1
8 0,8 12,2 59,3
9 0,9 15,2 74,5
El 100% de la població té el 100% 10 1 25,4 100
37
38. Desigualtat en la distribució de la renda
%
Decil Renda
Acumulada
1 2,7
2 7,3
3 13
4 19,8
5 27,7
6 36,7
7 47,1
8 59,3
9 74,5
10 100
38
39. Interpretació de les corbes de Lorenz
Quan hi ha igualtat total, la corba de Lorenz coincideix amb
la diagonal (línia blava). Així, quant més a prop es trobi la
corba de Lorenz de la diagonal, més igualitària és la
distribució
Criteri de dominància de Lorenz: CLA domina a CLB si, per
a qualsevol decil, el percentatge de renda acumulat a la
societat “A” és superior que a “B”. En tals casos, la
distribució de la renda en “A” és més igualitària que en “B”
Quan les corbes de Lorenz de dues distribucions es creuen,
no està clar quina d’aquestes és més (des)igualitària. En tals
casos, resulta més útil disposar d’una mesura que sintetitzi
en un sol número el grau de desigualtat: Índex de Gini
39
40. Càlcul alternatiu de l’Índex de Gini
Constitueix una mesura numèrica de la desigualtat d’una
distribució de la renda i es troba entre 0 (igualtat total) i 1
(desigualtat total)
IG = 2 x Àrea entre la corba de Lorenz i la línia d’igualtat
(diagonal)
Donades dues distribucions de renda, la més igualitària
serà aquella que tingui un IG més proper a zero
Com calcular índexs de Gini a la pràctica?
40
42. Desigualtat en la distribució de la renda
S’han proposat múltiples mesures per tractar de valorar el
grau de desigualtat en la distribució de la renda en una
determinada societat
Una de las alternatives més simples és utilitzar quintils:
S’ordena als individus de menor a major renda
Se’ls divideix en cinc grups d’igual grandària (20% de la
població a cada grup)
Es calcula el percentatge de la renda total que posseeix
cadascun dels 5 grups anteriors
Si la distribució fos completament igualitària, cada grup
tindria el 20% de la renda total de la societat
42
43. Desigualtat en el món
Primer Segon Tercer Quart Quint
País Quintil Quintil Quintil Quintil Quintil
Japó 8.7% 13.2% 17.5% 23.1% 37.5%
Corea del
7.4% 12.3% 16.3% 21.8% 42.2%
Sud
Xina 6.4% 11.0% 16.4% 24.4% 41.8%
USA 4.7% 11.0% 17.4% 25.0% 41.9%
UK 4.6% 10.0% 16.8% 24.3% 44.3%
Mèxic 4.1% 7.8% 12.3% 19.9% 55.9%
Brasil 2.1% 4.9% 8.9% 16.8% 67.5%
43
44. La desigualtat a Espanya:
Situació actual i evolució recent
Estudio: “Recent trends in Spanish Income Distribution: A
Robust Picture of Falling Income Inequality”. Josep Oliver
Alonso. Xavier Ramos. José Luis Raymond-Bara. Funcas.
Documento de Trabajo 166/2001
Característiques de l’estudi:
Dades: Enquesta Continua de Pressupostos Familiars
Període d’anàlisi: 1985-1996
Escala d’equivalència: OCDE modificada
Definició de renda utilitzada: renda neta inicial (equivalent)
Mesures de desigualtat:
Corbes de Lorenz i Índexs de Gini 44
45. Desigualtat de la renda a Espanya:
1985 vs 1996
% Renda 1985 1996 Igualdad
Acumulada
100
Decils 1985 1996 90
1 2,5 3,3
% a c u m u l a d o r e n ta
80
2 4,4 5,1 70
60
3 5,7 6,2
50
4 6,8 7,2 40
5 8 8,4 30
6 9,3 9,5 20
10
7 10,7 10,7 0
8 12,5 12,4 0 10 20 30 40 50 60 70 80 90 100
9 15,4 14,7 % acumulado población
10 24,7 22,5
45
46. Evolució de la desigualtat a Espanya:
Índex de Gini
0,34
0,33
0,32
0,31
0,3
GINI
0,29
0,28
0,27
0,26
0,25
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
Anys
46
47. Desigualtat entre províncies catalanes
Renda total
Població Renda per càpita
(milions pessetes)
Barcelona 7.146.327 4.628.277 1,54
Girona 906.114 530.631 1,71
Tarragona 881.821 574.676 1,53
Lleida 597.469 356.456 1,68
Volem calcular la corba de Lorenz i l’Índex de Gini
Informació: Renda total de cada província i nombre de
persones
Què necessitem? % població acumulada i % renda
acumulada
47
48. Desigualtat entre províncies catalanes
1) Ordenem de més pobres a més rics.
Renda per càpita
Tarragona 1,53
Barcelona 1,54
Lleida 1,68
Girona 1,71
48
49. Desigualtat entre les províncies catalanes
3) Es calcula el percentatge de població total que representa
cada grup, així com el percentatge acumulat de població.
També es calcula el percentatge de la renda total que
posseeix cada província, així com el percentatge acumulat
de renda.
% % Població % Renda
Renda total Població % Renda
Població acumulada acumulada
Tarragona 881.821 574.676 0,09 0,09 0,09 0,09
Barcelona 7.146.3274.628.277 0,76 0,85 0,75 0,84
Lleida 597.469 356.456 0,06 0,91 0,06 0,90
Girona 906.114 530.631 0,09 1,00 0,10 1,00
TOTAL 9.531.7316.090.040 1 1 1 1
49
50. Desigualtat entre províncies catalanes
Ara que tenim el percentatge de població
acumulada i el percentatge de renda acumulada, ja
podem calcular l’IG i la corba de Lorenz
% Població % Renda
acumulada (pi) acumulada (qi)
Tarragona 0,09 0,09
Barcelona 0,85 0,84
Lleida 0,91 0,90
Girona 1,00 1,00
suma( pi − qi ) (0,09 − 0,09) + (0,85 − 0,84) + (0,91 − 0,90)
IL = = = 0,01
suma( pi ) 0,09 + 0,85 + 0,91
Índex de Gini: Hi ha molt poca desigualtat!
50
51. Corba de Lorenz
1
0,9
0,8
Proporció valors acumulats
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
Fr e qüe ncia r e lativa acum u lada
51
52. Ara bé, quin índex de Gini obtindríem si
calculéssim la inversió (per càpita) en
infraestructures que fa l’Estat Espanyol a les
diferents CCAA?
O el dèficit fiscal de l’Estat Espanyol amb les
diferents CCAA?
52