2. Niveles de medición
(tipos de variables)
V. Nominal V. Ordinal
V. Intervalar
(escala)
• Sexo
• Nacionalidad
• Estado civil
• Diagnóstico
psiquiátrico
• ¿Recibió
terapia?
• Puesto en una
carrera
• Orden de
mérito
• Escala en la
universidad
• Nivel educativo
• Edad
• Salario
• Temperatura
• Número de
hijos
• Coeficiente
Intelectual
• Talla y peso
3. De análisis o de
Comparación
Razón = Proporción = Tasas
Entre las razones más usadas
en estadísticas vitales y
sanitarias, se encuentran:
Razón e índice de
natalidad mortalidad.
Razón e índice de
mortinatalidad
Indice de fertilidad..
• Otros: Habitantes/Km2.
Médicos/Habitante.
Kilómetros/Hora
etc.
Entre los porcentajes más usados se
encuentran:
PORCENTAJE DE CAMBIO
Porcentaje de aumento.
Porcentaje de disminución.
PORCENTAJE DE ERROR
Se obtiene dividiendo la diferencia
del valor aproximado y el exacto
entre el valor exacto, multiplicado
por 100.
Las tasas tienen su mayor utilidad en el campo de
las estadísticas vitales, las cuales están relacionadas
con problemas de población, como nacimientos
(natalidad), muertes (mortalidad) y muchos otros
fenómenos de tipo social.
Para comprender una tasa, debemos conocer:
• El período de tiempo (anual, trimestral, etc)
• El # de nacimientos, muertes, casamientos, etc.
(Para el numerador)
• El total de la población (para el denominador)
• Las unidades por cada 100, por cada 1000, etc.
4. ESTADÍGRAFOS, ESTADÍSTICOS, O ESTIMADORES
Son cifras descriptivas dadas en función de la muestra que nos
permite tener una visión completa del fenómeno.
Existen cuatro tipos:
De posición: Posición que ocupa la distribución de frecuencia
respecto al valor de la variable.
De dispersión: Nos indica qué tan dispersos están los datos
alrededor de su valor promedio.
De concentración: Indica el grado de concentración o de
desigualdad de una distribución.
De forma: Indican la forma de la curva o polígono.
5. ESTADÍGRAFOS DE POSICIÓN
ESTADÍGRAFOS DE
TENDENCIA CENTRAL
ESTADÍGRAFOS DE
LOCALIZACIÓN
Brinda información sobre el
centro de la distribución.
Estos son:
Media Aritmética
(Media).
Media Geométrica.
Media Armónica.
Moda.
Mediana.
Senalan la localización de los
valores más frecuentes o de
valores externos. Estos son:
Cuantiles (describe el
comportamiento de la
muestra):
- Deciles
- Cuartiles
- Percentiles.
8. Aron, Aron y Coups (2013)
Es el valor
observado más
común en una
distribución
9. Aron, Aron y Coups (2013)
Si ordenamos
todas las
observaciones
de menor a
mayor, el valor
central es la
mediana
Definimos la mediana de los datos como aquel valor
que deja el 50% de los datos por encima y el 50% de
los datos por debajo de dicho valor, una vez
ordenados los datos de menor a mayor.
11. ESTADÍGRAFOS DE
DISPERSIÓN
Indican qué tan dispersos están los datos alrededor de su valor promedio. Son:
Varianza.
Desviación típica (estándar).
Coeficiente de Variación.
ESTADÍGRAFOS DE
CONCENTRACIÓN
Indican el grado de concentración o de desigualdad de una distribución.
16. ESTADÍGRAFOS DE FORMA
Indican la forma de la curva o polígono. Pueden ser:
Curvas de polígonos (frecuencias porcentuales, ojiva menor que, ojiva
mayor o igual que).
Simetría o asimetría.
Apuntamiento o Curtosis (forma más o menos aplastada o alargada en la
punta, y están en función de los deciles).
Distribución
Normal Estándar
(Campana de Gauss)
19. FRECUENCIA ABSOLUTA (fi):
Número de datos que resulta del conteo en la
categoría respectiva.
FRECUENCIA RELATIVA (hi):
Se define en cada categoría por: hi = fi/n. Su
sumatoria es igual a la unidad.
FRECUENCIA PORCENTAJE (pi):
Es igual a la frecuencia relativa multiplicada por
100%. Su sumatoria es igual a 100.
20.
21.
22.
23. Si “n” valores de una variable discreta “x”
observados en una muestra de una población,
tienen (k ≤ n) valores distintos, x1, x2, …, xk, que
se repiten respectivamente f1, f2, …, fk veces,
entonces, la organización o agrupación de estos
“n” datos originan la distribución de frecuencias.
GRAFICA DE LA DISTRIBUCION DE VARIABLE
DISCRETA:
La representación de una distribución de
frecuencias de variable discreta puede mostrarse
a través de barras, líneas verticales (bastones),
etc.
25. Ante la pregunta del número de hijos por
familia, una muestra de 20 hogares
marcó las siguientes respuestas:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0
3, 2, 1, 3, 2, 3, 3, 1, 2, 4
Obtenga la distribución de frecuencias de
los datos y luego grafique.
28. Esta distribución se aplica cuando la
variable estadística cuantitativa es
continua o cuando el numero de valores
distintos de una variable discreta es muy
grande.
La amplitud (A) de los intervalos, se
obtiene dividiendo el rango (R) de
valores de los datos entre “k” intervalos y
determinando el numero de datos que
contiene cada intervalo.
30. Para construir la distribución de frecuencias por
intervalos hay varios procedimientos, pero se
recomienda:
◦ Elegir no menos de 4 ni más de 20 intervalos. Con
menos de 4 se puede omitir características, con más
de 20 se pueden complicar innecesariamente los
cálculos. (Todos los intervalos deben tener la misma
amplitud. La amplitud debe ser entero en lo posible).
◦ El número de intervalos elegidos, debe originar una
distribución de frecuencias mono modal. Es decir, una
distribución cuyas frecuencias van aumentando
progresivamente hasta una frecuencia máxima y luego
van disminuyendo también progresivamente.
31. 1. Determinar el rango (R) de los datos que se definen:
R = Xmax – Xmin
Donde: Xmax= dato máximo, Xmin= dato mínimo
2. Determinar el numero de intervalos, k, la regla de
Sturges nos da un valor aproximado:
k = 1 + 3,3 log (n), n ≥ 10
redondeando el numero obtenido al entero
inmediato mayor.
3. Determinar la amplitud A del intervalo: , kA ≥ R.
k
R
A
32. 4. Determinar los extremos de los intervalos
de la siguiente manera:
I1 = [Xmin , Xmin + A>
I2 = [Xmin + A, Xmin + 2A>
I3 = [Xmin + 2A, Xmin + 3A>
…
Ik = [Xmin + (k – 1)A, Xmin + kA>
por lo que podemos considerar:
Xmax = Xmin + kA
33. MARCA DE CLASE:
La marca de clase o marca de intervalo :
Ii = [Li , Ui> es el número” yi” que se define
como el punto medio del intervalo.
La marca de clase es el valor representativo
de todos los datos contenidos en el
intervalo.
2
ii
i
UL
y
34. ◦ HISTOGRAMA: Es una gráfica básica que consiste
en barras rectangulares. Representa a las
frecuencias absolutas, relativas o porcentaje. Se
usan, generalmente, las marcas de clase.
◦ POLIGONO DE FRECUENCIAS: Es una gráfica que
se obtiene uniendo con segmentos de recta los
puntos determinados por la abcisa (marca de
clase) y la ordenada (frecuencia respectiva)
◦ CURVA DE FRECUENCIAS: La curva de frecuencias
es una gráfica “avanzada” de una distribución de
frecuencias, que se obtiene del polígono de
frecuencias “suavizando” sus puntos angulosos.
GRAFICO DE LA DISTRIBUCION DE
INTERVALOS:
39. FRECUENCIA ABSOLUTA ACUMULADA (Fi)
Suma consecutiva de las frecuencias absolutas
(fi)
FRECUENCIA RELATIVA ACUMULADA (Hi)
Suma consecutiva de las frecuencias relativas
(hi)
FRECUENCIA PORCENTUAL ACUMULADA (Pi %)
Suma consecutiva de las frecuencias
porcentuales (pi)
40. Los salarios quincenales, en dólares,
recopilados en una muestra de 45
empleados son:
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Desarrolle la distribución de frecuencias
de los datos.
41. INTRODUCCION:
Las medidas de tendencia central, denominadas
también promedios, ubican el centro de los
datos, como la media aritmética (la media
geométrica, la media armónica), la mediana y la
moda.
LA MEDIANA (Me)
Es el valor mediano (dato) de una serie de
valores observados, que separa a la serie de
datos ordenados (en forma creciente o
decreciente) en dos partes de igual numero de
datos.
La mediana depende del numero de orden de
los datos y no de los valores de estos datos.
42. MEDIANA DE DATOS NO AGRUPADOS
Para hallar la mediana de “n” valores no
agrupados de una variable cuantitativa es:
1. Se ordenan los datos en forma creciente.
2. Luego se ubica el valor central “Me”. Si “n” es
impar, la mediana es el dato ordenado del
centro. Pero si “n” es par, la “Me” es la
semisuma de los dos valores ordenados
centrales.
Ejm: Calcule la Me para las siguientes series de
datos:
a) 120, 3, 14, 1, 99, 7, 30, 2000, 16
b) 30, 77, 3, 300, 36, 11, 10000, 29
43. a) Ordenando los 9 datos tenemos:
1, 3, 7, 14, 16, 30, 99, 120, 2000
La Me es el quinto dato ordenado que separa a
la serie en 2 grupos de 4 datos cada uno. Esto
es: Me = 16
Ordenando los 8 datos tenemos:
3, 11, 29, 30, 36, 77, 300, 10000
La “Me” en este caso puede ser cualquier
numero situado entre 30 y 36, ya que este
separa a los datos en grupos de 4 cada uno.
Pero se conviene:
33
2
3630
Me
44. MEDIANA DE DATOS AGRUPADOS:
a) Si los valores de una variable discreta se
agrupa en una distribución de frecuencias de
la forma “dato ↔ frecuencia”, el calculo de la
“Me” se hace siguiendo el método de datos no
agrupados. Como los datos ya están
ordenados, solo bastara ubicar su centro.
Ejm:
Numero de Hijos
xi
F. Absolutas
fi
0 1
1 4
2 7
3 6
4 2
Ubicando la Mediana
será:
Me = 2
45. b) Para valores de una variable continua o de una
distribución de frecuencias por intervalos, la
mediana se determina aproximadamente por
interpolación de manera que la mitad inferior (50%) de
los datos agrupados sean menores o iguales que la
mediana.
46. 1. Se ubica el intervalo que contiene a la mediana en
la mitad inferior del total de las frecuencias: 0,5 x
n, (50% del total de las frecuencias de cualquier
tipo).
2. La mediana Me ϵ [Li, Ui[ y esta dada por: Me=Li+a
donde, “a” se obtiene por interpolación
(semejanza de triángulos ABE y ACD), esto es:
Luego:
Ax
f
f
ay
f
f
A
a
i
i
i
i
)( Ax
f
f
LMe
i
i
i
48. Para n=45, la menor frecuencia absoluta que supera a: (n/2= 22.5) es
33, el que está comprendido en el intervalo de clase [58, 66>
Ii fi Fi
[26, 34[ 1 1
[34, 42[ 2 3
[42, 50[ 4 7
[50, 58[ 10 17
[58, 66[ 16 33
[66, 74[ 8 41
[74, 82] 4 45
45
n/2=22.5
75,608
16
5,5
58)(
xxA
f
F
LMe
i
i
i
58
85866
5.5175.22
i
i
L
A
F
49. 1) La mediana, solo depende del número de datos
ordenados y no del valor de los datos. Por lo tanto
no es sesgada por algún valor aislado grande o
pequeño.
2) La mediana puede ser calculada para distribuciones
de frecuencia con intervalos de diferente amplitud,
siempre que se pueda determinar el limite inferior Li
del intervalo que contiene a la Me.
3) La “Me” puede ser calculada para variables con
valores en escala ordinal.
4) La suma de las diferencias (en valor absoluto) de “n”
datos con respecto a su mediana es minima. En caso
de datos sin agrupar es:
i
n
i
i xcx losdemedianalaescsiminimo;
1
50. Cinco amigos quienes viven en lugares separados,
a lo largo de la carretera central, tal como se
observa en la figura; desean reunirse de manera
urgente. Cuál de estos puntos deben elegir para
este encuentro de manera que el costo total del
transporte sea mínimo, si el costo de cada
transporte es proporcional al recorrido.
51. Si A es el origen, entonces, las coordenadas de
A, B, C, D, y E son respectivamente: x1= 0, x2=
20, x3= 35, x4=41 y x5=51
Sea K el punto de reunión. Dado que el costo es
proporcional al recorrido, podemos elegir sin
perdida de generalidad la proporcionalidad
igual a 1, entonces:
Este costo es mínimo, si K es la mediana de los
5 valores: 0, 20, 35, 41, 51, esto es si K = 35.
Luego deben reunirse en el lugar C, a 35 km de
A.
5
1
etransportdetotalCosto
i
i Kx
52. De una serie de datos es el valor “Mo” que
se define como el dato que ocurre con
mayor frecuencia.
La moda no siempre existe y si existe, no
siempre es única. La moda es el promedio
menos importante debido a su
ambigüedad.
MODA EN DATOS NO AGRUPADOS:
Ejm: Determine la moda de los siguientes
datos:
a) 7, 9, 7, 8, 7, 4, 7, 13 , 7
b) 5, 3, 4, 5, 7, 3, 5, 6, 3
c) 31, 11, 12, 19
53. a) Mo = 7. Esta serie de datos es
unimodal
b) Tenemos: Mo1 = 3 y Mo2 = 5.
Esta serie de datos es bimodal.
c) “Mo” no existe. También se dice
que cada uno de los datos es una
moda.
54. Para calcular la “Mo” de “n” datos organizados por
intervalos:
1) Se determina el intervalo que contiene a la “Mo”. Este
intervalo modal [Li, Ui], debe ser el único con la mayor
frecuencia, tiene amplitud A, frecuencia absoluta fi y
sus frecuencias vecinas antes y después son fi-1 y fi+1
respectivamente.
2) Luego se aplica la formula:
Donde: Li = limite inferior del intervalo modal;
Ax
dd
d
LMo i
21
1
.mod
112
111
alinervalodelAmplitudA
ffd
ffd
i
i
56. Se observa que la mayor frecuencia es 16
Por lo tanto, la moda “Mo” ϵ [58, 66[
Además:
Li = 58; Ui = 66
d1 = 16 – 10 = 6
d2 = 16 – 8= 8 = 8
A = 66-58 = 8
Luego la “Mo” de la distribución es:
8
86
6
58
21
1
xAx
dd
d
LMo i
429,61Mo
Ii fi Fi
[26, 34[ 1 1
[34, 42[ 2 3
[42, 50[ 4 7
[50, 58[ 10 17
[58, 66[ 16 33
[66, 74[ 8 41
[74, 82] 4 45
45
57. Es el valor numérico que se obtiene dividiendo la suma total
de los valores observados de una variable entre el numero
de observaciones.
CALCULO DE LA MEDIA ARITMETICA
MEDIA ARITMETICA DE DATOS NO AGRUPADOS:
La Media aritmética de n valores x1, x2, x3, …, xn de la
variable cuantitativa X, observados en una muestra es:
Ejemplo:
Calcular la media aritmética de los 20 datos siguientes:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 2, 4, 1
X
n
x
X
n
i
i
1
datosde#
totalSuma
58. Aplicando la formula:
Tenemos:
n
x
X
n
i
i
1
datosde#
totalSuma
20.2
20
44
20
20
1
i
ix
X
20,2X
59. a) DATOS AGRUPADOS DE VARIABLE DISCRETA: Si n
valores de una variable discreta X se clasifican en
k valores distintos x1, x2, …, xk con frecuencias
absolutas respectivas f1, f2, …,fk, entonces la
media aritmética es:
n
xf
X
k
i
ii
1
*
datosde#
totalSuma
60. Ejemplo:
Calcule la media aritmética de la distribución
de frecuencias siguientes:
Numero de Hijos xi
F. Absolutas
fi
0 1
1 4
2 7
3 6
4 2
61. Tenemos:
La media aritmética será:
Numero de Hijos
xi
F. Absolutas
fi
fi*xi
0 1 0
1 4 4
2 7 14
3 6 18
4 2 8
TOTAL 20 44
20.2
20
44
20
*
datosde#
totalSuma
5
1
i
ii xf
X
2,2X
62. b) DATOS AGRUPADOS POR INTERVALOS: Si
n valores de una variable cuantitativa X
estan organizados en una frecuencia de
k intervalos, donde:
y1, y2, …, yk son las marcas de clase y
f1, f2, …, fk son las frecuencias abs. resp.
Entonces la media aritmética es:
n
yf
datosde
totalSuma
X
k
i
ii
1
*
#
63. Ejemplo:
Calcule la media aritmética de la distribución
de frecuencias por intervalos siguientes:
Ii fi
[26, 34[ 1
[34, 42[ 2
[42, 50[ 4
[50, 58[ 10
[58, 66[ 16
[66, 74[ 8
[74, 82] 4
45
64. Tenemos:
La media aritmética será:
Ii yi fi fi*yi
[26, 34[ 30 1 30
[34, 42[ 38 2 76
[42, 50[ 46 4 184
[50, 58[ 54 10 540
[58, 66[ 62 16 992
[66, 74[ 70 8 560
[74, 82] 78 4 312
45 2694
45
2694
45
*
datosde#
totalSuma
7
1
i
ii yf
X
867,59X
65. a) La suma total de n valores cuya media es x
es igual a nx. En efecto, para n datos no
agrupados y agrupados respectivamente,
se tiene:
b) Si a la variable X se le hace la
transformación lineal Y = aX + b, es decir
si a cada uno de los n valores xi de X es
transformado en el valor: yi = axi + b de
Y, siendo a y b constantes, entonces, a
media de los n valores yi es:
k
i
ii
n
i
i xnxfxnx
11
;
bxay
66. c) La suma algebraica de las desviaciones de
n datos xi con respecto a su media x es
igual a cero. Se tiene para datos no
agrupados y agrupados:
d) La suma de los cuadrados de las
desviaciones de n datos con respecto a su
media es minima.
.
n
i
k
i
iii xxfxx1
1
0)(*;0)(
n
i
i xccx
1
2
siminima,)(
67. La media ponderada se obtiene por la siguiente relación:
Ejemplo: Un alumno en el semestre anterior ha obtenido 11 en
el curso A de 5 créditos, 13 en el curso B de 4 créditos, y 16
en el curso C de 3 créditos, entonces su promedio de notas
(ponderado por los créditos) es:
k
i
i
k
i
ii
k
kk
w
xw
www
xwxwxw
X
1
1
21
2211
)*(
...
)*(...)*()*(
SOLUCION:
92,12
12
155
345
)3*16()4*13()5*11(
X
68. EJEMPLO:
Los sueldos del mes de Enero de 200
empleados de una empresa tienen una
media de 230 (nuevos soles por 10).
a) Si el 60% de los empleados son hombres (el
resto son mujeres) y tienen un sueldo
promedio de 250, ¿Cuánto es el sueldo medio
de las mujeres en enero?
b) Si para el mes de julio, se propone un aumento
general que consiste de un aumento variable
del 30% a cada sueldo de enero mas una
bonificación de 30, ¿Cuánto dinero adicional
necesitara la empresa para pagar los sueldos
incrementados?
69. 1) Si la distribución de los datos es simétrica, entonces, la
media, la mediana y la moda tienen el mismo valor (fig 2.2
a). Esto es:
2) Si la distribución es asimétrica de cola a la derecha,
entonces, la moda es menor que la mediana y esta a su vez
es menor que la media (fig. 2.2 b). Es decir:
3) Si la distribución es asimétrica e cola a la izquierda,
entonces, la relación es (fig. 2.2 c):
MoMeX
XMeMo
MoMeX
70.
71. 4. Para distribuciones unimodales y de marcada
asimetría, se tiene la siguientes relación empírica:
5. Los tres promedios pueden calcularse también
para distribuciones de frecuencias con intervalos
de diferente longitud, siempre que puedan
determinarse o las marcas de clase (para la media)
o de limite inferior Li del intervalo (para la
mediana y la moda).
)(*3 MeXMoX
72. La media geométrica de n valores positivos x1, x2,
…, xn es:
Por ejemplo, la media geométrica de los valores 3, 9,
27 es igual a:
La media geométrica se aplica para promediar:
razones (a/b), índices (a/b en %), proporciones
[a/(a+b)], tasa de cambio [(a-b)/b], que varían con
el tiempo, etc.
n
nxxxX *...** 21
927*9*33
Gx
73. Ejemplo 1:
Si la producción de un bien ha
experimentado un crecimiento del 30%
del primero al segundo año y un
incremento del 35% del segundo al
tercer año y un decrecimiento del 15%
del tercer al cuarto año.
a) Calcule la tasa promedio de cambio y el
porcentaje promedio de crecimiento de la
producción de los tres últimos años.
b) Calcule la producción del quinto año, si la
del primer año fue 100.
74. Ejemplo 2:
Supongamos que la población de una
ciudad aumento de 10000 a 12600 en el
periodo comprendido del año 2000 al año
2004 como se indica en el cuadro. Calcule
la tasa promedio y el porcentaje promedio
del crecimiento de la población.
75. La media armónica de n valores no nulos x1, x2, …,
xn es un numero real, dado por:
Por ejemplo la media armónica de 6, 4, y 3 es 4.
La media armónica se aplica para promediar
datos cuyas unidades de medición son cocientes
de unidades de medición de dos variables, por
ejm. Datos expresados en km/hora. Siendo una
formula practica la sgte:
n
i ix
n
Xh
1
1
2variabledemedicionesdeTotal
1variabledemedicionesdeTotal
xh
76. NOTA: La media armónica es siempre menor que la
media geométrica, esta a su vez es menor que la
media aritmética.
Ejemplo 1:
Una persona manejando su automóvil recorre los primeros 10
km a 60 km por hora y los siguientes 10 km a 70 km por
hora, calcule la velocidad promedio.
Ejemplo 2:
Una empresa de transporte gasta S/.400 en latas de aceite
que cuestan S/. 10 la docena; S/. 500 en latas que cuestan
S/.12,50 la docena; S/. 600 mas en latas que cuestan S/. 20
la docena y S/. 300 en otras que cuestan S/. 25 la docena.
Calcule el costo promedio por docena de las latas de aceite.
XXGXH