ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
Medidas de Centralidad y Dispersión
1. Unidad I. Conceptos Básicos y
Estadística Descriptiva
Prof. Eliana Guzmán U.
Semestre A-2011
2. Concepto de Estadística
Se refiere a un conjunto de
métodos para manejar la
obtención, presentación y
análisis de observaciones
numéricas.
Tema1.Introducción
3. Concepto de Estadística
Sus fines son describir al conjunto
de datos obtenidos y tomar
decisiones o realizar
generalizaciones acerca de las
características de todas las
observaciones bajo consideración.
Tema1.Introducción
4. Áreas que conforman a la Estadística
Estadística Descriptiva (Deductiva):
es la encargada de la organización,
condensación, presentación de los
datos en tablas y gráficos y del
cálculo de medidas numéricas que
permitan estudiar los aspectos más
importantes de los datos.
Tema1.Introducción
DESCRIBIRDESCRIBIR
5. Áreas que conforman a la Estadística
Estadística Inferencial o Inferencia
Estadística: está definida por un
conjunto de técnicas, mediante las
cuales se hacen generalizaciones o
se toman decisiones en base a
información parcial obtenida
mediante técnicas descriptivas.
Tema1.Introducción
INFERIRINFERIR
6. Áreas de Aplicación de la Estadística
El uso de la Estadística es muy amplio.
Resulta difícil nombrar un área en la cual no
se emplee.
Los métodos estadísticos han encontrado
aplicación en:
Gobierno
Negocios
Ciencias Sociales
Ingeniería
Ciencias Física y Naturales
Control de Calidad
Procesos de Manufactura
Muchos otros campos de la actividad intelectual.
Tema1.Introducción
7. Áreas de Aplicación de la Estadística
Esto se debe a la creciente facilidad
con la cual se pueden manejar
grandes cantidades de datos
numéricos, debido al uso de …
Tema1.Introducción
8. Conceptos de Población y Muestra
Población: es la colección de todas
las posibles mediciones u
observaciones que pueden hacerse
de una variable bajo estudio.
Tema1.Introducción
9. Conceptos de Población y Muestra
Se clasifica en dos categorías:
Finita: es aquella que incluye una
cantidad limitada contable de
observaciones, individuos o medidas.
Siempre que sea posible alcanzar
(contar) el número total de todas las
posibles mediciones, se considera como
finita la población.
Tema1.Introducción
10. Conceptos de Población y Muestra
Infinita: es aquella que incluye un gran
conjunto de observaciones o
mediciones que no pueden alcanzarse
por conteo. Al menos, hipotéticamente,
no existe límite en cuanto al número de
observaciones que el experimento
puede generar.
Tema1.Introducción
11. Conceptos de Población y Muestra
Muestra:
es un conjunto de mediciones u
observaciones tomadas a partir de una
población.
es un subconjunto de la población.
Tema1.Introducción
12. Conceptos de Población y Muestra
Muestra aleatoria: se considera
aleatoria siempre y cuando cada
observación, medición o individuo
de la población tenga la misma
probabilidad de ser seleccionado.
Tema1.Introducción
13. Tipos de datos y escalas de medida
Variables:
son las características o lo que se
estudia de cada individuo de la
muestra. Ej: sexo, edad, peso,
estatura, color de ojos, estado civil,
temperatura, cantidad de nacimientos,
presión, grosor, diámetro, ...
Datos:
son los valores que toma la variable en
cada caso.
Tema1.Introducción
14. Tipos de datos
Cualitativos: son datos que solo toman
valores asociados a las cualidades o
atributos, clasificándolos en una de varias
categorías, es decir, no son valores
numéricos. Ej:
Sexo: f/m.
Hábito de fumar: Fumador/No fumador
Color de ojos: negro, azul, marrón, …
Religión: católica, evangélica, …
Estado civil: soltero, casado, divorciado,…
Tema1.Introducción
15. Tipos de datos
Cuantitativos: provienen de variables que
pueden medirse, cuantificarse o
expresarse numéricamente. Ejemplos:
Peso
Edad
Estatura
Presión
Humedad
Intensidad de un sismo
Cantidad de hermanos
Tema1.Introducción
16. Escalas de medida
Tipos de variables cuantitativas:
Discretas: es aquella que solo puede
tomar un número finito o infinito
numerable de valores. Ejemplo:
cantidad de hermanos.
Continuas: es la variable que puede
tomar cualquier valor en una escala
continua. Ejemplo: cantidad de líquido
contenido en un recipiente.
Tema1.Introducción
17. Escalas de medida
Escala Nominal.
Escala Ordinal.
Escala de Intervalos.
Escala de Razón o Proporción.
Escala Absoluta.
Variables Cualitativas
Variables
Cuantitativas
Tema1.Introducción
18. Escalas de medida
Escala nominal: los datos se
pueden agrupar en categorías que
no mantienen una relación de
orden entre si, por lo tanto no
están definidas las operaciones
lógicas (>, <, ≤, ≥) sino solo las de
igualdad o diferencia.
Ejemplos: color de ojos, sexo,
profesión, estado civil, religión.
Tema1.Introducción
19. Escalas de medida
Escala ordinal: existe un cierto
orden o jerarquía entre las
categorías (>, <, ≤, ≥).
Ejemplos: grados militares,
organigrama de una empresa,
escalafón de los profesores
universitarios, grados de disnea,
estadiaje de un tumor.
Tema1.Introducción
20. Escalas de medida
Escala de Intervalos: valores numéricos
de las variables y además de las
relaciones de orden (>, <, ≤, ≥), se
pueden establecer distancias, es decir,
tienen sentido las operaciones de suma y
resta. Tiene dos propiedades:
Existe una unidad de medida que se mantiene
constante para todos los valores que toma la
variable.
Existe un valor patrón u origen relativo que
no significa la ausencia de valor en la
variable.
Tema1.Introducción
21. Escalas de medida
Ejemplo: temperatura, nivel de
ruido, movimientos sísmicos.
Tema1.Introducción
22. Escalas de medida
Escala de razón o proporción: es la
más completa y general de todas las
escalas. Se caracteriza porque los
valores de la variable son números
entre los cuales, además de las
relaciones de orden (>, <, ≤, ≥) y
distancia (+,-), se pueden establecer
múltiplos y proporciones.
Ejemplos: peso, altura, volumen…
Tema1.Introducción
23. Escalas de medida
Escala Absoluta: se caracteriza
porque los valores que toma la
variable son el resultado de contar y
por lo tanto, está constituida por los
enteros positivos y el cero.
Ejemplos: número de hermanos,
cantidad de autos vendidos,
cantidad de accidentes en una
intersección, cantidad de hijos,…
Tema1.Introducción
24. Datos Univariantes y Multivariantes
Univariantes o unidimensionales:
sólo recogen información sobre una
característica (Ej: edad de los
alumnos de una clase).
Bivariantes o bidimensionales:
recogen información sobre dos
características de la población. (Ej:
edad y estatura de los alumnos de
una clase).
Tema1.Introducción
25. Datos Univariantes y Multivariantes
Multivariantes o pluridimensionales:
recogen información sobre tres ó
más características. (Ej: edad,
estatura y peso de los alumnos de
una clase).
Tema1.Introducción
26. Abusos que se pueden cometer con la
Estadística
Conclusiones erróneas debido a que los
datos son numéricamente insuficientes.
Representaciones gráficas engañosas
(escalas).
Datos muestrales no representativos:
Muestra que no incluye a elementos de toda la
población.
Ciertas categorías de personas no responden
correctamente.
Respuestas voluntarias (sesgadas).
Tema1.Introducción
28. Organización de los datos
Una vez que se ha
realizado la
recolección de los
datos, se obtienen
datos en bruto,
los cuales rara vez
son significativos
sin una
organización y
tabulación.
Tema2.EstadísticaDescriptiva
29. Organización de los datos
Formas de organizar los datos:
Un arreglo: es la forma más sencilla de
organizar los datos en bruto, consiste en
colocar las observaciones en orden según su
magnitud: ascendente o descendente.
Poco práctica cuando se tiene una gran
cantidad de datos.
Tema2.EstadísticaDescriptiva
30. Organización de los datos
Una distribución de frecuencias: es un
arreglo de los datos que permite expresar
la frecuencia de ocurrencias de las
observaciones en cada una de las clases,
mostrando el patrón de la distribución de
manera más significativa.
Clase Pto.
Medio
fi Fi fri FRi
Tema2.EstadísticaDescriptiva
31. Organización de los datos
La Distribución de Frecuencias:
Se recomienda su uso cuando se tienen
grandes cantidades de datos (n).
Su construcción requiere, en primer
lugar, la selección de los límites de los
intervalos de clase.
Para definir la cantidad de intervalos
de clase (k), se puede usar:
La regla de Sturges: k = 1 + 3.3log(n)
k = √n
Tema2.EstadísticaDescriptiva
32. Organización de los datos
La cantidad de clases no puede ser tan
pequeño (menos de 5) o tan grande (más
de 20), que la verdadera naturaleza de la
distribución sea imposible de visualizar.
La amplitud de todas las clases deberá ser
la misma. Se recomienda que sea impar y
que los puntos medios tengan la misma
cantidad de cifras significativas que los
datos en bruto.
Los límites de las clases deben tener una
cifra significativa más que los datos en
bruto.
Tema2.EstadísticaDescriptiva
33. Organización de los datos
Determinar:
Punto medio = (Li+Ls)/2.
Frecuencia absoluta de la clase (fi).
Frecuencia acumulada de la clase (Fi).
Frecuencia relativa de la clase (fri):
fri = fi/n
Frecuencia relativa acumulada de la
clase (FRi).
Tema2.EstadísticaDescriptiva
34. A continuación se presentan
las calificaciones de 60
estudiantes que
presentaron la PINA en el
año 2009:
Tema2.EstadísticaDescriptiva
Ejemplos de Distribución de
Frecuencias
35. 23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61
a) Construya una distribución de frecuencias.
b) Qué puede concluir de estos datos.
Ejemplos de Distribución de
Frecuencias
36. Representación gráfica de los datos
Los gráficos permiten visualizar en forma
global y rápida el comportamiento de los
datos.
Para datos cuantitativos agrupados en
clases, comúnmente se utilizan tres
gráficos:
Histogramas.
Polígono de frecuencias.
Ojiva o Polígono de frecuencias acumuladas.
Tema2.EstadísticaDescriptiva
45. Medidas de tendencia central o
posición
Corresponden a valores que
generalmente se ubican en la parte
central de un conjunto de datos.
Forma como los datos pueden
condensarse en un solo valor
central alrededor del cual todos los
datos muestrales se distribuyen.
Tema2.EstadísticaDescriptiva
46. Medidas de tendencia central o
posición
Las medidas de tendencia central
más importantes son:
Media: Aritmética y Aritmética
ponderada.
Mediana.
Moda.
Tema2.EstadísticaDescriptiva
47. Media Aritmética
Es la suma de todas las observaciones dividida entre
el número total de observaciones.
Expresada de forma más intuitiva, podemos decir
que la media aritmética es la cantidad total de la
variable distribuida a partes iguales entre cada
observación. (wikipedia)
Por ejemplo, si en una habitación hay tres personas,
la media de dinero que tienen en sus bolsillos sería
el resultado de tomar todo el dinero de los tres y
dividirlo a partes iguales entre cada uno de ellos. Es
decir, la media es una forma de resumir la
información de una distribución (dinero en el bolsillo)
suponiendo que cada observación (persona) tendría
la misma cantidad de la variable. (wikipedia)
Tema2.EstadísticaDescriptiva
48. Cálculo de la media aritmética
Para datos no agrupados:
n
x
X
n
i
i∑=
= 1
Para datos agrupados:
n
fm
X
k
i
ii∑=
= 1
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
k: cantidad de clases
Tema2.EstadísticaDescriptiva
49. Mediana
Es el valor que ocupa la posición
central de un conjunto de
observaciones, una vez que han
sido ordenados en forma
ascendente o descendente.
Divide al conjunto de datos en dos
partes iguales.
Tema2.EstadísticaDescriptiva
50. Cálculo de la mediana
Para datos no agrupados:
Si n es impar: posición donde se ubica
la mediana es igual a (n+1)/2.
Si n es par: (n+1)/2 no es entero, por
lo tanto la mediana será igual al
promedio de las dos posiciones
centrales.
Tema2.EstadísticaDescriptiva
51. Cálculo de la mediana
Datos agrupados: clase mediana es la
que contiene a la observación que
ocupa la posición n/2.
Cm
xf
xF
n
LmMd
m
m
)(
)(
2
1
1−−
+
+=
Donde: Lm: límite inferior de la clase mediana.
F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase mediana.
Cm: amplitud de la clase mediana.
Tema2.EstadísticaDescriptiva
52. Moda
Observación o clase que tiene la
mayor frecuencia en un conjunto de
observaciones.
Un conjunto de datos puede ser
unimodal, bimodal o multimodal.
Es la única medida de tendencia
central que se puede determinar
para datos de tipo cualitativo.
Tema2.EstadísticaDescriptiva
53. Cálculo de la moda
Para datos no agrupados: es simplemente
la observación que más se repite.
Para datos agrupados:
CmLimMo
21
1
∆+∆
∆
+=
Donde: Lim: límite inferior de la clase modal.
∆1: diferencia entre fi de la clase modal y la
anterior.
∆2: diferencia entre fi de la clase modal y la
posterior.
Cm: amplitud de la clase modal (clase de mayor
frecuencia).
Tema2.EstadísticaDescriptiva
54. Relación entre la media, la mediana y
la moda
Tema2.EstadísticaDescriptiva
Cuando los datos son sesgados es mejor emplear la Md
55. Propiedades, ventajas y desventajas
de la media
Propiedades:
La suma de las diferencias entre las
media muestral y el valor de cada
observación es cero.
La media de una constante es la
constante.
Si todas las observaciones xi se
multiplican por una constante a, la X
también se debe multiplicar por ese
mismo valor constante.
Tema2.EstadísticaDescriptiva
56. Propiedades, ventajas y desventajas
de la media
Si se somete a una variable
estadística X a un cambio de origen
y escala, Y = a + bX, la media
aritmética de dicha variable X varía
en la misma proporción.
La media de la suma de dos
variables es igual a la suma de sus
medias.
Tema2.EstadísticaDescriptiva
57. Propiedades, ventajas y desventajas
de la media
Ventajas:
Emplea en su cálculo toda la
información disponible.
Se expresa en las mismas unidades
que la variable en estudio.
Es el centro de gravedad de toda la
distribución, representando a todos
los valores observados.
Es una valor único.
Tema2.EstadísticaDescriptiva
58. Propiedades, ventajas y desventajas
de la media
Se trata de un concepto familiar
para la mayoría de las personas.
Es útil para llevar a cabo
procedimientos estadísticos como la
comparación de medias de varios
conjuntos de datos.
Tema2.EstadísticaDescriptiva
59. Propiedades, ventajas y desventajas
de la media
Desventajas:
Se ve adversamente afectada por valores
extremos, perdiendo representatividad.
Si el conjunto de datos es muy grande
puede ser tedioso su cálculo manual.
No se puede calcular para datos
cualitativos.
No se puede calcular para datos que
tengan clases de extremo abierto, tanto
superior como inferior.
Tema2.EstadísticaDescriptiva
60. Ventajas y desventajas de la mediana
Ventajas:
Fácil de calcular si el número de
observaciones no es muy grande.
No se ve influenciada por valores
extremos, ya que solo influyen los
valores centrales.
Fácil de entender.
Tema2.EstadísticaDescriptiva
61. Ventajas y desventajas de la mediana
Se puede calcular para cualquier
tipos de datos cuantitativos, incluso
los datos con clase de extremo
abierto.
Es la medida de tendencia central
más representativa en el caso de
variables que solo admiten la escala
ordinal.
Tema2.EstadísticaDescriptiva
62. Ventajas y desventajas de la mediana
Desventajas:
No utiliza en su “cálculo” toda la
información disponible.
No pondera cada valor por el
número de veces que se ha
repetido.
Hay que ordenar los datos antes de
determinarla.
Tema2.EstadísticaDescriptiva
63. Ventajas y desventajas de la moda
Ventajas:
No requiere cálculos.
Puede usarse para datos tanto
cuantitativos como cualitativos.
Fácil de interpretar.
No se ve influenciada por valores
extremos.
Se puede calcular en clases de
extremo abierto.
Tema2.EstadísticaDescriptiva
64. Ventajas y desventajas de la moda
Desventajas:
Para conjuntos pequeños de datos su
valor no tiene casi utilidad, si es que
de hecho existe. Solo tiene significado
en el caso de una gran cantidad de
datos.
No utiliza toda la información
disponible.
No siempre existe, si los datos no se
repiten.
Tema2.EstadísticaDescriptiva
65. Ventajas y desventajas de la moda
En ocasiones, el azar hace que una
sola observación se no
representativa se el valor más
frecuente del conjunto de datos.
Difícil de interpretar si los datos
tiene 3 o más modas.
Tema2.EstadísticaDescriptiva
66. Medidas de dispersión, variación o
variabilidad.
Son valores numéricos que indican
o describen la forma en que las
observaciones están dispersas o
diseminadas, con respecto al valor
central.
Tema2.EstadísticaDescriptiva
67. Medidas de dispersión, variación o
variabilidad.
Son importantes debido a que dos
muestras de observaciones con el
mismo valor central pueden tener
una variabilidad muy distinta.
Tema2.EstadísticaDescriptiva
68. Medidas de dispersión, variación o
variabilidad.
Rango.
Varianza.
Desviación Típica.
Coeficiente de variación.
Tema2.EstadísticaDescriptiva
69. Medidas de dispersión: Rango
Rango (amplitud o recorrido):
Está determinado por los dos
valores extremos de los datos
muestrales, es simplemente la
diferencia entre la mayor y menor
observación.
Es una medida de dispersión
absoluta, ya que depende
solamente de los datos y permite
conocer la máxima dispersión.
Tema2.EstadísticaDescriptiva
70. Medidas de dispersión: Rango
Casi no se emplea debido a que
depende únicamente de dos
valores.
No proporciona una medida de
variabilidad de las observaciones
con respecto al centro de la
distribución.
Notación: R
Tema2.EstadísticaDescriptiva
71. Medidas de dispersión: Varianza
Es un valor numérico que mide el
grado de dispersión relativa porque
depende de la posición de los datos
x1,x2,…,xn con respecto a la media.
Es el promedio al cuadrado de las
desviaciones de cada observación
con respecto a la media.
Notación: s2
, σ2
, var(X)
Tema2.EstadísticaDescriptiva
72. Medidas de dispersión: Varianza
Si la varianza de un conjunto de
observaciones es grande se dice que los
datos tiene una mayor variabilidad que
un conjunto de datos que tenga un
varianza menor.
( )
2
1
2
2
1
2
2
x
n
x
s
n
xx
s
n
i
i
n
i
i
−=
−
=
∑
∑
=
=
Tema2.EstadísticaDescriptiva
Para datos NO
agrupados:
73. Para datos agrupados en una
distribución de frecuencias:
Medidas de dispersión: Varianza
( )
( )21
2
2
1
2
2
x
n
fm
s
n
fxm
s
k
i
ii
k
i
ii
−
×
=
×−
=
∑
∑
=
=
74. Medidas de dispersión: Desviación
Típica
Es la raíz cuadrada de la varianza.
Notación: s, σ.
2
ss =
Tema2.EstadísticaDescriptiva
75. Medidas de dispersión: Coeficiente de
Variación
Es una medida de dispersión relativa que
permite comparar el nivel de dispersión
de dos muestras de variables estadísticas
diferentes.
No tiene dimensiones.
Notación: CV
%100×=
x
s
CV
Tema2.EstadísticaDescriptiva
76. Ventajas y Desventajas del Rango
Ventajas:
Útil cuando se quiere conocer la
extensión de las variaciones
extremas (valor máximo de la
dispersión).
Fácil de calcular.
Tema2.EstadísticaDescriptiva
77. Ventajas y Desventajas del Rango
Desventajas:
No es una MD con respecto al
centro de la distribución.
Solo emplea dos valores en su
cálculo.
No se puede calcular en
distribuciones de límite de clase
abierto.
Tema2.EstadísticaDescriptiva
78. Propiedades, Ventajas y Desventajas
de la Varianza
Propiedades:
1. Siempre es mayor o igual a cero y
menor que infinito.
2. La varianza de una constante es
cero.
3. Si a una variable X la sometemos a
Y=a+bX, la varianza de Y será
Var(Y) = b2
Var(X)
Tema2.EstadísticaDescriptiva
79. Propiedades, Ventajas y Desventajas
de la Varianza
Ventajas:
Es útil cuando se compara la variabilidad
de dos o más conjuntos de datos.
Utiliza toda la información disponible.
Desventajas:
No proporciona ayuda inmediata cuando
se estudia la dispersión de un solo
conjunto de datos.
Difícil de interpretar por tener sus
unidades elevadas al cuadrado.
Tema2.EstadísticaDescriptiva
80. Ventajas y Desventajas de la
Desviación Típica
Ventajas:
Esta expresada en las mismas
unidades que la variable en estudio.
Utiliza todas las observaciones en
su cálculo.
Fácil de interpretar.
Desventajas:
No tiene.
Tema2.EstadísticaDescriptiva
81. Ventajas y Desventajas del Coeficiente
de Variación
Ventajas:
Es la única MD que permite
comparar el nivel de dispersión de
dos muestras de variables
diferentes.
Emplea toda la información
disponible en su cálculo.
Fácil de calcular.
Tema2.EstadísticaDescriptiva
82. Ventajas y Desventajas del Coeficiente
de Variación
Desventaja:
No es una MD con respecto al
centro de la distribución de los
datos.
Tema2.EstadísticaDescriptiva
83. Medidas de Forma
Son medidas numéricas que
permiten determinar la forma que
tiene la curva de los datos, por lo
tanto, sirven para corroborar lo que
los gráficos muestran.
Medidas
de forma
-Asimetría
-Kurtosis o apuntamiento
Coeficiente de Pearson
Coeficiente de Fisher
Tema2.EstadísticaDescriptiva
84. Medidas de Forma: Asimetría
Permiten estudiar la forma de la
curva, dependiendo de cómo se
agrupan los datos.
Tema2.EstadísticaDescriptiva
85. Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson:
Fácil de calcular e interpretar.
Cálculo:
( )
s
MdX
ASP
−
=
3
o Interpretación:
ASP
= 0, X=Md Simétrica
> 0, X>Md Asimétrica Positiva
< 0, X<Md Asimétrica Negativa
Tema2.EstadísticaDescriptiva
86. Medidas de Forma: Asimetría
Coeficiente de Asimetría de Fisher:
No es de fácil cálculo, pero si su
interpretación.
Tema2.EstadísticaDescriptiva
( )
( )
3
1
3
3
1
3
ns
fxM
ASF
ns
Xx
ASF
k
i
ii
n
i
i
∑
∑
=
=
×−
=
−
= Datos NO agrupados
Datos Agrupados
87. Medidas de Forma: Asimetría
o Interpretación:
ASF
= 0, Simétrica
> 0, Asimétrica Positiva
< 0, Asimétrica Negativa
Tema2.EstadísticaDescriptiva
88. Medidas de Forma: Kurtosis
Miden si los valores de la
distribución están más o menos
concentrados alrededor de los
valores medios de la muestra (zona
central de la distribución).
Se definen tres tipos de distribución
según su grado de Kurtosis:
Tema2.EstadísticaDescriptiva
89. Medidas de Forma: Kurtosis
Mesocúrtica: grado de concentración
medio alrededor de los valores
centrales de la variable.
Leptocúrtica: grado de concentración
elevado.
Platicúrtica: grado de concentración
reducido.
Tema2.EstadísticaDescriptiva
90. Medidas de Forma: Kurtosis
( )
( )
3
3
4
1
4
4
1
4
−
×−
=
−
−
=
∑
∑
=
=
ns
fXM
CK
ns
Xx
CK
k
i
ii
n
i
i
Datos No Agrupados
Datos Agrupados
Interpretación:
CK
=0 Mesocúrtica
>0 Leptocúrtica
<0 Platicúrtica
Tema2.EstadísticaDescriptiva