Esta presentación ha sido elaborada para introducir a los estudiantes en el tema de estadística descriptiva. Se presentan conceptos básicos relacionadas con la Estadística, la metodología estadística, y las principales medidas de tendencia central, de dispersión y las medidas de forma (sesgo y curtosis).
3. Breve Historia de la Estadística
La Estadística como herramienta para el conteo y análisis de
datos, no es nueva, pues, la historia cuenta que desde los
comienzos de la civilización se utilizaban representaciones
gráficas y otros símbolos en pieles, rocas, palos de madera y
paredes de cuevas para contar el número de personas, animales
o ciertas cosas. Los registros de datos se hacían sobre la
producción agrícola, conteo de la población (hombres, mujeres y
niños), y otros recursos que sirvieran a los gobernantes de los
pueblos.
La Estadística se ha convertido en un método efectivo para
analizar datos, por ejemplo, económicos, políticos, sociales,
psicológicos, biológicos y físicos. Va más allá de sólo contar, pues
contribuye con el proceso de interpretación de esa información y
el análisis científico para la toma de decisiones.
Prof. Elisa Mendoza
4. Estadística
La Estadística es considerada como
herramienta auxiliar del método científico y de
todas las ciencias del saber para la toma de
decisiones.
La Estadística como ciencia, desarrolla,
métodos y técnicas para la recolección,
organización, procesamiento, interpretación,
análisis y toma de decisiones. Por tanto, esta
ciencia, adquiere contexto en el campo que
se aplique.
Prof. Elisa Mendoza
6. Algunos conceptos básicos
Población: También llamado universo. Se
refiere a la colección completa de las
mediciones u observaciones de interés.
– Se define en cuanto a: Espacio, Tiempo y
Características.
Muestra: Es una parte de la población.
Parámetro: Estos se designan con letras
griegas. Es la estadística resultante del
análisis de todos los datos de la población.
Estimación: Es la estadística resultante del
análisis de la muestra.
Prof. Elisa Mendoza
7. Algunos conceptos básicos
Estimador: Función matemática de los datos
muestrales.
Censo: Estudio de todos los elementos de la
población.
Muestreo: Técnica que permite la selección
y análisis de una parte de los elementos de la
población.
Variable: Característica o propiedad de un
objeto u elemento que puede tomar distintos
valores de un elemento a otro. (Característica
que varía de un elemento o sujeto a otro).
Prof. Elisa Mendoza
8. Relación de Conceptos
Población:
Todos los Peperoni
Elementos: Peperoni
Censo: Estudio de todos los Peperoni
Muestra:
Parte de la Población: Un pedazo de
pizza de Peperoni
Elementos: Peperoni
Muestreo: Selección de la muestra
Prof. Elisa Mendoza
9. Estimación y Parámetros
¿?
CENSO: Estudio de todos
los elementos de la
población
Las Estadísticas se
denominan:
PARAMETROS
MUESTRA: Selección y
Estudio de una parte de la
Población.
Las Estadísticas resultantes
se denominan:
ESTIMACIONES
Prof. Elisa Mendoza
10. Parámetros y Estimadores
Prof. Elisa Mendoza
Estadístico
Parámetro
(Estadística
Censal)
Estimador y
Estimación
(Estadística
Muestral)
Media 𝑥
Varianza 2 s2
Desviación
estándar
s
Proporción P
Total 𝜏
El Estimador es la función matemática y la Estimación el resultado o valor.
12. Estadística
Es la ciencia encargada de recolectar,
organizar y presentar los datos con el
fin de obtener conclusiones para
realizar inferencias acerca de la
población estudiada.
Se clasifica en dos grandes áreas:
– Estadística descriptiva
– Estadística inferencial
Prof. Elisa Mendoza
14. Estadística inferencial
Obtiene conclusiones, a través de técnicas
basadas en probabilidades que sirven a la toma
de decisiones, a partir de una muestra
probabilística.
En el análisis inferencial, los datos son extraídos
aleatoriamente de una muestra (o se realiza un
censo), se obtiene un error de muestreo (o de
variación) con el cual se calculan estimaciones
puntuales o por intervalos.
Si la muestra extraída no es aleatoria, entonces
no se pueden obtener dichas estimaciones, ya
que no se puede calcular el error.
Prof. Elisa Mendoza
15. Algunos conceptos básicos
Dato: es el producto del registro de una
respuesta, ya sea por observación o
experimentación.
Medición: proceso de asignar números
a objetos y eventos de acuerdo a
ciertas reglas. (Ferrando, 2000).
– Las clasificaciones de las categorías o
mediciones deben ser:
• Exhaustivas
• Mutuamente excluyentes.
Prof. Elisa Mendoza
16. Clasificación de datos y variables
• Cuantitativos: Datos expresados numéricamente.
– Discretos: Son números Enteros, como resultado de un
proceso de conteo. No se admiten fracciones o
decimales, pues no tiene sentido.
• Ejemplo: Número de hijos, Número de ausencias en un mes,
etc.
– Continua: Son números Reales, es decir, que pueden ser
inclusive decimales y fracciones. Producto del proceso
de medición.
• Ejemplo: Peso, Estatura, Temperatura, Velocidad,
etc.
• Cualitativa: No numérica. Atributo. Ejemplo: Sexo
Prof. Elisa Mendoza
17. Nominal
•También se denomina
“categórica”
•El orden de las categorías se
establece de forma alfabética,
frecuencia o regional.
•No cuantifica la característica.
•Sus categorías son Nombres.
•Se puede obtener la Moda
(Frecuencias Absolutas y
Porcentajes)
Ordinal
•También es una
característica “categórica”.
•Sus nombres, no cuantifican,
pero si expresan un orden.
•Se puede establecer
relaciones de “Mayor que”, y
“Menor que”.
•Se puede obtener la moda,
mediana si las categorías se
han expresado en números
que indican niveles o escalas,
por ejemplo de: calidad,
percepción o satisfacción (1;
Mucho, 2, Regular, …)
Intervalo
•Es numérica o cuantitativa.
•El cero es “Arbitrario”, no
expresa ausencia de la
características.
•Ejemplo, la Temperatura,
donde, Cero grados Celsius,
por ejemplo, no implica
ausencia de la temperatura.
•Se puede establecer
relaciones de diferencia entre
las escalas.
•Se puede calcular la media,
mediana, moda y las medidas
de dispersión.
Razón
•Es numérica o cuantitativa.
•El cero es “un valor real”, su
valor expresa ausencia de la
característica.
•Ejemplo, un cero en salario
mensual, significa que no hay
salario mensual.
•Se pueden obtener todas las
medidas estadísticas
descriptivas.
•Es posible utilizar las
estadísticas inferenciales.
E S C A L A S D E M E D I D A
Variables cualitativas Variables cuantitativas
19. Generalidades del Cuadro
Estadístico
Su propósito es presentar
información de manera clara y
concisa. Un cuadro estadístico es
la presentación de datos, en forma
de tablas, ordenados
sistemáticamente en columnas y/o
filas.
El cuadro Estadístico tiene varias
características importantes:
Prof. Elisa Mendoza
1. Número del cuadro
2. Título
3. Encabezado
4. Columna Matriz
5. Matriz de Datos
6. Casillas
7. Notas
8. Llamadas
9. Fuentes
20. Formato del Cuadro Estadístico
Cuadro (Número (1) ). (Título (2))
Notas (7)
Llamadas (8)
Fuente (9)
Los cuadros estadísticos no se cierran con líneas en los bordes
izquierdo ni derecho.
Prof. Elisa Mendoza
21. Ejemplo. Cuadro Estadístico
Prof. Elisa Mendoza
2010.............................................. 5.121 715 4.453 822 1.091 3.356
2011…………………………..… 5.551 671 4.744 785 1.114 3.343
2012…………………….………………..……6.025 629 5.138 737 1.232 3.074
2013…………………………………….. 6.068 635 5.158 747 1.208 3.188
2014 (P)……………………………………..6.179 633 5.262 744 1.196 3.272
Enfermeras(os) Odontólogos(as)
Número
Habitantes por
médico(a) (1)
Número Habitantes por
enfermera(o) (1)
Número Habitantes por
odontólogo(a) (1)
Cuadro 431-02. MÉDICOS(AS), ENFERMERAS(OS) Y ODONTÓLOGOS(AS) EN LAS INSTALACIONES DE SALUD
DE LA REPÚBLICA, SEGÚN AÑOS. Años 2010-14(P)
Años
Médicos(as)
Fuente: Contraloría General de la República.
22. Ejemplo. Cuadro Estadístico
Prof. Elisa Mendoza
2000.................................................................................484 362 122 149 114 35 44 26 18
2001.................................................................................473 360 113 148 112 36 56 41 15
2002.................................................................................473 338 135 141 114 27 54 34 20
2003.................................................................................424 315 109 111 86 25 54 34 20
2004.................................................................................444 328 116 129 96 33 47 31 16
2005.................................................................................447 338 109 133 98 35 42 29 13
2006.................................................................................471 354 117 140 102 38 46 29 17
2007.................................................................................460 337 123 147 102 45 38 31 7
2008.................................................................................473 370 103 140 109 31 46 40 6
2009.................................................................................491 374 117 164 127 37 34 24 10
2010..................................................………………………………………..533 404 129 129 103 26 22 14 8
2011...............................................................………………………………………..440 315 125 126 92 34 28 14 14
2012..........................................................................478 358 120 110 73 37 24 15 9
2013...............................................................………………………………………..515 371 144 105 71 34 36 23 13
2014...............................................................………………………………………..484 373 111 97 73 24 29 19 10
Mujeres
Cuadro 221-10. DEFUNCIONES POR ENFERMEDAD POR VIRUS DE LA INMUNODEFICIENCIA HUMANA (VIH)
EN LA REPÚBLICA Y CIUDADES DE PANAMÁ Y COLÓN, POR SEXO:
AÑOS 2000-2014
Año
Defunciones por enfermedad por virus de la inmunodeficiencia humana (VIH)
República Ciudad de Panamá Ciudad de Colón
Total Hombres Mujeres Total Hombres Mujeres Total Hombres
23. Ejemplo. Cuadro Estadístico
Prof. Elisa Mendoza
Menos de 1................................................................3 2 1 1 1 - - - -
5 a 14....................................................................1 1 - 1 1 - - - -
15 a 24....................................................................43 34 9 3 2 1 1 - 1
25 a 34....................................................................136 107 29 21 17 4 12 9 3
35 a 44....................................................................120 88 32 23 16 7 6 3 3
45 a 54....................................................................109 86 23 31 22 9 5 4 1
55 a 64....................................................................48 36 12 11 10 1 3 1 2
65 a 74....................................................................18 13 5 5 3 2 1 1 -
75 a 84....................................................................4 4 - - - - 1 1 -
No especificada.....................................................2 2 - 1 1 - - - -
NOTA: Se excluyen los grupos de edad 1 a 4 y de 85 y más, en el cual no se registró información por esta causa.
(a) Cifras suministradas por la División de Epidemiología del Ministerio de Salud.
Total Hombres Mujeres Total Hombres Mujeres
Cuadro 221-10. DEFUNCIONES POR ENFERMEDAD POR VIRUS DE LA INMUNODEFICIENCIA HUMANA (VIH)
EN LA REPÚBLICA Y CIUDADES DE PANAMÁ Y COLÓN, POR SEXO, SEGÚN EDAD:
AÑO 2014
Edad
Defunciones por enfermedad por virus de la inmunodeficiencia humana (VIH)
República Ciudad de Panamá Ciudad de Colón
Total Hombres Mujeres
24. Tablas de Frecuencias.
(Datos Agrupados)
Tabla de Frecuencia es una forma esquemática
de organizar y presentar lo datos.
Se presentan en columnas: Clases (Datos de la
Variable segmentada en rangos), Frecuencias
Absoluta (fi), Frecuencias Relativas (fr), y
frecuencias acumuladas Fi y Fr, entre otras
columnas que sirven para cálculos de medidas
estadísticas.
Prof. Elisa Mendoza
25. Tablas de Frecuencias. Sin
agrupación de datos en clases.
Tipo II
Se recomienda emplear este tipo de tablas
cuando, se dan dos situaciones:
– Muchos datos (más de 30), y
– Poca variabilidad de los datos. Los datos son muy
parecidos.
Estos datos son típicos en poblaciones de estudio
con características muy parecidas, o grupos
específicos. Ejemplo, las edades de los niños
atendidos en el programa de Estimulación
temprana.
Prof. Elisa Mendoza
26. Elementos de una tabla de Frecuencias – Datos
cuantitativos
Tabla 1. DISTRIBUCIÓN DE FRECUENCIAS DE LA EDAD DE NIÑOS
ATENDIDOS EN EL PROGRAMA DE ESTIMULACIÓN TEMPRANA
DE LA CSS. AÑO 2012-2013
Observaciones: Las tablas de frecuencias se componen de los valores de la variable
de estudio (Edad, en este ejemplo), de las Frecuencias absolutas y de las Frecuencias
Relativas. Se agregan las Acumuladas, para una mejor interpretación de los datos.
** LOS DATOS SON HIPOTÉTICOS.
Prof. Elisa Mendoza
Edad
Frecuencias Absolutas Frecuencias Relativas
Frecuencia
absoluta (fi)
Frecuencia
Acumulada (Fi)
Frecuencia
Relativa (fr%)
Frecencia Relativa
Acumulada (Fr%)
5 6 6 4,00 4,00
6 51 57 34,00 38,00
7 60 117 40,00 78,00
8 33 150 22,00 100,00
Total 150 100,00
27. Tablas de Frecuencias.
Agrupación de datos en Clases.
Tipo III
Se recomienda emplear este tipo de
tablas cuando, se dan dos
situaciones:
–Muchos datos (más de 30), y
–Mucha variabilidad de los datos, es
decir, muchos valores diferentes, e
incluso la existencia de valores
extremos. Prof. Elisa Mendoza
28. Elementos de una tabla de Frecuencias – Datos
cuantitativos
Tabla 1. DISTRIBUCIÓN DE FRECUENCIAS DE LA EDAD DE
MUJERES EMBARAZADAS ATENDIDAS EN LA CSS.
AÑOS 2001-2012
Observaciones: Las tablas de frecuencias se componen de las Clases o Intervalos de
agrupación de la variable de estudio (Edad, en este ejemplo), de las Frecuencias
absolutas y de las Frecuencias Relativas. Se agregan las Acumuladas, para una mejor
interpretación de los datos.
** LOS DATOS SON HIPOTÉTICOS.
Prof. Elisa Mendoza
Edad
Frecuencias Absolutas Frecuencias Relativas
Frecuencia
absoluta (fi)
Frecuencia
Acumulada (Fi)
Frecuencia
Relativa (fr%)
Frecencia Relativa
Acumulada (Fr%)
16 - 20 3 3 0,35 0,35
21 - 25 79 82 9,32 9,67
26 - 30 226 308 26,65 36,32
31 - 35 293 601 34,55 70,87
36 - 40 196 797 23,11 93,99
41 - 45 51 848 6,01 100,00
Total 848 100,00
29. Técnica de agrupación de los datos de la
variable de análisis. Definir la cantidad de
clases.
Prof. Elisa Mendoza
Existen diversas técnicas para agrupar los datos.
Se ilustrarán tres técnicas:
1. Uso de la Fórmula de Sturges. Mayormente
empleada en el campo de la salud.
2. Uso de la Raíz de n (donde n, es el número de
datos).
3. Lo que disponga el investigador o con base a
información teórica sobre la variable de análisis.
C= 1 + 3,322 ∗ 𝐿𝑂𝐺 𝑁
𝐶 = 𝑁
30. Técnica de agrupación de los datos de la
variable de análisis. Definir la Amplitud
de clase
Prof. Elisa Mendoza
Para determinar la amplitud, se debe:
1. Calcular el Rango:
R= Valor máximo – Valor mínimo
2. Calcular la amplitud, como:
A= Rango / Clase
31. Ejemplo
Los siguientes datos corresponden a los tiempos (en meses) de
duración de tratamientos dentales, registrados en una muestra
40 pacientes atendidos en la Clínica Odontológica de la UIP.
Prof. Elisa Mendoza
3 30 20 31
14 11 25 16
10 29 33 17
25 23 13 31
13 34 32 13
28 35 31 15
15 15 8 36
30 29 20 28
18 30 12 3
6 10 6 28
Paso 1. Identificar el valor
mínimo y el Valor máximo para
determinar el Rango=Vmax-
Vmin: R=36-3=33
Paso 2. Determinar el número de
clases:
C = 1+(3,322*log(n))
C=1+(3,322*log(40))
C=1+(3,322*1,60)
C=1+5,32=6,32 7
Paso 3. Determinar la Amplitud. A = R/C = 33/7=4,71 5
32. Ejemplo
Prof. Elisa Mendoza
Tiempo de
Tratamiento fi Fi fr% Fr%
3 7 4 4 10,0 10,0
8 12 5 9 12,5 22,5
13 17 9 18 22,5 45,0
18 22 3 21 7,5 52,5
23 27 3 24 7,5 60,0
28 32 12 36 30,0 90,0
33 37 4 40 10,0 100,0
Total 40 100,0
Clases de
Ancho 5,
Ej: 3,4,5,6,7
Cantidad
De Clases:
C=7
Frecuencias Absolutas Frecuencias Relativas
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS DE LOS
TIEMPOS DE TRATAMIENTO DE PACIENTES
ATENDIDOS EN LA CLINICA DE ODONTOLOGÍA.
AÑO 2014
A la tabla de frecuencias se le pueden agregar otros datos
con propósitos de hacer cálculos y gráficas. Por ejemplo,
Límites Reales y el Punto Medio de las clases.
33. Ejemplo. Agregando Límites Reales y
Punto Medio
Prof. Elisa Mendoza
Punto
Medio
(Xi) fi Fi fr% Fr%
3 7 2,5 7,5 5 4 4 10,0 10,0
8 12 7,5 12,5 10 5 9 12,5 22,5
13 17 12,5 17,5 15 9 18 22,5 45,0
18 22 17,5 22,5 20 3 21 7,5 52,5
23 27 22,5 27,5 25 3 24 7,5 60,0
28 32 27,5 32,5 30 12 36 30,0 90,0
33 37 32,5 37,5 35 4 40 10,0 100,0
40 100,0Total
Tiempo de
Tratamiento
Límites Reales
(LRi, LRs)
Los límites reales y el punto medio, se obtienen a partir de las clases o
intervalos de agrupación de la variable de estudio.
Obsérvese que los límites reales coinciden el límite real superior de la
primera clase con el límite real inferior de la siguiente. Así sucesivamente.
El Punto medio es el punto central de la clase. Por ejemplo: 3, 4, 5, 6, 7.
Este cálculo se obtiene, fácilmente, sumando los límites, luego dividiendo
entre dos. Ejemplo: X= (3+7)/2 = 10/2 = 5
34. N° %
Total 56 100.0
Femenino 37 66.1
Masculino 19 33.9
PacientesSexo del
Paciente
Tabla 2. PACIENTES ATENDIDOS EN LA
CLÍNICA ODONTÓLOGICA DE LA UP,
SEGÚN SEXO. Abril de 2013
Las tablas de frecuencias para datos cualitativos, deben presentar las
frecuencias absolutas (N°) y las frecuencias relativas (%).
Las categorías llevan un orden: Alfabético, Lógico o Geográfico.
TabladeFrecuenciaparaDatoscualitativos
Prof. Elisa Mendoza
35. Práctica. No.1
1. El siguiente conjunto de datos muestra las calificaciones promedios en
un rango de 80 puntos de 70 participantes en una prueba de habilidades
para un puesto laboral.
2. Determine el Rango: Valor Máximo y Mínimo
3. Determine el número de clases: C
4. Determine la Amplitud: A
5. Elabore la Tabla de Frecuencias
67.5 40 71.2 61.9 62.6 60.6 56.6 50.3 49.8 54.0
57.5 68.0 75.6 61.2 77.0 51.1 49.2 50.4 52.1 49.7
56.4 56.2 68.2 45.0 55.1 51.5 48.6 39.7 38.2 44.7
64.6 54.1 55.4 44.7 51.1 49.4 45.3 53.1 56.2 47.3
47.6 54.5 60.0 59.0 41.3 54.5 49.6 51.7 59.9 53.0
54.3 50.3 50.3 63.3 45.3 61.8 59.2 66.0 63.4 66.3
51.7 44.1 59.5 57.7 51.4 47.2 54.8 46.1 45.7 79.7
Prof. Elisa Mendoza
36. Práctica. No.1
Construya la tabla de frecuencias. Use la fórmula de Sturges.
2. Los siguientes datos corresponden al IMC de estudiantes universitarios de
la UIP, registrados en el año 2014.
1. Determine el Rango: Valor Máximo y Mínimo
2. Determine el número de clases: C
3. Determine la Amplitud: A
4. Elabore la Tabla de Frecuencias
Prof. Elisa Mendoza
21,1 27,9 22,8
21,1 20,3 18,4
24,2 22,0 29,8
20,4 21,2 20,1
21,0 19,1 21,9
20,3 28,3 24,0
20,4 19,9 24,3
19,4 25,5 18,9
20,0 18,2 23,1
27,4 23,3 20,4
25,8 25,9 22,0
37. Práctica. No.1
Construya la tabla de frecuencias. Use la fórmula de Sturges.
3. En el estudio realizado a madres que llevan a sus niños a odontopediatría,
se les preguntó sobre el número de hijos que tenían, los datos se registraron
en la siguiente tabla. Con estos datos, elabore la Tabla de Frecuencias
Prof. Elisa Mendoza
3 2 1 2
2 1 1 3
1 1 2 2
1 1 2 3
1 2 1 1
3 1 1 3
3 1 3 1
1 1 1 3
3 1 1 1
1 1 3 1
3 1 1 3
1 2 3 1
38. Práctica. No.1
Construya la tabla de frecuencias. Use la fórmula de Sturges.
4. Los siguientes datos son de tipo cualitativo. Con estos, organizar una tabla
de frecuencias. Sólo debe incluir frecuencia absoluta y frecuencia relativa. No
las acumuladas. Los datos corresponden a las respuestas de los estudiantes de
la UIP 2014, que participaron en un estudio nutricional, en cuanto a su fruta
favorita.
Prof. Elisa Mendoza
Aguacate guineo mango manzana naranja pera piña
Aguacate guineo mango manzana naranja piña piña
Aguacate guineo mango manzana naranja piña piña
Aguacate guineo mango manzana naranja piña Sandía
guineo guineo manzana manzana naranja piña Sandía
guineo guineo manzana manzana papaya piña Sandía
guineo guineo manzana melón papaya piña Sandía
guineo guineo manzana melón pera piña Uvas
guineo guineo manzana naranja pera piña Uvas
guineo mango manzana naranja pera piña Uvas
39. Práctica. No.1
Construya la tabla de frecuencias. Use la fórmula de Sturges.
5. Los siguientes datos son de tipo cualitativo. Con estos, organizar una tabla
de frecuencias. Sólo debe incluir frecuencia absoluta y frecuencia relativa. No
las acumuladas. Los datos corresponden a las respuestas de los estudiantes de
la UIP 2014, con respeto a su tipo de sangre.
Prof. Elisa Mendoza
O + A + O +
O + B - A +
O + A + O +
O - B + A +
O + A + O +
O + AB + O +
A + O - A +
O + AB - A -
41. Medidas descriptivas
Medidas de Tendencia central: el propósito es
determinar el mejor “dato” central que podría representar
al conjunto de todos los datos o mediciones. Las más
comunes son:
– Media aritmética o promedio
– Mediana
– Moda
Valor central
Prof. Elisa Mendoza
42. Media Aritmética (promedio)
Es la medida más comúnmente utilizada. Es denotada como:
“equis barra” y se define como la suma de todos los valores
observados o medidos entre el número total de observaciones.
x
n
x
datosdetotal
datoslostodosdesuma
x
ni
i
i
1
Prof. Elisa Mendoza
43. Ejemplo: (en distribución simple)
Los siguientes datos son las
puntuaciones obtenidas por 15
estudiantes del curso de
Estadística:
La media es:
31
10
310
10
36...302830
x
x
Prof. Elisa Mendoza
Edad
30
28
30
33
31
25
30
32
35
36
44. Interpretación de la media
La edad promedio de las madres que llevaron sus
niños a odontopediatría es de 30,2 años de edad.
min:25 media=31 max: 36
Esta es una representación gráfica unidimensional.
Prof. Elisa Mendoza
45. MODA
En un lenguaje común, la Moda es lo que más se observa.
Lo más frecuente.
En términos de la estadística, “MODA” es el valor de la
distribución de datos que más se repite (o con mayor
frecuencia). La podemos denotar como: Mo
En el ejemplo anterior, la moda es:
Mo = la Edad que más se repite = 30 años
En el conjunto de datos, se repite 3 veces, mientras que
el resto de las edades una sola vez.
Prof. Elisa Mendoza
46. Interpretación de la moda
La edad de las madres más frecuente es de 30 años de
edad.
min:25 media=31 max: 36
moda=30
Observación:
En una distribución de datos se pueden determinar dos modas, en ese caso
la distribución será (bimodal), más de dos modas (polimodal), o ninguna
moda (amodal), y el caso común o normal, una moda (unimodal).
Prof. Elisa Mendoza
47. Mediana
P = (n+1) / 2
La mediana es el valor central que divide la población en,
exactamente, dos partes iguales (igual cantidad de datos por arriba y
por debajo de ella) y la denotaremos por me. Para ubicar la
mediana, se deben ordenar los datos, (ascendente o
descendentemente). Luego se divide la cantidad de datos, para
encontrar P (punto medio de todos los datos), así,
Si n es
impar
Si n es par P = n/ 2
Me es exactamente el valor que corresponde a la
posición P.
Donde P, es la posición central donde cae el valor de la mediana.
Me es el promedio de los dos valores Xp y Xp+1
2
1
pp XX
Me
Prof. Elisa Mendoza
48. Continuando con
el ejemplo
Recordando que n, es el número total
de datos, y
Dado que n=10 ( n, es un número par)
entonces
P= (10/2) y ((10/2)+1)
P= 5 y 6
La Mediana, se ubica en los datos n° 5 y 6.
Me = (30+31)/2 = 30,5
Obsérvese que en este ejemplo los datos estaban
ya ordenados y quedan 5 (50%) datos por arriba de
30,5 y 5 (50%) por debajo del valor de la mediana.
Prof. Elisa Mendoza
No. (P) Edad (X)
1 25
2 28
3 30
4 30
5 30
6 31
7 32
8 33
9 35
10 36
49. Interpretación de la mediana
min:25 media=31 max: 36
moda=30
mediana= 30,5
El valor que divide al grupo en dos partes iguales, es la edad
30,5 años de edad. Esto quiere decir que, el 50% de las madres
tienen edad inferior a 30,5 años, mientras que el otro 50%
tienen edad superior a esta edad.
Prof. Elisa Mendoza
50. Principales Características de las
medidas de tendencia central
La media puede emplearse como medida de
resumen tanto para mediciones discretas como
continuas. Pero en general no resulta adecuada para
variables cualitativas (nominales u ordinales).
La mediana no es sensible al valor de cada
medición. Puede utilizarse como medida de resumen
en variables de escala ordinal, además de las
numéricas (discretas o continuas).
La moda puede emplearse como medida de resumen
para todo tipo de datos o tipo de medición.
Prof. Elisa Mendoza
51. Práctica No.2
Obtenga la media, mediana y moda en los siguientes datos muestrales
de pacientes atendidos en la sala de urgencias del hospital XYZ, en
enero de 2016:
Prof. Elisa Mendoza
Hemoglobina
(mg/dl) Edad
Niveles de
glucosa en
ayunas (mg/dl) N°Hijos
14,1 22 98 1
12,4 27 76 2
10,8 32 100 1
12,2 34 118 0
13,0 31 103 0
11,8 32 99 1
13,6 33 81 1
14,3 35 89 2
12,5 40 97 3
13,6 32 79 6
12,0 33 116 2
13,4 28 95 1
12,7 37 84 1
12,4 31 102 0
13,0 36 108 1
53. Existen Distintas Medidas de
Dispersión
Rango: Es la medida más simple. Es utilizada para calcular
los intervalos de clase de una distribución de datos agrupados.
Rango= R = Valor Máximo – Valor Mínimo
Se calcula como la diferencia entre el valor máximo menos
el valor mínimo del conjunto de datos (mediciones) y se
denota por R.
Prof. Elisa Mendoza
54. Varianza
Es el promedio de las desviaciones estándar, respecto a la media, elevadas al
cuadrado. Es un indicador que calcula la dispersión promedio del conjunto de
datos respecto a la media. La varianza por sí sola es difícil interpretar, pero si se
utiliza como un indicador comparativo de la misma variable puede decir mucho,
así mismo si se relaciona con otros indicadores, es muy útil.
La varianza puede ser obtenida sobre
datos poblacionales, y se designa por
“sigma al cuadrado: 2”, a través de la
fórmula siguiente: N
mediaxi
2
2
)(
Cuando la varianza se obtiene para una
muestra se designa por “s al cuadrado”,
a través de la fórmula siguiente: 1
)( 2
2
n
mediaxi
s
Cuando la varianza y la media son obtenidas sobre los datos de una
población, se conocen como “parámetros”. Si la media y la varianza son
obtenidas sobre los datos de una muestra, se conocen como “estimadores”.
Prof. Elisa Mendoza
55. Desviación Estándar
La Desviación Estándar es la raíz
cuadrada de la varianza. Esta es
una medida que simplifica el
valor de la varianza.
2
Se denota por “sigma”, cuando
es la desviación sobre los datos
de la población; y por s cuando
se refiere a la desviación
estándar de la muestra.
2
ss
Prof. Elisa Mendoza
56. Coeficiente de Variación
El coeficiente de variación, es un indicador en términos
relativos (o porcentuales), que relaciona la desviación estándar
con su media para determinar qué tanto por ciento están
dispersos los datos alrededor de la media. Su interpretación es
más fácil, ya que varía de cero a cien por ciento.
100*..
x
s
VC
Se dice que hay poca dispersión, si el coeficiente de variación es
menor o igual al 15%, y la muestra es aceptable entre 15 y 30%.
Prof. Elisa Mendoza
58. Medidas de Tendencia Central.
Datos Agrupados.
ni
i
i
ni
i
f
fimi
x
1
1
)*(
MEDIA:
Las siguientes fórmulas se aplican a datos agrupados, en
tablas de frecuencias tipo I y tipo II.
Prof. Elisa Mendoza
59. Mediana y Moda.
Datos Agrupados
Los cálculos de estas medidas (Mediana y Moda) en los datos
agrupados son laboriosos, para efectos prácticos, en primera
instancia hablaremos de:
Clase de la Mediana; y
Clase Modal
Clase de la Mediana: Corresponde a la clase que contiene el valor
que divide la población (o muestra) en dos partes iguales: n/2.
Para determinar esta clase, se requiere de la frecuencia
acumulada.
Clase Modal: Corresponde a la clase con la mayor frecuencia.
Prof. Elisa Mendoza
60. Mediana y Moda en Datos Agrupados
MEDIANA= A
f
j
Lirme
m
*
donde Lir es el Límite inferior de la clase de la mediana
j es (n/2 – Frecuencia Acumulada anterior a la clase de la
mediana)
fm es es la frecuencia absoluta de la clase de la mediana.
A es la amplitud del intervalo de clase.
MODA= ALirmo *
21
1
Este símbolo (delta) representa las diferencias
entre la frecuencia más alta y la anterior (delta 1)
y la frecuencia más alta y la siguiente (delta 2).
Prof. Elisa Mendoza
61. Ejemplo: Datos agrupados
En la realidad, generalmente los datos son presentados en tablas o cuadros
estadísticos (es decir, agrupados).
Si no se cuenta con las bases de datos, las medidas de tendencia central se
deben obtener de ellos por medio de las fórmulas de Medidas de Tendencia
Central para Datos Agrupados.
Considere los siguientes datos sobre el tiempo de utilizar computadoras. La
muestra estuvo conformada por 289 funcionarios de una institución en el país.
Clases fi Fi mi
4-8 75 75 6
9-13 112 187 11
14-18 70 257 16
19-23 22 279 21
24-28 9 288 26
29-33 1 289 31
Total 289
Tabla de distribución de frecuencias del tiempo (en
años) de utilizar computadoras.
Prof. Elisa Mendoza
62. Solución
Cálculo de la Media para Datos
Agrupados
Primero se debe calcular el
punto medio de cada
intervalo de clase (mi):
Punto Medio (PM),
también llamado Marca
de Clase (mi)
m1 = (4+8) / 2
= 12 / 2
= 6
m2 = (9+13) / 2
= 22 / 2
= 11
Se calculan los mi para
las clases restantes de la
misma forma.
Clases fi Fi mi
4-8 75 75 6
9-13 112 187 11
14-18 70 257 16
19-23 22 279 21
24-28 9 288 26
29-33 1 289 31
Total 289
Prof. Elisa Mendoza
63. Solución.
Continuación
Recordando la Fórmula
para la Media en datos
agrupados:
ni
i
i
ni
i
f
fimi
x
1
1
)*(
Clases fi Fi mi
4-8 75 75 6
9-13 112 187 11
14-18 70 257 16
19-23 22 279 21
24-28 9 288 26
29-33 1 289 31
Total 289
Prof. Elisa Mendoza
64. Solución.
Continuación
... se debe calcular el producto de mi por
fi.para luego sumar estos productos.
Clases fi Fi mi mi*fi
4-8 75 75 6 450
9-13 112 187 11 1232
14-18 70 257 16 1120
19-23 22 279 21 462
24-28 9 288 26 234
29-33 1 289 31 31
Total 289 3529
12
21.12
289
3529
)*(
1
1
x
f
fimi
x ni
i
i
ni
i
La suma de los productos de mi*fi es 3529,
la suma de fi es 289. Reemplazando los
valores en la fórmula, se tiene que la media
es 12 años. Es decir, en promedio los
funcionarios tienen 12 años de utilizar las
computadoras.
Prof. Elisa Mendoza
65. Solución.
La mediana
La clase de la mediana, es el intervalo de
clase que contiene a: n / 2.
Como n / 2 = Suma de fi / 2
=289/2 = 144.5
Entonces,
clase de la mediana es:
9 a 13 años,
También se dice que la
Mediana es: 11 años, ya
que es la marca de clase o
punto medio que representa
a esta clase.
Clases fi Fi mi
4-8 75 75 6
9-13 112 187 11
14-18 70 257 16
19-23 22 279 21
24-28 9 288 26
29-33 1 289 31
Total 289
Aquí está
el dato
144.5
Para saber en qué clase está la mediana, se ubica
en la Fi (frecuencia acumulada) el n/2.
Obsérvese que en la primera clase se tiene hasta
el dato número 75, en la segunda clase, están los
datos desde el 76 hasta el dato número 187, en
la tercera clase están los datos desde el 188
hasta el 257, y así sucesivamente...
Prof. Elisa Mendoza
66. Solución.
La moda La clase modal es la clase con
mayor frecuencia.
La clase modal es:
9 a 13 años,
También se dice que la
moda es: 11 años, ya que
es la marca de clase que
representa a esta clase.
Entonces,Clases fi Fi mi
4-8 75 75 6
9-13 112 187 11
14-18 70 257 16
19-23 22 279 21
24-28 9 288 26
29-33 1 289 31
Total 289
Prof. Elisa Mendoza
67. Interpretación
De acuerdo a las medidas de tendencia central, los funcionarios
que laboran en dicha institución cuentan con 12 años en
promedio de utilizar computadoras.
El 50% de los funcionarios, tienen menos de 12 años, y el otro
50% estaba por encima de esta cantidad de años; es decir, el
otro 50% de los funcionarios indicó tener más de 12 años de
utilizar computadoras.
Con relación a la moda se puede decir que fue de 12 años, de
acuerdo a los datos presentados.
Prof. Elisa Mendoza
68. Medidas de Variabilidad para
datos agrupados
Varianza
1
*
*
1
)(*
2
2
2
2
2
n
n
fmi
fmi
S
n
xmif
S
Las dos fórmulas se pueden utilizar para calcular la
varianza de la muestra.
Prof. Elisa Mendoza
69. Ejemplo.
Varianza y
Desviación
Estándar
17.27
288
125.7826
1289
289
)3529(
50919
1
*
*
2
2
2
2
2
S
n
n
fmi
fmi
S
Clases fi Fi mi mi*fi mi2
*fi
4-8 75 75 6 450 2700
9-13 112 187 11 1232 13552
14-18 70 257 16 1120 17920
19-23 22 279 21 462 9702
24-28 9 288 26 234 6084
29-33 1 289 31 31 961
Total 289 3529 50919
Desviación
Estándar 21.517.272
SS
Varianza
Prof. Elisa Mendoza
70. Coeficiente de Variación
Los conceptos de medidas de variabilidad para datos
simples y datos agrupados son los mismos.
El coeficiente de
variación, se expresa
como:
100*..
x
S
VC
Para el ejemplo anterior, calcúlese el C.V. ¿Diga cuánto es?
Prof. Elisa Mendoza
71. Práctica No. 3. Calcular las
medidas de variabilidad para los
problemas de las prácticas 1 y 2
Prof. Elisa Mendoza
73. Medidas no centrales
Las estadísticas que se pueden obtener en el conjunto
de datos, además de las tradicionales, tendencia
central y dispersión, pueden ser: Percentiles, y
Cuartiles por ejemplo.
Los cuartiles, dividen el conjunto de datos en 4 partes
iguales, cada uno con un 25% de los datos ordenados.
Los percentiles, dividen el conjunto de datos en 100
partes iguales, cada uno de 1% de los datos
ordenados.
Otras medidas, son: quintiles (5 partes) y deciles (diez
partes). Sus nombres corresponden con la cantidad en
que se divide el conjunto de datos.
Prof. Elisa Mendoza
74. Medidas no centrales
Las posiciones de los cuartiles, se obtienen así:
Utilicemos los siguientes datos como ejemplo: n = 7
2, 4, 4, 6, 8, 9, 11
Q1 Q2 Q3
Cuartil 1, (Q1): K*(n/4); como k=1, entonces, la posición del cuartil 1 está en
n/4=1.75; aproximadamente, en el dato número 2. Así el cuartel 1, es el valor 4.
Cuartil 2, (Q2): K (*(n/4); como k=2, entonces, la posición del cuartil 2 está en
2*(7/4)=2*(1.75)=3.5; lo aproximamos al dato número 4. Así el cuartil 2, es el
valor 6. Es importante, recordar que este cuartil, es conocido también como
Mediana.
Cuartil 3, (Q3): K (*(n/4); como k=3, entonces, la posición del cuartil 3 está en
3*(7/4)=3*(1.75)=5.25; lo aproximamos al dato número 6. Así el cuartil 3, es el
valor 9.
Prof. Elisa Mendoza
75. Medidas no centrales
Cuando los datos son en cantidad, un número par:
Se puede emplear el siguiente procedimiento:
Datos:
8, 9, 9, 10, 11, 12, 13, 14
Q1 Q2 Q3
Cada uno de los cuarteles, promedia dos valores.
La posición del Q1 es = 1*8/4 = 2, así se promedian el valor de la posición 2,
con el valor de la posición siguiente. Así, Q1= (9+9)/2 = 9
La posición del Q2 es = 2*8/4 = 4, así se promedian el valor de la posición 4,
con el valor de la posición siguiente. Así, Q2= (10+11)/2 = 10.5
La posición del Q3 es = 3*8/4 = 6, así se promedian el valor de la posición 6,
con el valor de la posición siguiente. Así, Q3= (12+13)/2 = 12.5
La diferencia entre, el tercer y primer cuartil, se denomina Rango intercuartílico.
Prof. Elisa Mendoza
76. Medidas no centrales en Datos
Agrupados
En datos agrupados, la fórmula que se puede adaptar es la
fórmula de la mediana, reemplazando el cálculo del n/2, por el
percentil o cuartil, que se desea obtener.
Amplitud
f
kn
Pk
k
k
k
F
LR *100 1
Donde: el cálculo del Percentil, se realiza en la clase del percentil.
LRk corresponde al límite real inferior de la clase del percentil k.
Fk-1, es la frecuencia acumulada antes de la clase del percentil k, y
fk, es la frecuencia de la clase del percentil k.
Amplitud o ancho del intervalo de la clase del percentil k.
Percentil: k
Prof. Elisa Mendoza
77. Medidas no centrales en Datos
Agrupados
En datos agrupados, la fórmula que se puede adaptar es la
fórmula de la mediana, reemplazando el cálculo del n/2, por el
percentil o cuartil, que se desea obtener.
Amplitud
f
kn
C
k
k
kk
F
LR *4 1
Donde: el cálculo del Cuartil, se realiza en la clase del Cuartil.
LRk corresponde al límite real inferior de la clase del percentil k.
Fk-1, es la frecuencia acumulada antes de la clase del percentil k, y
fk, es la frecuencia de la clase del percentil k.
Amplitud o ancho del intervalo de la clase del percentil k.
Cuartil: k
Prof. Elisa Mendoza
79. Ejemplo: Percentil y Ojiva de Frecuencias
0.0
20.0
40.0
60.0
80.0
100.0
120.0
3.5 8.5 13.5 18.5 23.5 28.5 33.5
FrecuenciaAcumulada%
Límite Real Superior
Ojiva de Frecuencia de Datos
En la Ojiva, se puede ubicar el Percentil 80 calculado.
16,7
Cálculo del P80,
mediante la Ojiva.
Prof. Elisa Mendoza
80. Ejemplo.
Percentil y
Cuartil
.1.3
84:..2
25,72289*)4/1()*)4/((.1
kCuartilelCalcularPaso
ClasetablalaenPosiciónUbicarPaso
nkPosiciónCalcularPaso
Clases fi Fi mi mi*fi mi2
*fi
4-8 75 75 6 450 2700
9-13 112 187 11 1232 13552
14-18 70 257 16 1120 17920
19-23 22 279 21 462 9702
24-28 9 288 26 234 6084
29-33 1 289 31 31 961
Total 289 3529 50919
Cálculo del Cuartil 1
Cae en la Primera Clase, Antes de esta clase la
Frecuencia Acumulada es 0. Por tanto, F=0
Calcular el Cuartil 3 = K=3
3,8
8,45,3
5*
75
25,72
5,3
5*
75
025,72
5,3
1
1
1
1
C
C
C
C
El 25% de los datos son menores del valor 8,3. Es decir, cae aproximadamente en el Límite
Real Superior de la clase. Por lo tanto, el 75% de los datos son superiores a este.
Prof. Elisa Mendoza
81. Gráfica de Caja y Bigotes
Es una gráfica que se elabora, por lo general, con los cuartiles del conjunto
de datos.
Esta gráfica permite visualizar la dispersión de los datos. Utilizando las
medidas de dispersión – Cuartiles y Rango (Valor Máximo y Mínimo).
Mínimo
Primer Cuartil ó Q1
Mediana ó Q2
Tercer Cuartil ó Q3
Máximo
Prof. Elisa Mendoza
82. Diagrama de Box & Whiskers
A
B C
D
Cuando se comparan grupos, el diagrama de cajas y bigotes son muy útiles
para evidenciar distribución de datos y la mediana (cuadrito del centro en
rojo).
Prof. Elisa Mendoza
83. Medidas de Forma
La distribución de los datos, se puede determinar por el grado de
concentración y dispersión. La distribución en forma de campana es conocida
como Distribución normal. La distribución de los datos se puede medir por
medio del Sesgo y la Curtosis.
0 5 10 15
20
x
Frecuenciade
Observación
f(x)
Regla Empírica
68% de los datos, se agrupan
entre -1 y 1 desviación estándar.
95% de los datos, se agrupan
entre -2 y 2 desviación estándar.
99,7% de los datos, se agrupan
entre -3 y 3 desviación estándar
Prof. Elisa Mendoza
84. Sesgo
Una distribución normal, tiene la mayor concentración de datos
en los valores centrales y su media, moda y mediana son
iguales. Cuando esto no ocurre, entonces se dice que la
distribución está sesgada.
Cuando la Media es mayor que la mediana, el SESGO se da a
la derecha por que se hace una cola larga hacia esa dirección.
Cuando la Media es menor que la Mediana, entonces el
SESGO se da a la izquierda y la cola larga es en esa dirección.
Prof. Elisa Mendoza
85. Sesgo
Moda <Mediana < Media
Sesgo a la Derecha Sesgo a la izquierda
Moda>Mediana> Media
Distribución Normal (No Sesgo o Insesgada),
Media = Mediana = Moda
Prof. Elisa Mendoza
estándardesviación
medianamedia
AsimetríadeeCoeficient
)(*3
< 0, entonces los datos están
sesgado a la izquierda,
> 0, entonces los datos están
sesgado a la derecha
= 0 están insesgados
(distribuidos
normalmente)
86. Curtosis
Si el valor de la Curtosis es:
< 0, Es Platicúrtica. Casi Uniforme en su
recorrido con Frecuencias similares.
> 0, Es Leptocúrtica. Mucha Frecuencia en pocos
datos.
= 0 están normalmente distribuidos.
La Curtosis, es un indicador del grado de concentración que presentan los
valores en la región central de la distribución. Por medio del Coeficiente de
Curtosis, se puede identificar si existe una gran concentración de valores
(Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja
concentración (Platicúrtica).
Prof. Elisa Mendoza
3
*
22
4
xx
xxn
K
i
i
87. Curtosis
Fórmula que se utiliza en Excel, para el cálculo de la Curtosis.
Prof. Elisa Mendoza