Este documento explica cómo calcular medidas de tendencia central y dispersión para datos agrupados. Primero se calcula la media aritmética sumando los productos de la frecuencia por la marca de clase y dividiendo entre el número total de datos. Luego, la desviación media se obtiene sumando los valores absolutos de la diferencia entre cada marca de clase y la media, y dividiendo por el número de datos. Finalmente, se presentan fórmulas para calcular la varianza y desviación estándar.
3. Introducción
La agrupación de datos
Esta presentación es la cuarta y última
parte, de cuatro, en las que se
construye una tabla de distribución de
frecuencias para datos agrupados.
El objetivo es mostrar detalladamente
las operaciones aritméticas necesarias
para resumir un conjunto de datos
agrupándolos en intervalos, también
llamados clases o categorías.
4. Introducción
Hasta ahora se han
completado las
primeras 7
columnas, y sólo
faltan 3, las medidas
de tendencia central
y dispersión:
Media aritmética
Desviación media
Varianza
Desviación estándar
Coeficiente de
variación.
5. Antecedentes
En caso que sea necesario, este
es el conjunto de datos con el
que se está trabajando.
6. Medidas de tendencia central
Síntesis de datos
Una forma rápida de obtener información acerca de un conjunto de
datos es la obtención de estadísticos que los representan, entre dichos
estadísticos se encuentran las medidas de tendencia central: media
aritmética, mediana, moda, entre otras.
En esta presentación aprenderemos a calcular la media aritmética para
datos agrupados que se representa de acuerdo al conjunto de datos.
Media aritmética de una población: m
Media aritmética de una muestra: ഥ𝒙
7. A la media aritmética comúnmente se le conoce como promedio y,
cuando se trata de datos no agrupados, se determina sumando todos los
valores y dividiendo entre el número de datos.
En el ejemplo que estamos resolviendo se trata de una muestra, por lo
tanto se representa como: ഥ𝒙
Para calcularla vamos a efectuar la multiplicación indicada en la octava
columna: 𝒇𝒊 ∙ 𝒙𝒊
Media aritmética de una muestra
Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100
46.5 52.5 49.5 9 12 0.030 0.0400
52.5 58.5 55.5 23 35 0.077 0.1167
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
8. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 3×43.5
46.5 52.5 49.5 9 12 0.030 0.0400 9×49.5
52.5 58.5 55.5 23 35 0.077 0.1167 23×55.5
58.5 64.5 61.5 43 78 0.143 0.2600 43×61.5
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
Para cada clase, categoría o intervalo se llevan a cabo las operaciones
indicadas, como se muestra en la figura.
Naturalmente sólo se escribe el resultado, en esta diapositiva se muestra el
procedimiento pero sólo para fines de aclaración del procedimiento.
Se multiplica la frecuencia uno por la marca de clase uno, luego la dos, y así
sucesivamente.
Media aritmética de una muestra
9. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5
46.5 52.5 49.5 9 12 0.030 0.0400 445.5
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5
64.5 70.5 67.5 62 140 0.207 0.4667 4185
70.5 76.5 73.5 63 203 0.210 0.6767 4630.5
76.5 82.5 79.5 53 256 0.177 0.8533 4213.5
82.5 88.5 85.5 26 282 0.087 0.9400 2223
88.5 94.5 91.5 16 298 0.053 0.9933 1464
94.5 100.5 97.5 2 300 0.007 1.0000 195
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
Media aritmética de una muestra
De acuerdo con la fórmula, estos productos se suman y el resultado se
divide entre el número de datos, en nuestro caso 300. EL resultado de la
división es la media aritmética muestral.
=
1
𝑛
=1
𝑛
∙
Fórmula para
determinar la
media aritmética
muestral
10. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5
46.5 52.5 49.5 9 12 0.030 0.0400 445.5
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5
64.5 70.5 67.5 62 140 0.207 0.4667 4185
70.5 76.5 73.5 63 203 0.210 0.6767 4630.5
76.5 82.5 79.5 53 256 0.177 0.8533 4213.5
82.5 88.5 85.5 26 282 0.087 0.9400 2223
88.5 94.5 91.5 16 298 0.053 0.9933 1464
94.5 100.5 97.5 2 300 0.007 1.0000 195
Totales: 21408
Media aritmética: 71.3600
Desviación media:
Varianza: s 2
=
Desviación estándar: s =
Coeficiente de variación: Cv =
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙
=
=
∙ ∙
Media aritmética de una muestra
Esta forma de
calcular la media
aritmética es la
que ocasiona
inexactitud, ya
que al
multiplicar la
frecuencia por la
marca de clase
estamos
considerando
que todos los
datos dentro del
intervalo son
iguales a dicha
marca de clase.
=
1
𝑛
=1
𝑛
∙
11. Media aritmética de una muestra
Como ya se mencionó,
existen otras medidas de
tendencia central que serán
estudiadas posteriormente.
Para completar la tabla de
análisis estadístico
solamente necesitamos la
media aritmética.
12. Caracterizar una población o muestra únicamente con las medidas de
tendencia central no es suficiente; puede haber situaciones muy
diferentes que produzcan el mismo valor de media aritmética.
Un elemento muy importante para el análisis de datos es la dispersión de
los mismos, es decir, que tan cercanos o lejanos se encuentran de la
media aritmética.
En esta presentación estudiaremos las medidas de dispersión:
Desviación media, Varianza, Desviación estándar y Coeficiente de
variación.
Medidas de dispersión
13. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5
46.5 52.5 49.5 9 12 0.030 0.0400 445.5
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
También llamada desviación absoluta promedio, es el promedio de las
desviaciones absolutas de las marcas de clase, respecto a la media
aritmética de los datos.
Es una forma de resumir la dispersión estadística de un conjunto de
datos, se representa como: 𝑫ഥ𝒙
Para calcularla vamos a efectuar las operaciones indicadas en la novena
columna: 𝒙𝒊 ഥ𝒙 𝒇𝒊
Desviación media
14. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5
46.5 52.5 49.5 9 12 0.030 0.0400 445.5
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
1 ∙
1 ∙
1 ∙
Para cada clase, categoría o intervalo se llevan a cabo las operaciones
indicadas, como se muestra en la figura.
Naturalmente sólo se escribe el resultado, en esta diapositiva se muestra el
procedimiento pero sólo para fines de aclaración del procedimiento.
Las barras verticales significan “valor absoluto”, por lo que se tomarán
todos los resultados de la resta con signo positivo.
Desviación media
15. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5 83.58
46.5 52.5 49.5 9 12 0.030 0.0400 445.5 196.74
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5 364.78
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5 423.98
64.5 70.5 67.5 62 140 0.207 0.4667 4185 239.32
70.5 76.5 73.5 63 203 0.210 0.6767 4630.5 134.82
76.5 82.5 79.5 53 256 0.177 0.8533 4213.5 431.42
82.5 88.5 85.5 26 282 0.087 0.9400 2223 367.64
88.5 94.5 91.5 16 298 0.053 0.9933 1464 322.24
94.5 100.5 97.5 2 300 0.007 1.0000 195 52.28
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
Desviación media
De acuerdo con la fórmula, los resultados de cada categoría se suman y el
resultado se divide entre el número de datos, en nuestro caso 300. El
resultado de la división es la desviación media.
=
1
𝑛
=1
𝑛
Fórmula para
determinar la
desviación media
16. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5 83.58
46.5 52.5 49.5 9 12 0.030 0.0400 445.5 196.74
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5 364.78
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5 423.98
64.5 70.5 67.5 62 140 0.207 0.4667 4185 239.32
70.5 76.5 73.5 63 203 0.210 0.6767 4630.5 134.82
76.5 82.5 79.5 53 256 0.177 0.8533 4213.5 431.42
82.5 88.5 85.5 26 282 0.087 0.9400 2223 367.64
88.5 94.5 91.5 16 298 0.053 0.9933 1464 322.24
94.5 100.5 97.5 2 300 0.007 1.0000 195 52.28
Totales: 21408 2616.8
Media aritmética: 71.3600
Desviación media: 8.7227
Varianza: s 2
=
Desviación estándar: s =
Coeficiente de variación: Cv =
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙
=
=
∙ ∙
Desviación media
La desviación
media es útil
para caracterizar
los datos en
estudio en
cuanto a su
dispersión.
Actualmente se
emplea más la
desviación
estándar que se
calculará en las
siguientes
diapositivas.
=
1
𝑛
=1
𝑛
17. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5 83.58
46.5 52.5 49.5 9 12 0.030 0.0400 445.5 196.74
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5 364.78
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5 423.98
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
Estas tres medidas de dispersión se obtiene efectuando operaciones en la última
columna. En nuestro caso se trata de una muestra, por lo que se representan con los
símbolos siguientes.
Varianza: 𝒔 𝟐
Desviación estándar: 𝒔 Coeficiente de variación: 𝑪𝒗
Operaciones: Se resta la media a cada marca de clase y el resultado se eleva al
cuadrado, finalmente este cuadrado se multiplica por la frecuencia absoluta.
Varianza, desviación estándar y coeficiente de variación
18. Para cada clase, categoría o intervalo se llevan a cabo las operaciones
indicadas, como se muestra en la figura.
Naturalmente sólo se escribe el resultado, en esta diapositiva se muestra el
procedimiento pero sólo para fines de aclaración del procedimiento.
Al restar puede obtenerse un resultado negativo, pero al elevarlo al
cuadrado se vuelve positivo
Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5 83.58
46.5 52.5 49.5 9 12 0.030 0.0400 445.5 196.74
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5 364.78
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5 423.98
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
1 ∙
1 ∙
1 ∙
1 1 ∙
Varianza, desviación estándar y coeficiente de variación
19. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5 83.58 2328.5388
46.5 52.5 49.5 9 12 0.030 0.0400 445.5 196.74 4300.7364
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5 364.78 5785.4108
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5 423.98 4180.4428
64.5 70.5 67.5 62 140 0.207 0.4667 4185 239.32 923.7752
70.5 76.5 73.5 63 203 0.210 0.6767 4630.5 134.82 288.5148
76.5 82.5 79.5 53 256 0.177 0.8533 4213.5 431.42 3511.7588
82.5 88.5 85.5 26 282 0.087 0.9400 2223 367.64 5198.4296
88.5 94.5 91.5 16 298 0.053 0.9933 1464 322.24 6489.9136
94.5 100.5 97.5 2 300 0.007 1.0000 195 52.28 1366.5992
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙ ∙ ∙
Al tratarse de una muestra, se divide entre n – 1, en nuestro caso 300 – 1 = 299.
Cuando se estudia una población se divide entre n.
Elevar al cuadrado hace positivos todos los resultados, pero dificulta la
del valor de la varianza, por ello, se acostumbra utilizar la desviación estándar, que
la raíz cuadrada de la varianza.
𝑠 =
1
𝑛 1
=1
𝑛
Fórmula para
determinar la varianza
muestral
Varianza, desviación estándar y coeficiente de variación
20. Marcas de
Límite Límite clase F. absoluta F. acumulada F. Relativa F. rel. Acum.
inferior superior
40.5 46.5 43.5 3 3 0.010 0.0100 130.5 83.58 2328.5388
46.5 52.5 49.5 9 12 0.030 0.0400 445.5 196.74 4300.7364
52.5 58.5 55.5 23 35 0.077 0.1167 1276.5 364.78 5785.4108
58.5 64.5 61.5 43 78 0.143 0.2600 2644.5 423.98 4180.4428
64.5 70.5 67.5 62 140 0.207 0.4667 4185 239.32 923.7752
70.5 76.5 73.5 63 203 0.210 0.6767 4630.5 134.82 288.5148
76.5 82.5 79.5 53 256 0.177 0.8533 4213.5 431.42 3511.7588
82.5 88.5 85.5 26 282 0.087 0.9400 2223 367.64 5198.4296
88.5 94.5 91.5 16 298 0.053 0.9933 1464 322.24 6489.9136
94.5 100.5 97.5 2 300 0.007 1.0000 195 52.28 1366.5992
Totales: 21408 2616.8 34374.12
Media aritmética: 71.3600
Desviación media: 8.7227
Varianza: s 2
= 114.963612
Desviación estándar: s = 10.7221086
Coeficiente de variación: Cv = 0.15025376
Intervalos reales Frecuencias
Medidas de tendencia central y dispersión
∙
=
=
∙ ∙
La desviación
estándar permite
establecer la
dispersión de un
conjunto de datos,
pero el coeficiente de
variación tiene la
ventaja de que es una
medida relativa de
variabilidad.
En nuestro ejemplo la
variación es del
15.02%.
Se calcula dividiendo
la desviación estándar
entre el valor
absoluto de la media
aritmética.
𝑠 =
1
𝑛 1
=1
𝑛
Varianza, desviación estándar y coeficiente de variación
21. Medidas de tendencia central
y dispersión en el histograma.
En la presentación 3 se explica cómo se construye un histograma mediante los
intervalos reales y las frecuencias absolutas.
22. Medidas de tendencia central y dispersión en el
histograma.
Para que el histograma sea realmente útil es necesario agregar algunas líneas
de referencia que nos permitirán profundizar en el análisis de datos.
23. Medidas de tendencia central y dispersión en el histograma.
Un primer valor que debe aparecer en el histograma es la media aritmética, y
debe colocarse en la posición que le corresponde según los valores que se
registran en el eje equis.
La representación de
la media aritmética
nos permite realizar
diversas observaciones
acerca del
comportamiento de
los datos.
Aún falta agregar 6
líneas más.
24. Medidas de tendencia central y dispersión en el histograma.
Le vamos a sumar y restar a la media aritmética, tres múltiplos de la
desviación estándar: ഥ𝒙 𝟑𝒔, ഥ𝒙 𝟐𝒔, ഥ𝒙 𝟏𝒔, ഥ𝒙 + 𝟏𝒔, ഥ𝒙 + 𝟐𝒔, ഥ𝒙 + 𝟑𝒔
Estas seis líneas nos
servirán para
comparar el
comportamiento de la
muestra o población
con las medidas de
tendencia central y
dispersión.
En algunos casos se agregan
otras referencias que se
estudiarán posteriormente.