Este documento describe los conceptos básicos de la estadística. Se divide la estadística en descriptiva e inferencial. La estadística descriptiva resume y describe los datos recolectados, mientras que la estadística inferencial llega a conclusiones sobre una población basadas en una muestra. También define conceptos como población, muestra, variable, parámetro, estadístico y diferentes tipos de variables. Explica cómo organizar y representar datos cualitativos y cuantitativos a través de tablas, gráficos e intervalos.
2. ESTADÍSTICA DESCRIPTIVA
Conjunto de métodos estadísticos para resumir y describir
datos recolectados, es decir, se ocupa de clasificar la
información, del resumen de tabulaciones y de su presentación
mediante cuadros y gráficos que describan en forma apropiada
el comportamiento de la información captada, para luego
realizar los cálculos de las medidas estadísticas y realizar el
análisis estadístico inicial.
Por ejemplo, cuando se realiza una encuesta opinión pública
sobre calidad del servicio de una empresa de servicios, lo que
se va a obtener con esta encuesta es una ida general acerca de
la opinión del público y en base a ella tomar algunas medidas
de mejora si fuera el caso.
3. ESTADÍSTICA INFERENCIAL
Conjunto de procesos de estimación de parámetros y pruebas
hipótesis. Tiene por finalidad de llegara conclusiones que
brinden un adecuado sustento científico para la toma de
decisiones sobre la base de la información muestral captada..
Estas conclusiones no tienen porque ser validas al 100%, por
lo que normalmente se deben dar con una medida de
confiabilidad (Intervalos de Confianza).
Ejemplo: Estimación del tiempo de proceso requerido para la
elaboración de un producto.
4. DEFINICIONES BASICAS
Población: (Todo)
Conjunto de todas las unidades elementales que poseen
características o factores que son de interés para un estudio.
Por ejemplo, tiempo proceso de un producto, calidad de
servicio, etc. es decir tiene una realidad que es desconocida
y sobre la cual se desea conocer cómo se comportan los
elementos que la conforman.
Muestra: (Parte)
Es el subconjunto de unidades elementales, elegidas de una
población.
5. PARAMETRO Y ESTADISTICO
Población: Parámetro
Medida descriptiva que resume una característica de la
población a partir de la observación de los datos de total de la
población.
Muestra: Estadístico o estadígrafo
Medida descriptiva que resume una característica de la
muestra con el fin de estimar un parámetro.
Las medidas descriptivas para ambos son las mismas.
Ejemplo: La media, varianza, desviación estándar, etc.
6. VARIABLES
Variable es una característica que se define en la población,
que puede tomar dos o más valores o modalidades.
Ejemplos:
• Tiempo de respuesta de una Pentium 300 Mhz
• Calidad de servicio: Muy buena, Buena, Mala, regular.
• Nro. de productos producidos por hora
• Tiempo de proceso de producción de productos en línea.
• Productividad del área de operaciones.
7. CLASIFICACIÓN DE VARIABLES
Cualitativas:
Son aquellas cuyos resultados posibles no pueden ser
expresados en forma numérica.
. Cualitativas Nominales: Son aquellas cuyas categorías posibles
no tienen por que ser representadas en un orden definido. Por
ejemplo. Color de preferencia de las personas.
. Cualitativas Ordinales: Son aquellas en cuyas categorías deben
ser representadas en un orden. Por ejemplo. Calidad de
artículos producidos
Cuantitativas:
Son aquellas cuyos resultados posibles pueden ser expresados
en forma numérica.
8. CLASIFICACIÓN DE LAS VARIABLES CUANTITATIVAS
Discretas:
Son aquellas que tiene un número finito o infinito numerable de
valores posibles, usualmente se las asocia a procesos de conteo,
donde el valor es un número entero.
Ejemplo: Número de artículos defectuosos en un lote, número de
clientes satisfechos, número de alumnos aprobados, etc.
Continuas:
Este tipo de variable puede asumir cualquier valor, entero y/o
decimal.
Ejemplo: Volumen de producción, tiempo de proceso de un
producto, etc.
9. EJERCICIOS DE APLICACIÓN.
1.- El gerente de una sucursal de un banco local desea estudiar
los tiempos de espera de los clientes para ser atendidos por el
cajero en el periodo de 12:00 a 13:00, se selecciona una muestra
de 30 clientes. Que tipo de variable es?
2.- Un administrador de una empresa de servicios desea estimar
el número de clientes atendidos entre viernes y sábado, para lo
cual toma una muestra de 200 clientes. Que tipo de variable es?
3.-Una empresa de producción desea determinar si su producto
estrella mantiene la aceptación, para lo cual se toma una
muestra y se pregunta al público por la aceptación del producto.
Qué tipo de variable es?.
10. ORGANIZACIÓN DE DATOS REPRESENTACIÓN DE
DATOS
Luego de recolectar datos, es necesario resumirlos y presentarlos de
tal forma que se puedan COMPRENDER, ANALIZAR y UTILIZAR.
Por eso se ordenan en cuadros numéricos y luego se representan en
gráficos.
ORGANIZACIÓN DE DATOS CUALITATIVOS
Antes de iniciar la organización de datos se deberá determinar si los
datos son variables cualitativas nominales u ordinales. Si son
nominales se pueden representar en cualquier orden indistintamente,
si son ordinales, entonces se deberán asociar al algún orden
jerárquico. Luego se procede a realizar un proceso de conteo las
frecuencias absolutas (número de veces que se repite cada respuesta).
11. Distribución de las razones por las que se realiza compras
los días festivos en la Tienda “G&G” de un Centro
Comercial
Razones Frecuencias Frecuencias En
absoluta relativas %
- Variedad productos (V) 10 0.33 33
- Ubicación (U) 8 0.27 27
- Gasto Envío Gratis (G) 12 0.40 40
Total 30 1.00 100
12. Para representar gráficamente la distribución de frecuencias de
una variable cualitativa nominal lo mas conveniente es
sectores circulares.
V
G
33%
40%
U
27%
excel
13. ORGANIZACIÓN DE DATOS CUANTITATIVOS
Variable Cuantitativa discreta
Construir la distribución de frecuencias del número de
trabajadores eventuales de una empresa de producción.
4,4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 8, 8,
9,9, 9, 9, 9, 9, 10, 10, 10, 10
Definición de la variable:
X = Número de trabajadores eventuales
Rx = {4, 5, 6, 7, 8, 9, 10}
Conjunto de valores posibles, es un conjunto finito.
14. Variable Cuantitativa contínua
DISTRIBUCIÓN DE FRECUENCIAS POR
INTERVALOS
• Se usa cuando la variable estadística es continua o cuando el rango
de la variable discreta es infinito o tiende a infinito.
• La distribución se obtiene dividiendo el rango en intervalos o clases y
determinando el número de datos que contiene cada intervalo.
• El número de intervalos debe estar de preferencia entre 5 y 20.
15. HISTOGRAMA, es la representación por medio de barras
rectangulares, siendo la base de cada barra proporcional a la amplitud,
su centro la marca de clase y la altura su frecuencia absoluta o relativa.
En el eje horizontal va la escala de la variable y en el vertical la escala
de la frecuencia.
30
24
25
Número de colegios
20
15 13
9 8
10
5
5 1
0
0 a 2,0 2,0 a 4,0 a 6,0 a 8,0 a 10,0 a 12,0 a 14,0 a
4,0 6,0 8,0 10,0 12,0 14,0 16,0
Pensiones anuales en miles de soles
16. POLIGONOS DE FRECUENCIA, es la representación por medio de
una figura polígona cerrada, que se obtiene uniendo con segmentos de
recta los puntos de intersección de las marcas de clase con las
frecuencias.
30
Número de colegios
24
25
20
13
15
9 8
10
5
5
1
0
0 a 2,0 2,0 a 4,0 a 6,0 a 8,0 a 10,0 a 12,0 a 14,0 a
4,0 6,0 8,0 10,0 12,0 14,0 16,0
Pensiones anuales en miles de soles
17. CURVAS DE FRECUENCIA, se puede obtener del polígono de
frecuencia suavizando los puntos angulosos del polígono. Esta gráfica
nos describe algunas características de la distribución de la población
como: Simetría, Asimetría, Normalidad, Uniformidad, Bimodalidad,
etc.
30
24
Número de colegios
25
20
13
15
9 8
10
5
5 1
0
0 a 2,0 2,0 a 4,0 a 6,0 a 8,0 a 10,0 a 12,0 a 14,0 a
4,0 6,0 8,0 10,0 12,0 14,0 16,0
Pensiones anuales en miles de soles
18. LA OJIVA, o polígono de frecuencias acumuladas, se obtiene
uniendo segmentos de recta de intersecciones entre el límite superior
de cada intervalo y la frecuencia acumulada respectiva. Con la ojiva se
puede calcular fácilmente el número o porcentajes de observaciones
que corresponden a un intervalo determinado.
Número de colegios
70
59 60
60 54
50 46
40 37
30
20
13
10
0 0
0 a 2,0 2,0 a 4,0 a 6,0 a 8,0 a 10,0 a 12,0 a 14,0 a
4,0 6,0 8,0 10,0 12,0 14,0 16,0
Pensiones anuales en miles de soles
19. Diagrama de Pareto
Es una representación gráfica que usualmente se utiliza para controles
de calidad y que permite tomar acciones correctivas necesarias.
Ejemplo: Las principales causas de mala atención se han clasificado en
7. El 80% causas es explicado por C y A , e n menor grado G. Plan de
mejora debe atacar en primer lugar a C y A.
20. MEDIDAS DESCRIPTIVAS
1.Medidas de Posición:
Son aquellas medidas que tienen una posición específica dentro
de una distribución o un grupo de datos, entre ellas tenemos a las de
tendencia central
Tendencia Central o Promedios: media aritmética, media
geométrica, media armónica, mediana.
2. Medidas de dispersión:
Desviación estándar, rango, coeficiente de variación.
21. MEDIA ARITMÉTICA
Es la medida de localización más importante, llamada también
promedio de la variable. Es una de las medidas de tendencia
central, conocida como el punto de equilibrio de los datos ó centro
de gravedad.
FORMULAS:
Para calcular la media aritmética se observa como se tiene la
información: si los datos están ó no organizados en tablas de
frecuencias.
n
Datos no agrupados:
Con información muestral
∑x
X
i
i=
= 1
n
Xi : valores que toma la variable X
n : número de observaciones
22. Ejemplo: Los siguientes datos corresponden a volúmenes de venta
soles) de un producto en 9 días.
900, 800, 900, 12100, 800, 700, 1300, 800, 1200
a) calcular la venta promedio.
900 + 800 + 900 + 12100 + 800 + 700 + 1300 + 800 + 1200
9
= 2166
Es decir venta promedio por día del productos es 2166 soles.
23. CARACTERISTICAS DE LA MEDIA
Para un grupo de datos es única.
Para su cálculo se usan todas las observaciones disponibles.
Su valor se ve afectado por la presencia de valores extremos;
por ello pierde representatividad cuando hay presencia de ellos
entre los datos.
La suma de los valores observados desviados respecto de su
media es cero.
24. RELACIONES ENTRE LA MEDIA, LA MEDIANA Y LA
MODA
Si en una distribución unimodal simetrica se cumple
que:
X = me = mo
Si en una distribución unimodal se cumple que:
X < me < mo
Entonces la distribución será ASIMETRICA NEGATIVA
(es decir tiene un sesgo o cola a la izquierda: por la presencia
de valores extremos bajos)
Si en una distribución unimodal se cumple que:
X > me > mo
Entonces la distribución será ASIMETRICA POSITIVA
(es decir tiene un sesgo o cola a la derecha: por valor. altos).
25. MEDIDAS DE DISPERSIÓN O VARIACIÓN
• Es la medida de las diferencias que presentan los datos entre si.
• Para medirla se aprovecha el hecho, de que si los datos son
semejantes entre si, están más cerca a la media aritmética,
entonces se dice que tienen poca variabilidad ó que son
homogéneos.
• Por el contrario si son muy diferentes entre si, estarán muy
dispersos respecto a la media aritmética y se dice de ellos que
son muy variables o que son heterogéneos.
• ES PREFERIBLE SIEMPRE QUE LOS DATOS SEAN HOMOGÉNEOS
26. MEDIDAS DE DISPERSIÓN O VARIACIÓN
Las medidas de variabilidad o de dispersión son aquellas que
miden el grado de separación de los datos con respecto a un
valor central.
las principales medidas de dispersión son:
EL RANGO (R)
EL RANGO INTERCUARTILICO (RIQ)
LA VARIANZA [ V(X) ó S2(X) ]
LA DESVIACION ESTANDAR [S(X)]
COEFICIENTE DE VARIACION [ CV(X) ]
27. EL RANGO (R)
El Rango de variación o recorrido de una serie de datos, esta
representado por la diferencia entre sus valores máximo y
mínimo, resultando ser la medida de variabilidad más sencilla
y menos confiable, ya que sólo usa dos datos para su cálculo.
R = Xmáx – Xmín
donde:
Xmáx : valor máximo
Xmín : valor mínimo
28. VARIANZA
La varianza ó variancia es una medida de variabilidad absoluta,
que se expresa en unidades al cuadrado y que utiliza todos los
datos para su cálculo (el cual se basa en las diferencias entre el
valor de las observaciones y su media).
Se defina como el promedio de las desviaciones, elevadas al
cuadrado, de cada uno de los datos con respecto del promedio
(media aritmética)
∑( )
n 2 n
Calculo:
Xi − X ∑ X i2
2
S =
2 i =1
= i =1
−X
n n
Xi : i-ésima observación
n : Número de datos
: media aritmética
29. DESVIACION ESTANDAR (S)
Como la varianza se mide en unidades al cuadrado, por ejemplo
si los datos están expresados en metros, la varianza se medirá
en metros al cuadrado.
Esto trae dificultades para su interpretación real. Es por ello que
en ocasiones se prefiere el uso de la Desviación Estándar,
definida como la raíz cuadrada (positiva) de la varianza:
Desviación Estándar : s= s 2
Interpretacion
El valor numérico de la varianza y la desviación estándar cuantifican el grado
de dispersión absoluta de los datos de la variable en estudio, con respecto a su
media aritmétia, la primera en unidades al cuadrado y la segunda en unidades
reales. Por lo que a mayor variabilidad mayor varianza.
30. COEFICIENTE DE VARIACON (CV)
Esta medida de dispersión es muy útil cuando se quiere comparar
el grado de dispersión (homogeneidad o variabilidad) en dos
conjuntos de datos que tienen un promedio diferente y/o que
tienen diferentes unidades de medida
En general se considera lo siguiente:
Si CV < 25% implica baja dispersión
Si CV > 50% implica Alta dispersión
En otro caso se tiene Dispersión moderada
Cálculo:
S S
CV ( X ) = CV ( X )% = (100)
X X
31. EJEMPLO1:
Un administrador debe decidir la compra de una de dos máquinas, tiene
la
siguiente información con respecto al tiempo diario que requiere cada
máquina para su mantenimiento.
Promedio Varianza
Máquina A 27 min 4.5 min2
Máquina B 35 min 5 min2
Utilizando la medida de variabilidad adecuada.¿Cuál de las dos máquinas
tiene menos variabilidad en cuanto al tiempo de mantenimiento?
Dado que la unidad de medida es la misma para ambos
Solución:
grupos, pero las medias no son iguales, entonces
utilizamos el coeficiente de variación para comparar:
S A
4.5 SB 5
CVA = = = 0.07856 CVB = = = 0.06388
X A 27 XB 35
Entonces la máquina B tiene una distribución de tiempos menos variable.
32. TIPIFICACION DE VARIABLES
Tipificar una variable es cambiarla por otra que tenga de media cero y
desviación típica 1. Se utiliza para comparar distribuciones .
Cada valor se tipifica restando la media y dividiendo por la desviación
típica.
−
x− x
z =
Sx
En otras palabras: “Z” es la distancia de cualquier valor de la variable
en estudio a su media expresado en desviaciones estándar