1. “Pruebas de hipótesis: para
dos muestras
Independientes”
Dr. Jorge Alejandro Obando Bastidas
2. Cauas, D. (2015). Definición de las variables, enfoque y tipo
de investigación. Bogotá: biblioteca electrónica de la
universidad Nacional de Colombia, 2.
postest-pretest
Pruebas de hipótesis para 2 muestras: 2 grupos
Relación entre dos o mas variables
(Cauas, 2015) los clasifica como:
correlacionales simples comparativos correlacionales causales
3. EJEMPLO
MÉTODOS ESTADÍSTICOS: EL MANEJO ÉTICO DE LOS
DATOS
Pertenece a la población de los
positivos a covid-19 en Colombia.
La muestra se obtiene de datos
abiertos Colombia.
https://herramientas.datos.gov.co/
es/blog/datos-abiertos-del-
coronavirus-covid-19-en-Colombia,
a 21 de mayo de 2020, con Punto
de inicio, con la cuarentena del 20
de marzo.
Se garantiza que no se altera
la base de datos
proporcionada por el
ministerio de salud de
Colombia. No se intervienen
directamente con las
personas, por tanto no hay
declaración de normas
internacionales sobre el
tratamiento de las personas.
Los datos se analizan desde el
software libre R-kward, se hace
uso de una muestra, de la base
de datos, y de sus diferentes
categorías (genero, procedencia,
recuperados, fallecido, clínica,
casa.
MUESTRA
4. La base de datos.
Datos limpios.
Preparar los datos
Grupo de probabilidad, resultados.
Lectura de resultados.
RESULTADOS
Mortalidad: probabilidad de que uno de los fallecidos
sea hombre, o sea mujer.)
Plantear supuestos para poder interpretación
a la probabilidad. Y llevarlo a tablas, gráficos.
(Pensar que se quiere hacer) probabilidad.
Genero: (Probabilidad de que los hombres o
mujeres hayan adquirido el virus.
Muestreo: Cuantos, de estos en forma aleatoria,
cual muestreo)
5. Se buscan autores que ayuden a interpretar los datos
(libros, tesistas, artículos).
Referentes bibliográficos
Conclusiones:
ETAPA FINAL
Se concluye a partir de los resultados
Se hace una interpretación
Se discuten los resultados, la discusión se hace con
elementos reales que existen en el medio, que se conoce.
APA, Vancuber, entre otros.
6. 𝑃 −𝑧 ൗ
𝛼
2
<
𝑋1 − 𝑋2 − (𝜇1 − 𝜇2)
ൗ
𝜎1
2
𝑛1
+ ൗ
𝜎2
2
𝑛2
< ቃ
𝑧 ൗ
𝛼
2
= 1 − 𝛼
Prueba de Hipótesis sobre Dos Muestras Referente a la Diferencia de Medias Varianzas
Poblacionales Conocidas
Es conveniente estandarizar ഥ
𝑥1 − ഥ
𝑥2 e
incluir de manera formal la variables
aleatoria normal estándar Z, donde:
Se sabe que bajo 𝐻0(𝑠𝑖 𝜇 = 𝜇0), entonces Z
tiene una distribución n(X;0,1) y, por lo tanto,
se puede utilizar la expresión
𝑍 =
𝑋1 − 𝑋2 − (𝜇1 − 𝜇2)
ൗ
𝜎1
2
𝑛1
+ ൗ
𝜎2
2
𝑛2
Para escribir una región de aceptación adecuada.
7. Prueba de hipótesis
bilateral sobre la
media
𝑯𝟎: 𝝁𝟏 − 𝝁𝟐 = 𝒅𝟎
𝑯𝟏: 𝝁𝟏 − 𝝁𝟐 ≠ 𝒅𝟎
La región
crítica está en:
𝒛 =
𝒙𝟏 − 𝒙𝟐 − 𝒅𝟎
𝝈𝟏
𝟐
/𝒏𝟏 + 𝝈𝟏
𝟐
/𝒏𝟐
< 𝒛𝜶
𝟐
o 𝒛 =
𝒙𝟏 − 𝒙𝟐 − 𝒅𝟎
𝝈𝟏
𝟐
/𝒏𝟏 + 𝝈𝟏
𝟐
/𝒏𝟐
< −𝒛𝜶
𝟐
Si −𝑧𝛼
2
< 𝑧 < 𝑧𝛼/2 no se rechaza 𝐻0.
El rechazo de 𝐻0 implica la
aceptación de 𝐻1. Con la definición
de la región crítica habrá la
probabilidad 𝛼 de rechazar cuando,
en realidad, 𝜇1 − 𝜇2 = 𝑑0.
8. La región crítica se puede escribir
en términos del promedio
calculado 𝒙𝟏 − 𝒙𝟐.
Rechazar 𝑯𝟎 si 𝒙𝟏 − 𝒙𝟐 < 𝒂 o 𝒙𝟏 − 𝒙𝟐 > 𝒃
𝒂 = 𝒅𝟎 − 𝒛𝜶/𝟐 𝝈𝟏
𝟐
/𝒏𝟏 + 𝝈𝟏
𝟐
/𝒏𝟐
𝒃 = 𝒅𝟎 − 𝒛𝜶/𝟐 𝝈𝟏
𝟐
/𝒏𝟏 + 𝝈𝟏
𝟐
/𝒏𝟐
Las pruebas de hipótesis unilaterales sobre la media
incluyen el mismo estadístico que se describe en el caso
bilateral. La diferencia es que la región crítica sólo está
en una cola de la distribución normal estándar.
9. Prueba de hipótesis unilateral (cola izquierda)
sobre la media.
𝑯𝟎: 𝝁𝟏 − 𝝁𝟐 = 𝒅𝟎
𝑯𝟏: 𝝁𝟏 − 𝝁𝟐 < 𝒅𝟎
La región crítica está en
𝒛 =
𝒙𝟏 − 𝒙𝟐 − 𝒅𝟎
𝝈𝟏
𝟐
/𝒏𝟏 + 𝝈𝟏
𝟐
/𝒏𝟐
< −𝒛𝜶
Si −𝑧 < 𝑧𝛼 no se rechaza 𝐻0. El rechazo de 𝐻0
implica la aceptación de 𝐻1. Con la definición
de la región crítica habrá la probabilidad 𝛼 de
rechazar cuando, en realidad, 𝜇1 − 𝜇2 = 𝑑0.
10. Prueba de hipótesis unilateral (cola derecha)
sobre la media.
𝑯𝟎: 𝝁𝟏 − 𝝁𝟐 = 𝒅𝟎
𝑯𝟏: 𝝁𝟏 − 𝝁𝟐 > 𝒅𝟎
La región crítica está en
𝒛 =
𝒙𝟏 − 𝒙𝟐 − 𝒅𝟎
𝝈𝟏
𝟐
/𝒏𝟏 + 𝝈𝟏
𝟐
/𝒏𝟐
> 𝒛𝜶
Si 𝑧 < 𝑧𝛼 no se rechaza 𝐻0. El
rechazo de 𝐻0 implica la
aceptación de 𝐻1. Con la
definición de la región crítica
habrá la probabilidad 𝛼 de
rechazar cuando, en realidad,
𝜇1 − 𝜇2 = 𝑑0.
11. Prueba de Hipótesis sobre Dos Muestras Referente a la Diferencia de Medias Varianzas
Poblacionales Desconocidas Iguales
Es conveniente estandarizar 𝑥1 − 𝑥2
e incluir de manera formal la variable
aleatoria T con 𝑣 = 𝑛1 + 𝑛2 − 1
grados de libertad, donde:
T =
𝑥1 − 𝑥2 − (𝜇1 − 𝜇2)
𝑠𝑝 ൘
1
𝑛1 + ൗ
1
𝑛2
𝒔𝒑 =
𝒔𝟏
𝟐 𝒏𝟏−𝟏 +𝒔𝟐
𝟐(𝒏𝟐−𝟏)
𝒏𝟏+𝒏𝟐−𝟐
Es sabe que bajo 𝐻0(𝑠𝑖 μ = 𝜇0),
entonces T tiene una distribución t
con 𝑣 = 𝑛1 + 𝑛2 − 2 grados de
libertad y, por lo tanto se puede
utilizar la expresión:
𝑃 −𝑡 ൗ
𝛼
2
<
𝑥1 − 𝑥2 − (𝜇1 − 𝜇2)
𝑠𝑝 ൘
1
𝑛1 + ൗ
1
𝑛2
= 1 − α
12. EJEMPLO
La decana de estudiantes en la Universidad Cooperativa, se pregunta cuál será la
distribución de calificaciones.
Ya que ha oído quejas de que el promedio general en la decanatura de administración más abajo que en
otras áreas. Un muestreo aleatorio rápido produjo los siguientes promedios generales.
Administración: 2.86 2.77 3.18 2.80 3.14 2.87 3.19 3.24 2.91 3.00 2.83
Otras áreas: 3.35 3.32 3.36 3.63 3.41 3.37 3.45 3.43 3.44 3.17 3.26 3.18 3.41
¿Indican estos datos que
existe una base para las
quejas? Establezca y
pruebe las hipótesis
adecuadas para un nivel
de significancia del 0.02.
13. T =
𝑥1 − 𝑥2 − (𝜇1 − 𝜇2)
𝑠𝑝 ൘
1
𝑛1 + ൗ
1
𝑛2
𝒔𝒑 =
𝒔𝟏
𝟐
𝒏𝟏 − 𝟏 + 𝒔𝟐
𝟐
(𝒏𝟐 − 𝟏)
𝒏𝟏 + 𝒏𝟐 − 𝟐
Como n1<30, n2 <30,
usamos la tabla t-student
𝑯𝟎: 𝝁𝟏 > 𝝁𝟐 : 𝝁𝟏 − 𝝁𝟐 > 𝟎
𝑯𝟏: 𝝁𝟏 < 𝝁𝟐 ; 𝝁𝟏 − 𝝁𝟐< 𝟎
n1 11
n2 13
X1 2,98
X2 3,37
S12 0,0289
s22 0,0204
Sp 0,15576789
T -6,11151751
Como el valor de T cae en la zona de rechazo, acepto la
hipótesis alterna, entonces al 2% se verifica que los
promedios de la facultad de administración, están por
debajo de los promedios de otros grupos.
14. Se pidió a nueve distribuidores de componentes de computadora en un área metropolitana importante
que proporcionaran sus precios de dos impresoras a color de inyección de tinta. Los resultados de la
encuesta se dan en la tabla (con precios en dólares). Para 0.05, ¿es razonable asegurar que en promedio
la impresora Apson es menos costosa que la Okaydata?
n1 9
n2 9
X1 287,44
X2 292,56
S12 460,5316
s22 400,8004
Sp 20,7524938
T -0,5233665
𝑯𝟎: 𝝁𝟏 > 𝝁𝟐 : 𝝁𝟏 − 𝝁𝟐 > 𝟎
𝑯𝟏: 𝝁𝟏 < 𝝁𝟐 ; 𝝁𝟏 − 𝝁𝟐< 𝟎
Como el valor de T cae en la zona de aceptación
se acepta la hipótesis nula, y entonces el
promedio de costo de las impresoras Epson es
mas alto que el de las Okaydata
15. Muestras apareadas, grupos dependientes
El contraste que se realiza es: 𝐻0 = 𝜇𝑑 = 0
𝐻1 = 𝜇𝑑 ≠ 0
Y se emplea: 𝑡0 =
ҧ
𝑑
ൗ
𝑠𝑑
𝑛
Donde
ҧ
𝑑 =
1
𝑛
𝑗=1
𝑛
𝑑𝑗
𝑠𝑑
2
=
1
𝑛 − 1
𝑗=1
𝑛
𝑑𝑗 − 𝑑 2
16. En la tabla se dan los datos de 8 proveedores en términos del número promedio de piezas rotas por
envío. ¿Indican los datos, para 0.05, que las nuevas medidas han disminuido el número promedio
de piezas rotas?
Proveedor 1 2 3 4 5 6 7 8
Antes 16 12 18 7 14 19 6 17
Después 14 13 12 6 9 15 8 15
EJEMPLO El encargado de recepción de un distribuidor de productos químicos, se enfrenta con
el problema continuo de recibir tubos de ensayo, platos Petri y matraces rotos
Jeff determinó algunas precauciones adicionales de empaque que se pueden tomar para prevenir la
rotura de las piezas y ha pedido al director de adquisiciones que informe a los proveedores de las
nuevas medidas.
17. Promedio(D) 19,7
Destandart(D
) 4,17252921
n 10
Raiz(n) 3,16227766
t 14,9302418
Como el valor de t cae en la zona de rechazo,
acepto la hipótesis alterna, se han reducido los
pesos con el tratamiento. El tratamiento sirvió,
por que en general las personas perdieron peso.
18. Antes Después D
16 14 2
12 13 -1
18 12 6
7 6 1
14 9 5
19 15 4
6 8 -2
17 15 2
17
Media de la diferencia D= 2,12
Desviación estándar de la diferencia = 2,61
𝑇 =
2,12
2,61
8
= 2,29
V= n-1=8-1=7
𝑇𝛼 = 1,89
Grados de
libertad.
Se cumple la hipótesis
alterna y las medidas que
se tomaron para disminuir
el numero de piezas rotas,
si dio resultado, fueron
efectivas.
19. EJEMPLO
Un club deportivo anuncia un riguroso programa de acondicionamiento físico.
El club asegura que después de un mes de seguir el programa, un participante promedio será capaz de
hacer 8 “lagartijas” más en 2 minutos que las que podía hacer al principio.
¿La muestra aleatoria de 10 participantes en el programa, cuyos datos se dan en la tabla siguiente,
apoya la afirmación del club? Utilice un nivel de significancia de 0.025.
Participante 1 2 3 4 5 6 7 8 9 10
Antes 38 11 34 25 17 38 12 27 32 29
Después 45 24 41 39 30 44 30 39 40 41