Man4

758
-1

Published on

Published in: Education
1 Comment
0 Likes
Statistics
Notes
  • Hello
    my name is Queen
    i saw your profile today and became interested in you, i will like to know you the more, and i want you to send an email to my mail so that i can give you my picture for you to know whom i am. Here is my email address [jobe.queen@yahoo.com] I believe we can move from here. I am waiting for your reply in my mail don't send it in the site.
    [Remember the distance or color does not matter but love matters allot in life]
    [jobe.queen@yahoo.com]
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

No Downloads
Views
Total Views
758
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
1
Likes
0
Embeds 0
No embeds

No notes for slide

Man4

  1. 1. DISEÑOS DE INVESTIGACIÓN Y ANÁLISIS DE DATOS TEMA 3Análisis de datos paramétricos para diseños de dos grupos
  2. 2. Introducción• En los diseños de una única muestra no existe grupo o muestra de comparación.• Sin embargo, generalmente será conveniente, y en algunos casos necesario, utilizar más de una muestra.
  3. 3. Joke• Dos señoras conversando en el bar:• María: “bueno, y tu marido en la cama, ¿qué tal es?”• ….• Juana: “¿comparado con quién?”
  4. 4. • Es usual la utilización de dos muestras cuando: a) queremos comprobar si existen diferencias entre un grupo experimental y un grupo de control. B) si queremos comprobar la eficacia de un tratamiento mediremos la variable dependiente (v.d.) antes y después del tratamiento y comparamos ambas medias para comprobar si la terapia ha sido eficaz.
  5. 5. Muestras independientesSujeto Grupo v.d.1 Experimental X12 Experimental X23 Experimental X34 Experimental X45 Experimental X56 Control X67 Control X78 Control X89 Control X910 Control X10
  6. 6. Muestras dependientesSujeto v.d. antes del v.d. después del tratamiento tratamiento 1 X1a X1d 2 X2a X2d 3 X3a X3d 4 X4a X4d 5 X5a X5d
  7. 7. • En otras ocasiones el mismo problema que queremos investigar nos obliga a utilizar dos muestras, porque queremos estudiar diferencias entre dos poblaciones diferentes, como puede ser entre hombres y mujeres, entre ambiente rural y urbano, entre dos clases sociales, etc.• Obsérvese que estas diferencias exigen un diseño inter-sujetos (muestras independientes)
  8. 8. MUESTRAS INDEPENDIENTES O RELACIONADAS• En todas las técnicas estadísticas que vemos en este curso suponemos que las observaciones dentro de una muestra son independientes, es decir, que no existe relación entre ellas. Por lo tanto, dentro de un grupo el valor de una determinada puntuación no nos informa en absoluto del valor de otras puntuaciones dentro del mismo grupo.
  9. 9. MUESTRAS INDEPENDIENTES O RELACIONADAS• En cualquier caso, para garantizar la independencia de los datos dentro de un grupo, lo mejor que puede hacerse es seleccionar a los elementos de la muestra de forma aleatoria.• No obstante, obsérvese que la independencia intra-grupo es un SUPUESTO (y lo mejor que puede hacerse es ponerlo a prueba).
  10. 10. • Por tanto, cuando trabajamos con dos muestras (o más de dos), las muestras pueden ser independientes o relacionadas. Son independientes cuando no existe relación entre los sujetos (unidades de observación) de una y otra, lo que podremos garantizar si los sujetos son asignados aleatoriamente a cada una de las muestras.
  11. 11. • Tenemos muestras relacionadas cuando cada observación en una muestra tiene su pareja en la otra. El caso más evidente es cuando son los mismos sujetos los que pasan por diferentes condiciones experimentales.• En otras ocasiones no son los mismos sujetos los que se repiten en las muestras, pero hay una relación sujeto a sujeto en ambas.
  12. 12. • Por ejemplo, si disponemos de 10 parejas de hermanos gemelos, podemos formar dos grupos de 5 personas donde cada dos hermanos son asignados, aleatoriamente, a grupos distintos. También podemos contar con padres e hijos, maridos y mujeres, etc.
  13. 13. • Por último, también podemos utilizar pares de sujetos que están equiparados en variables que pueden influir en el diseño de la investigación.• Por ejemplo, supongamos que para probar la eficacia de dos métodos de enseñanza, queremos controlar la influencia del CI por lo que tomamos pares de sujetos con un CI semejante formando cada uno de ellos parte de muestras diferentes.
  14. 14. CONTRASTES DE HIPÓTESIS SOBRE DOS MEDIAS EN MUESTRAS INDEPENDIENTES• En este apartado veremos tres contrastes de hipótesis sobre dos medias para muestras independientes en función de los supuestos que hagamos sobre las varianzas poblacionales. – Supuestas conocidas – Desconocidas pero suponiendo que son iguales – Desconocidas suponiendo que son diferentes.
  15. 15. • En todo contraste de hipótesis el proceso de inferencia estadística se realiza sobre una distribución teórica que denominamos distribución muestral (DM).• Nos tenemos que preguntar cómo se compone la distribución muestral en el caso de dos medias con muestras independientes.
  16. 16. Distribución muestral de la diferencia de medias para dos muestras independientes• Supongamos que tenemos dos poblaciones, y que cada una de ellas contiene 3 observaciones.• Denotaremos las puntuaciones mediante la letra latina Y. Presentamos las puntuaciones, la media y la varianza de dichas poblaciones.
  17. 17. Población Muestra DMPoblación 1 Población 2 Muestra 1 Muestra 2 Y11= 2 Y21= 3.5 Y12= 5 Y22= 5 Y13= 8 Y23= 6.5
  18. 18. • El primer subíndice hace referencia a la población/muestra a la que pertenecen y el segundo al orden que cada puntuación ocupa en su muestra.• Podemos calcular la media aritmética de todas las sub-muestras de tamaño, v.g., n = 2 con reposición para la Población 1, y que formarán la distribución muestral de la media para dicha población en muestras de tamaño n = 2.
  19. 19. • Ahora debemos plantearnos ¿cuál será la DM de las DIFERENCIAS entre las medias de cada par posible de muestras?
  20. 20. • Teóricamente podríamos plantearnos otra función de las medias muestrales (v.g., su suma, su producto, etc.) pero estaremos de acuerdo en que la diferencia entre las medias es la más sencilla además de que es congruente con la idea que subyace a H0: no existen diferencias entre ambas muestras, lo cual implica que su diferencia, por término medio, será cero.
  21. 21. • Otra fórmula para calcular la varianza de las diferencias, en términos de las varianzas de las poblaciones originales, es:
  22. 22. • En los contrastes que veremos a continuación vamos a suponer que las poblaciones de las que proceden las muestras que utilizaremos: – se distribuyen normalmente, o –n1 ≥ 30 y n2 ≥ 30.
  23. 23. Esto nos garantiza que las distribuciones muestrales de la media en ambos casos también se distribuyen normalmente y, si esto es así, también se distribuirá normalmente la distribución muestral de las diferencias entre medias.
  24. 24. Varianzas poblacionales conocidas• Ejemplo 3.1. Un psicólogo escolar utiliza un test de comprensión verbal recientemente traducido del inglés, que proporciona puntuaciones en un nivel de medida de intervalo.
  25. 25. Varianzas poblacionales conocidas• Ejemplo 3.1 Se sabe, por investigaciones anteriores, que las varianzas en la población son para niños y niñasRespectivamente.
  26. 26. Varianzas poblacionales conocidas• Ejemplo 3.1. Las investigaciones anteriores también indican que la media es la misma en ambos grupos, pero este último aspecto no ha sido comprobado con muestras españolas. El psicólogo considera que la traducción del test no es muy acertada y puede provocar diferencias que en realidad no se deben a la comprensión verbal.
  27. 27. Varianzas poblacionales conocidas• Ejemplo 3.1. Por ello selecciona aleatoriamente una muestra de 100 niños y otra muestra de 200 niñas obteniendo una media igual a 20 para los niños e igual a 17’5 para las niñas. Con un nivel de confianza del 95%. ¿Podemos afirmar que la puntuación media en el test de comprensión verbal es la misma para niños y niñas?
  28. 28. Condiciones y supuestos• Tenemos un diseño de dos muestras independientes (niños y niñas) en el que la variable dependiente (comprensión verbal) proporciona puntuaciones en una escala de intervalo. Aunque no sabemos si las poblaciones se distribuyen normalmente, trabajamos con muestras que son lo suficientemente grandes (n1 ≥ 30 y n2 ≥ 30).
  29. 29. • Finalmente, el psicólogo asume que las varianzas de las poblaciones de niños y niñas son las que reflejan las investigaciones anteriores. En definitiva se cumplen los siguientes supuestos:• Variable dependiente con un nivel de medida de intervalo o razón.• Dos poblaciones que se distribuyen normalmente, o bien n1 ≥ 30 y n2 ≥ 30.• Varianzas poblacionales conocidas.
  30. 30. Formulamos las hipótesis• En este caso el psicólogo piensa que pueden existir diferencias pero no tiene una hipótesis previa sobre la dirección de las mismas, por lo que planteamos un contraste de hipótesis bilateral:
  31. 31. Formulamos las hipótesis• O equivalentemente:
  32. 32. Estadístico de contraste y su DM• Conocemos las varianzas de las dos poblaciones y trabajamos con muestras grandes, lo que nos permite asumir la normalidad de la distribución muestral de las diferencias entre medias.
  33. 33. Dos muestras independientes DM de la Niños (1) Niñas (2) diferencia de mediasVariable X=Comprensiónverbal MUESTRASPOBLACIÓN
  34. 34. Dos muestras independientes DM de la Niños (1) Niñas (2) diferencia de mediasVariable X=Comprensiónverbal MUESTRASPOBLACIÓN
  35. 35. • Observamos que la fórmula del estadístico de contraste sigue el mismo esquema ya visto: cuantifica la discrepancia entre la diferencia de medias observada entre las dos muestras frente a una diferencia nula planteada en la hipótesis nula, todo ello medido en unidades de desviación típica.
  36. 36. • Por tanto, en el numerador tenemos la diferencia entre el valor del estadístico en la muestrarespecto del valor del parámetro que postula la hipótesis nula (que omitimos porque es cero) y en el denominador la desviación típica de la DM del estadístico.
  37. 37. • Calculamos el nivel p-crítico en la tabla de curva normal (probabilidad de obtener un valor como el observado o más extremo).• Obtenemos 0.9993
  38. 38. • Pero esta p (0.9993) es el área que deja por debajo de sí la curva en el punto 3.21. Como necesitamos conocer el área superior y sabemos que todo el área vale la unidad: 1 – 0.9993 = 0.0007 Además, como el contraste es bilateral, multiplicamos esta p por 2: 2 x 0.0007 = 0.0014
  39. 39. Nivel p-crítico=0.0007 Alpha/2=0.025
  40. 40. • En otras palabras, el estadístico de contraste (la discrepancia observada) supera el valor crítico.• En general, en un contraste bilateral, mantendremos la hipótesis nula cuando el estadístico de contraste no alcance el valor crítico y la rechazaremos cuando:
  41. 41. • Si utilizamos el nivel p-crítico para concluir qué decisión tomar con respecto a H0, llegamos a la misma conclusión, puesto que 0’0014 < 0’05 o en general:
  42. 42. • El comparar el nivel crítico (p) con el nivel de significación (alpha) nos proporciona más información que la comparación del estadístico de contraste con el valor crítico, puesto que vemos claramente que es muy improbable que siendo la hipótesis nula verdadera obtengamos dos muestras cuyas medias tengan una diferencia como la observada.• El resultado sería significativo incluso a un nivel de confianza superior al 99%.
  43. 43. Interpretar el resultado• Las sospechas del psicólogo parecen fundadas. Las diferencias significativas entre niños y niñas en fluidez verbal pueden deberse a una deficiente traducción del test.
  44. 44. Intervalo de confianza• Si estuviéramos interesados en calcular el intervalo de confianza, lo haríamos mediante la expresión:
  45. 45. Intervalo de confianza (0.975, 4.024)
  46. 46. Varianzas poblacionales desconocidas pero supuestas iguales.• Ejemplo 3.2. En un estudio sobre depresión en personas mayores llevado a cabo en un centro geriátrico, se quiere comprobar si las personas ingresadas que no reciben visitas de sus familiares tienen una puntuación media en depresión superior a aquellas personas cuyos familiares les visitan con frecuencia.
  47. 47. Varianzas poblacionales desconocidas pero supuestas iguales.• Ejemplo 3.2. Para comprobar esta hipótesis, se seleccionaron aleatoriamente 41 personas que no reciben visitas obteniéndose una puntuación media de 20 puntos con una cuasivarianza igual a 100, mientras que en una muestra aleatoria de 31 personas que si reciben visitas con frecuencia la media fue igual a 15 con una cuasivarianza igual a 90.
  48. 48. Varianzas poblacionales desconocidas pero supuestas iguales.• Ejemplo 3.2. Suponiendo que las varianzas en la población son iguales para ambos grupos, y con un nivel de confianza del 99% ¿podemos decir que los datos obtenidos avalan la hipótesis de partida?
  49. 49. Dos muestras independientes DM de la Ancianos que Ancianos que diferencia de no reciben reciben visitas mediasVariable X visitas (1) (2)=Depresión MUESTRASPOBLACIÓN
  50. 50. Condiciones y supuestos• Los requisitos en este caso son iguales que en el caso anterior. La única diferencia es que no conocemos las varianzas poblacionales, si bien las suponemos iguales. Comprobamos pues que se cumplen los siguientes puntos:• Variable dependiente con un nivel de medida de intervalo o razón. Suponemos que el test de depresión proporciona medidas en una escala de intervalo.
  51. 51. Condiciones y supuestos• Supuestos:• No sabemos cómo se distribuye la variable en población, pero salvamos este obstáculo utilizando dos muestras con 30 o más observaciones cada una.• Varianzas poblacionales desconocidas y supuestas iguales.
  52. 52. Formulamos las hipótesis• Partimos de la hipótesis de que la depresión media es superior en las personas que no reciben visitas de sus familiares (Grupo 1) respecto de las personas que reciben con frecuencia visitas de sus familiares (Grupo 2)
  53. 53. Formulamos las hipótesis• En consecuencia, el contraste de hipótesis completo será unilateral derecho:
  54. 54. Formulamos las hipótesis• Expresado en términos de desigualdades será:
  55. 55. Estadístico de contraste• El estadístico de contraste en este caso se distribuye según t de Student con n1+n2-2 grados de libertad (obsérvese la cuasivarianza):
  56. 56. Dos muestras independientes DM de la Ancianos que Ancianos que diferencia de no reciben reciben visitas mediasVariable X visitas (1) (2)=Depresión MUESTRASPOBLACIÓN
  57. 57. Estadístico de contraste• El estadístico de contraste en este caso se distribuye según t de Student con n1+n2-2 grados de libertad vale 2.14728.
  58. 58. Establecemos la regla de decisión• Buscamos en las tablas de t de Student el valor crítico (contraste unilateral), que en este caso es igual a la puntuación que supera al 99% de la distribución para 70 grados de libertad, que se corresponde con 2.381
  59. 59. Un valor de t=2.381 (el valor crítico) deja porencima de sí el 0.01 del área de la distribución.
  60. 60. Mientras que el valor t = 2.15 deja por encimade sí algo más del 0.01 del área (las tablas no nos permiten determinarlo exactamente)
  61. 61. • El nivel p-crítico es igual a p = 0’0175, pero no podemos calcularlo exactamente en las tablas del apéndice.• No obstante, podemos utilizarlas para calcularlo de forma aproximada, observando que para 70 grados de libertad nuestro estadístico de contraste se encuentra entre las puntuaciones 1’994 y 2’381 (1’994 < 2’15 < 2’381) que dejan por encima de si respectivamente las proporciones: 0’025 y 0’01, luego el nivel p-crítico se encontrará entre estos dos últimos valores (0’025 < p < 0’01).
  62. 62. Conclusión• Como el valor del estadístico de contraste (Te=2.15) no supera al valor crítico (Tc=2.38) por lo que la diferencia encontrada no es significativa con un nivel de confianza del 99%.
  63. 63. • En general en un contraste unilateral derecho mantendremos la hipótesis nula cuando el estadístico de contraste no supere el valor crítico• y la rechazaremos en caso contrario, es decir, cuando
  64. 64. • Si comparamos el nivel p-crítico con el nivel de significación: 0’0175 < 0’01 se llega a la misma conclusión.
  65. 65. Interpretación del resultado• Al nivel de confianza del 99% los resultados no indican que la puntuación media en depresión sea mayor en el grupo de sujetos que no reciben visitas respecto de los que sí las reciben. Pero los resultados sí son significativos al nivel de confianza del 95%, como apreciamos al comparar el nivel de significación con el nivel crítico.
  66. 66. Interpretación del resultado• Quizás fuera conveniente profundizar en la relación entre ser visitado o no por los familiares y puntuar más alto en depresión en las personas que permanecen ingresadas en centros geriátricos.
  67. 67. ¿Experimentos chorras o de sentido común?
  68. 68. Intervalo de confianza (-18.2942, 28.2942)
  69. 69. • XXX Ejemplo 3.3. Un laboratorio desarrolla un fármaco con el que se pretende reducir la ansiedad. Para comprobarlo, se extrajeron dos muestras aleatorias de cinco observaciones cada una que suponemos procedentes de poblaciones que se distribuyen normalmente con distinta varianza.
  70. 70. • Ejemplo 3.3. A los sujetos de la primera muestra se les administró el fármaco y los de la segunda una sustancia placebo. Posteriormente se les midió la ansiedad a todos los sujetos mediante un test en el que cuanto más elevada es la puntuación mayor es la ansiedad.
  71. 71. • Ejemplo 3.3. Las resultados de ambas muestras fueron:• Grupo 1 (con fármaco): {10; 20; 30; 20; 5}• Grupo 2 (sin fármaco): {30; 50; 30; 60; 20}Con un nivel de confianza del 95%, ¿podemos afirmar que el fármaco efectivamente reduce la ansiedad?
  72. 72. Condiciones y supuestos• Necesitamos asumir que la variable dependiente esté medida a nivel de intervalo. En cuanto a las poblaciones de las que proceden las varianzas, necesitamos suponerlas normalmente distribuidas porque el tamaño de las muestras es pequeño. En este caso tampoco conocemos las varianzas poblacionales, aunque las suponemos distintas.
  73. 73. Dos muestras independientes DM de la Sujetos que Sujetos que diferencia de reciben el reciben el mediasVariable X fármaco (1) placebo (2)=Ansiedad X1 = 10, 20, 30, X = 30, 50, 30, 2 20, 5 60, 20Distribuciónnormal MUESTRASPOBLACIÓN
  74. 74. Formulamos las hipótesis• De acuerdo con la hipótesis del laboratorio esperamos que la puntuación media sea inferior en el grupo 1 (nuestro fármaco reduce la ansiedad significativamente), por lo que hemos de plantear un contraste de hipótesis unilateral izquierdo.
  75. 75. • Luego la hipótesis completa será:
  76. 76. • Esta hipótesis se puede plantear también como:
  77. 77. Estadístico de contraste
  78. 78. Distribución muestral• El estadístico T sigue una distribución muestral t de Student con los grados de libertad (redondeando al entero más próximo):
  79. 79. Dos muestras independientes DM de la Sujetos que Sujetos que diferencia de reciben el reciben el mediasVariable X fármaco (1) placebo (2)=Ansiedad X1 = 10, 20, 30, X = 30, 50, 30, 2 20, 5 60, 20Distribuciónnormal MUESTRASPOBLACIÓN
  80. 80. Dos muestras independientes DM de la Sujetos que Sujetos que diferencia de reciben el reciben el mediasVariable X fármaco (1) placebo (2)=Ansiedad X1 = 10, 20, 30, X = 30, 50, 30, 2 20, 5 60, 20Distribuciónnormal MUESTRASPOBLACIÓN
  81. 81. Dos muestras independientes DM de la Sujetos que Sujetos que diferencia de reciben el reciben el mediasVariable X fármaco (1) placebo (2)=Ansiedad X1 = 10, 20, 30, X = 30, 50, 30, 2 20, 5 60, 20Distribuciónnormal MUESTRASPOBLACIÓN
  82. 82. Dos muestras independientes DM de la Sujetos que Sujetos que diferencia de reciben el reciben el mediasVariable X fármaco (1) placebo (2)=Ansiedad X1 = 10, 20, 30, X = 30, 50, 30, 2 20, 5 60, 20Distribuciónnormal MUESTRASPOBLACIÓN
  83. 83. Dos muestras independientes DM de la Sujetos que Sujetos que diferencia de reciben el reciben el mediasVariable X fármaco (1) placebo (2)=Ansiedad X1 = 10, 20, 30, X = 30, 50, 30, 2 20, 5 60, 20Distribuciónnormal MUESTRASPOBLACIÓN
  84. 84. • Regla de decisión: buscamos en las tablas t de Student el valor t que deje por debajo de sí un área del 0.05 (y 1-0.05 = 0.95 por encima) con 6 grados de libertad:
  85. 85. Valor t con 6 grados de libertad y que deja por encimade sí el 0.05 del área (valor positivo, luego su negativo deja por debajo de sí el 0.05)
  86. 86. Valor p-crítico
  87. 87. • Conclusión: el valor del estadístico de contraste es una puntuación más extrema que el valor crítico que hemos buscado en la tabla t de Student (-2.46 < -1.94) por lo que rechazamos la hipótesis nula.
  88. 88. • Con la misma lógica que en todos los contrastes, en general en un contraste bilateral izquierdo mantendremos la hipótesis nula cuando se cumpla que y la rechazaremos si
  89. 89. • Para calcular aproximadamente el nivel p- crítico, en la tabla t de Student, para 6 grados de libertad, tenemos que se encuentra entre 2.447 < 2.46 < 3.143
  90. 90. • por lo que deducimos que el nivel p-crítico estará comprendido entre las probabilidades de encontrar valores iguales o inferiores a estas dos puntuaciones 1- 0.975 = 0.025 1- 0.990 = 0.01• 0.01 > p_crítico > 0.025
  91. 91. Interpretar el resultado• A un nivel de confianza del 95% concluimos que la media en ansiedad es inferior para el grupo que tomó el fármaco, por lo que concluimos que, efectivamente, reduce la ansiedad.
  92. 92. Consideraciones sobre los contrastes de hipótesis en dos muestras independientes• En el primer contraste de hipótesis incluíamos entre los supuestos el que las varianzas poblacionales son conocidas, lo que difícilmente podremos asumir en un caso práctico.• Si no conocemos las medias de las poblaciones con las que trabajamos, difícilmente podremos considerar que sí conocemos sus varianzas.
  93. 93. • Lo más habitual, por lo tanto, será asumir que las varianzas poblacionales son desconocidas, y en este caso el contraste más utilizado es en el que suponemos varianzas poblacionales iguales.
  94. 94. • Este supuesto, al que denominaremos homocedasticidad, es muy común en otras técnicas estadísticas, como veremos en los temas en que compararemos las medias de más de dos grupos (Análisis de la Varianza) o en el Análisis de Regresión.
  95. 95. • La cuestión estriba en que podamos asumir la normalidad de la distribución muestral de las diferencias de las medias, lo que podremos garantizar si las muestras que utilizamos son grandes. Si la distribución muestral es normal y los tamaños de ambas muestras son iguales, podemos despreocuparnos de las varianzas poblacionales y suponer sin más que son iguales, sin que por ello peligre la validez del contraste de hipótesis que estamos realizando.
  96. 96. • Ahora bien, habrá casos en los que la opción más acertada será suponer varianzas poblacionales distintas, y por lo tanto tendremos que utilizar el estadístico de contraste apropiado.• En la literatura científica sobre este tema se proponen diferentes procedimientos para ajustar los grados de libertad de la distribución muestral. Nosotros hemos utilizado la solución propuesta por Welch.
  97. 97. • El procedimiento de Welch nos ofrece un valor inferior para los grados de libertad en relación a si tomamos n1+n2-2. Recuérdese en el ejemplo anterior que n1+n2-2=5+5-2=8 pero escogimos el valor dado por la fórmula gl = 6.
  98. 98. • El contraste por lo tanto es más conservador (para un mismo alpha), siendo más difícil rechazar la hipótesis nula.
  99. 99. • Muchos investigadores sugieren que ha de realizarse previamente un contraste de hipótesis sobre la igualdad las varianzas, de manera que si aceptamos la hipótesis nula las supondremos iguales y en caso contrario diferentes.
  100. 100. TEST DE MANN-WHITNEY-WILCOXON• Cuando no podamos asumir los supuestos necesarios para realizar un contraste paramétrico sobre dos medias en muestras independientes, utilizaremos el test de Mann- Whitney-Wilcoxon (MWW), con el que pondremos a prueba la igualdad o desigualdad de las medianas de las poblaciones de las que proceden las muestras, pudiendo plantearse, al igual que en el caso de las medias, contrates unilaterales o bilaterales.
  101. 101. TEST DE MANN-WHITNEY-WILCOXON• También podemos emplear el test MWW para reducir o eliminar el impacto de los valores atípicos (outliers) ya que utiliza los valores ordinales de los datos, no los propios datos.
  102. 102. Supuestos• La variable dependiente empleada debe ser, al menos, de nivel ordinal.• Las distribuciones subyacentes a partir de las que se han extraído las muestras deben tener la misma forma. Dicha forma no tiene porque ser normal, si bien, el supuesto de igualdad de forma conlleva el supuesto de homocedasticidad.
  103. 103. • Aunque se deba asumir la homocedasticidad, el test MWW no se muestra tan afectado por la violación del supuesto de homocedasticidad como lo es el test paramétrico correspondiente.
  104. 104. Ejemplo 3.4• Un equipo de psicólogos evolutivos ha estudiado como adquieren los niños la capacidad de empatizar con otros. Para este fin han desarrollado un test para medir la empatía en niños pequeños. Los estudios preliminares han mostrado que los chicos son más lentos en desarrollar esta capacidad y, además, la desarrollan en menor cuantía que las chicas.
  105. 105. Ejemplo 3.4• En uno de estos estudios se eligieron dos grupos al azar, uno de niños (Grupo 1) y otro de niñas (Grupo 2) y las puntuaciones obtenidas, en una escala de intervalo, fueron:• Grupo 1: 13; 13; 25; 13; 18; 8• Grupo 2: 27; 21; 15; 21; 23; 30; 16• Determine si estos resultados apoyan la afirmación de que los niños tienen menor empatía que las chicas (α = 0’05).
  106. 106. Condiciones y supuestos• Aunque la variable dependiente está medida a un nivel de intervalo, no sabemos cómo es la forma de las distribuciones de niños y niñas en la población (normal, t, …).• Por otro lado, el tamaño de las muestras es pequeño (6 y 7 elementos, respectivamente ), y por lo tanto no podemos asumir que la distribución muestral de las diferencias es normal, por lo que realizamos un contraste no paramétrico aplicando el test MWW.
  107. 107. • En general necesitamos que se cumplan las siguientes condiciones: – Variable dependiente medida en una escala al menos ordinal. – Distribuciones poblacionales con la misma forma.
  108. 108. Formulamos las hipótesis• Queremos contrastar si los niños (Grupo 1) tienen menor empatía que las niñas (Grupo 2), por lo que el contraste es unilateral izquierdo. Las hipótesis planteadas hacen referencia a las medianas poblacionales.
  109. 109. Formulamos las hipótesis• Luego la hipótesis completa es:
  110. 110. Estadístico de contraste• Para calcular el estadístico del test MWW debemos combinar las dos muestras y transformar las observaciones directas en rangos, calculando la suma de los rangos pertenecientes a cada muestra por separado.
  111. 111. Estadístico de contraste• La lógica del estadístico MWW consiste en que si la mediana de la población de la que se ha extraído la primera muestra es inferior a la mediana de la segunda población (de la que se ha extraído la segunda muestra) deberíamos esperar que la suma de los órdenes pertenecientes a la primera muestra fuese inferior a la suma de los órdenes pertenecientes a la segunda muestra.
  112. 112. Comenzamos asignando rangos a todas las puntuaciones 8, 13, 15, 16, 18, 21, 23, 25, 27, 30 Grupo 1 Grupo 2Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13Empatía 13 13 25 13 18 8 27 21 15 21 23 30 16Rango 3 3 11 3 7 1 12 8’5 5 8’5 10 13 6
  113. 113. • Observamos que hay empates.• En el Grupo 1 hay tres puntuaciones iguales (sujetos 1, 2 y 4 con puntuaciones todas iguales a 13), a las que les corresponderían los rangos 2, 3, 4, y a las que asignamos el rango medio de estos tres valores:
  114. 114. • De igual forma, las puntuaciones de los sujetos 8 y 10 son igual a 21, y ocupan los lugares octavo y noveno, por lo que les asignamos el rango 8’5.
  115. 115. • A continuación calculamos las sumas de los rangos para cada una de las muestras y a los que llamaremos S1 para el primer grupo y S2 para el segundo: – Grupo 1: S1 = 3 + 3 + 11 + 3 + 7 + 1 = 28 – Grupo 2: S2 = 12 + 8’5 + 5 + 8’5 + 10 + 13 + 6 = 63 Grupo 1 Grupo 2Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13Empatía 13 13 25 13 18 8 27 21 15 21 23 30 16Rango 3 3 11 3 7 1 12 8’5 5 8’5 10 13 6
  116. 116. • Obtenemos los estadísticos U1 y U2, restando a S1 y S2 el sumatorio de rangos total de cada sub-grupo:
  117. 117. • Si, v.g., tuviéramos un grupo con 2 puntuaciones, tendríamos los rangos 1º y 2º, cuyo sumatorio da 3.
  118. 118. • Si, v.g., tuviéramos un grupo con 3 puntuaciones, tendríamos los rangos 1º, 2º y 3º, cuyo sumatorio da 6.
  119. 119. • Si, v.g., tuviéramos un grupo con 4 puntuaciones, tendríamos los rangos 1º, 2º, 3º y 4º, cuyo sumatorio da 10.• Y así sucesivamente.
  120. 120. • Luego la expresión• Nos proporciona el sumatorio de los rangos totales de los elementos de ese grupo. La diferencia entre los valores Si obtenidos y este valor es un índice de discrepancia.
  121. 121. • Para el primer grupo• El sumatorio de los 6 primeros rangos del grupo con 6 puntuaciones daría un total de 21 (1/2 * 6 * 7) si consideramos el grupo por sí solo. En el grupo total se ha obtenido 28.
  122. 122. • Para el segundo grupo• El sumatorio de los 7 primeros rangos del grupo con 7 puntuaciones daría un total de 28 (1/2 * 7 * 8) si consideramos el grupo por sí solo. En el grupo total se ha obtenido 63.
  123. 123. • Las tablas están tabuladas en función del valor más pequeño de Ui. Luego escogemos el mínimo del conjunto {7, 35} que resulta ser 7.• Este valor es el estadístico de contraste obtenido.
  124. 124. Regla de decisión• La Tabla U de Mann-Whitney-Wilcoxon expresa los valores críticos U en función del número de sujetos de cada grupo, del nivel de confianza y del tipo de contraste (bilateral o unilateral). Acudiendo a dicha tabla con α = 0’05; n1 = 6 y n2 = 7, obtenemos un valor crítico igual a 8.
  125. 125. Conclusión• La significación (rechazo de H0) se alcanza si el estadístico de contraste (valor U obtenido en la muestra, en nuestro caso 7) es igual o menor que el valor crítico extraído de la tabla (en nuestro caso 8) al nivel de significación especificado.• Como 7 < 8, rechazamos la hipótesis nula al nivel de confianza del 95%.
  126. 126. Interpretación del resultado• Al nivel de confianza del 95%, los resultados apoyan la afirmación de que los niños tienen menor empatía que las niñas, resultado que está de acuerdo con los estudios preliminares llevados a cabo por el equipo de psicólogos evolutivos y que se citan en el enunciado.
  127. 127. Aproximación a la normal con muestras grandes• Cuando n1 o n2 son superiores a 20 podemos utilizar el Teorema del Límite Central para demostrar que el estadístico• se distribuye según una z:
  128. 128. • En donde el términorepresenta el valor medio esperado de U si H0 es cierta, es decir, si realmente los dos grupos tienen idéntica mediana.El denominador de Z representa el error típico de la distribución muestral del estadístico Ui.
  129. 129. • Aunque con los datos del Ejemplo 3.4 no tenemos suficientes sujetos para utilizar la aproximación a la distribución normal, lo haremos para ilustrar su cálculo.• Observamos que en el estadístico Z se ha puesto Ui, ya que podemos utilizar U1 o U2 para realizar el contraste.
  130. 130. • Observamos que en el estadístico Z se ha puesto Ui, ya que podemos utilizar U1 o U2 para realizar el contraste.
  131. 131. • Estos resultados nos informan que el valor U1 (Grupo 1) es inferior al valor medio esperado si H0 es cierta (con un alpha = 0.05, el valor de la Z crítica es -1.64)
  132. 132. CONTRASTE DE HIPÓTESIS SOBRE DOS VARIANZAS EN MUESTRAS INDEPENDIENTES• Ejemplo 3.5. Eysenck (1981) afirmaba que hombres y mujeres tienen la misma puntuación media en cociente intelectual (CI), pero que los hombres muestran mayor variabilidad en inteligencia. Para comprobar la hipótesis de Eysenck, seleccionamos aleatoriamente una muestra de 41 hombres y otra de 31 mujeres.
  133. 133. CONTRASTE DE HIPÓTESIS SOBRE DOS VARIANZAS EN MUESTRAS INDEPENDIENTES• Ejemplo 3.5. Tras aplicar un test de inteligencia en ambas muestras, observamos que la cuasivarianza en el grupo de hombres es igual a 289, mientras que en el de mujeres vale 225. Con un nivel de confianza del 99% ¿avalan estos datos la hipótesis de Eysenck de que existen diferencias en la variabilidad del CI entre mujeres y hombres, siendo la de éstos mayor?
  134. 134. Dos muestras independientes DM de la Hombres (1) Mujeres (2) diferencia de varianzasVariable X=CI MUESTRASPOBLACIÓN
  135. 135. CONDICIONES Y SUPUESTOS• Asumimos que las puntuaciones que nos proporcionan los tests de inteligencia miden este constructo en una escala de intervalo, y que la variable medida se distribuye normalmente tanto en la población de hombres como en la de mujeres.
  136. 136. CONDICIONES Y SUPUESTOS• En general, los supuestos necesarios son:• Variable dependiente con un nivel de medida de intervalo o razón.• Dos poblaciones con variables normalmente distribuidas, o bien n1 ≥ 30 y n2 ≥ 30.
  137. 137. Formulamos la hipótesis• Plantearemos un contraste unilateral derecho, en el que la hipótesis alternativa corresponderá a la sugerida por Eysenck, e indicará que la variabilidad en inteligencia es superior en el grupo de hombres.
  138. 138. • En consecuencia, las hipótesis son:
  139. 139. • También podemos expresarlas como una razón:
  140. 140. • Y por consiguiente:
  141. 141. Estadístico de contraste• El estadístico de contraste sigue una distribución muestral “F” de Fisher:
  142. 142. Dos muestras independientes DM de la Hombres (1) Mujeres (2) diferencia de varianzasVariable X=CI MUESTRASPOBLACIÓN
  143. 143. Estadístico de contraste• Los grados de libertad del numerador y denominador son, respectivamente:
  144. 144. Nivel p-crítico• El cálculo del nivel p-crítico mediante las tablas será aproximado.• Observamos en dichas tablas que el primer valor que nos ofrecen para 40 y 30 grados de libertad es igual a 1’573, al que supera una proporción igual a 0’10, luego con las tablas tan sólo podemos saber que el nivel p-crítico es mayor que 0’10 (p > 0’10).
  145. 145. F empírica = 1.28
  146. 146. Nivel p-crítico• Luego con las tablas tan sólo podemos saber que el nivel p-crítico es mayor que 0’10 (p > 0’10). Con un programa informático adecuado concluiríamos que el valor exacto de p es 0’2432.
  147. 147. • Regla de decisión: a un nivel de confianza del 99% para 40 y 30 grados de libertad, el valor crítico es igual a 2’299.
  148. 148. Conclusión• A la vista de los resultados mantenemos la hipótesis nula a un nivel de confianza del 99%, puesto que el valor del estadístico de contraste es inferior al valor crítico.• Los resultados obtenidos están lejos de ser significativos para cualquier nivel de confianza razonable.• Concluimos por lo tanto que la varianza de hombres y mujeres en inteligencia es la misma.
  149. 149. Interpretar el resultado• Eysenck (1981) afirmaba que el hecho de que los hombres mostrasen mayor variabilidad en inteligencia implica que hay más hombres que mujeres con CI muy altos y con CI muy bajos. Si estos hubiesen sido los resultados de un estudio con todas las garantías, los resultados no apoyarían la hipótesis de Eysenck.
  150. 150. Propiedad recíproca de la distribución F• Aunque en este contraste no ha sido necesario utilizarla, recordamos la propiedad recíproca de la distribución F que nos permite calcular probabilidades que no aparecen en la tabla:
  151. 151. THE TOP TEN REASONS TO BECOME A STATISTICIANDeviation is considered normal.We feel complete and sufficient.We are "mean" lovers.Statisticians do it discretely andcontinuously.We are right 95% of the time.
  152. 152. THE TOP TEN REASONS TO BECOME A STATISTICIAN We can legally comment on someones posterior distribution. We may not be normal but we are transformable. We never have to say we are certain. We are honestly significantly different (HSD). No one wants our jobs.

×