Anova1

11,453 views

Published on

Published in: Education, Technology
1 Comment
7 Likes
Statistics
Notes
No Downloads
Views
Total views
11,453
On SlideShare
0
From Embeds
0
Number of Embeds
47
Actions
Shares
0
Downloads
0
Comments
1
Likes
7
Embeds 0
No embeds

No notes for slide

Anova1

  1. 1. Análisis de la Varianza de un factor completamente aleatorizado<br />
  2. 2. Introducción<br />Queremos conocer si existen diferencias significativas en el rendimiento (VD) en una tarea de destreza motora como consecuencia del tiempo de práctica previo (VI). Para ello se lleva a cabo un experimento creando tres grupos (sin práctica previa, 5 minutos, y 10 minutos de práctica previa). La tabla adjunta, recoge los datos obtenidos en una muestra de 30 sujetos (10 por condición).<br />
  3. 3. ¿Se ve afectado el rendimiento por el tiempo de práctica previa en la tarea?<br />Según la técnica de contraste de medias mediante la T de Student que conocemos, deberíamos realizar 3 contrastes diferentes para el mismo experimento si queremos extraer toda la información que existe en los datos:<br />De haber tenido 6 grupos diferentes habríamos tenido que realizar 15 contrastes t diferentes: J(J-1)/2. Sin embargo ése, aunque tedioso no sería el problema principal. Si para cada uno de los contrastes realizados la probabilidad de error Tipo I permanece constante, la probabilidad de cometer al menos 1 error tipo 1 no es precisamente αsino donde n el número de contrastes realizados.<br />
  4. 4. Inconvenientes de la prueba t de contrastes de medias<br />Nos obliga a realizar J(J-1)/2 comparaciones si el numero de grupos es mayor de 2.<br />Presenta una probabilidad de error Tipo I que aumenta a medida que lo hace el número de contrastes.<br />No permite conocer la relación que existe entre la VD y la VI<br />Es incapaz de detectar efectos más realistas como la influencia conjunta de dos o mas variables así como la interacción de estas sobre la variable dependiente.<br />La mayor parte de los inconvenientes, presentados, son parcialmente resueltos por una técnica denominada ANALISIS DE LA VARIANZA, que pone a prueba la hipótesis nula de que las k medias de los k grupos independientes son iguales (pertenecen a la misma población)<br />
  5. 5. El análisis de la Varianza de un factor<br />El análisis de la varianza nos permite realizar inferencias acerca de las medias poblacionales, (desconocidas) a partir de las medias muestrales, (obtenidas experimentalmente) y concretamente, pone a prueba la hipótesis nula:<br />Pero el contraste, sorprendentemente, no será a partir de la comparación de las medias implicadas, sino de la variabilidad observada de las puntuaciones. Extrayendo dos componentes de variabilidad que combinaremos adecuadamente para concluir la veracidad o no de la Ho planteada.<br />Si observamos las puntuaciones presentadas en la tabla del ejemplo del rendimiento, observamos que como es obvio dentro de cada grupo, no todas las puntuaciones son iguales a la media es decir presentan una variabilidad intragrupo. También observamos que a su vez los grupos con práctica previa presentan asimismo esta variabilidad interna pero las puntuaciones son en general mayores que en el grupo anterior. Es decir observamos también la presencia de una variabilidad “entre los grupos” atribuida a los “tratamientos”.<br />
  6. 6. Se trata por tanto de estimar de forma independiente la variabilidad total de variable estudiada (VD) descomponiéndola en dos componentes aditivos:<br />Una componente debida a la variable de agrupación utilizada (VI). Será la parte de la varianza que hemos denominado “variabilidad ínter grupo”.<br />Otra componente debida a factores extraños y no controlados en el experimento. Será la parte de la varianza que hemos denominado “varianza intragrupo” o varianza de error. <br />Si estos componentes no difieren apreciablemente, concluimos que las medias provienen de la misma población y, por tanto, las diferencias muestrales observadas son debidas al azar. <br />Por el contrario, si ha habido un efecto de la VI la variabilidad ínter grupo habrá de ser “significativamente” mayor que la variabilidad intragrupo y, por lo tanto, concluiremos que las medias provienen de poblaciones diferentes, lo que nos conducirá al rechazo de la hipótesis nula de igualdad de las k medias planteadas.<br />
  7. 7. Tipos de ANVAR, AVAR o ANOVA<br />En el contexto ANOVA cuando nos referimos a la/s variable/s independiente/s las denominaremos factores y, cuando hablamos de las distintas modalidades de los factores, lo hacemos empleando el término niveles. <br />En nuestro ejemplo tenemos un factor de nombre tiempo de práctica previa con tres niveles: sin práctica previa, con 5 minutos de pp. y con 10 minutos de práctica previa. <br />Así mismo, llamaremos efecto a la influencia del factor (VI) sobre la VD estudiada y errorexperimental a todos aquellos factores que influyen en nuestro experimento y que no podemos controlar a pesar de ejecutarlo en las condiciones más rigurosas.<br />El ANOVA ofrece múltiples posibilidades analíticas a través de un gran número de modelos dependientes de: número de factores, al tipo de aleatorización y al tipo de muestreo de niveles.<br />
  8. 8. Según el número de factores. Disponemos de modelos unifactoriales y modelos multifactoriales. Así el modelo de dos factores (o de doble clasificación) o modelos de dos vías estudia el efecto de dos variables independientes sobre una dependiente. Normalmente se utiliza el término genérico de modelosfactoriales y se emplea una notación que indica directamente el número de factores y niveles implicados. Así un modelo factorial A x B x C (3 x 2 x 4) es un modelo trifactorial o de 3 vías con tres, dos y cuatro niveles en los respectivos factores A, B y C. Dicho modelo por tanto tendrá 24 condiciones experimentales y tres efectos: el de A, el de B, el de C y cuatro efectos de interacción (1 triple y 3 dobles).<br />Con respecto al muestreo de niveles, podemos clasificar los modelos del análisis de la varianza en modelos de efectos fijos, modelos de efectos aleatorios y modelos de efectos mixtos. En el primer caso el investigador selecciona los niveles exclusivos sobre los que desea probar la existencia de un determinado efecto, mientras que en los segundos selecciona aleatoriamente un número determinado de niveles de todos los posibles. Cuando disponemos de dos o más factores y unos son fijos y otros aleatorios, se denominan de efectos mixtos.<br />
  9. 9. Según el tipo de aleatorización (como asignamos los sujetos a las condiciones) disponemos de los modelos completamente aleatorios: los sujetos son asignados aleatoriamente a las condiciones y cada uno pasa exclusivamente por una condición experimental. En estos casos el número de observaciones registradas (medidas de la VD) coincide exactamente con el número de sujetos participantes. <br /> Los diseños de medidas repetidas, serían aquellos en los que un único grupo de sujetos recibe la totalidad de los tratamientos, es decir, pasa por todas las condiciones experimentales.<br /> En los diseños mixtos, disponemos de factores completamente aleatorizados y de medidas repetidas. Si quisiésemos conocer la posible influencia diferencial de una determinada campaña publicitaria sobre hombres y mujeres, podríamos medir a todos los sujetos en una escala de actitud hacia el constructo X y posteriormente a una campaña realizar de nuevo la medición sobre los mismos sujetos. Tendremos por tanto un diseño mixto 2 x 2 con cuatro condiciones experimentales dos relativas al factor sexo (ínter grupo) y dos de medida repetida (medida antes y después del constructo X)<br />
  10. 10. El Modelo del ANOVA<br />Para introducir el modelo correspondiente al diseño de un solo factor de efecto fijo completamente aleatorio, será de gran utilidad la ecuación general del modelo de regresión simple. En ella observamos que la puntuación observada es combinación lineal de un término general u ordenada en el origen (valor que adopta la predicción de Y cuando X es cero) más dos términos aditivos: una pendiente de regresión de X sobre Y (cambio de Y por unidad de cambio de X) más un término de error aleatorio (cantidad que habrá de añadirse a la predicción de Y para obtener el valor realmente observado de la variable.<br />La segunda ecuación expresa el valor de la variable dependiente Y en el sujeto i perteneciente a la condición experimental j (tratamiento j) como la suma de tres componentes.<br />
  11. 11. La ecuación general del ANOVA que descompone la variabilidad total de la variable dependiente (SCT) en dos componentes aditivos es : <br />Componente atribuible a los grupos de pertenencia (SCInter)<br />Componente atribuible a error o variabilidad que ocurre dentro de los grupos (SCIntra)<br />Dicha aditividad cuando la Ho es cierta hace que en términos de varianzas, ambas sean equiprobables con lo que si las dividimos el cociente resultante sería la unidad (Si Ho es cierta)<br />
  12. 12. Medias Cuadráticas<br />El ANOVA contrasta las estimaciones de las varianzas poblacionales ínter grupo e intragrupo. En el ANOVA estas varianzas reciben el nombre de Medias cuadráticas y se obtienen mediante la combinación de las sumas cuadráticas y los grados de libertad. Como quiera que sólo necesitamos las varianzas Inter e Intragrupo, éstas se obtendrían mediante:<br />
  13. 13. La razón F como estadístico de contraste<br />La hipótesis nula de igualdad de medias se pone a prueba mediante la razón entre las medias cuadráticas. Si Ho es verdadera, el valor esperado de dicha razón será 1 o cercano a 1 ya que los valores esperados para ambas medias cuadráticas en ausencia de efecto alguno es σ<br />
  14. 14. La tabla resumen del ANOVA <br />Contrastamos contra una F crítica de 2 y 27 grados de libertad: F(2,27)=3.35<br />Rechazo Ho (p&lt; 0.001)<br />
  15. 15. Análisis de la varianza de un factor en SPSS<br />2<br />1<br />3<br />
  16. 16. La probabilidad de encontrar una ratio F de 24,793 si Ho fuese cierta es claramente menor que el nivel α mas restrictivo. Razón por la que rechazamos la Ho de igual destreza motora entre los tres niveles que se contrastan (p &lt; 0.001)<br />Varianzas Homogéneas p &gt; 0.05<br />Tabla resumen del ANOVA<br />
  17. 17. El caso número 9 perteneciente al grupo sin práctica presenta un nivel de destreza anormalmente alto para su grupo. Constituye un caso atípico.<br />Vemos que la mediana en el grupo 1 está prácticamente solapada con el P75. Vemos que este grupo está claramente diferenciado de los otros dos. Que presenta una distribución centrada en valores más altos. El diagrama de caja para el grupo de 10 minutos, tiene todos los valores bajos concentrados muy próximos al P25. <br />
  18. 18. Observamos como a medida que aumenta el tiempo de práctica también lo hace la destreza. La gráfica ofrece una tendencia lineal de crecimiento de la destreza en función del tiempo de práctica previa.<br />
  19. 19. Comprobación de supuestos y comparaciones múltiples<br />Prueba de Levene. Homogeneidad de las varianzas<br />El tamaño del efecto en el ANOVA de una vía<br />La Potencia del contraste en el ANOVA de una vía<br />Comparaciones múltiples<br /> - Comparaciones ortogonales<br /> - Comparaciones planeadas (a priori) y ortogonales<br /> - La prueba F planeada.<br /> - Comparaciones a posteriori (pos-hoc)<br /> - La prueba de Tukey<br /> - La prueba de Scheffé<br /> - Comparaciones de Tendencias<br />
  20. 20. 1<br />2<br />El tamaño del efecto y potencia en el ANOVA de una vía<br />3<br />
  21. 21. Resultados en SPSS<br />Tamaño del efecto<br />Potencia observada<br />
  22. 22. Potencia a priori<br />La tabla adjunta presenta el número de sujetos por condición que necesitaremos para detectar un tamaño de efecto definido (pequeño, mediano y grande) para el nivel de confianza (representado por su inverso α) y potencia deseada. Así si tenemos un tamaño de efecto grande y queremos una potencia del 80% para una confianza del 95% necesitaremos 17 sujetos por condición. Por el contrario si el tamaño a detectar fuese mediano o pequeño, habríamos de incrementar los tamaños por grupo a 44 o 271 respectivamente.<br />
  23. 23. Comparaciones Múltiples<br />El rechazo de la Ho, sólo nos informa de que no todas las J medias contrastadas son iguales. Por ello el estadístico F suele ser sólo el primer paso del análisis. Tras rechazar la Ho, debemos preguntarnos dónde se sitúan las diferencias significativas encontradas en la prueba omnibus. La solución a esta pregunta, se lleva a cabo a través de los procedimientos denominados de comparaciones múltiples entre medias. <br />Dividiremos estos procedimientos en dos grupos:<br />Comparaciones a priori o planeadas<br />Comparaciones a posteriori o post-hoc.<br />Una comparación o contraste es una combinación lineal o suma ponderada de medias con pesos o coeficientes no todos iguales a cero cuya suma es cero.<br />
  24. 24. Comparaciones a priori en SPSS<br />1<br />2<br />3<br />Resultados en SPSS<br />
  25. 25. Comparaciones a posteriori post-hoc en el SPSS<br />1<br />2<br />Resultados en SPSS<br />
  26. 26. Comparaciones de tendencias<br />Cuando la variable independiente del experimento es en origen cuantitativa, es frecuente que el interés del investigador también se centre en determinar el tipo de relación que ésta guarda con la dependiente<br />Como observamos en estas gráficas la relación entre la VI y la VD puede ser lineal, cuadrática o cúbicas. <br />La forma de llevar a cabo contrastes de tendencias es muy similar a la realizada en el apartado de las comparaciones múltiples.<br />
  27. 27. Sin embargo a diferencia de las comparaciones múltiples anteriores el estudio de la relación entre las variables a través del análisis de tendencia exige que la variable independiente sea cuantitativa en origen y que sus niveles discretos que constituyen las condiciones experimentales, estén igualmente espaciados (si se quiere utilizar los pesos estandarizados de la tabla de coeficientes ortogonales de tendencia).<br />En nuestro ejemplo práctico, no solamente hemos encontrado una diferencia significativa entre los grupos sino que se aprecia una clara tendencia lineal en la relación entre el tiempo de práctica previa y el rendimiento. Por ello llevaremos a cabo un contraste de tendencia que ponga a prueba la hipótesis nula de que no existe tal relación.<br />
  28. 28. 1<br />2<br />Resultados en SPSS<br />SPSS confirma lo estimado manualmente: la relación entre VI y VD es lineal (p &lt; 0.001)<br />
  29. 29. El ANOVA de un factor de efecto fijo con medidas repetidas<br />- El modelo<br />El término Bi se refiere al efecto debido a la variación entre los sujetos. El resto de los términos de la ecuación son idénticos a los de un factor de efecto fijo completamente aleatorizado.<br />
  30. 30. La Tabla resumen del Anova de un factor de medidas repetidas<br />
  31. 31. Supuestos del ANOVA de medidas repetidas<br />Además de los supuestos de normalidad y homogeneidad de varianzas expuesto, el ANOVA de medidas repetidas requiere de un supuesto adicional. Definiremos este supuesto como de Aditividad. Implica que los tratamientos y los errores son independientes de los sujetos.<br />En los diseños de medidas repetidas las distintas observaciones o medidas realizadas a cada sujeto están correlacionadas entre sí (autocorrelacionadas).<br />
  32. 32. Seleccionamos las 4 medidas y las introducimos mediante el triángulo<br />Pulsamos Añadir<br />y posteriormente Definir<br />
  33. 33. Prueba de esfericidad de la matriz de varianzas y covarianzas de las diferencias par a par entre los grupos.<br />Epsilon o factor corrector de los grados de libertad. Si la prueba de Mauchly es no significativa en la práctica vale 1<br />Asumimos la esfericidad de la matriz de varianzas y covarianzas de las diferencias. No hay por tanto que corregir los grados de libertad en la tabla resumen posterior<br />
  34. 34. Corrección de los grados de libertad si hubiese incumplimiento de esfericidad<br />Tal y como podemos observar rechazamos la Ho de igualdad de las 4 medias de recuerdo en función del tiempo (p &lt; 0.001). Sin embargo las medias nos indican una caída a partir de la 1 hora y una aparente estabilización del recuerdo hasta un mes.<br />
  35. 35.
  36. 36. Seleccionamos Opciones<br />Comparaciones post-hoc<br />
  37. 37. Podemos ver como de todos los pares resultan significativos las comparaciones entre 1 hora y el resto de los niveles de tiempo transcurrido: 1 día, 1 semana y 1 mes. Sin embargo no existen diferencias entre las medias de recuerdo de el resto de las comparaciones entre pares posibles.<br />

×