Your SlideShare is downloading. ×
  • Like
7. Análisis de Varianza (ANOVA)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

7. Análisis de Varianza (ANOVA)

  • 9,011 views
Published

 

Published in Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
9,011
On SlideShare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
195
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Instituto Tecnológico Superior de Zacapoaxtla Departamento de Desarrollo AcadémicoMaría del Consuelo Valle Espinosa
  • 2. Usaremos el análisis de la varianza (ANOVA) para contrastar lahipótesis nula de que las medias de distintas poblaciones coinciden.Por ejemplo, en el caso de 5 poblaciones, el contraste a realizarsería:HO : μ 1 = μ 2 = ... = μ 5 vs. HA : no todas las medias poblacionalesson igualesEn la sección anterior se estudió cómo se utiliza la distribución t-Student (o la Normal) para contrastar la hipótesis nula de que dosmedias poblacionales coinciden. Usando esta técnica, podríamosrealizar los siguientes 10 contrastes la hipótesis nula anterior:
  • 3. En este caso, rechazar cualquiera de las 10 hipótesisnulas implicaría rechazar la hipótesis nula inicial deque las cinco medias coinciden. Por el contrario, si norechazásemos ninguna de las 10 hipótesis, tampocorechazaríamos la hipótesis inicial. El problema de estemétodo es doble: Por un lado, se requiere de un mayor esfuerzo computacional, Al hacer un mayor número de contrastes aumenta el error de tipo I (la probabilidad de rechazar la hipótesis nula siendo ésta cierta).El uso de las técnicas ANOVA nos permiten eludirambos problemas.
  • 4. El objetivo principal de muchos experimentosconsiste en determinar el efecto que sobre algunavariable dependiente Y tienen distintos niveles dealgún factor X (variable independiente y discreta). Elfactor puede ser la temperatura, la empresa que haproducido elbien, el día de la semana, etc.Esencialmente, el diseño para el análisis simple de lavarianza consistirá en obtener muestras aleatorias eindependientes del valor de Y asociado a cada uno delos distintos niveles del factor X1, X2,..., Xn .Entonces podremos determinar si los diferentesniveles del factor tienen un efecto significativo sobreel valor de la variable dependiente.
  • 5. El funcionamiento de la técnica ANOVA simple es, agrandes rasgos, es el siguiente:A fin de comparar las medias de Y asociadas a losdistintos niveles del factor (X1, X2,..., Xn),compararemos una medida de la variación entrediferentes niveles (MS-factor) con una medida de lavariación dentro de cada nivel (MS-error).Si el MS-factor es significativamente mayor que el MS-error, concluiremos que las medias asociadas adiferentes niveles del factor son distintas. Estosignifica que el factor influye significativamentesobre la variable dependiente Y. Si, por el contrario, elMS-factor no es significativamente mayor que el MS-error, no rechazaremos la hipótesis nula de que todaslas medias, asociadas a diferentes niveles del factor,coinciden.
  • 6. El modelo asociado al i-ésimo nivel del factor X será: Y = μi + εdonde:• Los errores ε están normalmente distribuidos conmedia 0• Los errores ε son independientes• Los errores ε tienen varianza constante σ2Para verificar estos supuestos suele ser útil realizar un gráficoque muestre la distribución de las observaciones por niveles: sien el gráfico se aprecian diferencias entre niveles por lo que ala variación de las observaciones se refiere, es muy probableque tengamos un problema con el supuesto de varianzaconstante; si aparecen valores extremos, puede que no secumpla el supuesto de normalidad; por otra parte, si el tiempofuese un factor importante a la hora de registrarobservaciones, podría ocurrir que observaciones consecutivasestuviesen correlacionadas, con lo que no se cumpliría elsupuesto de independencia.
  • 7. Ejemplo:Se realiza un estudio para comparar la eficiencia de tres programas terapéuticos para el tratamiento del acné. Se emplean tres métodos y se comparan respecto a su eficacia. N = 35 pacientes k = 3 tratamientos a comparar. Se obtienen tres muestras independientes y aleatorias de tamaños: n 1 = 10, n 2 = 12 y n 3 = 13
  • 8. Factor : Niveles :El factor que interesa es el Se está estudiando trestipo de tratamiento. tratamientos; de esteNingún otro factor, tal como modo el experimento estáedad, tipo de piel, hábitosdietéticos o sexo del diseñado para tres niveles.paciente, se consideran. Aleatoriedad : La distribución de personas en cada subgrupo se ha realizado en forma aleatoria e independiente, extraídas de las poblaciones con respuestas medias: 1 2 3
  • 9. Se quiere comparar la hipótesis nula de que lostratamientos tienen el mismo efecto medio: H0 :1=2 =3(no hay diferencia en los efectos medios de los tratamientos) Ha :i ≠ j (al menos una media difiere de las otras)
  • 10. Nivel del factor  Las respuestas (tratamiento recibido)Nivel I Nivel II Nivel III observadas son el48.6 68 67.5 porcentaje de mejorías49.4 67 62.5 registradas por50.1 70.1 64.249.8 64.5 62.5 paciente en el número50.6 68 63.9 de lesiones por acné al50.8 68.3 64.8 final de 16 semanas del47.152.5 71.9 71.5 62.3 61.4 tratamiento. 49 69.9 67.446.7 68.9 65.4 67.8 63.2 68.9 61.2 60.5
  • 11.  Media muestral de respuestas al tratamiento I = 49.46 Media muestral de Nivel del factor (tratamiento recibido) respuestas al Nivel I Nivel II Nivel III 48.6 68 67.5 tratamiento II = 68.73 49.4 67 62.5 50.1 70.1 64.2 Media muestral de 49.8 50.6 64.5 68 62.5 63.9 respuestas al 50.8 47.1 68.3 71.9 64.8 62.3 tratamiento III= 63.60 52.5 49 71.5 69.9 61.4 67.4 Media muestral de 46.7 68.9 65.4 67.8 63.2 todas las respuestas = 68.9 61.2 60.5 61.23 494.6 824.8 826.8 2146.2 49.46 68.73 63.6 61.32
  • 12.  Si los tratamientos (niveles del factor) no tienen efecto, entonces sus medias serían la misma que la media global. Si algún tratamiento tiene efecto, la diferencia entre los resultados de este tratamiento y la media global indicará tal efecto. Dentro de cada uno de los tres subgrupos hay cierta variabilidad natural de la respuesta de cada persona en torno a la respuesta de su subgrupo. Esta diferencia se conoce como error aleatorio.
  • 13. La desviación de la respuesta que experimenta cada individuo involucrado en el experimento con respecto a la respuesta global (de los tres tratamientos) se puede dividir en dos componentes:   La desviación de la La desviación de respuesta del su su propia subgrupo con respuesta con respecto a la respecto a la respuesta global. respuesta de su subgrupo
  • 14. Sustituyendo las medias estimadas en el modelo conceptual anteriormente expuesto obtenemos:
  • 15. Si se eleva alcuadrado cadaidentidad delmodelo linealy se sumanlas respuestasde TODOS losindividuosinvolucradosen elexperimentose obtiene
  • 16. Cuadrado medio de lostratamientos.Cuadrado medio delerror
  • 17. La respuesta de cada uno de los individuos (no importando que tratamiento se le haya aplicado) es casi igual a la respuesta global. Tomado en cuenta los nuevos estadísticos en esta hipótesis tenemos: MSStotal  0Esto es: MSStr  MSSE
  • 18. Para que Ho sea cierta,esperamos que MSTr y MSEestén próximos; si Ho noes cierta, esperamos queMSTr sea mayor que MSEPor lo que para podercontrastar Ho se utiliza elcociente de MSTR / MSEque tiene una distribuciónde probabilidad F con k-1y N -k grados de libertad
  • 19. Nivel I Nivel II Nivel III x1j (x1j-Xm1)^2 x2j (x2j-Xm2)^2 x3j (x3j-Xm3)^2 48.6 0.7396 68 0.5329 67.5 15.21 49.4 0.0036 67 2.9929 62.5 1.21 50.1 0.4096 70.1 1.8769 64.2 0.36 49.8 0.1156 64.5 17.8929 62.5 1.21 50.6 1.2996 68 0.5329 63.9 0.09 50.8 1.7956 68.3 0.1849 64.8 1.44 47.1 5.5696 71.9 10.0489 62.3 1.69 52.5 9.2416 71.5 7.6729 61.4 4.84 49 0.2116 69.9 1.3689 67.4 14.44 46.7 7.6176 68.9 0.0289 65.4 3.24 suma 67.8 0.8649 63.2 0.16Media M1 27.004 68.9 0.0289 61.2 5.76 49.46 Media M2 suma 60.5 9.61 68.73 44.0268 Media M3 sumaMedia total 63.6 59.26 61.32 10*(Xm1-Xmt)^2 SSe 1406.596 130.2908 MSe 12*(Xm2-Xmt)^2 4.0715875 658.8972 13*(Xm3-Xmt)^2 F en tablas 67.5792 2 , 32 gl SStr F observado alfa = .01 2133.0724 MStr 261.946035 5.33634291 1066.5362
  • 20. Se acostumbra sintetizar los resultados másimportantes del Análisis de Varianza en uncuadro ANOVA tal como sigue: Referencia DF SS MS F Tratamiento 2 2133.6 1066.8 262.1 Error 32 130.3 4.07 Total 34 2263.96
  • 21. El punto crítico para un contraste con alfa = 0.01es aproximadamente 5.39.Puesto que el valor observado de F es 262.12 esmucho mayor que 5.39.Tenemos prueba estadística de que los trestratamientos difieren en el efecto medio.
  • 22. Análisis de varianza de dos factores con una sola muestra por grupoSuponga que usted haya experimentado con levadura parauna receta de panes dulces. Parece ser que la cantidad deazúcar y la temperatura del agua afectan el tamaño de lospanes. Basándose en los siguientes datos, realizar unanálisis de varianza para averiguar lo que es significativo deestas recetas.
  • 23. El resultado del ANOVA (Análisis de varianza) indica el valorestadístico de la "F." En este caso el valor de la "F" por lasfilas (cantidad de azúcar) es 23.15.Para saber si estos resultados son significativos (o sea, si laprobabilidad "P" tiene un valor menor a 0.05), el valor de la"F" observado necesita ser al menos 6.94 (o sea, el valorcrítico de la F).Entonces, como el valor de "F" observado es de 23.15 y esmucho mayor que el valor crítico de la F (6.94), estamosseguros que los resultados de nuestras pruebas sonsignificativas.El valor de la "F" para las columnas (temperatura del agua)es igual a 378.53. Esto es también significativo, porque elvalor de "F" crítico es solamente 6.94.En otras palabras, existe una relación significativa en lacantidad de azúcar, la temperatura del agua y el tamaño delos panes dulces. La probabilidad muestra a qué nivel losresultados son estadísticamente significativos.
  • 24. Suponga que usted tenga un restaurante y haya creadouna nueva receta de salsa para las enchiladas.Por alguna razón parece ser que a sus clientes varonesles gusta más la salsa anterior que la nueva.Pero también parece ser que a sus clientes femeninasprefieren la nueva salsa que la anterior.Usted decide realizar una prueba con un grupo de 10mujeres y 10 varones dándole a probar las dossalsas, basándose en una escala de 100 puntos para elsabor de las dos salsas.¿Existe alguna relación significativa desde el punto devista de los clientes varones y clientes femeninas y cómoven la nueva y la anterior salsa para las enchiladas?
  • 25. hombres mujeres 85 69 74 65reseta 96 63nueva 62 70 80 72 78 59 90 64 79 70 85 68 80 73 68 85reseta 64 75anterior 62 97 69 80 73 88 61 81 64 91 72 83 70 84 71 82
  • 26. NOTA: para que en EXCEL trabaje correctamente el algoritmohay que incorporar a la matriz de datos la fila y la columna detítulos.
  • 27. Análisis de varianza de dos factores con varias muestras por grupoRESUMEN hombres mujeres TotalCuenta 10 10 20Suma 809 673 1482Promedio 80.9 67.3 74.1Varianza 84.7666667 19.5666667 98.0947368Cuenta 10 10 20Suma 674 846 1520Promedio 67.4 84.6 76Varianza 18.7111111 38.0444444 104.736842 TotalCuenta 20 20Suma 1483 1519Promedio 74.15 75.95Varianza 96.9763158 106.05ANÁLISIS DE VARIANZA Origen de las Suma de Grados de Promedio de Valor crítico variaciones cuadrados libertad los cuadrados F Probabilidad para FMuestra 36.1 1 36.1 0.8963995 0.35006116 4.11316528Columnas 32.4 1 32.4 0.80452476 0.3757033 4.11316528Interacción 2371.6 1 2371.6 58.8892261 4.3769E-09 4.11316528Dentro delgrupo 1449.8 36 40.2722222Total 3889.9 39
  • 28. El resultado del ANOVA (Análisis de varianza) indica elvalor estadístico de la "F." En este caso el valor de la "F"de la muestra (receta anterior y receta nueva) es 0.896.Para saber si estos resultados son significativos (o sea,si la probabilidad "P" tiene un valor menor a 0.05), elvalor de la "F" necesita ser al menos 4.11 (o sea, el valorcrítico de la F).Entonces, como el valor de nuestra "F" es de 0.896 y esno es mayor que el valor crítico de la F, no podemosdecir que existe alguna diferencia significativa.Sin embargo, a la vez necesitamos interpretar quésignifica el valor de F que está relacionado al efecto deuna interacción. Siempre un efecto de interaciónsobrepasa el efecto principal.
  • 29. En este caso tenemos un gran efecto de interacción (elvalor de la "F"=58.89).En otras palabras, sí existe una diferencia significativaentre la opinión de los hombres y de las mujeresarelacionada a la receta anterior y a la nueva.La probabilidad demuestra a qué nivel los resultados sonestadísticamente significativos.
  • 30. Referencias: http://www.uoc.edu/in3/emath/http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA 2ONE.HTMhttp://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA 2MANY.HTM