7 anova (1)
Upcoming SlideShare
Loading in...5
×
 

7 anova (1)

on

  • 611 views

Alfa

Alfa

Statistics

Views

Total Views
611
Views on SlideShare
611
Embed Views
0

Actions

Likes
0
Downloads
11
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

7 anova (1) 7 anova (1) Document Transcript

  • -1- T1 T2 … Tr x11 x21 … xr1 ! ! " ! x1n1 x2n2 … x rnr INTRODUCCIÓN ALANÁLISIS DE LA VARIANZA José Luis Vicente Villardón Departamento de Estadística
  • -2- ANALISIS DE LA VARIANZA DISEÑO DE UNA VIADisponemos de r poblaciones, generalmente correspondientes a rtratamientos experimentales. Cada uno de los tratamientos Ti, (i=1,…, r) se supone que tiene distribución normal con media µi yvarianza σ2, común a todos ellos, es decir se trata de poblacionesnormales y homoscedásticas. De cada una de las poblaciones (otratamientos), tomamos una muestra de tamaño ni.Las observaciones obtenidas se pueden recoger en una tabla de laforma T1 T2 … Tr x11 x21 … xr1 ! ! " ! x1n1 x2n2 … x rnres decir xij es la observación j del grupo experimental i.Llamaos x1,…, xr a las medias muestrales de los grupos y x a lamedia de todas las observaciones.Cuando se trata de un experimento diseñado, es decir, cuando setrata de la aplicación de r tratamientos a un conjunto de unidadesexperimentales, estas deben seleccionarse para que seanhomogéneas, de forma que no se introduzcan factores de variacióndistintos del que se desea controlar. La asignación de lostratamientos a cada una de las unidades debe hacerse al azar. Es loque se conoce como diseño “completamente al azar”.El modelo matemático subyacente a este tipo de diseño es
  • -3- xij = µi + ! ij xij = µ + ( µ i " µ ) + ! ij xij = µ + # i + !ijdonde µi = µ + ! i es la cantidad que depende del tratamientousado (descompuesta en una media global y un efecto deltratamiento) y !ij es la cantidad que depende solamente de launidad experimental y que se identifica con el error experimental.La hipótesis de que los distintos tratamientos no producen ningúnefecto (o la de que las medias de todas las poblaciones son iguales)se contrasta mediante el análisis de la varianza de una vía,comparando la variabilidad entre grupos con la variabilidad dentrode los grupos. H0 : µ1 = … = µr = µ Ha : !i, j / µ i " µ jEl análisis de la varianza se basa en la descomposición de lavariabilidad total en dos partes, una parte debida a la variabilidadentre las distintas poblaciones o tratamientos (variabilidad entregrupos o variabilidad explicada por el diseño) y otra parte quepuede considerarse como la variabilidad intrínseca de lasobservaciones (variabilidad dentro de los grupos o residual). Q = QE + QRLa variabilidad entre grupos r QE = " ni ( xi ! x ) 2 i=1mide la discrepancia entre los grupos y la media global, de formaque si no hay diferencias entre ellos (la hipótesis nula es cierta)obtendremos variabilidades pequeñas. Si, por el contrario, la
  • -4-hipótesis nula es falsa, cabe esperar que la variabilidad entre grupossea grande.La variabilidad dentro de los grupos r ni QR = " " ( xij ! xi )2 i=1 j=1mide la variabilidad intrínseca de las observaciones, es decir, si elexperimento está bien diseñado y no se incluyen factores devariación distintos al estudiado, debe ser error puramente aleatorioproducido como resultado de la variabilidad biológica del materialexperimental.El contraste del Análisis de la varianza se basa en la comparación dela variabilidad entre y la variabilidad dentro, rechazaremos lahipótesis nula siempre que la variabilidad “entre” sea grande, peroutilizando como patrón de comparación la variabilidad “dentro”. Esdecir, aceptaremos un efecto de los tratamientos siempre que estosproduzcan mayores diferencias en las unidades experimentales quelas que habría sin la aplicación de los mismos.Antes de proceder a la comparación hemos de dividir las sumas decuadrados por sus correspondientes grados de libertad,relacionados con el número de observaciones con las que se realizael cálculo.De esta forma obtenemos los cuadrados medios o estimadores de lasvariabilidades.La información completa se resume en la tabla siguiente. Es la quese conoce como tabla de ANOVA y resume toda la informaciónnecesaria para realizar el correspondiente contraste.
  • -5-Fuente Suma de cuadrados g.l. Estimador FexpEntre r r-1 2 Q 2 SE QE = " ni ( xi ! x ) 2 SE = E F = i=1 r !1exp S2 RResidua r ni n-r 2 QR QR = " " ( xij ! xi ) 2 SR =l i=1 j=1 n!rTotal r ni n-1 2 Q = " " ( xij ! x ) i=1 j=1El cociente entre la variabilidad “entre” y la variabilidad “dentro”,una vez que se han hecho comparables, sigue una distribución F deSnedecor con r-1 y n-r grados de libertad. La distribución nos sirvepara buscar el valor a partir del cual el cociente es lo suficientementegrande como para declarar las diferencias entre gruposestadísticamente significativas.Los estimadores de los efectos de los tratamientos se estiman apartir de ! i = µ i " µ = xi " x ˆ ˆ ˆy la parte propia de cada observación (o residual) !ij = xij " µ " # i = xij " xi ˆ ˆLos residuales pueden servirnos para la validación de las hipótesisbásicas.Recuérdese que, en realidad, un análisis de la varianza de una vía esequivalente a un modelo de regresión en el que solo aparece unaregresora cualitativa con r categorías (mediante las correspondientesvariables ficticias). La validación de las hipótesis básicas puede
  • -6-hacerse entonces de la misma manera que en un modelo reregresión, utilizando gráficos de residuales.COMPARACIONES POR PAREJASUna vez determinada la significación de las diferenciasprocederemos a la comparación de los tratamientos por parejas, esdecir, a contrastar la hipótesis H 0 : µi = µ j H a : µi ! µ jpara cada pareja de medias.El estadístico de contraste que utilizaremos es: xi ! x j t i, j = " t N !r 1 1 SR + ni n jque sigue Una distribución t de Student con N-r grados de libertad.La realización directa de cada contraste para un nivel designificación α incrementa la probabilidad de cometer un error detipo I para el contraste global de igualdad de todas las medias por loque, en general, el nivel de significación de cada contraste particulartiene que ser corregido.Si no importa el incremento en el riesgo tipo I puede realizarsedirectamente el contraste t de Student, asumiendo queprobablemente encontraremos más diferencias de las que seencuentran realmente en los datos.Se rechaza la hipótesis nula si el estadístico de contraste supera elvalor crítico de la distribución t de Student al nivel α. xi ! x j t i, j exp = > t N !r," 1 1 SR + ni n jo lo que es lo mismo,
  • -7- 1 1 xi ! x j > t N !r," SR + ni n jes decir, cuando la diferencia de medias supera el valor# 1 1&% t N !r," SR + ( que se denomina “diferencia significativa$ ni n j mínima” (lest significant difference). Por esta razón, a veces al test sele conoce como LSD.Si se está interesado en mantener el nivel de significación global pordebajo del nivel predeterminado, es necesario corregir el nivel quese utilizará en cada contraste individual de forma que al aumentar elriesgo, permanezca por debajo del fijado.La corrección consiste en utilizar para cada contraste un nivel α ‘,más pequeño que α y que resulta de dividir éste por una constantede penalización K. ! != KDependiendo de los valores que tomemos para K obtendremosdistintos procedimientos de contraste.TEST DE BONFERRONIK es el número de comparaciones posibles por parejas. ! r $ r(r 1) K =# & = " 2% 2El test de Bonferroni es el que más penaliza de forma que, el nivelde significación para el contraste global queda, en realidad, pordebajo del fijado. Se trata entonces de un test conservador quedetecta menos diferencias de las que hay realmente en los datos.TEST DE TUKEYCuando los tamaños de muestra son todos iguales es posible utilizarcomo penalización el propio número de grupos r.El test de Tukey es menos conservador que el de Bonferroni.
  • -8- LSD Tukey Bonferroni(1) (2) (3) (4)
  • -9-ANALISIS DE DOS VIASEn muchas situaciones prácticas la unidades experimentales no sonhomogéneas por lo que conviene agruparlas en distintos conjuntosde observaciones homogéneas. A tales conjuntos se les denominabloques.Los tratamientos se aplican dentro de cada bloque siguiendo lasmismas técnicas de aleatorización expuestas previamente.Se procurará que los tratamientos estén representados de la mismamanera en todos los bloques.Diseño en bloques al azarSupongamos que se dispone de r tratamientos a comparar y que sedividen las observaciones en s bloques con r unidadesexperimentales cada uno.Dentro de cada bloque se aplica una vez cada tratamiento utilizandoun procedimiento de aleatorización.Los datos resultantes serían los siguientes Tratamientos T1 … Tr B1 x11 … x1r Bloques ! ! " ! Bs xs1 … xsrEl modelo matemático es ahora xij = µ ij + ! ij xij = µ + " i + # j + !ijDonde αi es el efecto debido al bloque, βj es el efecto debido altratamiento y εij es el error experimental.
  • -10-Obsérvese que solamente hemos sustraído del residual la partecorrespondiente a los bloques.-Análisis estadístico: Análisis de la varianza de dos vías.Las hipótesis de que los distintos tratamientos y los bloques noproducen ningún efecto se contrasta mediante el análisis de lavarianza de dos vías, comparando la variabilidad entre bloques y lavariabilidad entre tratamientos con la variabilidad dentro de losgrupos.Los resultados fundamentales se resumen en la tabla siguiente.Fuente Suma de cuadrados g.l. Estimador FexpEntre s s-1 2 Q F = QB = " r( xi• ! x )2 SB = B BBloques i=1 s ! 1 S2 B 2 SREntre r r-1 2 QT FT = QT = " s(x• j ! x ) 2 ST =Tratam. j =1 r ! 1 S2 T 2 SRResidual QR = (r-1)(s-1) 2 SR = s r QR 2 " " ( xij ! xi• ! x• j + x ) i=1 j=1 (r!1)(s!1)Total s r n-1 Q = " " ( xij ! x )2 i=1 j=1Los estimadores de los efectos de los bloques y tratamientos seestiman a partir de
  • -11- µ=x ˆ ! i = xi• " x ˆ ˆ # j = x• j " xy la parte propia de cada observación (o residual) !ij = xij " xi• " x• j + x ˆLos residuales pueden servirnos para la validación de las hipótesisbásicas de la misma manera que en el diseño de una vía.
  • -12- IDEAS BASICAS SOBRE EXPERIMENTOS FACTORIALES-Definiciones generales y discusiónA cada uno de los tratamientos básicos le denominaremos factor y acada una de sus posibles formas (o valores) la denominaremos niveldel factor.Una combinación de un nivel de cada uno de los factores estudiadosdetermina un tratamiento.El experimento en el que todas las combinaciones de niveles de losfactores son interesantes se denomina experimento factorial.-Tipos de factores-Factores cualitativos específicos. Factores susceptibles de aplicación Factores de clasificación-Factores cuantitativos-Factores cualitativos ordenados.-Factores cualitativos muestreados.
  • -13-Efectos principales e interacción en un experimento de dosfactores.Supongamos que tenemos un experimento de dos factores A y B concuatro niveles cada uno, y supongamos, para simplificar que noexiste variación no controlada. Factor BFactor A nivel 1 nivel 2 nivel 3 nivel 4 medianivel 1 9 11 14 15 12.25nivel 2 12 14 17 18 15.25nivel 3 10 12 15 16 13.25nivel 4 13 15 18 19 16.25media 11 13 16 17Tenemos varias formas de cacterizar esta tabla:a)La diferencia entre las observaciones de dos niveles cualesquierade A es la misma para todos los niveles de B.b)La diferencia entre las observaciones de dos niveles cualesquierade B es la misma para todos los niveles de A.c) Los efectos de los dos factores son aditivos.d) Los residuales al restar los efectos fila y columna son cero.En este caso se dice que los factores no interactuan o que sus efectosson aditivos.Si estas condiciones no se verifican decimos que hay una interacciónentre A y B.Se dice que hay interacción cuando las diferencias entre dos nivelescualesquiera de uno de los factores dependen de los niveles del otrofactor. Factor BFactor A nivel 1 nivel 2 nivel 3 nivel 4 medianivel 1 9 11 14 15 12.25nivel 2 12 14 17 18 15.25nivel 3 11 11 14 17 13.25nivel 4 12 16 19 18 16.25media 11 13 16 17
  • -14-Efectos principales: Efectos de cada uno de los niveles de losfactores por separado (promediando sobre el otro factor).Interacción: Efectos producidos por la aplicación conjunta de losniveles de los dos factores.Gráficos de interacción 20 18 16 14 n1 12 n2 10 n3 8 6 n4 4 2 0 Efectos aditivos 20 18 16 14 n1 12 n2 10 n3 8 6 n4 4 2 0 Efectos no aditivos
  • -15-Experimento factorial con dos factores de variación y el mismonúmero de observaciones por casilla.Se dispone de un conjunto de observaciones homogéneas y seasigna los tratamientos (combinación de niveles de los dos factores)aleatoriamente a las unidades.Los datos resultantes serían los siguientes Factor A A1 … Ar ! x111 $ ! x1r1 $ # & # & B1 #! & … #! & #x & #x & " 11t % " 1rt % Factor B ! ! " ! ! x s11 $ ! x rs1 $ # & # & Bs #! & … #! & #x & #x & " s1t % " rst %El modelo matemático es ahora xijk = µij + !ijk xijk = µ + " i + # j + ("# )ij + ! ijkDonde αi es el efecto debido al bloque, βj es el efecto debido altratamiento, (αβ)ij es el efecto conjunto (interacción) y εij es el error.-Análisis estadístico: Análisis de la varianza de dos vías.Las hipótesis de que los distintos factores no producen ningúnefecto y de que no existe interacción se contrastan mediante elanálisis de la varianza de dos vías con interacción, comparando la
  • -16-variabilidad entre los niveles del factor A, la variabilidad entre losniveles del factor B, y la variabilidad debida a la interacción con lavariabilidad dentro de los grupos o residual.Fuente Suma de cuadrados g.l. Estimador Fexp s r t Q 2 SF = F SFFilas s-1 2 QF = " " " (xi•• ! x )2 i=1 j=1 k =1 s !1 S2 R s r t 2 QC S 2 SC =Columnas r-1 QC = " " " (x• j• ! x )2 C i=1 j=1 k =1 r ! 1 S2 RInteracc. QFC = (r-1)(s-1) 2 SFC = 2 SFC 2 " (xij• ! xi•• ! x• j• + x )2 QFC SR i, j,k (r!1)(s!1) s r t 2Resid. QR = " " " ( xijk ! xij• ) 2 rs(t-1) SR = i=1 j=1 k =1 QR rs(t !1)Total s r t rst-1 Q = " " " (xij ! x )2 i=1 j=1 k =1Los estimadores de los efectos de los bloques y tratamientos seestiman a partir de µ=x ! i = xi•• " x ˆ # j = x• j• " x ˆ (!ˆ#ˆij ) = xij• " xi•• " x• j• + xy la parte propia de cada observación (o residual)
  • -17- !ij = xijk " xij• ˆLos residuales pueden servirnos para la validación de las hipótesisbásicas de la misma manera que en el diseño de una vía.
  • -18-EJEMPLOSe está investigando cual es el efecto de tres tipos de abono sobre dos tipos desuelo. Se espera que el efecto de los distintos abonos se manifieste de formadiferente dependiendo del tipo de suelo. Para el presente estudio tomaremosdos tipos de suelo, ácido y alcalino y tres tipos de abono que denotaremos conA, B y C. Tenemos así dos factores (suelo y abono) con 2 y 3 nivelesrespectivamente, que resultan en 6 combinaciones. Tomaremos un diseñofactorial con dos factores y tres réplicas en cada una de las combinaciones de losniveles de los dos factores. La respuesta es un índice de abundancia de unadeterminada especie tras la aplicación de los distintos abonos. Los resultados semuestran en la tabla siguiente. A B C 8 10 8 Ácido 4 8 6 0 6 4 14 4 15 Alcalino 10 2 12 6 0 9 ANOVA Table for RESPUESTA DF Sum of Squares Mean Square F-Value P-Value Lambda Power SUELO 1 18,000 18,000 2,038 ,1789 2,038 ,248 ABONO 2 48,000 24,000 2,717 ,1063 5,434 ,428 SUELO * ABONO 2 144,000 72,000 8,151 ,0058 16,302 ,905 Residual 12 106,000 8,833 Means Table for RESPUESTA Effect: SUELO * ABONO Count Mean Std. Dev. Std. Err. ACIDO, A 3 4,000 4,000 2,309 ACIDO, B 3 8,000 2,000 1,155 ACIDO, C 3 6,000 2,000 1,155 ALCALINO, A 3 10,000 4,000 2,309 ALCALINO, B 3 2,000 2,000 1,155 ALCALINO, C 3 12,000 3,000 1,732
  • -19- Interaction Line Plot for RESPUESTA Effect: SUELO * ABONO 14 12 10 ACell Mean 8 B 6 C 4 2 0 ACIDO ALCALINO CellFishers PLSD for RESPUESTA Bonferroni/Dunn for RESPUESTAEffect: ABONO Effect: ABONOSignificance Level: 5 % Significance Level: 5 % Mean Diff. Crit. Diff P-Value Mean Diff. Crit. Diff P-Value A, B 2,000 3,739 ,2664 A, B 2,000 4,769 ,2664 A, C -2,000 3,739 ,2664 A, C -2,000 4,769 ,2664 B, C -4,000 3,739 ,0380 S B, C -4,000 4,769 ,0380 Comparisons in this table are not significant unless the corresponding p-value is less than ,0167. Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. Crit. Diff A, B 2,000 4,574 A, C -2,000 4,574 B, C -4,000 4,574
  • -20-ANOVA Table for RESPUESTASplit By: SUELOCell: ACIDO DF Sum of Squares Mean Square F-Value P-Value Lambda PowerABONO 2 24,000 12,000 1,500 ,2963 3,000 ,207Residual 6 48,000 8,000Tukey/Kramer for RESPUESTAEffect: ABONOSignificance Level: 5 %Split By: SUELOCell: ACIDO Mean Diff. Crit. DiffA, B -4,000 7,087A, C -2,000 7,087B, C 2,000 7,087ANOVA Table for RESPUESTASplit By: SUELOCell: ALCALINO DF Sum of Squares Mean Square F-Value P-Value Lambda PowerABONO 2 168,000 84,000 8,690 ,0169 17,379 ,822Residual 6 58,000 9,667Tukey/Kramer for RESPUESTAEffect: ABONOSignificance Level: 5 %Split By: SUELOCell: ALCALINO Mean Diff. Crit. DiffA, B 8,000 7,791 SA, C -2,000 7,791B, C -10,000 7,791 S