The fisher assumptions and how to check them

901 views

Published on

Fisher Assumtions, Suposiciones de Fisher

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
901
On SlideShare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

The fisher assumptions and how to check them

  1. 1. The Fisher Assumptions and how to check them<br />Alexander Hernández Hernández<br />Estadísticas Avanzadas <br />Prof. Balbino García<br />
  2. 2. Las 5 Suposiciones<br />1- Igual desviación estándar<br />2- Probabilidad de error independiente<br />3- Suposición de Normalidad<br />4- Efectos Aditivos y Constantes<br />5- Efectos constantes de los niveles de los factores<br />
  3. 3. I-Igual desviación estándar<br />Razones por las cuales las DE deben ser iguales:<br />1- Cuando las DE no son iguales, las observaciones con la mayor DE tienden a dominar el promedio.<br />2- El método formal estima un tamaño típico de error casual, o en algunos casos un tamaño para cada fuente de probabilidad de error.<br />
  4. 4. Como verificar la suposición <br />Existen dos formas para verificar cuan bien las suposiciones son representativas de la data.<br />1- Para muchos conjuntos podemos dividir la data en grupos, luego calculamos la DE para cada grupo y las comparamos. <br />2- Para cualquier conjunto podemos crear diagramas de dispersión para comparar residuos vs. valores ajustados, para luego identificar patrones. <br />
  5. 5. Como verificar la suposición para DE iguales<br />1- Escoge un factor que divida tu data en algunos grupos.<br />2- Calcule DE separadas para cada grupo<br />3- Encontrar la proporción entre la DE mayor y la DE menor, ( DE max/DE min ).<br />4- De forma general, si la proporción es mayor que 3, no asuma que las verdaderas DE son iguales. Trate de transformarlas a una nueva escala.<br />
  6. 6. Ejemplo: Walking Babies<br />Los números presentados en esta tabla nos muestran el número de meses que le tomo a los bebes caminar. Verifique utilizando la suposición para DE iguales.<br />La proporción seria la siguiente: DE max / DE min = 1.90/0.96 = 1.98, como es resultado es menor que 3 : la suposición es razonable.<br />
  7. 7. Diagramas de dispersión,residuos vs. valores ajustados <br />Un análisis de datos cuidadoso siempre debe incluir un diagrama de dispersión de residuos vs. valores ajustados, la misma nos sirve para verificar si hay valores extremos y/o patrones en la gráfica. <br />Luego de hecho el diagrama se decidirá y hay que realizar ajustes o transformaciones en la data.<br />
  8. 8. Ejemplo: Puzzled Childrens<br />En este estudio se les mostro a un grupo de niños, como resolver rompecabezas de bloques, y luego se les digo que realizaran la mayor cantidad que pudieran en un periodo de tiempo. La respuesta obtenida seria, el numero de rompecabezas resueltos.<br />Si observamos la tabla, la data nos muestra un patrón, excepto por la celda inferior derecha. <br />
  9. 9. Diagramas de dispersión,residuos vs. valores ajustados <br />
  10. 10. II-Probabilidad de error independiente<br />Por ejemplo, si sacamos los errores de probabilidad de una caja con boletos enumerados y remplazamos cada boleto y mezclamos antes de sacar uno nuevamente, las probabilidades de error van a ser independientes. Conociendo el valor de alguno de ellos no obtenemos información suficiente sobre los demás. <br />
  11. 11. II-Probabilidad de error independiente<br />Esta suposición refleja una actitud básica de la estadística.<br />La misma nos dice que cualquier patrón sistemático observado entre los elementos, debe ser parte del modelo.<br />Si podemos hacer dichos patrones partes del modelo, y restarle valores observados que correspondan a esos patrones, entonces tendríamos los valores residuales libres de relaciones sistemáticas. De esta forma la probabilidad de error independiente seria mas apropiada.<br />
  12. 12. II-Probabilidad de error independiente<br />A continuación observaremos un ejemplo fallido de identificación de patrones sistemáticos y como esta puede afectar el análisis.<br />
  13. 13. II-Probabilidad de error independiente<br /><ul><li>Si observamos los valores obtenidos en el modelo fallido principalmente el SS y el MS son sustancialmente mas grandes que los del modelo correcto. En el modelo correcto le fue removido el patrón sistemático y por consiguiente los resultados son los correctos.</li></li></ul><li>II-Probabilidad de error independiente<br />Como regla general, podemos verificar la suposición de independencia revisando patrones que no son parte del modelo.<br />Existen herramientas muy útiles dependiendo del tipo de datos que tengamos, una de estas podrían ser los diagramas de dispersión. <br />A continuación mostraremos algunos de ellos.<br />
  14. 14. Diagrama de dispersión Ad-hoc<br />A continuación observaremos un estudio realizado para identificar si existe relación entre el número de las habitaciones de un hospital y la localización de alfombras.<br />
  15. 15. Diagrama de dispersión Ad-hoc<br />Si observamos el diagrama podemos identificar que los residuos positivos tienden a ir con los números mas altos de habitaciones.<br />
  16. 16. Diagramas de dispersión en bloques<br />En los diagramas de dispersión en bloques podemos graficar los datos utilizando los factores de un nivel vs el de otro.<br />Si el modelo y la suposición de Fisher concuerdan, la gráfica que obtenemos debe ser una línea paralela a la línea de identidad <br /> y = x .<br />
  17. 17. Diagramas de dispersión en bloques<br />Observando los siguiente diagramas podemos ver que efectivamente concuerdan con la suposición de Fisher ya que la línea que obtenemos queda paralela a la línea identidad y = x.<br />
  18. 18. Remedios para casos no relacionados <br /> ¿Que podríamos hacer si los patrones obtenidos y la línea y = x no concuerdan?<br />1- Para algunos casos la pobre correspondencia es debido a valores extremos. De ser así podemos estimar un valor que reemplace a este, para luego re analizar la data. Sin embargo debemos prever conclusiones que dependan del cambio de estos valores.<br />
  19. 19. Remedios para casos no relacionados <br />2- Para otros casos los patrones dependen de la escala escogida. Transformar la escala puede ayudar pero sino se realiza adecuadamente puede deshacerse de los patrones.<br />3- Para otros casos es mejor simplemente cambiar el diseño del modelo.<br />
  20. 20. III-Suposición de normalidad<br />ANOVA se basa fuertemente en los conceptos de promedios y DE cómo resúmenes de sus datos. Estos dos resúmenes funcionan muy bien para datos cuyos residuos siguen una curva normal, pero a menudo no funcionan para datos que no siguen este patrón. <br />Por esta razón debemos graficar los datos para tener una idea de que tipo de residuos son los que tenemos. Este procedimiento debe ser parte de cualquier ANOVA. <br />
  21. 21. III-Suposición de normalidad<br /> Características de curvas no normal<br />1- Valores Extremos<br />2- Bultos y lagunas<br />3- Asimetría y sesgos<br />4- Colas largas o cortas<br />
  22. 22. III-Suposición de normalidad<br />Regularmente es fácil observar los valores extremos en una gráfica de puntos. Pero sin embargo en la mayoría de los casos, las características antes mencionadas son un poco difíciles de observar en este tipo de grafica.<br />Para esto mostraremos dos tipos de gráficas, el histograma y las gráficas regulares con el propósito de visualizar mejor estas características.<br />
  23. 23. Histograma<br />Pasos a seguir:<br />1- Construye una gráfica de puntos<br />2- Divide su rango de 7 a 15 intervalos iguales<br />3- Construye un rectángulo sobre cada intervalo, con una altura proporcional al numero de puntos presentes en el intervalo.<br /> Si el histograma tiene forma simétrica como de campana, la suposición de normalidad es razonable.<br />
  24. 24. Histograma<br />
  25. 25. Histograma<br />
  26. 26. Graficas regulares<br /> A pesar de que los histogramas cubren una gran parte de las características , estos no son muy buenos para representar algunas otras características tales como las colas. Para esto utilizaremos las llamadas gráficas regulares.<br />Las graficas regulares son diagramas de dispersión especializados donde comparamos valores observados o valores residuales vs. valores esperados. <br />
  27. 27. Graficas regulares<br /> Los valores esperados son escogidos para que estén lo mas cercano posible a una curva normal.<br />Los puntos deben quedar lo mas alineado posible. <br />
  28. 28. Gráficas regulares<br />
  29. 29. IV-Efectos Aditivos y Constantes<br />Por que es importante esta suposición…<br />El modelo ANOVA asume que valores observados se comportan como si fueran sido creados añadiendo números asociados a los factores del diseño. Existe una pieza constante para cada nivel de cada factor.<br />Ambas suposiciones son necesarias para justificar una descomposición lineal.<br />
  30. 30. Efectos Aditivos y Constantes<br />A menos que podamos asumir que los efectos de las condiciones son aditivos, no tendría sentido estimar estos efectos como lo hacemos, sumando para obtener promedios y restando para obtener el resto. <br />
  31. 31. Alternativa al modelo ANOVA<br />Es importante señalar que existen grupos de datos cualitativos y cuantitativos.<br />Es importante tener en cuenta que en ocasiones lo que parece ser cuantitativo no es sino cualitativo, y lo que parece ser cualitativo no es sino cuantitativo.<br />En algunas ocasiones la suposición falla ya que ANOVA no es el mejor enfoque. <br />
  32. 32. Efectos Aditivos y Constantes<br />Si obtenemos una respuesta numérica , y los datos son categóricos, entonces deberíamos ser mas cuidadosos sobre los procesos y los efectos constantes que realizamos. <br />Por esta causa principalmente es que falla la suposición.<br />
  33. 33. Efectos Aditivos y Constantes<br />Para este tipo de grupos de datos, las dos suposiciones van de la mano, si una falla la otra también lo hará. <br />Existe dos tipos de gráficas que pueden ser usadas para verificar las suposiciones. Una de ellas es la gráfica de bloques y los diagramas de dispersión, residuales vs. valores ajustados antes mencionada.<br />
  34. 34. Efectos Aditivos y Constantes<br />Si la suposición no encaja, existen dos tipos de remedios:<br />1- Transformar la escala de igual forma que se realizo para las DE iguales, para hacer la suposición razonable<br />2- Si esta primera no diera resultado, lo mas favorable seria realizar un nuevo que permita relacionar mas fácilmente los términos de interacción.<br />
  35. 35. V-Como reemplazar valores extremos<br />Como se comento en secciones anteriores, muy a menudo, cuando una o mas de las suposiciones de Fisher fallan, esa falla es debida a observaciones externas.<br />Estadísticos han inventado algunas soluciones para manejar valores extremos, algunas de ellas muy elaboradas.<br />Sin embargo el acercamiento presentado a continuación tiene la ventaja de ser uno sencillo y muy cercano al sentido común. <br />
  36. 36. V-Como reemplazar valores extremos<br />De acuerdo a este acercamiento, siempre que encontremos un valor desviado, debemos realizar dos análisis. <br />En el primero de ellos debemos analizar toda la data incluyendo los valores extremos.<br />Luego realizaremos un segundo análisis. Para este, primero removemos los valores extremos , luego teniendo en cuenta que estos son observaciones perdidas, debemos estimar remplazos para estos valores. Para finalmente analizar la data arreglada.<br />
  37. 37. V-Como reemplazar valores extremos<br />
  38. 38. V-Como reemplazar valores extremos<br />Comparando estos dos análisis podremos ver los efectos de los valores extremos en un conjunto de datos.<br />Si los resultados observados son relativamente similares no tendremos muchos cambios en las conclusiones. Pero si al contrario, tenemos cambios significativos entre los análisis, debemos ser un poco mas cuidadosos a la hora de llegar a conclusiones.<br />
  39. 39. V-Como reemplazar valores extremos<br />Si inicialmente notamos que los valores extremos son relativamente moderados, la conclusión mas segura es no realizar la prueba.<br />Si por el contrario los residuales de las observaciones son 3 o mas deviaciones estándar lejos de cero, y los demás residuales son de forma normal, entonces el análisis antes descrito es la alternativa mas confiable.<br />
  40. 40. Referencias<br />George W. Cobb (1998) IntroducctiontoDesign and Analysis of Experiments. Cap 12<br />

×