1. Análisis de la varianza
Dr. Cristian Díaz Vélez
Epidemiólogo Clínico
Auditor Médico
2. Concepto
El análisis de la varianza (ANOVA) es una
colección de modelos estadísticos y sus
procedimientos asociados, en el cual
la varianza está particionada en ciertos
componentes debidos a diferentes variables
explicativas.
El análisis de la varianza parte de los
conceptos de regresión lineal.
3. Concepto
El análisis de varianza (ANOVA) de un factor sirve para
comparar varios grupos en una variable cuantitativa. Se
trata, por tanto, de una generalización de la Prueba T
para dos muestras independientes al caso de diseños
con más de dos muestras.
A la variable categórica (nominal u ordinal) que define
los grupos que deseamos comparar la llamamos
independiente o factor y la representamos por VI. A la
variable cuantitativa (de intervalo o razón) en la que
deseamos comparar los grupos la llamamos
dependiente y la representamos por VD.
4. Análisis de la varianza de un factor
De un factor, que es el caso más sencillo, la
idea básica del análisis de la varianza es
comparar la variación total de un conjunto de
muestras y descomponerla como:
5. Análisis de la varianza de un factor
Donde:
es un número real relacionado con la
varianza, que mide la variación debida al "factor",
"tratamiento" o tipo de situación estudiado.
es un número real relacionado con la
varianza, que mide la variación dentro de cada
"factor", "tratamiento" o tipo de situación.
6. Modelo de efectos fijos
Asume que los datos provienen de poblaciones normales las
cuales podrían diferir únicamente en sus medias. (Modelo 1).
El modelo de efectos fijos de análisis de la varianza se aplica a
situaciones en las que el experimentador ha sometido al grupo o
material analizado a varios factores, cada uno de los cuales le
afecta sólo a la media, permaneciendo la "variable respuesta"
con una distribución normal.
Este modelo se supone cuando el investigador se interesa
únicamente por los niveles del factor presentes en el
experimento, por lo que cualquier variación observada en las
puntuaciones se deberá al error experimental.
7. Modelo de efectos aleatorios
Asume que los datos describen una jerarquía de diferentes
poblaciones cuyas diferencias quedan restringidas por la
jerarquía.
Ejemplo: El experimentador ha aprendido y ha considerado en el
experimento sólo tres de muchos más métodos posibles, el
método de enseñanza es un factor aleatorio en el experimento.
(Modelo 2).
8. Modelo de efectos aleatorios
Los modelos de efectos aleatorios se usan para describir
situaciones en que ocurren diferencias incomparables en el
material o grupo experimental. El ejemplo más simple es el de
estimar la media desconocida de una población compuesta de
individuos diferentes y en el que esas diferencias se mezclan
con los errores del instrumento de medición.
Este modelo se supone cuando el investigador está interesado
por una población de niveles, teóricamente infinitos, del factor de
estudio, de los que únicamente una muestra al azar (“t” niveles)
están presentes en el experimento.
9. Modelo de efectos mixtos
El Modelo de efectos mixtos describen situaciones que éste
puede tomar.
Ejemplo: Si el método de enseñanza es analizado como un
factor que puede influir donde están presentes ambos tipos de
factores: fijos y aleatorios. (Modelo 3)
10. Supuestos previos
El ANOVA parte de algunos supuestos que
han de cumplirse:
La variable dependiente debe medirse al
menos a nivel de intervalo.
Independencia de las observaciones.
La distribución de los residuales debe
ser normal.
Homocedasticidad: homogeneidad de las
varianzas.
11. Pruebas de significación
El análisis de varianza lleva a la realización
de pruebas de significación estadística,
usando la denominada distribución F de
Snedecor.
12. Ejemplo 1
Se desea comparar si cuatro alimentos para
ratones son similares. Para tal fin se lleva a
cabo un experimento, en el cual se asigna a
40 ratones a cuatro alimentos diferentes, y
luego de un período adecuado, se toma el
peso de cada uno de ellos. Al inicio todos los
ratones tenían características similares.
Se obtiene los siguientes datos
Leandro Huayanay Falconi
16. ¿QUÉ SE VE?
1.- Los gráficos
2.- Como se podría comparar
3.- ¿Que variaciones se puede comparar?
4.- Como lo haría
17. Que es la varianza
Variación respecto a la media general.
Variación de la media del grupo respecto a la
media general.
Variación dentro de cada grupo.
18. Variación respecto a la media general
Es la suma de las variaciones de cada
individuo respecto a la media general.
Siempre se suma las diferencia al cuadrado.
( xi x) 2
Var
n 1
20. Varianza
( xi x)
2
Var
n 1
527
Var 13.5
39
21. Variación de la media del grupo respecto a la
media general
Se toma en cuenta la variación de cada
grupo respecto a la media general
Es la variación que existe entre los grupos
k 1
g
nk ( xk x) 2
Var
ng 1
23. Cálculos
Media 8.5 10.7 10.1 6.4 prom
8.925 8.925 8.925 8.925
Dif cuad 0.18 3.15 1.38 6.38
suma= 11.0875 (pero cada grupo tiene 10 elemento, por
lo que multiplicamos por 10)
La variancia entre grupos
= 110.875/3= 36.95
24. Variación dentro de cada grupo (residuo)
Se puede calcular cual es la variación de
cada uno de los individuos de acuerdo al
grupo que pertenecen
En el ejemplo seria la variación del peso del
individuo respecto al promedio del grupo
( xij x j ) 2
Varj
n g
32. Ejemplo 02
Si queremos, por ejemplo, averiguar cuál de tres programas
distintos de incentivos aumenta de forma más eficaz el
rendimiento de un determinado colectivo, podemos
seleccionar tres muestras aleatorias de ese colectivo y aplicar
a cada una de ellas uno de los tres programas.
33. Ejemplo 02
Después, podemos medir el rendimiento de cada
grupo y averiguar si existen o no diferencias entre
ellos. Tendremos una VI categórica (el tipo de
programa de incentivos) cuyos niveles deseamos
comparar entre sí, y una VD cuantitativa (la
medida del rendimiento), en la cual queremos
comparar los tres programas.
El ANOVA de un factor permite obtener
información sobre el resultado de esa
comparación. Es decir, permite concluir si los
sujetos sometidos a distintos programas difieren la
medida de rendimiento utilizada.
34.
35. El cociente entre estas dos medias cuadráticas nos proporciona
el valor del estadístico F, el cual aparece acompañado de su
correspondiente nivel crítico o nivel de significación observado
(Sig.).
Es decir, de la probabilidad de obtener valores como el obtenido
o mayores bajo la hipótesis de igualdad de medias.
Puesto que el valor del nivel crítico (0,000), es menor que 0,05,
decidimos rechazar la hipótesis de igualdad de medias y
concluimos que las poblaciones definidas por la variable no
poseen el mismo salario medio.
36. Homogeneidad de varianzas.
El estadístico F del ANOVA de un factor se basa en
el cumplimiento de dos supuestos fundamentales:
normalidad y homocedasticidad.
Normalidad significa que la variable dependiente se
distribuye normalmente en las J poblaciones
muestreadas (tantas como grupos definidos por la
variable independiente o factor).
No obstante, si los tamaños de los grupos son
grandes, el estadístico F se comporta
razonablemente bien incluso con distribuciones
poblacionales sensiblemente alejadas de la
normalidad.
37. Homogeneidad de varianzas.
Homocedasticidad o igualdad de varianzas
significa que las J poblaciones muestreadas
poseen la misma varianza. Con grupos de
distinto tamaño, el incumplimiento de este
supuesto debe ser cuidadosamente vigilado.
La opción Homogeneidad de varianzas
permite contrastar este supuesto mediante la
prueba de Levene.