SlideShare a Scribd company logo
1 of 20
Download to read offline
DOCUWEB FABIS

Dot. Núm 0702004



Cómo realizar "paso a paso" un contraste de hipótesis con
SPSS para Windows y alternativamente con EPIINFO y
EPIDAT: (II) Asociación entre una variable cuantitativa y una
categórica (comparación de medias entre dos o más grupos
independientes).
Aguayo Canela, Mariano.

Hospital Universitario Virgen Macarena (Sevilla), Servicio de Medicina Interna.

Resumen
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y
una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos
como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las
medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la
variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre
dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la
comparación de medias entre tres o más grupos independientes se realiza a través de un modelo
matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas
estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable
cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de
las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa
SPSS para Windows, y alternativamente con los programas EPIINFO 6.0 y su versión 3.3.2
(actualizada en 2005) y con el programa EPIDAT 3.1.



0. INTRODUCCIÓN TEÓRICA.
Cuando tengamos que evaluar la asociación entre una variable categórica (o nominal) y una
variable cuantitativa, el procedimiento es analizar y comparar las medias de la distribución de
la variable cuantitativa en cada uno de los grupos que conforma la variable categórica.

Si la variable cualitativa sólo tiene dos categorías (por ejemplo la variable sexo) el
procedimiento se reduce a comparar las medias de la variable cuantitativa en esos dos
grupos (hombres y mujeres en el ejemplo). El contraste de hipótesis es la t de Student, para
comparar las medias (de la variable contínua) en dos grupos independientes, que en SPSS
está en:

   Analizar > Comparar medias > Prueba t para dos muestras independientes

Si la variable categórica tiene tres o más categorías (por ejemplo la variable raza con las
siguientes mediciones: blanca, negra, otras) el procedimiento también consiste en comparar
las medias de la variable cuantitativa en cada uno de los grupos que conforma cada estrato
o categoría de la variable nominal, pero el procedimiento ya no es la t de Student sino un
modelo matemático más amplio: el Análisis de la Varianza (ANOVA de una vía), que va a
permitir no sólo saber si hay diferencias en las medias en los diferentes grupos sino explorar
Correspondencia: marianoaguayo@telefonica.net

                                                                                               1 de 20
Aguayo Canela, Mariano                                                   DocuWeb fabis.org

entre qué grupos concretos están o no esas diferencias (a través de los llamados “contrastes
a posteriori”). El análisis en SPSS está en:

                 Analizar > Comparar medias > ANOVA de un factor

Un aspecto muy importante de estos contrastes, tanto la t de Student como el ANOVA,
es que son muy exigentes sobre una serie de requisitos en la distribución de la
variable cuantitativa que está evaluando; en concreto sobre dos aspectos:

    a) La variable cuantitativa debe distribuirse según la Ley Normal en cada uno de los
       grupos que se comparan (CRITERIO DE “NORMALIDAD”).

    b) Las varianzas de la distribución de la variable cuantitativa en las poblaciones de las
       que provienen los grupos que se comparan deben ser homogéneas (CRITERIO DE
       HOMOCEDASTICIDAD).

El primero es el más importante. Aunque puede asumirse que se cumple para muestras
grandes (n > 100), debe explorarse siempre, con gráficos y pruebas de normalidad.1 En
SPSS las pruebas de normalidad más completas están en la opción “EXPLORAR” y al que
se llega con la rutina:

                    Analizar > Estadísticos Descriptivos > Explorar

Con respecto al segundo requisito para aplicar estos contrastes (ANOVA y t de Student), es
menos exigente, y existen alternativas para hacer el contraste. Así veremos que en SPSS
hay una lectura de la prueba “asumiendo varianzas desiguales”.

Cuando estos requisitos se incumplen hay que recurrir a las PRUEBAS NO
PARAMÉTRICAS, que en SPSS están en:

Analizar > Pruebas no paramétricas > 2 muestras independientes (ó k muestras
                              independientes)


Vamos a trabajar con el ejemplo del estudio de obesidad e hipertensión. En esta base de
datos, la variable obesidad es categórica (obeso / no obeso) y desearíamos saber si está
relacionada con la edad de los individuos (una variable cuantitativa, cuya medida son los
años cumplidos), esto es, responder a la pregunta ¿hay diferencias en la edad de los
individuos según sean o no obesos? O de forma alternativa, ¿está relacionada la edad con
la presencia de obesidad?



1. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DE
UNA    VARIABLE   (CUANTITATIVA)  EN   DOS GRUPOS
ESTABLECIDOS POR UNA VARIABLE DICOTÓMICA.
1. Antes que nada debe explorarse la variable cuantitativa para comprobar que se
cumplen los requisitos que van a permitir aplicar las pruebas paramétricas. Para ello
recurrimos al procedimiento “EXPLORAR” en la pestaña de Analizar > Estadísticos
descriptivos:

1
  Debe recordarse aquí también que en determinados casos en que una variable cuantitativa no sigue
una Ley Normal puede transformarse mediante una operación matemática (por ejemplo una
transformación logarítmica), consiguiendo entonces que su “transformada” sí cumpla el criterio de
normalidad. Merece la pena probar antes de optar por una prueba no paramétrica.




DocuWeb fabis.org                                                                  2 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación      fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).




                                                                       Como puede apreciarse, se
                                                                       selecciona como factor de
                                                                       exploración la variable nominal,
                                                                       esto es, la categórica que nos va
                                                                       a permitir establecer los grupos a
                                                                       comparar (en este ejemplo la
                                                                       variable “Obesidad”, con sus dos
                                                                       categorías posibles, “obeso” / “no
                                                                       obeso”); y como variable
                                                                       dependiente a explorar la
                                                                       variable cuantitativa (en nuestro
                                                                       caso la variable “Edad”, medida
                                                                       en años cumplidos).

                                                                       En la pestaña de “Gráficos”
                                                                       elegimos la opción Gráficos con
                                                                       pruebas de normalidad. Vemos
                                                                       que esta ventana de Explorar >
      Gráficos también es posible obtener:

          •   Diagramas de caja (box-plot) para evaluar gráficamente la distribución de la variable
              cuantitativa en los diferentes grupos que se comparan, y tener una aproximación
              visual a lo que luego haremos en el contraste de hipótesis.

          •   Gráficos descriptivos de la variable cuantitativa, como los de tallo y hojas
              (stem&leaf) o los histogramas de frecuencias.

      A continuación mostramos la salida de SPSS con las opciones marcadas anteriormente:

      Explorar
      PRESENCIA DE OBESIDAD

      Primero se muestra un resumen de los casos (individuos) que se van a explorar o procesar.
                                     Resumen del procesamiento de los casos

                                                                    Casos
                         PRESENCIA            Válidos              Perdidos                 Total
                         DE OBESIDAD       N       Porcentaje    N      Porcentaje    N        Porcentaje
         EDAD EN AÑOS    obeso               33       100,0%        0         ,0%         33      100,0%
         CUMPLIDOS       no obeso            17       100,0%        0         ,0%         17      100,0%

      Luego un cuadro resumen con la estadística descriptiva de la variable cuantitativa (el dependiente
      para el programa SPSS) en cada uno de los grupos establecidos por las diferentes categorías e la
      variable cualitativa (el factor para el programa SPSS).
      En esta salida podemos ver un aspecto muy interesante: los IC95% para la media en cada grupo, una
      forma alternativa al contraste de hipótesis clásico para tomar decisiones sobre la relación entre
      variables




      DocuWeb fabis.org                                                                       3 de 20
Aguayo Canela, Mariano                                                                                                     DocuWeb fabis.org


                                                        Descriptivos
                          PRESENCIA                                                                                Estadístico            Error típ.
      EDAD EN AÑOS        DE OBESIDAD
                          obeso             Media                                                                      48,70                  0,90
      CUMPLIDOS                             Intervalo de confianza     Límite inferior                                 46,84                  9
                                            para la media al 95%        Límite superior
                                                                                                                           50,55

                                            Media recortada al 5%                                                           48,60
                                            Mediana                                                                         49,00
                                            Varianza                                                                       27,280
                                            Desv. típ.                                                                      5,223
                                            Mínimo                                                                             41
                                            Máximo                                                                             59
                                            Rango                                                                              18
                                            Amplitud intercuartil                                                              10
                                            Asimetría                                                                        ,085               0,40
                                            Curtosis                                                                       -1,067               9
                                                                                                                                                0,79
                          no obeso          Media                                                                           50,24               8
                                                                                                                                               1,199
                                            Intervalo de confianza     Límite inferior                                      47,69
                                            para la media al 95%       Límite superior
                                                                                                                           52,78

                                            Media recortada al 5%                                                           50,21
                                            Mediana                                                                         49,00
                                            Varianza                                                                       24,441
                                            Desv. típ.                                                                      4,944
                                            Mínimo                                                                             42
                                            Máximo                                                                             59
                                            Rango                                                                              17
                                            Amplitud intercuartil                                                               7
                                            Asimetría                                                                        ,101               0,55
                                            Curtosis                                                                        -,583               0
                                                                                                                                               1,063

                                                                                           .
En nuestro ejercicio vemos que, tanto la estimación puntual de la media de la variable “edad” en
ambos grupos (48,70 vs 50,24) como sus intervalos de confianza (46,84 – 50,55 en el grupo “obeso”
vs 47,89 – 52,78 en el grupo “no obeso”) son muy “superponibles”, por lo que es altamente
improbable que las variables edad y obesidad estén relacionadas en la población (lo que conllevaría a
que las edades medias en ambos grupos fueran muy diferentes).

Seguidamente, se nos muestra las pruebas de normalidad que lleva a cabo el programa SPSS. Nos
hemos de fijar en la significación estadística de estos dos contrastes, asumiendo la normalidad de la
distribución si en ambos grupos el nivel de “p” es no significativo (esto es, p>0,05). En nuestro
ejemplo podemos asumir la normalidad de la variable cuantitativa “edad” en ambos grupos (“obesos” /
“no obesos”).
                                                Pruebas de normalidad
                                                                       a
                      PRESENCIA           Kolmogorov-Smirnov                                                      Shapiro-Wilk
                      DE OBESIDAD Estadístico   gl         Sig.                    Estadístico                        gl                   Sig.
  EDAD EN AÑOS        obeso            ,124        33        ,200*                      ,951                             33                  ,142
  CUMPLIDOS           no obeso         ,145        17        ,200*                      ,950                             17                  ,450
    *. Este es un límite inferior de la significación verdadera.
    a. Corrección de la significación de Lilliefors



Si hemos solicitado otros gráficos, la salida nos lo mostrará:
                                                                                                          Gráfico Q-Q normal de EDAD EN AÑOS CUMPLIDOS

EDAD EN AÑOS CUMPLIDOS                                                                                                     para obesi= obeso

Gráficos de tallo y hojas                                                                            2




EDAD EN AÑOS CUMPLIDOS Stem-and-Leaf Plot for obesi=                                                  1
                                                                                   Normal esperado




obeso
                                                                                                     0
 Frequency        Stem &     Leaf

     3,00             4 .    111
                                                                                                     -1
     5,00             4 .    22333

                                                                                                     -2


                                                                                                           40         45             50            55     60
                                                                                                                              Valor observado



DocuWeb fabis.org                                                                                                                               4 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación                                                fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).

                              4,00              4   .   4555
                              2,00              4   .   77
                                                                                                               60
                              3,00              4   .   899
                              4,00              5   .   0001
                              6,00              5   .   222333
                              3,00              5   .   445
                              2,00              5   .   77
                                                                                                               55




                                                                                      EDAD EN AÑOS CUMPLIDOS
                              1,00              5   .   9

       Stem width:                       10
       Each leaf:                                1 case(s)
                                                                                                               50


      EDAD EN AÑOS CUMPLIDOS Stem-and-Leaf Plot for
      obesi= no obeso

       Frequency                         Stem &         Leaf                                                   45


                              2,00              4   .   22
                              7,00              4   .   7778889
                              5,00              5   .   02344
                              3,00              5   .   779                                                    40


       Stem width:                       10                                                                         obeso                no obeso

       Each leaf:                                1 case(s)                                                             PRESENCIA DE OBESIDAD


                                                                                  Gráficos Q-Q normales

                              Gráfico Q-Q normal de EDAD EN AÑOS CUMPLIDOS


                                               para obesi= no obeso
                                                                                  En el box-plot tenemos una representación gráfica
                         2
                                                                                  de la distribución de la variable cuantitativa (edad)
                                                                                  en los dos grupos establecidos por la variable
                                                                                  cualitativa (obesidad), y nos sirve para una
                                                                                  aproximación visual al contraste de hipótesis, que
                          1
                                                                                  planteará como hipótesis nula (H0) “que no son
       Normal esperado




                                                                                  diferentes las medias de edad en estos grupos”.

                         0
                                                                                  Como puede verse en nuestro ejemplo, las edades
                                                                                  medias en el grupo “no obeso” son ligeramente
                                                                                  mayores que en el grupo “obeso”, pero las
                         -1                                                       medianas son idénticas y un amplio porcentaje de
                                                                                  individuos (los situados dentro de cada caja, el 50%
                                                                                  de cada muestra) tienen unas edades muy
                               40         45              50          55     60   parecidas.
                                                    Valor observado
                                                    Con lo ya visto hasta ahora tenemos una
      aproximación inferencial sin necesidad de recurrir al contraste. Tanto el análisis de los
      intervalos de confianza de las medias como el estudio de los gráficos de caja nos permiten
      una evaluación de hasta qué punto pueden estas dos variables estar relacionadas en la
      población de la que proviene la muestra. Es muy probable que no estén asociadas. Pero
      para completar el análisis inferencial debemos recurrir al contraste de hipótesis.

      2. Cuando se cumple el criterio de NORMALIDAD puede llevarse a cabo una
      evaluación inferencial, bien a través de comparar los intervalos de confianza de las medias
      en ambos grupos o bien a través del contraste de hipótesis, siendo la hipótesis nula…

                                                                             H0 → µ1 = µ2

      En el programa SPSS este último procedimiento se encuentra en la secuencia de ventanas:

      Analizar > Comparar medias > Prueba T para muestras independientes…




      DocuWeb fabis.org                                                                                                                5 de 20
Aguayo Canela, Mariano                                                               DocuWeb fabis.org




                                                En el siguiente cuadro de diálogo que se abre tras
                                                optar     por    Prueba      T    para    muestras
                                                independientes, debemos seleccionar la variable a
                                                contrastar –la variable cuantitativa, en nuestro
                                                caso “edad”, y la variable de agrupación –la
                                                variable categórica dicotómica, en nuestro ejemplo
                                                la variable “obesidad”-, a la que habrá que “definir
                                                grupos” activando la casilla correspondiente
                                                (mientras tanto aparecen en la ventana unos signos
                                                de interrogación entre paréntesis):


                                        Si    usamos     los   “valores     especificados”
anotaremos en cada grupo los valores con los que está recogida cada categoría de la
variable categórica en nuestra base de datos (en nuestro ejemplo 1 = obeso; 2 = no obeso).2

La salida del programa es:

Prueba T
                             Estadísticos de grupo

                   PRESENCIA                           Desviación    Error típ. de
                   DE OBESIDAD      N        Media        típ.        la media
    EDAD EN AÑOS   obeso                33     48,70         5,223            ,909
    CUMPLIDOS      no obeso             17     50,24         4,944          1,199



Primero se muestran los estadísticos resumen en cada grupo: N (tamaño), media, desviación típica y
el error estándar de la media.

Luego el programa SPSS nos aporta información de la prueba T en un único cuadro resumen, donde
se nos ofrecen varias cosas, que no debemos confundir:

     •   Una prueba de homogeneidad de varianzas (la prueba de Levene), que nos va a informar
         sobre el segundo requisito para aplicar la comparación de medias mediante la prueba t de
         Student: la homogeneidad de varianzas. El programa hace un contraste a través del
         estadístico F de Snedecor y nos aporta una significación estadística, o valor “p” asociado a la
         hipótesis nula de que “las varianzas son homogéneas” (señalado en color naranja en el
         siguiente cuadro). Cuando ese valor “p” es significativo (p<0,05) debemos dudar de la
         homogeneidad de varianzas.

     •   Una doble salida de la comparación de medias en los dos grupos, expresada en dos
         filas de la ventana:
              o en la fila superior la salida es cuando se han asumido varianzas iguales en el

2
  Vemos como también es posible agrupar por una variable cuantitativa estableciendo un “punto de
corte”, lo que la transformaría de facto en una variable categórica con dos niveles o estratos.




DocuWeb fabis.org                                                                             6 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación                                                 fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).

                             contraste anteriormente comentado (o prueba de Levene);
                       o     en la línea inferior los resultados son los que habría que elegir cuando no se han
                             asumido varianzas iguales, esto es, cuando la prueba de Levene en el paso anterior
                             es significativa (p<0,05). El programa hace en este caso una “variante” de la t de de
                             Student, aplicando -para construir el estadístico de contraste- una varianza
                             promediada entre las varianzas de cada grupo.

          •    La prueba T propiamente dicha, “para la igualdad de medias” nos da diversa información:
                   o El valor de T (t), los grados de libertad del estadístico (gl) y, lo más importante, el
                      valor de “p” (Sig. Bilateral) asociado al contraste (en color amarillo en el cuadro
                      siguiente).
                   o El valor de la diferencia de medias entre los dos grupos, su error típico, y el
                      intervalo de confianza al 95% de dicha diferencia de medias, que nos da una
                      información sobre cuán diferentes son las medias en la población, no sólo mediante
                      una estimación puntual sino también a través de un intervalo de valores que tiene una
                      elevada probabilidad de contener la verdadera diferencia de medias (en color celeste
                      en el cuadro siguiente). Esta información también es útil para comprender si las
                      medias son o no diferentes entre ambos grupos, aportando además datos para
                      conocer con cuánta precisión estamos estimando: un intervalo de confianza que
                      contenga el valor cero supone que no hay diferencias en las medias de ambos
                      grupos, y si su recorrido (rango entre el valor superior e inferior) es pequeño estamos
                      diciendo que esta estimación es bastante precisa.
                                                                   Prueba de muestras independientes

                                               Prueba de Levene
                                               para la igualdad de
                                                  varianzas                                            Prueba T para la igualdad de medias
                                                                                                                                                  95% Intervalo de
                                                                                                                                                  confianza para la
                                                                                                                   Diferencia   Error típ. de        diferencia
                                               F            Sig.           t          gl        Sig. (bilateral)   de medias    la diferencia   Inferior    Superior
        EDAD EN AÑOS       Se han asumido
                                                   ,273       ,604        -1,004           48             ,320         -1,538          1,532      -4,619       1,542
        CUMPLIDOS          varianzas iguales
                           No se han asumido
                                                                          -1,022     34,059               ,314         -1,538          1,505      -4,596       1,520
                           varianzas iguales




      En el ejemplo con el que estamos trabajando, la prueba de Levene no es significativa (p =
      0,604), por lo que asumimos la homogeneidad de varianzas y leemos la t de Student en la
      fila superior (“se han asumido varianzas iguales”): el estadístico t vale -1,004 (con 48 grados
      de libertad) y el valor”p”asociado es 0,32. Conclusión: “No hay asociación entre la edad y
      la obesidad, ya que la media de edad de obesos y no obesos no son estadísticamente
      diferentes al nivel de significación alfa = 0,05)”.

      Por otra parte, si interpretamos la diferencia de medias de edad entre ambos grupos, ésta se
      situaría en la población, con una elevada confianza, entre -4,619 y +1,542 años. Es una
      estimación algo imprecisa (unos cinco años arriba o abajo) y contiene el valor “cero”, que
      nos hace llegar a la misma conclusión: por la variabilidad del muestreo (error aleatorio) es
      posible explicar las pequeñas diferencias de medias de edad (1,53 años) encontradas en
      nuestro estudio, por lo que debemos asumir la no-diferencia de medias de edad en la
      población.

      3. Vamos a ver ahora cómo proceder cuando no es posible aplicar una prueba t de
      Student, empleando entonces una prueba no paramétrica.


      Como ejemplo hagamos un segundo análisis aprovechando el estudio de obesidad e
      hipertensión. En esta base de datos, la variable obesidad es categórica (obeso / no obeso) y
      desearíamos saber si está o no relacionada con la presión arterial sistólica (TAS) de los
      individuos (una variable cuantitativa, cuya medida son los mm de Hg en la toma de TAS),
      esto es, responder a la pregunta ¿hay diferencias en la TAS de los individuos según sean o
      no obesos? O de forma alternativa, ¿está relacionada la TAS con la presencia de obesidad?




      DocuWeb fabis.org                                                                                                                  7 de 20
Aguayo Canela, Mariano                                                                                      DocuWeb fabis.org



Como en el ejercicio anterior, lo primero es comprobar si se dan los requisitos para aplicar
las pruebas paramétricas, basadas en la media y la varianza. Esto es, hay que explorar
cómo es la distribución de la variable “TAS” en cada grupo determinado por la variable
“obesidad”, solicitando pruebas de normalidad que nos permitan tomar una decisión.

La salida de SPSS es ahora la siguiente:

Explorar
PRESENCIA DE OBESIDAD
                                   Resumen del procesamiento de los casos

                                                                                  Casos
                     PRESENCIA                   Válidos                         Perdidos                    Total
                     DE OBESIDAD              N       Porcentaje               N       Porcentaje      N         Porcentaje
  PRESIÓN ARTERIAL   obeso                      33       100,0%                   0          ,0%           33       100,0%
  SISTÓLICA          no obeso                   17       100,0%                   0          ,0%           17       100,0%



Como siempre, primero un resumen de los casos (individuos) explorados, e inmediatamente un
cuadro con los estadísticos más importantes que recogen información de la variable cuantitativa
(dependiente para SPSS) en cada grupo de estudio según los niveles o estratos de la variable
categórica introducida como factor.
                                                                Descriptivos

                                   PRESENCIA                                                        Estadístico   Error típ.
                PRESIÓN ARTERIAL   DE OBESIDAD
                                   obeso             Media                                               125,97       3,191
                SISTÓLICA                            Intervalo de confianza      Límite inferior         119,47
                                                     para la media al 95%        Límite superior
                                                                                                        132,47

                                                     Media recortada al 5%                              125,69
                                                     Mediana                                            120,00
                                                     Varianza                                          336,030
                                                     Desv. típ.                                         18,331
                                                     Mínimo                                                 95
                                                     Máximo                                                160
                                                     Rango                                                  65
                                                     Amplitud intercuartil                                  28
                                                     Asimetría                                            ,398         ,409
                                                     Curtosis                                            -,682         ,798
                                   no obeso          Media                                              144,94        6,505
                                                     Intervalo de confianza      Límite inferior        131,15
                                                     para la media al 95%        Límite superior
                                                                                                        158,73

                                                     Media recortada al 5%                              144,93
                                                     Mediana                                            150,00
                                                     Varianza                                          719,434
                                                     Desv. típ.                                         26,822
                                                     Mínimo                                                100
                                                     Máximo                                                190
                                                     Rango                                                  90
                                                     Amplitud intercuartil                                  45
                                                     Asimetría                                           -,045         ,550
                                                     Curtosis                                            -,932        1,063




Como podemos ver en el cuadro resumen de estadísticos, la media de TAS en los dos grupos de
comparación (“obesos” / “no obesos”) es más elevada en el grupo de no obesos (144,95 con un IC95%
entre 131,15 y 158,73) que en el grupo de obesos (125,97 con un IC95% entre 119,47 y 132,47). La
diferencia puntual de estas medias es:

                                                  144,95 – 125,97 = 18,98

… ¡casi 19 mm de Hg más alta en no obesos!; y los IC95% de las medias en ambos grupos se
superponen en un rango muy corto (el que va desde 131,15 a 132,47). Es probable que ambas
medias sean estadísticamente diferentes y que podamos concluir que las dos variables (TAS y
Obesidad) están asociadas en la población de la que proviene la muestra.

El programa nos muestra ahora las pruebas de normalidad, para tomar una decisión sobre la
adecuación de los test paramétricos a la comparación de medias.




DocuWeb fabis.org                                                                                                              8 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación                                                                    fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).


                                                                                              Pruebas de normalidad
                                                                                                                  a
                                                     PRESENCIA                                     Kolmogorov-Smirnov                       Shapiro-Wilk
                                                     DE OBESIDAD                          Estadístico     gl        Sig.      Estadístico       gl          Sig.
                                    PRESIÓN ARTERIAL obeso                                     ,203          33       ,001         ,930            33         ,036
                                    SISTÓLICA        no obeso                                  ,163          17       ,200*        ,958            17         ,587
                                          *. Este es un límite inferior de la significación verdadera.
                                          a. Corrección de la significación de Lilliefors



      Ambas pruebas de normalidad muestran que en el grupo “obeso” la variable TAS no se distribuye
      según una Ley Normal, ya que la ”p” asociada a los contrastes de K-S (0,001) y S-W (0,036) da por
      debajo del nivel de significación alfa prefijado (0,05). Esto nos obligará a tomar un camino diferente en
      el análisis de la relación entre estas dos variables, optando por pruebas no paramétricas.

      PRESIÓN ARTERIAL SISTÓLICA
                                                                                                   Si hemos solicitado un gráfico de caja para la distribución
                                    200
                                                                                                   de la variable TAS en cada grupo de la variable obesidad,
                                                                                                   obtendremos una imagen como la que se acompaña,
                                                                                                   donde llama la atención una mayor dispersión de los
                                    180
       PRESIÓN ARTERIAL SISTÓLICA




                                                                                                   valores de TAS en el grupo “no obeso” y una tendencia,
                                    160
                                                                                                   así mismo, a mostrar valores más elevados de TAS en
                                    140
                                                                                                   este último grupo.

                                    120
                                                                                                   Llegados a este punto, si deseamos hacer un
                                                                                                   contraste de hipótesis para evaluar hasta qué punto
                                    100                                                            las medias de TAS son diferentes, debemos optar
                                                                                                   por una de las Pruebas no paramétricas > (para…)
                                    80
                                                                                                   2 muestras independientes, con el casi
                                                      obeso                    no obeso
                                                        PRE SE NC IA DE OB ESIDA D                 convencimiento de que el test va a ser
                                                                                                   estadísticamente significativo.

                                                                                                   Una vez seleccionada la opción no paramétrica y
                                                                                                   para dos muestras independientes, el cuadro de
                                                                                                   diálogo del SPSS es el que sigue:

                                                                                                   Es muy parecido a la que hemos visto en Comparar
                                                                                                   medias > Prueba T para muestras independientes:
                                                                                                   en las ventanas hay que seleccionar al menos una
                                                                                                   variable a contrastar (la cuantitativa) y una variable
                                                                                                   de agrupación (la categórica), que debe servir para
                                                                                                   Definir grupos…

      Se pueden elegir entre varios Tipo de prueba, siendo la más común la “U de Mann-
      Whitney”, señalada por defecto en el programa
      SPSS. Tras aplicar, la salida es la siguiente:


      Pruebas no paramétricas
                                                              Estadísticos descriptivos

                                                                                     Desviación
                                        N                                Media         típica   Mínimo Máximo
                         PRESIÓN ARTERIAL
                                          50                             132,42           23,168       95      190
                         SISTÓLICA
                         PRESENCIA DE
                                          50                                1,34            ,479        1        2
                         OBESIDAD




      DocuWeb fabis.org                                                                                                                                    9 de 20
Aguayo Canela, Mariano                                                          DocuWeb fabis.org

Prueba de Mann-Whitney
                                    Rangos

                            PRESENCIA                    Rango      Suma de
                            DE OBESIDAD        N        promedio     rangos
  PRESIÓN ARTERIAL          obeso                  33       22,05      727,50
  SISTÓLICA                 no obeso               17       32,21      547,50
                            Total                  50



                                    a
            Estadísticos de contraste

                                  PRESIÓN
                                 ARTERIAL
                                 SISTÓLICA
     U de Mann-Whitney              166,500
     W de Wilcoxon                  727,500
     Z                               -2,358
     Sig. asintót. (bilateral)          ,018
         a. Variable de agrupación: PRESENCIA DE OBESIDAD

Tras hacer un pequeño resumen de los casos procesados a través de sus estadísticos descriptivos
(tamaño muestral, media, desviación típica y valores máximo y mínimo), el programa procesa la
información contenida en la variable cuantitativa en cada grupo, y calcula varios estadísticos de
contraste. Lo que debemos interpretar es la Sig. Asintótica (bilateral), que en nuestro caso vale
0,018 y lleva a concluir que se rechaza la hipótesis nula de que “la media de TAS es similar en ambos
grupos”; o lo que es alternativamente igual, “que existe una asociación estadísticamente significativa
entre la TAS y la Obesidad)”.


2. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DE
UNA VARIABLE CUANTITATIVA EN TRES O MÁS GRUPOS
ESTABLECIDOS POR UNA VARIABLE CATEGÓRICA.
Cuando la variable cualitativa tiene tres o más categorías, el análisis de asociación entre
esta variable y una cuantitativa ya no puede llevarse a cabo por el test t de Student, sino que
debe recurrirse a una técnica matemática conocida como ANALISIS DE LA VARIANZA. Esta
prueba contrasta la hipótesis H0 de que “las medias de las distribuciones de la variable
cuantitativa en todos y cada uno de los grupos independientes son iguales”:

                                          H0 → µ1 = µ2 = µ3 … = µn

Esto es, con que exista una media diferente a las demás, el test estadístico será significativo
al nivel alfa establecido.

El ANOVA tiene las mismas exigencias que la t de Student: requiere que la variable
cuantitativa se distribuya según una Ley Normal en cada uno de los grupos a comparar, y
además exige que las varianzas sean homogéneas.

Vamos a realizar una prueba de ANOVA, para lo cual vamos a convertir la variable cuantitativa “edad”
de la base de datos OBESIDAD Y HTA en una variable categórica (“edadrec”) con tres categorías:
        a) “menos de 47 años”
        b) “de 47 a 52 años”
        c) “más de 52 años”

Y ahora desearíamos comprobar si existe relación entre la presión arterial sistólica (TAS) y los tres
segmentos de edad establecidos por “edadrec”. Consistiría en “evaluar si las medias de TAS son
diferentes en los grupos de edad, y si fuese así en qué sentido y en qué estratos etarios”.




DocuWeb fabis.org                                                                       10 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación                                                                                                                                     fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).




                                                                                                                                             Case Processing Summary

                                                                                                                                                                                                                 Cases
                                                                                                                        EDAD EN AÑOS                                            Valid                            Missing                            Total
                                                                                                                        CUMPLIDOS (Banded)       N                                      Percent              N         Percent             N                Percent
                                                                                               PRESIÓN ARTERIAL         Menos de 47 años                                       19        100,0%                  0         ,0%                   19          100,0%
                                                                                               SISTÓLICA                De 47 a 52 años                                        16        100,0%                  0         ,0%                   16          100,0%
                                                                                                                        Más de 52 años                                         15        100,0%                  0         ,0%                   15          100,0%


                                         1. Antes que nada debemos comprobar si se
      cumple el requisito de normalidad en la distribución de la variable cuantitativa en
      todos y cada uno de los estratos o grupos que establece la variable categórica.
                                                                                                                                                  Descriptives
      Procedemos como ya hemos visto                                                                                     EDAD EN AÑOS                                                                                               Statistic           Std. Error
      antes, a través de Analizar >                                                            PRESIÓN ARTERIAL
                                                                                               SISTÓLICA
                                                                                                                         CUMPLIDOS años
                                                                                                                         Menos de 47 (Banded)   Mean
                                                                                                                                                95% Confidence                                         Lower Bound
                                                                                                                                                                                                                                      128,79                 4,140
                                                                                                                                                                                                                                      120,09
      Estadísticos   descriptivos  >                                                                                                            Interval for Mean                                      Upper Bound
                                                                                                                                                                                                                                      137,49
      Explorar                                                                                                                                  5% Trimmed Mean                                                                       126,99
                                                                                                                                                Median                                                                                120,00
                                                                                                                                                Variance                                                                             325,620
      La salida del programa SPSS será:                                                                                                         Std. Deviation                                                                        18,045
                                                                                                                                                Minimum                                                                                  110
                                                                                                                                                Maximum                                                                                  180

      Vemos en el cuadro anterior los                                                                                                           Range
                                                                                                                                                Interquartile Range
                                                                                                                                                                                                                                          70
                                                                                                                                                                                                                                          20
      estadísticos descriptivos en cada uno                                                                                                     Skewness                                                                               1,484                  ,524
                                                                                                                                                Kurtosis
      de los tres grupos establecidos por la                                                                             De 47 a 52 años        Mean
                                                                                                                                                                                                                                       2,300
                                                                                                                                                                                                                                      133,38
                                                                                                                                                                                                                                                             1,014
                                                                                                                                                                                                                                                             5,994
      variable    “edadrec”.   Las   medias                                                                                                     95% Confidence
                                                                                                                                                Interval for Mean
                                                                                                                                                                                                       Lower Bound                    120,60
                                                                                                                                                                                                       Upper Bound
      puntuales de TAS son 128.79, 133,38                                                                                                                                                                                             146,15

      y 136.00 mm de Hg. Los IC95% de                                                                                                           5% Trimmed Mean
                                                                                                                                                Median
                                                                                                                                                                                                                                      133,75
                                                                                                                                                                                                                                      142,00
      estas medias son algo anchos y se                                                                                                         Variance                                                                             574,917

      superponen en gran parte de su                                                                                                            Std. Deviation
                                                                                                                                                Minimum
                                                                                                                                                                                                                                      23,977
                                                                                                                                                                                                                                         100
      recorrido, por lo que es muy probable                                                                                                     Maximum                                                                                  160
                                                                                                                                                Range
      que no existan diferencias en las                                                                                                         Interquartile Range
                                                                                                                                                                                                                                          60
                                                                                                                                                                                                                                          48
      medias y que estas dos variables no se                                                                                                    Skewness                                                                               -,281                  ,564
                                                                                                                                                Kurtosis                                                                              -1,707                 1,091
      asocien en la población de la que                                                                                  Más de 52 años         Mean                                                                                  136,00                 7,355
      proviene la muestra analizada.                                                                                                            95% Confidence
                                                                                                                                                Interval for Mean
                                                                                                                                                                                                       Lower Bound                    120,23
                                                                                                                                                                                                       Upper Bound
                                                                                                                                                                                                                                      151,77

      Con respecto a los test de normalidad,                                                        135,28
                                                                                                    130,00
                                                                                                                                                5% Trimmed Mean
                                                                                                                                                Median
      se encuentra significación estadística                                                       811,429                                      Variance
                                                                                                                                                Std. Deviation
      (p<0,05) en los dos contrastes de                                                             28,486
                                                                                                        95                                      Minimum
      hipótesis en uno de los grupos (el de                                                            190                                      Maximum
                                                                                                        95                                      Range
      menos edad), y en el test de Shapiro-                                                             35                                      Interquartile Range
      Wilk en el grupo de edad media, lo que                                                          ,492                                      Skewness                                                                                                      ,580
                                                                                                     -,597                                      Kurtosis                                                                                                     1,121
      lleva a asumir la no-normalidad en la
      distribución de la variable TAS en la población de la que provienen los individuos de la muestra.

                                                                Tests of Normality
                                                                                         a
                                 EDAD EN AÑOS                          Kolmogorov-Smirnov                        Shapiro-Wilk
                                 CUMPLIDOS (Banded)            Statistic       df         Sig.       Statistic       df         Sig.
        PRESIÓN ARTERIAL         Menos de 47 años                   ,278          19         ,000         ,823           19        ,002
        SISTÓLICA                De 47 a 52 años                    ,193          16         ,112         ,850           16        ,013
                                 Más de 52 años                     ,117          15         ,200*        ,953           15        ,574
          *. This is a lower bound of the true significance.
          a. Lilliefors Significance Correction


      Y en el gráfico de cajas puede visualizarse como las distribuciones                                                                                                      200




      de la variable TAS en los tres grupos erarios establecidos por                                                                                                           180
                                                                                                                                                                                                  7




      “edadrec” es bastante similar, aunque con dispersión o
                                                                                                                                                  PRESIÓN ARTERIAL SISTÓLICA




                                                                                                                                                                               160


      variabilidad creciente según aumenta la edad.
                                                                                                                                                                               140




                                                                                                                                                                               120




                                                                                                                                                                               100




                                                                                                                                                                                80


                                                                                                                                                                                          Menos de 47 años        De 47 a 52 años      Más de 52 años

                                                                                                                                                                                                      EDAD EN AÑOS CUMPLIDOS (Banded)




      DocuWeb fabis.org                                                                                                                                                                                                  11 de 20
Aguayo Canela, Mariano                                                 DocuWeb fabis.org

Con los datos previos ya intuímos que no van a encontrarse diferencias estadísticamente
significativas entre las medias de “TAS” al comparar los tres grupos de edad.

Por otra parte no sería demasiado correcto aplicar un ANOVA, ya que la variable
“TAS” no se distribuye como una Normal en los grupos de comparación. De todas
formas, y con carácter puramente instructivo, vamos llevar a cabo el contraste.

2. Análisis de la varianza de una vía. En la ventana correspondiente del SPSS aplicamos
Analizar > Comparar medias > ANOVA de un factor...



En la nueva ventana de diálogo seleccionamos la variable categórica que establecerá los
grupos a comparar y la trasladamos a la ventana Factor; en la ventana Dependientes
                                                     colocamos la variable cuantitativa,
                                                     en nuestro caso Presión arterial
                                                     sistólica.

                                                             En la pestaña que pone “Post
                                                             hoc...”         (contrastes       o
                                                             comparaciones         múltiples   a
                                                             posteriori) seleccionamos alguno
                                                             de los procedimientos que se nos
                                                             ofrecen. El más habitual es el de
                                                             Bonferroni      (también      el de
                                                             Scheffé). Estos contrastes tienen
                                                             sentido sólo si el ANOVA sale
significativo o próximo a la significación estadística, ya que lo que realizan es comparaciones
de las medias en las múltiples parejas de grupos que puedan contrastarse, para intentar
averiguar dónde está la diferencia (o diferencias) que ha causado que se rechace la
hipótesis nula en la primera parte del ANOVA.

También debemos explorar los contenidos de la pestaña “Opciones...”, para solicitar una
prueba de homogeneidad de varianzas y, si lo deseamos, un resumen de los principales
descriptivos en cada grupo de comparación.




Los resultados de las pruebas solicitadas son los siguientes:




DocuWeb fabis.org                                                               12 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación                                                               fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).

      ANOVA de un factor

      Primero se nos muestra un cuadro resumen con los estadísticos descriptivos (de la variable
      cuantitativa) más relevantes en cada grupo que se va a contrastar: las medias (y sus IC95%), las
      desviaciones típicas y los valores máximo y mínimo.

                                                                  Descriptivos

        PRESIÓN ARTERIAL SISTÓLICA
                                                                                         Intervalo de confianza para
                                                                                               la media al 95%
                                                    Desviación                                               Límite
                        N               Media         típica           Error típico      Límite inferior    superior             Mínimo           Máximo
        Menos de 47         19           128,79          18,045             4,140                120,09       137,49                 110              180
        De 47 a 52          16           133,38          23,977             5,994                120,60       146,15                 100              160
        Más de 52           15           136,00          28,486             7,355                120,23       151,77                  95              190
        Total               50           132,42          23,168             3,277                125,84       139,00                  95              190



      Luego, el programa SPSS nos ofrece un test para evaluar la homogeneidad de varianzas: es el mismo
      que se aplicaba de rutina en el procedimiento comparación de medias en dos grupos independientes
      (prueba T): el test de Levene. En nuestro ejemplo la significación estadística “p” vale 0.056, pudiendo
      asumirse la homogeneidad de varianzas (aunque en el límite de la no significación).

             Prueba de homogeneidad de varianzas

         PRESIÓN ARTERIAL SISTÓLICA
         Estadístico
         de Levene          gl1               gl2             Sig.
               3,059                2               47          ,056


      Por último, aparece la salida del ANOVA propiamente dicho, con sus diferentes componentes o
      fuentes de variabilidad: la inter-grupos y la intra-grupos. Esta última representaría la variabilidad o
      dispersión que no es explicada por el factor de agrupamiento (la variable categórica), y que sería
      explicable sólo por el azar.

                                                   ANOVA

        PRESIÓN ARTERIAL SISTÓLICA
                        Suma de                             Media
                       cuadrados              gl          cuadrática                F                    Sig.
        Inter-grupos     457,272                     2      228,636                  ,416                  ,662
        Intra-grupos   25844,908                    47      549,892
        Total          26302,180                    49


      Para llevar a cabo el contraste, se recurre al estadístico F de Snedecor, que en nuestro ejemplo vale
      0.416 y tiene un valor “p” asociado de 0.662 (no significativo). Con esto concluiríamos nuestra
      evaluación, diciendo que “las variables TAS y grupos de edad no muestran asociación”; o que “se
      acepta la hipótesis nula de que las medias de TAS son iguales en los diferentes grupos de
      edad”. En este caso no habría lugar a evaluar los contrastes a posteriori, puesto que no se han
      encontrado diferencias significativas en el ANOVA. Aún así mostramos la salida de SPSS:

      Pruebas post hoc
                                                                         Comparaciones múltiples

                                 Variable dependiente: PRESIÓN ARTERIAL SISTÓLICA
                                 Bonferroni
                                                                                                                      Intervalo de confianza al
                                 (I) EDAD EN AÑOS   (J) EDAD EN AÑOS                                                             95%
                                 CUMPLIDOS          CUMPLIDOS            Diferencia de                                                  Límite
                                 (Categorizada)     (Categorizada)       medias (I-J)     Error típico      Sig.     Límite inferior   superior
                                 Menos de 47        De 47 a 52                  -4,586          7,957        1,000           -24,34       15,17
                                                    Más de 52                   -7,211          8,099        1,000           -27,32       12,90
                                 De 47 a 52         Menos de 47                  4,586          7,957        1,000           -15,17       24,34
                                                    Más de 52                   -2,625          8,428        1,000           -23,55       18,30
                                 Más de 52          Menos de 47                  7,211          8,099        1,000           -12,90       27,32
                                                    De 47 a 52                   2,625          8,428        1,000           -18,30       23,55




      DocuWeb fabis.org                                                                                                                              13 de 20
Aguayo Canela, Mariano                                                         DocuWeb fabis.org


En el cuadro de comparaciones múltiples vemos que cada grupo de edad se compara con los otros
dos, obteniéndose en cada contraste la diferencia de medias, el IC95%, el error estándar y el
valor”p”asociado, que en todos los casos es no-significativo, como ya sabíamos que iba a suceder.

3. Pasos a dar cuando no puede aplicarse ANOVA. En nuestro ejercicio, al haberse
detectado “problemas” con la normalidad de la variable TAS en alguno de los grupos etarios,
lo correcto habría sido recurrir a una prueba no paramétrica en:

Analizar > Pruebas no paramétricas > k muestras independientesUna vez abierta
la ventana del procedimiento, vemos que es muy parecida a la del ANOVA, debiendo
seleccionarse una variable a contrastar (la cuantitativa, en el ejemplo la “Presión arterial
sistólica”) y una variable de agrupación (la categórica, en nuestro caso la “edadrec” que
corresponde a la primitiva variable “edad” que hemos recodificado en nominal, con tres
grupos o estratos), debiendo especificarle al programa SPSS el rango de valores (en
nuestro caso de 1 a 3, que son los números con los que se han codificado los tres estratos).
El tipo de prueba es por defecto el test de Kruskal-Wallis.

La salida que obtendremos, tras dar al botón de aceptar, será la siguiente (nos hemos
pasado ahora a la versión en inglés del programa SPSS 13.0):




NPar Tests (Pruebas No Paramétricas)
Primero un resumen de los estadísticos para cada variable incluida en el contraste. En nuestro
ejemplo son sólo dos, a las que SPSS considera numéricas (realmente para la segunda variable -
“edadrec”- no tiene sentido la estadística descriptiva llevada a cabo, pues es una variable categórica.
                                   Descriptive Statistics

                              N          Mean      Std. Deviation    Minimum     Maximum
  PRESIÓN ARTERIAL
                                  50      132,42            23,168        95          190
  SISTÓLICA
  EDAD EN AÑOS
                                  50        1,92              ,829         1            3
  CUMPLIDOS (Banded)




Luego aparece la prueba de contraste, el test de Kruskal-Wallis, con los tamaños de muestra (N) y los
rangos promedio para cada uno de los grupos a comparar. Y después, en una segunda tabla, aparece
el estadístico Chi-cuadrado, que vale 0,487, sus grados de libertad (el número de grupos -3- menos
uno), y su significación estadística (p = 0,784). Llegamos a la misma conclusión que con el ANOVA:




DocuWeb fabis.org                                                                      14 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación         fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).

      “las variables contrastadas no están asociadas en la población de la que provienen la muestra
      estudiada, pudiendo achacarse las pequeñas diferencias apreciadas en la presión arterial
      sistólica -en los diferentes grupos de edad- al puro azar o error aleatorio del muestreo”.


                                               Ranks
                                       EDAD EN AÑOS              N         Mean Rank
         PRESIÓN ARTERIAL              CUMPLIDOS años
                                       Menos de 47 (Banded)          19        23,71
         SISTÓLICA                     De 47 a 52 años               16        26,28
                                       Más de 52 años                15        26,93
                                       Total                         50

                                 a,b
               Test Statistics

                          PRESIÓN
                                           En este ejemplo sólo puede concluirse que no tenemos
                         ARTERIAL          pruebas para rechazar la hipótesis nula, esto es
        Chi-Square
                         SISTÓLICA
                                ,487
                                           aceptaremos la igualdad de medias en la población de la
        df                         2       que proviene la muestra y concluiremos diciendo que
        Asymp. Sig.             ,784       “no se han encontrado argumentos que relacionen la
           a. Kruskal Wallis Test          TAS con los tres rangos de edad analizados”. Por otra
           b. Grouping Variable: EDAD EN
                                           parte, si hubiésemos detectado diferencias hemos de
              AÑOS CUMPLIDOS (Banded)
                                           aclarar que con este tipo de contrastes no paramétricos
      no es posible realizar contrastes a posteriori.


      3. PASOS A DAR PARA HACER UNA COMPARACIÓN DE MEDIAS
      CON EL PROGRAMA EPI-INFO.
      El programa EPI-INFO permite evaluar medias en dos o más grupos con dos procedimientos
      o aproximaciones diferentes:

          •   En la versión EPI INFO 6, a través de la rutina EPITABLE, siempre que tengamos
              ya calculados los estadísticos resumen (media y varianza) de la variable
              cuantitativa en cada uno de los estratos o grupos establecidos por la variable
              categórica.
          •   En la versión EPI INFO 2002 o posterior, a través del programa ANALIZAR
              DATOS, tras cargar el fichero que contiene los datos individuales y las variables
              medidas, de forma muy parecida a lo que se ha hecho en el programa SPSS.

      1. Si tenemos los estadísticos resumen de la variable cuantitativa en todos y cada uno
      de los grupos establecidos por la variable categórica o, simplemente, en los grupos
      independientes que van a compararse, el programa EPI INFO 6.0 nos permite una
      doble aproximación inferencial: la comparación de los intervalos de confianza de las
      medias en cada grupo y el contraste de hipótesis que parte de la hipótesis nula de que las
      medias de los diferentes grupos son iguales.

      Vamos a trabajar con el mismo ejemplo que en el apartado 1 paso 3, esto es, vamos a
      comparar las medias de “TAS” entre los dos grupos establecidos por la variable “Obesidad”
      (“obesos” / “no obesos”). Pero en este caso ya tenemos calculados sus índices resumen: la
      media, la varianza y el tamaño muestral.
                     ¿Existe asociación?                       Presión arterial sistólica
                   Obesidad             N                Media      Varianza      Desv. Estándar
                   Obeso                         33     125,97            336,030      18,331
                   No obeso                      17     144,94            719,434      26,822




      DocuWeb fabis.org                                                                         15 de 20
Aguayo Canela, Mariano                                                     DocuWeb fabis.org

1.1.   En primer lugar vamos a calcular los intervalos de confianza de la media de
       TAS en ambos grupos. Esta es una primera aproximación inferencial. Abrimos en
       EPITABLE la opción Describe > Mean




Y ahora debemos introducir los datos que nos pide la calculadora: la media, la desviación
estándar y el tamaño de la muestra, para cada grupo (“obesos” y “no obesos”). Mostramos a
continuación la salida para el grupo “obesos”:




El intervalo de confianza al 95% que nos da el programa EPI INFO (119,72 – 132,22) es ligeramente
más pequeño que el que aportaba el programa SPSS para la misma media (119,47 – 132,47). De
forma similar se haría el cálculo en el otro grupo (“no obesos”), y con ambos intervalos de confianza
deberíamos tomar la decisión de… “hasta qué punto ambas medias en la población serían diferentes”.

1.2.   En segundo lugar, procedamos a comparar las medias de TAS en los dos
       grupos. Esta es la aproximación inferencial más clásica, a través del contraste
       de hipótesis. En la calculadora estadística EPITABLE se realiza a través de la
       opción Compare > Means




Una vez abierta la ventana de diálogo, nos pide cuantas muestras o grupos vamos a
comparar (¿how many samples?). En nuestro ejemplo son solo dos (“obesos” y “no
obesos”), por lo que señalamos 2 y aceptamos. El programa nos ofrece una nueva ventana




DocuWeb fabis.org                                                                    16 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación     fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).

      para hacer un ANOVA para dos grupos, debiendo introducir para cada uno de los grupos la
      media, la varianza y el tamaño.

      Al aceptar (Calculate) el programa nos ofrece la salida de un Análisis de la Varianza (ANOVA), con la
      variabilidad intergrupos (Variance between samples), la varianza residual (Residual variance), el
      estadístico de contraste de Snedecor (F Statistic) y el valor ”p” asociado (p value), que en nuestro
      ejemplo vale 0,004749. Al ser menor del nivel de significación habitualmente prefijado (0,05),
      concluimos que “las medias de presión arterial sistólica son diferentes en obesos y no
                 3
      obesos”.




      2. Cuando tengamos a base de datos completa, con datos individuales, es posible
      recurrir a su explotación de forma similar a como lo hace el programa SPSS, ya que
      EPI INFO 2000 -y versiones posteriores- es capaz de reconocer e importar archivos en
      formato DBase (.dbf), Excel (.xls) o Access (.mdb), entre otros.

      Vamos a resumir aquí los pasos para evaluar la relación entre obesidad y edad con el
      subprograma ANALIZAR DATOS del programa EPI INFO en su versión 3.3.2 (2005).

      Tras leer el fichero que contiene los datos, en la ventana Analysis buscamos Estadísticas
      básicas, y marcamos Medias. Se abrirá un cuadro de diálogo donde es posible seleccionar
      la variable cuantitativa en la ventana “Medias de”, y la variable categórica -que establece
      los grupos de comparación- en la ventana “Tabulado por valores de”. Así mismo es posible
      establecer ciertas Preferencias en la salida del análisis.



                                                      Hechas estas selecciones se oprime el botón
                                                      Aceptar, y la salida que se muestra es un análisis
                                                      estadístico completo: primero un resumen de los
                                                      estadísticos básicos en los grupos que se comparan
                                                      (n, media, varianza, desviación típica, mediana,
                                                      máximo mínimo, moda, y percentiles 25% y 75%).

                                                      Luego aparece la salida del ANOVA (test
                                                      paramétrico   para    comparación     de    medias)
                                                      aclarándonos que debe emplearse sólo para datos
                                                      normalmente distribuidos. En este ejemplo, como se

      3
        Recuérdese que este contraste lo hicimos en SPSS con una prueba no paramétrica (la U de Mann-
      Whitney), porque la evaluación de la normalidad de la distribución de la variable “presión arterial
      sistólica” resultó crítica y asumimos que no deberíamos emplear la prueba de comparación de medias
      t de Student. El resultado fue parecido (p = 0,018) y la decisión la misma. Con el programa EPITABLE
      corremos el riesgo de aplicar incorrectamente una prueba paramétrica si no hemos evaluado
      previamente los requisitos para llevarla a cabo.




      DocuWeb fabis.org                                                                    17 de 20
Aguayo Canela, Mariano                                                    DocuWeb fabis.org

trata de comparar dos grupos, aparte del ANOVA hace un test T de Student, que puede comprobarse
que arroja un valor idéntico al obtenido en el punto 1 paso 1 de este mismo documento, con una
probabilidad ”p” asociada al contraste de 0,32 (no significativo).

Si en la opción Preferencias hubiésemos marcado Estadísticas Avanzado, seguidamente se nos
muestra el test de Bartlett para comprobar la homogeneidad de varianzas poblacionales (en este caso
no es significativo, por lo que se asume la igualdad), y el test no paramétrico de Mann-
Whitney/Wilconxon para dos grupos.




4. PASOS A DAR PARA HACER UNA COMPARACIÓN DE DOS
MEDIAS CON EL PROGRAMA EPIDAT 3.1.

El programa EPIDAT trabaja con datos agrupados de forma similar a la calculadora
EPITABLE de EPI INFO 6.0, pero en este caso restringido a comparar sólo dos muestras o
grupos. Conociendo, por tanto, los valores resumen (medias y varianzas) de las
distribuciones de la variable cuantitativa en los grupos que van a contrastarse, se procede a
seleccionar en la pantalla inicial del programa EPIDAT 3.1:

Métodos > Inferencia sobre parámetros > Dos poblaciones > Muestras independientes




Enseguida se abre una ventana donde debemos introducir datos: la media, la varianza y el
tamaño (n) de cada grupo que se desea contrastar. El nivel de confianza (%) viene prefijado
en el 95%, pero puede modificarse.




DocuWeb fabis.org                                                                  18 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación    fabis.org, 2007
  entre una variable cuantitativa y una categórica (comparación de medias entre dos o
                                                           más grupos independientes).




      Tras entrar los datos solicitados se oprime en la barra de herramientas situada arriba el
      icono que parece una pequeña calculadora de bolsillo, obteniéndose la siguiente salida:

      Comparación de dos medias. Muestras independientes
      Nivel de confianza: 95,0%

                                      Muestra 1       Muestra 2
      --------------------           ----------      ----------
                     Media               48,697          50,235
       Desviación estándar                5,223           4,944
         Tamaño de muestra                   33              17


      Prueba de comparación de varianzas

           Estadístico F        gl numerador          gl denominador        Valor p
      ------------------     ---------------         ---------------        -------
                  1,1160                  32                      16         0,8408


      Diferencia de medias            Varianzas             IC (95,0%)
      --------------------           ----------      ----------------------
                     1,538              Iguales          -1,542        4,618
                                      Distintas          -1,520        4,596

      Prueba de comparación de medias
               Varianzas       Estadístico t              gl        Valor p
      ------------------ ------------------          -------        -------
                 Iguales              1,0039              48         0,3205
               Distintas              1,0220              34         0,3140

      Vemos como este programa también realiza una prueba previa para comprobar la igualdad de las
      varianzas, y luego aporta dos aproximaciones: la diferencia de medias entre ambos grupos y su
      intervalo de confianza, y la prueba de comparación de medias t de Student. Los resultados son
      idénticos a los obtenidos con el programa SPSS. De forma similar nos ofrece dos opciones de lectura,
      según sean o no homogéneas las varianzas poblacionales.




      DocuWeb fabis.org                                                                   19 de 20
Aguayo Canela, Mariano                                         DocuWeb fabis.org


Anexo.
Tabla de datos del estudio sobre Hipertensión y Obesidad.

 EDAD      PAS       PAD          SEXO          OBESIDAD
     41       120         70               2               1
     41       140         80               1               1
     41       110         80               2               1
     42       120         85               2               1
     42       120         86               1               2
     42       140         90               1               1
     42       180        110               2               2
     43       120         70               1               1
     43       120         86               2               1
     43       140         90               1               1
     44       110         80               1               1
     45       120         70               1               1
     45       120         80               1               1
     45       122         80               1               1
     47       130         80               2               1
     47       120         80               1               1
     47       155         80               2               2
     47       110         80               1               2
     47       150         85               2               2
     48       110         70               2               2
     48       150        100               2               2
     48       160        102               2               1
     48       160        110               2               2
     49       110         70               1               1
     49       150         90               1               1
     49       139         90               2               2
     50       145         70               1               1
     50       100         70               2               1
     50       120         85               1               2
     50       160        100               1               1
     51       120         80               1               1
     52       100         60               2               1
     52       100         70               2               1
     52       150         80               2               2
     52       160        100               1               1
     53       125         75               2               1
     53       115         75               1               1
     53       110         78               2               1
     53       170        100               2               2
     54       100         60               1               2
     54       120         80               1               1
     54       120         80               1               1
     54       190        120               2               2
     55       135         80               1               1
     57        95         70               1               1
     57       150         75               1               1
     57       130         80               1               2
     57       180         95               2               2
     59       150         80               1               1
     59       150         80               1               2
                               1= HOMBRE       1= OBESO
                               2= MUJER        2= NO OBESO




DocuWeb fabis.org                                                      20 de 20

More Related Content

What's hot

DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENTDISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENTJonatan Gabriel Linares
 
Estadistica chi cuadrado
Estadistica chi cuadradoEstadistica chi cuadrado
Estadistica chi cuadradoPABLITO Pablo
 
tablas de frecuencia y tablas cruzadas SPSS
tablas de frecuencia y tablas cruzadas SPSStablas de frecuencia y tablas cruzadas SPSS
tablas de frecuencia y tablas cruzadas SPSSfaamiisaa
 
Pruebas de hipótesis Por mi
Pruebas de hipótesis Por miPruebas de hipótesis Por mi
Pruebas de hipótesis Por miGonzalo Vazquez
 
diseño no experimental transversal 252
diseño no experimental transversal 252diseño no experimental transversal 252
diseño no experimental transversal 252merlina10
 
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...JAVIER SOLIS NOYOLA
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianzajoanem28
 
Diseños de investigacion hms
Diseños de investigacion hmsDiseños de investigacion hms
Diseños de investigacion hmsHermias Montes
 
Algunos ejemplos para prueba de hipótesis
Algunos ejemplos para prueba de hipótesisAlgunos ejemplos para prueba de hipótesis
Algunos ejemplos para prueba de hipótesisJacinto Arroyo
 
Capitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de HipótesisCapitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de Hipótesisug-dipa
 

What's hot (20)

Análisis de la varianza
Análisis de la varianzaAnálisis de la varianza
Análisis de la varianza
 
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENTDISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
 
Disenos experimentales-1
Disenos experimentales-1Disenos experimentales-1
Disenos experimentales-1
 
Estadistica chi cuadrado
Estadistica chi cuadradoEstadistica chi cuadrado
Estadistica chi cuadrado
 
Análisis de Regresión Lineal
Análisis de Regresión LinealAnálisis de Regresión Lineal
Análisis de Regresión Lineal
 
PRUEBAS PARAMETRICAS
PRUEBAS PARAMETRICASPRUEBAS PARAMETRICAS
PRUEBAS PARAMETRICAS
 
Estadística: Prueba de Medias
Estadística: Prueba de MediasEstadística: Prueba de Medias
Estadística: Prueba de Medias
 
Prueba de U Mann-whitney
Prueba de U Mann-whitneyPrueba de U Mann-whitney
Prueba de U Mann-whitney
 
tablas de frecuencia y tablas cruzadas SPSS
tablas de frecuencia y tablas cruzadas SPSStablas de frecuencia y tablas cruzadas SPSS
tablas de frecuencia y tablas cruzadas SPSS
 
Pruebas de hipótesis Por mi
Pruebas de hipótesis Por miPruebas de hipótesis Por mi
Pruebas de hipótesis Por mi
 
Analisis parametricos-y-no-parametricos
Analisis parametricos-y-no-parametricosAnalisis parametricos-y-no-parametricos
Analisis parametricos-y-no-parametricos
 
diseño no experimental transversal 252
diseño no experimental transversal 252diseño no experimental transversal 252
diseño no experimental transversal 252
 
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
 
Diseños de investigacion hms
Diseños de investigacion hmsDiseños de investigacion hms
Diseños de investigacion hms
 
11. Población y muestra
11.  Población y muestra11.  Población y muestra
11. Población y muestra
 
Matriz de-consistencia
Matriz de-consistenciaMatriz de-consistencia
Matriz de-consistencia
 
Algunos ejemplos para prueba de hipótesis
Algunos ejemplos para prueba de hipótesisAlgunos ejemplos para prueba de hipótesis
Algunos ejemplos para prueba de hipótesis
 
Pruebas de bondad de ajuste vfinal
Pruebas de bondad de ajuste vfinalPruebas de bondad de ajuste vfinal
Pruebas de bondad de ajuste vfinal
 
Capitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de HipótesisCapitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de Hipótesis
 

Viewers also liked

NTP 283: Encuestas: metodología para su utilización
NTP 283: Encuestas: metodología para su utilizaciónNTP 283: Encuestas: metodología para su utilización
NTP 283: Encuestas: metodología para su utilizaciónJairo Acosta Solano
 
Higher education in a web 2.0 world
Higher education in a web 2.0 worldHigher education in a web 2.0 world
Higher education in a web 2.0 worldJairo Acosta Solano
 
Indicadores de ciencia y tecnología - Colombia 2010
Indicadores de ciencia y tecnología - Colombia 2010Indicadores de ciencia y tecnología - Colombia 2010
Indicadores de ciencia y tecnología - Colombia 2010Jairo Acosta Solano
 
Pruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSPruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSJairo Acosta Solano
 
Creative commons: The Power of Open (español)
Creative commons: The Power of Open (español)Creative commons: The Power of Open (español)
Creative commons: The Power of Open (español)Jairo Acosta Solano
 
La publicación mediante sistemas electrónicos de gestión de revistas [present...
La publicación mediante sistemas electrónicos de gestión de revistas [present...La publicación mediante sistemas electrónicos de gestión de revistas [present...
La publicación mediante sistemas electrónicos de gestión de revistas [present...Silvana Aquino Remigio
 
Analisis de varianzaunsolofactor
Analisis de varianzaunsolofactorAnalisis de varianzaunsolofactor
Analisis de varianzaunsolofactorsvasquezr
 
Cultura digital y transformación de las organizaciones. 8 competencias digita...
Cultura digital y transformación de las organizaciones. 8 competencias digita...Cultura digital y transformación de las organizaciones. 8 competencias digita...
Cultura digital y transformación de las organizaciones. 8 competencias digita...Carlos Magro Mazo
 
Epistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIA
Epistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIAEpistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIA
Epistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIAJolman Assia
 
Manual para aplicar normas Icontec a los trabajos de grado
Manual para aplicar normas Icontec a los trabajos de gradoManual para aplicar normas Icontec a los trabajos de grado
Manual para aplicar normas Icontec a los trabajos de gradoJairo Acosta Solano
 

Viewers also liked (17)

NTP 283: Encuestas: metodología para su utilización
NTP 283: Encuestas: metodología para su utilizaciónNTP 283: Encuestas: metodología para su utilización
NTP 283: Encuestas: metodología para su utilización
 
Higher education in a web 2.0 world
Higher education in a web 2.0 worldHigher education in a web 2.0 world
Higher education in a web 2.0 world
 
Indicadores de ciencia y tecnología - Colombia 2010
Indicadores de ciencia y tecnología - Colombia 2010Indicadores de ciencia y tecnología - Colombia 2010
Indicadores de ciencia y tecnología - Colombia 2010
 
Pruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSPruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSS
 
Creative commons: The Power of Open (español)
Creative commons: The Power of Open (español)Creative commons: The Power of Open (español)
Creative commons: The Power of Open (español)
 
La publicación mediante sistemas electrónicos de gestión de revistas [present...
La publicación mediante sistemas electrónicos de gestión de revistas [present...La publicación mediante sistemas electrónicos de gestión de revistas [present...
La publicación mediante sistemas electrónicos de gestión de revistas [present...
 
Analisis de varianzaunsolofactor
Analisis de varianzaunsolofactorAnalisis de varianzaunsolofactor
Analisis de varianzaunsolofactor
 
Cultura digital y transformación de las organizaciones. 8 competencias digita...
Cultura digital y transformación de las organizaciones. 8 competencias digita...Cultura digital y transformación de las organizaciones. 8 competencias digita...
Cultura digital y transformación de las organizaciones. 8 competencias digita...
 
Epistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIA
Epistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIAEpistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIA
Epistemologageneralidadesydefinicionesesenciales-JOLMAN ASSIA
 
Guia enfermos renales_091
Guia enfermos renales_091Guia enfermos renales_091
Guia enfermos renales_091
 
ESTADISTICA II
ESTADISTICA IIESTADISTICA II
ESTADISTICA II
 
Análisis de Varianza (ANOVA)
Análisis de Varianza (ANOVA)Análisis de Varianza (ANOVA)
Análisis de Varianza (ANOVA)
 
Análisis de Varianza
Análisis de VarianzaAnálisis de Varianza
Análisis de Varianza
 
Método de Mínimos Cuadrados
Método de Mínimos CuadradosMétodo de Mínimos Cuadrados
Método de Mínimos Cuadrados
 
Manual para aplicar normas Icontec a los trabajos de grado
Manual para aplicar normas Icontec a los trabajos de gradoManual para aplicar normas Icontec a los trabajos de grado
Manual para aplicar normas Icontec a los trabajos de grado
 
Herramientas bibliograficas 2.0
Herramientas bibliograficas 2.0Herramientas bibliograficas 2.0
Herramientas bibliograficas 2.0
 
Estadistica Unam
Estadistica UnamEstadistica Unam
Estadistica Unam
 

Similar to Comparar medias entre grupos con SPSS, EpiInfo y EpiDat (20)

Tema10 prueba t
Tema10 prueba tTema10 prueba t
Tema10 prueba t
 
Análisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialAnálisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística Inferencial
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
RecodificacióndevariablesensofwareSPSS.pptx
RecodificacióndevariablesensofwareSPSS.pptxRecodificacióndevariablesensofwareSPSS.pptx
RecodificacióndevariablesensofwareSPSS.pptx
 
Presentación de estadistica paola
Presentación de estadistica paolaPresentación de estadistica paola
Presentación de estadistica paola
 
SPSS 6
SPSS 6SPSS 6
SPSS 6
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Estadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSSEstadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSS
 
Análisi de epss
Análisi de epssAnálisi de epss
Análisi de epss
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Resumen final
Resumen finalResumen final
Resumen final
 
Clase1
Clase1Clase1
Clase1
 
C L A S E1
C L A S E1C L A S E1
C L A S E1
 
Clase1
Clase1Clase1
Clase1
 
Clase1
Clase1Clase1
Clase1
 
Clase1
Clase1Clase1
Clase1
 
Clase1
Clase1Clase1
Clase1
 
Clase1
Clase1Clase1
Clase1
 

More from Jairo Acosta Solano

Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxGuía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxJairo Acosta Solano
 
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Jairo Acosta Solano
 
Big Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosBig Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosJairo Acosta Solano
 
Acceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarAcceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarJairo Acosta Solano
 
Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Jairo Acosta Solano
 
Presentación investigación IIp 2017
Presentación investigación IIp 2017Presentación investigación IIp 2017
Presentación investigación IIp 2017Jairo Acosta Solano
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...Jairo Acosta Solano
 
Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Jairo Acosta Solano
 
Generalidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesGeneralidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesJairo Acosta Solano
 
Contexto y circulación de textos científicos
Contexto y circulación de textos científicosContexto y circulación de textos científicos
Contexto y circulación de textos científicosJairo Acosta Solano
 
Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Jairo Acosta Solano
 
Presentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNPresentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNJairo Acosta Solano
 

More from Jairo Acosta Solano (20)

Visualización de Datos.pptx
Visualización de Datos.pptxVisualización de Datos.pptx
Visualización de Datos.pptx
 
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxGuía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
 
SISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptxSISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptx
 
Ejercicio clúster jerárquico
Ejercicio clúster jerárquicoEjercicio clúster jerárquico
Ejercicio clúster jerárquico
 
Ejercicio K-Means
Ejercicio K-MeansEjercicio K-Means
Ejercicio K-Means
 
Matriz de confusión
Matriz de confusiónMatriz de confusión
Matriz de confusión
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Arboles y reglas
Arboles y reglasArboles y reglas
Arboles y reglas
 
Fundamentos IA
Fundamentos IAFundamentos IA
Fundamentos IA
 
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
 
Big Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosBig Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos Masivos
 
Acceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarAcceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigar
 
Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)
 
Presentación investigación IIp 2017
Presentación investigación IIp 2017Presentación investigación IIp 2017
Presentación investigación IIp 2017
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
 
Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017
 
Generalidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesGeneralidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitales
 
Contexto y circulación de textos científicos
Contexto y circulación de textos científicosContexto y circulación de textos científicos
Contexto y circulación de textos científicos
 
Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016
 
Presentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNPresentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURN
 

Recently uploaded

La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptxdeimerhdz21
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosJonathanCovena1
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfMaritzaRetamozoVera
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioELIASAURELIOCHAVEZCA1
 
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptxORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptxnandoapperscabanilla
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dstEphaniiie
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfPaolaRopero2
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfenelcielosiempre
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxdkmeza
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularMooPandrea
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSYadi Campos
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdfenelcielosiempre
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfNancyLoaa
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...JAVIER SOLIS NOYOLA
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 
actividades comprensión lectora para 3° grado
actividades comprensión lectora para 3° gradoactividades comprensión lectora para 3° grado
actividades comprensión lectora para 3° gradoJosDanielEstradaHern
 

Recently uploaded (20)

La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literario
 
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptxORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
ORGANIZACIÓN SOCIAL INCA EN EL TAHUANTINSUYO.pptx
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdf
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptx
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdf
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
actividades comprensión lectora para 3° grado
actividades comprensión lectora para 3° gradoactividades comprensión lectora para 3° grado
actividades comprensión lectora para 3° grado
 

Comparar medias entre grupos con SPSS, EpiInfo y EpiDat

  • 1. DOCUWEB FABIS Dot. Núm 0702004 Cómo realizar "paso a paso" un contraste de hipótesis con SPSS para Windows y alternativamente con EPIINFO y EPIDAT: (II) Asociación entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). Aguayo Canela, Mariano. Hospital Universitario Virgen Macarena (Sevilla), Servicio de Medicina Interna. Resumen Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la comparación de medias entre tres o más grupos independientes se realiza a través de un modelo matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa SPSS para Windows, y alternativamente con los programas EPIINFO 6.0 y su versión 3.3.2 (actualizada en 2005) y con el programa EPIDAT 3.1. 0. INTRODUCCIÓN TEÓRICA. Cuando tengamos que evaluar la asociación entre una variable categórica (o nominal) y una variable cuantitativa, el procedimiento es analizar y comparar las medias de la distribución de la variable cuantitativa en cada uno de los grupos que conforma la variable categórica. Si la variable cualitativa sólo tiene dos categorías (por ejemplo la variable sexo) el procedimiento se reduce a comparar las medias de la variable cuantitativa en esos dos grupos (hombres y mujeres en el ejemplo). El contraste de hipótesis es la t de Student, para comparar las medias (de la variable contínua) en dos grupos independientes, que en SPSS está en: Analizar > Comparar medias > Prueba t para dos muestras independientes Si la variable categórica tiene tres o más categorías (por ejemplo la variable raza con las siguientes mediciones: blanca, negra, otras) el procedimiento también consiste en comparar las medias de la variable cuantitativa en cada uno de los grupos que conforma cada estrato o categoría de la variable nominal, pero el procedimiento ya no es la t de Student sino un modelo matemático más amplio: el Análisis de la Varianza (ANOVA de una vía), que va a permitir no sólo saber si hay diferencias en las medias en los diferentes grupos sino explorar Correspondencia: marianoaguayo@telefonica.net 1 de 20
  • 2. Aguayo Canela, Mariano DocuWeb fabis.org entre qué grupos concretos están o no esas diferencias (a través de los llamados “contrastes a posteriori”). El análisis en SPSS está en: Analizar > Comparar medias > ANOVA de un factor Un aspecto muy importante de estos contrastes, tanto la t de Student como el ANOVA, es que son muy exigentes sobre una serie de requisitos en la distribución de la variable cuantitativa que está evaluando; en concreto sobre dos aspectos: a) La variable cuantitativa debe distribuirse según la Ley Normal en cada uno de los grupos que se comparan (CRITERIO DE “NORMALIDAD”). b) Las varianzas de la distribución de la variable cuantitativa en las poblaciones de las que provienen los grupos que se comparan deben ser homogéneas (CRITERIO DE HOMOCEDASTICIDAD). El primero es el más importante. Aunque puede asumirse que se cumple para muestras grandes (n > 100), debe explorarse siempre, con gráficos y pruebas de normalidad.1 En SPSS las pruebas de normalidad más completas están en la opción “EXPLORAR” y al que se llega con la rutina: Analizar > Estadísticos Descriptivos > Explorar Con respecto al segundo requisito para aplicar estos contrastes (ANOVA y t de Student), es menos exigente, y existen alternativas para hacer el contraste. Así veremos que en SPSS hay una lectura de la prueba “asumiendo varianzas desiguales”. Cuando estos requisitos se incumplen hay que recurrir a las PRUEBAS NO PARAMÉTRICAS, que en SPSS están en: Analizar > Pruebas no paramétricas > 2 muestras independientes (ó k muestras independientes) Vamos a trabajar con el ejemplo del estudio de obesidad e hipertensión. En esta base de datos, la variable obesidad es categórica (obeso / no obeso) y desearíamos saber si está relacionada con la edad de los individuos (una variable cuantitativa, cuya medida son los años cumplidos), esto es, responder a la pregunta ¿hay diferencias en la edad de los individuos según sean o no obesos? O de forma alternativa, ¿está relacionada la edad con la presencia de obesidad? 1. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DE UNA VARIABLE (CUANTITATIVA) EN DOS GRUPOS ESTABLECIDOS POR UNA VARIABLE DICOTÓMICA. 1. Antes que nada debe explorarse la variable cuantitativa para comprobar que se cumplen los requisitos que van a permitir aplicar las pruebas paramétricas. Para ello recurrimos al procedimiento “EXPLORAR” en la pestaña de Analizar > Estadísticos descriptivos: 1 Debe recordarse aquí también que en determinados casos en que una variable cuantitativa no sigue una Ley Normal puede transformarse mediante una operación matemática (por ejemplo una transformación logarítmica), consiguiendo entonces que su “transformada” sí cumpla el criterio de normalidad. Merece la pena probar antes de optar por una prueba no paramétrica. DocuWeb fabis.org 2 de 20
  • 3. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). Como puede apreciarse, se selecciona como factor de exploración la variable nominal, esto es, la categórica que nos va a permitir establecer los grupos a comparar (en este ejemplo la variable “Obesidad”, con sus dos categorías posibles, “obeso” / “no obeso”); y como variable dependiente a explorar la variable cuantitativa (en nuestro caso la variable “Edad”, medida en años cumplidos). En la pestaña de “Gráficos” elegimos la opción Gráficos con pruebas de normalidad. Vemos que esta ventana de Explorar > Gráficos también es posible obtener: • Diagramas de caja (box-plot) para evaluar gráficamente la distribución de la variable cuantitativa en los diferentes grupos que se comparan, y tener una aproximación visual a lo que luego haremos en el contraste de hipótesis. • Gráficos descriptivos de la variable cuantitativa, como los de tallo y hojas (stem&leaf) o los histogramas de frecuencias. A continuación mostramos la salida de SPSS con las opciones marcadas anteriormente: Explorar PRESENCIA DE OBESIDAD Primero se muestra un resumen de los casos (individuos) que se van a explorar o procesar. Resumen del procesamiento de los casos Casos PRESENCIA Válidos Perdidos Total DE OBESIDAD N Porcentaje N Porcentaje N Porcentaje EDAD EN AÑOS obeso 33 100,0% 0 ,0% 33 100,0% CUMPLIDOS no obeso 17 100,0% 0 ,0% 17 100,0% Luego un cuadro resumen con la estadística descriptiva de la variable cuantitativa (el dependiente para el programa SPSS) en cada uno de los grupos establecidos por las diferentes categorías e la variable cualitativa (el factor para el programa SPSS). En esta salida podemos ver un aspecto muy interesante: los IC95% para la media en cada grupo, una forma alternativa al contraste de hipótesis clásico para tomar decisiones sobre la relación entre variables DocuWeb fabis.org 3 de 20
  • 4. Aguayo Canela, Mariano DocuWeb fabis.org Descriptivos PRESENCIA Estadístico Error típ. EDAD EN AÑOS DE OBESIDAD obeso Media 48,70 0,90 CUMPLIDOS Intervalo de confianza Límite inferior 46,84 9 para la media al 95% Límite superior 50,55 Media recortada al 5% 48,60 Mediana 49,00 Varianza 27,280 Desv. típ. 5,223 Mínimo 41 Máximo 59 Rango 18 Amplitud intercuartil 10 Asimetría ,085 0,40 Curtosis -1,067 9 0,79 no obeso Media 50,24 8 1,199 Intervalo de confianza Límite inferior 47,69 para la media al 95% Límite superior 52,78 Media recortada al 5% 50,21 Mediana 49,00 Varianza 24,441 Desv. típ. 4,944 Mínimo 42 Máximo 59 Rango 17 Amplitud intercuartil 7 Asimetría ,101 0,55 Curtosis -,583 0 1,063 . En nuestro ejercicio vemos que, tanto la estimación puntual de la media de la variable “edad” en ambos grupos (48,70 vs 50,24) como sus intervalos de confianza (46,84 – 50,55 en el grupo “obeso” vs 47,89 – 52,78 en el grupo “no obeso”) son muy “superponibles”, por lo que es altamente improbable que las variables edad y obesidad estén relacionadas en la población (lo que conllevaría a que las edades medias en ambos grupos fueran muy diferentes). Seguidamente, se nos muestra las pruebas de normalidad que lleva a cabo el programa SPSS. Nos hemos de fijar en la significación estadística de estos dos contrastes, asumiendo la normalidad de la distribución si en ambos grupos el nivel de “p” es no significativo (esto es, p>0,05). En nuestro ejemplo podemos asumir la normalidad de la variable cuantitativa “edad” en ambos grupos (“obesos” / “no obesos”). Pruebas de normalidad a PRESENCIA Kolmogorov-Smirnov Shapiro-Wilk DE OBESIDAD Estadístico gl Sig. Estadístico gl Sig. EDAD EN AÑOS obeso ,124 33 ,200* ,951 33 ,142 CUMPLIDOS no obeso ,145 17 ,200* ,950 17 ,450 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors Si hemos solicitado otros gráficos, la salida nos lo mostrará: Gráfico Q-Q normal de EDAD EN AÑOS CUMPLIDOS EDAD EN AÑOS CUMPLIDOS para obesi= obeso Gráficos de tallo y hojas 2 EDAD EN AÑOS CUMPLIDOS Stem-and-Leaf Plot for obesi= 1 Normal esperado obeso 0 Frequency Stem & Leaf 3,00 4 . 111 -1 5,00 4 . 22333 -2 40 45 50 55 60 Valor observado DocuWeb fabis.org 4 de 20
  • 5. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). 4,00 4 . 4555 2,00 4 . 77 60 3,00 4 . 899 4,00 5 . 0001 6,00 5 . 222333 3,00 5 . 445 2,00 5 . 77 55 EDAD EN AÑOS CUMPLIDOS 1,00 5 . 9 Stem width: 10 Each leaf: 1 case(s) 50 EDAD EN AÑOS CUMPLIDOS Stem-and-Leaf Plot for obesi= no obeso Frequency Stem & Leaf 45 2,00 4 . 22 7,00 4 . 7778889 5,00 5 . 02344 3,00 5 . 779 40 Stem width: 10 obeso no obeso Each leaf: 1 case(s) PRESENCIA DE OBESIDAD Gráficos Q-Q normales Gráfico Q-Q normal de EDAD EN AÑOS CUMPLIDOS para obesi= no obeso En el box-plot tenemos una representación gráfica 2 de la distribución de la variable cuantitativa (edad) en los dos grupos establecidos por la variable cualitativa (obesidad), y nos sirve para una aproximación visual al contraste de hipótesis, que 1 planteará como hipótesis nula (H0) “que no son Normal esperado diferentes las medias de edad en estos grupos”. 0 Como puede verse en nuestro ejemplo, las edades medias en el grupo “no obeso” son ligeramente mayores que en el grupo “obeso”, pero las -1 medianas son idénticas y un amplio porcentaje de individuos (los situados dentro de cada caja, el 50% de cada muestra) tienen unas edades muy 40 45 50 55 60 parecidas. Valor observado Con lo ya visto hasta ahora tenemos una aproximación inferencial sin necesidad de recurrir al contraste. Tanto el análisis de los intervalos de confianza de las medias como el estudio de los gráficos de caja nos permiten una evaluación de hasta qué punto pueden estas dos variables estar relacionadas en la población de la que proviene la muestra. Es muy probable que no estén asociadas. Pero para completar el análisis inferencial debemos recurrir al contraste de hipótesis. 2. Cuando se cumple el criterio de NORMALIDAD puede llevarse a cabo una evaluación inferencial, bien a través de comparar los intervalos de confianza de las medias en ambos grupos o bien a través del contraste de hipótesis, siendo la hipótesis nula… H0 → µ1 = µ2 En el programa SPSS este último procedimiento se encuentra en la secuencia de ventanas: Analizar > Comparar medias > Prueba T para muestras independientes… DocuWeb fabis.org 5 de 20
  • 6. Aguayo Canela, Mariano DocuWeb fabis.org En el siguiente cuadro de diálogo que se abre tras optar por Prueba T para muestras independientes, debemos seleccionar la variable a contrastar –la variable cuantitativa, en nuestro caso “edad”, y la variable de agrupación –la variable categórica dicotómica, en nuestro ejemplo la variable “obesidad”-, a la que habrá que “definir grupos” activando la casilla correspondiente (mientras tanto aparecen en la ventana unos signos de interrogación entre paréntesis): Si usamos los “valores especificados” anotaremos en cada grupo los valores con los que está recogida cada categoría de la variable categórica en nuestra base de datos (en nuestro ejemplo 1 = obeso; 2 = no obeso).2 La salida del programa es: Prueba T Estadísticos de grupo PRESENCIA Desviación Error típ. de DE OBESIDAD N Media típ. la media EDAD EN AÑOS obeso 33 48,70 5,223 ,909 CUMPLIDOS no obeso 17 50,24 4,944 1,199 Primero se muestran los estadísticos resumen en cada grupo: N (tamaño), media, desviación típica y el error estándar de la media. Luego el programa SPSS nos aporta información de la prueba T en un único cuadro resumen, donde se nos ofrecen varias cosas, que no debemos confundir: • Una prueba de homogeneidad de varianzas (la prueba de Levene), que nos va a informar sobre el segundo requisito para aplicar la comparación de medias mediante la prueba t de Student: la homogeneidad de varianzas. El programa hace un contraste a través del estadístico F de Snedecor y nos aporta una significación estadística, o valor “p” asociado a la hipótesis nula de que “las varianzas son homogéneas” (señalado en color naranja en el siguiente cuadro). Cuando ese valor “p” es significativo (p<0,05) debemos dudar de la homogeneidad de varianzas. • Una doble salida de la comparación de medias en los dos grupos, expresada en dos filas de la ventana: o en la fila superior la salida es cuando se han asumido varianzas iguales en el 2 Vemos como también es posible agrupar por una variable cuantitativa estableciendo un “punto de corte”, lo que la transformaría de facto en una variable categórica con dos niveles o estratos. DocuWeb fabis.org 6 de 20
  • 7. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). contraste anteriormente comentado (o prueba de Levene); o en la línea inferior los resultados son los que habría que elegir cuando no se han asumido varianzas iguales, esto es, cuando la prueba de Levene en el paso anterior es significativa (p<0,05). El programa hace en este caso una “variante” de la t de de Student, aplicando -para construir el estadístico de contraste- una varianza promediada entre las varianzas de cada grupo. • La prueba T propiamente dicha, “para la igualdad de medias” nos da diversa información: o El valor de T (t), los grados de libertad del estadístico (gl) y, lo más importante, el valor de “p” (Sig. Bilateral) asociado al contraste (en color amarillo en el cuadro siguiente). o El valor de la diferencia de medias entre los dos grupos, su error típico, y el intervalo de confianza al 95% de dicha diferencia de medias, que nos da una información sobre cuán diferentes son las medias en la población, no sólo mediante una estimación puntual sino también a través de un intervalo de valores que tiene una elevada probabilidad de contener la verdadera diferencia de medias (en color celeste en el cuadro siguiente). Esta información también es útil para comprender si las medias son o no diferentes entre ambos grupos, aportando además datos para conocer con cuánta precisión estamos estimando: un intervalo de confianza que contenga el valor cero supone que no hay diferencias en las medias de ambos grupos, y si su recorrido (rango entre el valor superior e inferior) es pequeño estamos diciendo que esta estimación es bastante precisa. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas Prueba T para la igualdad de medias 95% Intervalo de confianza para la Diferencia Error típ. de diferencia F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior EDAD EN AÑOS Se han asumido ,273 ,604 -1,004 48 ,320 -1,538 1,532 -4,619 1,542 CUMPLIDOS varianzas iguales No se han asumido -1,022 34,059 ,314 -1,538 1,505 -4,596 1,520 varianzas iguales En el ejemplo con el que estamos trabajando, la prueba de Levene no es significativa (p = 0,604), por lo que asumimos la homogeneidad de varianzas y leemos la t de Student en la fila superior (“se han asumido varianzas iguales”): el estadístico t vale -1,004 (con 48 grados de libertad) y el valor”p”asociado es 0,32. Conclusión: “No hay asociación entre la edad y la obesidad, ya que la media de edad de obesos y no obesos no son estadísticamente diferentes al nivel de significación alfa = 0,05)”. Por otra parte, si interpretamos la diferencia de medias de edad entre ambos grupos, ésta se situaría en la población, con una elevada confianza, entre -4,619 y +1,542 años. Es una estimación algo imprecisa (unos cinco años arriba o abajo) y contiene el valor “cero”, que nos hace llegar a la misma conclusión: por la variabilidad del muestreo (error aleatorio) es posible explicar las pequeñas diferencias de medias de edad (1,53 años) encontradas en nuestro estudio, por lo que debemos asumir la no-diferencia de medias de edad en la población. 3. Vamos a ver ahora cómo proceder cuando no es posible aplicar una prueba t de Student, empleando entonces una prueba no paramétrica. Como ejemplo hagamos un segundo análisis aprovechando el estudio de obesidad e hipertensión. En esta base de datos, la variable obesidad es categórica (obeso / no obeso) y desearíamos saber si está o no relacionada con la presión arterial sistólica (TAS) de los individuos (una variable cuantitativa, cuya medida son los mm de Hg en la toma de TAS), esto es, responder a la pregunta ¿hay diferencias en la TAS de los individuos según sean o no obesos? O de forma alternativa, ¿está relacionada la TAS con la presencia de obesidad? DocuWeb fabis.org 7 de 20
  • 8. Aguayo Canela, Mariano DocuWeb fabis.org Como en el ejercicio anterior, lo primero es comprobar si se dan los requisitos para aplicar las pruebas paramétricas, basadas en la media y la varianza. Esto es, hay que explorar cómo es la distribución de la variable “TAS” en cada grupo determinado por la variable “obesidad”, solicitando pruebas de normalidad que nos permitan tomar una decisión. La salida de SPSS es ahora la siguiente: Explorar PRESENCIA DE OBESIDAD Resumen del procesamiento de los casos Casos PRESENCIA Válidos Perdidos Total DE OBESIDAD N Porcentaje N Porcentaje N Porcentaje PRESIÓN ARTERIAL obeso 33 100,0% 0 ,0% 33 100,0% SISTÓLICA no obeso 17 100,0% 0 ,0% 17 100,0% Como siempre, primero un resumen de los casos (individuos) explorados, e inmediatamente un cuadro con los estadísticos más importantes que recogen información de la variable cuantitativa (dependiente para SPSS) en cada grupo de estudio según los niveles o estratos de la variable categórica introducida como factor. Descriptivos PRESENCIA Estadístico Error típ. PRESIÓN ARTERIAL DE OBESIDAD obeso Media 125,97 3,191 SISTÓLICA Intervalo de confianza Límite inferior 119,47 para la media al 95% Límite superior 132,47 Media recortada al 5% 125,69 Mediana 120,00 Varianza 336,030 Desv. típ. 18,331 Mínimo 95 Máximo 160 Rango 65 Amplitud intercuartil 28 Asimetría ,398 ,409 Curtosis -,682 ,798 no obeso Media 144,94 6,505 Intervalo de confianza Límite inferior 131,15 para la media al 95% Límite superior 158,73 Media recortada al 5% 144,93 Mediana 150,00 Varianza 719,434 Desv. típ. 26,822 Mínimo 100 Máximo 190 Rango 90 Amplitud intercuartil 45 Asimetría -,045 ,550 Curtosis -,932 1,063 Como podemos ver en el cuadro resumen de estadísticos, la media de TAS en los dos grupos de comparación (“obesos” / “no obesos”) es más elevada en el grupo de no obesos (144,95 con un IC95% entre 131,15 y 158,73) que en el grupo de obesos (125,97 con un IC95% entre 119,47 y 132,47). La diferencia puntual de estas medias es: 144,95 – 125,97 = 18,98 … ¡casi 19 mm de Hg más alta en no obesos!; y los IC95% de las medias en ambos grupos se superponen en un rango muy corto (el que va desde 131,15 a 132,47). Es probable que ambas medias sean estadísticamente diferentes y que podamos concluir que las dos variables (TAS y Obesidad) están asociadas en la población de la que proviene la muestra. El programa nos muestra ahora las pruebas de normalidad, para tomar una decisión sobre la adecuación de los test paramétricos a la comparación de medias. DocuWeb fabis.org 8 de 20
  • 9. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). Pruebas de normalidad a PRESENCIA Kolmogorov-Smirnov Shapiro-Wilk DE OBESIDAD Estadístico gl Sig. Estadístico gl Sig. PRESIÓN ARTERIAL obeso ,203 33 ,001 ,930 33 ,036 SISTÓLICA no obeso ,163 17 ,200* ,958 17 ,587 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors Ambas pruebas de normalidad muestran que en el grupo “obeso” la variable TAS no se distribuye según una Ley Normal, ya que la ”p” asociada a los contrastes de K-S (0,001) y S-W (0,036) da por debajo del nivel de significación alfa prefijado (0,05). Esto nos obligará a tomar un camino diferente en el análisis de la relación entre estas dos variables, optando por pruebas no paramétricas. PRESIÓN ARTERIAL SISTÓLICA Si hemos solicitado un gráfico de caja para la distribución 200 de la variable TAS en cada grupo de la variable obesidad, obtendremos una imagen como la que se acompaña, donde llama la atención una mayor dispersión de los 180 PRESIÓN ARTERIAL SISTÓLICA valores de TAS en el grupo “no obeso” y una tendencia, 160 así mismo, a mostrar valores más elevados de TAS en 140 este último grupo. 120 Llegados a este punto, si deseamos hacer un contraste de hipótesis para evaluar hasta qué punto 100 las medias de TAS son diferentes, debemos optar por una de las Pruebas no paramétricas > (para…) 80 2 muestras independientes, con el casi obeso no obeso PRE SE NC IA DE OB ESIDA D convencimiento de que el test va a ser estadísticamente significativo. Una vez seleccionada la opción no paramétrica y para dos muestras independientes, el cuadro de diálogo del SPSS es el que sigue: Es muy parecido a la que hemos visto en Comparar medias > Prueba T para muestras independientes: en las ventanas hay que seleccionar al menos una variable a contrastar (la cuantitativa) y una variable de agrupación (la categórica), que debe servir para Definir grupos… Se pueden elegir entre varios Tipo de prueba, siendo la más común la “U de Mann- Whitney”, señalada por defecto en el programa SPSS. Tras aplicar, la salida es la siguiente: Pruebas no paramétricas Estadísticos descriptivos Desviación N Media típica Mínimo Máximo PRESIÓN ARTERIAL 50 132,42 23,168 95 190 SISTÓLICA PRESENCIA DE 50 1,34 ,479 1 2 OBESIDAD DocuWeb fabis.org 9 de 20
  • 10. Aguayo Canela, Mariano DocuWeb fabis.org Prueba de Mann-Whitney Rangos PRESENCIA Rango Suma de DE OBESIDAD N promedio rangos PRESIÓN ARTERIAL obeso 33 22,05 727,50 SISTÓLICA no obeso 17 32,21 547,50 Total 50 a Estadísticos de contraste PRESIÓN ARTERIAL SISTÓLICA U de Mann-Whitney 166,500 W de Wilcoxon 727,500 Z -2,358 Sig. asintót. (bilateral) ,018 a. Variable de agrupación: PRESENCIA DE OBESIDAD Tras hacer un pequeño resumen de los casos procesados a través de sus estadísticos descriptivos (tamaño muestral, media, desviación típica y valores máximo y mínimo), el programa procesa la información contenida en la variable cuantitativa en cada grupo, y calcula varios estadísticos de contraste. Lo que debemos interpretar es la Sig. Asintótica (bilateral), que en nuestro caso vale 0,018 y lleva a concluir que se rechaza la hipótesis nula de que “la media de TAS es similar en ambos grupos”; o lo que es alternativamente igual, “que existe una asociación estadísticamente significativa entre la TAS y la Obesidad)”. 2. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DE UNA VARIABLE CUANTITATIVA EN TRES O MÁS GRUPOS ESTABLECIDOS POR UNA VARIABLE CATEGÓRICA. Cuando la variable cualitativa tiene tres o más categorías, el análisis de asociación entre esta variable y una cuantitativa ya no puede llevarse a cabo por el test t de Student, sino que debe recurrirse a una técnica matemática conocida como ANALISIS DE LA VARIANZA. Esta prueba contrasta la hipótesis H0 de que “las medias de las distribuciones de la variable cuantitativa en todos y cada uno de los grupos independientes son iguales”: H0 → µ1 = µ2 = µ3 … = µn Esto es, con que exista una media diferente a las demás, el test estadístico será significativo al nivel alfa establecido. El ANOVA tiene las mismas exigencias que la t de Student: requiere que la variable cuantitativa se distribuya según una Ley Normal en cada uno de los grupos a comparar, y además exige que las varianzas sean homogéneas. Vamos a realizar una prueba de ANOVA, para lo cual vamos a convertir la variable cuantitativa “edad” de la base de datos OBESIDAD Y HTA en una variable categórica (“edadrec”) con tres categorías: a) “menos de 47 años” b) “de 47 a 52 años” c) “más de 52 años” Y ahora desearíamos comprobar si existe relación entre la presión arterial sistólica (TAS) y los tres segmentos de edad establecidos por “edadrec”. Consistiría en “evaluar si las medias de TAS son diferentes en los grupos de edad, y si fuese así en qué sentido y en qué estratos etarios”. DocuWeb fabis.org 10 de 20
  • 11. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). Case Processing Summary Cases EDAD EN AÑOS Valid Missing Total CUMPLIDOS (Banded) N Percent N Percent N Percent PRESIÓN ARTERIAL Menos de 47 años 19 100,0% 0 ,0% 19 100,0% SISTÓLICA De 47 a 52 años 16 100,0% 0 ,0% 16 100,0% Más de 52 años 15 100,0% 0 ,0% 15 100,0% 1. Antes que nada debemos comprobar si se cumple el requisito de normalidad en la distribución de la variable cuantitativa en todos y cada uno de los estratos o grupos que establece la variable categórica. Descriptives Procedemos como ya hemos visto EDAD EN AÑOS Statistic Std. Error antes, a través de Analizar > PRESIÓN ARTERIAL SISTÓLICA CUMPLIDOS años Menos de 47 (Banded) Mean 95% Confidence Lower Bound 128,79 4,140 120,09 Estadísticos descriptivos > Interval for Mean Upper Bound 137,49 Explorar 5% Trimmed Mean 126,99 Median 120,00 Variance 325,620 La salida del programa SPSS será: Std. Deviation 18,045 Minimum 110 Maximum 180 Vemos en el cuadro anterior los Range Interquartile Range 70 20 estadísticos descriptivos en cada uno Skewness 1,484 ,524 Kurtosis de los tres grupos establecidos por la De 47 a 52 años Mean 2,300 133,38 1,014 5,994 variable “edadrec”. Las medias 95% Confidence Interval for Mean Lower Bound 120,60 Upper Bound puntuales de TAS son 128.79, 133,38 146,15 y 136.00 mm de Hg. Los IC95% de 5% Trimmed Mean Median 133,75 142,00 estas medias son algo anchos y se Variance 574,917 superponen en gran parte de su Std. Deviation Minimum 23,977 100 recorrido, por lo que es muy probable Maximum 160 Range que no existan diferencias en las Interquartile Range 60 48 medias y que estas dos variables no se Skewness -,281 ,564 Kurtosis -1,707 1,091 asocien en la población de la que Más de 52 años Mean 136,00 7,355 proviene la muestra analizada. 95% Confidence Interval for Mean Lower Bound 120,23 Upper Bound 151,77 Con respecto a los test de normalidad, 135,28 130,00 5% Trimmed Mean Median se encuentra significación estadística 811,429 Variance Std. Deviation (p<0,05) en los dos contrastes de 28,486 95 Minimum hipótesis en uno de los grupos (el de 190 Maximum 95 Range menos edad), y en el test de Shapiro- 35 Interquartile Range Wilk en el grupo de edad media, lo que ,492 Skewness ,580 -,597 Kurtosis 1,121 lleva a asumir la no-normalidad en la distribución de la variable TAS en la población de la que provienen los individuos de la muestra. Tests of Normality a EDAD EN AÑOS Kolmogorov-Smirnov Shapiro-Wilk CUMPLIDOS (Banded) Statistic df Sig. Statistic df Sig. PRESIÓN ARTERIAL Menos de 47 años ,278 19 ,000 ,823 19 ,002 SISTÓLICA De 47 a 52 años ,193 16 ,112 ,850 16 ,013 Más de 52 años ,117 15 ,200* ,953 15 ,574 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction Y en el gráfico de cajas puede visualizarse como las distribuciones 200 de la variable TAS en los tres grupos erarios establecidos por 180 7 “edadrec” es bastante similar, aunque con dispersión o PRESIÓN ARTERIAL SISTÓLICA 160 variabilidad creciente según aumenta la edad. 140 120 100 80 Menos de 47 años De 47 a 52 años Más de 52 años EDAD EN AÑOS CUMPLIDOS (Banded) DocuWeb fabis.org 11 de 20
  • 12. Aguayo Canela, Mariano DocuWeb fabis.org Con los datos previos ya intuímos que no van a encontrarse diferencias estadísticamente significativas entre las medias de “TAS” al comparar los tres grupos de edad. Por otra parte no sería demasiado correcto aplicar un ANOVA, ya que la variable “TAS” no se distribuye como una Normal en los grupos de comparación. De todas formas, y con carácter puramente instructivo, vamos llevar a cabo el contraste. 2. Análisis de la varianza de una vía. En la ventana correspondiente del SPSS aplicamos Analizar > Comparar medias > ANOVA de un factor... En la nueva ventana de diálogo seleccionamos la variable categórica que establecerá los grupos a comparar y la trasladamos a la ventana Factor; en la ventana Dependientes colocamos la variable cuantitativa, en nuestro caso Presión arterial sistólica. En la pestaña que pone “Post hoc...” (contrastes o comparaciones múltiples a posteriori) seleccionamos alguno de los procedimientos que se nos ofrecen. El más habitual es el de Bonferroni (también el de Scheffé). Estos contrastes tienen sentido sólo si el ANOVA sale significativo o próximo a la significación estadística, ya que lo que realizan es comparaciones de las medias en las múltiples parejas de grupos que puedan contrastarse, para intentar averiguar dónde está la diferencia (o diferencias) que ha causado que se rechace la hipótesis nula en la primera parte del ANOVA. También debemos explorar los contenidos de la pestaña “Opciones...”, para solicitar una prueba de homogeneidad de varianzas y, si lo deseamos, un resumen de los principales descriptivos en cada grupo de comparación. Los resultados de las pruebas solicitadas son los siguientes: DocuWeb fabis.org 12 de 20
  • 13. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). ANOVA de un factor Primero se nos muestra un cuadro resumen con los estadísticos descriptivos (de la variable cuantitativa) más relevantes en cada grupo que se va a contrastar: las medias (y sus IC95%), las desviaciones típicas y los valores máximo y mínimo. Descriptivos PRESIÓN ARTERIAL SISTÓLICA Intervalo de confianza para la media al 95% Desviación Límite N Media típica Error típico Límite inferior superior Mínimo Máximo Menos de 47 19 128,79 18,045 4,140 120,09 137,49 110 180 De 47 a 52 16 133,38 23,977 5,994 120,60 146,15 100 160 Más de 52 15 136,00 28,486 7,355 120,23 151,77 95 190 Total 50 132,42 23,168 3,277 125,84 139,00 95 190 Luego, el programa SPSS nos ofrece un test para evaluar la homogeneidad de varianzas: es el mismo que se aplicaba de rutina en el procedimiento comparación de medias en dos grupos independientes (prueba T): el test de Levene. En nuestro ejemplo la significación estadística “p” vale 0.056, pudiendo asumirse la homogeneidad de varianzas (aunque en el límite de la no significación). Prueba de homogeneidad de varianzas PRESIÓN ARTERIAL SISTÓLICA Estadístico de Levene gl1 gl2 Sig. 3,059 2 47 ,056 Por último, aparece la salida del ANOVA propiamente dicho, con sus diferentes componentes o fuentes de variabilidad: la inter-grupos y la intra-grupos. Esta última representaría la variabilidad o dispersión que no es explicada por el factor de agrupamiento (la variable categórica), y que sería explicable sólo por el azar. ANOVA PRESIÓN ARTERIAL SISTÓLICA Suma de Media cuadrados gl cuadrática F Sig. Inter-grupos 457,272 2 228,636 ,416 ,662 Intra-grupos 25844,908 47 549,892 Total 26302,180 49 Para llevar a cabo el contraste, se recurre al estadístico F de Snedecor, que en nuestro ejemplo vale 0.416 y tiene un valor “p” asociado de 0.662 (no significativo). Con esto concluiríamos nuestra evaluación, diciendo que “las variables TAS y grupos de edad no muestran asociación”; o que “se acepta la hipótesis nula de que las medias de TAS son iguales en los diferentes grupos de edad”. En este caso no habría lugar a evaluar los contrastes a posteriori, puesto que no se han encontrado diferencias significativas en el ANOVA. Aún así mostramos la salida de SPSS: Pruebas post hoc Comparaciones múltiples Variable dependiente: PRESIÓN ARTERIAL SISTÓLICA Bonferroni Intervalo de confianza al (I) EDAD EN AÑOS (J) EDAD EN AÑOS 95% CUMPLIDOS CUMPLIDOS Diferencia de Límite (Categorizada) (Categorizada) medias (I-J) Error típico Sig. Límite inferior superior Menos de 47 De 47 a 52 -4,586 7,957 1,000 -24,34 15,17 Más de 52 -7,211 8,099 1,000 -27,32 12,90 De 47 a 52 Menos de 47 4,586 7,957 1,000 -15,17 24,34 Más de 52 -2,625 8,428 1,000 -23,55 18,30 Más de 52 Menos de 47 7,211 8,099 1,000 -12,90 27,32 De 47 a 52 2,625 8,428 1,000 -18,30 23,55 DocuWeb fabis.org 13 de 20
  • 14. Aguayo Canela, Mariano DocuWeb fabis.org En el cuadro de comparaciones múltiples vemos que cada grupo de edad se compara con los otros dos, obteniéndose en cada contraste la diferencia de medias, el IC95%, el error estándar y el valor”p”asociado, que en todos los casos es no-significativo, como ya sabíamos que iba a suceder. 3. Pasos a dar cuando no puede aplicarse ANOVA. En nuestro ejercicio, al haberse detectado “problemas” con la normalidad de la variable TAS en alguno de los grupos etarios, lo correcto habría sido recurrir a una prueba no paramétrica en: Analizar > Pruebas no paramétricas > k muestras independientesUna vez abierta la ventana del procedimiento, vemos que es muy parecida a la del ANOVA, debiendo seleccionarse una variable a contrastar (la cuantitativa, en el ejemplo la “Presión arterial sistólica”) y una variable de agrupación (la categórica, en nuestro caso la “edadrec” que corresponde a la primitiva variable “edad” que hemos recodificado en nominal, con tres grupos o estratos), debiendo especificarle al programa SPSS el rango de valores (en nuestro caso de 1 a 3, que son los números con los que se han codificado los tres estratos). El tipo de prueba es por defecto el test de Kruskal-Wallis. La salida que obtendremos, tras dar al botón de aceptar, será la siguiente (nos hemos pasado ahora a la versión en inglés del programa SPSS 13.0): NPar Tests (Pruebas No Paramétricas) Primero un resumen de los estadísticos para cada variable incluida en el contraste. En nuestro ejemplo son sólo dos, a las que SPSS considera numéricas (realmente para la segunda variable - “edadrec”- no tiene sentido la estadística descriptiva llevada a cabo, pues es una variable categórica. Descriptive Statistics N Mean Std. Deviation Minimum Maximum PRESIÓN ARTERIAL 50 132,42 23,168 95 190 SISTÓLICA EDAD EN AÑOS 50 1,92 ,829 1 3 CUMPLIDOS (Banded) Luego aparece la prueba de contraste, el test de Kruskal-Wallis, con los tamaños de muestra (N) y los rangos promedio para cada uno de los grupos a comparar. Y después, en una segunda tabla, aparece el estadístico Chi-cuadrado, que vale 0,487, sus grados de libertad (el número de grupos -3- menos uno), y su significación estadística (p = 0,784). Llegamos a la misma conclusión que con el ANOVA: DocuWeb fabis.org 14 de 20
  • 15. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). “las variables contrastadas no están asociadas en la población de la que provienen la muestra estudiada, pudiendo achacarse las pequeñas diferencias apreciadas en la presión arterial sistólica -en los diferentes grupos de edad- al puro azar o error aleatorio del muestreo”. Ranks EDAD EN AÑOS N Mean Rank PRESIÓN ARTERIAL CUMPLIDOS años Menos de 47 (Banded) 19 23,71 SISTÓLICA De 47 a 52 años 16 26,28 Más de 52 años 15 26,93 Total 50 a,b Test Statistics PRESIÓN En este ejemplo sólo puede concluirse que no tenemos ARTERIAL pruebas para rechazar la hipótesis nula, esto es Chi-Square SISTÓLICA ,487 aceptaremos la igualdad de medias en la población de la df 2 que proviene la muestra y concluiremos diciendo que Asymp. Sig. ,784 “no se han encontrado argumentos que relacionen la a. Kruskal Wallis Test TAS con los tres rangos de edad analizados”. Por otra b. Grouping Variable: EDAD EN parte, si hubiésemos detectado diferencias hemos de AÑOS CUMPLIDOS (Banded) aclarar que con este tipo de contrastes no paramétricos no es posible realizar contrastes a posteriori. 3. PASOS A DAR PARA HACER UNA COMPARACIÓN DE MEDIAS CON EL PROGRAMA EPI-INFO. El programa EPI-INFO permite evaluar medias en dos o más grupos con dos procedimientos o aproximaciones diferentes: • En la versión EPI INFO 6, a través de la rutina EPITABLE, siempre que tengamos ya calculados los estadísticos resumen (media y varianza) de la variable cuantitativa en cada uno de los estratos o grupos establecidos por la variable categórica. • En la versión EPI INFO 2002 o posterior, a través del programa ANALIZAR DATOS, tras cargar el fichero que contiene los datos individuales y las variables medidas, de forma muy parecida a lo que se ha hecho en el programa SPSS. 1. Si tenemos los estadísticos resumen de la variable cuantitativa en todos y cada uno de los grupos establecidos por la variable categórica o, simplemente, en los grupos independientes que van a compararse, el programa EPI INFO 6.0 nos permite una doble aproximación inferencial: la comparación de los intervalos de confianza de las medias en cada grupo y el contraste de hipótesis que parte de la hipótesis nula de que las medias de los diferentes grupos son iguales. Vamos a trabajar con el mismo ejemplo que en el apartado 1 paso 3, esto es, vamos a comparar las medias de “TAS” entre los dos grupos establecidos por la variable “Obesidad” (“obesos” / “no obesos”). Pero en este caso ya tenemos calculados sus índices resumen: la media, la varianza y el tamaño muestral. ¿Existe asociación? Presión arterial sistólica Obesidad N Media Varianza Desv. Estándar Obeso 33 125,97 336,030 18,331 No obeso 17 144,94 719,434 26,822 DocuWeb fabis.org 15 de 20
  • 16. Aguayo Canela, Mariano DocuWeb fabis.org 1.1. En primer lugar vamos a calcular los intervalos de confianza de la media de TAS en ambos grupos. Esta es una primera aproximación inferencial. Abrimos en EPITABLE la opción Describe > Mean Y ahora debemos introducir los datos que nos pide la calculadora: la media, la desviación estándar y el tamaño de la muestra, para cada grupo (“obesos” y “no obesos”). Mostramos a continuación la salida para el grupo “obesos”: El intervalo de confianza al 95% que nos da el programa EPI INFO (119,72 – 132,22) es ligeramente más pequeño que el que aportaba el programa SPSS para la misma media (119,47 – 132,47). De forma similar se haría el cálculo en el otro grupo (“no obesos”), y con ambos intervalos de confianza deberíamos tomar la decisión de… “hasta qué punto ambas medias en la población serían diferentes”. 1.2. En segundo lugar, procedamos a comparar las medias de TAS en los dos grupos. Esta es la aproximación inferencial más clásica, a través del contraste de hipótesis. En la calculadora estadística EPITABLE se realiza a través de la opción Compare > Means Una vez abierta la ventana de diálogo, nos pide cuantas muestras o grupos vamos a comparar (¿how many samples?). En nuestro ejemplo son solo dos (“obesos” y “no obesos”), por lo que señalamos 2 y aceptamos. El programa nos ofrece una nueva ventana DocuWeb fabis.org 16 de 20
  • 17. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). para hacer un ANOVA para dos grupos, debiendo introducir para cada uno de los grupos la media, la varianza y el tamaño. Al aceptar (Calculate) el programa nos ofrece la salida de un Análisis de la Varianza (ANOVA), con la variabilidad intergrupos (Variance between samples), la varianza residual (Residual variance), el estadístico de contraste de Snedecor (F Statistic) y el valor ”p” asociado (p value), que en nuestro ejemplo vale 0,004749. Al ser menor del nivel de significación habitualmente prefijado (0,05), concluimos que “las medias de presión arterial sistólica son diferentes en obesos y no 3 obesos”. 2. Cuando tengamos a base de datos completa, con datos individuales, es posible recurrir a su explotación de forma similar a como lo hace el programa SPSS, ya que EPI INFO 2000 -y versiones posteriores- es capaz de reconocer e importar archivos en formato DBase (.dbf), Excel (.xls) o Access (.mdb), entre otros. Vamos a resumir aquí los pasos para evaluar la relación entre obesidad y edad con el subprograma ANALIZAR DATOS del programa EPI INFO en su versión 3.3.2 (2005). Tras leer el fichero que contiene los datos, en la ventana Analysis buscamos Estadísticas básicas, y marcamos Medias. Se abrirá un cuadro de diálogo donde es posible seleccionar la variable cuantitativa en la ventana “Medias de”, y la variable categórica -que establece los grupos de comparación- en la ventana “Tabulado por valores de”. Así mismo es posible establecer ciertas Preferencias en la salida del análisis. Hechas estas selecciones se oprime el botón Aceptar, y la salida que se muestra es un análisis estadístico completo: primero un resumen de los estadísticos básicos en los grupos que se comparan (n, media, varianza, desviación típica, mediana, máximo mínimo, moda, y percentiles 25% y 75%). Luego aparece la salida del ANOVA (test paramétrico para comparación de medias) aclarándonos que debe emplearse sólo para datos normalmente distribuidos. En este ejemplo, como se 3 Recuérdese que este contraste lo hicimos en SPSS con una prueba no paramétrica (la U de Mann- Whitney), porque la evaluación de la normalidad de la distribución de la variable “presión arterial sistólica” resultó crítica y asumimos que no deberíamos emplear la prueba de comparación de medias t de Student. El resultado fue parecido (p = 0,018) y la decisión la misma. Con el programa EPITABLE corremos el riesgo de aplicar incorrectamente una prueba paramétrica si no hemos evaluado previamente los requisitos para llevarla a cabo. DocuWeb fabis.org 17 de 20
  • 18. Aguayo Canela, Mariano DocuWeb fabis.org trata de comparar dos grupos, aparte del ANOVA hace un test T de Student, que puede comprobarse que arroja un valor idéntico al obtenido en el punto 1 paso 1 de este mismo documento, con una probabilidad ”p” asociada al contraste de 0,32 (no significativo). Si en la opción Preferencias hubiésemos marcado Estadísticas Avanzado, seguidamente se nos muestra el test de Bartlett para comprobar la homogeneidad de varianzas poblacionales (en este caso no es significativo, por lo que se asume la igualdad), y el test no paramétrico de Mann- Whitney/Wilconxon para dos grupos. 4. PASOS A DAR PARA HACER UNA COMPARACIÓN DE DOS MEDIAS CON EL PROGRAMA EPIDAT 3.1. El programa EPIDAT trabaja con datos agrupados de forma similar a la calculadora EPITABLE de EPI INFO 6.0, pero en este caso restringido a comparar sólo dos muestras o grupos. Conociendo, por tanto, los valores resumen (medias y varianzas) de las distribuciones de la variable cuantitativa en los grupos que van a contrastarse, se procede a seleccionar en la pantalla inicial del programa EPIDAT 3.1: Métodos > Inferencia sobre parámetros > Dos poblaciones > Muestras independientes Enseguida se abre una ventana donde debemos introducir datos: la media, la varianza y el tamaño (n) de cada grupo que se desea contrastar. El nivel de confianza (%) viene prefijado en el 95%, pero puede modificarse. DocuWeb fabis.org 18 de 20
  • 19. Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación fabis.org, 2007 entre una variable cuantitativa y una categórica (comparación de medias entre dos o más grupos independientes). Tras entrar los datos solicitados se oprime en la barra de herramientas situada arriba el icono que parece una pequeña calculadora de bolsillo, obteniéndose la siguiente salida: Comparación de dos medias. Muestras independientes Nivel de confianza: 95,0% Muestra 1 Muestra 2 -------------------- ---------- ---------- Media 48,697 50,235 Desviación estándar 5,223 4,944 Tamaño de muestra 33 17 Prueba de comparación de varianzas Estadístico F gl numerador gl denominador Valor p ------------------ --------------- --------------- ------- 1,1160 32 16 0,8408 Diferencia de medias Varianzas IC (95,0%) -------------------- ---------- ---------------------- 1,538 Iguales -1,542 4,618 Distintas -1,520 4,596 Prueba de comparación de medias Varianzas Estadístico t gl Valor p ------------------ ------------------ ------- ------- Iguales 1,0039 48 0,3205 Distintas 1,0220 34 0,3140 Vemos como este programa también realiza una prueba previa para comprobar la igualdad de las varianzas, y luego aporta dos aproximaciones: la diferencia de medias entre ambos grupos y su intervalo de confianza, y la prueba de comparación de medias t de Student. Los resultados son idénticos a los obtenidos con el programa SPSS. De forma similar nos ofrece dos opciones de lectura, según sean o no homogéneas las varianzas poblacionales. DocuWeb fabis.org 19 de 20
  • 20. Aguayo Canela, Mariano DocuWeb fabis.org Anexo. Tabla de datos del estudio sobre Hipertensión y Obesidad. EDAD PAS PAD SEXO OBESIDAD 41 120 70 2 1 41 140 80 1 1 41 110 80 2 1 42 120 85 2 1 42 120 86 1 2 42 140 90 1 1 42 180 110 2 2 43 120 70 1 1 43 120 86 2 1 43 140 90 1 1 44 110 80 1 1 45 120 70 1 1 45 120 80 1 1 45 122 80 1 1 47 130 80 2 1 47 120 80 1 1 47 155 80 2 2 47 110 80 1 2 47 150 85 2 2 48 110 70 2 2 48 150 100 2 2 48 160 102 2 1 48 160 110 2 2 49 110 70 1 1 49 150 90 1 1 49 139 90 2 2 50 145 70 1 1 50 100 70 2 1 50 120 85 1 2 50 160 100 1 1 51 120 80 1 1 52 100 60 2 1 52 100 70 2 1 52 150 80 2 2 52 160 100 1 1 53 125 75 2 1 53 115 75 1 1 53 110 78 2 1 53 170 100 2 2 54 100 60 1 2 54 120 80 1 1 54 120 80 1 1 54 190 120 2 2 55 135 80 1 1 57 95 70 1 1 57 150 75 1 1 57 130 80 1 2 57 180 95 2 2 59 150 80 1 1 59 150 80 1 2 1= HOMBRE 1= OBESO 2= MUJER 2= NO OBESO DocuWeb fabis.org 20 de 20