• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Introducción a la Estadística. Tema3
 

Introducción a la Estadística. Tema3

on

  • 6,997 views

 

Statistics

Views

Total Views
6,997
Views on SlideShare
6,975
Embed Views
22

Actions

Likes
0
Downloads
83
Comments
0

1 Embed 22

http://www.slideshare.net 22

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Introducción a la Estadística. Tema3 Introducción a la Estadística. Tema3 Presentation Transcript

    • TEMA 3 ESTADÍSTICA DESCRIPTIVA PARA DOS VARIABLES CUALITATIVAS
    • Índice del tema 3
      • Objetivo del análisis de tablas de contingencia
      • Distribución conjunta de frecuencias
      • Modelo observado
      • Hipótesis de independencia y modelo esperado
      • Modelos de residuos (brutos y estandarizados)
      • La distribución Chi cuadrado
    • Objetivo del análisis de tablas de contingencia
      • Estudiar la posible existencia de ASOCIACIÓN entre dos variables de naturaleza cualitativa.
      • Ejemplo: ¿Existe relación entre el barrio de residencia y la clase social de las personas?
    • Distribución conjunta de frecuencias
      • Para estudiar dos variables cualitativas podemos hacerlo:
        • Individualmente : Con las frecuencias absolutas o relativas (frecuencias marginales)
        • Globalmente : Con la distribución conjunta de frecuencias
    • Distribución conjunta de frecuencias (II)
      • La distribución conjunta contiene más información que las distribuciones individuales (o marginales).
      • Recuerda que a partir de la distribución conjunta podemos obtener las distribuciones marginales pero la afirmación recíproca no es cierta
    • Distribución conjunta de frecuencias (III)
      • La distribución conjunta de frecuencias de dos variables cualitativas es una matriz de doble entrada o tabla de contingencia con r filas y c columnas. ¡Ojo!: no confundirla con la tabla de datos.
      VARIABLE CUALITATIVA B c modalidades VARIABLE CUALITATIVA A r modalidades
    • Distribución conjunta de frecuencias (IV) Distribución conjunta VARIABLE CUALITATIVA B c modalidades VARIABLE CUALITATIVA A r modalidades Pies Manos Distribuciones marginales
    • Proceso en el análisis de tablas de contingencia Modelo observado Modelo de residuos brutos Modelo de resi- duos estandarizados Modelo esperado Cálculo del Estad. de contraste (EC) Comparación con las tablas de la Chi-cuadrado ¿Existe asociación? ¿Qué celdas contribuyen más? FIN SÍ NO
    • El modelo observado
      • Es la distribución conjunta de frecuencias que hemos obtenido en nuestro conjunto de individuos para las dos variables analizadas. Es otra forma de referirse a la tabla de contingencia de la que partimos antes de comenzar el análisis.
      representa la frecuencia observada simultáneamente en la modalidad i-ésima de la primera variable y en la j-ésima de la segunda variable.
    • El modelo esperado ¿¿Esperado?? ¿Bajo que supuesto?
    • El modelo esperado
      • Es la distribución conjunta que esperaríamos observar si las variables estudiadas fueran perfectamente independientes entre sí.
    • El modelo esperado ¡Ya está!…Debo calcular lo que esperaría haberme encontrado si el barrio de residencia no tuviera nada que ver con la clase social
    • El modelo esperado
      • Es la distribución conjunta de frecuencias que esperaríamos obtener en caso de independencia perfecta entre las dos variables.
      representa la frecuencia esperada simultáneamente en la modalidad i-ésima de la primera variable y en la j-ésima de la segunda variable.
    • INDEPENDENCIA
      • El supuesto de partida es la INDEPENDENCIA .
      • Significa que la probabilidad de pertenencia a las modalidades de una cualquiera de las dos variables permanece constante para todas las modalidades de la otra variable , y viceversa.
      • Bajo el supuesto de independencia los perfiles-fila son iguales para todas las modalidades de la variable situada en filas (e iguales al perfil-fila global) y los perfiles-columna son iguales para todas las modalidades de la variable situada en columnas (e iguales al perfil-columna global).
    • INDEPENDENCIA O sea, bajo el supuesto de independencia es igual de probable ser pobre si vivo en el barrio A que si vivo en el barrio B o en el C. ¡Claro!, el barrio no tiene nada que ver con la clase social
    • INDEPENDENCIA
      • Además, mantendré mi supuesto de partida (mi hipótesis de independencia) salvo que exista ENORME EVIDENCIA en su contra.
      • Si no me queda más remedio (es decir, si existe enorme evidencia en contra de la independencia) aceptaré que existe ASOCIACIÓN entre las variables.
    • El modelo de residuos brutos
      • Mide la desviación positiva o negativa entre lo observado y lo esperado en cada celda de la tabla.
        • Un residuo positivo en una celda indica que se han observado más individuos en esa celda de los que cabría esperar si las variables fueran independientes.
        • Un residuo negativo en una celda indica que se han observado menos individuos en esa celda de los que cabría esperar si las variables fueran independientes
    • El modelo de residuos brutos
      • El residuo es la diferencia entre lo que se ha observado y lo que se esperaba haber observado, es decir
      • representa el residuo que existe en la modalidad i-ésima de la primera variable y j-ésima de la segunda.
    • El modelo de residuos brutos Pero, ¿son todos los residuos igualmente relevantes? OBVIAMENTE, NO
    • El modelo de residuos estandarizados
      • Los residuos brutos en una celda son tanto más relevantes cuanto menor es la frecuencia esperada en esa celda.
      • Por ese motivo los estandarizamos haciendo:
    • Cálculo del estadístico de contraste
      • El estadístico de contraste de Pearson se calcula elevando al cuadrado todos los residuos estandarizados y sumándolos .
      • ¡Ojo!: (a+b) 2 es distinto de a 2 +b 2 . O sea que no es lo mismo “sumar todo y luego elevar al cuadrado” que “elevar al cuadrado y luego sumar todo”. En este caso es la segunda opción.
    • El estadístico de contraste Entonces, EC es siempre no negativo , ¿no? Eso es. Al sumar cuadrados lo más pequeño que podemos obtener es un cero. El EC tomará valores entre cero e infinito.
    • ¿Existe asociación? Vale, vale, pero ¿existe ASOCIACIÓN? Intuitivamente vemos que un EC pequeño nos lleva a decir que no existe asociación -los residuos son pequeños- y un EC grande a decir que sí –residuos grandes-. Pero ¿qué se entiende por un EC grande?
    • ¿Existe asociación?
      • Lo que entendemos por un EC grande depende de dos cosas:
        • El tamaño de la tabla : Las filas “r” y las columnas “c” determinan los llamados grados de libertad, según la fórmula (r-1)x(c-1). Los grados de libertad expresan el número de celdas de la tabla de contingencia que se pueden fijar libremente. En tablas más grandes aceptaremos EC mayores.
        • El nivel de significación escogido : normalmente 0,05.
      ¿Qué es “nivel de significación”?. Lo veremos en el tema 8.
    • ¿Existe asociación? O sea, … tengo que comparar mi EC con el valor que aparece en las tablas de la Chi-cuadrado en la columna 0,05 y en la fila que corresponda a los grados de libertad, ¿no? Eso es, y si tu EC es mayor o igual que el valor de las tablas, no te quedará más remedio que aceptar que existe asociación. Si tu EC es más pequeño que el valor de las tablas podrás mantener tu hipótesis de independencia.
    • ¿Qué celdas contribuyen más a la asociación? Y en caso de que exista asociación , las celdas que contribuyen a ésta en mayor medida serán aquellas que tengan, en valor absoluto, los mayores residuos estandarizados , ¿no? ¡Exacto!
    • Una precaución final
      • La prueba de la Chi-cuadrado de Pearson se basa en la aproximación de una distribución binomial por una normal .
      • En caso de que exista alguna celda con un valor esperado menor que 5 , esta aproximación no resulta apropiada.
      • Si este hecho se produce será necesario colapsar unas modalidades en otras de modo que todas las celdas tengan una frecuencia esperada no inferior a 5.