Unidad 6 Análisis de Correlación

50,797 views

Published on

Unidad 6 del curso "Una mirada a través del lente estadístico".

Published in: Education, Technology
8 Comments
8 Likes
Statistics
Notes
No Downloads
Views
Total views
50,797
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
874
Comments
8
Likes
8
Embeds 0
No embeds

No notes for slide

Unidad 6 Análisis de Correlación

  1. 1. 6. Análisis de correlación.  La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos  tenemos uno (George Bernard Shaw, escritor irlandés)      Objetivo de la Unidad:    Identificar  qué  es  una  correlación  así  como  los  elementos  que  intervienen en ésta.    6.1. Conceptualización de la correlación.    El  maestro  de  matemáticas  de  primero  de  secundaria  se  encuentra  en  un dilema, los alumnos de su grupo obtuvieron calificaciones muy bajas,  él no entiende a qué se debe, sin embargo cree que la principal razón es  que los alumnos no estudiaron el tiempo necesario para el examen….  ¿Será cierto esto? ¿Habrá una relación entre las horas de estudio de los  alumnos  y  las  calificaciones  que  obtuvieron?  ¿Si  hay  una  relación,  de  qué  tan  fuerte  es?  ¿Es  posible demostrar si existe una relación entre estas variables?  Lo  que  el  profesor  busca  es  saber  es  si  existe  una  relación  entre  las  horas  de  estudio  y  las  calificaciones  de  los  alumnos.  Esto  puede  ser  el  ejemplo  de  una  correlación…  Si  la  hipótesis  del  profesor fuera correcta, es decir, si existiera una correlación entre horas de estudio y calificación  obtenida entonces….    A más horas de  Mayor  estudio…  calificación  A menos horas de  Menor  estudio…  calificación.    A menudo encontramos relaciones entre dos o más variables en la vida diaria.  Así, si una persona  es jugador de baloncesto, pensamos que probablemente será muy alta, o si alguien tiene un alto  coeficiente  intelectual  pensamos  que  probablemente  obtiene  buenas  calificaciones  en  matemáticas y, en general, en el resto de materias. Asimismo, tendemos a pensar que entre más  alta sea una persona más pesará.  Es decir, establecemos que existen relaciones entre diferentes  variables    llegando  a  intuir,  incluso,  cuándo  ésta  relación  es  muy  fuerte  (el  caso  del  jugador  de 
  2. 2. baloncesto  y  la  altura),  o es  más  débil  (si  supusiéramos  que  entre  mayor  coeficiente  intelectual,  más  rápido  encontrará  trabajo),  o  incluso  podemos  pensar  que  no  existe  ninguna  relación  (las  personas altas tienen mayor coeficiente intelectual que las bajas).  La  pregunta  a  la  que  trataremos  de  responder  en  este  tema  son:  ¿En  qué  medida  están  relacionadas dos variables? ¿Cómo es la relación de estas dos variables? Conociendo el valor de  una de ellas buscaremos responder a la pregunta ¿Hasta qué punto puedo predecir el valor de la  otra? (esta última pregunta se buscará responder en la siguiente unidad).  Cuando  intentamos  medir  esa  relación,  decimos  que  estamos  midiendo  la  correlación  entre  las  variables. Si se trata de dos variables solamente, decimos que estudiamos una correlación simple,  y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple. La  estadística  descriptiva  bivariada  (de  dos  variables)  aborda  el  estudio  de  los  sucesos  en  los  que  intervienen dos variables simultáneamente.  La correlación se define cómo:  a. “El grado de relación o asociación entre dos variables” (Hopkins, et al.,  1997).  b. “Las propiedades, cálculos y uso de una medida de relación entre dos  variables” (Young, R. y Veldman, D., 1977).  c. El grado y forma de relación entre dos variables.    La correlación bivariada se define cómo: Relación existente entre dos variables.  La correlación múltiple se define cómo: Relación existente entre más de dos  variables.       
  3. 3. El siguiente esquema muestra los distintos tipos de correlación que pueden existir.    Resuelve el ejercicio 1 antes de continuar leyendo         
  4. 4. 6.2. ¿Cómo medimos la correlación entre dos variables?  Existen  dos  formas  de  medir  o  cuantificar  el  grado  de  relación  entre  dos  variables:  el  “método  gráfico” y el “método analítico”.  6.2.1. Método gráfico.  A  este  método  se  le  conoce  como  “gráfica  de  dispersión”,  “dispersigrama”  o  “nube  de  puntos”.  Este método consiste en graficar por medio de puntos, los valores correspondientes a las variables  “A”  y  “B”  para  cada  uno  de  los  sujetos analizados.  La  “gráfica  de  dispersión” puede  ser  definida  como “una gráfica de pares de valores X y Y” (Pagano, 2006).  ¿Cómo se hace una gráfica de dispersión? Después de dibujar sus ejes X y Y, asigne a cada uno de  ellos una variable “A” (en el eje de las X’s) y “B” (en el eje de las Y’s). Tome los valores de “A” y “B”  de un sujeto “K”. Localice el valor del sujeto “K” para la variable “A” y trace una línea imaginaria  vertical. Localice el valor del sujeto “K” para la variable “B” y trace una línea imaginaria horizontal.  Busque la intersección de las dos líneas y marque con un punto. Repita lo anterior para los demás  sujetos a analizar.  Si  observamos  la  forma  de  la  gráfica,  podemos  deducir  porqué  es  que  se  le  llama  “nube  de  puntos”.  Es  de  suma  importancia  hacer  una  “gráfica  de  dispersión”  cuando  se  busca  hacer  una  correlación bivariada con el fin de observar cómo se distribuyen los puntos.  Si trazamos una línea imaginaria que cruce a través de los puntos formando un patrón (una línea,  una curva, etc.) podemos tratar de intuir la fuerza y la forma de la correlación. Mientras los puntos  dibujados  se  acerquen  más  a  la  línea  trazada  imaginariamente  indicaría  que  existe  una  mayor 
  5. 5. correlación entre los datos y viceversa, entre menos se acerquen los puntos dibujados a la línea  trazada imaginariamente, indicaría que existe un poco correlación entre dos datos.   
  6. 6.   No se nota ningún tipo de patrón  por lo que no hay relación entre las  dos variables.       
  7. 7. 6.2.2. Método analítico.  El  “método  analítico”  involucra  a  las  ecuaciones  matemáticas.  ¡No  te  preocupes,  no  hay  que  alarmarse!  En  este  curso  sólo  revisaremos  una  de  estas  (la  más  famosa  y  utilizada),  la  de  Karl  Peason  conocida  como  “producto  momento  de  Pearson”  y  como  su  nombre  lo  indica,  arroja  un  producto conocido como r de Pearson cuando se habla de muestras y como ρ de Pearson cuando  hablamos  de  poblaciones  (recordemos  que  el  símbolo  ρ  proviene  del  alfabeto  griego  y  corresponde a la r latina). Este coeficiente analiza la relación bivariada (dos variables) lineal. La r  de  Pearson  puede  ir  de  ‐1  a  +1  pasando  por  “0”.  En  una  sección  posterior  de  este  capítulo,  analizaremos cómo es que interpreta este coeficiente.  Kart Pearson fue el inventor del coeficiente r de Pearson. Kart lo diseñó con el fin de comprobar  hipótesis en el campo de la Biología. Fue tan famoso y útil el coeficiente que se extendió su uso en  todas las ciencias empíricas (incluidas las ciencias sociales). Su fórmula es:  NΣXY ΣX ΣY r     NΣX ΣX NΣY ΣY En donde:  a. N es el número de sujetos correlacionar.  b. ΣX y ΣY es la suma de los datos de X y de Y respectivamente.  c. ΣX2 y ΣY2 es la suma de los datos elevados al cuadrado de X y Y respectivamente.  Este “producto momento de Pearson” tiene tres requisitos que estudiaremos a continuación:  a. Variables continuas (de intervalo, razón).  b. Existencia de relación lineal entre las variables.  c. Homoscedasticidad.  6.2.3. Requisito para el análisis de correlación de Pearson.  a. Variables Continuas.  Este requisito es muy simple. Simplemente piensa en qué tipo de variable puede graficarse en una  “gráfica de dispersión”. Una variable de intervalo, de razón pueden graficarse en una “gráfica de  dispersión” (si tienes duda de los tipos de variables, consulta el capítulo X). Las variables que no  pueden ser graficado en una “gráfica de dispersión” son el nominal (o categórico) y el ordinal. Si  tienes  variables  continuas,  cumples  con  el  primer  requisito  para  usar  el  “producto  momento  de  Pearson”.  b. Relación lineal.  A este requisito de la correlación bivariada de Pearson se le llama relación lineal porque nos habla  de  que  es  necesario  que  la  forma  en  que  estén  relacionadas  las  dos  variables  sea  de  una  forma  “lineal”,  es  decir  que  si  graficamos  las  variables  en  una  “gráfica  de  dispersión”,  deberíamos  observar  cómo  es  que  la  “nube  de  puntos”  forma  un  patrón  de  “línea  recta”.  Esta  línea  recta 
  8. 8. puede  indicarnos  una  relación  “directamente”  (positiva)  o  “inversamente”  (negativa)  proporcional. ¿Qué significa esto?    Como ya hemos mencionado, es muy fácil encontrarnos en la vida diaria frente a situaciones que  “están  relacionadas”.  En  la  escuela  suponemos  que  una  persona  “inteligente”  tendrá  altas  calificaciones. Cuando hacemos ejercicio sabemos que entre más esfuerzo y tiempo dediquemos,  al final estaremos más cansados. Otras posibles relaciones serían:  A mayor dinero en la cartera más posibilidades de compra.  A más lejano el destino mayor será el número de caminos posibles a tomar.  A mayor número de ofertas en una tienda mayor número de consumidores.  A mayor número de horas dedicadas al estudio, mayor calificación.  A menor peso en un avión, menor será combustible a utilizar.  A menor capacidad del USB, menor es el número de cosas que puedes grabar en él.  Todas  estas  relaciones  son  “directamente  proporcionales”  (relación  positiva),  esto  quiere  decir  que conforme más dinero tengo en la cartera (A), más posibilidades de compra tengo (B). De una  misma  forma,  entre  menos  capacidad  de  memoria  tenga  mi  USB  (A),  el  número  de  cosas  que  puedo grabar en él será menor (B). Con esto vemos que una relación “directamente proporcional”  (o positiva) se da cuando una variable “A” aumenta al mismo tiempo en que lo hace una variable  “B” (o viceversa). De una misma forma,  cuando una variable “A” disminuye al mismo tiempo que  lo  hace  una  variable  “B”  (o  viceversa),  decimos  que  nos  encontramos  frente  a  una  relación  “directamente proporcional” (o positiva).   
  9. 9.   Por  otra  parte  podemos  hablar  de  las  relaciones  “inversamente  proporcionales”  (o  negativas).  A  diferencia de la relación “directamente proporcional” en donde mientras la variable “A” aumenta  o disminuye decimos que “B” aumenta o disminuye, una relación “inversamente proporcional” (o  negativa) es, como su nombre lo indica, inversa: Mientras la variable “A” aumenta, la variable “B”  debe disminuir (o viceversa), asimismo si la variable “A” disminuye, la variable “B” debe aumentar  (o viceversa). ¿Dónde podemos ver esto en la vida diaria?  Entre más agua beba, tendré menos sed.  A menor cansancio mayor actividad.  A menor edad mayor condición física.  A mayor contaminación ambiental, menor calidad de vida.  A menor número de clientes, el servicio podrá ser más personalizado.  A menor número de mascotas, mayor será limpieza en el hogar.  A mayor confusión al hacer algo, menor eficiencia. 
  10. 10.   Es  muy  importante  mencionar  que  existen  relaciones  no  lineales.  Para  su  análisis  estadístico  (forma  y  grado  de  relación),  es  necesario  utilizar  otros  tipos  de  coeficientes  de  correlación  distintos  a  Pearson.  ¿Qué  puede  ser  una  relación  no  lineal?  Cuando  nacemos  poseemos  poca  capacidad de memoria. Entre más avanza nuestra vida más poseemos más capacidad de memoria.  Sin embargo los años no pasan en balde. Llega una cierta edad en que en lugar de adquirir más  memoria,  la  vamos  perdiendo  poco  a  poco.  Esta  relación  edad‐memoria  se  vería  de  la  siguiente  forma:    En la gráfica podemos observar cómo es que en una temprana edad podemos afirmar que existe  una  aparente  relación  directamente  proporcional  (o  positiva).  Sin  embargo  llega  la  vejez  y  esta  relación  positiva  cambia  a  una  relación  inversamente  proporcional  (o  negativa).  Podríamos  ver  cómo  la  “nube  de  puntos”  forma  una  curva  y  no  una  línea  recta.  Si  utilizáramos  el  “producto  momento  de  Pearson”  probablemente  nos  encontraríamos  en  la  situación  de  que  el  coeficiente  que  arroja  anularía  la  posibilidad  de  relación.  En  parte  esto  es  cierto,  anula  la  posibilidad  de  relación  lineal  mas  no  anula  la  posibilidad  de  relación  de  otro  tipo.  Otros  tipos  de  relaciones 
  11. 11. pueden ser: curvilineas, exponenciales, logarítimicas, en fin, mientras exista un patrón claro y una  tendencia, se puede hablar de que existe una relación entre las variables.    c. Homoscedasticidad.  Se refiere a que exista aproximadamente la misma desviación de los puntos a lo largo de la línea  imaginaria.   En una gráfica, para poder muestra homoscedasticidad, sólo basta con observar si la dispersión de  los puntos forma un cigarro.  Ejemplo:         
  12. 12. En las siguientes gráficas no hay homoscedasticidad.    Resuelve el ejercicio 2 antes de continuar leyendo    6.3. ¿Cómo interpretar el coeficiente r de Pearson?  Como ya mencionamos, el coeficiente r de Pearson consta de dos partes, un signo positivo (+) o  negativo (‐) y un número (de 0 a 1). Si quieres interpretar una r de Pearson, debes:  a. Separa el signo de la cifra (te dan informaciones diferentes pero complementarias).  b. El  signo  indica  la  dirección  de  la  correlación,  positiva  o  directamente  proporcional  (a  mayor A mayor B o a menor B menor A) y negativa o inversamente proporcional (a menor  A mayor B o viceversa). 
  13. 13. c. La cifra te indica la “fuerza de la correlación”. Una correlación perfecta tendría una cifra  cercana al 1, mientras que una ausencia de correlación tendría una cifra cercana al 0.  En el gráfico X podemos observar cómo se representa lo anterior. La cifra indica la “fuerza de la  correlación”, mientras que el signo indica la dirección de la correlación.    Ahora bien, ¿qué es una “correlación perfecta” (r=+1, ‐1)? Es aquella correlación donde todos los  puntos que marcamos en la “gráfica de dispersión” se encuentran sobre la recta imaginaria (véase  la gráfica X). Encontrar esto en una investigación es muy raro, por lo que coeficientes cercanos a 1  son considerados como coeficientes “fuertes”.  Por otra parte, ¿qué es una “correlación nula” (r=0)? Es aquella correlación donde ninguno de los  puntos  que  marcamos  en  la  “gráfica  de  dispersión”  se  encuentra  cerca  de  la  recta  imaginaria  (véase  la  gráfica  X).  Podríamos  decir  que  la  gráfica  se  vería  como  si  disparáramos  perdigones  contra  una  pared.    Nuevamente,  encontrar  esto  en  una  investigación  es  muy  raro,  por  lo  que  coeficientes cercanos a 0 son considerados como coeficientes “nulos”.  Se podría decir que una1:  a. r= +1, ‐1 es la más fuerte que puede existir.  b. r= +0.70, ‐0.70 es una correlación fuerte.  c. r= +0.50, ‐0.50 es una correlación media.  d. r= +0.30, ‐0.30 es una correlación débil.  e. r= 0 es una correlación nula o inexistente.                                                                 1 Para este curso se opta por hacer esta clasificación de los coeficientes de correlación sin embargo es necesario señalar que entre más grande sea el tamaño de la muestra se admiten coeficientes más pequeños y viceversa, entre más pequeño sea el tamaño de la muestra se requieren coeficientes más grandes. Este tema involucra el concepto de significancia estadística que no tratamos en este curso pero que puedes conocerlo en algunos de los textos de las referencias que este libro utiliza.
  14. 14. Resuelve el ejercicio 3 antes de continuar leyendo      6.4. ¿Relación o Causalidad?  La  correlación,  como  su  nombre  lo  indica,  busca  analizar  si  existe  una  relación,  en  qué  medida  existe la relación y de qué forma están relacionadas dos variables. Si sabemos que una variable A,  es causa de una variable B, lógicamente estarán correlacionas de alguna forma (lineal, curvilínea,  etcétera).  Sin  embargo,  esta  premisa  no  se  aplica  de  forma  inversa,  estos  es:  que  cuando  exista  una relación entre la variable A y la variable B no se puede afirmar tan “a la ligera” que A produce  B. ¿Por qué? Muchas veces vemos fenómenos que van de la mano uno con el otro. Por ejemplo: si  midiésemos el tamaño de una tienda y al mismo tiempo contáramos el número de personas que  compran en ella, tal vez al correlacionarlas podríamos observar una correlación fuerte y positiva.  Sin embargo  no sería lógico afirmar que el  tamaño  de una tienda es lo que hace que  halla o  no  clientes  en  ella.  Existen  mil  y  un  variables  que  afectan  la  popularidad  de  una  tienda,  desde  el  prestigio de la marca hasta sus precios o su ubicación.  Es importante aclarar que la correlación es un primer análisis que da pie a otros posteriores que  apoyan que una variable A sea causa de B. Para dar una “probadita” de uno de estos análisis que  sugieren  la  causalidad  de  B  debido  a  A,  haremos  una  breve  referencia  al  “coeficiente  de  determinación”  (también  conocido  con  los  nombres  de  “varianza  explicada/atribuida”,  o  “reducción proporcional al error”).  Este coeficiente suele representarse por r2 y se obtiene elevando al cuadrado la “r de Pearson”.  Este  es  un  segundo  paso  que  permite  afirmar  que  A  explica  el  X%  de  B.  Es  más  que  necesario  mencionar  que  si  es  necesario  un  sustento  teórico  de  una  relación,  la  existencia  de  un  sustento  teórico  en  el  “coeficiente  de  determinación”  también  debe  existir.  Por  ejemplo,  si  medimos  el  número  de  fábricas  y  la  contaminación  de  varias  ciudades  alrededor  del  mundo  y  las  correlacionamos  podríamos  observar  una  correlación  fuerte  y  positiva,  digamos  que  obtenemos  una r=+0.91.  Si eleváramos al cuadrado la r (0.91X0.91), tenemos un coeficiente de determinación  de r2=0.8281 que indicaría que la existencia de fábricas explica el 82.81% de la contaminación de  una ciudad.     
  15. 15. 6.5. Correlación imaginaria o espuria.  Resuelve el ejercicio 4 antes de continuar leyendo    Resuelve el ejercicio 5 antes de continuar leyendo     

×