Introducción a la Estadística. Tema 4
Upcoming SlideShare
Loading in...5
×
 

Introducción a la Estadística. Tema 4

on

  • 12,698 views

Introducción al análisis de correlación y al análisis de regresión lineal simple. Se presentan los conceptos de covarianza, correlación y de recta de regresión

Introducción al análisis de correlación y al análisis de regresión lineal simple. Se presentan los conceptos de covarianza, correlación y de recta de regresión

Statistics

Views

Total Views
12,698
Views on SlideShare
9,411
Embed Views
3,287

Actions

Likes
4
Downloads
387
Comments
0

10 Embeds 3,287

http://www1.uprh.edu 2286
http://www.uprh.edu 706
http://administraciondelacalidaddued.blogspot.com 143
http://administraciondelacalidaddued.blogspot.mx 115
http://www.slideshare.net 18
http://administraciondelacalidaddued.blogspot.com.es 11
http://administraciondelacalidaddued.blogspot.com.ar 4
http://translate.googleusercontent.com 2
http://www.google.com.mx 1
http://administraciondelacalidaddued.blogspot.gr 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Introducción a la Estadística. Tema 4 Introducción a la Estadística. Tema 4 Presentation Transcript

  • TEMA 4 ANÁLISIS DE CORRELACIÓN Y DE REGRESIÓN LINEALES
  • ÍNDICE DEL TEMA 4
    • INTRODUCCIÓN
    • ANÁLISIS DE CORRELACIÓN LINEAL
      • Objetivos
      • El diagrama de dispersión
      • El coeficiente de correlación
      • La covarianza
    • ANÁLISIS DE REGRESIÓN LINEAL
      • Objetivos
      • El criterio de mínimos cuadrados
      • Análisis de la variación total
      • El coeficiente de determinación
      • Predicción con la recta de regresión
  • INTRODUCCIÓN
    • El análisis de correlación lineal (ACL) y el análisis de regresión lineal (ARL) forman la pareja de técnicas más “populares” para estudiar la existencia de una relación lineal entre dos variables de naturaleza cuantitativa .
    • Sus objetivos , aunque complementarios, son diferentes .
  • INTRODUCCIÓN (II)
    • El ACL estudia la intensidad y la dirección de la relación lineal entre dos variables de naturaleza cuantitativa. ¿En qué medida y dirección están relacionados de modo lineal el gasto en publicidad y las ventas de una empresa?
    • El ARL ayuda en la predicción de los valores de una variable cuantitativa (llamada dependiente) cuando se conoce el valor de otra variable cuantitativa (llamada independiente) con la que tiene una relación de tipo lineal. ¿Cuánto venderá una empresa que gasta 83.000 euros en publicidad?
  • ANÁLISIS DE CORRELACIÓN
    • El análisis de correlación lineal estudia la intensidad y la dirección de la asociación lineal entre dos variables de naturaleza cuantitativa.
    • ¿Existe una relación lineal entre el coeficiente intelectual de una persona y sus ingresos?
  • ANÁLISIS DE CORRELACIÓN (II)
    • El proceso para determinar el grado de relación lineal se puede resumir en los siguientes pasos:
      • Elaboración del diagrama de dispersión .
      • Inspección del diagrama en busca de una relación lineal.
      • Cálculo de la covarianza entre las dos variables
      • Cálculo de las desviaciones estándar
      • Cálculo del coeficiente de correlación
  • DIAGRAMA DE DISPERSIÓN
    • Consiste en la representación en ejes de coordenadas de los puntos correspondientes a los pares de valores de cada individuo.
    • Es indiferente qué variable representemos en abscisas y qué variable en ordenadas. En el análisis de correlación se da una simetría entre las dos variables. No cabe hablar, por tanto, de variable dependiente o independiente.
  • DIAGRAMA DE DISPERSIÓN (II)
  • INSPECCIÓN DEL DIAGRAMA
    • La relación entre dos variables cuantitativas puede ser de naturaleza no lineal, por ejemplo cuadrática , cúbica , logarítmica , etcétera.
    • El análisis de correlación lineal sólo debe aplicarse cuando de la inspección del diagrama de dispersión se pueda deducir la existencia de una relación lineal.
    • En caso contrario habrá que proceder a transformaciones en las variables.
  • CÁLCULO DE LA COVARIANZA
    • La covarianza es una medida del grado en que dos variables cuantitativas evolucionan paralelamente.
      • Si cuando la primera variable toma valores altos la segunda también lo hace y cuando la primera toma valores bajos la segunda también lo hace, tendremos una covarianza positiva .
      • Si cuando la primera variable toma valores altos la segunda toma valores bajos y cuando la primera toma valores bajos la segunda toma valores altos , tendremos una covarianza negativa .
      • Si cuando la primera variable toma valores altos la segunda toma valores tanto altos como bajos y lo mismo ocurre cuando la primera variable toma valores bajos, tendremos una covarianza cercana a cero .
  • CÁLCULO DE LA COVARIANZA (II)
  • CÁLCULO DE LA COVARIANZA (III)
    • Problemas de la covarianza:
      • Unidades : ¿en qué unidades está medida?
      • No está acotada : Puede tomar cualquier valor real.
    ¡Qué bien! Tengo una covarianza de 617.514 euros al cuadrado entre ventas y publicidad.
  • EL COEFICIENTE DE CORRELACIÓN
    • Surge ante los problemas que plantea la covarianza.
    • Se designa con la letra griega ( )
    • Ventajas:
      • Carece de unidades
      • Está acotado
  • EL COEFICIENTE DE CORRELACIÓN (II)
  • EL COEFICIENTE DE CORRELACIÓN (III)
    • Si el coeficiente de correlación vale -1 estamos ante una relación lineal perfecta e inversa entre las dos variables.
    ¡Cuidado!: la pendiente no es necesariamente -1
  • EL COEFICIENTE DE CORRELACIÓN (IV)
    • Si el coeficiente de correlación vale +1 estamos ante una relación lineal perfecta y directa entre las dos variables.
    ¡Cuidado!: la pendiente no es necesariamente +1
  • EL COEFICIENTE DE CORRELACIÓN (V)
    • Si el coeficiente de correlación vale 0 no existe relación lineal entre las dos variables.
  • EL COEFICIENTE DE CORRELACIÓN (VI)
    • Los valores extremos (0, -1 y +1) son fácilmente interpretables pero ¿ cómo de grande (en valor absoluto) debe ser el coeficiente de correlación para poder afirmar que existe una relación lineal entre dos variables cuantitativas ?
    • Depende :
      • De la situación exploratoria o concluyente
      • Del tipo de variables estudiado
  • ANÁLISIS DE REGRESIÓN
    • El ARL es una herramienta que persigue ayudar en la predicción de los valores de una variable cuantitativa supuestos conocidos los valores de otra variable cuantitativa con la que la primera tiene una relación de tipo lineal .
  • PREDICCIÓN
    • En situación de incertidumbre : No podemos asignar una distribución de probabilidad a los distintos estados de naturaleza . Si queremos predecir la única estrategia posible es generar un número aleatorio .
    • En situación de riesgo : No sabemos cuál es el estado de naturaleza pero al menos somos capaces de asignar una distribución de probabilidad a los distintos estados posibles. En este caso, nuestra mejor predicción vendrá dada por la media de la distribución de probabilidad
  • PREDICCIÓN (II)
    • “ ¿Cuánto pesa un ente?” exige una estimación en situación de incertidumbre . No sabemos qué es un ente y, en consecuencia, no tenemos ninguna idea de cuánto puede pesar.
    Digamos que...mmm... ¿32 miligramos?
  • PREDICCIÓN (III)
    • “ ¿Cuánto pesa un ser humano?” supone una estimación en situación de riesgo . Al menos sabemos que los seres humanos pesan alrededor de 75 kgrs. con una cierta dispersión alrededor de este valor.
    La media son 75 kilos. Creo que lo más acertado es que diga 75 kilos
  • PREDICCIÓN (IV)
    • En situación de riesgo es muy razonable pedir más información , cuyo objetivo no es otro que reducir la dispersión.
      • En una población con dispersión cero (esto es, en la que todos los individuos son iguales) la media sería una estimación perfecta en todos los casos.
      • En una población muy heterogénea (con gran varianza) la estimación basada en la media llevaría implícito un elevado riesgo de error.
    • Esa información adicional puede venir dada por preguntas como:
      • ¿Es un hombre o una mujer?
      • ¿Cuánto mide?
  • PREDICCIÓN (V)
    • Preguntamos si es hombre o mujer porque sospechamos que dentro de cada género la variabilidad en el peso es menor que en el conjunto de seres humanos.
    • Preguntamos cuánto mide porque entre los seres humanos que tienen una determinada altura la variabilidad en el peso es menor que en el conjunto, o sea, porque sospechamos o sabemos que existe una relación (a lo mejor de tipo lineal) entre la altura y el peso de los seres humanos y vamos a aprovechar la existencia de esa relación para que, conociendo la altura, seamos capaces de estimar el peso con un riesgo menor.
    TRATAMOS DE REDUCIR VARIABILIDAD
  • DIAGRAMA DE DISPERSIÓN
    • Partimos del diagrama de dispersión (igual que en ACL), pero hemos de distinguir entre:
      • Variable dependiente : la que queremos predecir.
      • Variable independiente : la que nos va a servir para predecir.
    • Situaremos la variable dependiente en ordenadas (Y) y la independiente en abscisas (X) .
  • RECTA DE REGRESIÓN
    • Sobre el diagrama de dispersión vamos a trazar la recta que “mejor” se ajuste a la nube de puntos; la recta que, en conjunto, minimice su distancia al conjunto de puntos.
    • El criterio empleado para definir la “mejor” recta es el de los mínimos cuadrados.
  • RECTA DE REGRESIÓN (II)
    • La recta escogida será la que minimice la expresión:
    • con:
  • RECTA DE REGRESIÓN (III) Valor observado Valor estimado por la recta
  • RECTA DE REGRESIÓN (IV)
  • RECTA DE REGRESIÓN (V)
    • Los valores de A y B vienen dados por las expresiones:
  • ANÁLISIS DE LA VARIACIÓN TOTAL
    • Si no empleáramos la recta para predecir, utilizaríamos la media y, para cada observación, cometeríamos un error...
    • En cambio, si empleamos la recta, para cada observación cometemos un error
  • ANÁLISIS DE LA VARIACIÓN TOTAL (II)
    • Para cada observación podemos hacer...
    • Elevando al cuadrado y sumando para todas las observaciones...
  • ANÁLISIS DE LA VARIACIÓN TOTAL (III)
    • El tercer sumando se hace nulo y la expresión queda...
    • El primer miembro es la variación total y es una medida de la variabilidad de la variable a predecir respecto a su media. ¿No se parece a algo ya visto?
    • El segundo sumando del segundo miembro es la variación no explicada. Es lo que hemos minimizado con la recta de regresión.
    • El primer sumando del segundo miembro es la variación explicada .
  • ANÁLISIS DE LA VARIACIÓN TOTAL (IV)
    • En consecuencia, la recta de regresión es la que MAXIMIZA la variación explicada o lo que es lo mismo...
    • La recta de regresión es la que consigue eliminar una mayor proporción de la variabilidad original de la variable a predecir. Reducimos al máximo el riesgo en la predicción.
    Esto era lo que estábamos buscando, ¿no?
  • COEFICIENTE DE DETERMINACIÓN
    • A la proporción de variabilidad eliminada por la recta de regresión se le llama coeficiente de determinación (R 2 )
    • Como es una proporción, toma valores entre 0 y 1
  • COEFICIENTE DE DETERMINACIÓN (II)
    • Coincide con el cuadrado del coeficiente de correlación.
      • Cuando el coeficiente de correlación es +1 o -1 , la relación lineal es perfecta y la recta de regresión consigue eliminar toda la variabilidad de la variable a estimar, en consecuencia R 2 =1.
      • Cuando el coeficiente de correlación es 0 , no existe relación lineal entre las variables. En consecuencia, el conocimiento de la variable independiente no ayuda a estimar la variable dependiente y la recta de regresión no consigue eliminar nada de la variación total . Así, R 2 =0
  • ¿Cómo estimo sin la recta de regresión? ¿Cuánto pesa un individuo? 82,28 Kg. (el peso promedio del conjunto de individuos) ¿Me equivoco? Seguro, el riesgo en la predicción es mayor cuanto mayor sea la varianza del peso, que en este caso es 145,63 Kg 2
  • ¿Cómo estimo con la recta de regresión? ¿Cuánto pesa un individuo que mide 186 cm. ? 1,243x186-141,98=89,218 ¿Me equivoco? Seguro, pero corres menos riesgo que si no conocieras su altura. De hecho, has reducido la variabilidad del peso en un 86,34%