Tema4 regresionycorrelacion
Upcoming SlideShare
Loading in...5
×
 

Tema4 regresionycorrelacion

on

  • 281 views

dfdg

dfdg

Statistics

Views

Total Views
281
Views on SlideShare
281
Embed Views
0

Actions

Likes
0
Downloads
8
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Tema4 regresionycorrelacion Tema4 regresionycorrelacion Document Transcript

  • TEMA 4: REGRESIÓN Y CORRELACIÓN. 4.1. Regresión y correlación lineal simple.................................................. 1 4.2. El método de los mínimos cuadrados y las ecuaciones normales. ........ 3 4.3. Regresión lineal: recta de regresión (mínimos cuadrados). ................. 4 4.3.1. Propiedades de las rectas de regresion. ........................................ 6 4.4. Regresión no lineal. ............................................................................. 6 4.4.1. Ajuste parabólico........................................................................... 6 4.4.2. Ajuste Hiperbólico. ........................................................................ 7 4.4.3. Ajuste Exponencial. ....................................................................... 8 4.4.4. Ajuste Potencial............................................................................. 8 4.5. El coeficiente de determinación correlación. El coeficiente de correlación lineal. ..................................................................................... 10 4.5.1. La varianza residual. Coeficiente de determinación. .................... 10 4.5.2. Valores del coeficiente de determinación. ................................... 12 4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de las rectas de regresión. .................................................................... 12 4.6. Predicción.......................................................................................... 15 4.1. Regresión y correlación lineal simple. Uno de los objetivos de toda ciencia es encontrar relaciones entre los hechos que estudia. Estas relaciones se traducen en expresiones matemáticas. Así si observamos varias veces el tiempo que tarda un móvil en recorrer una distancia y su velocidad (supuesto que se desplaza con velocidad uniforme), los valores observados están claramente relacionados y esa relación puede expresarse matemáticamente como v = s / t (v t = s). No obstante, existen otras variables como inflación y tipo de interés, oferta y demanda, ahorro y renta, etc., entre las que no cabe duda de que existe una relación, pero no existe una función matemática que verifiquen rigurosamente. Pues bien en el primero de los casos (tiempo y velocidad) diremos que existe una dependencia funcional, y en el segundo (inflación y tipo de interés) una dependencia estadística. La diferencia es que en la primera la relación entre las variables es estricta y perfecta, y en la segunda el modelo matemático al que lleguemos deberá aproximar la relación entre variables razonablemente, por lo que deberemos determinar su forma y contrastar su “bondad”. Las dependencias de tipo estadístico, son muy frecuentes en economía, y en general en todas las ciencias sociales. A las técnicas estadísticas utilizadas para determinar modelos o expresiones que relacionen el comportamiento de varias variables se les denomina técnicas de regresión. Previamente a la aplicación de técnicas de regresión, se requiere un análisis teórico, que relacione las variables objeto de estudio, que de consistencia al análisis estadístico: Este análisis es necesario porque es posible distinguir distintos tipos de dependencia entre variables: A) Al azar: a la vista de la información disponible se plantea una relación absurda entre variables. Ejemplo: los ciclos económicos y las manchas solares: Una de las teorías cíclicas mas atrevidas fue puesta sobre la mesa por Stanley Jewons a finales del siglo xix; esta (avanzada) teoría atribuía las causas ultimas del desarrollo de los ciclos económicos a la evolución de las manchas solares. DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 1-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. A este respecto jewons hizo notar que el sol tiene unos ciclos de actividad que, cuando están en su fase álgida, generan un mayor numero de manchas solares que inducen alteraciones meteorológicas en latierra; estos ciclos de actividad solar que – según lo calculado – tenían una duración media de 10,45 años y precisamente la misma duración media (10,46 años) que los ciclos económicos habidos entre 1.721 y 1.878, de acuerdo conlos cálculos de Jewons. Obviamente tal coincidencia en cuanto a la dimensión temporal de estos fenómenos, se debe a la casualidad, ya que la correlación, no tiene por que implicar necesariamente causalidad. Sin embargo Jewons pensó que la correlación entre los dos ciclos era demasiado estrecha para ser accidental, y en función de ello sugirió la causalidad generadora de los ciclos, es decir la evolución de la actividad solar, determinaría la evolución de la actividad económica. B) Una tercera variable influye sobre las dos variables consideradas: cuando dos variables se ponen en dependencia, se supone que una explicara el comportamiento de la otra, pero es posible que exista una tercera variable, que actúe como motor de esa relación. Así es evidente la relación entre consumo y ahorro de las familias, pero ello no implica que una explique la otra, ya que es una tercera variable (la renta), la que determina su relación. (no hay relación causa-efecto entre las dos primeras variables consideradas). C) Una variable influye en la otra: así por ejemplo el gasto en carne de una familia vendrá determinado (aunque no de modo exclusivo) por el numero de miembros de la unidad familiar. Si dos variables presentan una dependencia estadística, es decir, no funcional, no es posible encontrar una ecuación, tal que los valores que puedan presentar dichas variables la satisfagan. Gráficamente, equivale al hecho de que no es posible encontrar una función, tal que su grafica pase por todos los puntos correspondientes al diagrama de dispersión asociado a las variables observadas. 35 3 EDAD 30 25 1 20 15 10 5 0 30 40 50 60 2 70 80 90 100 PESO *el diagrama de dispersión consiste en representar gráficamente nuestros pares de observaciones (xi , yi). Representaremos en el eje de abcisas los posibles valores de una variable(x), en el eje de ordenada los posibles valores de la otra variable (y). Los puntos del grafico serán las intersecciones (xi , yi) obtenidas de nuestras observaciones. Al conjunto de puntos obtenido se le denomina nube de puntos. Ante la imposibilidad de encontrar una grafica que pase por todos los puntos de la nube, la función cuya grafica más se aproxime a los datos observados expresara mejor la relación entre los mismos. En nuestro ejemplo la función grafica (1) DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 2-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. expresa mejor la relación que la (2), pero si tenemos que decidir entre la (1) y la (3), la elección no seria tan elemental. Esto indica que el método grafico puede ser de gran ayuda, pero no es suficiente para determinar la mejor función, por ello recurriremos a métodos matemáticos, que no dependan de opiniones subjetivas. A la variable que se quiere predecir se le denomina dependiente o endógena y a la variable a partir de la cual queremos hacer la predicción, se le llama independiente, exógena o explicativa. Cuando solo utilicemos una variable independiente, estaremos ante la regresión y correlación simple. Si interviene más de una la regresión o correlación se denomina múltiple. Una de las aplicaciones mas interesantes de la regresión en economía es la de predecir, esto es, conociendo el valor de una de las variables, estimar el valor que presentara otra variable relacionada con la primera. Hay que advertir, que una relación estadística fuerte entre variables, no implica la existencia de una relación causa-efecto entre ellas. Por ejemplo existe una fuerte correlación entre el número de burros (de 4 patas) y el número de licenciados universitarios. Ello es fruto de la dependencia común de ambas variables de una tercera variable (el desarrollo económico industrial), sin que en ningún caso podamos afirmar que una es causa de la otra. 4.2. El método de los mínimos cuadrados y las ecuaciones normales. EDAD Hacer regresión, consiste en ajustar lo mejor posible una función a una serie de valores observados, gráficamente equivale a encontrar una curva (recta) que aunque no pase por todos los puntos de la nube, al menos este lo mas próxima posible a ellos. Supongamos que para poder predecir “y” en base al conocimiento de “x”, se ha ajustado una función que expresa de la mejor forma posible el comportamiento de “Y” en función de “X” (Y = f(X)): y=f(x) 35 30 25 20 15 10 5 0 30 40 50 60 70 80 90 100 PESO Pues bien utilizando la mencionada función, pronosticaríamos que si X= xi entonces ˆ la variable Y tendría una valor esperado y i = f ( x i ) . Este valor posiblemente no coincidirá con el que realmente ha presentado la variable Y, yi, de manera que en dicha predicción se habrá cometido un error; ˆ ei = y i − y i DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 3-15 View slide
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. Esta diferencia se denomina residuo, y nos da una medida del error cometido en el ajuste para cada punto del diagrama de dispersión. Un criterio para obtener un buen ajuste que evite que se compensen residuos de signo positivo con residuos de signo negativo y que sea manejable (algebraicamente), seria minimizar la suma de los cuadrados de los residuos, es decir, hacer mínima la suma: n n n i =1 i =1 i =1 ˆ ∑ ei2 = ∑ ( yi − yi ) 2 = ∑ ( yi − f ( xi )) 2 Este criterio de minimizar la suma de cuadrados es el conocido como criterio de mínimos cuadrados. Se puede observar que el desarrollo anterior consiste en la búsqueda de un procedimiento para medir la distancia de un conjunto finito de puntos a una curva. Las funciones que se ajustan con más frecuencia y sus ecuaciones generales, son: Recta: y = ax + b Parábola: y = a + bx + cx2 Polinomio de grado n : y = a + bx + cx2 + dx3 + ... + zxn Hipérbola equilátera: y = a + b/x Función potencial: y =axb Función exponencial: y = abx Curva logística: y = a/(1 + be-cx) Exponencial modificada: y = a + be cx Si la función es una recta, la regresión se denomina lineal. 4.3. Regresión lineal: recta de regresión (mínimos cuadrados). Vamos a encontrar entre todas las rectas, cuya ecuación general es y = a + bx, cual es la que según el método de mínimos cuadrados mejor se ajusta a los datos observados para una variable bidimensional (x, y). Conocido el valor xi de la variable X, el valor esperado de y será: ˆ y i = a +bxi, cometiéndose un error respecto del valor observado de ei = yi – a – bxi. El método de mínimos cuadrados, en el caso de la recta, trata de encontrar los coeficientes a y b que hagan mínima la expresión: S ( a, b ) = Σ ei2 = Σ( yi – a – bxi )2 Para que exista un mínimo en el punto (a0, b0) la condición necesaria, es que se anulen las derivadas parciales de primer orden en dicho punto, es decir: δS ( a0 , b0 ) = - 2 Σ( yi – a – bxi ) = 0 δa (1) δS( a0 , b0 ) = - 2 Σ( yi – a – bxi ) xi = 0 δb (2) DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 4-15 View slide
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. A las dos ecuaciones anteriores (1) y (2), se les denomina ecuaciones normales de la recta, y la solución del sistema que forman (sistema de 2 ecuaciones con dos incógnitas) será un punto (a0, b0) donde S(a,b) se hace mínima. Este sistema también lo podemos escribir como: Σ yi = n a + b Σxi Σ yi xi = a Σxi+ b Σxi2 Vamos a despejar los valores de a y b solución del sistema. Para ello dividimos las dos ecuaciones por n y nos encontramos con: ⎧ y = a + bx ⎨ ⎩a11 = ax + ba X 2 Despejando “a” de la primera ecuación: a = y − bx Y sustituyendo en la segunda ecuación: 2 a11 = ( y − bx ) x + ba X 2 = yx − bx 2 + ba X 2 = yx + b(a X 2 − x 2 ) = yx + bS X Si ahora despejamos “b” en esta expresión, tenemos; b= a11 − yx S XY = 2 2 SX SX Pues bien, si sustituimos los valores a y b que hemos calculado en la ecuación general de la recta (y=a+bx), obtenemos; y = (y − S S XY x ) + XY x 2 2 SX SX Que podemos expresar como; y− y = S XY (x − x) 2 SX A la expresión dentro del recuadro se le llama recta de regresión de Y/X. De modo análogo podríamos haber obtenido la recta de regresión de X/Y llegando a una expresión de la forma; DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 5-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. x−x = S XY ( y − y) S Y2 De las ecuaciones de las dos rectas de regresión se deduce que ambas pasan por el punto ( x , y ) , pudiéndose dar dos alternativas: que coincidan (sus pendientes deberán ser iguales) o que se corten solo en dicho punto. 4.3.1. Propiedades de las rectas de regresion. Propiedad 1: la suma de los residuos ei vale 0 (y por tanto su media también), esto es: Demostración: Σ ei = 0 Σ ei = Σ( yi – a – bxi ) = Σ yi - Σ a – b Σ xi= Σ yi - n a – b Σ xi = 0 Ya que a y b son solución de la primera ecuación del sistema. Propiedad 2: Si la dependencia existente entre las dos variables es funcional, las dos rectas de regresión son coincidentes. Propiedad 3: La covarianza de las variables Y y e vale 0. Sey= 0 Sey = a11 –a01 a10, y sabemos por la propiedad 1 que a10= 0, entonces bastará demostrar que a11 = 0 (sin demostración). 4.4. Regresión no lineal. Aunque la regresión lineal, tiene aplicación en muchos problemas, en algunos casos, la relación que liga las variables exige la utilización de ajustes no lineales. No obstante incluso en estas ultimas situaciones, por su sencillez, suele aplicarse la regresión lineal aprovechando el que casi toda función (curva) puede aproximarse por una recta en un pequeño dominio. 4.4.1. Ajuste parabólico. Si predecimos la variable y mediante una parábola de ecuación general y = a + b x + c x2 el valor esperado será: ˆ y i = a + b xi + c xi 2 ˆ Y el error cometido será: ei = yi - y i = yi – a - b xi - c xi 2. El método de mínimos cuadrados nos conduce a la parábola que hace mínima la función: S( a, b, c ) = Σ ei2 = Σ( yi – a – bxi - c xi 2)2 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 6-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. Para que esa función suma S(a,b,c,) alcance un mínimo, sus derivadas parciales deberán valer 0: (1) (2) (3) δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi 2) = 0 δa δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi δb δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi 2 2 ) xi = 0 ) xi2 = 0 δc Si dividimos las tres ecuaciones (sistema de ecuaciones normales) por n obtenemos un sistema de tres ecuaciones con tres incógnitas, cuya resolución nos proporcionara los coeficientes a, b, y c de nuestra parábola de ajuste: y = a + b x + c a20 a11 = a x + b a20+ c a30 a21 = a a20 + b a30+ c a40 Este tipo de ajuste se utiliza por ejemplo en microeconomía para la curva de costes marginales en función del volumen de producción (que tiene forma de “U”). Este ajuste se puede generalizar, si queremos ajustar por un polinomio de grado superior a 2, que tendrá una expresión general: y = b0 + b1 x + b2 x2 +.....+ bn xn El método de mínimos cuadrados nos conducirá a un sistema similar al anterior, pero con n ecuaciones y n incógnitas, cuya resolución nos proporcionara los valores de b0, b1, b2,....., bn 4.4.2. Ajuste Hiperbólico. Si predecimos la variable y mediante una hipérbola de ecuación general: y = a + b (1/x) El valor esperado será: ˆ yi = a + b (1/xi ) Y el error cometido será: ei = yi - ˆ y i = yi – a – b (1/ xi). El método de mínimos cuadrados nos conduce a la hipérbola que hace mínima la función: S( a, b ) = Σ ei2 = Σ( yi – a – b(1/xi ))2 Ahora podemos razonar de forma alternativa a la empleada hasta ahora definiendo la variable z = 1 /x con lo que transformamos la hipérbola en la recta y = a + bz obteniendo un sistema de ecuaciones normales: Σ yi = n a + b Σ(1/xi ) Σ yi (1/xi )= a Σ(1/xi )+ b Σ(1/xi2) DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 7-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. Que resolveremos de modo análogo al realizado en el ajuste lineal. Esta es una manera alternativa, pero podíamos haber efectuado el mismo razonamiento que para el ajuste parabólico. La curva de Engel que expresa la demanda de un bien en función de la renta, adopta en ocasiones la forma de una hipérbola equilátera. 4.4.3. Ajuste Exponencial. Si predecimos la variable y mediante una exponencial de ecuación general: y = a ebx El valor esperado será: ˆ y i = ae bx bx ˆ Y el error cometido será: ei = y i − y i = y i − ae i i Al igual que en el caso anterior tenemos dos alternativas: Bien obtener el mínimo de la función: S( a, b ) = Σ ei2 = Σ( yi – a – ebx )2 (Este método nos conduce a un sistema de ecuaciones imposible de resolver). O bien transforma la función exponencial en una función lineal. Esto se hace tomando logaritmos en la ecuación general. Nos decantamos por este procedimiento: Lny = Ln(ae bx ) = Lna + Lne bx = Lna + bx Llamando: Y = ln y ; A = ln a ; b=b ; x=x Podemos presentar la ecuación: Y=A+bx Cuyo sistema de ecuaciones normales seria: Σ ln yi = n Lna + b Σxi Σ xi ln yi = Lna Σxi + b Σxi2 4.4.4. Ajuste Potencial. Si predecimos la variable y mediante una potencial de ecuación general y = a xb el valor esperado será: Y el error cometido será: ei = ˆ y i = ax ib ˆ y i − y i = y i − ax ib Nuevamente tenemos dos alternativas: DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 8-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. A) Hacer mínima la suma de los cuadrados de los residuos (da lugar a un sistema de ecuaciones que no podemos resolver). B) Transformar la función en una función lineal (tomando logaritmos): Ln y =ln( a xb) = ln a + b lnx Llamando: Y = ln y ; A = ln a ; b=b ; X = ln x Podemos presentar la ecuación: Y=A+bX Cuyo sistema de ecuaciones normales seria: Σ ln yi = n Ln a + b Σln xi Σ lnxi ln yi = Lna Σlnxi + b Σ(ln xi)2 Ejercicio: ajustar a una función potencial y a una función exponencial, los siguientes datos: 2 4 3 1 Xi Yi 6 5 1 3 Para ajustar a una función potencial: A) y = a xb ⇒ ln y = ln a + b ln x⇒ Y= A + b X Para ajustar a una función exponencial: B) y = a ebx ⇒ ln y = ln a + bx ⇒ Y = A + b x Ampliamos nuestra tabla con los datos que faltan: Yi Ln xi Ln yi Lnxiln yi Xi ln yi Xi 2 6 0.693 1.79 1.24 3.58 4 5 1.386 1.61 2.23 6.44 3 1 1.099 0 0 0 1 3 0 1.099 0 1.099 10 Sumas 3.178 4.5 3.47 11.119 Xi2 4 16 9 1 30 (ln xi)2 0.48 1.92 1.21 0 3.61 a) FUNCION POTENCIAL: SLn x Ln y Ln x Ln y B = b = ------- = -0.0967 ; A= Ln a = Ln y- ------- Ln x = 1.202;a = Exp A=3.326 S2 Ln x S2 Ln x SUSTITUYENDO ESTOS COEFICIENTES EN y = a xb TENEMOS NUESTRA FUNCION DE AJUSTE POTENCIAL: Y = 3.326 X-0.0967 b) FUNCION EXPONENCIAL: S x Ln y Sx Ln y B = b = ------- = -0.0262 ; A= Ln a = Ln y - ------ x = 1.190 S2 x S2x a = Exp A=3.289 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 9-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. SUSTITUYENDO ESTOS COEFICIENTES EN y = a ebx TENEMOS NUESTRA FUNCION DE AJUSTE EXPONENCIAL: Y = 3.289 e-0.0262 X 4.5. El coeficiente correlación lineal. de determinación correlación. El coeficiente de Antes de enunciar y describir brevemente otras formas de ajuste deberemos plantearnos lo siguiente: La regresión nos permite ajustar una nube de puntos a una recta (ajuste lineal) o curva (ajuste no lineal), lo que equivale a conocer la forma en la que se relacionan las variables. De otra manera, la regresión determina la mejor de las rectas o curvas establece una relación entre dos variables, pero el hecho de que sea la mejor posible, no quiere decir que sea “buena” (puede ocurrir que los errores que estemos cometiendo sean elevados), ya que es posible que exista otra función matemática que modelice mejor la relación entre las variables. Por tanto tan importante será conocer la forma en que se relacionan las variables (de eso se ocupa la regresión), como conocer el grado de asociación/dependencia de dichas variables (de esto se ocupa la correlación), y encontrar alguna medida o coeficiente que nos mida el grado de bondad o de representatividad de la relación que hemos establecido mediante técnicas de regresión. 4.5.1. La varianza residual. Coeficiente de determinación. El método de mínimos cuadrados toma como medida del error que se comete, cuando ajustamos a una curva/recta, la suma de los residuos al cuadrado: n ∑e i =1 n 2 i n i =1 i =1 ˆ = ∑ ( y i − y i ) 2 = ∑ ( y i − f ( xi )) 2 Esa cantidad dividida por n se utiliza como medida de la bondad del ajuste. En el caso de funciones lineales (recta, parábola, hipérbola, etc.), la media de los residuos es 0(propiedad 1), por lo que la suma de los cuadrados de los residuos dividida por n no es otra cosa que la varianza de la variable “e”y se denomina varianza residual: n ∑ ei2 i =1 n n = ∑ (e i =1 i − e) n = S e2 Veamos el significado de esta varianza residual: DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 10-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. 2 2 ˆ ˆ e i = y i − y i ⇒ y i = y i + ei ⇒ S y = S y + S e2 ˆ El primer sumando a la derecha de la igualdad se denomina varianza explicada por la regresión y nos indica en qué medida queda explicada la variable dependiente (y) mediante el modelo de ajuste, pudiéndose interpretar el segundo sumando -que es la varianza residual- como una medida de lo que queda sin explicar después de haber efectuado la regresión. Esta varianza residual presenta el problema de determinar a partir de que valores es suficientemente pequeña o grande como para admitir un buen o mal ajuste: la respuesta a este interrogante nos la dará el coeficiente de determinación R2. R = 2 2 Sy ˆ = 2 Sy 2 S y − S e2 2 Sy = 1− S e2 2 Sy Antes de estudiar el rango de variación de este coeficiente, veamos una forma cómoda de calcular se 2 para el caso particular de un ajuste lineal: n n n 2 ∑ y i − a ∑ y i − b ∑ xi y i R = 2 2 Sy ˆ 2 Sy = 2 S y − S e2 2 Sy = 2 S y − i =1 i =1 i =1 n 2 Sy Si sustituimos a y b por sus valores: a = y − bx ; b = S xy S x2 y tenemos en cuenta que: n ∑y i =1 n 2 i n ∑x y n =S +y 2 y 2 ∑ yi i =1 ; n =y i i =1 ; n i = S xy + x y Tenemos que: n R2 = 2 Sy ˆ S 2 y = 2 S y − S e2 S 2 y S − = 2 y ∑ y i2 − ( y − i =1 S XY 2 SX n x )∑ y i − i =1 n S 2 y S XY 2 SX n ∑x y i =1 i i = ⎡ ⎤ S S S S S 2 S y − ⎢( S Y2 + y 2 ) − ( y − XY x ) y − XY ( S xy + x y )⎥ − XY x y + XY S xy + XY x y ) 2 2 2 2 2 SX SX SX SX SX ⎣ ⎦ = = 2 2 Sy Sy ⎛ S = ⎜ XY 2 2 S X SY ⎜ S X SY ⎝ 2 S XY ⎞ ⎟ ⎟ ⎠ 2 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 11-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. A S xy SxS y se le denomina coeficiente de correlación lineal y se denota con la letra “r”: r= S xy Sx Sy Por tanto, en el caso (y únicamente en este caso) de un ajuste lineal, se tiene que: R2 = r 2 4.5.2. Valores del coeficiente de determinación. El coeficiente de determinación toma valores entre 0 y 1; • Toma el valor “0” cuando la regresión no explica nada de la variabilidad de los valores observados y por tanto el ajuste obtenido no modeliza adecuadamente (ni siquiera minimamente) la relación entre variables. R = 2 • S yˆ2 S 2 y = 0 ⇒ S yˆ2 = 0 ⇔ S y2 = S e2 Toma el valor “1” cuando el ajuste efectuado recoge toda la variabilidad de la variable original, y por tanto el ajuste es perfecto. R = 2 • 0 ≤ R2 ≤ 1 S yˆ2 S 2 y = 1 ⇒ S yˆ2 = S y2 ⇒ S e2 = 0 Para valores entre “0” y “1”, el ajuste es tanto mejor cuanto más se aproxima a 1 el coeficiente de determinación. Los ajustes se consideran razonables cuando R ≥ 0,75 . 2 4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de las rectas de regresión. El coeficiente de correlación lineal puede utilizarse como medida alternativa al coeficiente de determinación para evaluar la bondad del ajuste exclusivamente en el caso de regresión lineal. Veamos las posiciones relativas de las rectas de regresión de Y/X y de X/Y y su relación con los valores del coeficiente de correlación lineal. Dado que el coeficiente de correlación lineal se define como: r= Podemos asegurar que: S xy Sx Sy con R2 = r 2 0 ≤ r 2 ≤ 1 ⇒ −1 ≤ r ≤ 1 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 12-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. A) Cuando r = 0, esto supone únicamente que no existe relación lineal alguna entre x e y, sin embargo pueden estar estrechamente ligadas de acuerdo con otro tipo de función por ejemplo x2 + y2 = 1(ver figura). Y/X X/Y Conclusión: por tanto cuando r = 0 el ajuste lineal no será el indicado. Esta conclusión y la exposición son también aplicables al ajuste hiperbólico, considerando en lugar de las variables x e y, las variables z e y, siendo z = 1/x. B) r = ±1. Cuando r = ±1, ⇒ r2 = 1, entonces la varianza residual s2e=0 Esto implica que todos los errores o residuos son nulos y que las rectas de regresión pasan por todos los puntos que se han observado. Por tanto las dos rectas coinciden. Si r=1 la pendiente de las rectas será positiva y si r=-1 la pendiente de las rectas será negativa (ver figura). r = 1(corr.perfecta +) r = -1(corr.perfecta -) C) –1 < r < 0 ó 0 < r < 1. Estas situaciones intermedias serán las que mas veces se presenten en la práctica. A medida que r se aleja de 0 mejor será el ajuste por una recta de mínimos cuadrados. NOTAS: * Si consideramos las rectas de regresión Y / X ≡ Y = aX + b y X / Y ≡ X = cY + d sus pendientes son respectivamente a = S xy 2 Sx ;c = S xy 2 Sy y por tanto el coeficiente de correlación lineal al cuadrado viene determinado como el producto de las pendientes de las dos recta de regresión: DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 13-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. ⎛ S xy r =⎜ ⎜S S ⎝ x y 2 2 ⎞ S S ⎟ = xy xy = bc 2 2 ⎟ Sx Sy ⎠ ( ) * Ambas rectas se cortan en el punto x, y . Es decir las dos rectas de regresión siempre se cortan y lo hacen en ese punto: y x * Las dos rectas tienen pendientes con el mismo signo por lo que no es posible la siguiente situación: y x * Si las variables son independientes su covarianza valdrá 0 y por tanto las dos rectas de regresión serán de la forma: Y / X ≡ y = y y X / Y ≡ x = x y x * Bondad del ajuste de la parábola. Debido a que la recta es un caso particular de parábola (la parábola tiene por ecuación y = a + bx +cx2 .la recta es el caso particular cuando c = 0), se obtendrán siempre mejores ajustes mediante parábolas que mediante funciones lineales (rectas), siendo el coeficiente de determinación para la parábola siempre mayor que el de la recta (recordemos que en la recta r2 = R2). DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 14-15
  • TEMA 4: REGRESIÓN Y CORRELACIÓN. Por este mismo razonamiento puede pensarse que considerando polinomios de mayor grado se consiguen mejores ajustes (recordemos que la parábola es un polinomio de grado 2). Pero no debe pensarse que simplemente con incrementar el orden del polinomio de ajuste se puede llegar a obtener un ajuste tan bueno como se quiera. La bondad del ajuste dependerá del mayor o menor grado de asociación entre las variables en estudio, si estas no presentan apenas relación (de cualquier tipo) no podremos encontrar funciones que ajusten bien los datos observados. 4.6. Predicción. Como ya indicamos, la predicción es una de las aplicaciones más importantes de la regresión. La predicción consiste en determinar(a partir del modelo ajustado), el valor de la variable dependiente para un valor dado de la variable independiente. Cuando la estimación/predicción se hace para un valor de la variable independiente dentro del rango de nuestras observaciones se denomina interpolación y si se hace para un valor de la variable fuera del rango se denomina extrapolación. Para la interpolación la fiabilidad de los valores pronosticados será tanto mayor cuanto mejor sea el ajuste (cuanto mayor sea R2), en el supuesto, claro esta, de que exista relación/asociación entre las variables. Cuando hacemos predicciones para valores de la variable muy alejados del rango de variación de la variable independiente, se corre el riesgo de que el modelo ajustado no sea valido para dichos valores en la medida dada por R2. Bibliografía básica * Mª Angeles palacios, Fernando A. López Hernández , José García Córdoba y Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”. Librería Escarabajal * Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”. Ed. Thomson * Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico de Estadística Descriptiva. I.N.A.P. * Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de Estadística Descriptiva y Probabilidad. Ed. Némesis. Para saber más o aclarar dudas: http://www.monografias.com/trabajos26/estadistica-inferencial/estadisticainferencial.shtml http://descartes.cnice.mecd.es/Bach_CNST_1/Variables_estadisticas_bidimensionales_regre sion_correlacion/Indice.htm http://campusvirtual.uma.es/estadcomp/Cap2.pdf http://www.elprisma.com/apuntes/curso.asp?id=5946 http://isi-eh.usc.es/eipc1/MATERIALES/331102886.pdf http://www.eui.upm.es/~acorral/material/regresion.pdf http://www3.uji.es/~mateu/t2-ig12.doc DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 15-15