Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Regresión lineal

1,371 views

Published on

Published in: Education
  • Be the first to comment

  • Be the first to like this

Regresión lineal

  1. 1. 1Tema: Correlación y Regresión Lineal.Docente: Lic. Denís Leonor Mendoza RivasESTADÍSTICA I
  2. 2. 2DIAGRAMA DE DISPERSIÓN O NUBE DEPUNTOSLa primera forma de describir una distribuciónbidimensional es representar los pares devalores (x, y) en el plano cartesiano. Elgráfico obtenido recibe el nombre de nube depuntos o diagrama de dispersión.Alturaencm. 162 154 180 158 171 169 166 176 163…Peso enKg. 61 60 78 62 66 60 54 84 68…
  3. 3. 330405060708090100140 150 160 170 180 190 200Diagramas de dispersión o nube de puntosMide187cm.Mide 161 cm.Pesa 76 kg.Pesa 50 kg.Tenemos las alturas y los pesos de 30 individuos representados en un diagrama dedispersión.
  4. 4. 430405060708090100140 150 160 170 180 190 200Relación entre variables.Tenemos las alturas y los pesos de 30 individuos representados en un diagrama dedispersión.Parece que el peso aumenta con la altura
  5. 5. 5Incorrelación3080130180230280330140 150 160 170 180 190 200Relación directa e inversaFuerte relacióndirecta.30405060708090100140 150 160 170 180 190 200Cierta relacióninversa01020304050607080140 150 160 170 180 190 200Para valores de X por encima de la mediatenemos valores de Y por encima y pordebajo en proporciones similares.Incorrelación.Para los valores de X mayores que lamedia le corresponden valores de Ymenores. Esto es relación inversa odecreciente.•Para los valores de X mayores que la media lecorresponden valores de Y mayores también.•Para los valores de X menores que la media lecorresponden valores de Y menores también.•Esto se llama relación directa.
  6. 6. 6 La covarianza entre dos variables, Sxy, nos indica si laposible relación entre dos variables es directa oinversa. Directa: Sxy>0 Inversa: Sxy<0 Incorreladas: Sxy=0 El signo de la covarianza nos dice si el aspecto de lanube de puntos es creciente o no, pero no nos dicenada sobre el grado de relación entre las variables.Covarianza de dos variables X e Y))((1yyxxnS iiixy −−= ∑
  7. 7. 7Coef. de correlación lineal de Pearson La coeficiente de correlación lineal de Pearson dedos variables, r, nos indica si los puntos tienen unatendencia a disponerse alineadamente(excluyendo rectas horizontales y verticales). tiene el mismo signo que Sxy por tanto de su signoobtenemos el que la posible relación sea directa oinversa. r es útil para determinar si hay relación lineal entredos variables, pero no servirá para otro tipo derelaciones (cuadrática, logarítmica,...)yxxySSSr =
  8. 8. 8 Es adimensional Sólo toma valores en [-1,1] Las variables son incorreladas  r=0 Relación lineal perfecta entre dos variables  r=+1 o r=-1 Excluimos los casos de puntos alineados horiz. o verticalmente. Cuanto más cerca esté r de +1 o -1 mejor será el grado derelación lineal. Siempre que no existan observaciones anómalas.Propiedades de r-1 +10RelacióninversaperfectaRelacióndirectacasiperfectaVariablesincorreladas
  9. 9. 9Entrenando el ojo: correlaciones positivasr=0,13080130180230280330140 150 160 170 180 190 200r=0,430405060708090100110120130140 150 160 170 180 190 200r=0,830405060708090100140 150 160 170 180 190 200r=0,9930405060708090100140 150 160 170 180 190 200
  10. 10. 10Entrenando el ojo: correlaciones negativasr=-0,50102030405060708090140 150 160 170 180 190 200r=-0,701020304050607080140 150 160 170 180 190 200r=-0,9501020304050607080140 150 160 170 180 190 200r=-0,99901020304050607080140 150 160 170 180 190 200
  11. 11. 11Animación: Evolución de r y diagrama de dispersión
  12. 12. 12coeficiente o índice de correlación dePearson (r):Para medir la correlación lineal simpleutilizaremos el coeficiente o índice decorrelación de Pearson (r):( ) ( )2 22 2*xyx yS n xy x yrS Sn x x n y y−= =   − −    ∑ ∑ ∑∑ ∑ ∑
  13. 13. 13Regresión El análisis de regresión sirve para predecir unamedida en función de otra medida (o varias). Y = Variable dependiente predicha explicada X = Variable independiente predictora explicativa ¿Es posible descubrir una relación? Y = a + bX + eDonde: el error es aleatorio, pequeño, y no depende de X
  14. 14. 14Encontramos a los siguientes parámetros: “a” es el valor de la ordenada donde la líneade regresión se intercepta con el eje Y. “b” es el coeficiente de regresión poblacional(pendiente de la línea recta), b Estáexpresado en las mismas unidades de Y porcada unidad de X. Indica el número deunidades en que varía Y cuando se produceun cambio, en una unidad, en X (pendiente dela recta de regresión). Un valor negativo de bsería interpretado como la magnitud deldecremento en Y por cada unidad deaumento en X. e es el error
  15. 15. 15Interpretación del coeficiente de regresión b El coeficiente b es la pendiente o el coeficiente de laregresión lineal. La constante a es la ordenada en elorigen. Si b >O, entonces, la tendencia lineal es creciente, esdecir, a mayores valores de X corresponden mayoresvalores de Y. También, a menores valores de Xcorresponden menores valores de Y. Si b < O, entonces, la tendencia lineal es decreciente,es decir, a mayores valores de X corresponden menoresvalores de Y. También, a menores valores de Xcorresponden mayores valores de Y. Si b = 0, entonces, Y = a. Luego, Y permaneceestacionario para cualquier valor de X. En este caso sedice que, no hay regresión.
  16. 16. 16NOTA. “b” también se interpreta es el cambiopromedio en Y = a + bX cuando Xcambia una unidad. Esto es, si x¡ seincrementa 1, entonces y¡ se incrementaen promedio b unidades.
  17. 17. 17Determinación De Los Parámetros De La Recta DeRegresión A Y BXYError= 22 4 6 8 10 12 14108642••Error= -6•Línea deestimación..Yerror=Yˆ-iY( )∑2i Yˆ-YMin
  18. 18. 18Lo que lleva a los siguientes resultados:22( , )( )i j i ji in x y x yCov x ybV x n x x−= = −  ∑ ∑ ∑∑ ∑a Y bX= −
  19. 19. 19Coeficiente de determinación La medida de bondad de un ajuste deregresión, también conocido comocoeficiente de determinación r2, es el quedeterminará si la línea de regresiónestimada es adecuada.( ) ( )222 22 2*n xy x yrn x x n y y − =   − −    ∑ ∑ ∑∑ ∑ ∑
  20. 20. 20Más sobre r2: La bondad de un ajuste de un modelo de regresión semide usando el coeficiente de determinación r2 r2 es una cantidad que sólo puede tomar valores en[0, 1]. Cuando un ajuste es bueno, r2 será cercano a uno. Cuando un ajuste es malo r2 será cercano a cero. A r2también se le denomina porcentaje de variabilidadexplicado por el modelo de regresión. r2 puede ser pesado de calcular en modelos deregresión general, pero en el modelo lineal simple, laexpresión es de lo más sencilla.
  21. 21. 21CASO PRÁCTICO:Generalmente cada peculiaridad en un hombre escompartida por sus descendientes, pero en un gradomenor, por lo que tenemos la curiosidad en conocer si laestatura de los padres (X, cm) influye en la estatura de loshijos (Y, cm). Se ha recogido la altura de 60 varones, juntoa las de su padre.Estatura delPadre 180 160 165 181 177 165 176 154 187 174 196 170 170 180 173 182 174 154 165 196Estatura delhijo 175 168 166 174 173 165 179 164 179 168 181 168 171 176 171 168 167 164 166 181
  22. 22. 22En primer lugar debemos graficar el diagrama de dispersiónObservando los puntos vemos que ellos tienen una tendencia lineal.Diagrama de dispersión del la estatura del padre y del hijo160170180190145 155 165 175 185 195 205Edad del PadreEdaddelHijo
  23. 23. 23En segundo lugar procederemos a estimar la recta de regresiónlineal simple, para lo cual construiremos el siguiente cuadro:Nº X Y X2Y2X*y1 180 175 32400 30625 315002 160 168 25600 28224 268803 165 166 27225 27556 273904 181 174 32761 30276 314945 177 173 31329 29929 306216 165 165 27225 27225 272257 176 179 30976 32041 315048 154 164 23716 26896 252569 187 179 34969 32041 3347310 174 168 30276 28224 2923211 196 181 38416 32761 3547612 170 168 28900 28224 2856013 170 171 28900 29241 2907014 180 176 32400 30976 3168015 173 171 29929 29241 2958316 182 168 33124 28224 3057617 174 167 30276 27889 2905818 154 164 23716 26896 2525619 165 166 27225 27556 2739020 196 181 38416 32761 35476TOTAL 3479 3424 607779 586806 596700x∑ y∑ 2x∑ 2y∑ xy∑
  24. 24. 24El coeficiente de correlación, y los parámetros de la ecuación:( ) ( )[ ]( ) ( )2 2 222 220*596700-3479*34240.863420*607779- 3479 * 20*586806- 3424*n xy x yrn x x n y y−= = =      − −        ∑ ∑ ∑∑ ∑ ∑Luego procedemos hallar los coeficientes de regresión estimados,utilizando las formulas dadas:( )2 2220*596700-3479*34240.42020*607779- 3479i j i ji in x y x ybn x x−= = = −  ∑ ∑ ∑∑ ∑3479173.9520xXn= = =∑ 3424171.220yYn= = =∑3424 0.420*173.95=98.12a Y bX= − = −Entonces la ecuación de la regresión lineal simple es:98.12 + 0.420*Xy =
  25. 25. 25Interpretando b:En quinto lugar interpretamos b=0.420; quiere decirque por cada unidad que se incremente en la estaturadel padre, la estatura del hijo aumentaráaproximadamente en 0.420 cm.coeficiente de determinación:( ) ( )[ ]( ) ( )2 222 2 222 220*596700-3479*34240.745520*607779- 3479 * 20*586806- 3424*n xy x yrn x x n y y − = = =      − −        ∑ ∑ ∑∑ ∑ ∑r2=0.7455, este valor nos indica que existe un alto grado de linealidadentre las variables, lo cual quiere decir que el 74.55% de lasvariaciones en la estatura del hijo esta explicado por la estatura delpadre.
  26. 26. 26Luego procedemos a graficar la línea de regresión estimadasobre el diagrama de dispersión:Diagrama de dispersión del la estatura del padre y del hijoy = 0.4201x + 98.122R2= 0.7455160170180190145 155 165 175 185 195 205Edad del PadreEdaddelHijoEs decir: x=165, entonces:Y=98.12+0.420*165=167.42 cmFinalmentepodemos llevara cabo lapredicción paradeterminar laestatura de unhijo, cuando elpadre tiene 165cm de talla.
  27. 27.  En una fábrica de cierta marca de refresco ha tomado al azar 10semanas del año, observando la temperatura media correspondiente engrados centígrados a cada una de ellas y la cantidad de los refrescospedidos durante cada uno de dichos períodos. La información obtenida es la siguiente:27Temperatura media (°C) 10 28 12 31 30 19 24 5 915Cantidad derefrescos 21 65 19 72 75 39 67 11 1224Calcular:- La recta de ajuste, grado de dependencia de la temperatura (x) sobre lacantidad de refrescos.- El coeficiente de determinación y correlación. ¿con este coeficiente podriaplanificarse la producción?

×