Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

04 regresion

945 views

Published on

Estadistica

Published in: Education

04 regresion

  1. 1. UNIDAD IV: DISTRIBUCIÓN BIDIMENSIONAL REGRESIÓN LINEAL Biometría IUniversidad de San Antonio Abad del Cusco Semestre 2012 - 2 Lic. Dionicio Cárdenas Cancha
  2. 2. Unidad IV: Distribución Bidimensional CONTENIDO Relación entre variables Diagrama de dispersión Covarianza - Relación directa, inversa e incorrelación Correlación lineal - Relación directa, inversa e incorrelación - Grado de relación lineal entre variables Regresión, predicción - Variable dependiente - Variable(s) independiente - Modelo lineal de regresión - Residuo, error02/04/2013 Biometría I 2
  3. 3. Unidad IV: Distribución Bidimensional Qué vamos a estudiar Diferentes formas de describir la relación entre dos variables cuando estas son numéricas. Ejemplos: - Estudiar si hay relación entre la altura y el peso. - Se pretende estudiar si las notas de la asignatura de Estadística II dependen de la asignatura de Estadística I. Variable dependiente o criterio: Estadística II Variable independiente o predictora: Estadística I Para estudiar empíricamente estas relaciones medimos, en una muestra de sujetos, los valores de las variables incluidas en la relación. La información de un sujeto cualquiera de la muestra Si, vendrá dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datos de la investigación.02/04/2013 Biometría I 3
  4. 4. Unidad IV: Distribución Bidimensional Estudio conjunto de dos variables A la derecha tenemos una posible manera de Altura Peso recoger los datos obtenidos observando dos en cm. en Kg. variables en varios individuos de una muestra. 162 61 En cada fila tenemos los datos de un individuo 154 60 Cada columna representa los valores que toma una variable sobre los mismos 180 78 Los individuos no se muestran en ningún orden particular 158 62 171 66 Dichas observaciones pueden ser representadas 169 60 en un diagrama de dispersión. En ellos, cada 166 54 individuo es un punto cuyas ordenadas son los 176 84 valores de las variables. 163 68 ... ... Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.02/04/2013 Biometría I 4
  5. 5. Unidad IV: Distribución Bidimensional Diagrama de dispersión o nube de puntos Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Variable dependiente y (peso) 100 90 Pesa 76 kg. 80 Peso (kg) 70 Mide 187 cm. 60 Pesa 50 kg. 50 40 Mide 161 cm. 30 140 150 160 170 180 190 200 Altura (cm) Variable independiente x (altura)02/04/2013 Biometría I 5
  6. 6. Unidad IV: Distribución Bidimensional Relación entre variables Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 20002/04/2013 Biometría I 6
  7. 7. Unidad IV: Distribución Bidimensional Predicción de una variable en función de la otra Aparentemente el peso aumenta 10Kg por cada 10 cm de altura… o sea, el peso aumenta en una unidad por cada unidad de altura.100 90 80 70 10 kg. 60 50 10 cm. 40 30 140 150 160 170 180 190 20002/04/2013 Biometría I 7
  8. 8. Unidad IV: Distribución Bidimensional Relación directa e inversa 330 100 280 Incorrelación 90 Fuerte relación 80 directa. 230 70 180 60 130 50 80 40 30 30 140 150 160 170 180 190 200 140 150 160 170 180 190 200 Incorrelación. Para valores de X por encima de la Relación directa o creciente. Para los valores media tenemos valores de Y por encima y por de X mayores (o menores) que la media le debajo en proporciones similares. corresponden valores de Y mayores (o menores) también. 80 70 Cierta relación Relación inversa o decreciente. Para los 60 inversa valores de X mayores que la media le corresponden valores de Y menores. 50 40 30 20 10 0 140 150 160 170 180 190 20002/04/2013 Biometría I 8
  9. 9. Unidad IV: Distribución Bidimensional Covarianza de dos variables X e Y La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa. Directa o positiva: S xy 0 1 S xy xi . yi x.y i n Inversa o negativa: S xy 0 El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.02/04/2013 Biometría I 9
  10. 10. Unidad IV: Distribución Bidimensional Coeficiente de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Tiene el mismo signo que Sxy por tanto de su signo S xy obtenemos el que la posible relación sea directa o r SxS y inversa. r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica, …)02/04/2013 Biometría I 10
  11. 11. Unidad IV: Distribución Bidimensional Propiedades de r Es adimensional (No posee unidades de medida) Sólo toma valores en [-1, 1] Las variables son incorrelacionadas  r = 0 Relación lineal perfecta entre dos variables  r = +1 o r = -1 Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. Relación inversa Relación perfecta directa Variables casi incorrelacionadas perfecta -1 0 +102/04/2013 Biometría I 11
  12. 12. Unidad IV: Distribución Bidimensional Ejemplos de correlaciones positivas 330 130 120 280 110 230 100 90 180 80 70 130 60 80 50 r=0,1 40 r=0,4 30 30 140 150 160 170 180 190 200 140 150 160 170 180 190 200100 100 90 90 80 80 70 70 60 60 50 50 40 r=0,8 40 r=0,99 30 30 140 150 160 170 180 190 200 140 150 160 170 180 190 20002/04/2013 Biometría I 12
  13. 13. Unidad IV: Distribución Bidimensional Ejemplos de correlaciones negativas 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 r=-0,5 10 r=-0,7 0 0 140 150 160 170 180 190 200 140 150 160 170 180 190 200 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 r=-0,95 10 r=-0,999 0 0 140 150 160 170 180 190 200 140 150 160 170 180 190 20002/04/2013 Biometría I 13
  14. 14. Unidad IV: Distribución Bidimensional Preguntas frecuentes ¿Si r = 0 entonces las variables son independientes? • En la práctica, casi siempre si, pero no tiene por qué ser cierto en todos los casos. • Lo contrario si es cierto: independencia implica incorrelación. Me ha salido r = 1.2 ¿la relación es «superlineal»? • Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1 ¿A partir de qué valores se considera que hay «buena relación lineal»? • Imposible dar un valor concreto. Para este curso digamos que si |r| > 0.7 hay buena relación lineal y que si |r| > 0.4, hay cierta relación.02/04/2013 Biometría I 14
  15. 15. Unidad IV: Distribución Bidimensional Modelo de Regresión El análisis de regresión sirve para predecir una medida en función de otra medida (o varias) • Y = Variable dependiente (predicha, explicada) • X = Variable independiente (predictora, explicativa) ¿Es posible descubrir una relación? • Y = f(x) + error - f es una función de un tipo determinado (en nuestro caso lineal) - el error es aleatorio, pequeño y no depende de X02/04/2013 Biometría I 15
  16. 16. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Ejemplo: Estudio de altura en grupos familiares Altura del hijo = 85 cm + 0,5 altura del padre (Y = 85 + 0,5 X) • Si el padre mide 200 cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0,5 x 200 = 185 cm. Alto, pero no tanto como el padre • Si el padre mide 120 cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0,5 x 120 = 145 cm Bajo, pero no tanto como el padre02/04/2013 Biometría I 16
  17. 17. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple En el modelo de regresión lineal simple, dada dos variables • Y (dependiente, predicha, explicada) • X (independiente, predictora, explicativa) Buscamos encontrar una función de X (lineal) que nos permita aproximar Y mediante • Y’ = a + bX - b (pendiente de la recta) - a (ordenada en el origen, coeficiente de posición, constante) Y e Y’ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad • e = Y – Y’ se le denomina residuo o error residual02/04/2013 Biometría I 17
  18. 18. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple En el ejemplo se encontró: • Y’ = a + bX b = 0,5 (el hijo gana 0.5 cm por cada cm del padre) a = 85 cm Altura del hijo (cm) 180 150 b = 0,5 120 90 60 30 a =85 cm 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 Altura del padre (cm)02/04/2013 Biometría I 18
  19. 19. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple La relación entre las variables no es exacta. Es natural preguntarse entonces: • Cuál es la mejor recta que sirve para predecir los valores de Y en función de los de X • Qué error (residual) cometemos con dicha aproximación Altura del hijo (cm) 180 150 b = 0,5 120 90 60 30 a =85 cm 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 Altura del padre (cm)02/04/2013 Biometría I 19
  20. 20. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo cuadrática: • Buscar a, b de tal manera que se minimice la cantidad Σi ei2 Se comprueba que para lograr dicho resultado basta con elegir: S XY b a y b x SX 2 Se obtiene además las siguientes ventajas • El error residual medio es nulo • La varianza del error residual es mínima para dicha estimación.02/04/2013 Biometría I 20
  21. 21. Unidad IV: Distribución Bidimensional Otros modelos de Regresión ¿recta o parábola? Se pueden considerar otros tipos de modelos, en función del aspecto que presenta el diagrama de dispersión (regresión no lineal) Incluso se puede considerar el 140 150 160 170 180 190 200 que una variable dependa de varias (regresión múltiple) ¿recta o cúbica? 140 150 160 170 180 190 20002/04/2013 Biometría I 21
  22. 22. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Ejemplo: Dados los siguientes datos: X 6 5 8 8 7 4 Y 8 7 7 10 5 6 a) Construir el diagrama de dispersión b) Ajustar una recta de regresión por mínimos cuadrados de y sobre x c) Hallar el error típico de estimación d) Determine el coeficiente de correlación lineal e) Determinar la covarianza f) Grafique la recta hallada por mínimos cuadrados sobre la nube de puntos. g) Estime el valor de y cuando x = 202/04/2013 Biometría I 22
  23. 23. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: a) Construir el diagrama de dispersión 11 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 902/04/2013 Biometría I 23
  24. 24. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: b) Ajustar una recta de regresión por mínimos cuadrados de y ˆ sobre x. Se tiene y a bx X Y XY X2 Y2 n xi yi xi yi 6(278) (38)(43) 1668 1634 34 b 6 8 48 36 64 n xi2 ( xi )2 6(254) (38) 2 1524 1444 80 5 7 35 25 49 34 8 7 56 64 49 b 0.425 80 8 10 80 64 100 a y bx 7 5 35 49 25 4 6 24 16 36 38 43 x 6.33, y 7.17 x 6..33, y 7.17 6 6 38 43 278 254 323 a 7.17 (0.425)(6.33) 7.17 2.69 4.480  y a bx 4.480 (0.425) x02/04/2013 Biometría I 24
  25. 25. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: c) El error estándar o típico de estimación yi2 a yi b xi yi S y/ x 323 (4.480)(43) (0.425)(278) S y/ x 6 n 323 192.64 118.15 323 310.79 12.21 S y/ x 2.035 1.43 6 6 6 d) El coeficiente de correlación lineal n xi yi xi yi 6(278) (38)(43) r r n xi2 ( xi )2 n yi2 ( yi )2 6(254) (38) 2 6(323) (43) 2 r = 0.402902/04/2013 Biometría I 25
  26. 26. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: e) Covarianza xi yi 228 38 13 Cov ( x , y ) x y n 6 6 6 Cov ( x , y ) 46.33 (6.33)(7.17) 46.33 45.386 0.9439 f) Ver gráfico g) Estime el valor de y cuando x = 2 y /x 2 4.480 0.425(2) 4.480 0.85 5, 3302/04/2013 Biometría I 26

×