Successfully reported this slideshow.
Your SlideShare is downloading. ×

Análisis de Correlacion Lineal

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Correlacion lineal
Correlacion lineal
Loading in …3
×

Check these out next

1 of 74 Ad

More Related Content

Slideshows for you (20)

Advertisement

Similar to Análisis de Correlacion Lineal (20)

More from Universidad Nacional Mayor de San Marcos (16)

Advertisement

Recently uploaded (20)

Análisis de Correlacion Lineal

  1. 1. ANALISIS DE CORRELACIÓN LINEAL Ing. William León Velásquez ESTADISTICA INDUSTRIAL TEMA 05 UNMSM FII Ing William León Velásquez 1
  2. 2. Ing. William león Velásquez 2  Coeficiente de correlación.-  Coeficiente de determinación.-  Prueba de significancia del coeficiente de correlación.-  Aplicaciones.  Modelo de regresión y ecuación de regresión.-  Ecuación de regresión estimada.-  Método de cuadrados mínimos.-
  3. 3. COEFICIENTE DE CORRELACIÓN COEFICIENTE DE DETERMINACIÓN
  4. 4. EL COEFICIENTE DE CORRELACIÓN DE PEARSON El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la fuerza de la relación entre dos conjuntos de variables . Se nombra con la letra r, y frecuentemente se le conoce como r de Pearson y coeficiente de correlación producto- momento. Puede adoptar cualquier valor de -1.00 a +1.00, inclusive. Un coeficiente de correlación de -1.00 o bien de +1.00 indica una correlación perfecta. Ing. William león Velásquez 4
  5. 5. 0 5 10 15 20 25 0 2 4 6 8 10 12 EL COEFICIENTE DE CORRELACIÓN DE PEARSON rxy = 1 -20 -15 -10 -5 0 5 0 2 4 6 8 10 12 rxy = -1 0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 rxy = 0.88 rxy = -0.88 0 2 4 6 8 10 12 0 2 4 6 8 10 12 rxy = 0 rxy = 0 Ing. William león Velásquez 5 𝑟𝑥𝑦 = 𝑆 𝑥𝑦 𝑆 𝑥 𝑆 𝑦 𝑟𝑥𝑦 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌𝑁 𝑖=1 𝑋𝑖 − 𝑋 2𝑁 𝑖=1 𝑌𝑖 − 𝑌 2𝑁 𝑖=1 −1 ≤ 𝑟𝑥𝑦 ≤ +1
  6. 6. El siguiente dibujo resume la fuerza y dirección del coeficiente de correlación. EL COEFICIENTE DE CORRELACIÓN DE PEARSON Ing. William león Velásquez 6
  7. 7. COEFICIENTE DE CORRELACIÓN EJEMPLO 1 El director de recursos humanos de Ventas S.A. está entrevistando y seleccionando nuevos vendedores. El ha diseñado una prueba que le ayudará a realizar la mejor selección posible para la fuerza de ventas. Con el fin de probar la validez de la prueba para predecir las ventas semanales, él eligió vendedores experimentados y aplicó la prueba a cada uno. Ing. William león Velásquez 7
  8. 8. Calificaciones y ventas semanales de 5 vendedores de Ventas S.A. Vendedor Calificación Ventas semanales José Luis 4 5,000 Rufino 7 12,000 Frida 3 4,000 Diego 6 8,000 María 10 11,000 Ing. William león Velásquez 8 La calificación de cada vendedor fue entonces pareada con sus ventas semanales. COEFICIENTE DE CORRELACIÓN EJEMPLO 1
  9. 9. Calificaciones y ventas semanales de 5 vendedores de Ventas S.A. Vendedor Calificación (x) Ventas (y) x2 xy y2 José Luis 4 5 16 20 25 Rufino 7 12 49 84 144 Frida 3 4 9 12 16 Diego 6 8 36 48 64 María 10 11 100 110 121 total 30 40 210 274 370 Ing. William león Velásquez 9 COEFICIENTE DE CORRELACIÓN EJEMPLO 1
  10. 10. Calcular el coeficiente de correlación para el ejemplo que involucre las ventas semanales y las calificaciones de los vendedores. Ing. William león Velásquez 10 𝐫 = 𝐧 𝐱𝐲 − 𝐱 𝐲 𝐧 𝐱 𝟐 − 𝐱 𝟐 𝐧 𝐲 𝟐 − 𝐲 𝟐 𝐫 = 𝟓(𝟐𝟕𝟒) − (𝟑𝟎)(𝟒𝟎) (𝟓) 𝟐𝟏𝟎 − (𝟑𝟎) 𝟐 𝟓 𝟑𝟕𝟎 − (𝟒𝟎) 𝟐 r=0.88 COEFICIENTE DE CORRELACIÓN EJEMPLO 1
  11. 11. La práctica usual es redondear r a la centésima más próxima, en este problema esto es 0.88, indicando una muy fuerte relación entre las calificaciones y las ventas semanales de los vendedores. Esto hace parecer que la prueba del director de recursos humanos tiene potencial para predecir las ventas semanales. Ing. William león Velásquez 11 COEFICIENTE DE CORRELACIÓN EJEMPLO 1
  12. 12. Se realiza un estudio de la talla, medida en cm. y el peso, medido en kg. de un grupo de 10 personas, Los valores obtenidos figuran en la tabla inferior: Talla (cms) 160 165 168 170 171 175 175 180 180 182 Peso (kgs) 55 58 58 61 67 62 66 74 79 83 Ing. William Jaime León Velásquez 12 Calcular el coeficiente de correlación COEFICIENTE DE CORRELACIÓN EJEMPLO 2
  13. 13. Con los datos calculados: Sxy = 55.32 Sx = 50.71 Sy = 752.81 r = 55.32 / (50.71 * 752.81) r =0.0014 r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a partir de la recta de regresión serán poco fiables Ing. William Jaime León Velásquez 13 COEFICIENTE DE CORRELACIÓN EJEMPLO 2
  14. 14. En el ejemplo 1 sobre la relación entre las calificaciones y las ventas semanales de los vendedores el coeficiente de correlación de 0.88 fue interpretado como muy fuerte. Los términos fuerte, moderado y débil, no tienen un significado muy preciso. COEFICIENTE DE DETERMINACIÓN Ing. William león Velásquez 14
  15. 15. Una medida que da un significado más exacto es el coeficiente de determinación. Este es calculado elevando al cuadrado el coeficiente de correlación. En el ejemplo, el coeficiente de determinación (r2) es de 0.77, encontrado por (0.88)2. COEFICIENTE DE DETERMINACIÓN Ing. William león Velásquez 15
  16. 16. Este es una proporción o porcentaje, podemos decir que el 77% de la variación en las ventas semanales es explicado por la variación en las calificaciones de la prueba. Coeficiente de determinación es la proporción de la variación total en la variable dependiente Y que es explicada por la variación en la variable independiente X. El coeficiente de determinación es la cantidad de variación en y que está explicada por la recta de regresión. Y se calcula: EL COEFICIENTE DE DETERMINACIÓN Ing. William león Velásquez 16 𝐫 𝟐 = 𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚 𝐯𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐭𝐨𝐭𝐚𝐥
  17. 17. El coeficiente de no determinación es la proporción de la variación total en Y que no esta explicada por la variación en X. Este coeficiente se calcula con 1 – r2. En el problema del ejemplo es 1 – ( .88 )2 = .23. Esto significa que el 23% de la variación total en las ventas semanales no es explicado por la variación en las calificaciones de las pruebas. Los coeficientes de determinación y de no determinación pueden solamente ser positivos y pueden asumir valores entre 0 y 1.00 inclusive. EL COEFICIENTE DE NO DETERMINACIÓN Ing. William león Velásquez 17
  18. 18. PRUEBA DE SIGNIFICANCIA AL COEFICIENTE DE CORRELACIÓN.
  19. 19. Del ejemplo 1 la relación entre las calificaciones y las ventas semanales de los vendedores el coeficiente de correlación de 0.88 , lo que indicaba una asociación fuerte entre ambas variables. Sin embargo, en la muestra había sólo 5 vendedores. VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN Ing. William león Velásquez 19 ¿Puede ser que la correlación entre la población sea 0? Si, y esto significaría que la correlación de 0.88 se debió a la casualidad. En este ejemplo, la población es todo el personal de ventas de la empresa.
  20. 20. Resolver este problema requiere una prueba para responder la pregunta obvia: ¿puede haber una correlación cero entre la población de la cual se seleccionó la muestra? En otras palabras, ¿proviene el valor r calculado de una población de observaciones pareadas con correlación cero? Para continuar la convención de usar letras griegas para representar un parámetro poblacional ρ, (se pronuncia “rho”) representará la correlación entre la población. Ing. William león Velásquez 20 VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN
  21. 21. Formulación de la hipótesis H0: ρ = 0 (No existe una correlación lineal). H1: ρ ≠ 0 (Existe una correlación lineal). Ing. William león Velásquez 21 VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN
  22. 22. Método 1: El estadístico de prueba es t Estadístico de prueba: Ing. William león Velásquez 22 VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN 𝒕 = 𝒓 𝒏 − 𝟐 𝟏 − 𝒓 𝟐 𝒕 = 𝒓 − 𝒖 𝒓 𝟏 − 𝒓 𝟐 𝒏 − 𝟐 donde μr denota el valor afirmado de la media de los valores de r. Sea μr = 0 al probar la hipótesis nula de ρ = 0.
  23. 23. TABLA t Ing. William león Velásquez 23 Estadístico de prueba: Utilice la tabla tα con n -2 grados de libertad. VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN
  24. 24. Ing. William león Velásquez 24 Conclusión:. VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN Si 𝑡 > que el valor crítico de la tabla tα, se rechaza la H0 y se concluye que existe una correlación lineal. Si 𝑡 ≤ que el valor crítico de la tabla tα, no se rechaza la H0; no hay evidencia suficiente para concluir que existe una correlación lineal.
  25. 25. Método 2: El estadístico de prueba es r Estadístico de prueba: Ing. William león Velásquez 25 VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN Estadístico de prueba: r 𝐫 = 𝐧 𝐱𝐲 − 𝐱 𝐲 𝐧 𝐱 𝟐 − 𝐱 𝟐 𝐧 𝐲 𝟐 − 𝐲 𝟐 𝐫 = 𝐗 − 𝐗 𝐘 − 𝐘 (𝐧 − 𝟏)𝐒 𝐗 𝐒 𝐘
  26. 26. Valores críticos: Utilice la tabla Con un nivel de significancia y tamaño n Estadístico de prueba: Ing. William león Velásquez 26 VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN
  27. 27. VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN Ing. William león Velásquez 27 Conclusión:. Si 𝑟 > que el valor crítico de la tabla r, se rechaza la H0 y se concluye que existe una correlación lineal. Si 𝑟 ≤ que el valor crítico de la tabla r, no se rechaza la H0; no hay evidencia suficiente para concluir que existe una correlación lineal.
  28. 28. Sin embargo, solo fueron incluidos cinco vendedores en el experimento. Por lo tanto, uno podría preguntarse si la correlación de la población (todos los vendedores de la compañía) puede ser de cero (sin correlación). PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE CORRELACIÓN Ing. William león Velásquez 28 En base al ejemplo desarrollado, el director de recursos humanos en Ventas S.A. diseñó una prueba para predecir las ventas semanales. El coeficiente de correlación entre las calificaciones de las pruebas y las ventas fue calculado en 0.88, esto indica una fuerte correlación entre las dos variables.
  29. 29. En el ejemplo las hipótesis serán: Ho: ρ = 0 ( La correlación en la población es cero ) Ha: ρ <> 0 ( La correlación en la población es diferente de cero) Para la forma de la hipótesis alterna sabemos que la prueba es de dos colas. Usando un nivel de significancia de α = 0.10. PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE CORRELACIÓN 29 Se debe probar la hipótesis de que la población de donde provienen las observaciones tiene correlación cero (simbolizada con la letra griega ρ que se pronuncia rho ).
  30. 30. Los grados de libertad se calculan Φ = n – 2 , en este ejemplo Φ= 5 – 2 = 3. Se localiza el valor crítico en la tabla t de student: . tabla "t" α/2 = .05 Φ= n - 2 = 3 tc = 2.35336 PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE CORRELACIÓN 30 Entonces tc = 2.35336
  31. 31. La fórmula para calcular t(el estadístico de prueba) es: PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE CORRELACIÓN 31 𝒕 = 𝒓 𝒏 − 𝟐 𝟏 − 𝒓 𝟐 𝒕 = 𝒓 𝒏 − 𝟐 𝟏 − 𝒓 𝟐 = (𝟎. 𝟖𝟖) 𝟓 − 𝟐 𝟏 − 𝟎. 𝟖𝟖 𝟐 = 𝟑. 𝟐𝟏 Entonces:
  32. 32. Se localizan en la gráfica los valores críticos y el valor del estadístico de prueba. PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE CORRELACIÓN 32
  33. 33. El valor del estadístico de prueba ( t* = 3.21 ) cae dentro de la zona crítica, por lo tanto se acepta la hipótesis alterna con un nivel de significancia de α = 0.10. Esto significa que la correlación no es cero. Para un punto de vista práctico, esto indica al director de recursos humanos que si hay correlación entre las calificaciones de las pruebas y las ventas semanales de la población de vendedores. PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE CORRELACIÓN 33
  34. 34. Una gran empresa de ventas de artículos electrónicos, quiere verificar si existe relación entre las llamadas que realiza el vendedor con las ventas de computadoras que realiza. Con tal motivo selecciona a 10 de sus vendedores de manera aleatoria y se registra su cantidad de llamadas y las computadoras vendidas EJEMPLO 34 llamadas x 20 40 20 30 10 10 20 20 20 30 ventas y 30 60 40 60 30 40 40 50 30 70
  35. 35. Obtenemos los datos para calcular el coeficiente r EJEMPLO 35
  36. 36. Con los datos obtenidos calculamos r EJEMPLO 36 𝐫 = 𝐗 − 𝐗 𝐘 − 𝐘 (𝐧 − 𝟏)𝐒 𝐗 𝐒 𝐘 𝐫 = 900 9 9.1893658𝑥14.3372 r=0.759 ¿Cómo se interpreta una correlación de 0.759? Es positiva, por lo que se observa una relación directa entre el número de llamadas de ventas y el número de computadoras vendidas Esto confirma el razonamiento basado en el diagrama de dispersión. El valor de 0.759 está muy cercano a 1.00, y por lo tanto se concluye que la asociación es fuerte.
  37. 37. EJEMPLO 37 ¿Recuerde que la gerente de ventas de la empresa determinó que la correlación entre el número de llamadas de ventas y el número de copiadoras vendidas era 0.759, lo que indicaba una asociación fuerte entre ambas variables. Sin embargo, en la muestra había sólo 10 vendedores. ¿Puede ser que la correlación entre la población sea 0? Esto significaría que la correlación de 0.759 se debió a la casualidad. En este ejemplo, la población es todo el personal de ventas de la empresa.
  38. 38. Formulación de la hipótesis H0: ρ = 0 (la correlación entre la población es cero). H1: ρ ≠ 0 (La correlación entre la población es diferente de cero). Ing. William león Velásquez 38 Ejemplo PRUEBA DE HIPÓTESIS DE CORRELACIÓN
  39. 39. Método 1: El estadístico de prueba es t Estadístico de prueba: Ing. William león Velásquez 39 VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN donde μr denota el valor afirmado de la media de los valores de r. Sea μr = 0 al probar la hipótesis nula de ρ = 0. 𝒕 = 𝒓 𝒏 − 𝟐 𝟏 − 𝒓 𝟐 𝒕 = 𝟎.𝟕𝟓𝟗 𝟏𝟎−𝟐 𝟏−𝟎.𝟕𝟓𝟗 𝟐 =3.297
  40. 40. Estadístico de prueba: Utilice la tabla tα con n -2 grados de libertad Para ubicar el valor crítico de 2.306, para gl 10- 2= 8. y un α/2=0.025 Ing. William león Velásquez 40 VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN
  41. 41. Ing. William león Velásquez 41 Conclusión:. VALIDACIÓN DEL COEFICIENTE DE CORRELACIÓN la regla de decisión en este caso indica que si el valor calculado de t se encuentra en el área entre 2.306 y 2.306 Si 3.297 > que el valor crítico de la tabla tα, se rechaza la H0 y se concluye que existe una correlación lineal. Esto indica a la gerente de ventas que hay una correlación entre el número de llamadas de ventas y el número de copiadoras vendidas en la población de vendedores, es decir en toda la empresa
  42. 42. MODELO DE REGRESIÓN Y ECUACIÓN DE REGRESIÓN
  43. 43. Ing. William león Velásquez 43 El término regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir Francis Galton, quien llevó a cabo un estudio que demostraba que la estatura de los niños nacidos de padres altos tiende a retroceder o “regresar” hacia la estatura media de la población. INTRODUCCIÓN Eligió la palabra regresión como el nombre del proceso general de predecir una variable (la estatura de los niños) a partir de otra (la estatura del padre o de la madre). Posteriormente, los estadísticos acuñaron el término regresión para describir el proceso mediante el cual se utilizan una variable para predecir otra. Sir Francis Galton (Duddeston, 1822 - Haslemere, 1911) Antropólogo y geógrafo inglés
  44. 44. Ing. William león Velásquez 44 En el análisis de regresión, se desarrolla una ecuación de estimación, esto es, una fórmula matemática que relaciona las variables conocidas con la variable desconocida. INTRODUCCIÓN Luego de conocer el patrón de esta relación, se puede aplicar el análisis de correlación para determinar el grado en el que las variables se relacionan. El análisis de correlación, entonces, nos indica qué tan bien la ecuación de estimación describe realmente la relación.
  45. 45. Ing. William león Velásquez 45 El análisis de regresión es una técnica para investigar y modelar la relación entre variables. INTRODUCCIÓN Aplicaciones de regresión son numerosas y ocurren en casi todos los campos, incluyendo ingeniería, la física, ciencias económicas, ciencias biológicas y de la salud, como también ciencias sociales
  46. 46. Ing. William león Velásquez 46 OBJETIVO DEL MODELO DE REGRESION SIMPLE Explicar el comportamiento de una variable cuantitativa de interés. Y (consumo de gasolina de un auto hibrido, temperatura del agua de mar) como función de otra variable cuantitativa X observable (velocidad del auto en la ciudad, profundidad a la que se observa la temperatura del agua). Y = variable respuesta, endógena o dependiente X = regresor, predictor, variable explicativa, exógena o independiente Se estudiará principalmente el modelo de regresión lineal simple, en el que se expresa Y como función lineal de X.
  47. 47. Ing. William león Velásquez 47 EL MODELO Diseño fijo y aleatorio En el diseño aleatorio se toma una muestra (x1; y1); ….; (xn; yn) de una población (X;Y ) donde X es una variable aleatoria (los valores observados de X no están prefijados de antemano). (X; Y ) =(Estatura en cm, Peso en kg) de un estudiante universitario elegido al azar. (X; Y ) =(Nivel de un cierto contaminante, Mortalidad) en una ciudad elegida al azar. En este caso el modelo de regresión establece una expresión para la función de regresión E(Yj)= x.
  48. 48. Ing. William león Velásquez 48 EL MODELO Ejemplo 1: Se desea estudiar la relación que existe entre el ancho X (en mm.) y la longitud Y (en mm.) de la concha de abanico de las costas. Se observan los datos:
  49. 49. Ing. William león Velásquez 49 EL MODELO En el diseño fijo prefijamos unos valores x1;…. ; xn de la variable X. Para cada xi tomamos una o varias observaciones de Y . (X; Y ) =(profundidad en m. del agua marina, temperatura en oC del agua a esa profundidad) El modelo de regresión en este caso establece una expresión para E(Yi), el valor esperado de Y cuando el valor prefijado de X es xi . Si todos los xi están a la misma distancia entre sí se trata de un diseño fijo equiespaciado. El tratamiento estadístico de ambos diseños es parecido, aunque la notación sea diferente. A menudo, por simplicidad, utilizaremos la notación del diseño fijo aunque el diseño del experimento sea aleatorio.
  50. 50. Ing. William león Velásquez 50 EL MODELO DE REGRESION LINEAL SIMPLE Diseño fijo: Diseño aleatorio: Yi = β0 + β1 xi + Ui (Y/X = xi ) = β0 + β1 xi + Ui donde β0 y β1 son respectivamente la ordenada en el origen y la pendiente de la recta de regresión. Ui es un termino de perturbación o error experimental. Interpretación de los parámetros de la regresión: β0 representa el valor medio de la respuesta Y cuando la variable explicativa X vale 0. β1 representa la variación que experimenta en media la respuesta Y cuando la variable explicativa X aumenta en una unidad.
  51. 51. Ing. William león Velásquez 51 HIPOTESIS BASICAS DEL MODELO: a) E(Ui ) = 0, para cada i = 1; .....; n. b) Var(Ui ) = σ2, para cada i = 1; .......; n. c) E(Ui Uj ) = 0 , para todo i ≠ j . d) Ui ~ Normal, para todo i . Además en el diseño aleatorio supondremos que X1; …..;Xn son independientes. Hipótesis equivalentes para diseño fijo: Y1; …..;Yn son observaciones independientes, con Yi ~ N(β0 + β1 xi ; σ2): Hipótesis equivalentes para diseño aleatorio: (X1;Y1); ….; (Xn;Yn) son independientes, con Y /X = xi ~ N(β0 + β1 xi ; σ2)
  52. 52. ¿ CÓMO SE ANALIZA UN MODELO DE REGRESIÓN? Para analizar un modelo de regresión se pueden establecer básicamente dos pasos. Paso 1. Estimar los parámetros del modelo de regresión. Este proceso es llamado ajuste del modelo a los datos. Paso 2. El siguiente paso de un análisis de regresión es chequear que tan bueno es el modelo ajustado. El resultado de este chequeo puede indicar si el modelo es razonable o si el ajuste original debe ser modificado. 52Ing. William león Velásquez
  53. 53. ESTIMACIÓN DE PARÁMETROS POR MÍNIMOS CUADRADOS
  54. 54. Ing. William león Velásquez 54 INTRODUCCIÓN Se estudiará la estimación de parámetros para el modelo de regresión lineal simple. Es decir, un modelo con un solo regresor X que tiene una relación con una respuesta Y y que es una línea recta. El modelo lineal es dado por 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
  55. 55. Ing. William león Velásquez 55 INTRODUCCIÓN Donde Yi es la i esima observación de la variable aleatoria dependiente Y. Xi es la i esima observación de la variable fija dependiente X βo es el intercepto y es una constante (parámetro) β1 es llamado la pendiente y es una constante (parámetro) ε es la componente aleatoria error Para ε se hacen los siguientes supuestos:  Los errores tienen media cero  Los errores tienen varianza igual pero desconocida .  Los errores no son correlacionados. 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
  56. 56. Ing. William león Velásquez 56 INTRODUCCIÓN La no correlación de los errores significa que el valor de un error no depende del valor de cualquier otro error. Es de tener en cuenta que: 1. La variable regresora X es la controlada por el investigador y medida con un error despreciable. 2. La variable respuesta Y es aleatoria. Esto es, existe una distribución de probabilidad para Y en cada posible valor de X La media de la distribución es E(Y/X) = βo + β1 X y la varianza es V(Y/X)= V( βo + β1 X + ε ) = σ2
  57. 57. Ing. William león Velásquez 57 OBTENCIÓN DE LOS DATOS Lo primero que se debe hacer antes de recopilar los datos es identificar la variable dependiente y la variable independiente. seguido esto se registran los pares de datos ya sea por medio de:  Experimentos controlados diseñado específicamente para obtener los datos o  Registros históricos existentes.
  58. 58. Ing. William león Velásquez 58 EJEMPLO DE EXPERIMENTOS CONTROLADOS Y NO CONTROLADOS Ejemplo 1 Se realizó un experimento el efecto de incremento de la temperatura en la efectividad de un antibiótico. Se almacenaron tres porciones de una onza del antibiótico durante el mismo lapso a cada una de las siguientes temperaturas: 30º 50º 70º 90º. Las lecturas de la efectividad observadas a la temperatura del periodo experimental fueron: Lecturas de la efectividad: 38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21 Temperatura: 30º 50º 70º 90º
  59. 59. Ing. William león Velásquez 59 EJEMPLO DE EXPERIMENTOS CONTROLADOS Y NO CONTROLADOS Ejemplo 2 Los experimentos diseñados para medir valores LC50 en la investigación de los efectos de cierto producto tóxico en peces se efectúan con dos métodos diferentes: Método 1: el agua fluye continuamente a través de los tanques de laboratorio dinámico. Método 2: condiciones de agua en reposo. A fin de establecer los criterios para sustancias tóxicas, la Agencia para la protección ambiental (APA) pretende ajustar todos los resultados a la condición dinámica. Por lo que se requiere de un modelo para relacionar los dos tipos de observaciones. Las observaciones acerca de ciertos productos tóxicos en ambas condiciones, estáticas y dinámica, dieron los siguientes resultados (las mediciones están en partes por millón, ppm). Producto tóxico 1 2 3 4 5 6 7 8 9 10 CL50 dinámico, 23 22.3 9.4 9.7 0.15 0.28 0.75 0.51 28 0.39 CL50 estático, 39 37.5 22.2 17.5 0.64 0.45 2.62 2.36 32 0.77
  60. 60. Ing. William león Velásquez 60 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO EJEMPLO 1 Se hace un estudio para saber si existe relación con el promedio de las notas obtenidas en la universidad con el sueldo que ganan después de dos años de egresados. Con la finalidad de estimar el sueldo que ganará, teniendo como información su promedio obtenido. Se ubican a nueve egresados y se recopila la siguiente información Egresado 1 2 3 4 5 6 7 8 9 Promedio obtenido 16 12 13 8 12 13 10 9 14 Sueldo actual 3100 2500 2500 1900 2200 2800 1600 2200 2600
  61. 61. Ing. William león Velásquez 61 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO Para el análisis de una situación de relación entre dos variables se debe: 1. Identificar la variable independendiente y la variable dependiente: En este caso la variable dependiente es la sueldo actual (y) y la variable independiente es promedio obtenido en al universidad (x ). 2. Determinar si existe una relación de dependencia razonable. En la situación presentada puede observarse que en la realidad estas dos características (sueldo actual y promedio obtenido) presentan una relación lógica. Se va ha mostrar gráficamente para verificar.
  62. 62. Ing. William león Velásquez 62 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO Para determinar de manera inicial la relación lineal entre las dos variables se debe elaborar un diagrama de dispersión, como el que aparece en la figura De acuerdo al gráfico de dispersión se puede asumir que existe una relación lineal y se requiere la línea recta que mejor se ajuste a los datos experimentales 0 500 1000 1500 2000 2500 3000 3500 0 5 10 15 20 Sueldoactual Promedio obtenido y Lineal (y)
  63. 63. Ing. William león Velásquez 63 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO 3. Determinar el modelo estadístico: Como el sueldo actual parece aumentar a medida que aumenta el promedio obtenido entonces se debe sugerir un modelo lineal dado por: Donde yi es el valor observado en este caso la sueldo actual para un valor de promedio obtenido xi, bo corresponde al intercepto de con la línea de regresión y b1 representa el valor medio de sueldo actual para un valor determinado de promedio obtenido llamada pendiente de la línea de regresión o coeficiente de regresión, xi es el valor de los promedios obtenidos, que se asume, es medida sin error. Y Y = b0 + b1X
  64. 64. Ing. William león Velásquez 64 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO 4. Determinar la ecuación de regresión o modelo ajustado: El modelo predicho o ecuación de regresión ajustada es una expresión como la siguiente Para obtenerla se debe encontrar los valores estimados de los parámetros: 𝑦 . Éstos se obtienen aplicando el método de mínimos cuadrados. yi = b0 + b1xi
  65. 65. Ing. William león Velásquez 65 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO El método de mínimos cuadrado busca cual es la recta que más se acerca a los puntos. Busca la recta que haga que la distancia entre el valor real y el valor obtenido por la recta ajustada sea la más pequeña La suma de todas estas distancias simbolizadas como: sea la más pequeña. Como la mejor recta está determinada por bo y b1 entonces matemáticamente, se desea escoger los valores para bo y b1 que minimicen la suma de cuadrados del error 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 = 𝑆𝐶 𝐸𝑟𝑟𝑜𝑟 = 𝑦𝑖 − 𝑦𝑖 2 𝑘 𝑖=1
  66. 66. Ing. William león Velásquez 66 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO Los estadísticos básicos necesarios para la regresión lineal y la correlación son: x y 16 3100 12 2500 13 2500 8 1900 12 2200 13 2800 10 1600 9 2200 14 2600 11.889 2377.778 SX SY 0.892 161.804 𝑋 𝑌
  67. 67. Ing. William león Velásquez 67 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO x y 16 3100 16.901 521604.938 2969.136 12 2500 0.012 14938.272 13.580 13 2500 1.235 14938.272 135.802 8 1900 15.123 228271.605 1858.025 12 2200 0.012 31604.938 -19.753 13 2800 1.235 178271.605 469.136 10 1600 3.568 604938.272 1469.136 9 2200 8.346 31604.938 513.580 14 2600 4.457 49382.716 469.136 11.889 2377.778 50.889 1675555.556 7877.778 SSx SSy SPXY SX SY SXY 0.892 161.804 984.722 𝑋 𝑌 (X - 𝑋)2 (Y - 𝑌)2 (X - 𝑋) (Y - 𝑌) ∑(X - 𝑋)2 ∑(Y - 𝑌)2 ∑(X - 𝑋) (Y - 𝑌)
  68. 68. OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO 𝑏1= 7877.778 50.889 = 154.8035 𝑏0= 2377.778 – 154.80.5 (11.889)= 537.336 𝑌= 537.336 + 154.8035 X Y = b0 + b1X
  69. 69. Ing. William león Velásquez 69 OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN O MODELO AJUSTADO El valor de la pendiente significa que a medida que aumente en una unidad el promedio obtenido, el sueldo actual promedio se incrementará en 154.8035 unidades. 𝑌= 537.336 + 154.8035 X Finalmente la ecuación resultante es:
  70. 70. • Se ha realizado un estudio sobre el efecto de la temperatura en el pH de la leche descremada. • La variable independiente será la temperatura en grado Celsius (X) bajo diferentes condiciones experimentales • Y la variable dependiente será el pH de la leche (Y). • Los datos recopilados son: Temperatura (x) 4 4 24 24 25 38 38 40 pH (y) 6,9 6,8 6,6 6,7 6,7 6,6 6,6 6,5 Temperatura (x) 45 50 55 56 60 67 70 78 pH (y) 6,5 6,5 6,4 6,4 6,4 6,3 6,3 6,3   01,683y360565,4369x5,104y678 2 i 2 ii iii xyx EJEMPLO 2
  71. 71. Temperatura 806040200 PH 7.0 6.9 6.8 6.7 6.6 6.5 6.4 6.3 6.2 a) Encontrar la recta de regresión de mínimos cuadrados. EJEMPLO 2
  72. 72. Sol: Para encontrar la recta de regresión tenemos que calcular los coeficientes:          008,0 117212 939 6783605616 5,1046785,436916 2      b 3394714278,053125,6 16 678 )0080111251,0( 16 5,104 a 8707,6a Por lo tanto la recta de regresión es: pHleche = 6.871 – 0.008 Temperatura EJEMPLO 2
  73. 73. FIN wjleonv@yahoo.com Ing William León Velásquez 73
  74. 74. Ing William León Velásquez 74

×