Problemas de Regresion Lineal

33,548
-1

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
33,548
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
467
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Problemas de Regresion Lineal

  1. 1. 7 - En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento.Los datos obtenidos se encuentran en la siguiente tabla.Tiempo (min) Rendimiento (%) 10 64 15 81.7 20 76.2 8 68.5 12 66.6 13 77.9 15 82.2 12 74.2 14 70 20 76 19 83.2 18 85.3 a) ¿En este problema cual variable se considera independiente y cual independiente? - Se debe considerar el tiempo de extracción como variable independiente (x) y al rendimiento como la variable dependiente (y), dado que el rendimiento siempre va a variar conforme el tiempo y no viceversa. b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué tipo de relación observa y cuales son algunos hechos especiales? Existe correlación lineal positiva ya que conforme aumenta el tiempo de extracción también aumenta el rendimiento, es razonable suponer que la relación entre estas variables la explique un modelo de regresión lineal simple.
  2. 2. c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de hipótesis y verifique residuos)Para ajustar la mejor recta que pasa más cerca de todos los puntos y para calcular estimadores, seusa método de mínimos cuadrados, se resumen los cálculos en la hoja de Excel: X y X2 Y2 Xy Y e E2 estimadoTiempo Rendimiento(min) (%) 10 64 100 4096 640 69.93 -5.93 35.1649 15 81.7 225 6674.89 1225.5 75.88 5.82 33.8724 20 76.2 400 5806.44 1524 81.83 -5.63 31.6969 8 68.5 64 4692.25 548 67.55 0.95 0.9025 12 66.6 144 4435.56 799.2 72.31 -5.71 32.6041 13 77.9 169 6068.41 1012.7 73.5 4.4 19.36 15 82.2 225 6756.84 1233 75.88 6.32 39.9424 12 74.2 144 5505.64 890.4 72.31 1.89 3.5721 14 70 196 4900 980 74.69 -4.69 21.9961 20 76 400 5776 1520 81.83 -5.83 33.9889 19 83.2 361 6922.24 1580.8 80.64 2.56 6.5536 18 85.3 324 7276.09 1535.4 79.45 5.85 34.2225Suma 176 905.8 2752 68910.36 13489 293.8764Para ajustar la recta, se calcula: ( ) ) (∑ )(∑ ) ∑ [ ] = 13489 – [(176) (905.8) /12] = 203.93 (∑ ) ∑ [ ] = 2752 – [(176)2/12] = 170.66 (∑ ) ∑ [ ] = 68910.36 – [(905.8)2/12] = 537.55Para encontrar los estimadores:̂ = 203.93 / 170.66 = 1.19492187̂ ̅ ̅ = 75.48333333 - 1.19492187 (14.66666667) = 57.9578125Por lo tanto, la línea recta ajustada está dada por:
  3. 3. Con esta ecuación podemos graficar la recta de regresión lineal:Por lo que se observa, se concluye que los errores están distribuidos aleatoriamente, laprueba de hipótesis de interés plantea que la pendiente es significativamente diferentede 0. Hipótesis a Establecer En ambos casos H0 se rechaza si Análisis de Regresión | |> t ( / 2 , n -2 ) Para β1 H0 β1 = 0 Hipótesis a Establecer HA β1≠ 0 Análisis de Varianza t0 β1 /√ H0 β1 = 0 HA β1≠ 0 Para β0 H0 β0= 0 F0= CMR / CME HA β0≠ 0 H0 se rechaza si ̅ | |> F( , n -2 ) t0 β0 √CME [ ] Estadísticos obtenidos, Minitab: Con 5% de significancia para el análisis de regresión, es obvio que para los dos estimadores el estadísticos son mayores (9.22; 2.88) que el del criterio de rechazo (2.2281) Para el análisis de Varianza es lo mismo 8.29 > 4.965 Por lo tanto se rechazan las hipótesis nulas establecidas y se aceptan las alternativas, las cuales indican que el modelo es significativo
  4. 4. d) ¿La calidad del ajuste es satisfactoria? ArgumenteDeterminemos si el modelo permite hacer estimaciones con una precisión aceptable:Coeficiente de determinaciónR2 = SCR / Syy = 243.68 / 537.55 = 0.4533El 45 % de la variación observada en el rendimiento es explicada por el modelo, la calidad de ajusteno es satisfactorio, veamos su ajuste…Coeficiente de determinación ajustadoR2 aj = CMtotal - CME / CMtotal =48.8681 – 29.38 / 48.8681 = 0.3987Para fines de predicción se recomienda un coeficiente de determinación ajustado de 0.7 este es otroindicador de que nuestro modelo no hace estimaciones con precisión.Coeficiente de Correlaciónr = Sxy / √SxxSyy = 203.93 / √ (170.66) (537.55) = 0.6732Observemos las gráficas 4 en uno del modelo de regresión:Se observa que en la gráfica de probabilidad normal la mayor parte de los puntos tienden a ajustarsea la línea recta pero en la de residuo contra valor ajustado hay cierto patrón, el modelo registra falla.Se concluye que aunque el modelo es significativo, la intensidad de la relaciónlineal entre las variables no es muy fuerte
  5. 5. e) Destaque el valor de la pendiente de la recta e interprételo en términos prácticosEl valor de la pendiente de la recta es: 1.1949, en términos prácticos, tan solo es la cantidad que seincrementa o disminuye la variable Y para cada unidad que se incrementa X. f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25 minutos y obtenga un intervalo de confianza para esta estimación.El intervalo de confianza está dado por: ( ̅̅̅ ) ( ̅̅̅ ) Y 0 - t( / 2 , n -2 ) √ [ ] <= ( )<= Y0 +t( / 2 , n -2 )√ √ [ ] Con X0 = 25 ; Y0 = 57.95781 + 1.19492 (25) = 87.83 ( ) 87.83± 2.2281 √ [ ] 87.83± 2.2281 √ 0 87.83± 10.174Por lo tanto el intervalo de confianza es: 77.65 <= ( )<= 98.004
  6. 6. 22.-se realizó un experimento para estudiar el sabor del queso panela en función de lacantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedioreportado por un grupo de 5 panelistas que probaron todos los quesos y los calificaroncon una escala hedónica. Los datos obtenidos se muestran a continuación: Sal Cuajo sabor 6 0.3 5.67 5.5 0.387 7.44 4.5 0.387 7.33 4 0.3 6.33 4.5 0.213 7.11 5.5 0.213 7.22 5 0.3 6.33 5 0.3 6.66 a) ajuste el modeloLa ecuación de regresión esY= 7.30 - 0.183 x1 + 1.26 x2 b) ¿el modelo explica la variación observada en el sabor? Argumente con base en la significancia del modelo, los residuales y el coeficiente de determinaciónPara hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientestengan valores superiores a 0.7, y en este caso muestro coeficiente de determinación presento unvalor muy bajo del 0.05 (5%) y un coeficiente de determinación ajustado con valor negativointerpretando esto como un 0%. Esto se debe a que en nuestro modelo hay términos que nocontribuyen de manera significativa por lo tanto debemos depurar el modelo.Análisis de residuos.- en la gráfica de probabilidad normal los puntos no se ajustan a la recta ypresentan un cierto nivel de simetría en el comportamiento de los mismos por lo tanto podemosdecir que el modelo no es aceptable. En la gráfica de residuos vs predichos si el modelo es adecuadose espera que en esta grafica los puntos no sigan ningún patrón y que, por lo tanto, esténdistribuidos más o menos aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurresignifica que el modelo se ajusta de cualquier manera a lo largo de los modelos de Y.En el caso de nuestra grafica se observa que los puntos están distribuidos a lo largo del eje de las Xde forma constante. Y por último en la gráfica de residuos vs observamos que el comportamientode los residuos maneja un patrón, lo cual quiere decir que nuestro modelo no es adecuado. c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del ajuste.Y = 5.4 + 4.77 x1 - 70.4 x2 + 0.00 x1x2 - 0.495 x12 + 119 x22Podemos prescindir del cuarto término de la ecuación, ya que su coeficiente es cero,quedando la ecuación de la siguiente manera:Y = 5.4 + 4.77 x1 - 70.4 x2 - 0.495 x12 + 119 x22Se analiza la calidad del ajuste en la siguiente cuestión.
  7. 7. d) Compare el error estándar de estimación (√ ) y los coeficientes de determinación ( ) para ambos modelos En nuestro primer modelo al calcular los coeficientes de determinación y el ajustado del mismo, nos pudimos dar cuenta de que el modelo no era adecuado para explicar la relación de variables debido a que el valor era demasiado bajo y por lo tanto no era un modelo confiable. Al obtener nuestra ecuación con términos cuadráticos, nos dimos cuenta que este modelo si es significativo debido a los valores que nos arrojó el coeficiente de determinación y su ajustado, al ver una amplia mejoría en los resultados.Primer modelo Segundo modeloR2=0.054 = 5% R2=0.923 = 93.2%R2aj= -0.32 = 0% R2aj= 0.761 = 76.1%Error estándar de estimaciónPrimer modelo Segundo modelo√ = 0.7127 √ = 0.3029 Es claro que la diferencia entre un modelo y otro es evidente. e) ¿Cuál modelo prefiere para explicar el sabor?El segundo modelo con términos cuadráticos.

×