Proyecto de Regresión Lineal Simple

  • 1,988 views
Uploaded on

Ejemplo de un proyecto realizado con Regresión Lineal Simple, donde se relacionan dos variables, el porcentaje de cacahuates no infectados con una toxina (anflatoxina) y el promedio de anflatoxina en …

Ejemplo de un proyecto realizado con Regresión Lineal Simple, donde se relacionan dos variables, el porcentaje de cacahuates no infectados con una toxina (anflatoxina) y el promedio de anflatoxina en el lote.

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,988
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
31
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Universidad Aut´noma o de Yucat´n aFacultad de Matem´ticas a Series de Tiempo Proyecto Numero 1 Primer Examen Parcial Integrantes: Jerry Jim´nez Tamayo e Guillermo Ortiz Tamez Maria Jose Montes de Oca Sandra Moreno Sosa 18 de Septiembre de 2012
  • 2. 1. Antecedentes.Los cacahuates son especialmente sensibles a ciertos tipos de hongos, de los cuales el que es de mayor o e ´preocupaci´n es el Aspergillus Flavus ´ste hongo produce la conocida anflatoxina. Esta toxina es deprincipal cuidado ya que se ha descubierto que es un fuerte factor cancer´ ıgeno y mutag´nico, y m´s e arecientemente se ha relacionado con casos de retraso mental y baja inteligencia, es por esto que losniveles de anlfatoxina en los alimentos son estrictamente regulados.En M´xico, la Secretar´ de Salud ha establecido a trav´s de la norma NOM-188-SSA1-2002 las e ıa eregulaciones pertinentes para el control de anflatoxinas en alimentos tanto para consumo humanocomo animal. En ´sta regulaci´n se establece que el limite m´ximo de anflatoxina permitida en e e aalimentos es de 20ppb (partes por bill´n). oTomando esto en cuenta la empresa Cacahuates Mafer tiene como regla interna para la regulaci´n ode anflatixina en sus cacahuates que en un lote se tena al menos el 99 % de cacahuates no infectados.Con la finalidad de vigilar ambas regulaciones Cacahuates Mafer ha decidido realizar un muestreode sus lotes para obtener el nivel promedio de anflatoxina en sus cacahuates, asi como el porcentajede cacahuates no infectados de cada lote.2. Objetivo.Se desea hacer una an´lisis de regresi´n lineal simple sobre la muestra de manera que se pueda ver a ola relaci´n que hay entre el porcentaje de los cacahuates no infectados y el promedio de anflatoxina o(partes por bill´n) de todo el lote. o3. Hip´tesis. oNuestras hip´tesis son: o Hay una relaci´n lineal entre el promedio de anflatoxina del lote y el porcentaje de cacahuate o no infectado. Los datos recabados son confiables. No hay errores en la captura de datos. Nuestros datos son una muestra aleatoria.4. Metodolog´ ıa.Para llevar acabo este an´lisis utilizaremos la regresi´n lineal simple, en espec´ a o ıfico utilizaremos elm´todo de M´ e ınimos Cuadrados, es considerado el mejor m´todo de ajuste lineal. eConsiderese una muestra aleatoria de tama˜o n represent´mosla (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ), la n eregresi´n lineal simple dice que la variable regresora (x) esta linealmente relacionada con la variable orespuesta (y) por la ecuaci´n de regresion lineal poblacional: o y = β0 + β1 x
  • 3. donde los coeficientes de regresi´n β0 y β1 son par´metros que deben estimarse a partir de los datos o a ˆ ˆmuestrales. Si β0 y β1 representan estas estimaciones, respectivamente, se puede entonces estimary por medio de la l´ˆ ınea de regresi´n ajustada: o ˆ ˆ yi = β0 + β1 x ˆEl m´todo de m´ e ınimos cuadrados sirve para estimar los par´metros e cualquier modelo lineal, el aprocedimiento de este m´todo para ajustar una recta que pase por un conjunto de n puntos es eminimizar la suma de cuadrados de las desviaciones verticales de los puntos a la recta ajustada,utilizando herramientas de c´lculo se lega a que los estimadores de β0 y β1 son: a n n n yi xi i=1 i=1 yi xi − n ˆ ¯ ˆ ¯ ˆ i=1 β0 = Y + β1 X y β1 = 2 n n Xi i=1 Xi2 − n i=1Y este es el m´todo que utilizaremos para estimar nuestros par´metros en este an´lisis, hay tambi´n e a a euna serie de supuestos que deben de cumplirse y pruebas que nos serviran para verificar que haremosun buen ajuste de nuestro modelo, y se mostrar´n a continuaci´n en los resultados. a o5. Resultados.En la actualidad existen Softwares para realizar procesos de regresi´n lineal, en particular nosotros outilizaremos el llamado Stat Graphics.En nuestro caso utilizaremos a nuestras variables como: X = Promedio de anflatoxina en el lote. Y = Porcentaje de cacahuates no infectados.Al ingresar nuestra muestra al programa obtuvimos que los estimadores de β0 β1 son igual a: β0 = 100.002 β1 = −0.00290351Por lo que nuestro modelo ajustado es: ˆ Yi = 100.002 − 0.00290351XiNuestros intervalos de confianza para β0 y β1 con un 95 % de confianza son: (99.9844946, 100.019505) (−0.00242833, −0.00337869)
  • 4. Respectivamente, y como se puede observar el valor real de β0 y β1 se encuentra dentro de unintervalo muy peque˜o. nSe presenta la gr´fica de los datos muestrales que tenemos y la recta ajustada que se obtuvo: aEn el mismo gr´fico se pueden obsrevar las bandas de confianza (color verde), las cuales indican los al´ ımites de confianza del 95 % para las predicciones. y las bandas de predicci´n (color gris) las cuales onos indican los l´ ımites de predicci´n. oSe realiza una prueba de hip´tesis con el 95 % de confianza para ver si el par´metro β1 es significa- o ativo para nuestro modelo.H0 : β1 = 0 vs Ha : β1 = 0 β1Utilizando nuestro estad´ ıstico para β1 el cual es: to = M SE SxxSustituyendo los valores tenemos entonces que t0 = −12.4346El valor de t0.025,n−2 = 2.0369Entonces como |to | > t0.025,n−2 , es decir 12.4346 > 2.0369 entonces se rechaza Ho : β1 = 0por lo que β1 = 0 y esto nos dice que si es significativa para nuestro modelo.El coeficiente de correlaci´n es: o r = −0.910235Como es muy cercano a −1 se tiene una correlaci´n negativa bastante fuerte entre las variables. oEl coeficiente de determinaci´n es: o R2 = .828527
  • 5. Observamos que el valor de nuestro coeficiente esta cercano a 1, esto quiere decir que X (promediode anflatoxina del lote) explica un 82.85 % a Y (porcentaje de cacahuate no infectado).Acontinuaci´n proporcionamos los resultados graficos de los supuestos de la regresi´n lineal. o oSe presenta un gr´fico de los residuos estudentizados con respecto a los valores predichos de Y para aanalizar el supuesto de linealidad:Y como se puede observar los residuos estudentizados oscilan alrededor de 0, por lo tanto el supuestode linealidad se cumple.Se presenta un gr´fico de los residuos estudentizados con respecto al promedio de anflatoxina (X) apara analizar el supuesto de homocedasticidad, el cual indica que hay una varianza constante en loserrores:
  • 6. Y como se puede observar los residuos estudentizados oscilan alrededor de 0, por lo tanto el supuestode homocedasticidad se cumple.Se presenta un gr´fico probabilidad normal para verificar el supuesto de normalidad, el cual quiere adecir que los errores tienen una distribuci´n de probabilidad normal. oY como se puede observar la mayoria de las frecuencias de los residuales cae sobre la linea recta omuy cercanos a esta, por lo tando el supuesto de normalidad se cumple.Para el supuesto de independencia se utilizara una manera anal´ ıtica para probarlo, esta es medianteel uso del estad´ ıstico Durbin-Watson, el valor de este estadistico es: DW = 1.88111Si este estad´ ıstico resulta ser 2 se dice que los errores son totalmente independientes, si cae entre1.5 y 2.5, por lo tanto concluimos con que el supuesto de independencia se cumple.Por lo tanto los supuestos de la regresi´n lineal si se cumplen con nuestro modelo. o6. Conclusi´n. oDespu´s de aplicar diversas pruebas al modelo de regresi´n lineal simple se llega a la conclusi´n de e o oque la cantidad promedio de aflatoxinas en un lote de cacahuates puede ser utilizada de maneraeficaz para predecir el porcentaje de cacahuates no infectados dentro del mismo lote, ya que todas laspruebas y supuestos analizados resultaron ser favorables para el modelo, de esta manera CacahuatesMafer puede utilizar dicha predicci´n para evaluar la sanidad de sus lotes de cacahuates de acuerdo oal reglamento interno.
  • 7. 7. Bibliograf´ ıa.The World’s Healthiest Foods de The George Mateljan Foundation:http://www.whfoods.com/genpage.php?tname=foodspice&dbid=101Norma Oficial Mexicana NOM-188-SSA1-2002. Control de aflatoxinas en cereals para consume hu-mano y animal:http://www.salud.gob.mx/unidades/cdi/nom/188ssa12.htmlWackerly, Mendenhall y Scheaffer, Estad´ ıstica Matem´tica con aplicaciones, s´ptima edici´n, CEN- a e oGAGE Learning.