REGRESIONNotasÍndiceÍNDICE                                                                                                ...
El modelo lineal es uno de los modelos estadísticos más sencillos y útiles. Trata de resumir en la ecuaciónde una línea (r...
George U. Yule (1871-1951)La notación de la correlación regresión son aportaciones de Yule (6).                Raymond Pea...
X           es la variables independiente          Y           es la variables dependiente          ε           es una var...
n                                                 ∑( y − y )                                                              ...
(a) Para cada valor xi de X existe una distribución normal de valores de Y , de los que se ha         obtenido aleatoriame...
n     es el tamaño muestral.El coeficiente de alienación R′ (o de indeterminación) atribuido a Fred Kerlinger, es compleme...
estimación del coeficiente de regresión (pendiente) se realiza a través de seleccionar la mediana de todoslos posibles coe...
Bibliografía1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondancemathématique...
Upcoming SlideShare
Loading in …5
×

Regresion notas

739 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
739
On SlideShare
0
From Embeds
0
Number of Embeds
104
Actions
Shares
0
Downloads
23
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Regresion notas

  1. 1. REGRESIONNotasÍndiceÍNDICE 11. OBJETIVOS DEL TEMA 12. CONCEPTOS BÁSICOS PREVIOS 13. INTRODUCCIÓN: MODELOS ESTADÍSTICOS 14. APUNTE HISTÓRICO 25. REGRESIÓN LINEAL 36. REGRESIÓN NO LINEAL 77. REGRESIÓN ROBUSTA 78. REGRESIÓN MÚLTIPLE 89. ANÁLISIS DE RESIDUALES 8BIBLIOGRAFÍA 91. Objetivos del tema• Entender el concepto de modelo estadístico• Conocer y comprender el concepto de análisis de la regresión lineal• Conocer las etapas a seguir para realizar un análisis de la regresión• Conocer los procedimientos de estimación de los estadísticos de regresión, como el método de los mínimos cuadrados• Saber calcular los coeficientes de confianza• Conocer y comprender el concepto de análisis de la regresión no-lineal2. Conceptos básicos previosCovarianzaCorrelaciónDistribución bivariadaDiagramas descriptivos3. Introducción: modelos estadísticosUn modelo matemático es un conjunto de ecuaciones utilizados para definir cambios entre dos estados(ecuaciones diferenciales) y las relaciones de dependencia entre variables (ecuaciones de estado). Unmodelos se denomina numérico cuando utiliza un procedimiento aritmético para por ejemplo modelar uncomportamiento futuro, expresándose en forma de tabla o diagrama. Un modelo analítico obtiene unaexpresión (ecuación, función) que proporciona una solución específica.Un modelo estadístico incluye además la caracterización de datos numéricos, el cálculo de errores odesviaciones de las observaciones, la predicción de la conducta de un sistema basada en elcomportamiento previo, la extrapolación de datos basada en el mejor ajuste posible, o el análisis espectral.
  2. 2. El modelo lineal es uno de los modelos estadísticos más sencillos y útiles. Trata de resumir en la ecuaciónde una línea (recta) las relaciones entre dos variables con la finalidad de caracterizar esta relación, calcularlas desviaciones de las observaciones respecto del modelo, predecir de la conducta de una variable basadaen el comportamiento de la otra, o extrapolar datos basándose en el mejor ajuste posible.4. Apunte histórico Adrien Marie Legendre (1752-1833)Describió el método de los mínimos cuadrados en 1805 como un apéndice de su libro Nouvelles méthodespour la détermination des orbites des comètes. Carl Friedrich Gauss (1777-1855)Gauss, uno de los matemáticos más influyentes de todos los tiempos. Polemizó con Legendre al asegurarhaber inventado el método de los mínimos cuadrados en 1795, cuando publicó en 1809 su solución delproblema de predecir la órbita de Ceres (descubierto en 1801) en Theoria Motus Corporum Coelestium inSectionibus Conicis Solem Ambientum. Pierre François Verhulst (1804-1849)Por indicación de F. Quetelet, investigó el tema ya sugerido por Malthus en 1789, de la extrapolacióngeométricas. En una serie de publicaciones aparecidas entre 1838 y 1947 desarrolló lo que denominó“curva logística” y que luego sería reconocido como regresión logística (1, 2). Francis Galton (1822-1911)Buscando una ley matemática al fenómeno descrito por Darwin sobre el mecanismo hereditario por el cuallos descendientes presentaban rasgos que los aproximaban más a la media de la población que losantecesores, Galton desarrolló el modelo que el denominó “reversión”, y que se popularizó como de laregresión a la mediocridad. (3). En 1885 aplicó el nombre de regresión. Sin embargo, para Galton era unconcepto, como el de correlación, aplicable únicamente al ámbito biológico. Karl Pearson (1857-1936)El concepto de regresión y las ideas sobre la herencia de Galton fueron continuados por K. Pearson yGeorge U. Yule, basándose en la distribución multivariada normal. Pearson también compartía la nociónbiológica de regresión de Galton, aunque empezó a hablar de “coeficientes de regresión” en 1896 (4). En1903 introduce el concepto de regresión múltiple (5). 2
  3. 3. George U. Yule (1871-1951)La notación de la correlación regresión son aportaciones de Yule (6). Raymond Pearl (1879-1940)Colaborador y luego disidente de K. Pearson. Re-descubrió la regresión logística. Ronald A. Fisher (1890-1962)R. A. Fisher refundó en los años 1920 (7) la regresión utilizando el modelo que Gauss había propuesto parala teoría de errores y el método de los mínimos cuadrados. Las nociones de Pearson–Yule y de Gauss–Fisher aún mantienen su vigencia. En la primera edición de Statistical Methods for Research Workers (1925)Fisher utiliza los símbolos y y x y los términos "variable dependiente" y "variable independiente." Para lainterceptación y la pendiente poblacionales utiliza los símbolos α y β y para los muestrales , a y b .5. Regresión lineal5.1. El modelo linealPara cada valor xi de X se habrá observado un valor yi de la variable aleatoria dependiente Y . Es decir,se dispone de n pares de datos ( x1 , y1 ) , ( x2 , y2 ) , , ( xn , yn ) que constituyen una muestra aleatoria de Y ( xi , yi ) Xlos valores ( x1 , x2 , , xn ) dados.En el modelo lineal, la representación gráfica de las observaciones se dispone en línea recta, es decirsiguen la ecuación de una recta: Y = β X +α + εdonde: α, β son constantes desconocidas 3
  4. 4. X es la variables independiente Y es la variables dependiente ε es una variable aleatoria tal que E (ε ) = 0 var ( ε ) = σ ε2 covar ( ε i , ε j ) = 0 ∀ i≠ j es decir, que ni el valor esperado ni la varianza de ε dependen del valor xi ∈ X . Y ( xi , yi ) E (Y ) = β X + α X xi5.2. Estimación por el método de los mínimos cuadradosEl objetivo de la regresión es ajustar la mejor recta posible. Es decir, aquella recta que las distancias entrelos puntos observados ( xi , yi ) y los puntos correspondientes sobre esta recta ( xi , yi ) ˆ sean mínimas.Estas distancias (proyecciones) pueden ser de varios tipos, aunque en el caso ordinario se busca unmínimo de proyección (perpendicular) sobre el eje de las abscisas: Y ( xi , yi ) ( xi , yi ) ˆ X xi nLa línea para la cual (a) la suma de las diferencias ∑y −y ˆ i =1 i i sea nula y (b) la suma de las diferencias al ( yi − yi ) sea mínima, es la recta de mínimos cuadrados buscada. Esto se hace así para evitar 2cuadrado ˆque diferencias yi − yi con signos positivos cancelen diferencias con signos negativos. De esta segunda ˆpropiedad este procedimiento recibe el nombre de “cuadrados” mínimos1:1 Existen otras alternativas, como por ejemplo considerar los valores absolutos de las diferencias yi − yi 4
  5. 5. n ∑( y − y ) 2 ˆ i i i =1 n ∑ ( y − ( β x + α )) 2 i i i =1Las soluciones analíticas para estimar β y α son: n ∑ y (x − x) i =1 i i b= n ∑(x − x ) 2 i i =1 a = y −b x5.3. Estimación de otros parámetrosVarianza de la regresión σ 1 n ∑ ( yi − ( β xi + α ) ) 2 s2 = n − 2 i =1 scd s2 = n−2Varianza del estadístico de interceptación n ∑x 2 i var ( a ) = i =1 n s2 ∑( x − x ) 2 n i i =1Varianza del estadístico de pendiente s2 var ( b ) = n ∑( x − x ) 2 i i =1Límites de confianza de los estadísticos de interceptación y pendiente n ∑x i =1 i 2 a ± tα s n ∑(x − x ) 2 2 n i i =1 1 b ± tα s n ∑(x − x ) 2 2 i i =15.4. SupuestosEl análisis de la regresión por el método de los mínimos cuadrados implica asumir que: 5
  6. 6. (a) Para cada valor xi de X existe una distribución normal de valores de Y , de los que se ha obtenido aleatoriamente el valor yi ; (b) El valor yi pertenece a esta distribución normal con media yi . Los diferentes valores de yi se disponen sobre la línea recta denominada de regresión poblacional; y (c) Las desviaciones ε de los puntos de la línea ajustada se distribuyen normalmente con media 0 y varianza constante σ ε25.5. Regresión de X sobre YEs totalmente incorrecto despejar X de la ecuación 1 ˆ ( y − a) y = b x+a ⇒ x = ˆ b ˆLa regresión de X sobre Y se hace aproximando X por x : x = b y+a ˆdonde: a = x − b y sX Y b= 2 sYporque se minimiza los errores entre xi y xi = b yi + a , es decir las cantidades ei = ( xi − xi ) 2 2 ˆ ˆ5.6. El coeficiente de determinación, coeficiente de determinación ajustado, y coeficientede alienación5.6.1. SinónimosCoefficient of determination, adjusted coefficient of determinatiion; coeficiente de indeterminación.5.6.2. Definiciones 2El coeficiente de determinación R indica la proporción de varianza común entre una variable dependientey una(s) variable(s) independientes. 2El coeficiente de determinación R se define como el cuadrado del coeficiente de correlación r dePearson: R2 = r 2Sus valores están, pues incluidos en el intervalo 0,1 . [ ] 2 2El coeficiente de determinación ajustado Ra 2es una modificación del coeficiente de determinación R que 2toma en cuenta el número de variables explicativas. Al contrario de R , el coeficiente de determinación 2ajustado R sólo aumenta si la nueva variable mejora el modelo sobre lo esperable si sólo fuera por causas a 2aleatorias. Puede adoptar valores negativos y por tanto, menores que R .El coeficiente de determinación ajustado se define como: n −1 Ra = 1 − (1 − R 2 ) 2 n − p −1donde: p es el número de variables explicativas (independientes) en el modelo lineal; y2 Puede encontrase una calculadora on line de este coeficiente enhttp://www.danielsoper.com/statcalc/calc25.aspx. 6
  7. 7. n es el tamaño muestral.El coeficiente de alienación R′ (o de indeterminación) atribuido a Fred Kerlinger, es complementario del 2coeficiente de determinación indica la proporción de varianza no compartida entre dos variables.El coeficiente de alienación R′ se define como: 2 R′2 = 1 − R 2 = 1 − r 2 25.6.3.Utilización del coeficiente de determinación RSe utiliza ocasionalmente para medir la significación de r . Mide la cantidad de variación compartida porambas variables, es decir la cantidad (o porcentaje, si así se expresa) de variación atribuible a X .5.6.4. InterpretaciónEl coeficiente de determinación se interpreta como la proporción de variación en la respuesta (variable Y )que está explicada por la regresión, esto es por la(s) variables(s) independiente(s): varianza residual R2 = 1 − varianza YSi R = 1 indicará que el modelo explicará toda la variabilidad en Y . Si R = 0 indicará que el modelo de 2 2 e Y no es apropiado. Y un valor intermedio, por ejemplo R = 0, 64 se 2relación lineal entre Xinterpretaría como que el modelo de las variable(s) independiente(s) X escogidas explica un 64 % de lavariación en la variable dependiente Y y el 36 % restante se explicaría por otros mecanismos (otrasvariables, variación inherente etc.).La interpretación del coeficiente de determinación ajustado es diferente de la del coeficiente dedeterminación. El coeficiente de determinación ajustado es útil en la etapa de selección de variables cuandose construye un modelo.5.6.5. LimitacionesEl coeficiente de determinación no informará sin embargo de si se ha seleccionado el mejor conjunto devariables independientes (en el caso multivariado), si esta o estas son la causa de la variación observada enla variable dependiente, ni si hay sesgo debido a la omisión de alguna variable.6. Regresión no linealLa regresión no lineal trata de ajustar un modelo bivariado o multivariado en el que los parámetrosβ 0 , β1 , no están en forma lineal, es decir su exponente es ≠ 1 .Expresiones como yi = bi xik + a + e ∀ k∈son lineales, mientras que yi = b1k xi + a + e ∀ k ≠1es no linealPor lo general, la estimación de parámetros requiere algoritmos o paquetes estadísticos específicos. Sinembargo algunas expresiones son fáciles de manejar, “linealizando” a través de transformacioneslogarítmicas por ejemplo.7. Regresión robustaLa presencia de datos extremos u otras violaciones de los supuestos de la regresión hace que el método delos mínimos cuadrados no sea un procedimiento apropiado. Una alternativa es utilizar una estimación noparamétrica, en la que los datos numéricos son substituidos por sus ordinales respectivos o en la que la 7
  8. 8. estimación del coeficiente de regresión (pendiente) se realiza a través de seleccionar la mediana de todoslos posibles coeficientes. Otra alternativa es utilizar los denominados métodos robustos.Se denomina heterocedástico un modelo en el que la varianza depende del valor de X .La fórmula que utilizan los paquetes informáticos para calcular la varianza del modelo de regresión es lapresentada en el punto 5.3. basada en modelos homoscedáticos (en los que la varianza es independientede X ). Una fórmula alternativa que tiene en cuenta la heterocedasticidad es: 2  1  2   a(x− x)  1 n−2  s2 =    n 1    n a(x− x)  2    Otros procedimientos son: • mínimos absolutos (LAR); • regresión de datos recortados (trimmed regression); 1 • regresión ponderada (ponderación: ); varianza • regresión no paramétrica (de Bablok y Passing, atenuada, a trozos o splines, nuclear o kernel); • regresión ordinal (rank regression); • bootstrap.Ya que la aplicación principal de algunos de estos procedimientos está en la comparación de métodosestadísticos, serán tratados en este contexto.8. Regresión múltiple(Véase Módulo 3)9. Análisis de residualesSe conoce como residual la diferencia entre las respuestas observadas de la variable explicativa y lacorrespondiente respuesta obtenida al aplicar la función de regresión: ei = yi − f ( xi ; β )El punto clave en el proceso de modelar la relación entre dos variables es tomar la decisión de validar tal 2modelo. El cálculo del coeficiente de correlación r y del coeficiente de determinación R son necesariospero insuficientes. Para tener un juicio mejor fundamentado debe procederse a analizar el comportamientode los residuales. Los métodos gráficos proporcionan una perspectiva más amplia que los métodosnuméricos, en ocasiones demasiados centrados en aspectos puntuales. Un ejemplo de método numérico esel test de bondad de ajuste3.Los métodos gráficos incluyen los siguientes diagramas: (a) diagrama de residuos frente a la variable predictiva; (b) diagrama de residuos frente a los parámetros de la regresión; (c) diagrama de residuos ordenados; (d) diagrama de desfase de los residuales; (e) histograma de los residuales; y (f) diagrama de probabilidad normal.3 El estudio de los tests de bondad de ajuste se hará en el contexto del diseño de experimentos 8
  9. 9. Bibliografía1. Verhulst PF. Notice sur la loi que la population pursuit dans son accroissement. Correspondancemathématique et physique 1838;10:113-121.2. Verhulst PF. Recherches mathematiques sur la loi daccroissement de la population. Nouveaux Memoiresde lAcademie Royale des Sciences et Belles-Lettres de Bruxelles 1845;18:1-45.3. Galton F. Typical laws of heredity. Nature 1877;15:492-495, 512-514, y 532-533.4. Pearson K. Regression, heredity, and panmixia. Phil Trans R Soc. Ser A 1896;187:253-318.5. Pearson K, Yule GU, Blanchard N, Lee A. The law of ancestral heredity. Biometrika 1903;2(2):211-236.6. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation.Proc R Soc, Ser A 1907;79:182-193.7. Fisher RA. The goodness of fit of regression formulae, and the distribution of regression coefficients. JRoyal Statist Soc 1922;85:597-612.SPSShttp://www.ats.ucla.edu/STAT/spss/webbooks/reg/chapter3/spssreg3.htmhttp://www.ats.ucla.edu/STAT/spss/library/catreg.htmhttp://www.ats.ucla.edu/stat/spss/examples/chp/chp2.html 9

×