Regresion Multiple2

40,467 views

Published on

Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple.

Published in: Education, Health & Medicine
3 Comments
10 Likes
Statistics
Notes
No Downloads
Views
Total views
40,467
On SlideShare
0
From Embeds
0
Number of Embeds
78
Actions
Shares
0
Downloads
1,152
Comments
3
Likes
10
Embeds 0
No embeds

No notes for slide

Regresion Multiple2

  1. 1. Docente: Luis Zapatel Arriaga Curso: Estadística Aplicada Tema: Análisis de Regresión Lineal Múltiple
  2. 2. <ul><li>Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple. </li></ul><ul><li>Calcular e interpretar el error estándar múltiple de estimación y el coeficiente de determinación. </li></ul><ul><li>Interpretar una matriz de correlación. </li></ul><ul><li>Establecer y explicar una tabla ANOVA. </li></ul><ul><li>Realizar una prueba de hipótesis para determinar si los de coeficientes de regresión son diferentes de cero. </li></ul><ul><li>Realizar una prueba de hipótesis para cada uno de los coeficientes de regresión. </li></ul>AGENDA
  3. 3. INTRODUCCIÓN <ul><li>En el análisis de regresión lineal simple buscamos la relación entre la variable dependiente Y y una sola variable independiente, demostrando su empleo para determinar una ecuación que describa la relación entre dos variables. A continuación presentaremos el estudio del análisis de regresión examinando casos en los que intervienen dos o más variables independientes. </li></ul>
  4. 4. INTRODUCCIÓN <ul><li>El análisis de regresión múltiple es el estudio de la forma en que una variable dependiente,  , se relaciona con dos o más variables independientes. En el caso general emplearemos k para representar la cantidad de variables independientes. </li></ul><ul><li>Los conceptos de un modelo de regresión y una ecuación de regresión que presentamos en el tema anterior se pueden aplicar al caso de la regresión múltiple. La ecuación que describe la forma en que la variable dependiente,  , se relaciona con las variables independientes  1 ,  2 ,...,  k y un término de error se llama modelo de regresión. El modelo de regresión múltiple tiene la forma siguiente: </li></ul>
  5. 5. EJEMPLOS VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES (X 1 ,X 2,...... ) Volumen de ventas, en unidades <ul><li>Precio unitario </li></ul><ul><li>Gasto de Propaganda </li></ul>Peso de los estudiantes <ul><li>Estatura </li></ul><ul><li>Edad </li></ul>Consumo de bienes industriales por año <ul><li>Ingreso disponible </li></ul><ul><li>Importación de bienes de consumo </li></ul>Unidades consumidas de un bien por familia <ul><li>Precio unitario del bien </li></ul><ul><li>Ingreso </li></ul><ul><li>Número de integrantes por familia </li></ul>Precio de una vivienda <ul><li>Nº de habitaciones </li></ul><ul><li>Nº de pisos </li></ul><ul><li>Área construida </li></ul><ul><li>Área techada , etc. </li></ul>
  6. 6. Análisis de regresión múltiple para 2 variables independientes <ul><li>Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es: </li></ul><ul><li>X 1 y X 2 son las variables independientes. </li></ul><ul><li>a es la intercepción en Y . </li></ul><ul><li>b 1 es el cambio neto en Y para cada cambio unitario en X 1 , manteniendo X 2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión. </li></ul><ul><li>b 2 es el cambio neto en Y para cada cambio unitario en X 2 , manteniendo X 1 constante. Se denomina coeficiente de regresión parcial o bien coeficiente de regresión. </li></ul><ul><li>El cálculo de éstos valores es por demás laborioso a mano… </li></ul>
  7. 7. … . Por ejemplo para el caso de las dos variables independientes, para poder resolver y obtener y en una ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:
  8. 8. Análisis de regresión múltiple con k variables independientes <ul><li>La ecuación general de regresión múltiple con k variables independientes es: </li></ul><ul><li>El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación. </li></ul><ul><li>Como estimar b 1 , b 2 , etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos. </li></ul>
  9. 9. Error estándar múltiple de la estimación <ul><li>El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de regresión. </li></ul><ul><li>Está medida en las mismas unidades que la variable dependiente. </li></ul><ul><li>Es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error estándar. </li></ul>
  10. 10. Error estándar múltiple de la estimación <ul><li>La fórmula es: </li></ul><ul><li>Donde </li></ul><ul><li>Y es la observación. </li></ul><ul><li>Y’ es el valor estimado en la ecuación de regresión. </li></ul><ul><li>n es el número de observaciones y k es el número de variables independientes. </li></ul>
  11. 11. Regresión y correlación múltiples (suposiciones) <ul><li>Las variables independientes y dependientes tienen una relación lineal. </li></ul><ul><li>La variable dependiente debe ser continua y al menos con escala de intervalo. </li></ul><ul><li>La variación en ( Y - Y ’) o residuo debe ser la misma para todos los valores de Y . Cuando éste es el caso, se dice que la diferencia presenta homoscedasticidad . </li></ul><ul><li>Los residuos deben tener distribución normal con media igual a 0. </li></ul><ul><li>Las observaciones sucesivas de la variable dependiente no deben estar correlacionadas. </li></ul>
  12. 12. Matriz de correlación <ul><li>La matriz de correlación se usa para mostrar todos los posibles coeficientes de correlación simple entre todas las variables. </li></ul><ul><ul><li>La matriz también es útil para analizar localizar la correlación de las variables independientes. </li></ul></ul><ul><ul><li>En la matriz se muestra, qué tan fuerte están correlacionadas las variables independientes, con la variable dependiente. </li></ul></ul><ul><ul><li>También es útil para verificar si existe correlación entre las variables independientes Multicolinealidad , lo cuál distorsionaría el error estándar y llevaría a conclusiones incorrectas (se tolera valores entre -0.7 y 0.7), de ser mayor se elimina una variable y se recalcula la ecuación de regresión. </li></ul></ul>
  13. 13. ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA ECUACION DE REGRESION <ul><li>Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones matemáticas en forma matricial. Supongamos que existen k variables independientes y n observaciones ( X i1 ,X i2 ,X i3 ,….,X ik ,Y i ), i=1,2,3,4,…,n, y que el modelo que relaciona las variables independientes y la variable dependiente es: </li></ul><ul><li>Este modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como: </li></ul>
  14. 14. ENFOQUE MATRICIAL <ul><li>Donde: </li></ul>donde: p = k+1, número de parámetros
  15. 15. Coeficiente de Determinación Múltiple r 2 Una vez estimado el modelo es conveniente obtener una medida acerca de la bondad del ajuste realizado. Un estadístico que facilita esta medida es el coeficiente de determinación (R 2 ), que se define:
  16. 16. Prueba global <ul><li>Ayuda a determinar si es posible que todas las Variables Independientes tengan coeficientes de regresión neta iguales a 0. </li></ul><ul><li>En otras palabras ¿podría la cantidad de variación explicada R 2 , ocurrir al azar? </li></ul><ul><li>La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos. Las hipótesis son: </li></ul><ul><li>H a : al menos uno de los coeficientes de regresión no es cero. </li></ul>
  17. 17. Prueba global continuación <ul><li>El estadístico de prueba es la distribución F con k (número de variables independientes) y n - (k + 1 ) grados de libertad, donde n es el tamaño de la muestra. </li></ul><ul><li>El estadístico de prueba se calcula con: </li></ul><ul><li>F = [(SSR) /( k )] /[(SSE) /(n- k+1 )]. </li></ul>
  18. 18. Tabla ANOVA <ul><li>La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que está explicada por la ecuación de regresión como de la que no lo está). </li></ul>Fuente de Variación Suma de cuadrados Grados de libertad Cuadro medio F Regresión SSR K SSR/k= MSR MSR MSE Error SSE n-(k+1) SSE/(n-(k+1))= MSE Total SSTotal n-1
  19. 19. Ejemplo: El propietario de La cadena de cines CINE PLANET desea estimar el ingreso semanal neto en función de los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes: Ingresos Brutos semanales (en miles de dólares) Anuncios en TV (en miles de dólares) Anuncios en periódicos (en miles de dólares) 96 5.0 1.5 90 2.0 2.0 95 4.0 1.5 92 2.5 2.5 95 3.0 3.3 94 3.5 2.3 94 2.5 4.2 94 3.0 2.5
  20. 20. Planteando matricialmente los datos 8 x 3 1 5.0 1.5 1 2.0 2.0 1 4.0 1.5 1 2.5 2.5 1 3.0 3.3 1 3.5 2.3 1 2.5 4.2 1 3.0 2.5
  21. 21. Determinando la ecuación de regresión <ul><li>El modelo es: </li></ul><ul><li>Entonces primero resolvemos las matrices para encontrar los parámetros: </li></ul>0,2491 0,1313 -1,0353 0,1313 0,2239 -1,0389 -1,0353 -1,0389 5,9989
  22. 22. Finalmente la ecuación es: <ul><li>Interpretemos los parámetros estimados de las variables independientes: </li></ul><ul><ul><li>Para b 1 : Cuando los gastos de anunciar en televisión varían una unidad y los gastos de anunciar en periódicos se mantienen constantes, los ingresos brutos semanales se incrementarán en 2.2902 miles de dólares. </li></ul></ul><ul><ul><li>Para b 2 : Cuando los gastos de anunciar en televisión se mantienen constantes y los gastos de anunciar en periódicos varían una unidad, los ingresos brutos semanales se incrementarán en 1.3010 miles de dólares. </li></ul></ul>
  23. 23. <ul><li>Para lo cual usaremos la fórmula abreviada para dos variables independientes la cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula es la siguiente: </li></ul>Hallando el error estándar de estimación Reemplazando los valores previamente encontrados y tomando el denominador al valor 3 por ser el número de parámetros q intervienen en la ecuación: Interpretación: La distancia promedio de los valores observados alrededor de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores observados es 0.64.
  24. 24. Hallando el Coef. de Determinación <ul><li>Elevamos al cuadrado el coeficiente de correlación y encontraremos el coeficiente de determinación: </li></ul><ul><ul><li>Interpretación: Aproximadamente el 91.9% de los cambios producidos en los ingresos brutos semanales son explicados por los cambios producidos en los gastos de publicidad (en televisión y periódicos) </li></ul></ul>
  25. 25. MATRIZ DE CORRELACION
  26. 26. Anova En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, lo que ratifica la relación entre las variables.
  27. 27. Ejemplo En la Facultad de Ciencias Contables, Económicas y Financieras de la Universidad“ Santo Toribio de Mogrovejo” quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de Gestión de Proyectos, para lo cual se escoge al azar una muestra de 7 alumnos y ellos registran notas promedios en las asignaturas de Contabilidad Básica, Doctrina Contable y Macroeconomía como se muestran en el siguiente cuadro.
  28. 28. Determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de Métodos Cuantitativos, conociendo las notas de las asignaturas Contabilidad Básica, Doctrina Contable II y Macroeconomía, con un nivel de significancia del 5% Alumno Gestión de Proyectos Contabilidad Básica Doctrina Contable Macroeconomía 1 13 15 15 13 2 13 14 13 12 3 13 16 13 14 4 15 20 14 16 5 16 18 18 17 6 15 16 17 15 7 12 13 15 11
  29. 29. Calculamos los coeficientes de regresión utilizando las fórmulas de las ecuaciones o en el programa SPSS: Por lo tanto podemos construir la ecuación de regresión que buscamos: Ŷ = 3.140 + 0.054 X 1 + 0.189 X 2 + 0.501 X 3 En el análisis de regresión múltiple la constante es el valor de la ecuación de regresión de la variable dependiente Y dado que todas las variables independientes sean iguales a cero.
  30. 30. En los resultados de SPSS se llama error típico y para explicar la relación del aprendizaje de Métodos Cuantitativos que se viene desarrollando es de 0.529
  31. 31. Calculando el coeficiente de Determinación en el ejercicio (con variable independiente). 12.018 = 0.934 = R 2…..Interprete¡¡¡ 12.857 R = ……; Interprete
  32. 32. Trabajando con el ejemplo del curso de Gestión de Proyectos, veremos que aplicando SPSS, nos saldría como resultado: ¿A que conclusión podemos llegar al 3% de error?

×