Analisis multivariable

98,942 views

Published on

11 Comments
32 Likes
Statistics
Notes
No Downloads
Views
Total views
98,942
On SlideShare
0
From Embeds
0
Number of Embeds
115
Actions
Shares
0
Downloads
3,890
Comments
11
Likes
32
Embeds 0
No embeds

No notes for slide

Analisis multivariable

  1. 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIABLE (PRIMERA PARTE) Eduardo Jiménez Marqués Curso 2004-05
  2. 2. Análisis Multivariante
  3. 3. Análisis Multivariante ÍNDICE 1. CONCEPTOS GENERALES............................................. 12 1.1 INTRODUCCIÓN. ................................................................ 12 1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES.......12 1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES? ...........................13 1.2 DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE ........................... 14 1.3 ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE ........... 14 1.4 DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES ................. 14 1.4.1 TIPOS DE VARIABLES .............................................................................15 1.5 ESCALAS DE MEDIDA .......................................................... 17 1.6 VARIABLES Y ESCALAS DE MEDIDA ....................................... 18 1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS..........................19 1.7 CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES .............. 20 1.8 BIBLIOGRAFÍA RECOMENDADA............................................. 24 2. METODOS EXPLICATIVOS O DE DEPENDENCIA ............. 26 2.1 INTRODUCCIÓN................................................................. 26 2.2 OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS: ........................ 26 2.3 TÉCNICAS MAS HABITUALES. ............................................... 26 2
  4. 4. Análisis Multivariante 3. REGRESIÓN LINEAL..................................................... 28 3.1 CONCEPTO........................................................................ 28 3.1.1 MODELOS ESTOCÁSTICOS.....................................................................30 3.2 ANÁLISIS DE REGRESIÓN MÚLTIPLE....................................... 31 3.2.1 ¿QUÉ NOS INTERESA CONOCER?:...........................................................31 3.3 HIPÓTESIS DEL MODELO DE REGRESIÓN................................ 32 3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN ............................................32 3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE ..................................................................................33 3.4 COLINEALIDAD .................................................................. 36 3.4.1 MATRIZ DE CORRELACIONES.................................................................36 3.4.2 CORRELACIÓN PARCIAL ........................................................................36 3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE ........................................................37 3.4.4 MULTICOLINEALIDAD............................................................................37 3.4.5 EFECTOS DE LA COLINEALIDAD.............................................................37 3.4.6 FORMAS DE MEDIR LA COLINEALIDAD ..................................................38 3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD...............................39 3.4.8 COEFICIENTES DE REGRESIÓN ...............................................................39 3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN .......................................41 3.5 MODELOS CON VARIABLES FICTICIAS ................................... 41 3.6 TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT ................ 42 3.7 EJEMPLO 1......................................................................... 43 3.8 EJEMPLO2 ......................................................................... 49 3
  5. 5. Análisis Multivariante 4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS.......... 52 4.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN POR MÍNIMOS CUADRADOS ORDINARIOS ........................................................... 53 5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL ............ 54 5.1 COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:............. 54 5.2 CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1 ............. 55 5.3 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS................... 55 5.4 COEFICIENTE DE CORRELACIÓN DE PEARSON ........................ 56 5.5 EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: .......... 60 5.6 COEFICIENTE DE DETERMINACIÓN ....................................... 61 5.7 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO: ANALISIS DE LA VARIANZA........................................................... 61 5.8 PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN...................... 62 5.9 OTROS AJUSTES DE BONDAD DEL MODELO ........................... 63 5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR .................... 64 5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE .................. 67 5.12 NORMALIDAD DE LOS ERRORES ........................................ 67 4
  6. 6. Análisis Multivariante 5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES ................. 68 5.14 NO AUTOCORRELACIÓN DE ERRORES ................................ 69 6. LINEALIDAD EN EL MODELO DE REGRESIÓN ................. 71 6.1 OTRAS TRANSFORMACIONES............................................... 71 7. ANÁLISIS DE REGRESIÓN MÚLTIPLE.............................. 73 7.1 INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN DE CADA VARIABLE, βI ................................................................. 73 7.2 COEFICIENTE DE DETERMINACIÓN ....................................... 74 7.3 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO: ANALISIS DE LA VARIANZA........................................................... 74 7.4 HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE ................. 75 7.5 COLINEALIDAD .................................................................. 75 7.6 EFECTOS DE LA COLINEALIDAD ........................................... 76 7.7 FORMAS DE MEDIR LA COLINEALIDAD .................................. 76 7.8 NIVELES DE COLINEALIDAD ................................................. 77 7.9 INTRODUCCIÓN DE VARIABLES BINARIAS .............................. 80 7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE ........ 82 5
  7. 7. Análisis Multivariante 7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS ................... 82 7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS ................ 85 8. BIBLIOGRAFÍA ............................................................ 91 9. ANÁLISIS DE LA VARIANZA (ANOVA)............................ 93 9.1 CONCEPTO........................................................................ 93 9.2 MODALIDADES DE ANÁLISIS DE LA VARIANZA ....................... 93 9.3 ANOVA ............................................................................. 94 9.3.1 TIPOS DE ANOVA ..................................................................................94 9.4 EXPERIMENTACIÓN............................................................. 94 9.5 EL MÉTODO DE EXPERIMENTACIÓN ...................................... 95 9.5.1 PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN .........................96 9.6 METODOLOGÍA DE LA EXPERIMENTACIÓN............................. 96 9.7 ELEMENTOS DE UN EXPERIMENTO ........................................ 97 9.7.1 CONCEPTOS GENERALES .......................................................................97 9.7.2 HIPÓTESIS DE TRABAJO .........................................................................98 9.8 ¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI COMPARAMOS MEDIAS?............................................................... 98 9.8.1 ESTADÍSTICO DE PRUEBA ......................................................................99 9.9 EXPERIMENTOS ALEATORIOS CON UN FACTOR .................... 100 6
  8. 8. Análisis Multivariante 9.9.1 MODELO ............................................................................................ 101 9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) ........ 101 9.11 ANOVA CON VARIOS FACTORES ..................................... 103 9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN INVESTIGACIÓN COMERCIAL ...................................................... 104 9.12.1 EXPERIMENTO ALEATORIO O AL AZAR ............................................... 104 9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO............................................... 109 9.12.3 EXPERIMENTO DE CUADRADO LATINO............................................... 113 9.12.4 EXPERIMENTO CON INTERCAMBIO ..................................................... 117 9.12.5 EXPERIMENTO FACTORIAL ................................................................. 117 9.13 BIBLIOGRAFÍA ............................................................... 125 10. ANALISIS DISCRIMINANTE......................................... 127 10.1 CONCEPTO................................................................... 127 10.1.1 EJEMPLO ............................................................................................ 128 10.2 OBJETIVOS DEL AD ........................................................ 128 10.3 CLASIFICACIÓN DEL AD ................................................ 128 10.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN ..................... 129 10.5 MODELO DEL AD........................................................... 129 10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD................. 130 10.6.1 SUPUESTOS:....................................................................................... 130 10.6.2 ESTADÍSTICOS ................................................................................... 130 7
  9. 9. Análisis Multivariante 10.7 PASOS DEL ANÁLISIS DISCRIMINANTE .............................. 132 10.7.1 FORMULACIÓN DEL PROBLEMA .......................................................... 132 10.7.2 ESTIMACIÓN ...................................................................................... 133 10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN............................... 133 10.7.4 INTERPRETACIÓN............................................................................... 133 10.7.5 VALIDACIÓN ...................................................................................... 136 10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:......... 138 10.9 ANALISIS DEL EFECTO CONJUNTO: .................................. 142 10.10 CLASIFICACIÓN DE LAS OBSERVACIONES: ........................ 145 10.11 MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO LAMBDA DE WILKS: 149 10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE................................ 153 10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN........................... 153 10.12.2 INTERPRETACIÓN........................................................................... 153 10.12.3 VALIDACIÓN .................................................................................. 153 11. CASO PRÁCTICO DE ADM ......................................... 154 11.1.1 INTRODUCCIÓN................................................................................. 154 11.1.2 ANÁLISIS DISCRIMINANTE .................................................................. 157 11.2 BIBLIOGRAFÍA ............................................................... 165 12. SEGMENTACIÓN....................................................... 167 12.1 CONCEPTO................................................................... 167 8
  10. 10. Análisis Multivariante 12.2 REQUISITOS PARA QUE LA SEGMENTACIÓN DE MERCADO SEA EFICAZ. ............................................................................. 167 12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO. .................. 168 12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE MERCADOS. ............................................................................. 170 12.5 TÉCNICAS PARA CLASIFICAR UN MERCADO EN SEGMENTOS. ............................................................................ 172 13. TÉCNICAS DE SEGMENTACIÓN. ................................. 173 13.1 MÉTODOS CLÁSICOS. .................................................... 173 13.1.1 MÉTODO BELSON............................................................................... 173 13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA............................................. 176 13.1.3 MÉTODO DE CHI CUADRADO............................................................. 170 13.1.4 MODELOS DE CANGUILHEM. .............................................................. 170 13.2 AUTOMATIC INTERACTION DETECTION (AID) ................... 172 13.2.1 VENTAJAS E INCONVENIENTES ........................................................... 173 14. CHI-SQUARED AUTOMATIC INTERACTION DETECTION (CHAID)......................................................... 173 14.1 CONCEPTO................................................................... 173 14.1.1 PROCESO ........................................................................................... 174 14.1.2 UTILIDAD........................................................................................... 175 14.1.3 VENTAJAS E INCONVENIENTES ........................................................... 175 9
  11. 11. Análisis Multivariante 15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN MARKETING EN EL COMERCIO .......................................... 176 15.1 RESUMEN ..................................................................... 176 15.2 INTRODUCCIÓN ............................................................ 176 15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS.............................. 178 15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR ......... 179 15.5 TÉCNICAS A UTILIZAR.................................................... 181 15.5.1 TÉCNICAS DE REDUCCIÓN DE VARIABLES........................................... 181 15.5.2 TÉCNICAS DE SEGMENTACIÓN ........................................................... 185 15.6 RESULTADOS ................................................................ 188 15.6.1 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE FORMACIÓN.......... 188 15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING.............. 190 15.8 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN..... 192 15.9 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO........... 195 15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN GENÉRICOS ................................................................................... 195 15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN ENFOCADOS A CLIENTE ................................................................ 198 10
  12. 12. Análisis Multivariante 15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS INFORMÁTICAS............. 201 16. CONCLUSIONES ....................................................... 203 17. BIBLIOGRAFÍA .......................................................... 205 18. CONCEPTO DE ACM ................................................. 209 19. MODELO DEL ACM ................................................... 209 19.1 CONSIDERACIONES ACERCA DEL MODELO ....................... 211 20. CASO PRÁCTICO ...................................................... 211 11
  13. 13. Análisis Multivariante 1. CONCEPTOS GENERALES 1.1 INTRODUCCIÓN. Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas de amplia aplicación en el mundo científico, especialmente en los estudios de tipo empírico, adquiriendo cada día más importancia en la investigación Comercial y muy especialmente en el tratamiento de las encuestas. 1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES El objetivo fundamental de la Investigación Comercial es el de obtener información objetiva, que permita el disminuir la incertidumbre del decisor en su toma de decisiones. A través de la Investigación Comercial la empresa puede disponer de una gran cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla su negocio. El mercado donde realiza la actividad económica la empresa, es un fenómeno complejo donde interactúan un gran número de factores que tienen influencia en los resultados empresariales (Inflación, paro, paridad de la moneda, formación de los trabajadores, ecología, legislación, demografía, etc.) Por tanto podemos afirmar que la mayoría de los problemas de la empresa son multidimensionales, es decir cualquier actividad empresarial la podemos describir de acuerdo con diversas dimensiones. Esto nos conduce a que deberemos estudiar los factores que influyen o que bien consideramos que lo puedan hacer, de una manera simultánea y para ello se utilizan unas técnicas estadísticas que se denominan: técnicas multivariantes o multivaribles. En la Investigación Comercial a través de encuestas, se realizan una serie de preguntas, mediante la administración de un cuestionario, que permite mediante su 12
  14. 14. Análisis Multivariante combinación obtener la información acerca del fenómeno objeto de la investigación. Por ejemplo para determinar el estilo de vida, hacemos una batería de preguntas acerca de: la profesión, el nivel de estudios, la renta familiar, el equipamiento del hogar, electrodomésticos, vehículos, hábitos de consumo, hábitat, etc. A través del análisis multivariante lo que hacemos es combinar todas las variables, eliminando la información redundante y se obtiene una nueva variable que no es observable directamente, que representa un concepto abstracto que se puede medir obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos estilo de vida. Esta situación la podemos resumir en el siguiente esquema Esquema 1 Variables observadas Análisis multivariante Nueva variable abstracta 1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES? Las técnicas de análisis multivariante se utilizan cada vez más en la investigación comercial por las siguientes razones: 1. Permiten el analizar un gran número de encuestas. Simplificando muchos datos, con la mínima pérdida de información. Consiguiendo hacer más comprensible la información para la mente humana 2. Permiten analizar toda la información acerca de un determinado fenómeno, considerando simultáneamente todos los factores que intervienen. 3. Permiten trabajar con cualquier tipo de variable. 13
  15. 15. Análisis Multivariante 1.2 DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE Podemos definir las técnicas multivariantes como, un conjunto de métodos estadísticos que permiten el análisis de forma simultánea de mas de dos variables observadas en una Investigación Comercial Desde una concepción amplia podemos definir el Análisis Multivariante como un conjunto de métodos que analizan las relaciones entre un número razonablemente amplio de variables (medidas), tomadas sobre cada elemento de análisis, en una o más muestras simultáneamente. 1.3 ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE El análisis Multivariante es de aplicación en la Investigación Comercial, en las siguientes circunstancias: • Reducción de datos. Se trata de simplificar la estructura del fenómeno investigado buscando la mayor simplicidad, lo que permitirá una interpretación muy fácil. • Clasificación y agrupación Por ejemplo las técnicas de segmentación y tipología • Análisis de las relaciones de dependencia, con el fin de predecir o bien explicar • En la construcción de modelos. Econometría 1.4 DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES En las técnicas del análisis multivariante se entiende por variable alguna magnitud que representa la característica de los elementos objeto de investigación que tratamos de medir. 14
  16. 16. Análisis Multivariante En una primera clasificación las variables las podemos clasificar en dos grupos, variables independientes (VI) y variables dependientes (VD). Las variables dependientes son aquellas cuyo comportamiento es explicado o pronosticado por una o más variables independientes. Las variables dependientes también se denominan variables criterio o respuesta, mientras que las variables independientes son las que servirán para explicar el fenómeno estudiado y se en ocasiones se denominan como variables explicativas, factores o variables predictoras. En los estudios no experimentales, la situación de las variables no siempre es clara, definiéndose su papel en el contexto de la investigación. Una misma variable puede adoptar diferentes roles en función de situaciones. Cuando existen diferencias sistemáticas en una variable dependiente (Y) asociada a diferentes niveles de variación de la variable independiente (X) se dice que están relacionadas. Si todas las variables desempeñan el mismo papel se habla de relaciones de interdependencia. En este caso no hay una variables con las que se intente explicar el comportamiento de otras. En ocasiones, al analizar el modelo la única forma de diferenciar las variables es simplemente por donde están situadas en la ecuación. 1.4.1 TIPOS DE VARIABLES Una variable es una característica o propiedad de un elemento (individuo, objeto, transacción, suceso, etc.), que toma distintos valores para cada elemento. En general se clasifican en dos grandes grupos: • Variables no métricas o cualitativas • Variables métricas o cuantitativas Los diferentes tipos de variable los resumimos a continuación: 15
  17. 17. Análisis Multivariante Variables cuantitativas o métricas: Son aquellas en las que los valores tomados por diferentes individuos tienen un significado propio. De hecho, son una medición o cuantificación de una determinada característica, la respuesta a la pregunta: ¿Cuánto/s ? Ejemplos: altura, peso, edad, hijos, ingresos, de un individuo, empleados, oficinas, beneficios, de una empresa, etc. Variables cualitativas o no métricas1: Son aquellas en las que las distintas características de los elementos estudiados son cualidades o categorías alfabéticas. Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categorías se convierten en unos códigos, sin que tenga que existir ningún tipo de relación entre el valor asignado y el significado de la categoría representada. Ejemplos: nacionalidad, sexo, religión, estudios cursados, clase social, calificación (Suspenso, Aprobado, Notable, Sobresaliente), etc. 1.4.1.1 CLASIFICACIÓN POR LOS VALORES QUE PUEDEN ADOPTAR De acuerdo con el valor que pueden adoptar las variables estas las podemos clasificar en los siguientes tipos: • Variable continua. Se trata de una variable cuantitativa que puede adoptar cualquier valor numérico, Para todo par de valores siempre podemos encontrar uno intermedio. Por ejemplo la edad, el consumo de teléfono, ... • Variable discreta. Puede adoptar un número finito de valores distintos, entre dos valores consecutivos no se puede encontrar ninguno intermedio. Por ejemplo el número de personas por hogar. • Variable dicotómica o binaria. Solo puede tomar dos valores, si se definen como 0 y 1 se llama binaria. 1 Algunos autores las denominan atributos 16
  18. 18. Análisis Multivariante • Variables ficticias o Dummy. Se utiliza con variables cualitativas, para poder obtener información a través de operaciones, se convierten en binarias, indicando el valor 1 la presencia de una categoría de la variable y 0 su ausencia. Para realizar la conversión de una variable cualitativa en ficticia se necesitan tantas variables dummy como categorías tiene la variable menos una. Ejemplos de variables Dummy La variable Sexo con las categorías hombre y mujer necesitaría una sola variable dummy D1: Hombre 0 Mujer 1 Consideremos la variable “Color del producto A” que tiene las siguientes categorías 1 Rojo 2 Verde 3 Azul Obtendremos las siguientes Dummy 3 – 1 = 2 que corresponden a: D1 = Rojo 1 Verde y Azul 0 D2 = Verde 1 Rojo y Azul 0 La categoría azul queda definida ya que tiene 0 en las dos ficticias 1.5 ESCALAS DE MEDIDA Prácticamente todas las investigaciones de mercado recogen los datos en forma de números, interesando al investigador lo que estos números representan, por medio de las correspondientes operaciones de medida. Medir consiste en asignar números a los sucesos, elementos, objetos, atributos, ... según unas normas predeterminadas. Puesto que utilizamos diferentes reglas para la asignación de los números, un mismo número puede dar lugar a diferentes interpretaciones, ello da lugar a la existencia de diferentes escalas de medida. 17
  19. 19. Análisis Multivariante Por escala de medida entenderemos la correspondencia entre los números asignados a las propiedades de los elementos y la significación de los cálculos matemáticos realizadas con los números. Básicamente en el análisis estadístico se utilizan las cuatro escalas siguientes: Nominal, Ordinal, Intervalo y Ratio o de proporción Las características de estas escalas las resumimos a continuación: • Nominal: los posibles valores de la variable representan diferentes categorías, no existiendo ninguna relación entre el código asignado a una categoría y su significado Ejemplos: profesión, raza, estado civil, ... o Caso particular: variables dicotómicas, sólo admiten dos posibles respuestas. Ejemplos: sexo, verdadero / falso, si / no, ... Se denominan binarias si se codifican 0 / 1. • Ordinal: los códigos o valores de cada categoría mantienen la misma relación de orden que el significado de las categorías. Ejemplos: clase social, escala de preferencia, ... • Intervalo: los códigos asignados a diferentes respuestas permiten conocer la magnitud de la característica medida, ya que se mantiene una relación de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable redondeada, ... • Ratio o razón: los códigos representan el propio valor de la característica estudiada, observándose una relación de orden y de distancia y la existencia de un origen Ejemplos: cifra de ventas, ratio económico- financiero, ... 1.6 VARIABLES Y ESCALAS DE MEDIDA Partiendo de los dos grandes grupos de variables, (cualitativas y métricas), podemos resumir la relación entre las variables y las escalas de medida como sigue: 18
  20. 20. Análisis Multivariante 1. Variables no métricas o cualitativas, vienen medidas en escala nominal u ordinal 2. Variables métricas o cuantitativas se utilizan las escalas de intervalo o de razón. 3. Variables binarias se utiliza la escala de razón 1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS En ocasiones en el estudio se deben realizar transformaciones de escala y origen Las variables las podemos dividir en: Valores o puntuaciones directas, también llamadas brutas, se obtienen directamente del instrumento de medida y en sus mismas dimensiones. Se suelen representar por letras mayúsculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las correspondientes desviaciones típicas sX, sy, sZ, ... medidas en la misma escala Valores o puntuaciones centradas en la media o diferenciales, son el resultado de un cambio en el origen al obtenerse de la restando de la media el valor, se suelen representar con letras minúsculas (x, y, z, ...) y se obtienen a partir de la siguiente operación x = X - mX Este tipo de puntuación tiene de media 0 y una desviación típica igual a la de las puntuaciones originales. Se produce un cambio de origen no de escala. Valores típicos o estandarizados. Se obtienen restando de cada valor la media y dividiendo por la desviación típica. Se suelen representar por la letra Z y el subíndice de a correspondiente categoría de la variable. X − mX Se obtienen de Z = sX Los valores tipificados están libres de escala y siempre tienen media igual a 0 y desviación típica igual a 1. 19
  21. 21. Análisis Multivariante 1.7 CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES Los diferentes métodos de análisis multivariante no solo difieren entre sí por el objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la tabulación, forma de codificar y en el trabajo con las variables ya que algunos métodos pueden trabajar con variables nominales, mientras que otros solo lo hacen con variables ordinales y métricas. Una clasificación de gran utilidad es el diferenciar las técnicas multivariantes en dos grupos básicos: Métodos descriptivos o de interdependencia y métodos explicativos o de dependencia. Los métodos explicativos o de dependencia se emplean para explicar o proyectar la(s) variable(s) dependiente(s) con base en dos o más variables independientes. Por ejemplo explicar las ventas en función de numerosas variables independientes (número de vendedores, inversión en publicidad, promoción, renta de los consumidores, etc.). Los métodos descriptivos o de interdependencia tratan de dar significado a un conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando realizamos un estudio de segmentación. La clasificación de las técnicas multivariantes las podemos resumir en el siguiente esquema. 20
  22. 22. Análisis Multivariante TÉCNICAS MULTIVARIANTES EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES SI NO MÉTODOS EXPLICATIVOS MÉTODOS DESCRIPTIVOS Los métodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes criterios los mas habituales son los que reseñamos en los siguientes esquemas2 2 Apuntes investigación Comercial 2 Facultad de Económicas UAB 21
  23. 23. Análisis Multivariante 22
  24. 24. Análisis Multivariante 23
  25. 25. Análisis Multivariante 1.8 BIBLIOGRAFÍA RECOMENDADA Análisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edición 1999 Técnicas de análisis de datos en Investigación de Mercados. Teodoro Luque (Coordinador), Editorial Pirámide 2000 24
  26. 26. Análisis Multivariante Métodos Explicativos o de Dependencia 25
  27. 27. Análisis Multivariante 2. METODOS EXPLICATIVOS O DE DEPENDENCIA 2.1 INTRODUCCIÓN Los métodos explicativos o de dependencia, del análisis multivariante, son técnicas que diferencian entre variables independientes, explicativas o predictoras y variables dependientes o a explicar. 2.2 OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS: El objetivo principal de los métodos explicativos es: Encontrar la relación existente entre la variable/s dependiente/s y la/s independiente/s: Este objetivo nos conduce a los siguientes objetivos secundarios: • Explicar el comportamiento de la/s variable/s dependiente/s (Y) Por qué la Y no es igual en todas las observaciones • Estimar el efecto de una o varias variables explicativas (X) cuantitativas o binarias ¿Cuáles son las variables X que explican el comportamiento de Y? ¿En cuánto varía la Y frente a un cambio de cada una de las X’s? • Predecir el valor de Y Cuál es el valor de Y para unas X’s determinadas Hasta que punto hemos conseguido explicar Y 2.3 TÉCNICAS MAS HABITUALES. En esta modalidad de análisis multivariable de la información las técnicas más habituales son: La regresión, el análisis de la varianza, segmentación jerarquica análisis discriminante, regresión logística, correlaciones canónicas, análisis de ecuaciones estructurales. 26
  28. 28. Análisis Multivariante Regresión Lineal
  29. 29. Análisis Multivariante 3. REGRESIÓN LINEAL Al clasificar los métodos explicativos por el número de variables dependientes y las escalas de medida de las variables dependientes e independientes nos encontrábamos que cuando tenemos una sola variable dependiente y todas las mediciones de las diferentes variables están en escala métrica podemos aplicar la técnica denominada regresión De forma esquemática podemos representar esta situación como METODOS EXPLICATIVOS NÚMERO DE VARIABLES DEPENDIENTES UNA ESCALA DE MEDIDA DE LA VARIABLE (S) INDEPENDIENTE (S) MÉTRICA ESCALA DE MEDIDA DE LA VARIABLE DEPENDIENTE MÉTRICA REGRESIÓN 3.1 CONCEPTO El análisis de regresión trata de analizar la dependencia de una variable cuantitativa a explicar respecto de una o varias variables explicativas, también cuantitativas. Matemáticamente la regresión la podemos representar como: Y = f (Xi ) Donde Y es la variable dependiente y Xi representa las diferentes variables independientes. Si solo hay una variable independiente (X) se trata de un modelo de regresión simple 28
  30. 30. Análisis Multivariante Cuando hay dos o más variables independientes se trata de un modelo de regresión múltiple. Si recordamos el modelo de regresión simple o modelo de regresión lineal de primer orden responde a la siguiente fórmula matemática. y = β0 + β1x + ε donde: y = variable dependiente o variable a explicar x = variable independiente o variable explicativa ε (epsilon) = error o perturbación aleatoria β0 =origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y. β1 =pendiente de la recta o coeficiente de regresión: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente. Su representación gráfica corresponde a la indicada en la Fig. 1 El modelo de regresión múltiple viene expresado por: y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε donde: y = variable dependiente o variable a explicar xi = variables independientes o variables explicativas 29
  31. 31. Análisis Multivariante ε (epsilon) = error o perturbación aleatoria β0 = origen cuando todas las variables independientes son 0 βi = pendiente o coeficiente de regresión de la variable i. Algunos autores utilizan como coeficiente de regresión en el origen α en vez de β 0 La correspondiente ecuación pasa a ser: Y = α + β 1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 +... + β n X n + ε Los coeficientes de regresión son en todos los casos los parámetros a estimar. El modelo de regresión requiere que todas las variables sean métricas, las variables independientes que sean cualitativas o no métricas se pueden convertir en variables métricas ficticias (Dummy) dicotomizándolas, de este modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar como cuantitativas 3.1.1 MODELOS ESTOCÁSTICOS En los modelos denominados deterministas, para los diferentes valores de la variables independientes corresponden valores determinados de la variable dependiente. Sin embargo este modelo no suele describir bien las relaciones entre las variables porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la variable independiente (Y) y que, como tales, no se derivan de la variación de las variables dependientes. Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que contemple esta situación. Se trata de los denominados modelos estocásticos de regresión, denominados así porque forma parte de ellos una variable aleatoria ε denominada error y perturbación aleatoria. Esta variable representa todas las influencias, normalmente desconocidas, que pueden hacer variar la variable dependiente (Y), al margen de las variaciones de las variables independientes (X). 30
  32. 32. Análisis Multivariante La ecuación de este tipo de modelo será: Y = α + β 1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 +... + β n X n + ε 3.2 ANÁLISIS DE REGRESIÓN MÚLTIPLE El análisis de regresión múltiple es una extensión del análisis de regresión bivariado que nos permite la investigación simultánea del efecto de dos o más variables independientes sobre una variable dependiente medida en escala métrica. Por consiguiente se trata de buscar la ecuación que mejor exprese matemáticamente la relación de los valores de una variable dependiente (Y) con los valores de dos o más variables independientes (X1 X2 X3 .....Xn) consideradas conjuntamente. De esta forma el problema consiste en la identificación de una relación lineal mediante el análisis de regresión múltiple. La ecuación obtenida es del tipo: y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε Los coeficientes β i muestran el efecto sobre la variable de un incremento de una unidad en la variable independiente correspondiente. Estos coeficientes se les denomina como coeficientes de regresión parcial. El valor original de βi es el coeficiente sencillo de la regresión bivariada, se define como el coeficiente de correlación parcial para el que se mantienen constantes los efectos de las otras variables independientes. La función del coeficiente β0 consiste en asegurar que la media de los valores de Y coincide con la media de los valores de X 3.2.1 ¿QUÉ NOS INTERESA CONOCER?: • ¿Cómo se calculan los coeficientes de regresión, β 0 y β i? • ¿Cómo se interpretan? • ¿Cómo se determina si son o no estadísticamente significativos? • ¿Cómo se comprueban las hipótesis del modelo? 31
  33. 33. Análisis Multivariante 3.3 HIPÓTESIS DEL MODELO DE REGRESIÓN Hipótesis sobre la forma de la distribución de probabilidad de ε y sobre las variables independientes Partiendo del modelo: y = β0 + β1xI + ... + ε Las correspondientes hipótesis son: • La media de la distribución de probabilidad de ε es 0. Es decir, la media de los valores de ε para un número infinitamente grande de experimentos es 0 para cada valor de la variable independiente x. Esta hipótesis implica que el valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x. • La distribución de probabilidad de ε es normal. • Los valores de ε asociados a dos valores cualquiera observados de y, son independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna influencia sobre los valores de ε asociados a otros valores de y (esto implica que los errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe autocorrelación de errores). • La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los valores de la variable independiente, X (es decir, existe homocedasticidad) • No debe existir excesiva colinealidad o multicolinealidad (correlación entre las variables independientes). La hipótesis primera se considera ciertas y no se contrasta. Se supone que se cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los errores la estimación por mínimos cuadrados exige que su media sea 0). 3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (las perturbaciones) 32
  34. 34. Análisis Multivariante El método de estimación por mínimos cuadrados minimiza la suma de cuadrados de las diferencias entre los valores reales y los estimados de la variable dependiente, o lo que es lo mismo, los errores cometidos en la estimación de la variable dependiente (Y) De conformidad con este criterio la mejor recta es aquella que haga mínima la suma de los cuadrados de los residuos Min∑ ei2 3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE El coeficiente de correlación múltiple (R) indica el porcentaje de variación en la variable dependiente Y explicado por la variación en las variables independientes Por tanto representa el grado de asociación entre una variable dependiente y dos o más variables independientes tomadas en conjunto. Normalmente en la practica se estudia el cuadrado del coeficiente de correlación o también llamado coeficiente de determinación múltiple (R2), este índice nos indica el tanto por ciento de la variación total de la variable dependiente Y, explicado por la ecuación de regresión y es igual a la razón entre la variación explicada y la variación total de la variable. Por tanto expresa la proporción de la varianza de la variable dependiente explicada por el modelo de regresión Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de asociación lineal entre la variable dependiente y las independientes tomadas en conjunto, este valor no es incompatible con la posible existencia de una posible correlación curvilínea. Si el valor es 1 indica una asociación perfecta entre las variables. Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a través de un ejemplo. Resultados estadísticos de un análisis de regresión múltiple Y = 102´18 + 0´387 X1 + 115´2 X2 + 6´73 X3 Coeficiente de determinación múltiple (R2) 0´845 Test F 14´5 Grados de libertad numerador = 3 y denominador. = 8 33
  35. 35. Análisis Multivariante El valor R2 = 0´845 nos indica que la variación de las variables independientes representa 84´5% de la varianza en la variable dependiente. Para probar la significación estadística se realiza el análisis ANOVA (la prueba o test F). Esta prueba permite probar las magnitudes relativas de la suma de cuadrados debidas a la regresión (SSr) y la suma de cuadrados de error (SSe), con sus correspondientes grados de libertad. La fórmula correspondiente es (SSr ) k F= (SSe ) (n − k − 1) Donde k es el número de variables independientes y n es el tamaño de la muestra o el número de observaciones o encuestas. Si consideramos que trabajamos con un nivel de significación del 5% el valor correspondiente para F en tablas con 3 y 8 grados de libertad en el numerador y denominador obtenemos que el valor es Ft = 4´07. Por consiguiente como el valor calculado es superior al correspondiente de tablas, obtenemos como conclusión que la relación existente entre las variables independientes y la dependiente no es una consecuencia de la aleatoriedad o azar. 34
  36. 36. Análisis Multivariante TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F NIVEL DE CONFIANZA 95% m N 1 2 3 4 5 1 161´4 199´5 215´7 224´6 230´2 2 18´51 19 19´16 19´25 19´30 3 10´13 9´55 9´28 9´12 9´01 4 7´71 6´94 6´59 6´39 6´26 5 6´61 5´79 5´41 5´19 5´05 6 5´99 5´14 4´76 4,53 4´39 7 5´59 4´74 4´35 4´12 3´97 8 5´32 4´46 4´07 3´84 3´69 9 5´12 4´26 3´86 3´63 3´48 10 4´96 4´10 3´71 3´48 3´33 11 4´84 3´98 3´59 3´36 3´20 12 4´75 3´89 3´49 3´26 3´11 13 4´67 3´81 3´41 3´18 3´03 14 4´6 3´74 3´34 3´11 2´96 15 4´54 3´68 3´29 3´06 2´90 Siendo m los grados de libertad del numerador y n los grados de libertad del denominador. 35
  37. 37. Análisis Multivariante 3.4 COLINEALIDAD La colinealidad se produce cuando las variables independientes introducidas en el modelo de regresión están correlacionadas entre ellas. Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén correlacionadas las variables independientes. Cuando una variable independiente se puede expresar como una combinación lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable, solucionando la colinealidad. El problema se produce cuando la correlación entre las X’s es alta o muy alta, pero sin llegar a ser total. Debemos ser conscientes de que en casi todos los modelos de regresión múltiple planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta no sea excesiva ni perjudicial. 3.4.1 MATRIZ DE CORRELACIONES Se trata de una matriz que tiene tantas filas y columnas como número de variables correlacionadas tengamos. En cada celda se indica el coeficiente de correlación entre las variables que se cruzan. La diagonal expresa la correlación de cada variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen vacías). La celdas por debajo de esta diagonal se dejan en blanco, ya que representan las correlaciones entre las casillas en orden invertido ( R12 = R21). 3.4.2 CORRELACIÓN PARCIAL La correlación múltiple se refiere a modelos en los que se relacionan más de dos variables independientes,. en este tipo de modelo es normal que si tratamos de hallar la correlación simple entre las variables dos a dos, esta no exprese el grado real de asociación entre dichas variables porque el resultado estará con toda seguridad afectado por la influencia en dicha asociación de las demás variables que intervienen en el modelo. Se trata de poder establecer la relación o asociación entre dos de las variables del modelo, eliminando la influencia del resto de variables. Esto es lo que se hace mediante los coeficientes de correlación parcial. Mediante estos coeficientes se puede establecer la correlación entre dos variables, controlando o eliminando el efecto en dicha correlación de otras variables del modelo. 36
  38. 38. Análisis Multivariante Existen diversos tipos de correlación parcial, según el número de variables que se controlan. Cuando no se controla ninguna variable, la correlación entre dos variables, es la correlación simple o total se denomina de orden cero, si hay una variable de control se denomina de orden uno, si se controlan dos variables se trata de una correlación de orden dos y así sucesivamente. 3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE La correlación parcial múltiple es una modalidad de correlación entre cuatro o más variables, que combina los tipos de correlación parcial y la múltiple Al medir la correlación de más de dos variables estamos realizando una correlación múltiple y si lo hacemos controlando una o más variables, es a su vez una correlación parcial. 3.4.4 MULTICOLINEALIDAD Se denomina multicolinealidad la existencia de una elevada correlación entre las variables independientes que forman parte del modelo. Se produce cuando las variables explicativas (X) están altamente correlacionadas entre si. Esta circunstancia perturba la explicación de los coeficientes de regresión estimados y sus errores estandar. Cuando esto sucede no es posible separar la influencia propia sobre la variable dependiente de cada una de las variables independientes, produciéndose el efecto de un incremento en los errores estándar de los coeficientes de regresión. La gravedad de la multicolinealidad dependerá del objetivo que se busque con el modelo. Si lo que pretendemos es predecir los valores de la variable dependiente (Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el efecto de cada variable independiente sobre la dependiente. 3.4.5 EFECTOS DE LA COLINEALIDAD La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto mayor sea la correlación entre las X’s: 37
  39. 39. Análisis Multivariante • Las desviaciones estándar de los coeficientes de regresión están sobreestimadas, con lo que aparecen como no significativos coeficientes que en realidad sí lo son. • Puede suceder que ninguno de los coeficientes de regresión sean distintos de cero (no son significativos) y que, a nivel conjunto, sí que lo sean. • Los coeficientes de regresión estimados no son consistentes, es decir, pueden cambiar al modificar la muestra o al introducir diferentes variables en el modelo. En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas están relacionadas). 3.4.6 FORMAS DE MEDIR LA COLINEALIDAD La colinealidad se puede medir de distintas formas: • Matriz de correlaciones de Pearson entre cada par de variables independientes. Da una idea pero no es concluyente. • Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la variable Xj frente a todas las demás X’s. • Factor de Inflación (o agrandamiento) de la Varianza: (FIV) =1/Tolerancia 38
  40. 40. Análisis Multivariante 3.4.6.1 NIVELES DE COLINEALIDAD Lo podemos resumir en el siguiente cuadro: Tolerancia VIF Colinealidad: Toler = 1 VIF = 1 No existe colinealidad 0,3 < Toler < 1 3,33 > VIF > 1 Poca: el modelo no suele presentar efectos (defectos) importantes 0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación 0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo Toler < 0,01 VIF > 100 Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes) 3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD Para dar solución a este problema se recurre al análisis factorial. Se aplica el análisis factorial a las variables independientes correlacionadas entre sí y se sustituyen sus valores por las puntuaciones de los factores obtenidos, que están absolutamente incorrelaccionados entre sí. 3.4.8 COEFICIENTES DE REGRESIÓN Lo podemos resumir en: Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis de regresión simple: 39
  41. 41. Análisis Multivariante H0 : βi = 0 (la Xi no influye sobre la Y) Ha : βi ≠ 0 Estadístico de prueba: t = Región de rechazo: se rechaza H0 si el nivel de βi ˆ significación observado es pequeño, menor que 0,05 Sβˆ i Observaciones: El modelo no será eficiente si incluye variables que no sean estadísticamente explicativas (las que tienen un coeficiente de regresión significativamente distinto de 0) Como cada Xi puede estar medida en diferentes unidades, la comparación de los coeficientes de correlación de las diferentes variables se ha de realizar mediante los coeficientes estandarizados 3.4.8.1 SIGNIFICACIÓN DE LOS COEFICIENTES DE REGRESIÓN El error estándar es la desviación típica estimada del coeficiente de regresión. El intervalo de confianza es el intervalo para el que se establece una probabilidad de que el verdadero valor del coeficiente de regresión esté contenido entre los límites del mismo. La significación del mismo se realiza mediante el estadístico “t” de Student Coeficiente de regresión t= Error estándar Normalmente se contrasta para α = 5% 3.4.8.2 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida). Sx Sy Beta1 = B1 ⋅ o B1 = Beta1 ⋅ Sy Sx 40
  42. 42. Análisis Multivariante 3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN Se utiliza para contrastar la hipótesis de dependencia lineal entre la variable dependiente (Y) y las variables independientes (X) La varianza total de la variable dependiente se divide en • Atribuida al modelo de regresión • Residuo no explicado por el modelo 3.5 MODELOS CON VARIABLES FICTICIAS Una de la condiciones del análisis de regresión es que las variables deben estar medidas en una escala métrica. Este análisis también se puede aplicar a variables cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el álgebra de Boole, dando el valor 1 a la posesión del atributo y el 0 a la carencia. 41
  43. 43. Análisis Multivariante 3.6 TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT Valores de la función de distribución g.l. = grados de libertad tc tal que p(t<=tc)=p Probabilidad p g.l. 0,995 0,990 0,975 0,950 0,900 0,800 0,750 0,700 0,600 0,550 1 63,657 31,821 12,706 6,314 3,078 1,376 1,000 0,727 0,325 0,158 2 9,925 6,965 4,303 2,920 1,876 1,061 0,816 0,617 0,289 0,142 3 5,841 4,451 3,183 2,353 1,638 0,978 0,765 0,584 0,277 0,137 4 4,604 3,747 2,786 2,132 1,533 0,941 0,741 0,569 0,271 0,134 5 4,032 3,365 2,571 2,015 1,478 0,920 0,727 0,559 0,267 0,132 6 3,707 3,143 2,457 1,943 1,440 0,906 0,718 0,553 0,265 0,131 7 3,499 2,998 2,365 1,895 1,415 0,896 0,711 0,549 0,263 0,130 8 3,355 2,895 2,306 1,860 1,397 0,889 0,706 0,546 0,262 0,130 9 3,250 2,821 2,262 1,833 1,383 0,883 0,703 0,543 0,261 0,129 10 3,169 2,764 2,228 1,812 1,372 0,879 0,700 0,542 0,260 0,129 11 3,106 2,728 2,201 1,796 1,363 0,876 0,697 0,540 0,260 0,129 12 3,055 2,681 2,179 1,782 1,356 0,873 0,695 0,539 0,259 0,128 13 3,012 2,650 2,160 1,771 1,350 0,870 0,694 0,538 0,259 0,128 14 2,987 2,624 2,145 1,761 1,345 0,868 0,692 0,537 0,258 0,128 15 2,947 2,602 2,131 1,753 1,341 0,866 0,691 0,536 0,258 0,128 16 2,921 2,583 2,120 1,746 1,337 0,865 0,690 0,535 0,258 0,128 17 2,898 2,567 2,110 1,740 1,333 0,863 0,689 0,534 0,257 0,128 18 2,888 2,552 2,101 1,734 1,330 0,862 0,688 0,534 0,257 0,127 19 2,861 2,539 2,093 1,729 1,328 0,861 0,688 0,533 0,257 0,127 20 2,845 2,528 2,086 1,725 1,325 0,860 0,687 0,533 0,257 0,127 21 2,831 2,518 2,080 1,721 1,323 0,859 0,686 0,532 0,257 0,127 22 2,819 2,508 2,074 1,717 1,321 0,858 0,686 0,532 0,256 0,127 23 2,807 2,500 2,069 1,714 1,319 0,858 0,685 0,532 0,256 0,127 24 2,797 2,492 2,064 1,711 1,318 0,857 0,685 0,531 0,256 0,127 25 2,787 2,485 2,060 1,708 1,316 0,856 0,684 0,531 0,256 0,127 26 2,779 2,479 2,056 1,706 1,315 0,856 0,684 0,531 0,256 0,127 27 2,771 2,473 2,052 1,703 1,314 0,855 0,684 0,531 0,256 0,127 28 2,763 2,467 2,048 1,701 1,313 0,855 0,683 0,530 0,256 0,127 29 2,756 2,462 2,045 1,699 1,311 0,854 0,683 0,530 0,256 0,127 30 2,750 2,457 2,042 1,697 1,310 0,854 0,683 0,530 0,256 0,127 40 2,704 2,423 2,021 1,684 1,303 0,851 0,681 0,529 0,255 0,126 60 2,660 2,390 2,000 1,671 1,296 0,848 0,679 0,527 0,254 0,126 42
  44. 44. Análisis Multivariante 3.7 EJEMPLO 1 Se quiere estudiar las ventas en función de las inversiones en publicidad, promoción, el número de vendedores y el de puntos de venta (Tienda). Para ello se tienen en cuenta los siguientes resultados3 VENTAS PUBLICIDAD PROMOCIÓN VENDEDORES TIENDAS 1400 52 130 25 300 1500 60 145 30 400 2000 80 150 30 500 1990 95 200 27 500 2100 87 180 35 400 2300 100 150 32 357 2200 94 150 36 287 2700 125 125 34 197 2750 136 98 26 146 2600 124 100 30 150 2763 132 87 28 160 3469 190 100 31 198 3165 197 102 42 300 3400 175 198 29 234 3759 186 212 18 126 3896 213 129 21 157 3895 231 142 20 134 4123 248 167 19 128 4230 257 198 21 115 4567 340 158 18 116 3986 425 98 21 138 3 Tratamiento mediante programa DYANE.3 43
  45. 45. Análisis Multivariante ANÁLISIS DE REGRESIÓN MÚLTIPLE IDENTIFICACIÓN DE LAS VARIABLES VARIABLE DEPENDIENTE: VENTAS VARIABLES INDEPENDIENTE 1: inversión en publicidad VARIABLES INDEPENDIENTE 2: inversión en promoción VARIABLES INDEPENDIENTE 3: número de vendedores VARIABLES INDEPENDIENTE 4: número de puntos de venta Matriz de coeficientes de correlación simple: ventas publicid promo vendedor tiendas -------- -------- -------- -------- -------- ventas 1.0000 0.8868 0.0884 -0.5988 -0.7814 publicid 0.8868 1.0000 -0.0652 -0.5631 -0.6666 promo 0.0884 -0.0652 1.0000 -0.2779 0.2304 vendedor -0.5988 -0.5631 -0.2779 1.0000 0.5508 tiendas -0.7814 -0.6666 0.2304 0.5508 1.0000 Coeficiente de determinación: 0.9033 Coeficiente de correlación múltiple: 0.9504 Coeficiente de regresión alfa: 1416.4829
  46. 46. Análisis Multivariante COEFIC. SUMA DE PROPORC. DESVIACIÓN COEFICIENTE ERROR T DE CORREL. CUADRADOS VARIANZA VARIABLE MEDIA ESTÁNDAR REGRESIÓN ESTÁNDAR STUDENT PARCIAL AÑADIDA AÑADIDA -------- -------------- -------------- ----------- ---------- -------- ------- -------------------- -------- ventas 2990.1429 946.7194 publicid 168.9048 94.4955 6.5105 1.1022 5.9068 0.8280 14098343.7977 0.7865 p=0.0000 promo 143.7619 38.4862 6.4704 2.2696 2.8509 0.5804 384920.6320 0.0215 p=0.0116 vendedor 27.2857 6.6268 13.4207 16.0705 0.8351 0.2044 86916.2111 0.0048 p=0.4160 tiendas 239.7619 127.1314 -3.4300 0.8869 -3.8672 -0.6951 1621077.2282 0.0904 p=0.0014 -------------------- -------- 16191257.8689 0.9033 45
  47. 47. Análisis Multivariante ANÁLISIS DE LA VARIANZA FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS ---------------------- --------------- --------------------- --------------------- Debida a la regresión: 4 16191257.8689 4047814.4672 Residuo: 16 1734292.7025 108393.2939 --- --------------------- Varianza total: 20 17925550.5714 F de Snedecor con 4 y 16 grados de libertad = 37.3438 (p= 0.0000) 46
  48. 48. Análisis Multivariante ANEXO: A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S IDENTIFICACIÓN DE LAS VARIABLES ------------------------------- VARIABLE 1 : inversión en publicidad VARIABLE 2 : inversión en promoción VARIABLE 3 : número de vendedores VARIABLE 4 : número de puntos de venta Matriz de coeficientes de correlación simple -------------------------------------------- publicid promo vendedor tiendas -------- -------- -------- -------- publicid 1.0000 -0.0652 -0.5631 -0.6666 promo -0.0652 1.0000 -0.2779 0.2304 vendedor -0.5631 -0.2779 1.0000 0.5508 tiendas -0.6666 0.2304 0.5508 1.0000 Test de Bartlett ---------------- Determinante de la matriz de correlación = 0.247672 Ji cuadrado con 6 grados de libertad = 24.8891 (p = 0.0004) FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 -------- -------- -------- -------- VALOR PROPIO: 2.1890 1.1866 0.3582 0.2662 % DE VARIANZA: 54.72% 29.67% 8.95% 6.65% % VAR.ACUMUL.: 54.72% 84.39% 93.35% 100.00% CARGAS DE LOS FACTORES: COMUNALIDAD ----------- publicid -0.8756 -0.0778 0.4658 0.1018 1.0000 promo 0.0272 0.9698 0.1193 -0.2111 1.0000 vendedor 0.8125 -0.4079 0.3109 -0.2771 1.0000 tiendas 0.8726 0.2716 0.1742 0.3668 1.0000 COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: publicid -0.4000 -0.0656 1.3004 0.3825 promo 0.0124 0.8172 0.3332 -0.7929 vendedor 0.3712 -0.3437 0.8678 -1.0409 tiendas 0.3986 0.2288 0.4863 1.3778 47
  49. 49. Análisis Multivariante Cargas de los factores retenidos: --------------------------------- FACTOR 1 FACTOR 2 COMUNALIDAD -------- -------- ----------- publicid -0.8756 -0.0778 0.7727 promo 0.0272 0.9698 0.9412 vendedor 0.8125 -0.4079 0.8266 tiendas 0.8726 0.2716 0.8351 ROTACIÓN VARIMAX: Cargas de los factores retenidos (después de la rotación): ---------------------------------------------------------- FACTOR 1 FACTOR 2 COMUNALIDAD -------- -------- ----------- publicid -0.8777 -0.0470 0.7727 promo 0.0612 0.9682 0.9412 vendedor 0.7977 -0.4362 0.8266 tiendas 0.8816 0.2407 0.8351 VARIANZA: 2.1877 1.1879 % DE VARIANZA: 54.69% 29.70% % VAR.ACUMUL.: 54.69% 84.39% 48
  50. 50. Análisis Multivariante 3.8 EJEMPLO2 4 A través de un análisis factorial, una empresa de suavizantes ha determinado que los tres conceptos básicos que caracterizan a su producto son: Suavidad, Aroma y Cremosidad. Ahora quiere comprobar cuál o cuáles de ellos influye/n en la intención de compra. Estadísticos descriptivos Desviación Media típ. N Intención de compra 3.72 1.12 830 Suavidad .00 1.00 830 Aroma .00 1.00 830 Cremosidad .00 1.00 830 Correlaciones Intención de compra Suavidad Aroma Cremosidad Correlación Intención de 1.000 .565 .458 .238 de Pearson compra Suavidad .565 1.000 .000 .000 Aroma .458 .000 1.000 .000 Cremosidad .238 .000 .000 1.000 Sig. Intención de . .000 .000 .000 (unilateral) compra Suavidad .000 . .500 .500 Aroma .000 .500 . .500 Cremosidad .000 .500 .500 . N Intención de 830 830 830 830 compra Suavidad 830 830 830 830 Aroma 830 830 830 830 Cremosidad 830 830 830 830 Como se puede apreciar en estas tablas, éste es un ejemplo peculiar pues entre las variables independientes no existe ninguna correlación. Esto es lógico pues el análisis factorial de componentes principales con rotaciones ortogonales genera variables no correlacionadas entre ellas. Por otro lado, las variables obtenidas están estandarizadas (media 0, desviación típica 1) y así deberán ser interpretadas. 4 Autor: Teresa Obis ( Profesora Titular Universidad Autónoma de Barcelona UAB) 49
  51. 51. Análisis Multivariante Resumen del modelo R R cuadrado Error típ. de la Modelo R cuadrado corregida estimación 1 .765a .586 .584 .72 a. Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad ANOVAb Suma de Media Modelo cuadrados gl cuadrática F Sig. 1 Regresión 606.060 3 202.020 389.513 .000a Residual 428.404 826 .519 Total 1034.464 829 a. Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad b. Variable dependiente: Intención de compra A nivel global el modelo obtenido es satisfactorio. Se ha conseguido explicar el 58,6% de la variabilidad total de Y, la intención de compra. Además, como se puede ver en la tabla ANOVA, esta varianza explicada es suficientemente grande respecto a la residual con lo que este modelo es capaz de explicar los cambios producidos en la Intención de compra. Coeficientesa Coeficientes no Coefic. Intervalo de confianza estandarizados estandar. para B al 95% Error Límite Límite B típ. Beta t Sig. inferior superior 1 (Constante) 3.717 .025 148.689 .000 3.668 3.766 Suavidad .631 .025 .565 25.228 .000 .582 .680 Aroma .512 .025 .458 20.465 .000 .463 .561 Cremosidad .266 .025 .238 10.644 .000 .217 .315 a. Variable dependiente: Intención de compra A nivel individual, todos los coeficientes de regresión son significativamente distintos de 0. Por ello, todas las variables incluidas en el modelo aportan explicación sobre la Intención de compra. En concreto, por una unidad estándar de Suavidad, la Intención de compra aumenta en 0,631 puntos (en una escala de 1 a 5). Una unidad estándar de Aroma provoca un aumento, en promedio, de 0,512 puntos en la Intención de compra y una de Cremosidad de 0,266 puntos. Obsérvese como en este caso las Betas coinciden con las correlaciones de Pearson entre cada una de las variables independientes y la dependiente. Esto es lógico ya que, no al existir correlación entre las X’s, cada una de ellas aporta al modelo lo mismo que es capaz de explicar individualmente. 50
  52. 52. Análisis Multivariante ANEXO Caso: Inmobiliaria Nuez (Teresa Obis Artal) 51
  53. 53. Análisis Multivariante 4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS El modelo de regresión lineal de primer orden y = β0 + β1x + ε donde: y = variable dependiente o variable a explicar x = variable independiente o variable explicativa ε (epsilon) = error o perturbación aleatoria β0 = origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y. β1 = pendiente de la recta o coeficiente de regresión: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente. Qué nos interesa: 1. Cómo se calculan los coeficientes de regresión, β0 y β1 2. Cómo se interpretan 3. Cómo se determina si son o no estadísticamente significativos 4. Cómo se comprueban las hipótesis del modelo 52
  54. 54. Análisis Multivariante 4.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN POR MÍNIMOS CUADRADOS ORDINARIOS Con los datos de la muestra se pueden estimar los parámetros desconocidos del modelo del siguiente modo: y = β0 + β1x + ε ∃ ∃ y = β0 + ∃ β1 x ∃ ∃ y i = β0 + 40xi ∃ ∃ ∃ yi - y i = yi - ( β 0 + β1 xi) n SSE (Suma de Errores al Cuadrado) = ∑ [ yi - ( β 0 + β1 x )] ∃ ∃ i 2 i =1 La recta de mínimos cuadrados ordinarios es, precisamente, aquella que minimiza la suma de los errores cuadrados. Fórmulas para obtener los estimadores mínimos cuadrados Pendiente: ∃ SSxy β1 = Origen: ∃ β0 = ∃ y - β1 x SSxx donde SSxy = n ∑ xi yi − ( )( ) n ∑ xi i =1 n ∑ yi i =1 i=1 n ( ∑x) n 2 n i SSxx = ∑x − 2 i i=1 i=1 n n = tamaño de la muestra Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (los errores) 53
  55. 55. Análisis Multivariante 5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL La Inmobiliaria Nuez ha recibido quejas de dos de sus clientes, acusándola de que vende los pisos por debajo del precio de mercado. Para demostrar su buen hacer, el gerente de esta inmobiliaria ha conseguido información sobre ventas de pisos de los últimos cuatro meses de su inmobiliaria y de otros competidores. En el fichero de datos se dispone del precio de venta del piso así como de la superficie del mismo (en m2), el número de habitaciones, la antigüedad de la vivienda, en qué zona se localiza, el mes de la venta y si lo ha vendido la Inmobiliaria Nuez u otra agencia. ¿El precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido? Descriptivos precio vivienda (miles euros) Intervalo de confianza para la Desvia- media al 95% ción Error Límite Límite N Media típica típico inferior superior Mínimo Máximo Otra 469 56,697 10,931 ,505 55,706 57,689 31,205 89,819 Nuez 49 52,477 8,920 1,274 49,915 55,039 35,000 78,494 Total 518 56,298 10,820 ,475 55,364 57,232 31,205 89,819 CONCEPTOS BÁSICOS: Media: es la suma de los valores de las observaciones dividido por el número de observaciones. Desviación típica: raíz cuadrada positiva de la suma de cuadrados de las distancias entre la media y cada elemento, dividido por el número total de observaciones (menos una). Es decir, es una distancia promedio entre las observaciones y la media. Error típico: se calcula como la desviación típica divida por la raíz de n (tamaño de la muestra). Es la desviación típica de la distribución muestral de las medias. Es decir, es la distancia promedio entre las medias de distintas muestras y la media de la población. Intervalo de confianza para la media al 95%: se calcula como la media de la muestra ±1,96 veces el error típico. Es el intervalo donde se encuentra la media de la población al 95% de confianza. 5.1 COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS: ¿Cómo influye la superficie de la vivienda en el precio de la misma? 54
  56. 56. Análisis Multivariante Coeficientesa Coeficientes no Coeficientes estandarizados estandarizados B Error típ. Beta t Sig. (Constante) 13,819 1,874 7,374 ,000 1 superficie de la vivienda (m2) ,477 ,021 ,712 23,037 ,000 a. Variable dependiente: precio vivienda (miles euros) Constante β 0: En el origen, cuando todas las variables son cero (es decir, un piso sin superficie) el precio del piso es de 13819 Euros. Pendiente β 1: Por cada m² de más del piso, su precio aumenta en 477 Euros. 5.2 CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β 0 Y β 1 Coeficientesa Coeficientes no Coeficientes estandarizados estandarizados B Error típ. Beta t Sig. (Constante) 13818,516 1873,995 7,374 ,000 1 superficie de la vivienda (m2) 477,027 20,707 ,712 23,037 ,000 a. Variable dependiente: precio de la vivienda (euros) Coeficientesa Coeficientes no Coeficientes estandarizados estandarizados B Error típ. Beta t Sig. (Constante) ,013819 ,001874 7,374 ,000 1 superficie de la vivienda (m2) ,000477 ,000021 ,712 23,037 ,000 a. Variable dependiente: precio de la vivivenda (millones euros) Coeficientesa Coeficientes no Coeficientes estandarizados estandarizados B Error típ. Beta t Sig. (Constante) 13,819 1,874 7,374 ,000 1 superficie vivienda (cm2) ,0000477 ,0000021 ,712 23,037 ,000 a. Variable dependiente: precio vivienda (miles euros) 5.3 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida). Beta0: Al restar las medias, la constante estándar siempre es 0 55
  57. 57. Análisis Multivariante Sx Sy Beta1 = B1 ⋅ o B1 = Beta1 ⋅ Sy Sx Coeficientesa Coeficientes no Coeficientes estandarizados estandarizados B Error típ. Beta t Sig. (Constante) 13,819 1,874 7,374 ,000 1 superficie de la vivienda (m2) ,477 ,021 ,712 23,037 ,000 a. Variable dependiente: precio vivienda (miles euros) COEFICIENTES DE REGRESIÓN ESTANDARIZADOS: Constante βETA0: la recta 100 de regresión con variables 90 estandarizadas pasa siempre 80 precio vivienda (miles euros) por el origen. Cuando se 70 60 estandarizan las variables se 50 hace un cambio de ejes y se 40 sitúan en el valor medio de 30 X e Y, por donde pasa la 40 60 80 100 120 140 superficie de la vivienda (m2) recta de regresión Pendiente βETA1: Por cada unidad estándar de más de superficie del piso, el precio aumenta en 0,712 unidades estándares de precio Estadísticos descriptivos Desviación Media típ. N precio vivienda (miles euros) 56,298 10,820 518 superficie de la vivienda (m2) 89,05 16,15 518  u.e. Y  ( 10,82 miles euros u.e. Y )  miles euros    u.e. X    ( ) 0,712  • = 0, 477   16,15 m 2 u.e. X  m2  5.4 COEFICIENTE DE CORRELACIÓN DE PEARSON El coeficiente de correlación de Pearson, ρ o R, es una medida que resume la relación lineal [recta] existente entre dos variables. 56
  58. 58. Análisis Multivariante =∑ SSxy ( x i − x )( yi − y) ρ= SSxx SS yy (n − 1)s x s y De esta forma, se dispone de una medida de la relación entre x e y que no depende de las unidades de las variables originales. De hecho, el coeficiente de correlación de Pearson es el coeficiente de regresión (pendiente de la recta) cuando las variables x e y se introducen en el modelo de forma estandarizada (Beta). 100 100 90 90 80 80 precio vivienda (miles euros) precio vivienda (miles euros) 70 70 60 60 50 50 40 40 30 30 40 60 80 100 120 140 -2 0 2 4 6 8 10 superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Correlación positiva Correlación negativa 100 100 90 90 80 80 precio vivienda (miles euros) 70 precio vivienda (miles euros) 70 60 60 50 50 40 40 30 0 2 4 6 8 10 12 14 30 0 10 20 Antigüedad de la casa (años) Distancia centro (Km) Sin correlación Sin correlación lineal El coeficiente de correlación de Pearson toma valores entre –1 y 1. Cuando más próximo a ±1 sea, mayor será la relación lineal existente entre las dos variables (positiva o negativa). Si la correlación de Pearson es 0, no existe relación rectilínea entre las dos variables. En este caso B1 también será igual a 0. 57
  59. 59. Análisis Multivariante Estadísticos descriptivos N Mínimo Máximo Media Desv. típ. precio vivienda (miles euros) 518 31.205 89.819 56.298 10.820 superficie de la vivienda (m2) 518 51 137 89.05 16.15 Arreglos (de 0 -nada- a 10) 518 .00 9.50 5.10 1.70 Antigüedad de la casa (años) 518 1 13 6.18 2.08 Distancia centro (Km) 518 .88 19.46 10.57 5.21 N válido (según lista) 518 Correlaciones precio superfici Arreglos Antigüed vivienda e de la (de 0 ad de la Distanci (miles vivienda -nada- a casa a centro euros) (m2) 10) (años) (Km) precio vivienda Correlación Pearson 1.000 .712** -.667** -.004 .061 (miles euros) Sig. (bilateral) . .000 .000 .930 .163 N 518 518 518 518 518 superficie de la Correlación Pearson .712** 1.000 -.951** .055 -.002 vivienda (m2) Sig. (bilateral) .000 . .000 .214 .966 N 518 518 518 518 518 Arreglos (de 0 Correlación Pearson -.667** -.951** 1.000 -.069 -.014 -nada- a 10) Sig. (bilateral) .000 .000 . .116 .748 N 518 518 518 518 518 Antigüedad de Correlación Pearson -.004 .055 -.069 1.000 -.014 la casa (años) Sig. (bilateral) .930 .214 .116 . .755 N 518 518 518 518 518 Distancia Correlación Pearson .061 -.002 -.014 -.014 1.000 centro (Km) Sig. (bilateral) .163 .966 .748 .755 . N 518 518 518 518 518 **. La correlación es significativa al nivel 0,01 (bilateral). Entre el precio de la vivienda y las otras cuatro variables aparecen 2 correlaciones próximas a 1 (lo que indica relación lineal entre cada una de ellas y el precio) y otras 2 correlaciones próximas a 0 (lo que indica que no existe relación entre ellas y el precio, o que la relación no es rectilínea) 58

×