1 Semana Analisis Multivariante

12,879 views
12,524 views

Published on

Published in: Education
1 Comment
4 Likes
Statistics
Notes
No Downloads
Views
Total views
12,879
On SlideShare
0
From Embeds
0
Number of Embeds
51
Actions
Shares
0
Downloads
571
Comments
1
Likes
4
Embeds 0
No embeds

No notes for slide

1 Semana Analisis Multivariante

  1. 1. UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS   FACULTAD DE CIENCIAS MATEMÁTICAS ( Universidad del Perú, DECANA DE AMERICA) Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA SEMESTRE 2009-II
  2. 2. QUÉ ES EL ANÁLISIS MULTIVARIANTE? Es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo ú objeto estudiado. Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariantes y bivariantes no pueden proporcionar.
  3. 3. Así, como Hair et al. (1999) dicen: “ Las mujeres y hombres de negocios de hoy no pueden seguir aproximaciones ya pasadas en las que los consumidores eran considerados homogéneos y caracterizados por un número pequeño de variables demográficas. En su lugar, deben desarrollar estrategias que atraigan a numerosos segmentos de clientes con características demográficas y psicográficas diversas en un mercado con múltiples restricciones (legales, económicas, competitivas, tecnológicas, etc). Sólo a través del análisis multivariante las relaciones múltiples de este tipo podrán ser examinadas adecuadamente para obtener un entendimiento más completo y real del entorno que permita tomar las decisiónes más adecuadas .”  
  4. 4. <ul><li>Es una metodología estadística sofisticada, mucho más potente, que utiliza los métodos del álgebra lineal, matricial, cálculo numérico, geometría lineal, entre otras. </li></ul><ul><li>Los métodos de análisis multivariante se diferencian unos de otros, según su área de aplicación se refiera a una o más problemas y según se requiera uno o más grupo de variables . </li></ul>
  5. 5. <ul><ul><li>Objetivos del Análisis Multivariante </li></ul></ul><ul><li>Pueden sintetizarse en dos: </li></ul><ul><li>1) Proporcionar métodos cuya finalidad es el estudio conjunto de datos multivariantes que el análisis estadístico uni y bidimensional no pueden conseguir. </li></ul><ul><li>2) Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en el que se encuentre teniendo en cuenta la información disponible por el conjunto de datos analizado. </li></ul>
  6. 6. <ul><li>TIPOS DE TECNICAS MULTIVARIANTES </li></ul><ul><li>Se pueden clasificar en tres grandes grupos: </li></ul><ul><li>1)   Métodos de dependencia </li></ul><ul><li>Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma. </li></ul><ul><li>  </li></ul><ul><li>2)     Métodos de interdependencia </li></ul><ul><li>Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué. </li></ul><ul><li>  </li></ul><ul><li>3)     Métodos estructurales </li></ul><ul><li>Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es análizar, no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí. </li></ul>
  7. 7. CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES El tipo de relación que está siendo examinadas es de: Dependencia Interdependencia. La estructura de la relación es entre: Variables. C.P. Análisis Factorial Modelos loglineal. Casos. Análisis Cluster Objetos. Escalamiento multidimensional. Análisis de Corresponden -cias una Variable dependiente Varias Variables dependientes Métrica. Regresión Múltiple. Análisis de supervivencia. No métrica. Análisis Discriminante. Modelos de Regresión Logística. Análisis Conjunto. Métricas. Manova. Correlación Canónica.  
  8. 8. FASES PRINCIPALES DE UNA INVESTIGACIÓN MULTIVARIANTE <ul><li>Definir el problema de Investigación </li></ul><ul><li>Objetivos; diseño e hipótesis </li></ul><ul><li>Técnica Multivariante a utilizar. </li></ul>Desarrollo del Proyecto de Análisis Evaluación de los supuestos de la Técnica Multivariante <ul><li>Estimación del modelo Multivariante. </li></ul><ul><li>Valoración del Ajuste del Modelo. </li></ul>Interpretación de los valores Teóricos Validación del Modelo Multivariante    
  9. 9. <ul><li>APLICACIONES DE LAS TÉCNICAS MULTIVARIANTES </li></ul><ul><li>Medicina </li></ul><ul><li>Evaluar la presencia o ausencia de determinados síntomas clínicos para diagnosticar la enfermedad de un paciente (análisis discriminante). </li></ul><ul><li>Para estimar la probabilidad de que la sintomatología de una determinada enfermedad reaparezca antes de un período determinado, conocidos el tiempo de respuesta al tratamiento y los distintos hábitos del paciente, (Regresión logística). </li></ul><ul><li>Se tabula las frecuencias de ciertos estímulos y sus respuestas. Interesa obtener una representación bidimensional de las correspondencias entre estímulos y respuestas (Análisis Factorial de Correspondencia). </li></ul>
  10. 10. <ul><li>Biología : </li></ul><ul><li>Se miden diferentes variables biométricas en los individuos de una misma especie. Se desea detectar componentes de tamaño y forma (Análisis de Componentes Principales). </li></ul><ul><li>Las observaciones de “p” variables biométricas representativas de los individuos de una especie, se obtienen para estudiar la variabilidad entre diferentes especies o razas geográficas (Análisis Canónicos). </li></ul>
  11. 11. Sociología: Con referencia a determinadas características sociales, políticas y geográficas se mide la similaridad de un grupo de naciones. (Escalamiento Multdimensional). Psicología : Los resultados de un test de inteligencia de “n” ítems basados en una muestra. Para detectar los factores de la inteligencia (Análisis Factorial).
  12. 12. <ul><li>Investigación de Mercados : </li></ul><ul><li>1.Se quiere determinar los beneficios subyacentes que buscan los consumidores en la compra de una pasta dental. (Análisis Factorial). </li></ul><ul><li>2. Para el análisis de percepciones y preferencias del consumidor (Escalamiento Multidimensional). </li></ul>
  13. 13. <ul><li>TAREA </li></ul><ul><li>El estudiante realizará un resumen sobre las clases de variable y los tipos de escala de medida, con sus respectivos ejemplos. </li></ul>
  14. 14. MATRIZ DE DATOS Llamaremos X a la matriz de datos y x ij a su elemento genérico que representa el valor de la variable j sobre el individuo i. donde i = 1, ..., n y j = 1, ..., p. La matriz de datos X tendrá dimensiones n × p y puede representarse de dos formas distintas. Por filas como: donde cada variable X’ i es un vector fila p ×1 que representa los valores de las p variables sobre el individuo “i”.
  15. 15. Alternativamente podemos representar la matriz X por columnas: donde ahora cada variable X j es un vector columna n × 1 que representa la variable “j”, medida en los n elementos de la población.
  16. 16. ESTADÍSTICOS MULTIVARIADOS Vector de Medias muestral Es la medida de centralización más utilizada para describir datos multivariantes, tiene dimensión p y recoge las medias de cada una de las p variables. Se calcula fácilmente mediante:
  17. 17. Ejemplo: Se obtuvo la siguiente información de un grupo de PEC que atienden a niños y niñas de cero a dos años, mediante una ficha de observación de desempeño en el aula en la región de Apurimac.
  18. 19. Matriz de varianzas-covarianzas muestral , es una medida de dispersión La variabilidad de los datos y la información relativa a las relaciones lineales entre las variables se resumen en la matriz de varianzas y covarianzas. Esta matriz es cuadrada y simétrica de orden p, donde los términos diagonales son las varianzas y los no diagonales, las covarianzas entre las variables. Llamando S a esta matriz, tendremos que, por definición:
  19. 20. Se calcula : EJEMPLO: Tarea: ¿Qué es una matriz definida positiva?
  20. 21. <ul><li>MEDIDAS GLOBALES DE VARIABILIDAD </li></ul><ul><li>1)Varianza Total, es una medida global de dispersión para un conjunto de variables medidas en escala métrica. </li></ul>2)Varianza media, es una medida de dispersión promedio de un conjunto de variables medidas en escala métrica. Inconveniente: no considera la estructura de dependencia de las variables y las unidades de medida de las variables.
  21. 22. Ejemplos
  22. 23. 3) Varianza Generalizada <ul><li>Una medida global escalar de la variabilidad conjunta de k variables es la varianza generalizada, que es el determinante de la matriz de varianzas y covarianzas. Su raíz cuadrada se denomina desviación típica generalizada, y tiene las propiedades siguientes: </li></ul><ul><li>Está bien definida, ya que el determinante de la matriz de varianzas y covarianzas es siempre mayor o igual que 0. </li></ul><ul><li>(ii) Es una medida del área (para p = 2), volumen (para p = 3) o hipervolumen (para k > 3) ocupado por el conjunto de datos. </li></ul>
  23. 24. Interpretación geométrica : Cuando p =2
  24. 25. La varianza generalizada en  p Observación: No es útil para comparar conjuntos de datos con diferentes números de variables. Debido a que la VG se incrementa o decrece monótonamente al incrementar el número de variables.
  25. 26. 4) Varianza Efectiva, Peña y Rodríguez (2003) propusieron la siguiente medida global de variabilidad: No presenta los inconvenientes de la varianza generalizada.
  26. 27. EJEMPLO
  27. 28. Variabilidad y Distancias <ul><li>Dados dos vectores x k , x l  p , la función “d” es una distancia o métrica con las siguientes propiedades: </li></ul><ul><li>i) d:  p x  p   + ; es decir d( x k , x l )  0 </li></ul><ul><li>ii) d( x k , x k )= 0 </li></ul><ul><li>iii) d( x k , x l ) = d( x l , x k ) </li></ul><ul><li>iv) d( x k , x l ) = d( x k , x m ) + d( x m , x l ) ( desigualdad triangular) </li></ul>y x y x d   ) , (
  28. 29. Una familia de medidas de distancias muy conocidas en  p son las distancias de Minkowski: Cuando r =2 se tiene la distancia euclídea, que es la más utilizada, pero depende de las unidades de medida. Ejemplo : Para los datos de las PEC
  29. 30. Para eliminar el efecto de las unidades de medida de las variables se utiliza la familia de métricas euclídeas ponderadas:
  30. 31. M es una matriz diagonal, aunque no es necesario, pero debe ser no singular y definida positiva. 1) Distancia de Mahalanobis, se define como: Esta libre de unidades de medidas y mide la distancia de cada individuo con respecto a su vector de medias. EJEMPLO: Consideremos las primeras cuatro variables de las PEC
  31. 33. d 1 = 1,3128 d 2 =1,7670 d 3 = 1,9849 d 4 =1,9535 d 5 =1,8501 d 6 =1,9939 Los resultados de las Distancias de mahalanobis son:
  32. 34. Medidas de Dependencia lineal <ul><li>Permite evaluar la estructura de dependencia entre las variables bajo estudio. </li></ul><ul><li>Matriz de Correlación; el grado de asociación lineal entre dos variables se estudia mediante el coeficiente de correlación simple. </li></ul>R es una matriz simétrica, cuadrada y definida positiva.
  33. 35. Ejemplo:
  34. 36. <ul><li>2) Correlación Múltiple, permite evaluar el grado de asociación de una variable “j” con el resto de variables. </li></ul><ul><li>Para calcular, seguir los siguientes pasos: </li></ul><ul><li>Tomar el j-ésimo elemento de la diagonal de la matriz de varianza-covarianzas, al que se denotara por s jj. </li></ul><ul><li>Tomar el j-ésimo elemento de la diagonal de la inversa de la matriz de varianza-covarianzas, al que se denotara por s jj . </li></ul>R 1 = 0.9584 R 2 =0.9379 R 3 = 0.9263 R 4 =0.9139
  35. 37. 3) Correlaciones Parciales; mide el grado de asociación entre dos variables controlando el efecto de las otras variables. Trabajamos con la matriz inversa de la matriz de varianzas-covarianzas. EJEMPLO :
  36. 38. 4)Coeficiente de Dependencia efectiva; es una medida global de la dependencia de los datos: Si las variables están todas incorrelacionadas, se tiene que  R  = 1 y si las variables están correlacionadas  R  = 0 Ejemplo: Para las 4 variables medidas a las PEC, se tiene : CDE = 0.8009 Globalmente la dependencia lineal explica el 80.09% de la variabilidad de los puntajes de las variables consideradas.
  37. 39. <ul><li>5) Matriz de precisión , es la inversa de la matriz de varianzas-covarianzas, y contiene la siguiente información: </li></ul><ul><li>Los elementos fuera de la diagonal ( s ij ) son los elementos de esta matriz.; y es el cociente del coeficiente de regresión de la variable “j” para explicar “i” y la varianza residual de la regresión. </li></ul><ul><li>En la diagonal se encuentran las inversas de las varianzas residuales de la regresión de cada variable conel resto de ellas. </li></ul><ul><li>Si se estandarizan los elementos de esta matriz , los elementos fuera de la diagonal son las correlaciones parciales. </li></ul>
  38. 40. Ejemplo:
  39. 41. <ul><li>Bibliografía </li></ul><ul><li>  </li></ul><ul><li>[ 1] ANDERSON T.W.: An Introduction to Multivariate Analysis. 2 nd Edition. John Wil ey & Sons. </li></ul><ul><li>[2] BERNARD FLURY. 1997. A First Course in Multivariate Statistics. Editorial Springer – Verlag. New York Inc. </li></ul><ul><li>[3] CASTRO POSADA. 2000. Estadística Multivariante. Análisis de Correlaciones Amaru Ediciones Melendez 21. Salamanca. España. </li></ul><ul><li>[4] CARLES M. CUADRAS, 2007. Nuevos Métodos de Análisis Multivariante . CMC EDITIONS. España </li></ul><ul><li>  [5] DANIEL PEÑA, 2002. Análisis de Datos Multivariados. McGRAW-HILL/ Interamericana de España. </li></ul><ul><li>  [6] URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005 Análisis Multivariante Aplicado. Editorial Thompson Editores. España.  </li></ul><ul><li>7] JOHNSON, R.; WICHERN, D. 1982. Applied Multivariate Statistical Analysis. Editorial Prentice – Hall Inc.Englewo od Cliffs. New Jersey. </li></ul><ul><li>  [8] MARDIA, KENT AND BIBBY. 1982. Multivariate Analysis. Academic Press. London. </li></ul><ul><li>Textos de Consulta: </li></ul><ul><li>[1] DALLAS E. JOHNSON. 2000. Métodos Multivariados Aplicados al Análisis de Datos. International Thom son Editores. </li></ul><ul><li>[2] HAIR J., ANDERSON R., TATHAM R., BLACK W. 2001. Anál isis Multivariante. Prentice Hall. </li></ul>

×