Your SlideShare is downloading. ×
Analisis multivariado
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Analisis multivariado

3,946
views

Published on


0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,946
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
140
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006CÁLCULO DEL COEFICIENTE DE CONFIABIL IDAD(FIABILIDAD) ALFA-CRONBACHExisten tres procedimientos para determinar el coeficiente “〈” o alfa :1. Sobre la base de la varianza de los ítems, con la aplicación de la siguientefórmula:En donde N representa el número de ítems de la escala, “s2 (Yi)” es igual a lasumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda laescala.2. Sobre la base de la matriz de correlación de los ítems, el procedimientosería:a) Se aplica la escala.b) Se obtienen los resultados.c) Se calculan los coeficientes de correlación r de Pearson entre todos losítems (todos contra todos de par en par).d) Se elabora la matriz de correlación con los coeficientes obtenidos. Porejemplo: Pág. 1
  • 2. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Los coeficientes que se mencionan como “ya fue calculado”, se ubican en laparte superior de las líneas horizontales (guiones). Es decir, cada coeficientese incluye una sola vez y se excluyen los coeficientes que vinculan al ítem opuntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4). Pág. 2
  • 3. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 20063. Mediante otra fórmula que se basa en la correlación promedio Pág. 3
  • 4. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Los métodos de análisis multivariadoLos métodos de análisis multivariado son aquellos en que se analiza la relaciónentre diversas variables independientes y al menos una dependiente. Sonmétodos más complejos que requieren del uso de computadoras para efectuarlos cálculos necesariosEntre las técnicas más comunes se encuentran (1) Análisis de componentesprincipales y factores comunes, (2) regresión y correlación múltiple, (3) análisisdiscriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5)análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escalamultidimensional. Otras técnicas nuevas incluyen (9) análisis decorrespondencia, (10) modelos de probabilidad lineal tales como el logit yprobit, y (11) modelos de ecuación simultaneas / estructurales. A continuaciónse describen brevemente éstas técnicas.Análisis de componentes principales y de factores comunesEs un método estadístico que puede usarse para analizar las interrelacionesentre un gran número de variables y explicar esas variables en términos de susdimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizarla información contenida en un número de variables originales, dentro de un Pág. 4
  • 5. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006conjunto más pequeño de variates (factores) con mínima pérdida deinformación.Regresión múltipleEn un método de análisis adecuado cuando el problema de investigacióninvolucra una variable dependiente única que se presume se relaciona a dos omás variables independientes medibles. El objetivo es predecir el cambio en lavariable dependiente de respuesta con cambios en las variablesindependientes, normalmente con el método de mínimos cuadrados.Por ejemplo se pueden predecir los montos gastados en cenas a partir deingresos de las familias (variable dependiente), su tamaño, y la edad del padre(variables independientes).Análisis discriminante múltiple (MDA)Se aplica cuando la variable dependiente es dicotómica (vgr. hombre – mujer) omultitómica (vgr. Alto – medio – bajo) y por tanto no medible. Como en laregresión las variables independientes deben ser medibles. Se aplica cuando lamuestra total se puede dividir en grupos con base en una variable no mediblecaracterizando varias clases conocidas. Su objetivo es comprender lasdiferencias entre grupos y predecir la probabilidad de que una entidad (objetoindividual) pertenezca a una clase o grupo particular con base en variasvariables independientes medibles o métricas.Por ejemplo el análisis discriminante se puede utilizar para distinguir entreinnovadores y no innovadores de acuerdo a su perfil demográfico ypsicográfico.Análisis multivariado de varianza y covarianza (MANOVA)Es un método estadístico para explorar simultáneamente la relación entrevarias variables categóricas independientes (referidas como tratamientos) y doso más variables dependientes medibles o métricas. Es una extensión delANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se Pág. 5
  • 6. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006puede usar en conjunto con el MANOVA para remover (después delexperimento) el efecto de cualquier variable métrica independiente nocontrolada (conocida como covariada) en la variable independiente.Análisis conjuntoSe aplica a nuevos productos para evaluar la importancia de los atributos delnuevo producto así como los niveles de cada atributo, mientras que elconsumidor evalúa solo unos pocos perfiles del producto como combinacionesde los niveles de producto.Por ejemplo asumir un producto con tres atributos (precio, calidad y color),cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tenerque evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de9 o más combinaciones con base en su atractivo para el consumidor, demanera que el investigador no solo conozca la importancia de cada atributo,sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).Correlación canónicaEl análisis de correlación puede ser visto como una extensión lógica de laregresión múltiple. Donde se trata de correlacionar simultáneamente variasvariables dependientes medibles o métricas y varias variables independientesmedibles. El principio es establecer una combinación lineal de cada conjunto devariables (dependientes e independientes) para maximizar la correlación entrelos dos conjuntos (obteniendo ponderacións adecuados para las variables).Análisis de conglomerados (Clusters)Es una técnica analítica para desarrollar sugrupos significativos de individuos uo objetos. Específicamente, el objetivo es clasificar una muestra de entidades(individuos u objetos) en un número más pequeño de grupos más pequeñoscon base en las similitudes entre entidades. A diferencia del análisisdiscriminante, los grupos no están definidos, más bien se usa paraidentificarlos. Pág. 6
  • 7. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Normalmente se realiza en tres pasos. El primero es la medición de algunaforma de similitud o asociación entre las entidades para identificar cuantosgrupos realmente existen en la muestra. El segundo paso es el proceso en síde conglomerados, donde las entidades se particionan en grupos(conglomerados o clusters). El paso final es perfilar las personas o variablespara determinar su composición. Muchas veces esto último se realiza con elanálisis discriminante.Escala multidimensionalEl objetivo es transformar los juicios del consumidor de similitud o preferencias(vgr. Preferencia por tiendas o marcas) en distancias representadas en unespacio multidimensional. Si los objetos A y B se juzgan por el consumidorcomo similares, comparados con cualquier otro par de objetos, la técnicaposiciona los objetos A y B de manera que la distancia entre ellos en unespacio multidimensional es más pequeño que la distancia entre cualquier otropar de objetos. Al final se muestra un mapa perceptual con la posición relativade los objetos.Análisis de correspondenciaFacilita tanto la reducción dimensional de objetos en un conjunto de atributos yel mapa perceptual de objetos respecto a estos atributos. En su forma máselemental es una tabla de contingencia o tabulación cruzada de dos variablescategóricas. Transforma los datos no métricos a un nivel medible y realiza unareducción dimensional (similar al análisis de factores) y un mapa perceptual(similar al análisis multidimensional).Por ejemplo, las preferencias de marcas de los consumidores pueden sertabuladas contra variables demográficas (vgr. Género, categorías de ingresos,ocupación) indicando cuanta gente prefiere cada una de las marcas que caenen cada categoría de las variables demográficas. Por medio del análisis decorrespondencia, la asociación o “correspondencia” de marcas y lascaracterísticas distintivas de aquellos que prefieren las marcas se muestran en Pág. 7
  • 8. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006un mapa tridimensional o bidimensional tanto de marcas como de lascaracterísticas que distinguen a aquellos que prefieren cada marca.Modelos de probabilidad lineal (Análisis Logit)Son una combinación de regresión múltiple y análisis discrimínante. Es similaral análisis de regresión múltiple excepto que la variable dependiente escategórica no métrica como en el análisis discriminante.Modelos de ecuaciones estructuralesA veces se refiere como el nombre del software LISREL, es una técnica quepermite separar las relaciones del conjunto de variables dependientes. En suforma más sencilla proporciona el modelo más adecuado y la técnica deestimación más eficiente para una serie de ecuaciones de regresión múltiple,evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1)el modelo estructural y (2) el modelo de medición.El modelo estructural es la “vía” que relaciona variables dependientes eindependientes. El modelo de medición permite al investigador a usar variasvariables (indicadores) para una variable dependiente e independiente. Pág. 8
  • 9. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Los datos para HATCO son los siguientes:Variables / TipoPercepciones / Medibles (Métricas)X1 Tiempo de entrega - entrega del producto con la orden confirmadaX2 Nivel de precios - nivel de precio percibido ponderacióndo porproveedoresX3 Flexibilidad de precios - flexibilidad para negociar preciosX4 Imagen de la empresa - generalX5 Servicio en general - nivel necesario para mantener relacionesX6 Imagen de la fuerza de ventas - generalX7 Calidad del producto – calidad percibida en desempeño o rendimientoResultados de compras / Medibles (Métricas)X9 Nivel de utilización - que porcentaje de producto es surtido por HatcoX10 Nivel de satisfacción – que tan satisfecho esta el cliente con HatcoCaracterísticas del comprador / No Medibles (No Métricas)X8 Tamaño de la empresa - 1- Grande 0 - pequeñoX11 Especificación de compra - 1-Evalúa por el valor total y 0- especificaciónX12 Estructura de abastecimiento – 1- centralizado 0 - descentralizadoX13 Tipo de industria - 1- industria A 0 – otras industriasX14 Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional Pág. 9
  • 10. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006ANOVA (análisis de varianza de k direcciones )El ANOVA es similar a la regresión en el sentido de que se utiliza parainvestigar y modelar la relación entre una variable de respuesta y una o másvariables independientes. Sin embargo, el ANOVA difiere de la regresión endos aspectos: las variables independientes son cualitativas (categóricas), y nohay supuestos acerca de la naturaleza de la relación (o sea que el modelo noincluye coeficientes para variables). En efecto el ANOVA extiende la prueba dedos muestras con prueba t para probar la igualdad de dos poblaciones a unahipótesis más general al comparar más de dos medias, versus que no seaniguales.Definición: Es una prueba estadística para evaluar el efecto de dos o másvariables independientes sobre una variable dependiente.Responde a esquemas como el que se muestra en la figura:Constituye una extensión del análisis de varianza unidireccional, solamenteque incluye más de una variable independiente. Evalúa los efectos porseparado de cada variable independiente y los efectos conjuntos de dos o másvariables independientes. Pág. 10
  • 11. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Variables: Dos o más variables independientes y una dependiente.Nivel de medición de las variables: La variable dependiente (criterio) debe estarmedida en un nivel por intervalos o razón, y las variables independientes(factores) pueden estar en cualquier nivel de medición, pero expresadas demanera categórica.Interpretación y ejemploHi: La similitud en valores, la atracción física y el grado de retroalimentaciónpositiva son variables que inciden en la satisfacción sobre la relación enparejas de novios.Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientesa estratos económicos altos (n=400).El ANOVA efectuado mediante un paquete estadístico computacional comoSPSS produce los siguientes elementos básicos:• Fuente de la variación (source of variation). Es el factor que origina variaciónen la dependiente. Si una fuente no origina variación en la dependiente, notiene efectos.• Efectos principales (main effects). Es el efecto de cada variable independientepor separado; no está contaminado del efecto de otras variablesiindependientes ni de error. Suele proporcionarse la suma de todos los efectosprincipales.• Interacciones de dos direcciones (2-way interactions). Representa el efectoconjunto de dos variables independientes, aislado de los demás posiblesefectos de las variables independientes (individuales o en conjuntos). Sueleproporcionarse la suma de los efectos de todas estas interacciones. Pág. 11
  • 12. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006• Interacciones de tres direcciones (3-way interactions). Constituye el efectoconjunto de tres variables independientes, aislado de otros efectos. Sueleproporcionarse la suma de los efectos de todas estas interacciones.• Puede haber efecto de K-direcciones, esto dependie del número de variablesindependientes.En nuestro ejemplo, tenemos los resultados siguientes:TABLA ANOVAVARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓNFuente de Suma de Grados de Cuadrados Estadístico F Significanciavariación cuadrados libertad medios de Fc = PEfectos 22.51 .001**principales(main effectsSIMILITUD 31.18 0.001**ATRACCIÓN 21.02 0.001**RETROALIM 11.84 0.004**SIMILITUD -4.32 0.04*ATRACCIÓNSIMILITUD 2.18 0.11RETROALIMATRACCION 1.56 0.190RETROALIMSIM – 8.01 0.02*RETROL-ATRACCIONNOTA: Normalmente interesa saber si las razones “F” resultaron o nosignificativas; por tanto, sólo se incluyen estos valores. Se recomiendaconcentrarse en dichos valores y evitar confusiones. Desde luego, elinvestigador experimentado acostumbra estudiar todos los valores.**— Razón “F” significativa al nivel del 0.01 (p < 0.01) Pág. 12
  • 13. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006*—Razón “F” significativa al nivel del 0.05 (p < 0.05)Como podemos ver en la tabla, la similitud, la atracción y la retroalimentacióntienen un efecto significativo sobre la satisfacción en la relación.Respecto a los efectos de dos variables independientes conjuntas, sólo lasimilitud y la atracción tienen un efecto, hay un efecto conjunto de las tresvariables independientes. La hipótesis de investigación se acepta y la nula serechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presentedisco: Otros diseños experimentales (en el apartado sobre diseños factoriales)se explica la noción de interacción entre variables independientes. Cabeagregar que el ANOVA es un método estadístico propio para los diseñosexperimentales factoriales.Ejemplo:Un experimento se realizó para probar cuanto tiempo toma usar un modelonuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en unproblema estadístico y uno de ingeniería se les toma el tiempo para resolver elproblema. Los ingenieros se consideran como bloques en el diseñoexperimental.Hay dos factores: Tipo de problema y modelo de calculadora – cada uno condos niveles, se hacen experimentos donde esos niveles de los factores secruzan. Los datos se muestran a continuación:SolveTime Engineer ProbType Calculator3.1 Jones Stat New7.5 Jones Stat Old2.5 Jones Eng New5.1 Jones Eng Old3.8 Williams Stat New8.1 Williams Stat Old2.8 Williams Eng New5.3 Williams Eng Old3 Adams Stat New7.6 Adams Stat Old2 Adams Eng New Pág. 13
  • 14. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 20064.9 Adams Eng Old3.4 Dixon Stat New7.8 Dixon Stat Old2.7 Dixon Eng New5.5 Dixon Eng Old3.3 Erickson Stat New6.9 Erickson Stat Old2.5 Erickson Eng New5.4 Erickson Eng Old3.6 Maynes Stat New7.8 Maynes Stat Old2.4 Maynes Eng New4.8 Maynes Eng OldLas instrucciones de Minitab son las siguientes:1 Abrir la worksheet EXH_AOV.MTW.2 Stat > ANOVA > Balanced ANOVA.3 Responses, poner SolveTime.4 Model, poner Engineer ProbType | Calculator.5 En Random Factors, poner Engineer.6 Click Results. En Display means corresponding to the terms, ponerProbType | Calculator. Click OK cada cuadro de diálogo.Los resultados obtenidos son los siguientes:ANOVA: SolveTime versus Engineer, ProbType, CalculatorFactor Type Levels ValuesEngineer random 6 Adams, Dixon, Erickson, Jones, Maynes, WilliamsProbType fixed 2 Eng, StatCalculator fixed 2 New, OldAnalysis of Variance for SolveTimeSource DF SS MS F PEngineer 5 1.053 0.211 3.13 0.039ProbType 1 16.667 16.667 247.52 0.000Calculator 1 72.107 72.107 1070.89 0.000ProbType*Calculator 1 3.682 3.682 54.68 0.000Error 15 1.010 0.067Total 23 94.518S = 0.259487 R-Sq = 98.93% R-Sq(adj) = 98.36%Means Pág. 14
  • 15. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006ProbType N SolveTimeEng 12 3.8250Stat 12 5.4917Calculator N SolveTimeNew 12 2.9250Old 12 6.3917ProbType Calculator N SolveTimeEng New 6 2.4833Eng Old 6 5.1667Stat New 6 3.3667Stat Old 6 7.6167Interpretación de los resultados:Se muestran los factores (fijos y aleatorios), niveles y valores. Después semuestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay unainteracción significativa entre el tipo de problema y el modelo de calculadora, loque implica que la reducción en tiempo de proceso de la calculadora dependedel tipo de problema.En la lista de promedios se observa un menor tiempo entre la calculadoranueva y la anterior. Pág. 15
  • 16. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANÁLISIS MULTIVARIADO DE VARIANZA(MANOVA)Es un modelo para analizar la relación entre una o más variablesindependientes y dos o más variables dependientes. Es decir, es útil paraestructuras causales del tipo:La técnica posee varios usos, entre los que destacan:- Evaluar diferencias entre grupos a través de múltiples variables dependientes(medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son)categórica(s) (no métricas). Tiene el poder de evaluar no solamente lasdiferencias totales, sino diferencias entre las combinaciones de lasdependientes.En este sentido representa una extensión del análisis de varianza (ANOVA)para cubrir casos donde hay más de una variable dependiente y/o cuando lasvariables dependientes simplemente no pueden ser combinadas. En otraspalabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienenun efecto significativo en las dependientes. Señala qué grupos difieren en unavariable o en el conjunto de variables dependientes. Pág. 16
  • 17. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006- Identificar las interacciones entre las variables independientes y la asociaciónentre las dependientes.Las tres clases principales del MANOVA son:1) Hotellings T. Es parecida a la prueba t (dos grupos) pero con másdependientes: una variable independiente dicotómica y varias dependientes.2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con másdependientes: una variable independiente multicategórica y variasdependientes.3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o másdependientes: varias independientes categóricas y varias dependientes.Los modelos del MANOVA tienen en común que forman combinacioneslineales de las dependientes que discriminan mejor entre los grupos en unexperimento o una situación no experimental. Es una prueba de significanciade las diferencias en los grupos en un espacio multidimensional donde cadadimensión está definida por combinaciones lineales del conjunto de variablesdependientes.Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por quéno hacemos ANOVAS separados, uno para cada dependiente? La respuesta:las dependientes están correlacionadas muy frecuentemente, por lo cual losresultados de varios ANOVA pueden ser redundantes y difíciles de integrar. Heaquí una síntesis de la explicación de Wiersma (1999) sobre este tipo deanálisis:Al incluir dos o más variables dependientes simultáneamente no se consideranlas diferencias entre las medias en cada variable, sino las diferencias envariables canónicas. El interés no sólo es saber si los grupos definidos por lasvariables independientes difieren en las variables canónicas, sino conocer lanaturaleza de éstas. Una variable canónica es una variable artificial generada a Pág. 17
  • 18. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006partir de los datos. Representa constructos y se compone de variables reales,las cuales deben ser descritas en términos de variables dependientes. Loanterior se efectúa por medio de las ponderacións de los coeficientes decorrelación entre una variable dependiente y una variable canónica. Si unaponderación entre la variable canónica y la dependiente es positiva y elevada,significa que altos valores en la dependiente se asocian con altos valores en lacanónica. Por ejemplo, si una variable dependiente consiste en puntuaciones auna prueba sobre innovación, y dichas puntuaciones se correlacionan en formaconsiderable con una variable canónica, inferimos que la variable canónicarepresenta un constructo que involucra esencialmente a la innovación.En los cálculos que se hacen en el MANOVA, se generan variables canónicashasta que se encuentra que no hay una diferencia estadística significativa entrelas categorías o los grupos de las variables independientes; o bien, hasta quese agotan los grados de libertad de las variables independientes (lo que ocurraprimero). El número de variables canónicas no puede exceder el número devariables dependientes, pero es común que el número de dependientes seamayor que el de variables canónicas estadísticamente significativas o losgrados de libertad.La hipótesis general de investigación en el MANOVA postula que las medias delos grupos o las categorías de la(s) variable(s) independiente(s) difieren entre síen las variables canónicas. La hipótesis nula postula que dichas medias serániguales.Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las quedestacan: F (total, toma en cuenta el modelo completo), la prueba HotellingsTSquare, T2 (cuando hay dos grupos formados por las variablesindependientes), Wilks lambda, U (cuando hay más de dos grupos formadospor las variables independientes), y Pillai-Bartlett (cuando hay coeficientescanónicos); y si resultan significativas en un nivel de confianza, se acepta lahipótesis de investigación de diferencia de medias. Esto indica que hay, por lomenos, una variable canónica significativa (pero puede haber varias). Sidiversas variables canónicas son significativas, esto muestra que se presentan Pág. 18
  • 19. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006diferencias en las variables canónicas en cuestión, entre los grupos ocategorías de las independientes.Los paquetes estadísticos que contiene el MANOVA suelen posicionar a losgrupos de las variables independientes por puntuaciones discriminantes; éstasson calculadas con una función discriminante, que es una ecuación deregresión para un compuesto de variables dependientes. A cada grupo se leasigna una puntuación discriminante en cada variable canónica. Laspuntuaciones discriminantes de una variable independiente pueden ser cero otener un valor positivo o negativo. Una puntuación discriminante positiva yelevada para un grupo, indica que éste se coloca por encima de los demás enla respectiva variable canónica. Y deben considerarse las ponderacións, lascuales son positivas o negativas. Las puntuaciones discriminantes sonutilizadas para interpretar las separaciones de los grupos en las variablescanónicas, en tanto que las ponderacións se usan para evaluar y ligar losresultados de las variables dependientes (Wiersma, 1999). Un ejemplo de lasponderacións de los coeficientes de correlación entre las variablesdependientes y las variables canónicas así como las puntuacionesdiscriminantes se muestran en las tablas siguientes: Pág. 19
  • 20. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Como observamos en la última tabla, se obtuvieron tres constructossubyacentes en las puntuaciones recolectadas de la muestra: motivaciónintrínseca, atribución de causalidad externa y desempeño laboral. Vemos en latabla que los grupos (niveles en la empresa) están separados en las tresvariables canónicas (los grupos difieren), particularmente en la primera variablecanónica (motivación intrínseca) y los obreros ocupan la posición más baja. Lasvariables dependientes enmarcadas en un recuadro en la primera variable Pág. 20
  • 21. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006canónica se ponderaciónn en ella; en consecuencia, los ejecutivos tienen laspuntuaciones más altas en motivación intrínseca medida por la escalamencionada, en atribuciones internas y en sentimientos de éxito en el trabajo.Así se interpretan todas las variables canónicas y dependientes.En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetesestadísticos agregan una prueba denominada correlación canónica, que esmuy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerseentre los conjuntos de puntuaciones y las relaciones entre las variablesindependientes, entre las variables dependientes y entre los conjuntos deambas (dependientes e independientes) (Kerlinger, 1979). Las variables en elMANOVA y la correlación canónica asumen que las variables dependientesestán medidas en un nivel de intervalos o razón. Tal correlación se interpretacomo otras; pero el contexto de interpretación varía de acuerdo con el númerode variables involucradas. Pág. 21
  • 22. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Ejemplo con MinitabSe realiza un estudio para determinar las condiciones óptimas para extruirpelícula plástica. Se miden tres respuestas – Tear, gloss y opacity – cincoveces en cada combinación de dos factores – tasa de extrusión y cantidad deaditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVAbalanceado para probar la igualdad de las medias.DATOSTear Gloss Opacity Extrusion Additive6.5 9.5 4.4 1 16.2 9.9 6.4 1 15.8 9.6 3 1 16.5 9.6 4.1 1 16.5 9.2 0.8 1 16.9 9.1 5.7 1 27.2 10 2 1 26.9 9.9 3.9 1 26.1 9.5 1.9 1 26.3 9.4 5.7 1 26.7 9.1 2.8 2 16.6 9.3 4.1 2 17.2 8.3 3.8 2 17.1 8.4 1.6 2 16.8 8.5 3.4 2 17.1 9.2 8.4 2 27 8.8 5.2 2 27.2 9.7 6.9 2 27.5 10.1 2.7 2 27.6 9.2 1.9 2 2Instrucciones de Minitab1 Abrir el archivo EXH_MVAR.MTW.2 Seleccionar Stat > ANOVA > Balanced MANOVA.3 En Responses, poner Tear Gloss Opacity.4 En Model, poner Extrusion | Additive. Pág. 22
  • 23. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 20065 Click Results. En Display of Results, seleccionar Matrices(hypothesis, error, partial correlations) y Eigen analysis.6 Click OK en cada cuadro de diálogo.Los resultados se muestran a continuación:Results for: Exh_mvar.MTWANOVA: Tear, Gloss, Opacity versus Extrusion, AdditiveMANOVA for Extrusions = 1 m = 0.5 n = 6.0 Test DFCriterion Statistic F Num Denom PWilks 0.38186 7.554 3 14 0.003Lawley-Hotelling 1.61877 7.554 3 14 0.003Pillais 0.61814 7.554 3 14 0.003Roys 1.61877SSCP Matrix for Extrusion Tear Gloss OpacityTear 1.740 -1.505 0.8555Gloss -1.505 1.301 -0.7395Opacity 0.855 -0.739 0.4205SSCP Matrix for Error Tear Gloss OpacityTear 1.764 0.0200 -3.070Gloss 0.020 2.6280 -0.552Opacity -3.070 -0.5520 64.924Partial Correlations for the Error SSCP Matrix Tear Gloss Opacity Pág. 23
  • 24. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Tear 1.00000 0.00929 -0.28687Gloss 0.00929 1.00000 -0.04226Opacity -0.28687 -0.04226 1.00000EIGEN Analysis for ExtrusionEigenvalue 1.619 0.00000 0.00000Proportion 1.000 0.00000 0.00000Cumulative 1.000 1.00000 1.00000Eigenvector 1 2 3Tear 0.6541 0.4315 0.0604Gloss -0.3385 0.5163 0.0012Opacity 0.0359 0.0302 -0.1209MANOVA for Additives = 1 m = 0.5 n = 6.0 Test DFCriterion Statistic F Num Denom PWilks 0.52303 4.256 3 14 0.025Lawley-Hotelling 0.91192 4.256 3 14 0.025Pillais 0.47697 4.256 3 14 0.025Roys 0.91192SSCP Matrix for Additive Tear Gloss OpacityTear 0.7605 0.6825 1.931Gloss 0.6825 0.6125 1.732Opacity 1.9305 1.7325 4.901EIGEN Analysis for AdditiveEigenvalue 0.9119 0.00000 0.00000Proportion 1.0000 0.00000 0.00000Cumulative 1.0000 1.00000 1.00000 Pág. 24
  • 25. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Eigenvector 1 2 3Tear -0.6330 0.4480 -0.1276Gloss -0.3214 -0.4992 -0.1694Opacity -0.0684 0.0000 0.1102MANOVA for Extrusion*Additives = 1 m = 0.5 n = 6.0 Test DFCriterion Statistic F Num Denom PWilks 0.77711 1.339 3 14 0.302Lawley-Hotelling 0.28683 1.339 3 14 0.302Pillais 0.22289 1.339 3 14 0.302Roys 0.28683SSCP Matrix for Extrusion*Additive Tear Gloss OpacityTear 0.000500 0.01650 0.04450Gloss 0.016500 0.54450 1.46850Opacity 0.044500 1.46850 3.96050EIGEN Analysis for Extrusion*AdditiveEigenvalue 0.2868 0.00000 0.00000Proportion 1.0000 0.00000 0.00000Cumulative 1.0000 1.00000 1.00000Eigenvector 1 2 3Tear -0.1364 0.1806 0.7527Gloss -0.5376 -0.3028 -0.0228Opacity -0.0683 0.1102 -0.0000Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks,Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.Los valores s, m y n se utilizan para los cálculos de los estadísticos de pruebaFc, el cual es exacto si s = 1 o 2 de otra forma es aproximado. Pág. 25
  • 26. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Examinando los valores P de las pruebas para Extrusión y Aditivo se observaque son significativas para un nivel de 0.05, no así la interacción.Las matrices SSCP se usan para evaluar la contribución a la variabilidad demanera similar a la suma de cuadrados en la ANOVA univariada. La matrizSSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz deproductos cruzados H para las tres respuestas con el término de modeloExtrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 sonlas sumas de cuadrados univariados para el término del modelo Extrusióncuando las variables de respuesta son Tear, Gloss y Opacity respectivamente .Los elementos fuera de la diagonal son los productos cruzados.La matriz SSCP para el error es la suma de cuadrados de los errores yproductos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y64.924 son las sumas de cuadrados de los errores para las variables derespuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de ladiagonal de esta matriz son los productos cruzados.La matriz de correlaciones parciales para el error SSCP, se usa para evaluarque tanto se relacionan las variables de respuesta. Las correlaciones parcialesentre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity-0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampocoes grande. Como la estructura de las correlaciones es débil, se pueden realizaranálisis univariados de ANOVA para cada una de las respuestas.Se puede utilizar el análisis de valores característicos o Eigenvalores, paraevaluar como difieren los promedios de las respuestas entre los niveles de losdiferentes términos del modelo. El análisis de Eigenvalores es E -1 H donde E esla matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.Estos son los eigenvalores utilizados para calcular las cuatro pruebas deMANOVA.Poner la mayor importancia en los eigenvectores que corresponden a valoresaltos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores sonpequeños, no signiicativos. Para ambos factores, Extrusion y Additive, los Pág. 26
  • 27. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006primeros eigenvalores contienen información similar. Para Extrusion is 0.6541,-0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valorabsoluto dentro de esos eigenvalores corresponde a la respuesta Tear, elsegundo a Gloss y el valor para Opacity es pequeño. Esto implica que Teartiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusiono Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solopequeñas diferencias.Para un análisis más general utilizar General MANOVA con diseñosbalanceados y no balanceados, incluso si se tienen covariados.1 Seleccionar Stat > ANOVA > General MANOVA.2 En Responses, seleccionar hasta 50 columnas numéricas conteniendo lasvariables de respuesta.3 En Model, introducir los términos del modelo que se quiera ajustar.4. Click OK. Pág. 27
  • 28. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006ANÁLISIS DE COVARIANZADefinición: Es un método estadístico que analiza la relación entre una variabledependiente y dos o más independientes, con el que se elimina o controla elefecto de al menos una de estas independientes. Similar al ANOVA, exceptoque permite controlar la influencia de una variable independiente, la cual confrecuencia es una característica antecedente que puede variar entre los grupos(Mertens, 2005) o influir los resultados y afectar la claridad de lasinterpretaciones.Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivaspara el análisis de covarianza:A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interésdel investigador se centra en las diferencias observadas en la variabledependiente, por medio de las categorías de la variable independiente (ovariables independientes). Pero el experimentador asume que hay otrasvariables independientes cuantitativas que contaminan la relación y cuyainfluencia debe ser controlada. Pág. 28
  • 29. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Y el investigador únicamente se interesa por conocer la relación entre lasvariables independientes categóricas y la variable dependiente. Desea almismo tiempo remover y controlar el efecto de las variables independientescuantitativas no categóricas (continuas). Es decir, desea tener un esquemacomo el de la figuraEl objetivo es “purificar la relación entre las independientes categóricas y ladependiente, mediante el control del efecto de las independientes nocategóricas o continuas”.Ejemplos de variables independientes categóricas serían: género (masculino,femenino), inteligencia (alta, media, baja), ingreso (menos de un salariomínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o mássalarios mínimos).Los niveles de medición nominal y ordinal son categóricos en sí mismos,mientras que los niveles de intervalos y razón deben transformarse encategorías más discretas. Estos últimos son en sí: cuantitativos, continuos y decategorías múltiples. Por ejemplo, el ingreso en su “estado natural”(ponderacións, dólares, euros, etc.) varía de la categoría cero hasta lacategoría (K)k, ya que puede haber millones de categorías. Pág. 29
  • 30. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Variable categórica — unas cuantas categorías o un rango medio.Variable continua — muchas categorías (a veces una infinidad).A dichas variables independientes cuantitativas continuas, cuya influencia secontrola, se les denomina “covariables”. Una covariable se incluye en el análisispara remover su efecto sobre la variable dependiente, e incrementar elconocimiento de la relación entre las variables independientes categóricas deinterés y la dependiente, lo cual aumenta la precisión del análisis.En esta perspectiva, el análisis de covarianza puede ser concebido primerocomo un ajuste en la variable dependiente respecto a diferencias en lacovariable o las covariables y, posteriormente, como una evaluación de larelación entre las variables independientes categóricas y los valores ajustadosde la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell(2005):El procedimiento “ajusta” las puntuaciones en la dependiente para dar cuentapor la covarianza (por decirlo en términos sencillos: “hace equivalentes a losgrupos en la(s) covariable(s)” y controla influencias potenciales que puedenafectar a la variable dependiente).B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica conaquellas instancias en las cuales el interés principal se centra en analizar larelación entre la variable dependiente y la covariable (variable cuantitativacontinua) o las covariables. Aquí el enfoque es distinto; la influencia que seremueve es la de las variables independientes categóricas. Primero se controlael efecto (en este caso contaminante) de estas variables y después se analizael efecto “purificado” de las covariables.C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variablesindependientes categóricas como las covariables resultan de interés para elinvestigador, quien puede desear examinar el efecto de cada variable Pág. 30
  • 31. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006independiente (covariables y no covariables, todas) y después ajustar o corregirlos efectos de las demás variables independientes.En cualquier caso, el análisis de covarianza elimina influencias no deseadassobre la variable dependiente. Se puede utilizar en contextos experimentales yno experimentales. La mayoría de las veces la función del ANCOVA es“remover” la varianza compartida entre una o más covariables y la dependiente,de este modo, se valora en su justa dimensión la relación causal entre la(s)variable(s) independiente(s) de interés y la dependiente (Creswell, 2005).Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple:Ejemplo:Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de lacomputación, por medio un nuevo método para su enseñanza a niños. Lahipótesis es: El nuevo método de enseñanza de la computación (MA-RH)provocará un mayor aprendizaje en los niños que un método tradicional.Entonces, implementa el siguiente experimento: A un grupo de infantes loexpone al nuevo método de enseñanza de computación (MA-RHS); a otrogrupo no lo expone al nuevo método, éste aprende con el método tradicional;finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanzaen computación.La variable independiente es el tipo de método con tres categorías o niveles(método nuevo, método tradicional y ausencia de método), la dependiente es elaprendizaje en computación (medida por una prueba estandarizada a nivel deintervalos). Se tiene un esquema como el de la figura Pág. 31
  • 32. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Con el experimento el investigador desea conocer la varianza en común entremétodo y aprendizaje (cuantificarla), la relación XY (pura). Si los niños sonasignados al azar a los grupos del experimento y tiene grupos de tamañoaceptable, por el diseño mismo, remueve la influencia de las covariables quepudieran afectar. Pero si no es factible hacerlo y tiene un diseñocuasiexperimental (grupos intactos), debe remover tal influencia con el análisisde covarianza (eliminar al mínimo posible la varianza del aprendizajeno explicada), para evitar que las covariables impidan ver con claridad larelación XY. Por ejemplo, el nivel educativo tecnológico de los padres puedeinfluir (hace variar al aprendizaje) y este efecto debe ser controlado, alintroducirlo como covariable. Pág. 32
  • 33. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Lo que el investigador desea también se puede expresar gráficamente así:Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:1. Incrementar la precisión en experimentos con asignación al azar. Pág. 33
  • 34. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 20062. Eliminar influencias extrañas o contaminantes que pueden resultar cuandolas pruebas o los individuos no son asignados al azar a las diferentescondiciones experimentales (grupos de un experimento).3. Eliminar efectos de variables que confundan o distorsionen la interpretaciónde resultados en estudios no experimentales.Nivel de medición de las variables: La variable dependiente siempre estámedida por intervalos o razón y las variables independientes pueden estarmedidas en cualquier nivel.Interpretación: Depende de cada caso específico, ya que el análisis decovarianza efectuado mediante un programa estadístico computacional,produce un cuadro de resultados muy parecido al del análisis de varianza. Loselementos más comunes pueden obssevarse en la tabla ANOVA.La razón F es, igual que en el análisis de varianza, una razón de varianzas. Elrazonamiento estadístico es el mismo y F se interpreta igual, incluso se utilizael mismo cuadro de la distribución F. Solamente que las inferencias yconclusiones se hacen al considerar que las medias de la variabledependiente, a través de las categorías de las variables independientes, se hanajustado, de este modo eliminan el efecto de la covariable o covariables.Ejemplo:Diseño de investigación que utiliza el análisis de covarianzaHi: Los trabajadores que reciban retroalimentación verbal sobre el desempeñode parte de su supervisor mantendrán un nivel mayor de productividad que lostrabajadores que reciban retroalimentación sobre el desempeño por escrito,más aún que los trabajadores que no reciban ningún tipo de retroalimentación. __ __ __Hi: X1 > X2 > X3(verbal) (por escrito) (ausencia) Pág. 34
  • 35. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006El investigador plantea un diseño experimental para intentar probar suhipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores alos tres grupos del experimento. El diseño sería con grupos intactos(cuasiexperimental) y se esquematizaría así:Asimismo, el investigador presupone que hay un factor que puedecontaminar los resultados (actuar como fuente de invalidación interna): lamotivación. Diferencias iniciales en motivación pueden invalidar el estudio.Como la asignación al azar está ausente, no se sabe si los resultados se veninfluidos por dicho factor. Entonces, el experimentador decide eliminar ocontrolar el efecto de la motivación sobre la productividad para conocer losefectos de la variable independiente: tipo de retroalimentación. La motivaciónse convierte en covariable.El esquema es el que se muestra en la figura Pág. 35
  • 36. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Cabe destacar que, para introducir una covariable en el análisis, de preferenciadebe medirse antes del inicio del experimento.El análisis de covarianza “quita” a la variabilidad de la dependiente lo que sedebe a la covariable. Ajusta la varianza de la variable dependiente en lascategorías de la independiente, al basarse en la covariable. En el ejemplo,ajusta la varianza de la productividad debida a la motivación, en las categoríasexperimentales (tratamientos o grupos). El ajuste se realiza sobre la base de lacorrelación entre la covariable y la dependiente. Esto se muestraesquemáticamente en la tabla.Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa.Cuando F resulta significativa se acepta la hipótesis de investigación.Si el resultado fuera:G1 = 35G2 = 36La correlación entre la calificación en motivación y las puntuaciones enproductividad es la base para el ajuste.G3 = 38Gl entre = K – 1 = 3 – 1 = 2Gl intra = N – K = 107F = 1.70Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamosla hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta yprofundiza con las medias ajustadas de los grupos que proporcione el análisisde covarianza (no las medias obtenidas en el experimento por cada grupo, sinolas ajustadas con base en la covariable). Pág. 36
  • 37. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Recordemos que SPSS nos proporciona automáticamente la significancia de F.Ejemplo:Determinar si hay diferencia en la resistencia de una fibra monofilamentoproducida por tres máquinas diferentes. El diámetro de la fibra parece tenerinfluencia en la resistencia como se muestra abajo (covariado de Y).Datos de resistencia - Y es la respuesta, X es el covariado.Y X Maq36 20 141 25 139 24 142 25 149 32 140 22 248 28 239 22 245 30 244 28 235 21 337 23 342 26 334 21 332 15 3La relación entre X y Y es significativa como se observa en la siguiente gráfica:En Minitab:1. Stat > Regresión > Fitted line plot2. Introducir Y y X, seleccionar Linear3. OK Pág. 37
  • 38. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Fi t t ed Li ne Pl ot Y = 14.14 + 1.080 X 50 S 1.78174 R-Sq 88.1% R-Sq(adj) 87.2% 45 40 Y 35 30 15.0 17.5 20.0 22.5 25.0 27.5 30.0 32.5 XPara el ANOVA con Covariados, las instrucciones de Minitab son lassiguientes:1. Stat > ANOVA > General Linear Model2. Introducir en Response Y, en Model X y Maquina3. En Covariates X4. En Results en Display Least Square Means corresponding to the terms Maq5. En Graphs seleccionar Normal plot for residuals6. OKLos resultados se muestran a continuación:General Linear Model: Y versus MaqFactor Type Levels ValuesMaq fixed 3 1, 2, 3Analysis of Variance for Y, using Adjusted SS for TestsSource DF Seq SS Adj SS Adj MS F PX 1 305.13 178.01 178.01 69.97 0.000Maq 2 13.28 13.28 6.64 2.61 0.118Error 11 27.99 27.99 2.54Total 14 346.40S = 1.59505 R-Sq = 91.92% R-Sq(adj) = 89.72% Pág. 38
  • 39. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Term Coef SE Coef T PConstant 17.177 2.783 6.17 0.000X 0.9540 0.1140 8.36 0.000Unusual Observations for YObs Y Fit SE Fit Residual St Resid 7 48.0000 45.1080 0.7489 2.8920 2.05 RR denotes an observation with a large standardized residual.Means for CovariatesCovariate Mean StDevX 24.13 4.324Least Squares Means for YMaq Mean SE Mean1 40.38 0.72362 41.42 0.74443 38.80 0.7879Conclusión:Se observa que no hay diferencia en las máquinas una vez que eliminamos lavariabilidad introducida por el diámetro de la fibra, en caso de no haber tomadoen cuenta la covarianza del diámetro en la resitencia, se hubiese concluido alrevés, que si hay diferencia en las máquinas, como se muestra a continuación:Con Minitab:1. Stat > ANOVA > One way2. Response Y Factor Maquina3. OKLos resultados son los siguientes:One-way ANOVA: Y versus MaqSource DF SS MS F PMaq 2 140.4 70.2 4.09 0.044Error 12 206.0 17.2Total 14 346.4S = 4.143 R-Sq = 40.53% R-Sq(adj) = 30.62% Individual 95% CIs For Mean Based on Pooled Pág. 39
  • 40. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 StDevLevel N Mean StDev +---------+---------+---------+---------1 5 41.400 4.827 (---------*----------)2 5 43.200 3.701 (---------*---------)3 5 36.000 3.808 (---------*---------) +---------+---------+---------+--------- 32.0 36.0 40.0 44.0Pooled StDev = 4.143Conclusión: Como P value es menor a 0.05 aparentemente si hay diferenciaentre máquinas. Pág. 40
  • 41. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006ANALISIS DISCRIMINANTEEl análisis discriminante, se aplica cuando las variables independientes sonmedidas por intervalos o razón, y la dependiente es categórica. Tal análisissirve para predecir la pertenencia de un caso a una de las categorías de lavariable dependiente, sobre la base de varias independientes (dos o más). Seutiliza una ecuación de regresión llamada función discriminante. Por ejemplo, siqueremos predecir el voto obtenido por dos partidos contendientes (variabledependiente nominal con dos categorías) sobre la base de cuatro variablesindependientes, aplicaremos el análisis discriminante, para resolver unaecuación de regresión; así se obtienen las predicciones individuales. En elejemplo, hay dos categorías (votar por A o votar por B); por tanto, los valores apredecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuaciónmás cercana a cero, se predice que pertenece al grupo que votará por A; silogra una puntuación más cercana a 1, se predice que pertenece al grupo quevotará por B. Además, se consigue una medida del grado de discriminación delmodelo.Usar el Análisis Discrimínate para clasificar observaciones en dos o másgrupos si se tiene una muestra con grupos conocidos. Se puede utilizartambién para investigar como contribuyen las variables a la separación degrupos.Se pueden hacer análisis discriminantes lineales y cuadráticos. Los linealesasumen que todos los grupos tienen la misma matriz de covarianza, loscuadráticos no hacen este supuesto y no son bien comprendidos.Para el caso de clasificar las observaciones nuevas en una de dos categorías,la regresión logística puede ser superior al análisis discriminante.Ejemplo:Para regular la pesca de salmón, se desea identificar si el pescado es originariode Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueroncapturados y pesados cuando vivían en agua dulce y cuando vivieron en agua Pág. 41
  • 42. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006salada. El objetivo es el de poder identificar si los nuevos pescados vienen decriaderos en Alaska o Canadá. Los datos se muestran a continuación:SalmonOrigin Freshwater Marine SalmonOrigin Freshwater Marine Alaska 108 368 Canada 129 420 Alaska 131 355 Canada 148 371 Alaska 105 469 Canada 179 407 Alaska 86 506 Canada 152 381 Alaska 99 402 Canada 166 377 Alaska 87 423 Canada 124 389 Alaska 94 440 Canada 156 419 Alaska 117 489 Canada 131 345 Alaska 79 432 Canada 140 362 Alaska 99 403 Canada 144 345 Alaska 114 428 Canada 149 393 Alaska 123 372 Canada 108 330 Alaska 123 372 Canada 135 355 Alaska 109 420 Canada 170 386 Alaska 112 394 Canada 152 301 Alaska 104 407 Canada 153 397 Alaska 111 422 Canada 152 301 Alaska 126 423 Canada 136 438 Alaska 105 434 Canada 122 306 Alaska 119 474 Canada 148 383 Alaska 114 396 Canada 90 385 Alaska 100 470 Canada 145 337 Alaska 84 399 Canada 123 364 Alaska 102 429 Canada 145 376 Alaska 101 469 Canada 115 354 Alaska 85 444 Canada 134 383 Alaska 109 397 Canada 117 355 Alaska 106 442 Canada 126 345 Alaska 82 431 Canada 118 379 Alaska 118 381 Canada 120 369 Alaska 105 388 Canada 153 403 Alaska 121 403 Canada 150 354 Alaska 85 451 Canada 154 390 Alaska 83 453 Canada 155 349 Alaska 53 427 Canada 109 325 Alaska 95 411 Canada 117 344 Alaska 76 442 Canada 128 400 Alaska 95 426 Canada 144 403 Alaska 87 402 Canada 163 370 Alaska 70 397 Canada 145 355 Alaska 84 511 Canada 133 375 Alaska 91 469 Canada 128 383 Alaska 74 451 Canada 123 349 Alaska 101 474 Canada 144 373 Alaska 80 398 Canada 140 388 Alaska 95 433 Canada 150 339 Alaska 92 404 Canada 124 341 Alaska 99 481 Canada 125 346 Alaska 94 491 Canada 153 352 Pág. 42
  • 43. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Alaska 87 480 Canada 108 339Las intrucciones de Minitab son las siguientes:1 Abrir la worksheet EXH_MVAR.MTW.2 Stat > Multivariate > Discriminant Analysis.3 En Groups, poner SalmonOrigin.4 En Predictors, poner Freshwater Marine. Click OK.Los resultados obtenidos se muestran a continuación:Discriminant Analysis: SalmonOrigin versus Freshwater, MarineLinear Method for Response: SalmonOriginPredictors: Freshwater, MarineGroup Alaska CanadaCount 50 50Summary of classification True GroupPut into Group Alaska CanadaAlaska 44 1Canada 6 49Total N 50 50N correct 44 49Proportion 0.880 0.980N = 100 N Correct = 93 Proportion Correct = 0.930Squared Distance Between Groups Alaska CanadaAlaska 0.00000 8.29187Canada 8.29187 0.00000Linear Discriminant Function for Groups Alaska CanadaConstant -100.68 -95.14Freshwater 0.37 0.50Marine 0.38 0.33Summary of Misclassified Observations SquaredObservation True Group Pred Group Group Distance Probability 1** Alaska Canada Alaska 3.544 0.428 Canada 2.960 0.572 2** Alaska Canada Alaska 8.1131 0.019 Canada 0.2729 0.981 12** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 13** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 30** Alaska Canada Alaska 3.230 0.289 Canada 1.429 0.711 32** Alaska Canada Alaska 2.271 0.464 Pág. 43
  • 44. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Canada 1.985 0.536 71** Canada Alaska Alaska 2.045 0.948 Canada 7.849 0.052Interpretando los resultadosEl Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesarde que la probabilidad de clasificar correctamente un pez de Alaska fue menor(44/50 o 88%) que la probabilidad de clasificar correctamente un pez deCanadá (49/50 o 98%). Para identificar el origen de un pez recientementecapturado depende de cual valor discriminante sea mayor. Se puede correr elanálisis discriminante de nuevo y predecir a que grupo pertenecen las nuevasobservaciones.El resumen de las observaciones mal clasificadas muestra la distancia alcuadrado desde el punto mal clasificado a los centroides del grupo (vectoresmedios) y las probabilidades posteriores. Las observaciones son asignadas algrupo con la mayor probabilidad posterior.Si en Options introducimos en Predict membership for: 100 130, laclasificación aparece como:Prediction for Test Observations SquaredObservation Pred Group From Group Distance Probability 1 Canada Alaska 78.448 0.000 Canada 55.194 1.000 Pág. 44
  • 45. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006ANÁLISIS DE CONGLOMERADOSSe cuenta también con el análisis de conglomerados o clusters (técnica paraagrupar los casos o elementos de una muestra en grupos con base en una omás variables).Usar Análisis de componentes principales para ayudar a comprender laestructura de datos y/o a formar un pequeño número de variables nocorrelacionadas (por ejemplo para evitar multicolinealidad en la regresión).Ejemplo:Se registran las siguientes características para 14 censos: Población total(Pop), mediana de años escolares (School), empleo total (Employ),empleo enservicios de salud (Health), y valor mediano del valor de la casa (Home). Losdatos se muestran a continuación: Pop School Employ Health Home 5.935 14.2 2.265 2.27 2.91 1.523 13.1 0.597 0.75 2.62 2.599 12.7 1.237 1.11 1.72 4.009 15.2 1.649 0.81 3.02 4.687 14.7 2.312 2.5 2.22 8.044 15.6 3.641 4.51 2.36 2.766 13.3 1.244 1.03 1.97 6.538 17 2.618 2.39 1.85 6.451 12.9 3.147 5.52 2.01 3.314 12.2 1.606 2.18 1.82 3.777 13 2.119 2.83 1.8 1.53 13.8 0.798 0.84 4.25 2.768 13.6 1.336 1.75 2.64 6.585 14.9 2.763 1.91 3.17Se realiza un análisis de components principales para comprender la estructurade datos subyacente. Se usa la matriz de correlación para estandarizar lasmediciones dado que no se mide con la misma escala.Las instrucciones de Minitab son las siguientes:1 Abrir la worksheet EXH_MVAR.MTW.2 Stat > Multivariate > Principal Components.3 En Variables, Pop-Home.4 En Type of Matrix, seleccionar Correlation. Pág. 45
  • 46. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 20065 Click Graphs y seleccionar Scree plot.6 Click OK en cada cuadro de diálogo.Los resultados se muestran a continuación:Principal Component Analysis: Pop, School, Employ, Health, HomeEigenanalysis of the Correlation MatrixEigenvalue 3.0289 1.2911 0.5725 0.0954 0.0121Proportion 0.606 0.258 0.114 0.019 0.002Cumulative 0.606 0.864 0.978 0.998 1.000Variable PC1 PC2 PC3 PC4 PC5Pop -0.558 -0.131 0.008 0.551 -0.606School -0.313 -0.629 -0.549 -0.453 0.007Employ -0.568 -0.004 0.117 0.268 0.769Health -0.487 0.310 0.455 -0.648 -0.201Home 0.174 -0.701 0.691 0.015 0.014 Scr ee Pl ot of Pop, ..., Home 3.0 2.5 2.0 Eigenv alue 1.5 1.0 0.5 0.0 1 2 3 4 5 Component NumberInterpretando los resultadosEl primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el 60.6% de la varianza total. Los coeficientes para el PC1 muestran como calcular el nivel del componente principal.PC1 = −.558 Pop − .313 School − .568 Employ − .487 Health + .174 HomeNotar que la interpretación de los components principales es subjetiva, sinembargo, frecuentemente surgen patrones obvios. Por ejemplo, se podríapensar que el primer componente represente el efecto del tamaño de la Pág. 46
  • 47. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006población total, el nivel de escolaridad, empleo y servicios de salud, dado quelos coeficientes de estos términos tienen el mismo signo y no son cercanos acero.El segundo componente tiene varianza 1.2911 y acumula el 25.8% de lavariabilidad de los datos. Se calcula de los datos originales usando loscoeficientes listados en PC2. Este componente podría ser pensado como nivelde contraste de escolaridad y valor de la casa con salud y empleo de algunamanera.Juntos el primero y segundo componentes representan el 86.4% y 97%,respectivamente, de la variabilidad total. Así, la mayoría de la estructura dedatos puede ser capturada en dos o tres dimensiones relevantes. Loscomponentes remanentes solo tienen una menor proporción de probabilidad yno son importantes. La gráfica Scree proporciona una visión gráfica de loanterior. Pág. 47
  • 48. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006ANÁLISIS FACTORIALEl análisis factorial es un método cuyo propósito principal es definir laestructura subyacente de una matriz de datos. Atiende el problema de analizarla estructura de las interrelaciones (correlaciones) entre un gran número devariables (vgr. Respuestas de cuestionarios) al definir un conjunto dedimensiones subyacentes comunes, conocidas como factores. Con el análisisfactorial se identifican las dimensiones separadas de la estructura y después sedetermina que tanto cada variable es explicada por cada dimensión. Una vezque se determinan las dimensiones y se explican las variables por cadadimensión, se puede hacer un resumen y reducción de datos.El análisis factorial es una técnica de interdependencia en la cual todas lasvariables son consideradas de manera simultanea, cada una relacionada a lasotras, y empleando el concepto de variate, composición lineal de variables. Dehecho las variates (factores) se forman para maximizar su explicación de todoel conjunto de variables, no para predecir una variable dependiente(s). Unavariate (factor) es una variable dependiente que es función del conjunto total devariables.Se usa el Análisis factorial, de manera similar al análisis de componentesprincipales, para resumir la estructura de covarianza de los datos en una pocasdimensiones de los mismos. Sin embargo, el énfasis en análisis factorial es laidentificación de los “factores subyacentes” que pueden explicar lasdimensiones asociadas con la gran variabilidad de los datos.Se pueden tener tres tipos de datos de entrada:  Columnas de datos unitarios  Una Matriz de correlaciones o covarianzas  Columnas conteniendo ponderaciones de factoresCon los datos del ejemplo anterior de Componentes principales, realizar unanálisis factorial como sigue: Pág. 48
  • 49. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Nos gustaría investigar que “factores” pueden explicar la mayor parte de lavariabilidad. Como primer paso del análisis factorial, se utiliza la extracción decomponentes principales y se examinan los eigenvalores en gráfica comoayuda para decidir el número de factores.PROCESO DE DECISIÓN DE ANÁLISIS FACTORIALPaso 1. Objetivos del Análisis factorialEl propósito es encontrar una forma de condensar (resumir) la informacióncontenida en un cierto número de variables originales, en un grupo máspequeño de dimensiones nuevas, compuestas o variates (factores) con unmínimo de pérdida de información.Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisisfactorial se aplica a la matriz de correlación de variables y se denominaAnálisis Factorial R, para identificar las dimensiones que están latentes o noson fácilmente observables.El análisis factorial también se puede aplicar a una matriz de correlación de loscuestionarios individuales basados sus características, referido como AnálisisFactorial Q, es un método de condensar o combinar un grupo grande de genteen diferentes grupos distintos dentro de una población grande, para esto seutiliza el análisis de conglomerados (clusters).Paso 2. Diseño del análisis factorialIncluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matizde correlación) para cumplir con los objetivos especificados de agruparvariables o cuestionarios; (2) el diseño del estudio en términos del nñumeor devariables, propiedades de medición de las variables, y el tipo de variablespermitidas y (3) el tamaño de muestra necesario (al menos 5 veces el númro devariables analizadas), ambos en términos absolutos y como función de delnúmero de variables en el análisis.Paso 3. Supuestos del análisis factorial Pág. 49
  • 50. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Es deseable algún grado de multicolinealidad entre variables dado que elobjetivo es identificar conjuntos de variables interrelacionadas, no son tanimportantes la normalidad, homoestacidad y linealidad a menos quedisminuyan significativamente las correlaciones observadas.La matriz de correlación debe indicar valores mayores a 0.3 para aplicar elanálisis de correlación. También si las correlaciones parciales entre variables(correlación entre variables cuando el efecto de las otras variables se toma encuenta) son pequeñas dado que la variable puede explicada por los factores(variates con ponderacións para cada una de las variables). Si lascorrelaciones parciales son altas, no hay factores subyacentes “verdaderos” yel análisis factorial es inapropiado.La prueba de esfericidad de Bartlett mide la presencia de correlaciones entrelas variables, proporciona la probabilidad de que la matriz de correlación tengacorrelaciones significativas en algunas de las variables. Otro indicador es el“Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o máses meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o másmiserable y debajo de 0.50 inaceptable.El supuesto básico en el análisis factorial es que existe una estructurasubyacente en el conjunto de variables seleccionadas.Paso 4. Identificando factores y evaluando el ajuste del modeloUna vez que se especifican las variables y se prepara la matriz de correlación,se toman decisiones en relación a (1) el método de extracción de los factores(análisis de factores comunes versus análisis de componentes) y (2) el númerode factores seleccionados para representar la estructura subyacente en losdatos.Análisis de componentesEl análisis de componentes se usa cuando el objetivo es resumir la mayor partede la información original (varianza) en un mínimo número de factores para Pág. 50
  • 51. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006propósitos de predicción. Considera la varianza total y determina factores quecontienen pequeñas proporciones de varianza única y, en algunos casos,varianza del error.Análisis factorialEn contraste el análisis de factores comunes se utiliza para identificar losfactores subyacentes o dimensiones que reflejan aquello que las variablescomparten en común.En este método se tienen tres tipos de varianzas: (1) común, (2) específica(única), y (3) error. La varianza común se define como la varianza en unavariable que es compartida por todas las demás variables. La varianzaespecífica es la varianza asociada solo con una variable específica. Lavarianza del error es la varianza debida a la incertidumbre en el proceso derecolección de datos, errores de medición, o componente aleatorio en elfenómeno medido.Criterios para el número de factores a extraerEl método primero extrae la combinación de variables explicando la mayorcantidad de varianza y después continua con combinaciones que representanmenos y menos cantidades de varianza.La selección de factores a extraer equivale a enfocar un microscopionormalmente se hace por prueba y error contrastando los resultados.Criterio de Raíz Latente: su racional es que cualquier factor individual debecontener la varianza de al menos una variable. Como cada variable contribuyecon 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores coneigenvalores mayores a uno, cuando se tienen menos de 20 variables, losfactores extraídos son pocos.Criterio a Priori: en este método el investigador ya tiene una idea clara de losfactores a extraer y así lo indica en la computadora. Pág. 51
  • 52. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentajeacumulado de varianza total extraído por factores sucesivos. Normalmente elproceso para al acumular 95%.Criterio Scree Test: Se usa para identificar el número óptimo de factores quepueden ser extraídos antes de que la cantidad de varianza única empiece adominar la estructura de varianza común. Eig env alor 1 8 Número de factoresPaso 5. Interpretando los factoresSe obtiene la matriz no rotada para estimar el número de factores a extraer. Lamatriz de factores contiene ponderacións de factores para cada variable encada factor. El primer factor puede verse como la mejor combinación linealincluida en los datos, con cada factor con ponderacións significativos y acumulala mayor parte de a varianza; el segundo factor es la segunda mejorcombinación lineal de variables, sujeta a que es ortogonal al primer factor, sebasa en la porción residual de la varianza una vez removido el primero, asísucesivamente.Los ponderacións de los factores representan la correlación de cada una de lasvariables y el factor, entre mayores sean, mayor será la representatividad delfactor por la variable. Pág. 52
  • 53. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006La rotación de los factores más simple es una rotación ortogonal, en la cualse mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los90 grados entre los ejes de referencia. Cuando no hay restricción deortogonalidad, el procedimiento de rotación se denomina rotación oblicua. +1 Factor II rotado +1 Factor II sin rotar V1 V2 +1 Factor I sin rotar -1 V4 V3 V5 +1 Factor I rotado -1 Factor IIFig. 1 Rotación ortogonal de factores ( observar la ponderación o ponderación de factores I yII en la variable V2, es más clara cuando se rotan los factores)En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 yV5), sin embargo con los factores sin rotar no es muy obvia su ponderación oponderación de los factores I y II. Después de la rotación de los ejes defactores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte defactor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en elfactor II. Siendo más obvia la distinción entre conglomerados en dos grupos.Métodos de rotación ortogonalEn la práctica el objetivo de todos los métodos de rotación es simplificar lasfilas y columnas de la matriz de factores para facilitar la interpretación. En unamatriz de factores las columnas representan factores, con cada renglóncorrespondiente a la ponderación de las variables a través de los factores. Alsimplificar los renglones, se hacen tantos valores en cada fila tan cercanos acero como sea posible (i.e. maximizando la ponderación de una variable con un Pág. 53
  • 54. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006factor único). Simplificando las columnas, se hacen tantos valores en lascolumnas tan cercanos a cero como sea posible (i.e. hacer el máximo númerode ponderacións “altas” como sea posible). Se han desarrollado tres métodospara lo anterior como sigue:Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax seenfoca a rotar los factores iniciales de manera que las variables tengan lamayor ponderación posible de un factor y la mínima de los otros. Aunque estemétodo no ha sido eficiente.Varimax: se centra en simplificar las columnas de la matriz factorial. Lamáxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna.Es decir que VARIMAX maximiza la suma de variancias de ponderaciónsrequeridas de la matriz factorial. Este método ha probado ser un métodoanalítico efectivo para obtener una rotación ortogonal de factores.Equimax:Es un compromiso entre las anteriores. Trata de simplificar los renglones y lascolumnas, no se utiliza frecuentemente.Métodos de rotación oblicua:Estos métodos son similares a las rotaciones ortogonales excepto que permitenfactores correlacionados en vez de mantener la independencia de los factoresrotados.En general no hay reglas para seleccionar uno de los métodos anteriores.Criterios para la significancia de ponderación de factores en las variablesDe manera práctica si las ponderacións son de ± 0.30 se considera quecumplen el nivel mínimo; ponderacións de ± 0.40 son importantes; ± 0.50 omayores son significativas en la práctica. Como la ponderación del factor es lacorrelación de la variable y el factor, la ponderación al cuadrado es la cantidadrepresentada de la varianza total por el factor. De esta forma con ± 0.3 se tiene Pág. 54
  • 55. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006un 10% de explicación y un 0.5 de ponderación denota que un 25% de lavarianza es representada por el factor.Evaluando la significancia estadísticaCon base en un nivel de significancia de 0.05, un nivel de potencia del 80% yerrores estándar asumidos se el doble de los coeficientes de correlaciónconvencionales, se tiene la tabla siguiente: Ponderación Tamaño de del factor muestra requerida para tener significancia 0.30 350 0.35 300 0.40 250 0.45 200 0.50 150 0.55 100 0.60 85 0.65 70 0.70 60Resumiendo las guías para la significancia de los factores son: (1) entre mayor sea el tamaño de muestra, el valor de ponderación significativo se reduce. (2) Entre más variables sean consideradas en el análisis, más pequeña es la ponderación que se considera significativa. (3) Entre más factores haya, mayor es la ponderación en los factores adicionales para que sea considerada significativa.Cada columna de números en la matriz representa un factor por separado. Lascolumnas de números representan las ponderacións para cada una de lasvariables. Identificar la más alta ponderación para cada variable. Recordar quepara tamaños de muestra similares a 100 se considera significante ± 0.3. Lacomunalidad para cada variable representa la cantidad de varianzaconsiderada por la solución factorial para cada variable. Evaluar la comunalidadde las variables, es decir identificar las que tengan más del 50%, ya que las Pág. 55
  • 56. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006que tengan menos no tienen suficiente explicación. El nombre de los factoresse desarrolla de manera intuitiva, con base en las variables con una mayorponderación se consideran más importantes y tienen una mayor influencia parael nombre seleccionado para representar al factor.Validación del análisis factorialSe trata de evaluar el grado de generalización de los resultados en la poblacióny la influencia potencial de casos individuales en los resultados totales.El alfa de Cronbach es una medida del coeficiente de confiabilidad que evaluala consistencia de toda la escala. Este índice es la relación positiva del númerode ítems en la escala, donde 0.7 se considera adecuado. Pág. 56
  • 57. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006Ejemplo con datos de HATCOPrueba de la adecuación del modelo, utilizando Minitab:1. Stat > Basic statistics > Correlation2. Variables X1, X2, X3, X4, X6, X73. Display p values4. OKCorrelations: X1, X2, X3, X4, X6, X7 X1 X2 X3 X4 X6X2 -0.349 0.000X3 0.476 -0.472 0.000 0.000X4 0.050 0.272 -0.095 0.618 0.006 0.347X6 0.077 0.186 -0.015 0.788 0.446 0.064 0.880 0.000X7 -0.483 0.470 -0.407 0.200 0.177 0.000 0.000 0.000 0.046 0.078Cell Contents: Pearson correlation P-ValueDe la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valorde MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial.Análisis factorial con Minitab:Las instrucciones de Minitab son las siguientes:1 Cargar los datos de HATCO.2 Stat > Multivariate > Factor Analysis.3 En Variables, X1, X2, X3, X4, X6, X74 En Number of factors to extract, 2. 5 En Method of Extraction, seleccionar Principal components6 En Type of Rotation, seleccionar Varimax.7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot. Pág. 57