Barbwin 7 [análisis de datos]

4,673 views

Published on

presentacion utilizada en sesiones de formacion con barbwin, nivel avanzado

Published in: Education
2 Comments
8 Likes
Statistics
Notes
No Downloads
Views
Total views
4,673
On SlideShare
0
From Embeds
0
Number of Embeds
32
Actions
Shares
0
Downloads
0
Comments
2
Likes
8
Embeds 0
No embeds

No notes for slide

Barbwin 7 [análisis de datos]

  1. 1. proceso de datos aplicadocon barbwin 7<br />nivel avanzado<br />robertogil sauradepartamento de desarrollo<br />tesi<br />robertogil@tesigandia.com<br />http://www.tesigandia.com<br />Departamento Desarrollo TESI<br />1<br />
  2. 2. módulo 1. introducción al análisis de datos<br />proceso de datos aplicado<br />Departamento Desarrollo TESI<br />2<br />
  3. 3. etapas del proceso de datos<br />preparación de los datos para el análisis<br />creación de la base de datos<br />codificación de la información cualitativa<br />registro o grabación de la información<br />adecuación de los datos a las necesidades de análisis<br />análisis básico de los datos<br />análisis descriptivo univariante<br />análisis cruzado o tabulación<br />análisis avanzado de los datos<br />análisis multivariante de la información<br />reducción de datos<br />clasificación<br />Departamento Desarrollo TESI<br />/ 3<br />
  4. 4. creación de la base y preparación del proceso<br />base de datos (matriz de trabajo)‏<br />preguntas (variables en columnas) en columnas<br />individuos (registros, cuestionarios) en filas<br />nivel de análisis<br />redacción del plan de tabulación<br />documento que guía el análisis<br />tabulación básica<br />obtención de marginales de los datos de muestra y de perfil social (sección de clasificación)‏<br />obtención de marginales de las preguntas del cuestionario (sección de preguntas temáticas)‏<br />obtención de descriptivos y recuentos anexos<br />tabulación cruzada (clasificación por temáticas)‏<br />tabulación avanzada<br />aplicación de filtros clasificatorios y obtención de tablas temáticas<br />gráficos fundamentales<br />análisis avanzado de la información<br />Departamento Desarrollo TESI<br />/ 4<br />
  5. 5. plan de análisis<br />el plan de análisis, tabulación o explotación, es un documento de trabajo que debe ser diseñado para cumplir con tres propósitos …<br />1) proporcionar datos de la muestra total de forma descriptiva.<br />2) determinar mediante tabulación qué diferencias existen entre subgrupos socio - demográficos y actitudinales dentro de la muestra.<br />3) seleccionar cualquier otro tipo de análisis complejo univariado, bivariado o multivariado necesario para ayudar a interpretar los resultados. <br />Departamento Desarrollo TESI<br />/ 5<br />
  6. 6. escalas de medida<br />Departamento Desarrollo TESI<br />/ 6<br />escala métrica, de razón o proporcional<br />+<br />cuanti<br />tativa<br />escala de intervalo<br />escala ordinal<br />tipos de escala<br />de medida<br />cuali<br />tativa<br />-<br />escala nominal<br />
  7. 7. módulo 2. análisis de variables individuales (univariante)<br />proceso de datos aplicado<br />Departamento Desarrollo TESI<br />7<br />
  8. 8. análisis univariante – escalas nominal y ordinal<br />cálculo de frecuencias<br />valores reales del fichero (recuento)<br />valores por intervalos (tabulación de marginales)<br />aporta...<br />información sobre el número de apariciones<br />% que representa ese número de apariciones sobre el total de muestra<br />acumulado de los %<br />a tener en cuenta<br />bases de pregunta<br />niveles de análisis<br />en variables múltiples, base casos o base respuestas<br />caso especial: moda<br />valor/es más repetido/s en la distribución; una distribución puede ser multimodal.<br />Departamento Desarrollo TESI<br />/ 8<br />
  9. 9. análisis univariante – escala ordinal y de intervalo<br />medida de tendencia central<br />mediana<br />valor que deja el 50% de los casos de la distribución por arriba y por abajo del mismo. si no existe valor exacto, siempre toma aquel valor que se acerca más al 50%. <br />de la misma forma, el primer cuartil, valor que deja el 25% de los casos por detrás y el 75% de los casos por delante en la distribución. si no existe valor exacto, siempre toma aquel valor que se acerca más al 25%. por último, el tercer cuartil, valor que deja el 75% de los casos por detrás y el 25% de los casos por delante en la distribución. si no existe valor exacto, siempre toma aquel valor que se acerca más al 75%<br />Departamento Desarrollo TESI<br />/ 9<br />
  10. 10. análisis univariante – escala de razón e intervalo<br />cálculo de frecuencias<br />valores reales del fichero (recuento)<br />valores por intervalos (tabulación de marginales)<br />aporta...<br />información sobre el número de apariciones<br />porcentaje que representa ese número de apariciones sobre el total de muestra<br />acumulado de los porcentajes<br />cálculo de estadísticos<br />medidas de caracterización (máximo, mínimo, rango)<br />medidas de tendencia central (media, mediana)<br />medidas de dispersión (desviación coeficiente variación, varianza)<br />medidas de error (error, intervalo de confianza)<br />Departamento Desarrollo TESI<br />/ 10<br />
  11. 11. análisis univariante<br />Departamento Desarrollo TESI<br />/ 11<br />escala de razón e intervalo<br />
  12. 12. análisis univariante – estadísticos<br />Departamento Desarrollo TESI<br />/ 12<br /> (escala de razón o proporción métrica y algunas ordinales)<br />
  13. 13. pruebas sobre una muestra<br />estas pruebas persiguen caracterizar la distribución para asumir una serie de propiedades o alternativas para las variables analizadas.<br />binomial<br />la distribución binomial es la distribución muestral de las proporciones observadas en muestras tomadas de forma aleatoria de una población de dos clases. nuestra hipótesis nula será en este caso la pertenencia de los datos de proporción a una población particular. esta es una prueba de la bondad del ajuste a la distribución binomial. <br />jhi2<br />en algunas ocasiones el investigador se plantea por el número de sujetos, objetos o respuestas que se clasifican en diferentes categorías. la prueba c2 es adecuada para analizar este supuesto ya que puede utilizarse para analizar si la diferencia entre los observado y lo esperado en una determinada distribución arrojan unas diferencias significativas. <br />kolgomorov-smirnov<br />prueba estadística en la que compramos las frecuencias relativas acumuladas (esperadas y observadas) de las distribuciones (uniforme o normal) para saber si los datos de que disponemos pueden provenir de una muestra con esas características. <br />Departamento Desarrollo TESI<br />/ 13<br />
  14. 14. módulo 3. análisis entre dos variables (bivariante)<br />proceso de datos aplicado<br />Departamento Desarrollo TESI<br />14<br />
  15. 15. análisis bivariante<br />escalas nominales, ordinales y de intervalo<br />en ocasiones, no sólo nos interesa conocer las medidas más importantes de una variable, sino también las relaciones entre ellas. para ello acudimos a las tablas de contingencia.<br />¿cómo se lee una tabla?<br />conocer la muestra mediante los marginales de fila en cabecera<br />mirar las variables y sus categorías<br />mirar los marginales de filas y columnas<br />mirar relaciones celda / totales dentro de la tabla (prueba jhi²)‏<br />¿cómo se leen los porcentajes?<br />porcentajes verticales o calculados en base al total de la columna<br />porcentajes horizontales o calculados en base al total de la fila<br />porcentajes totales o calculados en base a la n de muestra total para la variable seleccionada (eliminando filtros o bases no deseadas)<br />Departamento Desarrollo TESI<br />/ 15<br />
  16. 16. análisis de tablas cruzadas - tabulación<br />de casos<br />marginal<br />bivariada<br />bivariada con estadísticos<br />3d – tridimensional<br />de grupos de casos<br />marginal<br />bivariada<br />bivariada con estadísticos<br />3d – tridimensional<br />Departamento Desarrollo TESI<br />/ 16<br />
  17. 17. condiciones / segmentación en las tablas<br />concepto de base: <br />fila de la tabla de contingencia que nos informa de un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%.<br />concepto de filtro<br />columna de la tabla de contingencia que nos informa de un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%.<br />los porcentajes <br />siempre deben mostrarse con un rango de 0 a 100, evitar el uso de ,00 (decimales) si el error de la muestra es mayor al 1%.<br />Departamento Desarrollo TESI<br />/ 17<br />
  18. 18. pruebas de asociación o independencia<br />Departamento Desarrollo TESI<br />/ 18<br />conjunto de pruebas que nos miden si hay asociación o independencia entre las celdas relacionadas en la tabla.<br />jhi² (de celda, pearson), se pretende con este test, válido para escalas nominales pero extensivo al resto, ver de un solo vistazo aquellas celdas cuyo porcentaje (vertical) es significativamente mayor (>) o menor (<) al porcentaje que cabría esperar ante un comportamiento proporcional de las categorías testadas en sus marginales. (significación < 0,05, valor de comparación 3,84)<br />jhi² (de tabla, pearson), se pretende con esta prueba analizar la relación existente entre dos variables medidas en escalas nominales, ordinales o de intervalo (en menor medida) si existe relación de dependencia entre ambas o si su relación sólo es debida a efectos aleatorios de la muestra. a mayor valor de jhi², mayor grado de dependencia (significación < 0,05).<br />v de cramer, igual objetivo que el anterior, pero sitúa entre 0 y 1 los valores extremos de la prueba. basado en jhi², ofrece un valor 1 cuando las variables son absolutamente dependientes (diagonal principal) y un 0 cuando son absolutamente independientes (equitativamente distribuidos).<br />
  19. 19. limitaciones de jhi²<br />es una técnica de aproximación, no exacta. por ello, a menor muestra, más pequeño debe ser el nivel de significación para tomar la decisión con relativa seguridad.<br />en esencia, la prueba parte de una utilización de variables continuas, sin embargo se utiliza con variables nominales, lo cual genera una incorrección, que sólo es insalvable en las tablas de 2x2, donde se utiliza la corrección por continuidad de yates.<br />es una prueba que depende de la unidad de medida, efecto que salvan otras pruebas como v de cramer.<br />la disparidad entre la aproximación de pearson y la distribución jhi aumenta conforme disminuye n. utilizar probabilidad exacta de fisher si hay frecuencias menores a 5.<br />el modelo puede no funcionar correctamente cuando existen frecuencias esperadas inferiores a 5. se considera válido si menos del 20% de las celdas tienen frecuencias esperadas inferiores a 5. caso de no ser así, no queda más remedio que agrupar categorías columna o fila.<br />Departamento Desarrollo TESI<br />/ 19<br />
  20. 20. pruebas de significación<br />t - student para contraste de proporciones o medias e muestra indepenedientes<br />en esta prueba se trata de ver si las diferencias entre las columnas porcentuales dentro de una misma categoría en una variable son significativas en la población de la cual se extrajeron las muestras<br />prueba equivalente para la media aritmética<br />esta prueba sólo se realizará si las muestras provienen de poblaciones que son independientes<br />formatos de ejecución<br />con base real o base ponderada<br />con datos de una columnas de variable o columnas de tabla<br />diferentes niveles de confianza<br />Departamento Desarrollo TESI<br />/ 20<br />
  21. 21. pruebas de correlación (1)‏<br />objetivo, medir relación métrica y lineal<br />cuando la variables de las que se desea calcular la relación son numéricas métricas se aplica la correlación de pearson o análisis de regresión simple<br />si no es métrica la relación<br />ante relaciones entre otro tipo de escalas acudiremos a las pruebas no paramétricas donde coexisten spearman o los diferentes coeficientes de kendall.<br />valores<br />los valores suelen estar en la mayoría de coeficientes entre [ -1 ≥ r ≤ 1]<br />tipo de relación lineal<br />directa<br />inversa<br />Departamento Desarrollo TESI<br />/ 21<br />
  22. 22. pruebas de correlación (2)‏<br />pearson<br />... nos indicará si existe relación entre las variables analizadas, cuantifica esa relación y el signo del coeficiente muestra la dirección de la misma.<br />spearman<br />...conocido como “rho”, es una medida de asociación que requiere que al menos una de las dos variables que intervengan en el análisis esté reflejando ordenaciones, es decir, medición ordinal.<br />tau de kendall<br />... tiene igual funcionamiento que el coeficiente de rangos de spearman y es muy utilizado para mediciones medias de jueces. valora la relación entre las ordenaciones otorgadas por los jueces, teniendo en cuenta las concordancias y las discordancias.<br />concordancia de kendall (w)‏<br />... se diferencia de los anteriores por trabajar con k ordenaciones en lugar de con 2 ordenaciones.<br />Departamento Desarrollo TESI<br />/ 22<br />
  23. 23. análisis de la varianza<br />descripción<br />el análisis de la varianza es un método explicativo que se utiliza para comprender la relación existente entre dos variables (nominal :: explicativa o independiente:: y otra métrica :: cuantitativa a explicar::) <br />objetivo<br />el modelo de cálculo implica analizar si las puntuaciones medias de la variable dependiente en cada uno de los cortes o grupos de la variable independiente pueden diferir significativamente. <br />la prueba está basada en el análisis de las sumas de cuadrados explicadas entre los grupos y también intra grupo. la suma de cuadrados de la variable total viene expresada por la suma de las dos anteriores. <br />lectura de la prueba<br />se dice que hay una relación de dependencia entre ambas variables cuando la fuente de variación inter grupo es superior a la fuente de variación intra grupo.<br />estadístico<br />la existencia de esa relación viene materializada por el uso del estadístico f. <br />la hipótesis nula es la igualdad de medias entre los grupos. <br />si rechazamos esta hipótesis, es decir si el estadístico f es significativo (<0,05), rechazaremos la ho y aceptaremos la existencia de relación entre las variables. las puntuaciones medias de la variable dependiente están condicionadas por la pertenencia al grupo de la independiente. <br />Departamento Desarrollo TESI<br />/ 23<br />
  24. 24. regresión simple<br />Departamento Desarrollo TESI<br />/ 24<br />descripción<br />se usa para detectar la relación de dependencia entre dos variables medidas en escala métrica o de intervalos, es decir, cuantitativas.<br />los objetivos de este análisis son:<br />determinar si la variable explicada lo es por medio de la variable explicativa<br />determinar el tipo de relación entre ambas variables<br />conocer la intensidad de la relación entre las variables. <br />el análisis se realiza por medio del estudio de las fuentes de variación de las variables:<br />suma de cuadrados de la variable a explicar, sumatorio de la diferencia cuadrática del sumatorio de los valores de la variable a explicar menos su media.<br />suma de cuadrados de la regresión, sumatorio de la diferencia cuadrática de los valores predichos por la regresión menos su media<br />suma de cuadrados residual, sumatorio de la diferencia cuadrática de los valores reales de la variable a explicar menos los valores predichos por el modelo.<br />la ecuación que representa el modelo es y=b0+b1x+e<br />b0 es el término independiente, <br />b1 es el moderador o multiplicador del valor de x <br />e, el término residual. <br />b0 indica el valor que tomaría y en el caso de que x fuera 0. <br />b1 >0 indica que un aumento en la variable explicativa, repercutiría en la variable a explicar en un aumento de esa cantidad proporcional.<br />b1 >0 indica que una aumento en la variable explicativa, repercutiría en la variable a explicar en una disminución en esa cantidad proporcional.<br />ambos coeficientes deben ser significativos para la aceptación del análisis, dado que así confirmamos su participación real en el modelo. <br />
  25. 25. proceso de datos aplicado<br />Departamento Desarrollo TESI<br />25<br />módulo 4. análisis entre n variables (multivariante)<br />
  26. 26. supuestos paramétricos en multivariado<br />normalidad en las mediciones<br />los test de significatividad pueden dejar de ser válidos<br />igualdad de varianzas (homocedasticidad) en todos los niveles de la variable dependiente<br />afecta al error típico, y por tanto a los test de significatividad<br />linealidad en las relaciones<br />sólo aplicable a aquellas técnicas que se basan en la correlación lineal de los datos<br />independencia entre las observaciones<br />la probabilidad de ocurrencia de un evento no afecta a la probabilidad de ocurrencia de otro<br />tamaño muestral suficiente para la técnica elegida<br />Departamento Desarrollo TESI<br />/ 26<br />
  27. 27. criterios de clasificación del multivariado<br />dependencia<br />técnicas de interdependencia<br />técnicas de dependencia<br />objetivo de la técnica<br />modelización lineal (regresión)‏<br />reducción de datos, comprensión del espacio muestral<br />clasificación de sujetos u objetos en la muestra<br />fiabilidad de escalas<br />Departamento Desarrollo TESI<br />/ 27<br />
  28. 28. técnicas objeto de este módulo<br />regresión lineal múltiple<br />modelo forward stepwise<br />reducción de datos<br />análisis de correspondencias<br />análisis de correspondencias múltiple<br />factorial de componentes<br />clasificación<br />segmentación (jhi², a.i.d.)‏<br />cluster jerárquico y k medias<br />fiabilidad de escalas<br />alpha de cronbach<br />Departamento Desarrollo TESI<br />/ 28<br />
  29. 29. regresión múltiple<br />proceso de datos avanzado<br />29<br />
  30. 30. análisis de regresión lineal múltiple<br />definición y utilidad<br />paradigma de las técnicas de dependencia y base de una gran parte de las técnicas multivariantes, su objetivo es explicar el comportamiento de una variable dependiente a partir de las relaciones entre variables independientes. trata de captar los efectos de cada variable por separado.<br />analizamos sólo ols (mínimos cuadrados ordinarios)‏<br />grado de utilización en la práctica<br />en desuso como tal, porque se está modelando hoy en día con evoluciones o especificaciones del mismo: logit, probit, logística, etc.<br />condiciones para el análisis<br />variables de tipo numérico con las que se cree puede haber una relación lineal.<br />linealidad de parámetros<br />existencia de perturbación estocástica en el modelo con media igual a 0<br />homocedasticidad<br />ausencia de correlación serial<br />ausencia de multicolinealidad<br />matriz de datos no estocástica e independiente<br />Departamento Desarrollo TESI<br />/ 30<br />
  31. 31. términos utilizados (1)‏<br />modelo utilizado: paso a paso<br />en este tipo de metodología, las variables se incorporan una a una, comenzado por aquella que tiene un mayor poder explicativo de la variable dependiente.<br />excepciones<br />se puede combinar con una metodología de forzado de participación<br />suma de cuadrados explicada por la variable actual<br />total de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n<br />r cuadrado de la variable<br />% de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n<br />suma de cuadrados explicada por las variables (acumulado)‏<br />total de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n<br />r cuadrado de las variables (acumulado) <br />% de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n<br />Departamento Desarrollo TESI<br />/ 31<br />
  32. 32. términos utilizados (2)‏<br />Departamento Desarrollo TESI<br />/ 32<br />suma de cuadrados total<br />total de la varianza explicada por el modelo que aportan las variables introducidas al final del modelo.<br />coeficiente de correlación múltiple<br />bondad del ajuste producido por la totalidad del modelo (R2>=0,7); cociente entre la suma de cuadrados de la regresión y la suma de cuadrados explicada.<br />coeficiente de correlación múltiple ajustado a los grados de libertad<br />bondad del ajuste producido por la totalidad del modelo, y corregido al número de variables y tamaño muestral. aumenta muy poco con el aumento de variables explicativas.<br />error estándar de estimación y error estándar de estimación ajustado a los grados de libertad<br />estimación del error que se produce en el modelo<br /> <br /> <br />R2 mala notación en barbwin<br />
  33. 33. términos utilizados (3)‏<br />33<br />predicción por el modelo<br />valor de la variable dependiente utilizando el modelo lineal de regresión<br />residuo<br />diferencia entre el valor real y el predicho por el modelo<br />coeficiente de regresión<br />valor que permite medir la relación de la variable independiente con la dependiente del modelo.<br />normal, dirección de la relación entre explicativa y explicada en el sentido indicado por el signo <br />estandarizado, importancia de la variable en la explicación de la variable explicada<br />error estándar de regresión<br />medida de precisión de los coeficientes de regresión proporcional al error de estimación e inversamente proporcional a la variabilidad de la variable, descontada la del resto de variables del modelo.<br />valor t - sudent y significación<br />prueba inferencial que aporta la significatividad de la relación lineal planteada específicamente para el regresor especificado<br />valor f para el análisis de varianza y significación<br />prueba inferencial que aporta la significatividad de la relación lineal planteada en el conjunto del modelo.<br />
  34. 34. análisis de residuales <br />34<br />interpretación de coeficientes beta<br />interpretación de los beta estandarizados<br />análisis de los residuales (eliminación de outliers)<br />normalización de la variable residual<br />eliminación de los que estén sobre 2 desviaciones<br />
  35. 35. correspondencias<br />proceso de datos avanzado<br />35<br />
  36. 36. análisis de correspondencias simple y múltiple<br />concepto y utilidad<br />análisis geométrico que permite visualizar la relación geométrica entre las categorías que conforman una tabla de contingencia.<br />permite conocer las asociaciones que se producen entre las categorías de columna y fila y entre ellas mismas.<br />condiciones de utilización<br />variables de cualquier tipo que conformen una tabla de contingencia. se trabajará con los datos cualitativos de la misma.<br />grado de utilización en la práctica<br />muy utilizado para realizar posicionamientos de atributos y marcas.<br />máximo número de dimensiones<br />menor número de filas o columnas -1 (máximo de 6 en barbwin)‏<br />Departamento Desarrollo TESI<br />/ 36<br />
  37. 37. términos utilizados<br />perfiles de fila y columna (no impresos)‏<br />el perfil es un vector que contiene las frecuencias relativas de cada fila o columna. resultado del cociente entre la celda y su total fila o columna; en gandiabarbwin son los porcentajes verticales y horizontales en el análisis. son utilizados para calcular la distancia entre todas las categorías.<br />distancia (no impresas)‏<br />operación realizada para obtener una medición de la separación o cercanía entre las categorías analizadas, se utiliza la distancia jhi²<br />masa<br />representa el peso de cada categoría de fila o columna sobre el total de la muestra, es decir, porcentajes totales de categoría.<br />valor propio o inercia (peso)<br />resultado de operar la masa con la distancia, es el indicativo del peso que tendrá cada variable original en las dimensiones finales.<br />contribuciones absolutas<br />indica el peso que cada punto de fila o columna (de forma independiente) tiene en el total de la dimensión<br />contribuciones relativas<br />indican el peso de cada dimensión en cada categoría de fila y columna<br />distancia al centroide (baricentro)‏<br />medida de la separación de cada categoría del centro del la representación gráfica<br />Departamento Desarrollo TESI<br />/ 37<br />
  38. 38. “reglas” de interpretación<br />38<br />estas reglas son una idea general, la intepretación subjetiva del investigador, al igual que un ejercicio estimativo es muy importante en este análisis<br /><ul><li>proximidad entre puntos fila, perfiles parecidos, es decir las asociaciones de empresas a estos atributos son similares
  39. 39. proximidad entre puntos columna, tienen los mismos puntos fuertes y débiles o características parecidas, se asocian igual,
  40. 40. proximidad al origen, distribución poco discriminadora, muy parecida a la distribución total</li></li></ul><li>diferencias entre simple y múltiple<br />el input del análisis es una tabla de doble entrada de las frecuencias cruzadas de las n variables del análisis con las n variables, por lo que:<br />en la diagonal principal tenemos los marginales de las n variables<br />en las celdas adyacentes a la diagonal principal de cada variable existen valores iguales a cero<br />en el resto de celdas, frecuencia cruzada.<br />en la presentación de las inercias o valores propios…<br />se realiza la transformación de benzécri y de greenacre para facilitar la retención de dimensiones a partir de los % de varianza explicada.<br />aporta<br />un cálculo de variables que contienen las coordenadas de las dimensiones para cada uno de los individuos del análisis, pudiendo representarse un mapa de coordenadas xy sobre las dimensiones seleccionadas de la concentración de individuos.<br />Departamento Desarrollo TESI<br />/ 39<br />
  41. 41. componentes principales<br />proceso de datos avanzado<br />40<br />
  42. 42. análisis de componentes principales<br />concepto y utilidad<br />prueba muy conocida y utilizada que permite reducir el espacio dimensional de un conjunto multivariante de datos a un conjunto de factores cuya composición proviene de combinaciones lineales y normales que maximizan la representatividad de los datos originales y minimizan la pérdida de información.<br />en la práctica permite reducir y agrupar el número de dimensiones de un problema<br />condiciones de utilización<br />variables con escala al menos de intervalo. matriz de individuos por variables. <br />correlaciones significativas entre las variables que participan. se comparte las mismas fuentes de variabilidad, es decir que las correlaciones sean elevadas.<br />5-15 registros por variable<br />variantes<br />infinidad, presentadas para estructuras de datos específicos: componentes principales, factorial, máxima verosimilitud, alpha, etc. …<br />máximo número de componentes<br />igual número que variables originales incluidas en la estructura de datos<br />situación ideal<br />pocos componentes explican mucha varianza, pero suficientes como para poder expresar la multidimensionalidad de una estructura<br />Departamento Desarrollo TESI<br />/ 41<br />
  43. 43. términos utilizados (1)‏<br />saturaciones o cargas<br />peso de la variable en cada componente o factor<br />el ideal es que cada variable tenga saturaciones altas en un único factor y bajas en el resto.<br />matriz de correlaciones<br />matriz que nos permite observar a simple vista los coeficientes de correlación de pearson entre las variables que intervienen en el análisis.<br />prueba de esfericidad de bartlett<br />prueba que reafirma la viabilidad del análisis de componentes principales, pues testa que la matriz de correlaciones es significativamente diferente de la matriz identidad. en este caso, la nube de puntos sería una esfera. si se obtiene un valor de jhi² que si es significativo, se rechaza la hipótesis nula de esfericidad o incorrelación.<br />valor propio<br />este valor indica la varianza de la matriz de correlaciones explicada por el componente o factor. <br />Departamento Desarrollo TESI<br />/ 42<br />
  44. 44. términos utilizados (2)‏<br />solución directa / rotada<br />directa -> matriz de pesos factoriales donde se puede observar la participación o peso de cada variable en el componente<br />rotada -> ídem tras la rotación de los ejes factoriales.<br />contribuciones absolutas<br />cada celda muestra el porcentaje de participación de cada variable en el componente extraído. el porcentaje es vertical.<br />contribuciones relativas<br />(1) la primera fila de valores muestra el porcentaje de participación de cada variable en los diferentes factores extraídos y por tanto suma 100.<br />(2) la segunda fila de valores muestra el porcentaje de participación de cada variable en los diferentes factores, contabilizando los extraídos y los no extraídos.<br />comunalidad final<br />proporción de la varianza inicial de una variable explicada por el componente o factor. suma de los cuadrados de las saturaciones de una variable en todos los factores.<br />rotación<br />método matemático utilizado para rotarlos ejes factoriales y facilitar el análisis de los investigadores. varimax que tiende a que cada variable cargue mucho en un componente y poco en el resto.<br />el método de componentes principales extrae componentes con baja correlación.<br />Departamento Desarrollo TESI<br />/ 43<br />
  45. 45. técnicas de clasificación<br />concepto y utilidad<br />conjunto de técnicas con una orientación común hacia la clasificación de la información, donde agrupamos técnicas de interdependencia y técnicas de dependencia. la elección de una u otra dependerá del tipo de información de partida y destino que se tenga y requiera.<br />tipos<br />segmentación<br />cluster<br />discriminante<br />Departamento Desarrollo TESI<br />/ 44<br />
  46. 46. segmentación<br />proceso de datos avanzado<br />45<br />
  47. 47. segmentación<br />Departamento Desarrollo TESI<br />/ 46<br />técnica de clasificación que tiene como objetivo la elaboración de subgrupos muestrales en base a el mayor poder de explicación en la variable dependiente.<br />segmentación aid<br />técnica de segmentación que basada en el análisis de varianza, parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas<br />segmentación jhi²<br />técnica de segmentación que basada en la realización de pruebas jhi², parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas<br />segmentación de jhi² tabla<br />técnica de segmentación que basada en la realización de pruebas jhi² de tabla, parte del intento de clasificar una muestra a partir de la búsqueda de la asociación más alta en pruebas de asociación.<br />
  48. 48. segmentación<br />Departamento Desarrollo TESI<br />/ 47<br />condiciones para el análisis<br />variable dependiente de tipo numérica métrica en aid, e independientes cualitativas y codificadas<br />variable dependiente como dicotomía en una muestra, numérica métrica en jhi², e independientes cualitativas y codificadas<br />variables codificadas con diferentes niveles en jhi² de tabla. <br />ejecución en gbw<br />disponemos de dos peculiaridades …<br />forzar al test de un grupo con el resto<br />agrupar por continuidad de categoría<br />fijación de un número mínimo de casos para considerar el grupo<br />fijación del nivel de segmentación máximo<br />
  49. 49. cluster<br />proceso de datos avanzado<br />48<br />
  50. 50. tipología, cluster o análisis de conglomerados<br />definición y utilidad <br />conjunto de técnicas cuyo fin último es la clasificación de la información en base a una serie de atributos relevantes señalados por el investigador; para ellos se utilizan las similitudes entre las valoraciones dadas a los atributos señalados.<br />ejecución en barbwin<br />selección de variables de tipo numérico métrico o de tipo nominal.<br />las variables nominales o múltiples se binarizan, el proceso de binarización (0/1) es interno y automático, resultando en nueva variable para cada código.<br />Departamento Desarrollo TESI<br />/ 49<br />
  51. 51. análisis cluster<br />tipos<br />cluster jerárquico, análisis en el que se parte de una agrupación unitaria a una agrupación total. análisis asociativo. basado en el cálculo de distancias entre objetos.<br />cluster no jerárquico o k medias, análisis en el que hay una conjetura inicial sobre el número de grupos a formar y se itera el método de clasificación hasta clasificar toda la información en el número de grupos marcados. análisis partitivo o de optimización. basado en la distancia del objeto al grupo formado.<br />condiciones para el análisis<br />representatividad muestral<br />ausencia de multicolinealidad<br />Departamento Desarrollo TESI<br />/ 50<br />
  52. 52. tipos de cluster<br />jerárquico<br />k-medias<br />51<br />ascendente y aglomerativo, se pasa de n objetos en n grupos a n objetos en 1 grupo<br />trabajo con matriz de distancias<br />se trabajan criterios de pertenencia (mínimo, máximo, mediana, centroide)<br />no requiere de matriz de proximidades<br />permite tamaños de muestra mucho más amplios<br />se eligen los grupos a priori<br />la iteración conlleva reasignación de individuos en grupos<br />en marketing se usan los métodos de reasignación<br />el proceso finaliza cuando no se puede mejorar la reasignación de los grupos<br />
  53. 53. terminología (1)‏<br />distancia<br />euclídeas o euclídeas al cuadrado si los datos son mediciones. recordemos que la distancia euclídea al cuadrado reforzará más las distancias entre los puntos de un plano.<br />jhi² si los datos a agrupar son frecuencias (sólo no jerárquico).<br />método de análisis<br />distancia mínima (single linkage), agrupa a aquellos casos que tengan una menor distancia entre ellos; la distancia entre objetos y cluster es la distancia entre el objeto y el objeto más próximo del grupo.<br />distancia máxima (complete linkage), agrupa en función de la distancia entre los puntos más alejados; la distancia entre objeto y cluster es la distancia entre el objeto y el objeto más alejado del grupo. <br />agrupación de centroides, donde la distancia se calcula al centro de gravedad del grupo, definido por la media de las distancias entre los objetos del grupo. el centro del nuevo grupo es la media directa de los dos centroides; minimiza la influencia de los outliers.<br />agrupación de medianas , variación del anterior que pondera por el nº de grupos que hay a la hora de calcular el centroide del nuevo grupo.<br />Departamento Desarrollo TESI<br />/ 52<br />Lejanos<br />Próximos<br />
  54. 54. criterios de asignación<br />53<br />mínimo<br />centroide<br />máximo<br />mediana<br />
  55. 55. terminología (2)‏<br />en cluster no jerárquico, puntos de partida<br />k primeros<br />k aleatorios<br />k con máxima distancia<br />k del jerárquico<br />k del usuario<br />k más numerosos<br />cálculo de distancias<br />distancia de cada individuo al centro del cluster<br />distancia promedio de todos los individuos que pertenecen al centro<br />matriz final de distancias intra y entre los clusters. <br />variable de grupo<br />guarda el código de grupo de pertenencia en el cluster.<br />dendograma<br />análisis de varianza<br />correlaciones entre los clusters<br />análisis post-hoc<br />de variables activas, media de las variables que participan en el grupo<br />de variables pasivas, cruces y jhi2, t-student<br />Departamento Desarrollo TESI<br />/ 54<br />
  56. 56. fiabilidad<br />proceso de datos avanzado<br />55<br />
  57. 57. análisis de fiabilidad<br />definición y utilidad<br />método que nos permite analizar la precisión de la relación lineal y sumativa de las valoraciones ofrecidas a diferentes ítems que conforman dimensiones de una dimensión de mayor rango mejor explicada por el conjunto de variables que por sí misma.<br />condiciones para el análisis<br />variables de medición<br />mayor fiabilidad a mayor cantidad de ítems<br />ejecución en gbw<br />en gandiabarbwin se utiliza el alpha de cronbach como medida de la fiabilidad de escalas<br />Departamento Desarrollo TESI<br />/ 56<br />
  58. 58. métodos de análisis y terminología (1)‏<br />método<br />normal, incluye todas las variable del análisis aunque su varianza sea 0.<br />covarianzas, elimina del análisis aquellas variables que tienen varianza 0.<br />análisis de varianza<br />técnica bivariante o multivariante que permite analizar la relación entre las medias de los grupos y la media total en diferentes niveles de la variable de agrupación<br />entre personas<br />cada persona es analizada como un grupo; se analiza la diferencia entre las medias individuales de las puntuaciones en el conjunto de elementos con la media global de todos los elementos de la escala<br />intra personas<br />cada persona es analizada como un grupo; se analiza la diferencia entre las puntuaciones individuales e cada elemento de la escala con las medias de cada individuo en la escala<br />entre medidas<br />se analiza la diferencia entre las puntuaciones individuales de cada elemento en relación con la media de la muestra para cada elemento<br />Departamento Desarrollo TESI<br />/ 57<br />
  59. 59. terminología (2)‏<br />residuos<br />diferencia de los residuos individuales en cada elemento de la escala en relación con la media de los residuos individuales en la escala<br />prueba f<br />valida si hay diferencias entre las medias de las variables que conforman la escala. significaciones valores a 0 nos llevan a aceptar la ha y rechaza la ho de igualdad de medias.<br />media y varianza si ítem borrado<br />medición si eliminamos un ítem de la escala<br />correlación corregida<br />correlación del ítem con la escala<br />alpha si ítem borrado<br />coeficiente final si borramos el ítem seleccionado<br />alpha de cronbach<br />coeficiente de correlación entre los ítems de la escala. una escala fiable debe producir valores altos de alpha.<br />estadísticos entre los ítems<br />media, varianza, covarianza y correlación<br />t² de hotelling<br />medida utilizada para contrastar la hipótesis de medias iguales en el análisis de fiabilidad; se distribuye como una f<br />iteración del proceso<br />Departamento Desarrollo TESI<br />/ 58<br />

×