Memoria Exploración y Análisis de Datos

1,940 views

Published on

Trabajo final en su versión modificable, máster en Ingeniería Computacional y Sistemas Inteligentes

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,940
On SlideShare
0
From Embeds
0
Number of Embeds
162
Actions
Shares
0
Downloads
36
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Memoria Exploración y Análisis de Datos

  1. 1. UNIVERSIDAD DEL PAÍS VASCO FACULTAD DE INFORMÁTICA MÁSTER EN INGENIERÍA COMPUTACIONAL Y SISTEMAS INTELIGENTES EXPLORACIÓN Y ANÁLISIS DE DATOS LUIS ANTONIO CHAMBA ERAS 2011Estudio de la Evaluación de los Ayudantes de Cátedra en la Universidad de Wisconsin
  2. 2. Índice generalÍndice de tablas iiÍndice de guras iv1. Presentación 1 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12. Fuente y Descripción de Datos 2 2.1. Fuente de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2. Descripción de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23. Estudio Descriptivo General 5 3.1. Análisis Univariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3.2. Análisis Bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154. Análisis de Componentes Principales 25 4.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2. Características Distribucionales de las Variables . . . . . . . . . . . . . . . 27 4.3. Correlaciones y grácas de dispersión . . . . . . . . . . . . . . . . . . . . . 28 4.4. ACP normado: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.5. Grácos del ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295. Análisis de Correspondencias 33 5.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2. AC Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.3. Grácos del AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366. Multidimensional Scaling 40 6.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.2. Multidimensional Scaling en R . . . . . . . . . . . . . . . . . . . . . . . . 417. Análisis de Clusters 45 7.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.2. Conglomerados en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 i
  3. 3. 8. Conclusiones 49A. Diccionario de Datos 53B. Códigos fuentes 54C. Licencia de la obra 55 ii
  4. 4. Índice de tablas 2.1. Datos resumidos para el estudio del TAE . . . . . . . . . . . . . . . . . . . 4 3.1. Medias de la Variable de evaluación de ayudantes de cátedra . . . . . . . . 12 3.2. Medias de la Variable de idioma del ayudante de cátedra . . . . . . . . . . 12 3.3. Medias de la Variable de semestres en que colaboran los ayudantes de cátedra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.4. Medias de acuerdo a la cantidad de alumnos por semestre . . . . . . . . . 13 3.5. Medias de acuerdo a la cantidad de alumnos por evaluación . . . . . . . . 14 3.6. Medias de acuerdo a la cantidad de alumnos por idioma . . . . . . . . . . 14 3.7. Resumen estadístico de la variable numérica . . . . . . . . . . . . . . . . . 15 3.8. Tabla de Contingencia de CI vs NES (Frecuencia Absoluta) . . . . . . . . 16 3.9. Tabla de Contingencia de CI vs NES (Frecuencia Relativa) . . . . . . . . . 17 3.10. Distribuciones relativas de frecuencias marginales de CI vs NES . . . . . . 19 3.11. Tabla de Contingencia de C vs NES (Frecuencia Absoluta) . . . . . . . . . 20 3.12. Tabla de Contingencia de C vs NES (Frecuencia Relativa) . . . . . . . . . 21 3.13. Distribuciones relativas de frecuencias marginales C vs NES . . . . . . . . 22 3.14. Tabla de Contingencia de S vs NES (Frecuencia Absolutas) . . . . . . . . 22 3.15. Tabla de Contingencia de S vs NES (Frecuencia Relativas) . . . . . . . . . 22 3.16. Distribuciones relativas de frecuencias marginales S vs NES . . . . . . . . 23 3.17. Tabla de Contingencia de CA vs NES (Frecuencia Absolutas) . . . . . . . 23 3.18. Tabla de Contingencia de CA vs NES (Frecuencia Relativas) . . . . . . . . 23 3.19. Distribuciones relativas de frecuencias marginales CA vs NES . . . . . . . 23 3.20. Tabla de Contingencia de CA vs S (Frecuencia Absolutas) . . . . . . . . . 23 3.21. Tabla de Contingencia de CA vs S (Frecuencia Relativas) . . . . . . . . . 23 3.22. Distribuciones relativas de frecuencias marginales CA vs S . . . . . . . . . 24 4.1. Estadísticos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2. Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.3. Matriz de Correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.4. Matriz de Coordenadas de las columnas . . . . . . . . . . . . . . . . . . . 28 4.5. Matriz de Contribuciones de las columnas a los ejes . . . . . . . . . . . . . 29 4.6. Matriz de Valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.7. Matriz de Vectores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.8. Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 iii
  5. 5. 5.1. Matriz de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.2. Principales inertias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 iv
  6. 6. Índice de guras 3.1. Frecuencias de Ayudantes de Cátedra por cursos . . . . . . . . . . . . . . 7 3.2. Frecuencias de los resultados de la evaluación . . . . . . . . . . . . . . . . 7 3.3. Frecuencias de los ayudantes que han trabajado con más instructores . . . 8 3.4. Frecuencia de ayudantes de cátedra que son nativos en el idioma Inglés . . 8 3.5. Frecuencias de semestres de los ayudantes de cátedra . . . . . . . . . . . . 9 3.6. Porcentajes de cursos en donde han trabajado los ayudantes . . . . . . . . 10 3.7. Porcentaje de distribución del resultado de evaluación . . . . . . . . . . . 10 3.8. Porcentaje de códigos de instructor . . . . . . . . . . . . . . . . . . . . . . 11 3.9. Porcentaje de ayudantes que son nativos ingleses . . . . . . . . . . . . . . 11 3.10. Porcentajes de ayudantes por semestres . . . . . . . . . . . . . . . . . . . 12 3.11. Histogramas de frecuencias de la variable numérica . . . . . . . . . . . . . 13 3.12. Diagrama de Caja de alumnos por clase . . . . . . . . . . . . . . . . . . . 14 3.13. Estadísticos Univariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.14. Histograma en donde se observa en cuales de los cursos han colaborado los ayudantes de cátedra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.15. Histogramas de códigos de los instructores que han colaborado los ayu- dantes de cátedra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.1. Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2. Sedimentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.3. Circulo de Correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.4. Niveles de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.1. Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.2. Columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.3. Estadísticas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.4. Mapa simétrico del AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.5. Mapa asimétrico del AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.6. Tridimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.1. Matriz de distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 6.2. Escalado Multidimensional Métrico . . . . . . . . . . . . . . . . . . . . . . 43 6.3. Gráco del Escalado Multidimensional . . . . . . . . . . . . . . . . . . . . 44 v
  7. 7. 7.1. Cluster por métodos de cálculos . . . . . . . . . . . . . . . . . . . . . . . . 477.2. Dendograma del Cluster 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.3. Grácos de cluster por algoritmo PAM . . . . . . . . . . . . . . . . . . . . 48 vi
  8. 8. Capítulo 1Presentación1.1. Introducción En la presente memoria se presenta el trabajo de Exploración y Análisis de Datos deun conjunto de observaciones y variables. Se trata del Análisis de la evaluación realizadaa los 151 ayudantes de cátedra en el Departamento de Estadística de la Universidad deWisconsin-Madison durante tres semestres regulares y 2 semestres en verano, se utilizaalgunas técnicas del análisis multivariante como: componentes principales, corresponden-cias, multidimensional scaling y clusters. 1
  9. 9. Capítulo 2Fuente y Descripción de Datos2.1. Fuente de datos Durante el desarrollo del presente trabajo se pondrá en practica algunas de las téc-nicas de análisis de datos, se utilizará el software R en la manipulación y representaciónde los mismos, la información se ha sido extraído del repositorio de la Universidad deCalifornia UC Irvine Machine Learning Repository 1 , en donde se escogió el TeachingAssistant Evaluation2 , se cuenta con 151 individuos, con 6 variables de las cuales 5 sonvariables cualitativas y una cuantitativa, no se encuentran campos vacíos, fue añadidoen el repositorio de datos en el año de 1997. Los investigadores son de la Universidad deWisconsin-Madison3 . Estos datos recolectados revelan el resultado de la evaluación realizada a 151 ayu-dantes de cátedra durante 2 y 3 semestres en verano e invierno respectivamente.2.2. Descripción de datos Con estos datos nos va a permitir poder tener a disposición de las herramientas parala toma de decisiones por los diferentes métodos multivariantes como: análisis de com-ponentes principales, análisis de correspondencias, multidimensional scaling y análisis declusters en donde intervienen seis variables a un total de 151 individuos. Las variables para el estudio son4 : 1. Whether of not the TA is a native English speaker (binary) : Variable cualitativa binaria que recoge la información si el profesor habla o no Inglés. Tiene los siguientes valores: 1=English speaker, 2=non-English speaker. 1 http://archive.ics.uci.edu/ml/index.html Disponible el [09/12/2010] 2 http://archive.ics.uci.edu/ml/datasets/Teaching+Assistant+Evaluation Disponible el [09/12/2010] 3 Tjen-Sien Lim 4 http://archive.ics.uci.edu/ml/machine-learning-databases/tae/tae.names Disponible el [09/12/2010] 2
  10. 10. 2. Course instructor (categorical, 25 categories) : Variable cualitativa categórica que representa al código del curso del profesor al cual es asignado el ayudante de cátedra. Tiene a disposición 25 códigos posibles. 3. Course (categorical, 26 categories) : Variable cualitativa categórica que representa el curso al que acude el ayudante de cátedra. 4. Summer or regular semester (binary) : Variable cualitativa binaria que recoge la información a que semestre pertenece el ayudante de cátedra en el que fue evaluado. Adquiere los siguientes valores: 1=Summer, 2=Regular. 5. Class size (numerical) : Variable cuantitativa que expresa la cantidad de alumnos. 6. Class attribute (categorical) : Variable cualitativa categórica que representa la cali- cación adquirida por los ayudantes de cátedra. Tiene los siguientes valores: 1=Low, 2=Medium, 3=High Los valores se los exporto de su formato original (tae.data)5 a un archivo cvs (tae.csv)y (tae.txt)6 para analizarlos en R, se puede ver una vista reducida de los datos en la Ta-bla 2.1. El objeto del estudio de análisis de datos es formular conclusiones en base a lasvariables medidas. 5 Teaching Assistant Evaluation 6 Archivos y Scripts en R en el blog http://lachamba.wordpress.com/2011/01/29/scripts-en-r-y-archivos-de-memoria-de-exploracion-y-analisis-de-datos/ 3
  11. 11. NativeEnglishSpeaker CourseInstructor Course Semester ClassSize ClassAttribute 1 1 23 3 1 19 3 2 2 15 3 1 17 3 3 1 23 3 2 49 3 4 1 5 2 2 33 3 5 2 7 11 2 55 3 6 2 23 3 1 20 3 7 2 9 5 2 19 3 8 2 10 3 2 27 3 9 1 22 3 1 58 3 .. .. .. .. .. .. ..141 2 23 3 2 11 1142 2 17 18 2 29 1143 2 16 20 2 15 1144 2 3 2 2 37 1145 2 19 4 2 10 1146 2 23 3 2 24 1147 2 3 2 2 26 1148 2 10 3 2 12 1149 1 18 7 2 48 1150 2 22 1 2 51 1151 2 2 10 2 27 1 Tabla 2.1: Datos resumidos para el estudio del TAE 4
  12. 12. Capítulo 3Estudio Descriptivo General Lo primero que se realizará es obtener cada uno de los estadísticos descriptivos delos datos y obtener algunas conclusiones para el posterior análisis multivariante. Comose menciono en el apartado anterior se trabajara con un conjunto de 6 variables de lascuales 5 son variables cualitativas que se les asigno unas siglas para su correcto trabajoen R1 : NES,CI,C,S,CA2 . Y la variable CS que es cuantitativa.3.1. Análisis Univariante Se realizará un análisis de las variables independientemente del resto y observamoslos respectivos estadísticos por cada variable como mediana, moda, etc. En el archivooriginal a las variables cualitativas se les dio un valor nominal para poder realizar elanálisis de datos3 . De acuerdo a las técnicas del análisis de datos univariantes4 se ha procedido a realizarel siguiente resumen de las que se utilizarían en este trabajo: Variables Categóricas : Distribución de Frecuencias Diagrama de Barras Diagrama de Tarta Variables Numéricas : Distribución de Frecuencias 1 http://www.r-project.org/ Disponible [16/12/2010] 2 Ver en Diccionario de Datos en los anexos 3 Archivo data.txt 4 Transparencias de Estadística I: Análisis de datos Univariantes, Andrés M. Alonso 5
  13. 13. Histograma Diagrama de Caja Datos Categóricos : Tabulación de datos: Tabla de Distribución de Frecuencias (Absoluta y Relativa) Grácos de datos: Diagrama de Barras, Diagrama Tarta. Datos Numéricos : Tabulación de datos: Tabla de Distribución de Frecuencias y Distribuciones Acu- muladas. Grácos de datos: Histogramas. Se empezara con las variables cualitativas, partiendo con el análisis de las 5 variablescategóricas. DATOS CATEGÓRICOS5 : Diagramas de Barras de las Variables : Cursos (C): De acuerdo a los histogramas en la Figura 3.1, se observa que aproximadamente el 50 %de ayudantes de cátedra han trabajado con los cursos 1 y 2, y existen 9 cursos en dondelos ayudantes de cátedra han colaborado como mínimo una vez. Evaluación (CA) En la Figura 3.2, se presenta los histogramas en los cuales se observa que de los 151ayudantes de cátedra evaluados 52 han salido con calicación alta, 50 con una calicaciónmedia y 49 con una calicación baja, dando a observar que existe preponderancia a unnivel aceptable del trabajo de los ayudantes de cátedra. Código de Instructor (CI) En la Figura 3.3, se observa que los ayudantes de cátedra han colaborado con la mayoríade instructores dando como máximo 17 ayudantes de cátedra que han colaborado con elcódigo de instructor 23, y los instructores que han sido menos ayudados han sido el 24 yel 19. Idioma Inglés (NES) 5 Scripts en R en el blog http://lachamba.wordpress.com/2011/01/29/scripts-en-r-y-archivos-de-memoria-de-exploracion-y-analisis-de-datos/ 6
  14. 14. Figura 3.1: Frecuencias de Ayudantes de Cátedra por cursos Figura 3.2: Frecuencias de los resultados de la evaluación 7
  15. 15. Figura 3.3: Frecuencias de los ayudantes que han trabajado con más instructoresFigura 3.4: Frecuencia de ayudantes de cátedra que son nativos en el idioma Inglés 8
  16. 16. Figura 3.5: Frecuencias de semestres de los ayudantes de cátedra Semestres (S) De acuerdo a la Figura 3.4, se observa cada uno de los histogramas por las dos va-riables binarias del estudio, en donde 29 ayudantes de cátedra son nativos ingleses y 122no lo son con lo cual 1/3 de ayudantes son de habla inglesa. Además se cuenta con 23 ayudantes de cátedra en primavera y 128 en un semestreregular Figura 3.5, con lo que se concuerda que existe un número preponderante de ayu-dantes de cátedra en un semestre regular que en uno de primavera. Diagramas de Sectores (Tarta) de las Variables : Cursos (C): Ver Figura 3.6 Evaluación (CA): Ver Figura 3.7 Código de Instructor (CI): Ver Figura 3.8 Idioma Inglés (NES): Ver Figura 3.9 Semestres (S): Ver Figura 3.10 Tablas de distribución de datos : Medias de variables numéricas según los niveles deuna variable nominal. 9
  17. 17. Figura 3.6: Porcentajes de cursos en donde han trabajado los ayudantes Figura 3.7: Porcentaje de distribución del resultado de evaluación 10
  18. 18. Figura 3.8: Porcentaje de códigos de instructorFigura 3.9: Porcentaje de ayudantes que son nativos ingleses 11
  19. 19. Figura 3.10: Porcentajes de ayudantes por semestres Evaluación (CA): Ver Tabla 3.1 Alto Bajo Medio 34.44 32.45 33.11 Tabla 3.1: Medias de la Variable de evaluación de ayudantes de cátedra Idioma Inglés (NES): Ver Tabla 3.2 Habla NoHabla 19.21 80.79 Tabla 3.2: Medias de la Variable de idioma del ayudante de cátedra Semestres (S): Ver Tabla 3.3DATOS NUMÉRICOS Se presentan cada uno de los histogramas: Estudiante por clases (CS) :Ver Figura 3.11 12
  20. 20. Invierno Primavera 84.77 15.23Tabla 3.3: Medias de la Variable de semestres en que colaboran los ayudantes de cátedra Figura 3.11: Histogramas de frecuencias de la variable numérica Diagrama de Caja: El diagrama de caja de la variable numérica Figura 3.12, en donde se observa quecomo máximo se cuenta con 66 alumnos por clase y como mínimo con 3 y que la mediade alumnos está alrededor de 27 alumnos por clase. Media de una variable numérica según los niveles de una variable nominal : Alumnos por clase de acuerdo al semestre:Ver Tabla 3.4 Invierno Primavera 29.34 19.70 Tabla 3.4: Medias de acuerdo a la cantidad de alumnos por semestre Alumnos por clase de acuerdo a la evaluación: Ver Tabla 3.5 13
  21. 21. Figura 3.12: Diagrama de Caja de alumnos por clase Alto Bajo Medio 28.25 29.43 25.94 Tabla 3.5: Medias de acuerdo a la cantidad de alumnos por evaluación Alumnos por clase de acuerdo al idioma del ayudante: Ver Tabla 3.6 Habla NoHabla 31.86 26.92 Tabla 3.6: Medias de acuerdo a la cantidad de alumnos por idioma Resúmenes Numéricos: El resumen estadístico de la variable cuantitativa se ven en la Tabla 3.7 Se observa los estadísticos univariantes resumidos en la Figura 3.13, la misma quese la obtuvo con la función summary de R en donde nos presenta los rangos, valores 14
  22. 22. mean sd 0% 25 % 50 % 75 % 100 % n 27.87 12.89 3 19 27 37 66 151 Tabla 3.7: Resumen estadístico de la variable numérica Figura 3.13: Estadísticos Univariantesmáximos y mínimos, la mediana, la moda y los cuartiles. Un punto a destacar es que de los valores que se encuentran en la Figura 3.13 lacolumna CS es la que tiene más relevancia numérica debido a que es una variable cuan-titativa y el resto de columnas con en base a las variables cualitativas que únicamentenos presenta la frecuencia de aparición. En el script en R arrojan los datos presentes enla Figura 3.13.3.2. Análisis Bivariante Una vez analizadas las variables independientemente se procede a observar la relacióncon otras variables. Para el análisis de estas variables entre si se procedió a modicar los datos numéricoscon datos no numéricos de acuerdo a la tabla original del estudio de datos, debido aque se necesitan obtener frecuencias y tablas para el análisis de datos entre las variablescualitativas entre si y la variable cuantitativa con las cualitativas. Se trabajará con tablas de contingencias para las frecuencias absolutas y relativas ylos diferentes diagramas de sectores, barras de distribución, diagramas de sectores, etc. En esta parte se tiene variables dependientes e independientes para los cuales vamosa tener 2 grupos de análisis: Primero : Variable Independiente X (cualitativa) versus Variable Dependiente Y (Cua-litativa), en donde vamos a obtener tablas de frecuencias conjuntas, tablas de frecuenciasmarginales y tablas de frecuencias condicionales. 15
  23. 23. Las variables a relacionar son las siguientes: CI vs NES, C vs NES, S vs NES, CA vsNES, C vs CI, S vs CI, CA vs CI, S vs C, C vs CA, CA vs S. Segundo : Variable Independiente X (cualitativa) versus Variable Dependiente Y (Cuan-titativa), en donde vamos a obtener tablas de frecuencias conjuntas, tablas de frecuenciasmarginales y tablas de frecuencias condicionales. Las variables a relacionar son las siguientes: NES vs CS, CI vs CS, C vs CS, S vs CS,CA vs CS. A continuación se presentan las tablas de esas relaciones y por cada tabla se realizaráel respectivo análisis contestando a ciertas interrogantes que se plantea para obtener lasrespectivas conclusiones de las variables. CI vs NES Habla NoHabla CI1 0 4 CI10 1 7 CI11 1 2 CI12 0 2 CI13 4 10 CI14 1 7 CI15 0 8 CI16 0 4 CI17 3 1 CI18 1 7 CI19 0 1 CI2 0 4 CI20 0 5 CI21 0 2 CI22 5 7 CI23 9 8 CI24 0 1 CI25 0 4 CI3 0 2 CI4 0 2 CI5 2 4 CI6 1 7 CI7 0 11 CI8 1 4 CI9 0 8 Tabla 3.8: Tabla de Contingencia de CI vs NES (Frecuencia Absoluta) 16
  24. 24. CI vs NES Habla NoHabla CI1 0.0 0.4 CI10 0.1 0.7 CI11 0.1 0.2 CI12 0.0 0.2 CI13 0.4 1.0 CI14 0.1 0.7 CI15 0.0 0.8 CI16 0.0 0.4 CI17 0.3 0.1 CI18 0.1 0.7 CI19 0.0 0.1 CI2 0.0 0.4 CI20 0.0 0.5 CI21 0.0 0.2 CI22 0.5 0.7 CI23 0.9 0.8 CI24 0.0 0.1 CI25 0.0 0.4 CI3 0.0 0.2 CI4 0.0 0.2 CI5 0.2 0.4 CI6 0.1 0.7 CI7 0.0 1.1 CI8 0.1 0.4 CI9 0.0 0.8 Tabla 3.9: Tabla de Contingencia de CI vs NES (Frecuencia Relativa) No se cuenta con dos variables continuas para proceder a representar mediante losdiagramas de dispersión que en este estudio no se presenta. 17
  25. 25. Figura 3.14: Histograma en donde se observa en cuales de los cursos han colaborado losayudantes de cátedraFigura 3.15: Histogramas de códigos de los instructores que han colaborado los ayudantesde cátedra 18
  26. 26. CI vs NES Habla NoHabla Total CI1 0.000 0.026 0.026 CI10 0.007 0.046 0.053 CI11 0.007 0.013 0.020 CI12 0.000 0.013 0.013 CI13 0.026 0.066 0.093 CI14 0.007 0.046 0.053 CI15 0.000 0.053 0.053 CI16 0.000 0.026 0.026 CI17 0.020 0.007 0.026 CI18 0.007 0.046 0.053 CI19 0.000 0.007 0.007 CI2 0.000 0.026 0.026 CI20 0.000 0.033 0.033 CI21 0.000 0.013 0.013 CI22 0.033 0.046 0.079 CI23 0.060 0.053 0.113 CI24 0.000 0.007 0.007 CI25 0.000 0.026 0.026 CI3 0.000 0.013 0.013 CI4 0.000 0.013 0.013 CI5 0.013 0.026 0.040 CI6 0.007 0.046 0.053 CI7 0.000 0.073 0.073 CI8 0.007 0.026 0.033 CI9 0.000 0.053 0.053 Total 0.192 0.808 1.000Tabla 3.10: Distribuciones relativas de frecuencias marginales de CI vs NES 19
  27. 27. C vs NES Habla NoHabla C1 1 13 C10 0 1 C11 0 9 C12 0 1 C13 1 2 C14 0 1 C15 1 9 C16 1 2 C17 3 7 C18 1 1 C19 0 1 C2 2 14 C20 0 1 C21 0 3 C22 0 3 C23 0 1 C24 0 1 C25 0 3 C26 0 1 C3 18 27 C4 0 1 C5 0 5 C6 0 2 C7 1 6 C8 0 4 C9 0 3Tabla 3.11: Tabla de Contingencia de C vs NES (Frecuencia Absoluta) 20
  28. 28. C vs NES Habla NoHabla C1 0.1 1.3 C10 0.0 0.1 C11 0.0 0.9 C12 0.0 0.1 C13 0.1 0.2 C14 0.0 0.1 C15 0.1 0.9 C16 0.1 0.2 C17 0.3 0.7 C18 0.1 0.1 C19 0.0 0.1 C2 0.2 1.4 C20 0.0 0.1 C21 0.0 0.3 C22 0.0 0.3 C23 0.0 0.1 C24 0.0 0.1 C25 0.0 0.3 C26 0.0 0.1 C3 1.8 2.7 C4 0.0 0.1 C5 0.0 0.5 C6 0.0 0.2 C7 0.1 0.6 C8 0.0 0.4 C9 0.0 0.3Tabla 3.12: Tabla de Contingencia de C vs NES (Frecuencia Relativa) 21
  29. 29. C vs NES Habla NoHabla Total C1 0.007 0.086 0.093 C10 0.000 0.007 0.007 C11 0.000 0.060 0.060 C12 0.000 0.007 0.007 C13 0.007 0.013 0.020 C14 0.000 0.007 0.007 C15 0.007 0.060 0.066 C16 0.007 0.013 0.020 C17 0.020 0.046 0.066 C18 0.007 0.007 0.013 C19 0.000 0.007 0.007 C2 0.013 0.093 0.106 C20 0.000 0.007 0.007 C21 0.000 0.020 0.020 C22 0.000 0.020 0.020 C23 0.000 0.007 0.007 C24 0.000 0.007 0.007 C25 0.000 0.020 0.020 C26 0.000 0.007 0.007 C3 0.119 0.179 0.298 C4 0.000 0.007 0.007 C5 0.000 0.033 0.033 C6 0.000 0.013 0.013 C7 0.007 0.040 0.046 C8 0.000 0.026 0.026 C9 0.000 0.020 0.020 Total 0.192 0.808 1.000Tabla 3.13: Distribuciones relativas de frecuencias marginales C vs NES S vs NES Habla NoHabla Invierno 20 108 Primavera 9 14Tabla 3.14: Tabla de Contingencia de S vs NES (Frecuencia Absolutas) S vs NES Habla NoHabla Invierno 2.0 10.8 Primavera 0.9 1.4Tabla 3.15: Tabla de Contingencia de S vs NES (Frecuencia Relativas) 22
  30. 30. S vs NES Habla NoHabla Total Invierno 0.13 0.72 0.85 Primavera 0.06 0.09 0.15 Total 0.19 0.81 1.00 Tabla 3.16: Distribuciones relativas de frecuencias marginales S vs NES CA vs NES Habla NoHabla Alto 18 34 Medio 5 44 Bajo 6 44Tabla 3.17: Tabla de Contingencia de CA vs NES (Frecuencia Absolutas) CA vs NES Habla NoHabla Alto 1.8 3.4 Medio 0.5 4.4 Bajo 0.6 4.4Tabla 3.18: Tabla de Contingencia de CA vs NES (Frecuencia Relativas) CA vs NES Habla NoHabla Total Alto 0.12 0.23 0.34 Medio 0.03 0.29 0.33 Bajo 0.04 0.29 0.33 Total 0.19 0.81 1.00Tabla 3.19: Distribuciones relativas de frecuencias marginales CA vs NES CA vs S Invierno Primavera Alto 37 15 Medio 47 2 Bajo 44 6 Tabla 3.20: Tabla de Contingencia de CA vs S (Frecuencia Absolutas) CA vs S Invierno Primavera Alto 3.7 1.5 Medio 4.7 0.2 Bajo 4.4 0.6 Tabla 3.21: Tabla de Contingencia de CA vs S (Frecuencia Relativas) 23
  31. 31. CA vs S Invierno Primavera Total Alto 0.25 0.09 0.34 Medio 0.31 0.01 0.33 Bajo 0.29 0.04 0.33 Total 0.85 0.15 1.00Tabla 3.22: Distribuciones relativas de frecuencias marginales CA vs S 24
  32. 32. Capítulo 4Análisis de Componentes Principales En este capítulo se trabajará con el análisis multivariado, el análisis de componentesprincipales, para el trabajo con R utilizaremos el paquete ADE41 y los métodos estadís-ticos multivariados descriptivos. El Análisis de Componentes Principales es una técnica estadística de síntesis de infor-mación o reducción de variables, está técnica sirve para hallar las causas de la variabilidadde un conjunto de datos y ordenarlas por importancia Para el análisis correspondiente trabajaremos con nuestra matriz de datos que se hautilizado en las partes iniciales, para ello tenemos los archivos cargados en una matriznumérica, para nuestro caso de estudio 5 son variables cualitativas y una cuantitativa,la matriz debe ser conformada por valores numéricos, así que se procede con la matriznumérico de las variables. Ya que la premisa de este tipo de análisis es trabajar sobre lamatriz de correspondencias con numeros. El primer trabajo en R es cargar los datos mediante las funciones adecuadas parasu análisis de la técnica de ACP los resultados de los mismos se verán en las seccionessiguientes.4.1. Motivación El Análisis de Componentes Principales (ACP) es una técnica estadística de síntesisde la información, o reducción de la dimensión (número de variables). Es decir, ante unbanco de datos con muchas variables, el objetivo será reducirlas a un menor númeroperdiendo la menor cantidad de información posible. Se cumple el objetivo de reducir los datos a partir de las correlaciones para encontrar 1 Analysis of Ecological Data : Exploratory and Euclidean methods in Environmental sciences 25
  33. 33. un número reducido de factores que los expliquen. En las etapas se miden las variables,se computan las correlaciones y arreglan en una matriz para posteriormente extraer losfactores (que son combinaciones lineales de las variables). Los nuevos componentes principales o factores serán una combinación lineal de lasvariables originales, y además serán independientes entre sí. Un aspecto clave en ACP es la interpretación de los factores, ya que ésta no vienedada a priori, sino que será deducida tras observar la relación de los factores con lasvariables iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las co-rrelaciones). Esto no siempre es fácil, y será de vital importancia el conocimiento que elexperto tenga sobre la materia de investigación. En la técnica de ACP se presentan las fases como: Análisis de la matriz de correlaciones : Un análisis de componentes principales tienesentido si existen altas correlaciones entre las variables, ya que esto es indicativo de queexiste información redundante y, por tanto, pocos factores explicarán gran parte de lavariabilidad total. Selección de los factores : La elección de los factores se realiza de tal forma que elprimero recoja la mayor proporción posible de la variabilidad original; el segundo factordebe recoger la máxima variabilidad posible no recogida por el primero, y así sucesiva-mente. Del total de factores se elegirán aquéllos que recojan el porcentaje de variabilidadque se considere suciente. A éstos se les denominará componentes principales. Análisis de la matriz factorial : Una vez seleccionados los componentes principales,se representan en forma de matriz. Cada elemento de ésta representa los coecientesfactoriales de las variables (las correlaciones entre las variables y los componentes prin-cipales). La matriz tendrá tantas columnas como componentes principales y tantas lascomo variables. Interpretación de los factores : Para que un factor sea fácilmente interpretable debetener las siguientes características, que son difíciles de conseguir: Los coecientes factoriales deben ser próximos a 1. Una variable debe tener coecientes elevados sólo con un factor. No deben existir factores con coecientes similares. Cálculo de las puntuaciones factoriales : Son las puntuaciones que tienen los compo-nentes principales para cada caso, que nos permitirán su representación gráca. 26
  34. 34. Min. 1st Qu. Median Mean 3rd Qu. Max. 3.00 19.00 27.00 27.87 37.00 66.00 Tabla 4.1: Estadísticos Básicos ClasSize 12.89 Tabla 4.2: Desviación estándarAplicaciones del ACP: Las aplicaciones prácticas se dan en campos importantes parala toma de decisiones en: Como técnica de análisis exploratorio que permite descubrir interrelaciones entre los datos y de acuerdo con los resultados, proponer los análisis estadísticos más apropiados. Reducir la dimensionalidad de la matriz de datos con el n de evitar redundancias y destacar relaciones. En la mayoría de los casos, tomando sólo los primeros com- ponentes, se puede explicar la mayor parte de la variación total contenida en los datos originales. Construir variables no observables (componentes) a partir de variables observables. Por ejemplo, la inteligencia de una persona no es observable directamente, en cam- bio, se puede medir distintos aspectos de ésta mediante pruebas psicométricas. Las variables que miden los distintos aspectos de la inteligencia tienden a covariar; esto sugiere que expresan la mismas características pero de diferente forma y que sólo hay un pequeño número de rasgos no directamente medibles, que se denominan Indicadores sintéticos y que vienen estimados por los componentes. Bajo ciertas circunstancias, es de gran utilidad usar estos componentes incorrela- cionados, como datos de entrada para otros análisis. Por ejemplo, en el caso de la regresión múltiple cuando las variables independientes presentan alta colinealidad es preferible hacer la regresión sobre los componentes principales en lugar de usar las variables originales.4.2. Características Distribucionales de las Variables Lo primero es obtener las estadísticas básicas, con R utilizamos la función summarycomo lo podemos ver en la Tabla 4.1, para nuestro trabajo existe una solo variablecuantitativa el numero de alumnos por curso, y la desviación estándar la obtenemos conla función apply se ver el valor en la Tabla 4.2. 27
  35. 35. NES CI C S CS CA NES 1.00 -0.25 0.13 0.21 -0.15 -0.26 CI -0.25 1.00 -0.24 -0.17 -0.04 0.08 C 0.13 -0.24 1.00 0.22 -0.03 0.14 S 0.21 -0.17 0.22 1.00 0.27 -0.28 CS -0.15 -0.04 -0.03 0.27 1.00 -0.04 CA -0.26 0.08 0.14 -0.28 -0.04 1.00 Tabla 4.3: Matriz de Correlaciones Comp1 Comp2 NativeEnglishSpeaker 0.64 0.27 CourseInstructor -0.59 -0.32 Course 0.43 0.52 Semester 0.72 -0.35 ClassSize 0.17 -0.68 ClassAttribute -0.49 0.45 Tabla 4.4: Matriz de Coordenadas de las columnas4.3. Correlaciones y grácas de dispersión El espacio de las variables del ACP normado es una imagen de la matriz de correla-ciones, sobre datos numéricos. La matriz de correlaciones tiene valores que se aproximana 1, a 0 y negativos, lo que permite observar el grado de relación entre las variables.Como se observa en la Tabla 4.3, la diagonal principal de la matriz de correlaciones enunos.4.4. ACP normado: Se trabaja con todas las variables activas, se trabaja con la librería ade4, las funcio-nes son dudi.pca para el ACP y la función inertia.dudi para calcular las contribucionesabsolutas y relativas a la inercia. Con todas estas funciones se logra obtener la divisiónen componentes como se observa en la Tabla 4.4, además de los valores en porcentajeque se observa en la Tabla 4.5 que son las contribuciones de las variables. Los valores propios denen la varianza soportada y que permitirá trabajar con losvectores para hallar la matriz diagonal. Se observa los valores propios en la Tabla 4.6y vectores propios en la Tabla 4.7 Al utilizar el Rcommander se puede trabajar con elconjunto de datos en la Tabla 4.8 se observa el resumen de los componentes principalesy que nos permite tener al alcance la relación entre variables. 28
  36. 36. Comp1 Comp2 NativeEnglishSpeaker 23.58 6.07 CourseInstructor 20.17 8.24 Course 10.75 21.81 Semester 29.85 9.96 ClassSize 1.63 37.65 ClassAttribute 14.01 16.26 Tabla 4.5: Matriz de Contribuciones de las columnas a los ejes inertia cum ratio 1 1.72 1.72 0.29 2 1.23 2.95 0.49 3 1.17 4.12 0.69 4 0.78 4.90 0.82 5 0.61 5.51 0.92 6 0.49 6.00 1.00 Tabla 4.6: Matriz de Valores propios Vectores propios: Resumen de Componentes Principales:4.5. Grácos del ACP Como se muestra en la gráca de dispersión de de la Figura 4.1 en donde nos presentael grado de dispersión con que cuentan cada una de las variables en el análisis. CS1 CS2 NativeEnglishSpeaker 0.49 0.25 CourseInstructor -0.45 -0.29 Course 0.33 0.47 Semester 0.55 -0.32 ClassSize 0.13 -0.61 ClassAttribute -0.37 0.40 Tabla 4.7: Matriz de Vectores propios 29
  37. 37. Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 ClassAttribute 0.37 -0.40 0.53 -0.04 0.49 -0.42 ClassSize -0.13 0.61 0.51 -0.25 0.36 0.39 Course -0.33 -0.47 0.48 0.42 -0.22 0.46 CourseInstructor 0.45 0.29 -0.14 0.78 0.24 0.15NativeEnglishSpeaker -0.49 -0.25 -0.41 0.05 0.72 0.13 Semester -0.55 0.32 0.19 0.38 -0.05 -0.65 Tabla 4.8: Componentes Principales Figura 4.1: Dispersión 30
  38. 38. Figura 4.2: Sedimentación Con la gráca de Sedimentación de la Figura 4.2, nos hace constar la presencia de 3componentes principales en nuestro análisis. La correlación entre variables, se ve en 2 vectores formando ángulo pequeño se in-terpretan como variables bien correlacionadas. Vectores perpendiculares se reeren avariables con correlación nula y vectores contrarios a variables correlacionadas negativa-mente. Ver Figura 4.4 31
  39. 39. Figura 4.3: Circulo de Correlaciones Figura 4.4: Niveles de correlación 32
  40. 40. Capítulo 5Análisis de Correspondencias5.1. Motivación El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo obje-tivo es resumir una gran cantidad de datos en un número reducido de dimensiones, conla menor pérdida de información posible. En este aspecto su objetivo es similar al de losmétodos factoriales, salvo que en el caso del análisis de correspondencias el método seaplica sobre variables categóricas u ordinales. El análisis de correspondencias simples se utiliza a menudo en la representación dedatos que se pueden presentar en forma de tablas de contingencia de dos variables nomi-nales u ordinales. Otras utilizaciones implican el tratamiento de tablas de proximidad odistancia entre elementos, y tablas de preferencias. Si nos centramos en una tabla de contingencia de dos variables cualitativas, con unavariable cuyas categorías aparecen en las y la otra variable cuyas categorías son repre-sentadas en columnas, el análisis de correspondencias consiste en resumir la informaciónpresente en las las y columnas de manera que pueda proyectarse sobre un subespacioreducido, y representarse simultáneamente los puntos la y los puntos columna, pudién-dose obtener conclusiones sobre relaciones entre las dos variables nominales u ordinalesde origen. Así, si la variable cualitativa la representa diferentes productos de mercado y lavariable columna diferentes percepciones de clientes sobre esos productos, el análisis decorrespondencias produce un gráco con dos ejes en los cuales cada categoría la y cadacategoría columna están representadas por puntos distintos. Así se podrán establecerrelaciones entre variables (en este caso la variable la) e individuos (variable columna).Igualmente se puede razonar tomando como referencia el otro eje del gráco, y tambiéntener en cuenta el nivel de contribución o importancia relativa de cada punto o categoría,para ayudar a una interpretación correcta. 33
  41. 41. Los datos de partida para el análisis de correspondencias es una matriz X de dimensio-nes nxk que representa las frecuencias absolutas observadas en una tabla de contingenciade dos variables, donde la primera se representa por las y tiene n categorías y la segundapor columnas y tiene k categorías. Por ejemplo, clasicamos un conjunto de estudiantesen n posibles procedencias geográcas y k posibles opiniones respecto a la docencia. Engeneral, el elemento xij de la matriz X representa la frecuencia absoluta observada en lacasilla (i,j) de la tabla de contingencia. La metodología la desarrolló Benzecri, a principios de los años 60 del siglo XX en laUniversidad de Renner (Francia). En esencia. es un tipo especial de análisis de compo-nentes principales pero realizado sobre una tabla de contingencia y usando una distanciaeuclídea ponderada llamada chi-cuadrado. Esencialmente, el análisis de correspondencias se puede considerar una aplicación delmultidimensional scaling usando una distancia especíca que se puede usar para datoscategóricos. Dicha distancia se denomina distancia chi cuadrado. La extensión del análisisde correspondencias simples al caso de varias variables nominales (tablas de contingenciamultidimensionales) se denomina Análisis de Correspondencias Múltiples, y utiliza losmismos principios generales que la técnica anterior. En general se orienta a casos en loscuales una variable representa ítems o individuos y el resto son variables cualitativas uordinales que representan cualidades. Aplicación del Análisis de Correspondencias Simple y Múltiple son: Estudios de preferencias de consumo en Investigación de Mercados. Estudios que buscan tipologías de individuos respecto a variables cualitativas (com- portamiento de especies en biología, patrones de enfermedades en medicina, perles psicológicos, etc.). Estudios de posicionamiento de de empresas a partir de las preferencias de consu- midores.5.2. AC Simple Para demostrar el Análisis de correspondencias se trabaja con la matriz original verTabla 5.1, para ello se utiliza los comandos de R para lectura de datos. El análisis de correspondencias es un método gráco para explorar las relaciones entrelas variables y la tabla de contingencias. Necesitamos convertir el data.frame en un objeto list de una tabla de columnas ac-tivas tab, además de un vector con una columna ilustrativa sinest, un vector para las 34
  42. 42. etiquetas de las columnas lest y un vector para las etiquetas de las las lloc, esto es debi-do a que para el análisis toda la información debe de estar estructurada y así obtenemosnuestra tabla de contingencia. Para trabajar con R se utilizará el paquete ca1 NativeEnglishSpeaker CourseInstructor Course Semester ClassSize ClassAttribute 1 1 23 3 1 19 3 2 2 15 3 1 17 3 3 1 23 3 2 49 3 4 1 5 2 2 33 3 5 2 7 11 2 55 3 6 2 23 3 1 20 3 7 2 9 5 2 19 3 8 2 10 3 2 27 3 9 1 22 3 1 58 3 .. .. .. .. .. .. .. 141 2 23 3 2 11 1 142 2 17 18 2 29 1 143 2 16 20 2 15 1 144 2 3 2 2 37 1 145 2 19 4 2 10 1 146 2 23 3 2 24 1 147 2 3 2 2 26 1 148 2 10 3 2 12 1 149 1 18 7 2 48 1 150 2 22 1 2 51 1 151 2 2 10 2 27 1 Tabla 5.1: Matriz de datos Para empezar con el trabajo, en R utilizamos la función ca() del paquete ca sobre losdatos almacenados en la matriz de contingencias, de está manera obtenemos el AC sim-ple de los datos de la evaluación a los ayudantes de cátedra, los resultados los podemosobservar en la Tabla 5.2. Además se presentan los valores por las y columnas de cadauno de los objetos de estudio se ve en la Figura 5.1 y Figura 5.2 un resumen realizadodel AC. En la Figura 5.3, se presenta las estadísticas básicas del Análisis de componentesrealizados a los datos. 1 ca: Simple, Multiple and Joint Correspondence Analysis 35
  43. 43. Figura 5.1: Filas5.3. Grácos del AC Una mayor visión se presenta cuando los valores se distribuyen dentro de los cuatrocuadrantes se observa en la Figura 5.4 que la proporción se da entre en cuarto cuadrantey el resto de valores se distribuye uniformemente en los demás cuadrantes. Para una mejor observación lo vemos vectorialmente como en la Figura 5.5, de unamanera tridimensional lo vemos en la Figura 5.6 y se puede observar en R. 1 2 3 4 5 Value 0.11 0.08 0.01 0.01 0.001 Percentage 52.57 % 39.52 % 4.76 % 2.66 % 0.5 % Tabla 5.2: Principales inertias 36
  44. 44. Figura 5.2: ColumnasFigura 5.3: Estadísticas Básicas 37
  45. 45. Figura 5.4: Mapa simétrico del ACFigura 5.5: Mapa asimétrico del AC 38
  46. 46. Figura 5.6: Tridimensional 39
  47. 47. Capítulo 6Multidimensional Scaling6.1. Motivación El escalado multidimensional (EMD) (en inglés, multidimensional scaling MDS) sereere al conjunto de técnicas estadísticas utilizada habitualmente en marketing y cien-cias sociales para la visualización y exploración de datos. Es un procedimiento para tomarpreferencias y percepciones de los encuestados y representarlos en un diagrama visual. Es-tos diagramas, llamados mapas perceptuales tienen generalmente dos dimensiones, peropueden representarse en más de dos. Los consumidores potenciales tienen que compararpares de productos y hacer juicios sobre sus similitudes. Mientras otras técnicas (comoanálisis factorial, análisis discriminativo y análisis conjunto) obtienen dimensiones de lasrespuestas a los atributos de los productos identicados por el investigador, MDS obtie-ne las dimensiones de los juicios de los encuestados sobre la similitud de los productos.Esto supone una ventaja importante pues los resultados no dependen de los juicios delos investigadores. No es necesaria una lista de atributos que debe ser mostrada a losencuestados. Las dimensiones resultantes vienen de los juicios de los encuestados sobrepares de productos. Gracias a estas ventajas, MDS es la técnica más comúnmente utili-zada en mapeado perceptual. Existen diferentes pasos que hay que dar para llevar a cabo una investigación de MDS: Formulación del problema : ¾Qué variables queremos comparar? ¾Cuántas variablesquieres comparar? Más de 20 sería engorroso. Menos de 8 (4 pares) no arrojaría resulta-dos ables. ¾Con qué propósito se va a realizar el estudio? Obtención de los datos : Los encuestados responden una serie de preguntas. Para cadapar de productos ellos tienen que puntuar la similitud (normalmente, en una escala Likertde 7 puntos de muy similar a muy diferente). Manejo del programa estadístico : El software para conducir el proceso está disponibleen la mayoría de las aplicaciones estadísticas. Los investigadores deben decidir el número 40
  48. 48. de dimensiones que quieren que el ordenador cree. Cuantas más dimensiones haya, másable será la estadística pero más difícil será interpretar el resultado. Mapeo de los resultados y denición de las dimensiones : El programa estadístico (oun módulo relacionado) mapeará los resultados. El mapeo situará cada producto nor-malmente, en un espacio de dos dimensiones. La proximidad de productos a los demásindicará bien lo similares que son o lo preferidos que resultan, dependiendo de qué siste-ma fue utilizado. Las dimensiones deben ser clasicadas por el investigador. Ello requierejuicio subjetivo lo que supone un reto. Luego, los resultados deben ser interpretados. Testar la validez y abilidad de los resultados : Determinar qué proporción o varianzade los datos de la escala puede ser tomado en cuenta para el procedimiento MDS. UnR-cuadrado de 0.6 es considerado el nivel mínimo aceptable. Otros tests posibles sonKruskals Stress, tests de división de datos, tests de estabilidad de datos, y abilidadtest-retest. Aplicaciones Se utiliza para la representación visual de datos en más de una dimensión (si son másde tres dimensiones, se requiere más de un gráco). Con ello se puede encontrar qué factores (dimensiones) subyacen bajo los datos ob-tenidos en un estudio. Se aplica en estudios sobre cognición, psicofísica, psicometría,marketing y ecología. Marketing En marketing, el EMD es una técnica estadística para averiguar las prefe-rencias y percepciones de los encuestados a la hora de evaluar y comparar varios produc-tos, representando los datos obtenidos sobre una gráca visual, llamada mapa perceptual.6.2. Multidimensional Scaling en R En este sección se pretende hacer conocer los resultados obtenidos al trabajar con elsoftware R para el análisis de datos con la técnica de escalado multidimensional al apli-carlo al estudio de la evaluación a los ayudantes de cátedra. Se presentarán los resultadosobtenidos en cada una de las fases de está técnica. El propósito de este análisis es realizar una aplicación real en el análisis de datosmultivariado, las variables que tenemos son 6 que para este tipo de análisis no nos pro-porciona una visión clara de la técnica pero para nes académicos lo realizaremos. Uno de los primero pasos es obtener las matriz de distancias de las variables cuanti-tativas, si recordamos en el trabajo tenemos una variable cuantitativa que es el número 41
  49. 49. Figura 6.1: Matriz de distanciasde estudiantes por curso, y el resto son variables cualitativas incluida la variable de cla-se. Como el caso es que se tiene variables binarias se buscará una técnica para calcularlas distancias de este tipo de variables para ello podemos elegir un algún coeciente desimilaridad en nuestro caso se eligió el Jaccard. En la Figura 6.1 se observa la matriz de distancias obtenida. Se presenta una reduc-ción de la tabla original presentada en R, en los scripts se puede utilizar para visualizarcompletamente está matriz. Con la matriz de distancias nos disponemos a realizar el escalado multidimensionalmétrico, los resultados resumidos se observan en la Figura 6.2 Se presenta el gráco del análisis escalado como se observa en la Figura 6.3 42
  50. 50. Figura 6.2: Escalado Multidimensional Métrico 43
  51. 51. Figura 6.3: Gráco del Escalado Multidimensional 44
  52. 52. Capítulo 7Análisis de Clusters7.1. Motivación El análisis de cluster es una técnica cuya idea básica es agrupar un conjunto de ob-servaciones en un número dado de clusters o grupos. Este agrupamiento se basa en laidea de distancia o similitud entre las observaciones. La obtención de dichos clusters depende del criterio o distancia considerados. El número posible de combinaciones de grupos y de elementos que integran los posi-bles grupos se hace intratable desde el punto de vista computacional, aún con un númeroescaso de observaciones. Se hace necesario, pues, encontrar métodos o algoritmos que ineran el número ycomponentes de los clusters más aceptable, aunque no sea el óptimo absoluto. Previamente es necesario considerar el concepto de medida de similitud. Académicos e investigadores de mercado a menudo encuentran la mejor solución pararesolver sus estudios mediante la denición de grupos homogéneos de objetos, ya seanellos individuos, rmas, productos, o incluso comportamientos. Opciones estratégicas basadas en la identicación de grupos dentro de la poblacióntales como la segmentación o el marketing de objetivos no serían posibles sin un objetivometodológico. La misma necesidad nos la encontramos en otras áreas, abarcando desdelas ciencias físicas (por ejemplo, clasicación de varios grupos de animales, como insectoso mamíferos) a las ciencias sociales (por ejemplo, análisis de varios perles psiquiátricos). En todos estos ejemplos, el analista trata de encontrar una estructura natural a tra-vés de las observaciones basándose en un perl multivariado.La técnica más comúnmenteusada para este propósito es el Análisis de Conglomerados. 45
  53. 53. El AC tiene como propósito esencial, agrupar aquellos objetos que reúnan idénticascaracterísticas, es decir, se convierte así en una técnica de análisis exploratorio diseñadapara revelar las agrupaciones naturales dentro de una colección de datos. Este análisisno hace ninguna distinción entre variables dependientes (VD) y variables independien-tes (VI) sino que calcula las relaciones interdependientes de todo el conjunto de variables. Aplicaciones El análisis cluster se puede utilizar para: La taxonomía, agrupar especies naturales. Para el marketing, clasicar consumidores tipo. Medicina, clasicar seres vivos con los mismos síntomas y características patológi- cas. Técnicas de reconocimiento de patrones. Formar grupos de pixels en imágenes digitalizadas enviadas por un satélite desde un planeta para identicar los terrenos.7.2. Conglomerados en R El análisis de conglomerados tiene por objetivo agrupar las observaciones de formaque los datos dentro de los grupos sean homogéneos es decir tengan una minima varianzay que estos grupos sean lo más heterogéneos posible entre ellos o con varianza máxima.Con esto se obtiene una clasicación de datos multivariante que nos permita comprenderlos mismos y la población que hacen referencia. Se puede realizar análisis de cluster encasos, de variables o uno por bloques. Ahora lo que necesitamos para trabajar en R es nuestra archivo de datos, el mismoque lo vamos a cargar utilizando los respectivos comandos en R que se los presenta enlos scripts de todo el trabajo lo que presentaremos son los resultados obtenidos. El primer paso es obtener la matriz de distancias en base a nuestro archivo de datos,sobre la cual se realizará el análisis de cluster con R para determinar el numero de gruposque formaremos. Para crear la matriz de distancias entre observaciones hemos de especicar un métodode cálculo, en este punto vamos a aprovechar para comparar 4 métodos de obtención dedistancias los mismos que se observar en la Figura 7.1 46
  54. 54. Figura 7.1: Cluster por métodos de cálculos Con los 4 grácos permiten comparar los distintos métodos empleados para las dis-tancias. Vemos que tanto la distancia euclídea, como máximos y Manhatan ofrecen re-sultados parecidos. El método Camberra es el que ofrece otros resultados diferentes peroeste método es adecuado para datos estandarizados y no es el caso nuestro análisis. Vamos a emplear la distancia euclídea por lo que emplearemos el objeto cluster2. Siobservamos el dendograma de la Figura 7.2 que nos ofrece R de cluster2 parece que po-demos formar algunos grupos. Para determinar mejor el número de clusters a seleccionarse utiliza el algoritmo PAM1 : Los resultados de aplicar el algoritmo PAM, lo observamos en la Figura 7.3 1 Partitioning Around Medoids 47
  55. 55. Figura 7.2: Dendograma del Cluster 2Figura 7.3: Grácos de cluster por algoritmo PAM 48
  56. 56. Capítulo 8Conclusiones La exploración de datos se ha llevado en los análisis uni y bivariante representando la tabulación de los datos en frecuencias (absolutas y relativas) y en diferentes tipos de grácos las variables cuantitativas y cualitativas con sus observaciones. Aproximadamente el 50 % de ayudantes de cátedra han colaborado en los cursos 1 y 2 en el periodo de evaluación. El 32 % de los evaluados han tenido una calicación baja en la evaluación. Existen dos instructores en donde los ayudantes de cátedra han colaborado poco. Aproximadamente del 80 % de los ayudantes de cátedra no son nativos ingleses. El 85 % de los ayudantes de cátedra no son del semestre de primavera sino de un semestre regular. En los diagramas de tarta se observa que en el curso 3 los ayudantes de cátedra han colaborado sustancialmente que en el resto de cursos. Existe un equilibrio en los resultados de la evaluación entre el nivel alto y medio. De acuerdo al diagrama de caja en cada clase existe como mínimo 3 estudiantes y como máximo 66 estudiantes. En un semestre regular se cuanta con un 29.34 % de alumnos por semestre. Un 29.43 % de acuerdo a la media han evaluado a los ayudantes de cátedra con una calicación de bajo. De acuerdo a la media el 31.86 % de los alumnos se encuentran con ayudantes de cátedra que no son nativos ingleses. De acuerdo a la tabla de contingencia entre las variables código de instructor y si es nativo inglés se observa que en el curso con identicador 23 han trabajado con mas nativos ingleses en un total de 9 y además en el identicador 13 y 17 existen los más altos números de no nativos ingleses con 10 y 11 ayudantes respectivamente. 49
  57. 57. En la tabla de contingencia de las variables semestres y nativo inglés se observa queen un semestre regular 20 son nativos ingleses y 108 no son, además de que en elsemestre de primavera 9 son nativos ingleses y 14 no lo son de todos los ayudantesde cátedra.De acuerdo a las tablas de contingencias entre las variables de nativos ingleses yresultado de evaluación se observa que 18 nativo ingleses han tenido una calicaciónalta, 34 no nativos ingleses también la han obtenido, además que 6 nativos ingleseshan tenido calicación baja y 44 no nativos ingleses.De acuerdo al análisis se observa que en la evaluación han tenido el valor de alto 37en el semestre regular y 15 en primavera, además que un total de 44 en un semestreregular y 6 en primavera han tenido un promedio bajo.En el análisis de componentes principales la matriz de correlaciones del total devariables de estudio cuenta con valores cercanos a uno y negativos con lo que sereeja una relación de linealidad entre las variables, además que se han reducidode la 6 variables a dos componentes principales que resumen los valores originales.De acuerdo al diagrama de dispersión en los componentes principales existe ungrado de relación entre las variables de Código de Instructor y Curso.Con el diagrama de Sedimentación se observa la presencia de 3 componentes prin-cipales que pueden representar un resumen de las variables.En el análisis de correspondencias y escalado multidimensional se observan la rela-ción lineal de las variables de estudio en cada una de las grácas de estudio.El análisis de correspondencia permitió identicar que el nivel de la evaluacióninuye mucho en el semestre que se cursa y además de que si el ayudante decátedra es nativo inglés.El 90 % de las variables del estudio son variables cuantitativas por lo mismo nose pudo utilizar los diagramas de Caja para estas a excepción de una variablecuantitativa.En el análisis de conglomerados se han utilizado cuatro métodos para obtención dedistancias: Manhatan, Máximos, Euclidea y Camberra. 50
  58. 58. Bibliografía[1] Análisis de Componentes Principales, Manuel Terrádez Gurrea, UOC, Pro- yecto e-Math.[2] Introducción al Análisis Multivariado, Julia Moreno Madueño, Universidad de Granada.[3] Análisis multivariado de datos en R, Campo Elías Pardo y Jorge Ortiz, De- partamento de Estadística. Universidad Nacional de Colombia-Bogotá.[4] Frank, A. y Asuncion, A. (2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.[5] Análisis de cluster para denir territorios a investigar sobre el servicio de audi- toría. Principios y fundamentos teóricos para su aplicación. Variables a utili- zar. http://www.gestiopolis.com/canales6/mkt/investigacion-de-mercados-y- auditoria.htm. Disponible [25 de enero del 2011].[6] G. Linares, Escalamiento Multidimensional:Conceptos y Enfoques, Departamento de Matemática Aplicada, Facultad de Matemática y Computación,Universidad de La Habana, 2001. http://rev-inv-ope.univ- paris1.fr/les/22201/IO-22201-10.pdf. Disponible [25 de enero del 2011][7] Análisis de Correspondencias, http://www.ucm.es/info/eue/ eio3/docs/Tema %202. %20Analisis %20de %20Correspondencias/ introduccion %20tema2.htm Disponible [22 de enero del 2011][8] Análisis de Correspondencias. http://halweb.uc3m.es/esp/Personal/ perso- nas/jmmarin/esp/AMult/acorresp.pdf. Disponible [22 de enero del 2011][9] Técnicas estadísticas multivariadas y sus aplicaciones a indica- dores e índices económicos nancieros de la actividad turística. http://www.gestiopolis.com/canales7/n/matematicas-aplicacion-de- estadisticas-multivariables-e-indicadores-nancieros.htm. Disponible [21 de enero del 2011]. 51
  59. 59. [10] Manual. Curso Introducción de R, http://analisisydecision.es/manual-curso- introduccion-de-r-capitulo-15-analisis-cluster-con-r-ii/, [26 de enero del 2011].[11] Andrés M. Alonso, Transparencias de Estadística I: Análisis de datos Uni- variantes, http://www.est.uc3m.es/amalonso/esp/docencia.html, Disponible [20 de diciembre 2010] 52
  60. 60. Apéndice ADiccionario de Datos Native English speaker: Binaria dos valores posibles Course instructor: Nominal 25 valores posibles Course: Nominal 26 valores posibles Semester: Binaria dos valores posibles Class size: Discreta Class attribute: Nominal con 3 valores posibles: Alto, medio y bajo Cualitativas: Native English speaker [NES]: 1=English speaker, 2=non-English speaker Course instructor [CI] Course [C] Semester [S]: 1=Summer, 2=Regular Class attribute [CA]: 1=Low, 2=Medium, 3=High Cuantitativas: Class size [CS] 53
  61. 61. Apéndice BCódigos fuentes En este apéndice se presentaran códigos fuentes de R que los descargamos desde elblog: http://lachamba.wordpress.com/2011/01/29/scripts-en-r-y-archivos-de-memoria-de-exploracion-y-analisis-de-datos/ 54
  62. 62. Apéndice CLicencia de la obra 55

×