Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
This document presents a predictive model project using the CRISP-DM methodology to evaluate machine learning models for predicting student performance on the Saber 11 exam in Colombia. The project aims to determine the best model for predicting performance of high school students in the Colombian Caribbean region based on the model metrics. Four machine learning algorithms (J48, LMT, PART, and MLP) were evaluated on different attribute sets to select the best model. The results showed that the combination of the InfoGain attribute selection method and the LMT decision tree algorithm produced the best performing model with a mean squared error of 0.25 on a test data set.
IRJET- Personalized E-Learning using Learner’s Capability Score (LCS)IRJET Journal
More Related Content
Similar to Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Similar to Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019 (20)
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
1. Trabajo Fin de Máster
Tipo de trabajo: Piloto Experimental
Presentado por: Acosta-Solano, Jairo
Director/a: Lancheros Cuesta, Diana Janeth
Universidad Internacional de La Rioja
Escuela Superior de Ingeniería y Tecnología
Máster Universitarioen Análisis y Visualización
de Datos Masivos
Metodología CRISP-DM para
la evaluación de modelos
predictivos del rendimiento
de los estudiantes de la
región Caribe colombiana en
la prueba Saber 11° 2017 -
2019
2. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
1
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Resumen
El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje
automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas,
el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación
media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva
metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en
cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la
metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de
conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el
modelado y la validación de los modelos; se espera que la metodología propuesta sea
implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES),
las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una
variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un
conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de
aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer
Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se
obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de
decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de
datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de
validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional
de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la
educación del país, en especial de la región Caribe.
Palabras Clave: ICFES, rendimiento, aprendizaje automático, CRISP-DM, Región Caribe
colombiana
3. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
2
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Abstract
The purpose of this project is to evaluate several machine learning models under the CRISP-
DM methodology in order to determine, through its metrics, the best model for predicting the
performance of high school students in the Colombian Caribbean region in the Saber 11º test,
while proposing a new methodology for evaluating the results of the test by regions in order to
take into account the socioeconomic particularities of each one of them. The CRISP-DM
methodology is taken as a basis due to its maturity, this methodology allows the extraction of
business and data knowledge, offers a guide for data preparation, modeling and validation of
the models; it is expected that the proposed methodology will be implemented by the
Colombian Institute for the Promotion of Higher Education (ICFES), departmental education
secretariats and educational institutions. A variety of techniques and tools were used to
develop ETL processes to obtain a data set with the most relevant attributes, in order to
evaluate four machine learning models developed with the J48 (C4.5), LMT, PART and
Multilayer Perceptron algorithms; obtaining that the best data set and the best learning model
is obtained using the InfoGain attribute selection method and the LMT decision tree algorithm,
respectively. The model was tested with a new dataset, obtaining a mean square error of 0.25
very much in line with the validation metrics of the model. Therefore, this project will facilitate
the actors of the National Education System to make decisions for the benefit of students and
the quality of education in the country, especially in the Caribbean region.
Keywords: ICFES, performance, machine learnig, CRISP-DM, Colombian Caribbean region
4. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
3
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de contenidos
1 Introducción .......................................................................................................................11
1.1 Justificación................................................................................................................11
1.2 Planteamiento del trabajo ..........................................................................................12
1.3 Estructura de la memoria...........................................................................................13
2 Contexto y estado del arte.................................................................................................15
3 Objetivos concretos y metodología de trabajo..................................................................19
3.1 Objetivo general .........................................................................................................19
3.2 Objetivos específicos .................................................................................................19
3.3 Metodología del trabajo..............................................................................................20
3.3.1 Tipo de Investigación..........................................................................................20
3.3.2 Universo y Muestra.............................................................................................20
3.3.3 Fuentes de información ......................................................................................20
3.3.4 Metodología de desarrollo ..................................................................................20
4 Desarrollo específico de la contribución ...........................................................................23
4.1 Generalidades del examen Saber 11°.......................................................................23
4.1.1 Antecedentes ......................................................................................................23
4.1.2 Áreas de evaluación ...........................................................................................24
4.1.3 Propósitos del examen .......................................................................................26
4.1.4 Competencias evaluadas y niveles de medición en las áreas de la prueba .....27
4.1.5 Índice de necesidades socioeconómicas (INSE)...............................................28
4.1.6 Clasificación de planteles educativos.................................................................29
4.1.7 Becas por el rendimiento en las pruebas Saber 11°..........................................31
4.1.8 Actividades para validación de los modelos de rendimiento en la prueba ........32
4.2 Conjunto de datos de la prueba Saber 11° ...............................................................33
4.2.1 Ingreso al portal DataIcfes..................................................................................33
5. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
4
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4.2.2 Extracción de los datos.......................................................................................35
4.2.3 Descripción del conjunto de datos......................................................................36
4.2.4 Análisis del conjunto de datos ............................................................................40
4.2.5 Calidad de los datos ...........................................................................................56
4.3 Obtención del conjunto de datos para el modelado..................................................58
4.3.1 Eliminación de atributos que no aportan al modelo ...........................................59
4.3.2 Limpieza de los datos .........................................................................................64
4.3.2.1 Limpieza utilizando el lenguaje R................................................................64
4.3.2.2 Formateo de datos en Tableau Prep ..........................................................65
4.3.2.3 Limpieza de datos en WEKA.......................................................................69
4.3.3 Balanceo de clases.............................................................................................73
4.3.4 Selección de atributos.........................................................................................75
4.3.4.1 Selección de atributos en WEKA................................................................75
4.4 Modelos de aprendizaje automático..........................................................................78
4.4.1 Selección de modelos.........................................................................................78
4.4.1.1 Árboles de decisión C4.5 (J48)...................................................................78
4.4.1.2 Árboles de decisión LMT (Logistic Model Trees)........................................79
4.4.1.3 Reglas de decisión PART............................................................................79
4.4.1.4 Multilayer Perceptron (MLP)........................................................................80
4.4.2 Métricas de evaluación de los modelos .............................................................81
4.4.3 Construcción de los modelos..............................................................................84
4.4.3.1 Análisis del conjunto de datos inicial (TOTAL33) .......................................86
4.4.3.2 Análisis del conjunto de datos obtenido por el método de selección de
atributos GainRatioAttributeEval (GRAE)......................................................................88
4.4.3.3 Análisis del conjunto de datos obtenido por el método de selección de
atributos InfoGainAttributeEval (IGAE)..........................................................................90
4.4.3.4 Análisis del conjunto de datos obtenido por el método de selección de
6. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
5
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
atributos OneRAttributeEval (ONERAE) .......................................................................91
4.4.4 Selección del mejor modelo y conjunto de datos...............................................92
4.5 Prueba del modelo seleccionado...............................................................................93
4.5.1 Características del set de datos de prueba........................................................94
4.5.2 Desarrollo de las predicciones en la aplicación WEKA con el conjunto de datos
de prueba...........................................................................................................................95
4.5.3 Cálculo del Error Cuadrático Medio (ECM) ........................................................97
5 Conclusiones y trabajo futuro............................................................................................98
5.1 Conclusiones..............................................................................................................98
5.2 Líneas de trabajo futuro ...........................................................................................102
6 Bibliografía .......................................................................................................................103
Anexos ....................................................................................................................................107
Anexo I. Código desarrollado en R para el proceso ETL...................................................107
Anexo II. Cálculo del Error Cuadrático Medio ....................................................................117
Anexo III. Estructura del Logistic Model Tree.....................................................................131
Anexo IV: Código en R y gráfica del árbol generado por el algoritmo rpart ......................132
Anexo V. Reglas de asociación generadas por el algoritmo Apriori ..................................136
7. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
6
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de tablas
Tabla 1. Exámenes aplicados por el ICFES ............................................................................23
Tabla 2. Sub áreas de evaluación en el examen Saber 11°....................................................26
Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la
prueba .......................................................................................................................................27
Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global.................31
Tabla 5. Características del conjunto de datos ........................................................................37
Tabla 6. Descriptivo de las variables numéricas......................................................................56
Tabla 7. Cantidad de instancias con valores NA y vacíos en el conjunto de datos ................57
Tabla 8. Atributos que harán parte del modelo........................................................................60
Tabla 9. Formateo de valores de los atributos.........................................................................66
Tabla 10. Selección de atributos por los métodos GainRatio, InfoGain y OneR ....................77
Tabla 11. Métricas de los modelos en los diferentes conjuntos de datos ...............................86
Tabla 12. Métricas para el conjunto IGAE................................................................................93
8. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
7
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de figuras
Figura 1. Fases de la Metodología CRISP-DM........................................................................21
Figura 2. Cuadernillo de respuestas de la prueba Saber 11°..................................................25
Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas ..................29
Figura 4. Descriptores socioeconómicos .................................................................................29
Figura 5. Página del portal de las bases de datos DataIcfes ..................................................34
Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11° .......................................35
Figura 7. Datos cargados en Power BI Desktop......................................................................36
Figura 8. Promedio nacional de los percentiles de las áreas evaluadas ................................40
Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas.......................41
Figura 10. Cantidad de instituciones educativas por naturaleza .............................................41
Figura 11. Cantidad de instituciones educativas por su naturaleza ........................................42
Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias
Naturales y Ciencias Sociales y Ciudadanas...........................................................................43
Figura 13. Percentiles promedio en el área de Inglés y rendimiento global............................44
Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas ............44
Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa .....45
Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas .....45
Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones
educativas .................................................................................................................................46
Figura 18. Número de instituciones educativas por jornada....................................................47
Figura 19. Rendimiento promedio por jornada académica......................................................47
Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda .......................48
Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados ....49
Figura 22. Rendimiento en la prueba en función de la edad ...................................................49
Figura 23. Rendimiento promedio y uso diario de internet en horas .......................................50
9. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
8
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 24. Promedio de calificaciones de los evaluados de acuerdo al país de residencia ...50
Figura 25. Promedio de calificaciones de la región Caribe .....................................................51
Figura 26. Distribución de los percentiles de las áreas de Lectura Crítica y Matemáticas.....52
Figura 27. Distribución de los percentiles de las áreas de Ciencias Naturales y Ciencias
Sociales y Ciudadanas .............................................................................................................53
Figura 28. Distribución de los percentiles de las áreas de Inglés y el Global de las áreas
evaluadas..................................................................................................................................54
Figura 29. Distribución de la variable EDAD por departamentos ............................................55
Figura 30. Flujo de datos en Tableau Prep..............................................................................66
Figura 31. Conjunto de datos convertido a formato ARFF ......................................................70
Figura 32. Flujo de filtros para eliminar valores atípicos y extremos de la variable EDAD.....71
Figura 33. Atributos creados por el filtro InterquartileRange para eliminar los valores atípicos
y extremos.................................................................................................................................72
Figura 34. Resultado de la categorización del atributo edad en tres rangos ..........................72
Figura 35. Distribución original de las clases...........................................................................74
Figura 36. Distribución de las clases después de aplicar el filtro SMOTE ..............................74
Figura 37. Distribución de las clases después del filtro SpreadSubsample............................75
Figura 38. Estructura de un árbol de decisión .........................................................................79
Figura 39. Estructura general de una red neuronal con capas ocultas...................................80
Figura 40. Matriz de confusión .................................................................................................81
Figura 41. Curva ROC y AUC...................................................................................................84
Figura 42. Flujo de conocimiento aplicado a los conjuntos de datos ......................................85
Figura 43. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
TOTAL33...................................................................................................................................88
Figura 44. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
GRAE ........................................................................................................................................89
Figura 45. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
GRAE ........................................................................................................................................90
10. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
9
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 46. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
GRAE ........................................................................................................................................91
Figura 47. Curvas ROC y valor de AUC para los algoritmos aplicados al conjunto de datos
IGAE..........................................................................................................................................92
Figura 48. Estrato familiar del conjunto de test........................................................................94
Figura 49. Nivel de educación de los padres ...........................................................................95
Figura 50. Resultado de las predicciones en WEKA...............................................................96
11. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
10
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de ecuaciones
Ecuación 1. Cálculo Índice General .........................................................................................30
Ecuación 2. Cálculo del índice por área...................................................................................30
Ecuación 3. Fórmula para obtención de valores atípicos v. 1 .................................................70
Ecuación 4. Fórmula para obtención valores atípicos v. 2 ......................................................70
Ecuación 5. Fórmula para valores extremos v. 1.....................................................................71
Ecuación 6. Fórmula para valores extremos v. 2.....................................................................71
Ecuación 7. Selección de atributos por Ratio de Ganancia.....................................................76
Ecuación 8. Selección de atributos por Ganancia de Información ..........................................76
Ecuación 9. Precisión...............................................................................................................82
Ecuación 10. Exhaustividad (Recall) ........................................................................................82
Ecuación 11. F1 o F-Meassure ................................................................................................82
Ecuación 12. Exactitud (Accuracy)...........................................................................................82
Ecuación 13. Tasa de error ......................................................................................................83
Ecuación 14. Área bajo la curva (AUC)....................................................................................83
Ecuación 15. Especificidad.......................................................................................................83
Ecuación 16. Fórmula del Error Cuadrático Medio ..................................................................93
Ecuación 17. Cálculo del Error Cuadrático Medio para datos de prueba ...............................97
12. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
11
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
1 Introducción
El desarrollo de un país depende de las acciones y decisiones que se toman en concordancia
con el desarrollo de sus habitantes, estos aspectos se relacionan con los objetivos de
desarrollo sostenible (ODS) promulgados en las Naciones Unidas. Este proyecto busca
determinar un modelo predictivo para uno de estos objetivos, la educación de calidad, en el
ciclo de la educación básica secundaria en la región Caribe colombiana; sin embargo,
alcanzar este ODS va a depender del desarrollo y el avance alcanzado en otros, tales como
los relacionados con el fin de la pobreza, el hambre cero, la salud y el bienestar, el trabajo
decente, y el crecimiento económico (López, 2020).
Este trabajo de fin de máster tiene como insumo principal los resultados de la prueba Saber
11° del trienio 2017 - 2019 con el fin de determinar el mejor modelo para predecir el
desempeño de los estudiantes, haciendo uso de los mejores atributos del conjunto de datos,
varios de los cuales presentan una estrecha relación con los objetivos de desarrollo
sostenible.
1.1 Justificación
El estado colombiano, con la finalidad de establecer patrones de medición de las
competencias desarrolladas por los estudiantes del país durante sus diferentes etapas
académicas, reglamenta la Prueba Saber, a cargo del Instituto Colombiano para el Fomento
de la Educación Superior (ICFES), como un instrumento para medir la calidad de la educación
en el país. Este instituto se encarga de evaluar la calidad de la educación en todos los niveles
educativos, teniendo como insumo las bases de datos de las pruebas desarrolladas por los
estudiantes con el fin de apoyar el establecimiento de políticas para mejorar el sistema
educativo (ICFES, 2019a). Sin embargo, la mayoría de las instituciones educativas de la
Región Caribe no cuentan con modelos predictivos que permitan tomar acciones tempranas,
de acuerdo a la caracterización de los atributos socioeconómicos, institucionales y
académicos de los estudiantes de la región; gran parte de los análisis se realizan basados en
análisis descriptivos de los resultados más de la prueba, las instituciones interesadas, por lo
general, no desarrollan modelos de aprendizaje automático para determinar la incidencia que
tienen los factores mencionados anteriormente, tampoco construyen modelos de aprendizaje
automático para la predicción del rendimiento de los estudiantes y estimar los niveles de
desempeño en la prueba. Ante esta situación solo existe un acercamiento realizado por
13. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
12
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Timarán-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019), en donde desarrollan un modelo
basado en árboles de decisión para clasificar a los estudiantes por encima o por debajo de la
media nacional en los exámenes Saber 11 del año 2016, este estudio no realiza ninguna
comparativa de modelos y no clasificalas instancias de acuerdo a las medidas de desempeño
utilizadas por el ICFES.
Entre las funciones del ICFES no se encuentra la de suministrar a las instituciones educativas
modelos predictivos para la toma temprana de decisiones tendientes a mejorar el desempeño
de los estudiantes, antes de presentar la prueba, de hecho, el último informe publicado en el
año 2018 no evidencia ningún esfuerzo en este sentido y solo se limita a mostrar las
estadísticas descriptivas y comparativas con los resultados del examen Saber 11 del 2016 y
2017 (ICFES, 2019c). La labor de inducción de los datos suministrados por el ICFES, queda
a cargo de las instituciones educativas de básica secundaria y de las instituciones de
educación superior, donde los estudiantes continuaran con sus estudios técnicos,
tecnológicos o profesionales; pero hasta la fecha no se tienen evidencias de alguna institución
educativa que desarrolle este proceso para identificar debilidades, fortalezas o acciones de
intervención con los estudiantes que estarían próximos a presentar el examen.
Para las instituciones educativas de básica secundaria e instituciones universitarias, contar
con un modelo que permita desarrollar predicciones del rendimiento de los estudiantes,
facilitaría establecer acciones de intervención temprana o de seguimiento con el fin de mejorar
los aspectos que puedan tener incidencia en el rendimiento. Las instituciones de educación
superior pueden establecer con estos modelos una serie de reglas para sus programas de
acompañamiento a la permanencia y retención estudiantil con el fin de determinar aquellos
estudiantes que puedan presentar problemas de rendimiento académico durante los primeros
semestres.
1.2 Planteamiento del trabajo
Los atributos que pueden tener incidencia en el rendimiento de los estudiantes pueden ser
muy variados, algunos seescapan del resorte de las instituciones educativas porque entrarían
en el área de las acciones que deben realizar el estado y los propios individuos con miras a
su desarrollo, no obstante, es importante que se puedan identificar aquellos factores en los
que las instituciones puedan establecer tareas de intervención con el fin de mejorar y lograr
un incremento en el deseo del logro académico, aspecto que puede despejar el futuro
profesional de los individuos.
14. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
13
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Ante este panorama se propone identificar, a través del uso del aprendizaje automático, el
mejor modelo que permita identificar aquellos atributos que influyen en el desempeño de la
prueba Saber 11° (clase), con el fin de poder utilizarlo para individualizar aquellos sujetos que
requieran una intervención temprana o posterior y así disponer de una herramienta para
mejorar el desempeño de estos en la prueba o en los niveles posteriores de educación
superior técnica, tecnológica o profesional.
Se hace necesario pues, entender el contexto general de la prueba y la necesidad de medir
la calidad de la educación a través de sus indicadores de desempeño, comprender los
diferentes atributos de los datos disponibles del examen en la región Caribe, realizar el
adecuado proceso de selección de los atributos que van a ser tenidos en cuenta para la fase
de modelado, aplicar los modelos de aprendizaje supervisado J48 (C4.5), LMT, PART y
Multilayer Perceptron con el fin de evaluar cuál realiza una mejor predicción a través de los
mejores atributos socioeconómicos identificados en este proyecto.
1.3 Estructura de la memoria
La presente memoria estará estructurada en las siguientes secciones:
La sección 2 presenta el Contexto y estado del arte hace una revisión de diferentes
investigaciones y trabajos relacionados con el rendimiento de los estudiantes en pruebas
nacionales con referencia a variables como la edad, el sexo, las áreas evaluadas, y otros
aspectos relevantes, desde una óptica general para llegar a contribuciones más relacionadas
con el presente proyecto.
En la sección 3 se enumeran y desarrollan los Objetivos concretos y metodología de trabajo
basada en CRISP-DM con la que se pretende entender el negocio y los datos, preparar,
modelar y evaluar los datos a través de los diferentes algoritmos de aprendizaje automático
desarrollados.
En la sección 4 se realiza el Desarrollo específico de la contribución se desarrollan
ordenadamente los objetivos establecidos bajo la metodología CRISP-DM, se despliegan los
procesos ETL necesarios para contar con un conjunto de datos adecuado que nos permita
desarrollar el entrenamiento, la validación y prueba de los modelos con el fin de seleccionar
el mejor de acuerdo a los resultados obtenidos.
La sección 5 presenta las Conclusiones y Líneas de Trabajo Futuro con el fin de mostrar
15. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
14
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
los principales aportes del proyecto y la forma en que este puede ser referente para adelantar
otros proyectos de investigación.
16. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
15
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
2 Contexto y estado del arte
Con el fin de verificar que aspectos pueden tener incidencia en el rendimiento académico de
los estudiantes de educación básica secundaria sehan encontrado que ciertas características,
del individuo, del núcleo familiar, el sexo y la edad, son determinantes para el desempeño en
la prueba Saber 11° (Gaviria y Barrientos, 2001; Velasco Rodríguez, 2014). La edad influye
en el rendimiento de la prueba de forma inversamente proporcional lo que implica que las
puntuaciones tienden a disminuir a mayor edad de los evaluados, así mismo es determinante
el sexo del estudiante que presenta la prueba, encontrándose diferencias significativas en el
rendimiento de hombres y mujeres. El informe de Gaviria & Barrientos (2001) va mucho más
allá de las variables mostradas anteriormente, encuentra evidencia de que el calendario
académico, en Colombia se manejan los calendarios A y B1
, de las instituciones educativas y
la naturaleza de las mismas, no tiene incidencia en el rendimiento de los estudiantes, pero,
como era previsible las condiciones académicas y de infraestructura de los colegios privados
y de calendario B tienen una incidencia significativa en aquellos estudiantes que tienen los
mejores rendimientos en la prueba.
Becerra-González y Reidl Martínez (2015), estiman que el sexo de los estudiantes puede
determinar diferencias en el factor de estabilidad ante los aspectos negativos del entorno
escolar y social, los sujetos del género masculino cree que este aspecto afectará su vida
futura; en cuanto al factor edad se encuentra que a mayor edad existe un mayor control en el
aspecto académicoy las evaluaciones negativas; el nivel académicode la figura paterna tiene
relación con las variables de rendimiento de los estudiantes, a mayor nivel de escolaridad del
padre los factores de rendimiento escolar se incrementa al motivar el alcance de logros por
parte de sus hijos, especialmente cuando el padre tiene estudios de posgrado. Este estudio
concluye que no encuentra relación entre el rendimiento de los estudiantes con las variables
sociodemográficas consideradas en los instrumentos, sin embargo, si encuentra relación con
las variables motivacionales de la atribución académica, el logro en la escuela y la eficacia
propia en los aspectos académicos.
Gabalán-Coello y Vásquez-Rizo (2016) correlacionan el desempeño en las áreas de
matemáticas y lenguaje, en una institución universitaria, con el Examen Saber 11°, y el
1
El calendario A inicia actividades escolares en el mes de febrero y el calendario B inicia
jornada en el mes de septiembre.
17. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
16
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
desempeño de asignaturas de diferentes facultades donde son relevantes los componentes
de abstracción y competencias comunicativas; y encuentran que no hay evidencia estadística
que sugiera la existencia de una asociación entre la puntuación de la prueba Saber 11°,
aplicable a los sujetos de estudio, y el rendimiento posterior en las materias relacionadas con
estás áreas específicas.
En cuanto al rendimiento en la prueba Saber 11° por regiones, se ha encontrado que las
diferencias por región han aumentado en los últimos dos decenios y la región Caribe ha
disminuido su desempeño con respecto a los de la ciudad de Bogotá, que es la de mejor
desempeño promedio en Colombia, ocasionando por esto un mejor ejercicio en la región
Andina, esto implica que los estudiantes ubicados en el centro del país tienen cada día mejor
desempeño en la prueba que los ubicados en la periferia de la nación (Rocay Granger, 2019).
El trabajo de grado de maestría de Palacios (2019), evidencia diferencias significativas en la
educación pública y privada, al igual entre los sujetos de evaluación que se encuentran en
poblaciones rurales o urbanas, encontrando que el mejor desempeño en el examen Saber 11°
se da en las zonas urbanas y en los estudiantes que pertenecen a instituciones educativas
privadas, establece conclusiones muy similares a la investigación realizada por Roca y
Granger en cuanto al rendimiento por regiones, es de anotar que este estudio utiliza el análisis
multivariante a través de las técnicas de análisis factorial exploratorio (AFE) y confirmatorio
(AFC), aplicada a la base de datos de resultados nacionales del Instituto de Fomento de la
Educación Superior (ICFES) de las pruebas Saber 11°.
Ante este panorama donde se evidencia la complejidad de tratar de determinar el rendimiento
de los estudiantes, existen varias aproximaciones desde el punto de vista de la inteligencia
artificial para la predicción del rendimiento en las pruebas que miden la calidad de la educación
recibida. Hamsa, Indiradevi y Kizhakkethottam (2016) desarrollan un modelo de predicción del
rendimiento utilizando los algoritmos de árboles de decisión y algoritmos genéticos difusos
(fuzzy genetic), teniendo como sujetos a estudiantes del grado y la maestría de Ciencia de los
Computadores, Electrónica y Comunicaciones, con el fin de tratar de predecir su rendimiento
en los exámenes finales, para esto establecieron dos clases para la aplicación de los
algoritmos de aprendizaje supervisado: aprobado y en riesgo; la aplicación del algoritmo de
árboles de decisión predice una mayor cantidad de instancias “en riesgo” académico que
aquellos que superan la prueba, el algoritmo genético difuso arroja un resultado contrario
porque tiene en cuenta el estado de seguridad mental del estudiante ante los exámenes lo
que hace que la clase con mayor número de instancia clasificadas sea la de “aprobado”.
18. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
17
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Otra investigación tendiente a determinar un modelo de predicción del rendimiento en pruebas
de evaluación, específicamente en el examen final de estudios profesionales bajo la
modalidad e-learning, y la aprobación o no (clase)de las asignaturas impartidas en un periodo
específico, desarrolla siete algoritmos de aprendizaje automático (Random Forest, Support
Vector Regression, BayesianRidge, Stochastic Gradient Descent, Gaussian Process
Regressor, Decision Tree Regressor y Multi-Layer Perceptron), aplicados a tres variantes del
conjunto de datos, se concluye que existe un mejor desempeño en general de los algoritmos
cuando se tienen en cuenta los atributos demográficos y se aplica el algoritmo Support Vector
Regression (Song et al., 2020).
En cuanto al modelado, utilizando datos desbalanceados de un atributo determinante como lo
es el sexo de los participantes, Sapiezynski, Kassarnig, Wilson, Lehmann, y Mislove (2017),
desarrollan un modelo de predicción utilizando el algoritmo Naive Bayes, con presencia
escasa de sujetos del sexo femenino, razón por la cual aplican una validación cruzada del
modelo con solo tres iteraciones para disminuir el bias o sesgo del modelo en cuanto al
atributo del sexo biológico, mejorando la probabilidad de tener, en los datos de entrenamiento
y validación, la presencia de ambos sexos. Los investigadores se valieron de un conjunto de
datos de seguimiento de más de ochocientos individuos con atributos que dan cuenta de
comportamientos y características individuales, el uso de redes para el relacionamiento del
grupo de estudiantes y su rendimiento académico a través de tres clases (bajo, medio y alto).
Encontraron que al reducir las iteraciones necesarias en la validación obtenían valores de
AUC de 0.84 y ROC de 0.67, que puede llevar a concluir que el modelo puede discriminar
entre las clases positivas y negativas en la variable del sexo biológico, dejando en evidencia
que esta estrategia no se puede generalizar para otros conjuntos de datos. La curva ROC
evidencia cómo se comporta el modelo en los umbrales de clasificación determinados por la
tasa de verdaderos positivos y la tasa de falsos positivos, la curva AUC en realidad lo que
muestra es el área bajo la curva ROC que indica la probabilidad de que las predicciones sean
correctas, por lo tanto, un valor de una unidad indicaría que el modelo realiza correctamente
el 100% de las predicciones (Google Developers, s. f.-a).
En el ámbito nacional, Timaran-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019)
desarrollan un modelo de predicción para el rendimiento de los estudiantes en la prueba Saber
11° utilizando como referencia los resultados de las exámenes realizados en 2015 y 2016,
utilizan algunos de los atributos del conjunto de datos suministrado por el ICFES,
desarrollando una clasificación entre aquellos estudiantes que estaban por encima o por
19. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
18
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
debajo de la media nacional. Para esto utilizaron únicamente el algoritmo de árboles de
decisión como técnica de aprendizaje automático con una exactitud del 67% en la predicción
del rendimiento en la prueba, utilizando una validación cruzada del modelo. Los atributos con
mayor ganancia de información, determinantes en el buen desempeño en la prueba, tienen
que ver con los atributos relacionados con el estrato socioeconómico superior o de nivel
medio, el tipo de jornada matutina o extendida en que se desarrollan las clases, el índice TIC
medio-bajo y las edades inferiores a los dieciocho años; en el caso del bajo rendimiento, los
atributos que tienen una ganancia de información mayor son los que tienen que ver con los
estratos socioeconómico y el índice TIC en los rangos bajos y el nivel 1 de clasificación en el
Sistema de Selección de Beneficiarios para los Programas Sociales (SISBEN). Este estudio
no tuvo en cuenta la forma como el ICFES clasifica los rendimientos de los estudiantes, las
diferencias regionales, y no desarrolló el entrenamiento y validación con otros algoritmos de
aprendizaje automático, este modelo desarrollado puede verse afectado por el alto
rendimiento promedio de la región andina.
Estos antecedentes van a permitir establecer la relevancia de los atributos del conjunto de
datos de la prueba Saber 11° del trienio 2017 - 2019, se evidencia que se deben tener en
cuenta varios atributos sociodemográficos comola edad, el sexo, el estrato, el nivel de estudio
de los padres, etc. Además, las aproximaciones realizadas a nivel nacional pueden verse
influenciadas por el rendimiento en la prueba en las otras regiones del país, especialmente de
la región andina, esto evidencia que es mejor trabajar con modelos regionales de predicción
del rendimiento de los estudiantes debido a la similitud en las condiciones socioeconómicas.
20. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
19
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
3 Objetivos concretos y metodología de trabajo
3.1 Objetivo general
Desarrollar la evaluación de cuatro modelos de aprendizaje automático del rendimiento de los
estudiantes de la región Caribe colombiana con base a los resultados de la prueba Saber 11°
del trienio 2017 – 2019, utilizando la metodología CRISP-DM con el fin de disponer de una
herramienta para la predicción temprana del desempeño de los evaluados.
3.2 Objetivos específicos
Determinar las particularidades de la prueba Saber 11° con el fin de evidenciar las
características más importantes del examen y elaborar un plan para el tratamiento de
los datos.
Analizar el conjunto de datos suministrado por el ICFES de la prueba Saber 11° del
trienio 2017 - 2019 de tal forma que se determinen la calidad de los datos, la necesidad
de procesos ETL y conocer los metadatos de los atributos.
Establecer que atributos se van a tener en cuenta en los modelos de predicción con el
fin de realizar los procesos de extracción, transformación y limpieza que sean
indispensables.
Desarrollar el proceso de modelado utilizando las técnicas de aprendizaje automático
de árboles de decisión J48, LMT, reglas de decisión PART y redes neuronales
(Multilayer Perceptron).
Evaluar el rendimiento de los modelos de predicción del desempeño de los estudiantes
con la finalidad de determinar aquel o aquellos que tengan las mejores métricas de
desempeño.
21. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
20
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
3.3 Metodología del trabajo
3.3.1 Tipo de Investigación
Esta investigación es de tipo mixto y transversal, donde se van a determinar las características
y cualidades relacionadas con la prueba Saber 11º, utilizando procesos de inducción propios
de los algoritmos de aprendizaje automático, los datos se van a caracterizancuantitativamente
y en consecuencia se utiliza el enfoque exploratorio propio de la metodología CRISP-DM.
3.3.2 Universo y Muestra
El universo de la investigación son los datos suministrados por el ICFES de los resultados de
la prueba Saber 11° de los estudiantes colombianos. La muestra está conformada por los
datos de los resultados de los estudiantes de la región Caribe correspondientes a los años
2017 a 2019, que superan el proceso de extracción, transformación y limpieza (ETL).
3.3.3 Fuentes de información
Fuentes primarias: conjunto de datos y demás documentos que se encuentran disponibles
en las bases de datos del ICFES relativos a la prueba Saber 11°, tales como guías de
orientación, diccionario de datos, descriptores y documentación en general.
Fuentes secundarias: información científica y técnica relacionada con la prueba o los
atributos de estas, artículos de prensa, información del Ministerio de Educación Nacional de
Colombia y del Instituto Colombiano para la Evaluación de la Educación Superior, manuales
de las herramientas que se van a utilizar para desarrollar los diferentes procesos necesarios
para el desarrollo de la metodología CRISP-DM, etc.
3.3.4 Metodología de desarrollo
Este proyecto se desarrollará haciendo uso de la metodología CRISP-DM (Cross Industry
Process Model for Data Mining) que sigue un enfoque orientado a metas, es un enfoque
maduro que sigue teniendo mucha aceptación en los proyectos de minería de datos a través
de algoritmos de aprendizaje automático (Ayele, 2020). Esta metodología provee un enfoque
de ciclo de vida en proyectos aplicados de inteligencia artificial (Wirth y Hipp, 2000) y se
considera como la metodología ideal para el proceso de descubrimiento de conocimiento en
22. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
21
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
bases de datos (KDD) (Martinez-Plumed et al., 2019). En la figura 1 se pueden ver las
diferentes fases de la metodología y la relación que hay entre ellas, obviando la fase final de
implementación que no va a ser desarrollada en este proyecto.
Figura 1. Fases de la Metodología CRISP-DM
Fuente: Elaboración propia, adaptado de Wirth & Hipp (2000)
Las fases de la metodología tienen las siguientes características (Gironés-Roig, Casas-Roma,
Minguillón-Alfonso, y Caihuelas-Quiles, 2017):
FASE I. Entenderelnegocio: sedebe concretarcuáles son los objetivos del proceso
de análisis de datos desde el punto de vista de su utilidad para el negocio. Es
importante conocer el punto de partida situacional respecto a estos objetivos con el
fin de reconocer los recursos con los que se cuenta, los requisitos y límites. Este
análisis previo permitirá determinar las actividades que se deben desarrollar para el
alcance de los objetivos del proyecto de análisis de datos.
FASE II. Entender los datos: en esta fase es necesario familiarizarse con los datos,
con su estructura, conocer los metadatos, que problemas pueden tener y la forma de
mitigar estos inconvenientes. Esta fase determina la calidad de los datos con que
contamos para las posteriores fases, por lo tanto, en se deben extraer los datos,
23. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
22
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
caracterizarlos y explorarlos para determinar las no conformidades y la forma de
solucionarlas.
FASE III. Preparar los datos: en esta fase se debe construir el conjunto de datos
definitivo que va a ser utilizado en las siguientes etapas de la metodología CRISP-
DM, se deben identificar los atributos que son relevantes para cumplir los objetivos
del proyecto, de ser necesario se puede contemplar en esta fase usar técnicas de
muestreo y de selección de atributos.
FASE IV. Modelar:al finalizar esta fase hay que identificar uno o varios modelos que
satisfagan los objetivos que se han establecido para el negocio, para esto se deben
aplicar varios algoritmos de aprendizaje automático, supervisados o no supervisados,
con el fin de escoger el o los algoritmos que tengan el mejor desempeño en la
clasificación, asociación o agrupamiento de los datos. En esta fase se pueden utilizar
diferentes algoritmos que conlleven al mismo fin de análisis.
FASE V. Evaluar: se valora en qué grado el modelado responde o no a las
necesidades plasmadas en la fase I, determinando si el modelo es eficiente o
ineficiente. Es también una etapa de descubrimientos donde se evidencia que otros
elementos del proceso permiten alcanzar las metas del negocio o ameritan ser
resaltadas para un desarrollo futuro más amplio.
24. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
23
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4 Desarrollo específico de la contribución
4.1 Generalidades del examen Saber 11°
El gobierno de Colombia a través del Instituto Colombiano para la Evaluación de la Educación
Superior (ICFES) se encarga de determinar los factores que tienen incidencia en la calidad de
la educación en todos los diferentes grados: primaria, secundaria, media y superior. La
siguiente tabla muestra los diferentes tipos de exámenes que desarrolla el ICFES en cada
nivel educativo con el fin de hacer vigilancia de la calidad de la educación y de las instituciones
educativas.
Tabla 1. Exámenes aplicados por el ICFES
PRIMARIA Y
SECUNDARIA
MEDIA SUPERIOR
Saber 3°, 5° y 9°
Avancemos 4°, 6° y
8°
Presaber
Saber 11°
Validación del
bachillerato
Saber T y T
Saber Pro
Saber T y T y Saber
Pro en el exterior
Fuente: Elaboración propia con información del portal del ICFES (ICFES, s. f.).
Otra función del ICFES, además de aplicar la prueba y consolidar los datos, es hacerlos
públicos para que los actores del proceso educativo los puedan someter a análisis con los
propósitos que cada quien estime conveniente en beneficio de la educación y del entorno de
los estudiantes colombianos, al igual que son insumos para reevaluar la infraestructura
educativa y los procesos de enseñanza-aprendizaje. El ICFES además de consolidar la
información estadística de la prueba, también se encarga de informar a los estudiantes los
resultados consolidados y discriminados por área de conocimiento, además de comunicar al
sistema educativo las categorías de las instituciones de acuerdo al rendimiento de los
evaluados en la prueba.
4.1.1 Antecedentes
La prueba se aplica de forma semestral, por lo general en los meses de marzo y agosto, con
la finalidad de que los estudiantes de los calendarios A y B puedan desarrollar sus exámenes
al culminar sus estudios de educación media. Sus resultados, junto con la información que
entregan los estudiantes y las instituciones educativas de las que proceden, permiten vigilar
25. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
24
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
la calidad de la educación ofrecida por las instituciones y tener información que puede ser
valiosa para el ciclo posterior de educación superior. A esta prueba se pueden presentar los
estudiantes activos en grado 11 de educación media, estudiantes que se encuentran
validando el bachillerato e individuos que hayan obtenido anteriormente su título de bachiller
pero que necesiten obtener o mejorar los resultados en las pruebas.
Inicialmente, en el año 1968, la prueba se desarrollaba para apoyar los procesos de ingreso
a la educación superior, pero no era requisito para ingresar a los diferentes programas
ofrecidos por las instituciones de educación superior. A partir del año 1980, presentar los
resultados de la prueba se vuelve obligatorio para ingresar a la educación superior técnica,
tecnológica o profesional, se convierte en un referente de la calidad de la educación por el
Decreto 2343 de 1980 que reglamenta los exámenes de estado para el ingreso a la educación
superior.
Cuando se comienza a implementar la educación basada en competencias en el año 2000, el
examen se adapta a este paradigma y pretende medir el grado en que los estudiantes
alcanzan las competencias en las áreas que son evaluadas. El Ministerio de Educación
Nacional es el ente encargado de desarrollar los estándares básicos de competencias que
sirven como base para que el ICFES realice la labor de diseño del examen. En la segunda
parte del año 2014, con la intención de consolidar un Sistema Nacional de Evaluación
Estandarizada (SNEE), el diseño de las pruebas Saber se homogeniza con el fin de poder
comparar el avance en las competencias genéricas evaluadas en las diferentes áreas de las
pruebas Saber aplicadas en todos los niveles de educación.
4.1.2 Áreas de evaluación
La prueba se conforma por preguntas cerradas que deben ser diligenciadas por los evaluados
en una hoja de respuesta utilizando exclusivamente lápiz de grafito, además no se pueden
usar calculadoras en su desarrollo. En la figura 2 se puede ver un ejemplo de una hoja de
respuestas de la prueba y un acercamiento a los ítems de respuesta de la prueba, las opciones
de rellenado se distribuyen en columnas con filas numeradas y la respectiva identificación de
la sesión que se está evaluando, en la parte inferior se encuentra el cuestionario
socioeconómico que hace parte de la mayoría de los atributos del conjunto de datos.
Por lo general, en el primer semestre se evalúa a los estudiantes de calendario “B”, el grupo
menos numeroso, y en el segundo semestre los de calendario “A”, a los que pertenecen la
26. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
25
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
gran mayoría de los estudiantes de grado 11. En la tabla 2 se puede ver la evolución de las
áreas evaluadas en la prueba, en especial los cambios que tuvieron lugar después de la
implementación del SNEE en el año 2014, se puede distinguir las diferentes sub áreas que se
evalúan y la evolución que han tenido en el tiempo. Se evidencia que a partir del segundo
semestre del año 2014 las sub áreas de Lenguaje y Filosofía se fusiona en la sub área de
Lectura Crítica, la de Matemáticas se complementa con ítems que buscan medir las
competencias en razonamiento cuantitativo, las sub áreas de Física, Química y Biología se
fusionan en una de Ciencias Naturales, las de Historia y Geografía primero se fusionan como
Ciencias Sociales y en el 2014 se adicionan las competencias ciudadanas, y por último la
segunda lengua evaluada a partir del 2006 es exclusivamente el idioma inglés (MEN, 2017).
Figura 2. Cuadernillo de respuestas de la prueba Saber 11°
Fuente: Guía de orientación Saber 11° (ICFES, 2019a)
27. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
26
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Tabla 2. Sub áreas de evaluación en el examen Saber 11°
2000 1S – 2005 2S 2006 1S – 2014 1S 2014 2S – Actualidad
Lenguaje
Filosofía
Lenguaje
Filosofía
Lectura crítica
Matemáticas Matemáticas Matemáticas (incluyendo
Razonamiento Cuantitativo)
Física
Química
Biología
Física
Química
Biología
Ciencias Naturales
Historia Ciencias Sociales Sociales y Ciudadanas
Geografía
Idioma Inglés Inglés
Fuente: Guía del Usuario Saber 11° (ICFES, 2018)
4.1.3 Propósitos del examen
A través de su evolución en el tiempo el examen ha tenido varios fines u objetivos, entre los
cuales podemos mencionar (ICFES, 2019b):
Determinar el alcance de las competencias de los discentes que van a finalizar su
bachillerato.
Brindar una herramienta que permita a los examinados verificar su avance con
respecto a sus aspiraciones en la vida.
Servir como base a las instituciones educativas para desarrollar planes de
acompañamiento en educación superior, desempeños mínimos en la prueba para
aspirar cupos en su oferta profesional y establecer acciones que puedan evitar la
deserción temprana.
Medir la calidad de la educación en las instituciones de educación media de acuerdo
a los patrones de aptitud y referentes de calidad del Ministerio de Educación Nacional.
Ofrecer los datos para que sirvan en la implementación de indicadores de eficiencia
en el servicio educativo que pueda interesar como base para el control estatal y
ciudadano de la calidad de la educación.
Permitir que las instituciones educativas usen los datos para desarrollar procesos de
autoevaluación que permitan mejorar y orientar sus procesos de enseñanza-
aprendizaje.
Servir como base para el establecimiento de políticas públicas a nivel nacional,
regional y local por parte de las entidades que propenden por el servicio educativo.
28. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
27
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4.1.4 Competencias evaluadas y niveles de mediciónen las áreasde
la prueba
La tabla 3 muestra las competencias evaluadas y los niveles de medición en cada área del
conocimiento que se evalúa en la prueba Saber 11°:
Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la prueba
ÁREA COMPETENCIAS EVALUADAS NIVELES DE MEDICIÓN
Lectura crítica Identificar y entender los
contenidos locales que
conforman un texto.
Comprender como se articulan
las partes de un texto para
darle un sentido global.
Reflexionar a partir de un texto
y evaluar su contenido. Nominal ordinal (basado en
percentiles)
0 – 40: Insuficiente
41 – 68: Mínimo
69 – 80: Satisfactorio
81 – 100: Avanzado
Matemáticas Interpretación y evaluación.
Formulación y ejecución.
Argumentación.
Sociales y
ciudadanas
Pensamiento social.
Interpretación y análisis de
perspectivas.
Pensamiento reflexivo y
sistémico.
Ciencias naturales Uso comprensivo del
conocimiento científico.
Explicación de fenómenos.
Indagación.
Inglés Se evalúan las competencias
de acuerdo con el Marco
Común Europeo de Referencia
para las lenguas (MCER).
Nominal ordinal
A-
A1
A2
B1
B+
También tiene su
equivalente a percentiles
Fuente: Elaboración propia a partir de la Guía de orientación Saber 11° (ICFES, 2019a)
Comose puede observar los valores de cada nivel ordinal en todas las áreas evaluadas siguen
la misma escala, a excepción del área de inglés que presenta la escala MCER modificada,
dado que se agrega el nivel A- que corresponde a los estudiantes que no alcanzan el nivel
básico A1, y el nivel B+ implica aquellos estudiantes que clasifican en este nivel o un nivel
superior del idioma.
29. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
28
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
La valoración total de la prueba es de tipo numéricoy tiene el mismonivel de medición nominal
ordinal de las áreas del conocimiento, para el presente proyecto va a ser el atributo que
contendrá la clasificación de las diferentes instancias de los modelos de predicción del
rendimiento que se van a evaluar.
4.1.5 Índice de necesidades socioeconómicas (INSE)
El ICFES ha desarrollado un indicador que permite clasificar a los participantes de acuerdo al
resultado del cuestionario socioeconómico que se aplica a la prueba. Está basado en las
teorías de Coleman, Bradley & Corwyn (1988) de la relación de los capitales físicos, human
os y sociales y su relación con la sensación de bienestar de los individuos. La
metodología de cálculo de este índice ha permitido categorizar a los estudiantes en el índice
NSE toma los valores de uno a cuatro, siendo estos los extremos los evaluados con alto y alto
bajo nivel de necesidades socioeconómicas insatisfechas.
En los años 2009 a 2012, este índice se calculaba usando los lineamientos de los métodos
multivariantes, utilizados por la Dirección Nacional de Planeación (DNP), sobre los atributos
que hacen parte del aspecto socioeconómico de los evaluados y su entorno familiar. Desde
el año 2012 el cálculo de este índice se desarrolla utilizando la metodología de la Teoría de
Respuesta al Ítem que permite que se tenga una escala de medición comparable entre
periodos. Con el fin de determinar un conjunto reducido de atributos que tengan un aporte de
información significativo para la medición del nivel socioeconómico se utiliza en análisis de
componentes principales, esto hace que el nivel socioeconómico (NSE) sea comparable entre
periodos o aplicaciones de la prueba. El INSE, de tipo numérico,se emplea comoinsumo para
categorizar los atributos en el NSE de los participantes (ICFES, 2019d). En las figuras 3 y 4,
muestran los intervalos del INSE que sirven para definir el NSE, este último es resultado de
la aplicación de algoritmos de árboles de decisión para clasificar a los evaluados en alguna
de las cuatro categorías.
30. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
29
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas
Fuente: ICFES (2019d)
Figura 4. Descriptores socioeconómicos
Fuente: ICFES (2019d)
4.1.6 Clasificación de planteles educativos
El rendimiento de los estudiantes, además de reflejar el grado de desarrollo de las
competencias de los estudiantes en las diferentes áreas de conocimiento evaluadas, permite
también caracterizarla calidad de los planteles educativos y esto a suvez define el incremento
máximo en el valor de las matrículas y pensiones para el año posterior al desarrollo de la
31. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
30
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
prueba, estos incrementos se realizan dos veces en el año dependiendo de la jornada
académica de las instituciones.
La clasificación de las instituciones educativas tiene en cuenta el resultado de los estudiantes
en las cinco áreas del conocimiento que se evalúan en la prueba, utilizando un indicador de
Índice General (IG) que se calcula tal como semuestra en las ecuaciones 1 y 2, y no solamente
tiene en cuenta la media de las calificaciones sino también la varianza de las mismas, para tal
efecto únicamente se tienen en cuenta el 80% de las mejores calificaciones en cada área sin
incluir a los evaluados que se encuentran repitiendo la prueba y excluyendo a los estudiantes
con algún tipo de capacidades especiales (para no usar el término discapacidad que utiliza la
fuente) que tomen una versión modificada de la prueba (ICFES, 2014).
Para calcular el Índice General se utiliza la siguiente fórmula:
𝐼𝐺 =
(3𝐼𝑀
) + (3𝐼𝐿𝐶
) + (3𝐼𝐶𝑁
) + (3𝐼𝑆𝐶𝐶
) + (3𝐼𝐼
)
13
Ecuación 1. Cálculo Índice General
Cada uno de los índices de cada área se calculan utilizando la siguiente ecuación:
𝐼𝑃 =
𝜇𝑖
1 − 𝜎𝑖
2
Ecuación 2. Cálculo del índice por área
Donde:
𝜇𝑖: media de los puntajes en la prueba i
𝜎𝑖
2
: varianza de los puntajes en la prueba i
La aplicación de estas ecuaciones permite clasificara los colegios en cinco categorías, siendo
la categoría A+ la evaluación más alta para las instituciones de educación básica. La relación
entre estas categorías y el Índice General se puede observar en la tabla 4.
De ahí la importancia que las instituciones educativas, en especial las de origen privado, le
dan al rendimiento de sus estudiantes en la prueba, con el propósito de mejorar sus resultados
estas desarrollan capacitaciones y simulacros previos con el fin de poder identificar aspectos
para mejorar el rendimiento en la prueba.
32. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
31
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global
Categoría Rango del Índice General
A+ IG > 0.77
A 0.72 < IG ≤ 0.77
B 0.67 < IG ≤ 0.72
C 0.62 < IG ≤ 0.67
D 0 ≤ IG ≤ 0.77
Fuente: Portal del ICFES (2010)
4.1.7 Becas por el rendimiento en las pruebas Saber 11°
Además, del beneficio económicoque les puede representar a las instituciones educativas las
alzas anuales en matrículas y pensiones de acuerdo a la categoría alcanzada por los
resultados en las pruebas, los estudiantes con los mejores puntajes pueden acceder a
diferentes estímulos becarios para poder estudiar sus pregrados en las diferentes instituciones
de educación superior que tiene el país.
Los mejores bachilleres, galardonados a través de resolución por el Ministerio de Educación
Nacional con la distinción “Andrés Bello”, reciben subsidios de matrículas y de sostenimiento
en la institución de educación superior donde superen el proceso de admisión. El subsidio de
sostenimiento dependerá de la ubicación de su lugar de residencia y la sede de la institución
educativa donde van a continuar sus estudios, este subsidio estaría entre uno y cuatro salarios
mínimos legales vigentes (SMLV) (ICETEX, 2020).
Además del beneficio anterior, el actual gobierno estableció un programa para que los
estudiantes del país tengan accesoa la educación superior, el programa se llama “Generación
E”, que en gobiernos anteriores se conocía como “Ser Pilo Paga”, con la diferencia en que en
el nuevo programa se aumenta la cantidad de usuarios beneficiados debido a la asignación
de un presupuesto nacional importante. El programa maneja dos opciones: Generación E
Excelencia Nacional, y Generación E Equidad; el ICFES en el conjunto de datos de los
resultados de las pruebas específica a cuál de las modalidades puede aspirar el evaluado si
cumple con: las condiciones de puntaje total en la prueba, puntajes máximos en el SISBEN,
estar dentro de los 10 mejores puntajes de departamentos seleccionados, rango de edad, etc.
Este programa condona el 100% de los costos a los estudiantes que se matriculen en
instituciones de educación superior públicas y 75% para quienes acudan a las instituciones
privadas (Cepeda, 2019).
33. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
32
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4.1.8 Actividades para validación de los modelos de rendimiento en
la prueba
De acuerdo a lo que se ha visto en este capítulo, el rendimiento de la prueba puede ser
analizado desde varios puntos de vista, el primero es desde la óptica del rendimiento en cada
prueba, y el segundo desde el rendimiento global de la misma. Otro enfoque interesante es
determinar un modelo que permita predecir la categoría de las instituciones educativas
haciendo un cruce entre los conjuntos de datos de los resultados de los estudiantes en la
prueba, con el de la categorización de los colegios de Colombia. Es claro que el objetivo
principal del ICFES y de las instituciones educativas es incrementar el desempeño en la
prueba saber 11°, lo cual repercutiría en la percepción de la calidad de la educación del país,
evidenciando mejoras en los procesos académicos y de enseñanza, incremento en la calidad
de las instituciones educativas de educación básica y jalonaría el desempeño en la prueba
PISA, donde Colombia ocupó en el año 2019 una de las la últimas posiciones de los países
de la OCDE, quedando por debajo de la media de los resultados de estos en las áreas
evaluadas de lectura, matemáticas y ciencias; la OCDE infiere que el nivel socioeconómico
tiene una gran influencia en los resultados de la prueba PISA.
Para este proyecto se establecerán tres modelos de predicción con el fin de determinar el que
presente las mejores métricas para el rendimiento de los estudiantes en la prueba en la región
Caribe colombiana, el rendimiento es una función de los atributos que hacen parte del
cuestionario sociodemográfico y aquellos relacionados con las instituciones educativas.
Por lo anterior, se hace necesario desarrollar las siguientes actividades con el fin de validar
los modelos y encontrar el que mejor se ajuste a los atributos del conjunto de datos:
Obtención de los datos desde el sistema de bases de datos del ICFES de los años
2017 a 2019.
Filtrado de los datos por los departamentos de la región Caribe: Atlántico, Bolívar,
César, Córdoba, La Guajira, Magdalena, San Andrés y Sucre.
Extracción de los datos pertinentes, transformación y limpieza.
Integración de los datos en un solo conjunto de datos.
Selección de los atributos y las instancias que van a hacer parte de los modelos.
Aplicación de algoritmos de aprendizaje automático de árboles de decisión (J48 y
34. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
33
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
LMT), de reglas (PART) y de redes neuronales (MLP).
Elección y aplicación del método de validación del modelo.
Análisis de las métricas para determinar el mejor modelo con el que se puede predecir
el rendimiento en la prueba Saber 11°.
4.2 Conjunto de datos de la prueba Saber 11°
El ICFES pone a disposición de los interesados las bases de datos de las pruebas que aplica
a nivel nacional, este servicio de datos recibe el nombre de “DataIcfes” y se encuentra ubicado
en la URL https://www.icfes.gov.co/investigadores-y-estudiantes-posgrado/acceso-a-bases-
de-datos. Para poder hacer uso de esta base de datos los interesados deben registrarse
suministrando sus nombres y una dirección de correo electrónico, una vez sea aprobada su
solicitud el sistema envía una contraseña para poder acceder al sistema y desarrollar las
consultas necesarias.
4.2.1 Ingreso al portal DataIcfes
En la figura 5 se puede observar la página de acceso al portal DataIcfes, para ingresar se
puede solicitar una contraseña para el acceso a la base de datos de las diferentes pruebas
aplicadas por el ICFES, una vez se ha ingresado a la base de datos se despliega un servicio
de almacenamiento en la nube de Microsoft OneDrive.
Se permite el uso de los datos disponibles en el repositorio DataIcfes para propósitos
investigativos, durante el desarrollo de la prueba se solicita a los estudiantes permiso para el
uso de datos personales como sus nombres y apellidos, dirección, fecha de nacimiento,
número de identificación, correo electrónico, números de contacto (estos datos no se hacen
públicos y son de conocimiento exclusivo del ICFES), y los datos socioeconómicos que son
diligenciados durante la prueba; previamente los datos de las instituciones educativas han
sido recopilados durante el registro que hacen los planteles educativos. Los usuarios de los
datos no pueden hacer pública la información personal de los estudiantes o perfilamientos sin
permiso expreso de los interesados de acuerdo a lo dispuesto en el decreto ley 1377 del 27
de junio del año 2013 el cual reglamenta la Ley 1581 del año 2012 en cuanto a las
autorizaciones para el tratamiento, las políticas de tratamiento, los derechos de los titulares,
las transferencias y transmisiones y la responsabilidad ante los datos privados.
35. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
34
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 5. Página del portal de las bases de datos DataIcfes
Fuente: ICFES
El presente proyecto no requirió al ICFES los datos personales de los evaluados, ni desarrolló
perfilamiento alguno que permitan identificar unívocamente a los titulares de la información
reflejada en las instancias del conjunto de datos.
Una vez que se ha ingresado al sistema y a la carpeta Saber 11, ver figura 6, se tiene acceso
al árbol de directorios con información pertinente a la prueba, estructurada de la siguiente
forma:
1. Guía del usuario del portal DataIcfes en PDF.
2. Documentos, tales como la documentación Saber 11°, documentación referente al
cálculo del INSE (Índice del Nivel Socioeconómico) y la metodología para la
clasificación de planteles educativos.
3. Resultados Saber 11°, desde el año 2000 al 2019 para los dos calendarios académicos
de cada año comprimidos en ZIP.
4. Clasificación de Planteles, desde el año 2001 comprimidos en ZIP.
36. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
35
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11°
Fuente: Portal DataIcfes
4.2.2 Extracción de los datos
Una vez que se ha identificado el origen de los datos se proceden a descargar los
correspondientes a los resultados del examen en los años 2017, 2018 y 2019. El proceso de
carga se intenta desarrollar por OpenRefine y EmEditor, OpenRefine tiene problemas de
memoria con la data más extensa correspondiente al calendario A, EmEditor carga los datos,
pero se observan algunas instancias que no pueden manejar el separador “¬” utilizado en los
archivos de texto; se hace la carga con éxito en la aplicación Power BI Desktop tal como se
muestra en la figura 7.
Para cada año se publican dos conjuntos de datos diferentes, uno de la prueba aplicada en el
mes de marzo y otro de la prueba del mes de agosto, para un total de seis conjuntos de datos
para el trienio 2017 - 2019. Una vez los datos de los resultados se encuentran cargados en
Power BI, se anexan las consultas en una sola tabla, seguidamente se hace necesario
convertir a tipo fecha el campo “PERIODO” que es de tipo texto con la finalidad de que se
tenga esta referencia para el cálculo posterior de la edad de los evaluados de acuerdo a su
fecha de nacimiento.
37. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
36
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 7. Datos cargados en Power BI Desktop
Fuente: Elaboración propia
4.2.3 Descripción del conjunto de datos
El conjunto de datos se divide en seis bloques o dimensiones, estos bloques son:
Información personal
Información de contacto
Información socioeconómica
Información del colegio
Datos de citación y resultados
Originalmente, cada conjunto de datos por periodo está compuesto por 71 atributos, sin tener
en cuenta los atributos de tipo identificador, tales como los códigos de la distribución
geográfica, códigos de exámenes, etc. Desde el segundo periodo del año 2018 se implementa
en Colombia el programa “Generación E” como una mejora al programa “Ser Pilo Paga”, por
38. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
37
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
eso al momento de integrar los seis conjuntos de datos los atributos se incrementan a 72,
adicionalmente se generará el atributo derivado EDAD que se obtiene de la diferencia de la
fecha de aplicación del examen y la fecha de nacimiento del evaluado, lo que nos incrementa
el número de atributos a 73. En cuanto al número de instancias, una vez que se integran las
tablas de los resultados del 2017 al 2019, se cuenta con 1,689,010 instancias y una vez que
se filtran las instancias pertenecientes a los departamentos de la región Caribe el número de
instancias disminuye a 381,782.
Cómo se observa en la tabla 5, no se puede identificar a los participantes de la prueba dado
que el ICFES, previamente a la publicación en el repositorio DataIcfes, ha anonimizado los
datos de acuerdo a los lineamientos legales de la Ley 1581 de 2012 y el Decreto Ley 1377 de
2013.
Tabla 5. Características del conjunto de datos
DIMENSIÓN ATRIBUTOS Tipo Descripción
INFORMACIÓN
PERSONAL
ESTU_TIPODOCUMENTO Nominal
Tipo de
documento
ESTU_NACIONALIDAD Nominal Nacionalidad
ESTU_GENERO Nominal Género
ESTU_FECHANACIMIENTO Fecha
Fecha de
nacimiento
PERIODO Nominal
Periodo de
presentación
ESTU_ESTUDIANTE Nominal
Tipo de
inscripción
ESTU_PAIS_RESIDE Nominal
País de
residencia
ESTU_ETNIA Nominal Grupo étnico
INFORMACIÓN DE
CONTACTO
ESTU_DEPTO_RESIDE Nominal
Departamento
residencia
ESTU_MCPIO_RESIDE Nominal
Municipio de
residencia
INFORMACIÓN
SOCIOECONÓMICA
FAMI_ESTRATOVIVIENDA Nominal
Estrato
socioeconómico
de la vivienda
FAMI_PERSONASHOGAR Nominal
Número de
personas en el
hogar
FAMI_CUARTOSHOGAR Nominal
Número de
cuartos
(habitaciones)
FAMI_EDUCACIONPADRE Nominal
Nivel educativo
del padre
FAMI_EDUCACIONMADRE Nominal
Nivel educativo
de la madre
39. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
38
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
DIMENSIÓN ATRIBUTOS Tipo Descripción
FAMI_TRABAJOLABORPADRE Nominal
Labor del trabajo
del padre
FAMI_TRABAJOLABORMADRE Nominal
Labor del trabajo
de la madre
FAMI_TIENEINTERNET Booleano
Disponibilidad de
Internet
FAMI_TIENESERVICIOTV Booleano
Servicio de
televisión cerrada
FAMI_TIENECOMPUTADOR Booleano
Tiene
computadora
FAMI_TIENELAVADORA Booleano Tiene lavadora
FAMI_TIENEHORNOMICROONGAS Booleano
Tiene horno
microondas o de
gas
FAMI_TIENEAUTOMOVIL Booleano Tiene automóvil
FAMI_TIENEMOTOCICLETA Booleano Tiene motocicleta
FAMI_TIENECONSOLAVIDEOJUEGOS Booleano
Tiene consola de
videojuegos
FAMI_NUMLIBROS Nominal
Cantidad de
libros,revistas y
similares en el
hogar
FAMI_COMELECHEDERIVADOS Nominal
Veces por
semana que
consume
derivados lácteos
FAMI_COMECARNEPESCADOHUEVO Nominal
Veces por
semana que
consume
pescado y huevo
FAMI_COMECEREALFRUTOSLEGUMBRE Nominal
Veces por
semana que
consume
cereales – frutas
– legumbres
FAMI_SITUACIONECONOMICA Nominal
Percepción de la
situación
económica
respecto al año
anterior
ESTU_DEDICACIONLECTURADIARIA Nominal
Horas dedicadas
a la lectura por
semana
ESTU_DEDICACIONINTERNET Nominal
Horas de uso de
internetpor día
ESTU_HORASSEMANATRABAJA Nominal
Horas de trabajo
por semana
ESTU_TIPOREMUNERACION Nominal
Tipo de
remuneración por
las horas
trabajadas
INFORMACIÓN DEL COLE_NOMBRE_ESTABLECIMIENTO Nominal Nombre del
40. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
39
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
DIMENSIÓN ATRIBUTOS Tipo Descripción
COLEGIO establecimiento
COLE_GENERO Nominal
Género de la
población de
estudiantes del
colegio
COLE_NATURALEZA Nominal Naturaleza legal
COLE_CALENDARIO Nominal
Calendario
académico
COLE_BILINGUE Booleano
Educación
bilingüe
COLE_CARACTER Nominal Carácter
COLE_NOMBRE_SEDE Nominal
Nombre de la
sede
COLE_SEDE_PRINCIPAL Booleano
Indica si la sede
es la principal
COLE_AREA_UBICACION Nominal
Área de
ubicación del
colegio
COLE_JORNADA Nominal Jornada
COLE_MCPIO_UBICACION Nominal
Municipio de
ubicación
COLE_DEPTO_UBICACION Nominal
Departamento de
ubicación
DATOS DE
CITACIÓN
ESTU_PRIVADO_LIBERTAD Booleano
Condición judicial
del evaluado
ESTU_MCPIO_PRESENTACION Nominal
Municipio de
presentación
ESTU_DEPTO_PRESENTACION Nominal
Departamento de
presentación
RESULTADOS
PUNT_LECTURA_CRITICA Numérico
Puntajes,
percentiles y
desempeño en
las áreas de
lectura crítica,
matemática,
ciencias
naturales,
ciencias sociales
y ciudadanas,e
inglés
PERCENTIL_LECTURA_CRITICA Numérico
DESEMP_LECTURA_CRITICA Numérico
PUNT_MATEMATICA Numérico
PERCENTIL_MATEMÁTICAS Numérico
DESEMP_MATEMATICAS Numérico
PUNT_C_NATURALES Numérico
PERCENTIL_C_NATURALES Numérico
DESEMP_C_NATURALES Numérico
PUNT_SOCIALES_CIUDADANAS Numérico
PERCENTIL_SOCIALES_CIUDADANAS Numérico
DESEMP_SOCIALES_CIUDADANAS Numérico
PUNT_INGLES Numérico
PERCENTIL_INGLES Numérico
DESEMP_INGLES Numérico
PUNT_GLOBAL Numérico Puntaje,
percentiles y
desempeño
global de la
prueba
PERCENTIL_GLOBAL Numérico
ESTU_INSE_INDIVIDUAL
Numérico
ESTU_NSE_INDIVIDUAL Nominal
Nivel
socioeconómico
estudiante
ESTU_NSE_ESTABLECIMIENTO Numérico
Nivel
socioeconómico
del
establecimiento
ESTU_ESTADOINVESTIGACION Nominal
Estado de los
resultados para
los evaluados
ESTU_GENERACIONE Nominal Informa si
41. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
40
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
DIMENSIÓN ATRIBUTOS Tipo Descripción
ESTU_PILO_PAGA Nominal
clasifica al
programa
Fuente: Diccionario de variables Saber 11° ubicado en el repositorio DataIcfes
4.2.4 Análisis del conjunto de datos
Con el fin de evidenciar, los percentiles promedio nacionales de las calificaciones de cada
área de conocimiento, se desarrolla un dashboard en Power BI para los resultados a nivel
nacional para comparar estos con los de la región Caribe. En la figura 8, aproximando al entero
más cercano, el resultado nacional se encuentra en el percentil 50 donde se ubica la media y
la mediana de la escala indicando que la mitad de los estudiantes se encuentran por debajo
de la media nacional y la otra parte por encima de esta, estos resultados incluyen a los
colegios de naturaleza oficial y no oficiales (privados).
Específicamente, los resultados de la región Caribe están 7.8 percentiles por debajo de la
media nacional, ver figura 9, siendo un indicativo de los esfuerzos que debe hacer la región
para alcanzar los resultados nacionales, la región tiene el reto de mejorar las condiciones
socioeconómicas y la calidad de la educación con la colaboración de todos los actores del
proceso.
Figura 8. Promedio nacional de los percentiles de las áreas evaluadas
Fuente: Elaboración propia
42. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
41
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas
Fuente: Elaboración propia
En los departamentos de la región Caribe (Atlántico, Bolívar, César, Córdoba, La Guajira,
Magdalena, San Andrés y Sucre), el 72.1% de las instituciones son oficiales (públicas)
mientras que el resto de ellas pertenecen al sector privado (figura 10), de ahí el peso que las
instituciones oficiales tienen en el promedio de las calificaciones de las áreas evaluadas en la
prueba.
Figura 10. Cantidad de instituciones educativas por naturaleza
Fuente: Elaboración propia
El calendario académico “A”, que inicia actividades en febrero, es al que se acoge una mayor
cantidad de las instituciones educativas representando el 98.45% del total nacional. Los otros
calendarios, representan solo el 1.45% e inician su periodo de actividades en el mes de
septiembre, estos no tienen presencia en algunos departamentos y muy poca presencia en
los municipios del país (figura 11).
43. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
42
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 11. Cantidad de instituciones educativas por su naturaleza
Fuente: Elaboración propia
Observando las líneas de tendencia, el rendimiento en las áreas de conocimiento evaluadas
tiende a disminuir desde el año 2018, solo hay un leve incremento desde el segundo periodo
del mismo año en el caso de las calificaciones del área de Lectura Crítica,
desafortunadamente tiene poca incidencia en el promedio global de calificaciones, las áreas
de matemáticas e inglés son la que tienen la pendiente más negativa en las líneas de
tendencia indicando que son las áreas en las que desde el 2018 evidencian un bajo
rendimiento promedio ubicándose por debajo del percentil 60 en el segundo periodo del año
2019. Si se analizan estas gráficas de acuerdo con el calendario académico de los colegios,
el mejor rendimiento promedio se presenta en los estudiantes provenientes de instituciones
que pertenecen al calendario “B”, pocas instituciones educativas pertenecen a este
calendario, son de carácter privado y por lo general los estudiantes tienen un mejor nivel
socioeconómico. El rendimiento promedio más bajo se presenta en el calendario “A”, quienes
desarrollan la prueba en el segundo semestre de cada año, el mayor número de estudiantes
evaluados del país pertenecen a este calendario, hacen parte de este todas las instituciones
oficiales (del gobierno) y en menor proporción las no oficiales (privadas). Los colegios que
manejan otros calendarios académicos tienen un rendimiento que se ubica por encima del
rendimiento de las instituciones del calendario “A” y por debajo del rendimiento de las del
calendario “B”, es el calendario con el menor número de estudiantes en el país y las
instituciones se asimilan en muchos aspectos a los colegios de calendario “B”. Las gráficas
12 y 13 muestran en el eje de las ordenadas el rendimiento promedio y en el eje de las
abscisas la fecha de presentación de las pruebas, en ellas se puede apreciar la tendencia en
44. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
43
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
el tiempo de los percentiles promedio por área del saber y por calendario académico.
Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias Naturales y Ciencias
Sociales y Ciudadanas
Fuente: Elaboración propia
En cuanto al rendimiento de los colegios por su naturaleza (figura 14), los colegios privados
obtienen un puntaje promedio superior a la media ubicándose en el percentil 55, casocontrario
ocurre con los colegios oficiales donde al parecer existen factores determinantes de bajo
rendimiento en la prueba haciendo que este se ubique en el percentil 39. La línea de tiempo,
de la figura 15, muestra la tendencia negativa en el rendimiento de los colegios oficiales y no
oficiales, aunque se observa un ligero incremento en el rendimiento de los colegios públicos
en el segundo semestre del año comparado con el primer semestre del año 2019, aunque
estas medidas no son comparables dado a que los promedios se calculan en base a los
resultados de pocos estudiantes que se presenta a realizar la prueba en las fechas de los
exámenes del calendario “B”. Esta disparidad en el rendimiento en las áreas de conocimiento,
pueden reflejar falencias en gran parte del sistema educativo, es probablemente la causa de
estar entre las peores notas de los países de la OCDE, junto con Panamá y República
Dominicana, en las pruebas internacionales PISA donde se evalúan las áreas de lectura,
matemáticas y ciencias (Portafolio, 2019).
45. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
44
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 13. Percentiles promedio en el área de Inglés y rendimiento global
Fuente: Elaboración propia
Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas
Fuente: Elaboración propia
46. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
45
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa
Fuente: Elaboración propia
Las condiciones existentes en la gran mayoría de los territorios rurales (figura 16) pueden
tener incidencia en el rendimiento de los evaluados ubicados en esas áreas geográficas de
tipo rural, el rendimiento es inferior al de los evaluados en las áreas urbanas. Este bajo
rendimiento puede estar influenciado por los problemas de infraestructura vial, el acceso a
servicios públicos básicos, la disponibilidad de las tecnologías, las deficiencias en la
conectividad, etc., muy a pesar de que el gobierno nacional destina partidas para el sector
educativo y obras subsidiarias, estas no tienen un manejo adecuado haciendo que gran parte
de los colegios no cuenten con las facilidades y medios adecuados para su labor.
Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas
Fuente: Elaboración propia
47. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
46
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
En cuanto al sexo de los evaluados, se destaca el promedio que obtienen los colegios que
son exclusivos del sexo femenino en los resultados de la prueba, ubicándose por encima de
las instituciones educativas donde prima el sexo masculino y muy por encima del rendimiento
de los colegios con enfoque de mixto de género (figura 17), no se puede generalizar, pero al
parecer con miras a los resultados no es conveniente un enfoque de género mixto en los
colegios.
Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones educativas
Fuente: Elaboración propia
Las siguientes dos figuras tienen relación con el tiempo de dedicación en la labor educativa y
el énfasis en las jornadas de las instituciones educativas. Las tres jornadas que más
establecen los colegios para su labor son la de la mañana, la de la tarde y la de la noche; las
jornadas menos implementadas en los colegios son la sabatina, la completa y la única (figura
18). Sin embargo, las mejores calificaciones en la prueba las obtienen los estudiantes de las
instituciones que implementan jornada completa, seguidos por la jornada única y la jornada
matutina (figura 19). Queda claro que el tiempo de dedicación a las labores académicas puede
tener un impacto significativo en las áreas evaluadas en la prueba.
48. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
47
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 18. Número de instituciones educativas por jornada
Fuente: Elaboración propia
Figura 19. Rendimiento promedio por jornada académica
Fuente: Elaboración propia
Con relación al estrato socioeconómico de la vivienda familiar de los estudiantes (figura 20),
a excepción del estrato 1, no se ven diferencias significativas en los puntajes promedio de la
prueba Saber 11°, el estrato uno tiene un rendimiento promedio de 3 a 6 percentiles por debajo
de los demás estratos, mientras que la diferencia entre los estratos 2 al 6 es en promedio de
1 a 3 percentiles. Es muy común encontrar en los sectores de estrato 1 al 4, familias que
tienen una mejor posición socioeconómica y viviendas con mejoras significativas en
49. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
48
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
comparación con su entorno, el gobierno colombiano maneja la estratificación por lo general
por sectores, muchos de los habitantes no cambian sus sectores de residencia a otros de
estratos más altos para no aumentar su carga económica en cuanto a impuestos y servicios
públicos.
Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda
Fuente: Elaboración propia
El nivel socioeconómico (NSE) refleja, de acuerdo al ICFES, la diferencia en el rendimiento
de acuerdo a nivel social y económico de las familias de los estudiantes, en la figura 21 se
puede observar que el rendimiento promedio de los evaluados en la prueba es directamente
proporcional a su clasificación NSE. Los estudiantes alcanzan en el nivel 1 solo un promedio
de 32 percentiles en el puntaje global, mientras que aquellos que se encuentran en el nivel 4
alcanzan valores muy por encima de la media llegado al percentil promedio 73. Todo parece
indicar que el grado de necesidades insatisfechas puede afectar el rendimiento de los
estudiantes, algo en lo que se debe seguir trabajando desde las políticas del gobierno
nacional, regional y local.
Respecto al atributo derivado de la edad, el gráfico de dispersión de la figura 22 muestra el
rendimiento en la prueba en función de la edad, es evidente que existe una relación inversa
entre estas dos variables, a mayor edad menor rendimiento. Se presentan algunos valores
atípicos que tendrán que analizarse y corregirse posteriormente.
50. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
49
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados
Fuente: Elaboración propia
Figura 22. Rendimiento en la prueba en función de la edad
Fuente: Elaboración propia
Referente a la intensidad en el uso diario de la Internet, a pesar de que el promedio en las
calificaciones de los estudiantes aumenta con el tiempo de uso, apenas alcanzan a superar
la media nacional (figura 23), aquellos evaluados que no usan internet alcanzan en promedio
un rendimiento de 32 percentiles, pero una vez se va aumentando la intensidad en el uso de
internet los promedios mejoran hasta llegar a 51 percentiles en aquellos estudiantes que
utilizan este servicio por más de tres horas. No necesariamente su uso tiene que ver con
actividades de aprendizaje y quizás es utilizado en la mayor parte del tiempo para el ocio. Hay
un trabajo importante encaminado a mejorar las estrategias educativas para incrementar la
forma en que se puede aprovechar la información disponible en la red para mejorar el
desempeño general en la prueba.