SlideShare a Scribd company logo
1 of 138
Trabajo Fin de Máster
Tipo de trabajo: Piloto Experimental
Presentado por: Acosta-Solano, Jairo
Director/a: Lancheros Cuesta, Diana Janeth
Universidad Internacional de La Rioja
Escuela Superior de Ingeniería y Tecnología
Máster Universitarioen Análisis y Visualización
de Datos Masivos
Metodología CRISP-DM para
la evaluación de modelos
predictivos del rendimiento
de los estudiantes de la
región Caribe colombiana en
la prueba Saber 11° 2017 -
2019
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
1
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Resumen
El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje
automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas,
el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación
media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva
metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en
cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la
metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de
conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el
modelado y la validación de los modelos; se espera que la metodología propuesta sea
implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES),
las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una
variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un
conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de
aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer
Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se
obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de
decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de
datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de
validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional
de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la
educación del país, en especial de la región Caribe.
Palabras Clave: ICFES, rendimiento, aprendizaje automático, CRISP-DM, Región Caribe
colombiana
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
2
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Abstract
The purpose of this project is to evaluate several machine learning models under the CRISP-
DM methodology in order to determine, through its metrics, the best model for predicting the
performance of high school students in the Colombian Caribbean region in the Saber 11º test,
while proposing a new methodology for evaluating the results of the test by regions in order to
take into account the socioeconomic particularities of each one of them. The CRISP-DM
methodology is taken as a basis due to its maturity, this methodology allows the extraction of
business and data knowledge, offers a guide for data preparation, modeling and validation of
the models; it is expected that the proposed methodology will be implemented by the
Colombian Institute for the Promotion of Higher Education (ICFES), departmental education
secretariats and educational institutions. A variety of techniques and tools were used to
develop ETL processes to obtain a data set with the most relevant attributes, in order to
evaluate four machine learning models developed with the J48 (C4.5), LMT, PART and
Multilayer Perceptron algorithms; obtaining that the best data set and the best learning model
is obtained using the InfoGain attribute selection method and the LMT decision tree algorithm,
respectively. The model was tested with a new dataset, obtaining a mean square error of 0.25
very much in line with the validation metrics of the model. Therefore, this project will facilitate
the actors of the National Education System to make decisions for the benefit of students and
the quality of education in the country, especially in the Caribbean region.
Keywords: ICFES, performance, machine learnig, CRISP-DM, Colombian Caribbean region
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
3
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de contenidos
1 Introducción .......................................................................................................................11
1.1 Justificación................................................................................................................11
1.2 Planteamiento del trabajo ..........................................................................................12
1.3 Estructura de la memoria...........................................................................................13
2 Contexto y estado del arte.................................................................................................15
3 Objetivos concretos y metodología de trabajo..................................................................19
3.1 Objetivo general .........................................................................................................19
3.2 Objetivos específicos .................................................................................................19
3.3 Metodología del trabajo..............................................................................................20
3.3.1 Tipo de Investigación..........................................................................................20
3.3.2 Universo y Muestra.............................................................................................20
3.3.3 Fuentes de información ......................................................................................20
3.3.4 Metodología de desarrollo ..................................................................................20
4 Desarrollo específico de la contribución ...........................................................................23
4.1 Generalidades del examen Saber 11°.......................................................................23
4.1.1 Antecedentes ......................................................................................................23
4.1.2 Áreas de evaluación ...........................................................................................24
4.1.3 Propósitos del examen .......................................................................................26
4.1.4 Competencias evaluadas y niveles de medición en las áreas de la prueba .....27
4.1.5 Índice de necesidades socioeconómicas (INSE)...............................................28
4.1.6 Clasificación de planteles educativos.................................................................29
4.1.7 Becas por el rendimiento en las pruebas Saber 11°..........................................31
4.1.8 Actividades para validación de los modelos de rendimiento en la prueba ........32
4.2 Conjunto de datos de la prueba Saber 11° ...............................................................33
4.2.1 Ingreso al portal DataIcfes..................................................................................33
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
4
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4.2.2 Extracción de los datos.......................................................................................35
4.2.3 Descripción del conjunto de datos......................................................................36
4.2.4 Análisis del conjunto de datos ............................................................................40
4.2.5 Calidad de los datos ...........................................................................................56
4.3 Obtención del conjunto de datos para el modelado..................................................58
4.3.1 Eliminación de atributos que no aportan al modelo ...........................................59
4.3.2 Limpieza de los datos .........................................................................................64
4.3.2.1 Limpieza utilizando el lenguaje R................................................................64
4.3.2.2 Formateo de datos en Tableau Prep ..........................................................65
4.3.2.3 Limpieza de datos en WEKA.......................................................................69
4.3.3 Balanceo de clases.............................................................................................73
4.3.4 Selección de atributos.........................................................................................75
4.3.4.1 Selección de atributos en WEKA................................................................75
4.4 Modelos de aprendizaje automático..........................................................................78
4.4.1 Selección de modelos.........................................................................................78
4.4.1.1 Árboles de decisión C4.5 (J48)...................................................................78
4.4.1.2 Árboles de decisión LMT (Logistic Model Trees)........................................79
4.4.1.3 Reglas de decisión PART............................................................................79
4.4.1.4 Multilayer Perceptron (MLP)........................................................................80
4.4.2 Métricas de evaluación de los modelos .............................................................81
4.4.3 Construcción de los modelos..............................................................................84
4.4.3.1 Análisis del conjunto de datos inicial (TOTAL33) .......................................86
4.4.3.2 Análisis del conjunto de datos obtenido por el método de selección de
atributos GainRatioAttributeEval (GRAE)......................................................................88
4.4.3.3 Análisis del conjunto de datos obtenido por el método de selección de
atributos InfoGainAttributeEval (IGAE)..........................................................................90
4.4.3.4 Análisis del conjunto de datos obtenido por el método de selección de
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
5
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
atributos OneRAttributeEval (ONERAE) .......................................................................91
4.4.4 Selección del mejor modelo y conjunto de datos...............................................92
4.5 Prueba del modelo seleccionado...............................................................................93
4.5.1 Características del set de datos de prueba........................................................94
4.5.2 Desarrollo de las predicciones en la aplicación WEKA con el conjunto de datos
de prueba...........................................................................................................................95
4.5.3 Cálculo del Error Cuadrático Medio (ECM) ........................................................97
5 Conclusiones y trabajo futuro............................................................................................98
5.1 Conclusiones..............................................................................................................98
5.2 Líneas de trabajo futuro ...........................................................................................102
6 Bibliografía .......................................................................................................................103
Anexos ....................................................................................................................................107
Anexo I. Código desarrollado en R para el proceso ETL...................................................107
Anexo II. Cálculo del Error Cuadrático Medio ....................................................................117
Anexo III. Estructura del Logistic Model Tree.....................................................................131
Anexo IV: Código en R y gráfica del árbol generado por el algoritmo rpart ......................132
Anexo V. Reglas de asociación generadas por el algoritmo Apriori ..................................136
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
6
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de tablas
Tabla 1. Exámenes aplicados por el ICFES ............................................................................23
Tabla 2. Sub áreas de evaluación en el examen Saber 11°....................................................26
Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la
prueba .......................................................................................................................................27
Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global.................31
Tabla 5. Características del conjunto de datos ........................................................................37
Tabla 6. Descriptivo de las variables numéricas......................................................................56
Tabla 7. Cantidad de instancias con valores NA y vacíos en el conjunto de datos ................57
Tabla 8. Atributos que harán parte del modelo........................................................................60
Tabla 9. Formateo de valores de los atributos.........................................................................66
Tabla 10. Selección de atributos por los métodos GainRatio, InfoGain y OneR ....................77
Tabla 11. Métricas de los modelos en los diferentes conjuntos de datos ...............................86
Tabla 12. Métricas para el conjunto IGAE................................................................................93
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
7
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de figuras
Figura 1. Fases de la Metodología CRISP-DM........................................................................21
Figura 2. Cuadernillo de respuestas de la prueba Saber 11°..................................................25
Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas ..................29
Figura 4. Descriptores socioeconómicos .................................................................................29
Figura 5. Página del portal de las bases de datos DataIcfes ..................................................34
Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11° .......................................35
Figura 7. Datos cargados en Power BI Desktop......................................................................36
Figura 8. Promedio nacional de los percentiles de las áreas evaluadas ................................40
Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas.......................41
Figura 10. Cantidad de instituciones educativas por naturaleza .............................................41
Figura 11. Cantidad de instituciones educativas por su naturaleza ........................................42
Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias
Naturales y Ciencias Sociales y Ciudadanas...........................................................................43
Figura 13. Percentiles promedio en el área de Inglés y rendimiento global............................44
Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas ............44
Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa .....45
Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas .....45
Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones
educativas .................................................................................................................................46
Figura 18. Número de instituciones educativas por jornada....................................................47
Figura 19. Rendimiento promedio por jornada académica......................................................47
Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda .......................48
Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados ....49
Figura 22. Rendimiento en la prueba en función de la edad ...................................................49
Figura 23. Rendimiento promedio y uso diario de internet en horas .......................................50
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
8
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 24. Promedio de calificaciones de los evaluados de acuerdo al país de residencia ...50
Figura 25. Promedio de calificaciones de la región Caribe .....................................................51
Figura 26. Distribución de los percentiles de las áreas de Lectura Crítica y Matemáticas.....52
Figura 27. Distribución de los percentiles de las áreas de Ciencias Naturales y Ciencias
Sociales y Ciudadanas .............................................................................................................53
Figura 28. Distribución de los percentiles de las áreas de Inglés y el Global de las áreas
evaluadas..................................................................................................................................54
Figura 29. Distribución de la variable EDAD por departamentos ............................................55
Figura 30. Flujo de datos en Tableau Prep..............................................................................66
Figura 31. Conjunto de datos convertido a formato ARFF ......................................................70
Figura 32. Flujo de filtros para eliminar valores atípicos y extremos de la variable EDAD.....71
Figura 33. Atributos creados por el filtro InterquartileRange para eliminar los valores atípicos
y extremos.................................................................................................................................72
Figura 34. Resultado de la categorización del atributo edad en tres rangos ..........................72
Figura 35. Distribución original de las clases...........................................................................74
Figura 36. Distribución de las clases después de aplicar el filtro SMOTE ..............................74
Figura 37. Distribución de las clases después del filtro SpreadSubsample............................75
Figura 38. Estructura de un árbol de decisión .........................................................................79
Figura 39. Estructura general de una red neuronal con capas ocultas...................................80
Figura 40. Matriz de confusión .................................................................................................81
Figura 41. Curva ROC y AUC...................................................................................................84
Figura 42. Flujo de conocimiento aplicado a los conjuntos de datos ......................................85
Figura 43. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
TOTAL33...................................................................................................................................88
Figura 44. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
GRAE ........................................................................................................................................89
Figura 45. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
GRAE ........................................................................................................................................90
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
9
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 46. Visualización de las métricas de los algoritmos aplicados al conjunto de datos
GRAE ........................................................................................................................................91
Figura 47. Curvas ROC y valor de AUC para los algoritmos aplicados al conjunto de datos
IGAE..........................................................................................................................................92
Figura 48. Estrato familiar del conjunto de test........................................................................94
Figura 49. Nivel de educación de los padres ...........................................................................95
Figura 50. Resultado de las predicciones en WEKA...............................................................96
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
10
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Índice de ecuaciones
Ecuación 1. Cálculo Índice General .........................................................................................30
Ecuación 2. Cálculo del índice por área...................................................................................30
Ecuación 3. Fórmula para obtención de valores atípicos v. 1 .................................................70
Ecuación 4. Fórmula para obtención valores atípicos v. 2 ......................................................70
Ecuación 5. Fórmula para valores extremos v. 1.....................................................................71
Ecuación 6. Fórmula para valores extremos v. 2.....................................................................71
Ecuación 7. Selección de atributos por Ratio de Ganancia.....................................................76
Ecuación 8. Selección de atributos por Ganancia de Información ..........................................76
Ecuación 9. Precisión...............................................................................................................82
Ecuación 10. Exhaustividad (Recall) ........................................................................................82
Ecuación 11. F1 o F-Meassure ................................................................................................82
Ecuación 12. Exactitud (Accuracy)...........................................................................................82
Ecuación 13. Tasa de error ......................................................................................................83
Ecuación 14. Área bajo la curva (AUC)....................................................................................83
Ecuación 15. Especificidad.......................................................................................................83
Ecuación 16. Fórmula del Error Cuadrático Medio ..................................................................93
Ecuación 17. Cálculo del Error Cuadrático Medio para datos de prueba ...............................97
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
11
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
1 Introducción
El desarrollo de un país depende de las acciones y decisiones que se toman en concordancia
con el desarrollo de sus habitantes, estos aspectos se relacionan con los objetivos de
desarrollo sostenible (ODS) promulgados en las Naciones Unidas. Este proyecto busca
determinar un modelo predictivo para uno de estos objetivos, la educación de calidad, en el
ciclo de la educación básica secundaria en la región Caribe colombiana; sin embargo,
alcanzar este ODS va a depender del desarrollo y el avance alcanzado en otros, tales como
los relacionados con el fin de la pobreza, el hambre cero, la salud y el bienestar, el trabajo
decente, y el crecimiento económico (López, 2020).
Este trabajo de fin de máster tiene como insumo principal los resultados de la prueba Saber
11° del trienio 2017 - 2019 con el fin de determinar el mejor modelo para predecir el
desempeño de los estudiantes, haciendo uso de los mejores atributos del conjunto de datos,
varios de los cuales presentan una estrecha relación con los objetivos de desarrollo
sostenible.
1.1 Justificación
El estado colombiano, con la finalidad de establecer patrones de medición de las
competencias desarrolladas por los estudiantes del país durante sus diferentes etapas
académicas, reglamenta la Prueba Saber, a cargo del Instituto Colombiano para el Fomento
de la Educación Superior (ICFES), como un instrumento para medir la calidad de la educación
en el país. Este instituto se encarga de evaluar la calidad de la educación en todos los niveles
educativos, teniendo como insumo las bases de datos de las pruebas desarrolladas por los
estudiantes con el fin de apoyar el establecimiento de políticas para mejorar el sistema
educativo (ICFES, 2019a). Sin embargo, la mayoría de las instituciones educativas de la
Región Caribe no cuentan con modelos predictivos que permitan tomar acciones tempranas,
de acuerdo a la caracterización de los atributos socioeconómicos, institucionales y
académicos de los estudiantes de la región; gran parte de los análisis se realizan basados en
análisis descriptivos de los resultados más de la prueba, las instituciones interesadas, por lo
general, no desarrollan modelos de aprendizaje automático para determinar la incidencia que
tienen los factores mencionados anteriormente, tampoco construyen modelos de aprendizaje
automático para la predicción del rendimiento de los estudiantes y estimar los niveles de
desempeño en la prueba. Ante esta situación solo existe un acercamiento realizado por
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
12
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Timarán-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019), en donde desarrollan un modelo
basado en árboles de decisión para clasificar a los estudiantes por encima o por debajo de la
media nacional en los exámenes Saber 11 del año 2016, este estudio no realiza ninguna
comparativa de modelos y no clasificalas instancias de acuerdo a las medidas de desempeño
utilizadas por el ICFES.
Entre las funciones del ICFES no se encuentra la de suministrar a las instituciones educativas
modelos predictivos para la toma temprana de decisiones tendientes a mejorar el desempeño
de los estudiantes, antes de presentar la prueba, de hecho, el último informe publicado en el
año 2018 no evidencia ningún esfuerzo en este sentido y solo se limita a mostrar las
estadísticas descriptivas y comparativas con los resultados del examen Saber 11 del 2016 y
2017 (ICFES, 2019c). La labor de inducción de los datos suministrados por el ICFES, queda
a cargo de las instituciones educativas de básica secundaria y de las instituciones de
educación superior, donde los estudiantes continuaran con sus estudios técnicos,
tecnológicos o profesionales; pero hasta la fecha no se tienen evidencias de alguna institución
educativa que desarrolle este proceso para identificar debilidades, fortalezas o acciones de
intervención con los estudiantes que estarían próximos a presentar el examen.
Para las instituciones educativas de básica secundaria e instituciones universitarias, contar
con un modelo que permita desarrollar predicciones del rendimiento de los estudiantes,
facilitaría establecer acciones de intervención temprana o de seguimiento con el fin de mejorar
los aspectos que puedan tener incidencia en el rendimiento. Las instituciones de educación
superior pueden establecer con estos modelos una serie de reglas para sus programas de
acompañamiento a la permanencia y retención estudiantil con el fin de determinar aquellos
estudiantes que puedan presentar problemas de rendimiento académico durante los primeros
semestres.
1.2 Planteamiento del trabajo
Los atributos que pueden tener incidencia en el rendimiento de los estudiantes pueden ser
muy variados, algunos seescapan del resorte de las instituciones educativas porque entrarían
en el área de las acciones que deben realizar el estado y los propios individuos con miras a
su desarrollo, no obstante, es importante que se puedan identificar aquellos factores en los
que las instituciones puedan establecer tareas de intervención con el fin de mejorar y lograr
un incremento en el deseo del logro académico, aspecto que puede despejar el futuro
profesional de los individuos.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
13
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Ante este panorama se propone identificar, a través del uso del aprendizaje automático, el
mejor modelo que permita identificar aquellos atributos que influyen en el desempeño de la
prueba Saber 11° (clase), con el fin de poder utilizarlo para individualizar aquellos sujetos que
requieran una intervención temprana o posterior y así disponer de una herramienta para
mejorar el desempeño de estos en la prueba o en los niveles posteriores de educación
superior técnica, tecnológica o profesional.
Se hace necesario pues, entender el contexto general de la prueba y la necesidad de medir
la calidad de la educación a través de sus indicadores de desempeño, comprender los
diferentes atributos de los datos disponibles del examen en la región Caribe, realizar el
adecuado proceso de selección de los atributos que van a ser tenidos en cuenta para la fase
de modelado, aplicar los modelos de aprendizaje supervisado J48 (C4.5), LMT, PART y
Multilayer Perceptron con el fin de evaluar cuál realiza una mejor predicción a través de los
mejores atributos socioeconómicos identificados en este proyecto.
1.3 Estructura de la memoria
La presente memoria estará estructurada en las siguientes secciones:
La sección 2 presenta el Contexto y estado del arte hace una revisión de diferentes
investigaciones y trabajos relacionados con el rendimiento de los estudiantes en pruebas
nacionales con referencia a variables como la edad, el sexo, las áreas evaluadas, y otros
aspectos relevantes, desde una óptica general para llegar a contribuciones más relacionadas
con el presente proyecto.
En la sección 3 se enumeran y desarrollan los Objetivos concretos y metodología de trabajo
basada en CRISP-DM con la que se pretende entender el negocio y los datos, preparar,
modelar y evaluar los datos a través de los diferentes algoritmos de aprendizaje automático
desarrollados.
En la sección 4 se realiza el Desarrollo específico de la contribución se desarrollan
ordenadamente los objetivos establecidos bajo la metodología CRISP-DM, se despliegan los
procesos ETL necesarios para contar con un conjunto de datos adecuado que nos permita
desarrollar el entrenamiento, la validación y prueba de los modelos con el fin de seleccionar
el mejor de acuerdo a los resultados obtenidos.
La sección 5 presenta las Conclusiones y Líneas de Trabajo Futuro con el fin de mostrar
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
14
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
los principales aportes del proyecto y la forma en que este puede ser referente para adelantar
otros proyectos de investigación.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
15
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
2 Contexto y estado del arte
Con el fin de verificar que aspectos pueden tener incidencia en el rendimiento académico de
los estudiantes de educación básica secundaria sehan encontrado que ciertas características,
del individuo, del núcleo familiar, el sexo y la edad, son determinantes para el desempeño en
la prueba Saber 11° (Gaviria y Barrientos, 2001; Velasco Rodríguez, 2014). La edad influye
en el rendimiento de la prueba de forma inversamente proporcional lo que implica que las
puntuaciones tienden a disminuir a mayor edad de los evaluados, así mismo es determinante
el sexo del estudiante que presenta la prueba, encontrándose diferencias significativas en el
rendimiento de hombres y mujeres. El informe de Gaviria & Barrientos (2001) va mucho más
allá de las variables mostradas anteriormente, encuentra evidencia de que el calendario
académico, en Colombia se manejan los calendarios A y B1
, de las instituciones educativas y
la naturaleza de las mismas, no tiene incidencia en el rendimiento de los estudiantes, pero,
como era previsible las condiciones académicas y de infraestructura de los colegios privados
y de calendario B tienen una incidencia significativa en aquellos estudiantes que tienen los
mejores rendimientos en la prueba.
Becerra-González y Reidl Martínez (2015), estiman que el sexo de los estudiantes puede
determinar diferencias en el factor de estabilidad ante los aspectos negativos del entorno
escolar y social, los sujetos del género masculino cree que este aspecto afectará su vida
futura; en cuanto al factor edad se encuentra que a mayor edad existe un mayor control en el
aspecto académicoy las evaluaciones negativas; el nivel académicode la figura paterna tiene
relación con las variables de rendimiento de los estudiantes, a mayor nivel de escolaridad del
padre los factores de rendimiento escolar se incrementa al motivar el alcance de logros por
parte de sus hijos, especialmente cuando el padre tiene estudios de posgrado. Este estudio
concluye que no encuentra relación entre el rendimiento de los estudiantes con las variables
sociodemográficas consideradas en los instrumentos, sin embargo, si encuentra relación con
las variables motivacionales de la atribución académica, el logro en la escuela y la eficacia
propia en los aspectos académicos.
Gabalán-Coello y Vásquez-Rizo (2016) correlacionan el desempeño en las áreas de
matemáticas y lenguaje, en una institución universitaria, con el Examen Saber 11°, y el
1
El calendario A inicia actividades escolares en el mes de febrero y el calendario B inicia
jornada en el mes de septiembre.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
16
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
desempeño de asignaturas de diferentes facultades donde son relevantes los componentes
de abstracción y competencias comunicativas; y encuentran que no hay evidencia estadística
que sugiera la existencia de una asociación entre la puntuación de la prueba Saber 11°,
aplicable a los sujetos de estudio, y el rendimiento posterior en las materias relacionadas con
estás áreas específicas.
En cuanto al rendimiento en la prueba Saber 11° por regiones, se ha encontrado que las
diferencias por región han aumentado en los últimos dos decenios y la región Caribe ha
disminuido su desempeño con respecto a los de la ciudad de Bogotá, que es la de mejor
desempeño promedio en Colombia, ocasionando por esto un mejor ejercicio en la región
Andina, esto implica que los estudiantes ubicados en el centro del país tienen cada día mejor
desempeño en la prueba que los ubicados en la periferia de la nación (Rocay Granger, 2019).
El trabajo de grado de maestría de Palacios (2019), evidencia diferencias significativas en la
educación pública y privada, al igual entre los sujetos de evaluación que se encuentran en
poblaciones rurales o urbanas, encontrando que el mejor desempeño en el examen Saber 11°
se da en las zonas urbanas y en los estudiantes que pertenecen a instituciones educativas
privadas, establece conclusiones muy similares a la investigación realizada por Roca y
Granger en cuanto al rendimiento por regiones, es de anotar que este estudio utiliza el análisis
multivariante a través de las técnicas de análisis factorial exploratorio (AFE) y confirmatorio
(AFC), aplicada a la base de datos de resultados nacionales del Instituto de Fomento de la
Educación Superior (ICFES) de las pruebas Saber 11°.
Ante este panorama donde se evidencia la complejidad de tratar de determinar el rendimiento
de los estudiantes, existen varias aproximaciones desde el punto de vista de la inteligencia
artificial para la predicción del rendimiento en las pruebas que miden la calidad de la educación
recibida. Hamsa, Indiradevi y Kizhakkethottam (2016) desarrollan un modelo de predicción del
rendimiento utilizando los algoritmos de árboles de decisión y algoritmos genéticos difusos
(fuzzy genetic), teniendo como sujetos a estudiantes del grado y la maestría de Ciencia de los
Computadores, Electrónica y Comunicaciones, con el fin de tratar de predecir su rendimiento
en los exámenes finales, para esto establecieron dos clases para la aplicación de los
algoritmos de aprendizaje supervisado: aprobado y en riesgo; la aplicación del algoritmo de
árboles de decisión predice una mayor cantidad de instancias “en riesgo” académico que
aquellos que superan la prueba, el algoritmo genético difuso arroja un resultado contrario
porque tiene en cuenta el estado de seguridad mental del estudiante ante los exámenes lo
que hace que la clase con mayor número de instancia clasificadas sea la de “aprobado”.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
17
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Otra investigación tendiente a determinar un modelo de predicción del rendimiento en pruebas
de evaluación, específicamente en el examen final de estudios profesionales bajo la
modalidad e-learning, y la aprobación o no (clase)de las asignaturas impartidas en un periodo
específico, desarrolla siete algoritmos de aprendizaje automático (Random Forest, Support
Vector Regression, BayesianRidge, Stochastic Gradient Descent, Gaussian Process
Regressor, Decision Tree Regressor y Multi-Layer Perceptron), aplicados a tres variantes del
conjunto de datos, se concluye que existe un mejor desempeño en general de los algoritmos
cuando se tienen en cuenta los atributos demográficos y se aplica el algoritmo Support Vector
Regression (Song et al., 2020).
En cuanto al modelado, utilizando datos desbalanceados de un atributo determinante como lo
es el sexo de los participantes, Sapiezynski, Kassarnig, Wilson, Lehmann, y Mislove (2017),
desarrollan un modelo de predicción utilizando el algoritmo Naive Bayes, con presencia
escasa de sujetos del sexo femenino, razón por la cual aplican una validación cruzada del
modelo con solo tres iteraciones para disminuir el bias o sesgo del modelo en cuanto al
atributo del sexo biológico, mejorando la probabilidad de tener, en los datos de entrenamiento
y validación, la presencia de ambos sexos. Los investigadores se valieron de un conjunto de
datos de seguimiento de más de ochocientos individuos con atributos que dan cuenta de
comportamientos y características individuales, el uso de redes para el relacionamiento del
grupo de estudiantes y su rendimiento académico a través de tres clases (bajo, medio y alto).
Encontraron que al reducir las iteraciones necesarias en la validación obtenían valores de
AUC de 0.84 y ROC de 0.67, que puede llevar a concluir que el modelo puede discriminar
entre las clases positivas y negativas en la variable del sexo biológico, dejando en evidencia
que esta estrategia no se puede generalizar para otros conjuntos de datos. La curva ROC
evidencia cómo se comporta el modelo en los umbrales de clasificación determinados por la
tasa de verdaderos positivos y la tasa de falsos positivos, la curva AUC en realidad lo que
muestra es el área bajo la curva ROC que indica la probabilidad de que las predicciones sean
correctas, por lo tanto, un valor de una unidad indicaría que el modelo realiza correctamente
el 100% de las predicciones (Google Developers, s. f.-a).
En el ámbito nacional, Timaran-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019)
desarrollan un modelo de predicción para el rendimiento de los estudiantes en la prueba Saber
11° utilizando como referencia los resultados de las exámenes realizados en 2015 y 2016,
utilizan algunos de los atributos del conjunto de datos suministrado por el ICFES,
desarrollando una clasificación entre aquellos estudiantes que estaban por encima o por
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
18
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
debajo de la media nacional. Para esto utilizaron únicamente el algoritmo de árboles de
decisión como técnica de aprendizaje automático con una exactitud del 67% en la predicción
del rendimiento en la prueba, utilizando una validación cruzada del modelo. Los atributos con
mayor ganancia de información, determinantes en el buen desempeño en la prueba, tienen
que ver con los atributos relacionados con el estrato socioeconómico superior o de nivel
medio, el tipo de jornada matutina o extendida en que se desarrollan las clases, el índice TIC
medio-bajo y las edades inferiores a los dieciocho años; en el caso del bajo rendimiento, los
atributos que tienen una ganancia de información mayor son los que tienen que ver con los
estratos socioeconómico y el índice TIC en los rangos bajos y el nivel 1 de clasificación en el
Sistema de Selección de Beneficiarios para los Programas Sociales (SISBEN). Este estudio
no tuvo en cuenta la forma como el ICFES clasifica los rendimientos de los estudiantes, las
diferencias regionales, y no desarrolló el entrenamiento y validación con otros algoritmos de
aprendizaje automático, este modelo desarrollado puede verse afectado por el alto
rendimiento promedio de la región andina.
Estos antecedentes van a permitir establecer la relevancia de los atributos del conjunto de
datos de la prueba Saber 11° del trienio 2017 - 2019, se evidencia que se deben tener en
cuenta varios atributos sociodemográficos comola edad, el sexo, el estrato, el nivel de estudio
de los padres, etc. Además, las aproximaciones realizadas a nivel nacional pueden verse
influenciadas por el rendimiento en la prueba en las otras regiones del país, especialmente de
la región andina, esto evidencia que es mejor trabajar con modelos regionales de predicción
del rendimiento de los estudiantes debido a la similitud en las condiciones socioeconómicas.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
19
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
3 Objetivos concretos y metodología de trabajo
3.1 Objetivo general
Desarrollar la evaluación de cuatro modelos de aprendizaje automático del rendimiento de los
estudiantes de la región Caribe colombiana con base a los resultados de la prueba Saber 11°
del trienio 2017 – 2019, utilizando la metodología CRISP-DM con el fin de disponer de una
herramienta para la predicción temprana del desempeño de los evaluados.
3.2 Objetivos específicos
 Determinar las particularidades de la prueba Saber 11° con el fin de evidenciar las
características más importantes del examen y elaborar un plan para el tratamiento de
los datos.
 Analizar el conjunto de datos suministrado por el ICFES de la prueba Saber 11° del
trienio 2017 - 2019 de tal forma que se determinen la calidad de los datos, la necesidad
de procesos ETL y conocer los metadatos de los atributos.
 Establecer que atributos se van a tener en cuenta en los modelos de predicción con el
fin de realizar los procesos de extracción, transformación y limpieza que sean
indispensables.
 Desarrollar el proceso de modelado utilizando las técnicas de aprendizaje automático
de árboles de decisión J48, LMT, reglas de decisión PART y redes neuronales
(Multilayer Perceptron).
 Evaluar el rendimiento de los modelos de predicción del desempeño de los estudiantes
con la finalidad de determinar aquel o aquellos que tengan las mejores métricas de
desempeño.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
20
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
3.3 Metodología del trabajo
3.3.1 Tipo de Investigación
Esta investigación es de tipo mixto y transversal, donde se van a determinar las características
y cualidades relacionadas con la prueba Saber 11º, utilizando procesos de inducción propios
de los algoritmos de aprendizaje automático, los datos se van a caracterizancuantitativamente
y en consecuencia se utiliza el enfoque exploratorio propio de la metodología CRISP-DM.
3.3.2 Universo y Muestra
El universo de la investigación son los datos suministrados por el ICFES de los resultados de
la prueba Saber 11° de los estudiantes colombianos. La muestra está conformada por los
datos de los resultados de los estudiantes de la región Caribe correspondientes a los años
2017 a 2019, que superan el proceso de extracción, transformación y limpieza (ETL).
3.3.3 Fuentes de información
Fuentes primarias: conjunto de datos y demás documentos que se encuentran disponibles
en las bases de datos del ICFES relativos a la prueba Saber 11°, tales como guías de
orientación, diccionario de datos, descriptores y documentación en general.
Fuentes secundarias: información científica y técnica relacionada con la prueba o los
atributos de estas, artículos de prensa, información del Ministerio de Educación Nacional de
Colombia y del Instituto Colombiano para la Evaluación de la Educación Superior, manuales
de las herramientas que se van a utilizar para desarrollar los diferentes procesos necesarios
para el desarrollo de la metodología CRISP-DM, etc.
3.3.4 Metodología de desarrollo
Este proyecto se desarrollará haciendo uso de la metodología CRISP-DM (Cross Industry
Process Model for Data Mining) que sigue un enfoque orientado a metas, es un enfoque
maduro que sigue teniendo mucha aceptación en los proyectos de minería de datos a través
de algoritmos de aprendizaje automático (Ayele, 2020). Esta metodología provee un enfoque
de ciclo de vida en proyectos aplicados de inteligencia artificial (Wirth y Hipp, 2000) y se
considera como la metodología ideal para el proceso de descubrimiento de conocimiento en
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
21
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
bases de datos (KDD) (Martinez-Plumed et al., 2019). En la figura 1 se pueden ver las
diferentes fases de la metodología y la relación que hay entre ellas, obviando la fase final de
implementación que no va a ser desarrollada en este proyecto.
Figura 1. Fases de la Metodología CRISP-DM
Fuente: Elaboración propia, adaptado de Wirth & Hipp (2000)
Las fases de la metodología tienen las siguientes características (Gironés-Roig, Casas-Roma,
Minguillón-Alfonso, y Caihuelas-Quiles, 2017):
 FASE I. Entenderelnegocio: sedebe concretarcuáles son los objetivos del proceso
de análisis de datos desde el punto de vista de su utilidad para el negocio. Es
importante conocer el punto de partida situacional respecto a estos objetivos con el
fin de reconocer los recursos con los que se cuenta, los requisitos y límites. Este
análisis previo permitirá determinar las actividades que se deben desarrollar para el
alcance de los objetivos del proyecto de análisis de datos.
 FASE II. Entender los datos: en esta fase es necesario familiarizarse con los datos,
con su estructura, conocer los metadatos, que problemas pueden tener y la forma de
mitigar estos inconvenientes. Esta fase determina la calidad de los datos con que
contamos para las posteriores fases, por lo tanto, en se deben extraer los datos,
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
22
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
caracterizarlos y explorarlos para determinar las no conformidades y la forma de
solucionarlas.
 FASE III. Preparar los datos: en esta fase se debe construir el conjunto de datos
definitivo que va a ser utilizado en las siguientes etapas de la metodología CRISP-
DM, se deben identificar los atributos que son relevantes para cumplir los objetivos
del proyecto, de ser necesario se puede contemplar en esta fase usar técnicas de
muestreo y de selección de atributos.
 FASE IV. Modelar:al finalizar esta fase hay que identificar uno o varios modelos que
satisfagan los objetivos que se han establecido para el negocio, para esto se deben
aplicar varios algoritmos de aprendizaje automático, supervisados o no supervisados,
con el fin de escoger el o los algoritmos que tengan el mejor desempeño en la
clasificación, asociación o agrupamiento de los datos. En esta fase se pueden utilizar
diferentes algoritmos que conlleven al mismo fin de análisis.
 FASE V. Evaluar: se valora en qué grado el modelado responde o no a las
necesidades plasmadas en la fase I, determinando si el modelo es eficiente o
ineficiente. Es también una etapa de descubrimientos donde se evidencia que otros
elementos del proceso permiten alcanzar las metas del negocio o ameritan ser
resaltadas para un desarrollo futuro más amplio.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
23
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4 Desarrollo específico de la contribución
4.1 Generalidades del examen Saber 11°
El gobierno de Colombia a través del Instituto Colombiano para la Evaluación de la Educación
Superior (ICFES) se encarga de determinar los factores que tienen incidencia en la calidad de
la educación en todos los diferentes grados: primaria, secundaria, media y superior. La
siguiente tabla muestra los diferentes tipos de exámenes que desarrolla el ICFES en cada
nivel educativo con el fin de hacer vigilancia de la calidad de la educación y de las instituciones
educativas.
Tabla 1. Exámenes aplicados por el ICFES
PRIMARIA Y
SECUNDARIA
MEDIA SUPERIOR
Saber 3°, 5° y 9°
Avancemos 4°, 6° y
8°
Presaber
Saber 11°
Validación del
bachillerato
Saber T y T
Saber Pro
Saber T y T y Saber
Pro en el exterior
Fuente: Elaboración propia con información del portal del ICFES (ICFES, s. f.).
Otra función del ICFES, además de aplicar la prueba y consolidar los datos, es hacerlos
públicos para que los actores del proceso educativo los puedan someter a análisis con los
propósitos que cada quien estime conveniente en beneficio de la educación y del entorno de
los estudiantes colombianos, al igual que son insumos para reevaluar la infraestructura
educativa y los procesos de enseñanza-aprendizaje. El ICFES además de consolidar la
información estadística de la prueba, también se encarga de informar a los estudiantes los
resultados consolidados y discriminados por área de conocimiento, además de comunicar al
sistema educativo las categorías de las instituciones de acuerdo al rendimiento de los
evaluados en la prueba.
4.1.1 Antecedentes
La prueba se aplica de forma semestral, por lo general en los meses de marzo y agosto, con
la finalidad de que los estudiantes de los calendarios A y B puedan desarrollar sus exámenes
al culminar sus estudios de educación media. Sus resultados, junto con la información que
entregan los estudiantes y las instituciones educativas de las que proceden, permiten vigilar
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
24
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
la calidad de la educación ofrecida por las instituciones y tener información que puede ser
valiosa para el ciclo posterior de educación superior. A esta prueba se pueden presentar los
estudiantes activos en grado 11 de educación media, estudiantes que se encuentran
validando el bachillerato e individuos que hayan obtenido anteriormente su título de bachiller
pero que necesiten obtener o mejorar los resultados en las pruebas.
Inicialmente, en el año 1968, la prueba se desarrollaba para apoyar los procesos de ingreso
a la educación superior, pero no era requisito para ingresar a los diferentes programas
ofrecidos por las instituciones de educación superior. A partir del año 1980, presentar los
resultados de la prueba se vuelve obligatorio para ingresar a la educación superior técnica,
tecnológica o profesional, se convierte en un referente de la calidad de la educación por el
Decreto 2343 de 1980 que reglamenta los exámenes de estado para el ingreso a la educación
superior.
Cuando se comienza a implementar la educación basada en competencias en el año 2000, el
examen se adapta a este paradigma y pretende medir el grado en que los estudiantes
alcanzan las competencias en las áreas que son evaluadas. El Ministerio de Educación
Nacional es el ente encargado de desarrollar los estándares básicos de competencias que
sirven como base para que el ICFES realice la labor de diseño del examen. En la segunda
parte del año 2014, con la intención de consolidar un Sistema Nacional de Evaluación
Estandarizada (SNEE), el diseño de las pruebas Saber se homogeniza con el fin de poder
comparar el avance en las competencias genéricas evaluadas en las diferentes áreas de las
pruebas Saber aplicadas en todos los niveles de educación.
4.1.2 Áreas de evaluación
La prueba se conforma por preguntas cerradas que deben ser diligenciadas por los evaluados
en una hoja de respuesta utilizando exclusivamente lápiz de grafito, además no se pueden
usar calculadoras en su desarrollo. En la figura 2 se puede ver un ejemplo de una hoja de
respuestas de la prueba y un acercamiento a los ítems de respuesta de la prueba, las opciones
de rellenado se distribuyen en columnas con filas numeradas y la respectiva identificación de
la sesión que se está evaluando, en la parte inferior se encuentra el cuestionario
socioeconómico que hace parte de la mayoría de los atributos del conjunto de datos.
Por lo general, en el primer semestre se evalúa a los estudiantes de calendario “B”, el grupo
menos numeroso, y en el segundo semestre los de calendario “A”, a los que pertenecen la
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
25
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
gran mayoría de los estudiantes de grado 11. En la tabla 2 se puede ver la evolución de las
áreas evaluadas en la prueba, en especial los cambios que tuvieron lugar después de la
implementación del SNEE en el año 2014, se puede distinguir las diferentes sub áreas que se
evalúan y la evolución que han tenido en el tiempo. Se evidencia que a partir del segundo
semestre del año 2014 las sub áreas de Lenguaje y Filosofía se fusiona en la sub área de
Lectura Crítica, la de Matemáticas se complementa con ítems que buscan medir las
competencias en razonamiento cuantitativo, las sub áreas de Física, Química y Biología se
fusionan en una de Ciencias Naturales, las de Historia y Geografía primero se fusionan como
Ciencias Sociales y en el 2014 se adicionan las competencias ciudadanas, y por último la
segunda lengua evaluada a partir del 2006 es exclusivamente el idioma inglés (MEN, 2017).
Figura 2. Cuadernillo de respuestas de la prueba Saber 11°
Fuente: Guía de orientación Saber 11° (ICFES, 2019a)
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
26
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Tabla 2. Sub áreas de evaluación en el examen Saber 11°
2000 1S – 2005 2S 2006 1S – 2014 1S 2014 2S – Actualidad
Lenguaje
Filosofía
Lenguaje
Filosofía
Lectura crítica
Matemáticas Matemáticas Matemáticas (incluyendo
Razonamiento Cuantitativo)
Física
Química
Biología
Física
Química
Biología
Ciencias Naturales
Historia Ciencias Sociales Sociales y Ciudadanas
Geografía
Idioma Inglés Inglés
Fuente: Guía del Usuario Saber 11° (ICFES, 2018)
4.1.3 Propósitos del examen
A través de su evolución en el tiempo el examen ha tenido varios fines u objetivos, entre los
cuales podemos mencionar (ICFES, 2019b):
 Determinar el alcance de las competencias de los discentes que van a finalizar su
bachillerato.
 Brindar una herramienta que permita a los examinados verificar su avance con
respecto a sus aspiraciones en la vida.
 Servir como base a las instituciones educativas para desarrollar planes de
acompañamiento en educación superior, desempeños mínimos en la prueba para
aspirar cupos en su oferta profesional y establecer acciones que puedan evitar la
deserción temprana.
 Medir la calidad de la educación en las instituciones de educación media de acuerdo
a los patrones de aptitud y referentes de calidad del Ministerio de Educación Nacional.
 Ofrecer los datos para que sirvan en la implementación de indicadores de eficiencia
en el servicio educativo que pueda interesar como base para el control estatal y
ciudadano de la calidad de la educación.
 Permitir que las instituciones educativas usen los datos para desarrollar procesos de
autoevaluación que permitan mejorar y orientar sus procesos de enseñanza-
aprendizaje.
 Servir como base para el establecimiento de políticas públicas a nivel nacional,
regional y local por parte de las entidades que propenden por el servicio educativo.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
27
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4.1.4 Competencias evaluadas y niveles de mediciónen las áreasde
la prueba
La tabla 3 muestra las competencias evaluadas y los niveles de medición en cada área del
conocimiento que se evalúa en la prueba Saber 11°:
Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la prueba
ÁREA COMPETENCIAS EVALUADAS NIVELES DE MEDICIÓN
Lectura crítica  Identificar y entender los
contenidos locales que
conforman un texto.
 Comprender como se articulan
las partes de un texto para
darle un sentido global.
 Reflexionar a partir de un texto
y evaluar su contenido. Nominal ordinal (basado en
percentiles)
 0 – 40: Insuficiente
 41 – 68: Mínimo
 69 – 80: Satisfactorio
 81 – 100: Avanzado
Matemáticas  Interpretación y evaluación.
 Formulación y ejecución.
 Argumentación.
Sociales y
ciudadanas
 Pensamiento social.
 Interpretación y análisis de
perspectivas.
 Pensamiento reflexivo y
sistémico.
Ciencias naturales  Uso comprensivo del
conocimiento científico.
 Explicación de fenómenos.
 Indagación.
Inglés  Se evalúan las competencias
de acuerdo con el Marco
Común Europeo de Referencia
para las lenguas (MCER).
Nominal ordinal
 A-
 A1
 A2
 B1
 B+
También tiene su
equivalente a percentiles
Fuente: Elaboración propia a partir de la Guía de orientación Saber 11° (ICFES, 2019a)
Comose puede observar los valores de cada nivel ordinal en todas las áreas evaluadas siguen
la misma escala, a excepción del área de inglés que presenta la escala MCER modificada,
dado que se agrega el nivel A- que corresponde a los estudiantes que no alcanzan el nivel
básico A1, y el nivel B+ implica aquellos estudiantes que clasifican en este nivel o un nivel
superior del idioma.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
28
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
La valoración total de la prueba es de tipo numéricoy tiene el mismonivel de medición nominal
ordinal de las áreas del conocimiento, para el presente proyecto va a ser el atributo que
contendrá la clasificación de las diferentes instancias de los modelos de predicción del
rendimiento que se van a evaluar.
4.1.5 Índice de necesidades socioeconómicas (INSE)
El ICFES ha desarrollado un indicador que permite clasificar a los participantes de acuerdo al
resultado del cuestionario socioeconómico que se aplica a la prueba. Está basado en las
teorías de Coleman, Bradley & Corwyn (1988) de la relación de los capitales físicos, human
os y sociales y su relación con la sensación de bienestar de los individuos. La
metodología de cálculo de este índice ha permitido categorizar a los estudiantes en el índice
NSE toma los valores de uno a cuatro, siendo estos los extremos los evaluados con alto y alto
bajo nivel de necesidades socioeconómicas insatisfechas.
En los años 2009 a 2012, este índice se calculaba usando los lineamientos de los métodos
multivariantes, utilizados por la Dirección Nacional de Planeación (DNP), sobre los atributos
que hacen parte del aspecto socioeconómico de los evaluados y su entorno familiar. Desde
el año 2012 el cálculo de este índice se desarrolla utilizando la metodología de la Teoría de
Respuesta al Ítem que permite que se tenga una escala de medición comparable entre
periodos. Con el fin de determinar un conjunto reducido de atributos que tengan un aporte de
información significativo para la medición del nivel socioeconómico se utiliza en análisis de
componentes principales, esto hace que el nivel socioeconómico (NSE) sea comparable entre
periodos o aplicaciones de la prueba. El INSE, de tipo numérico,se emplea comoinsumo para
categorizar los atributos en el NSE de los participantes (ICFES, 2019d). En las figuras 3 y 4,
muestran los intervalos del INSE que sirven para definir el NSE, este último es resultado de
la aplicación de algoritmos de árboles de decisión para clasificar a los evaluados en alguna
de las cuatro categorías.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
29
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas
Fuente: ICFES (2019d)
Figura 4. Descriptores socioeconómicos
Fuente: ICFES (2019d)
4.1.6 Clasificación de planteles educativos
El rendimiento de los estudiantes, además de reflejar el grado de desarrollo de las
competencias de los estudiantes en las diferentes áreas de conocimiento evaluadas, permite
también caracterizarla calidad de los planteles educativos y esto a suvez define el incremento
máximo en el valor de las matrículas y pensiones para el año posterior al desarrollo de la
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
30
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
prueba, estos incrementos se realizan dos veces en el año dependiendo de la jornada
académica de las instituciones.
La clasificación de las instituciones educativas tiene en cuenta el resultado de los estudiantes
en las cinco áreas del conocimiento que se evalúan en la prueba, utilizando un indicador de
Índice General (IG) que se calcula tal como semuestra en las ecuaciones 1 y 2, y no solamente
tiene en cuenta la media de las calificaciones sino también la varianza de las mismas, para tal
efecto únicamente se tienen en cuenta el 80% de las mejores calificaciones en cada área sin
incluir a los evaluados que se encuentran repitiendo la prueba y excluyendo a los estudiantes
con algún tipo de capacidades especiales (para no usar el término discapacidad que utiliza la
fuente) que tomen una versión modificada de la prueba (ICFES, 2014).
Para calcular el Índice General se utiliza la siguiente fórmula:
𝐼𝐺 =
(3𝐼𝑀
) + (3𝐼𝐿𝐶
) + (3𝐼𝐶𝑁
) + (3𝐼𝑆𝐶𝐶
) + (3𝐼𝐼
)
13
Ecuación 1. Cálculo Índice General
Cada uno de los índices de cada área se calculan utilizando la siguiente ecuación:
𝐼𝑃 =
𝜇𝑖
1 − 𝜎𝑖
2
Ecuación 2. Cálculo del índice por área
Donde:
𝜇𝑖: media de los puntajes en la prueba i
𝜎𝑖
2
: varianza de los puntajes en la prueba i
La aplicación de estas ecuaciones permite clasificara los colegios en cinco categorías, siendo
la categoría A+ la evaluación más alta para las instituciones de educación básica. La relación
entre estas categorías y el Índice General se puede observar en la tabla 4.
De ahí la importancia que las instituciones educativas, en especial las de origen privado, le
dan al rendimiento de sus estudiantes en la prueba, con el propósito de mejorar sus resultados
estas desarrollan capacitaciones y simulacros previos con el fin de poder identificar aspectos
para mejorar el rendimiento en la prueba.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
31
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global
Categoría Rango del Índice General
A+ IG > 0.77
A 0.72 < IG ≤ 0.77
B 0.67 < IG ≤ 0.72
C 0.62 < IG ≤ 0.67
D 0 ≤ IG ≤ 0.77
Fuente: Portal del ICFES (2010)
4.1.7 Becas por el rendimiento en las pruebas Saber 11°
Además, del beneficio económicoque les puede representar a las instituciones educativas las
alzas anuales en matrículas y pensiones de acuerdo a la categoría alcanzada por los
resultados en las pruebas, los estudiantes con los mejores puntajes pueden acceder a
diferentes estímulos becarios para poder estudiar sus pregrados en las diferentes instituciones
de educación superior que tiene el país.
Los mejores bachilleres, galardonados a través de resolución por el Ministerio de Educación
Nacional con la distinción “Andrés Bello”, reciben subsidios de matrículas y de sostenimiento
en la institución de educación superior donde superen el proceso de admisión. El subsidio de
sostenimiento dependerá de la ubicación de su lugar de residencia y la sede de la institución
educativa donde van a continuar sus estudios, este subsidio estaría entre uno y cuatro salarios
mínimos legales vigentes (SMLV) (ICETEX, 2020).
Además del beneficio anterior, el actual gobierno estableció un programa para que los
estudiantes del país tengan accesoa la educación superior, el programa se llama “Generación
E”, que en gobiernos anteriores se conocía como “Ser Pilo Paga”, con la diferencia en que en
el nuevo programa se aumenta la cantidad de usuarios beneficiados debido a la asignación
de un presupuesto nacional importante. El programa maneja dos opciones: Generación E
Excelencia Nacional, y Generación E Equidad; el ICFES en el conjunto de datos de los
resultados de las pruebas específica a cuál de las modalidades puede aspirar el evaluado si
cumple con: las condiciones de puntaje total en la prueba, puntajes máximos en el SISBEN,
estar dentro de los 10 mejores puntajes de departamentos seleccionados, rango de edad, etc.
Este programa condona el 100% de los costos a los estudiantes que se matriculen en
instituciones de educación superior públicas y 75% para quienes acudan a las instituciones
privadas (Cepeda, 2019).
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
32
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
4.1.8 Actividades para validación de los modelos de rendimiento en
la prueba
De acuerdo a lo que se ha visto en este capítulo, el rendimiento de la prueba puede ser
analizado desde varios puntos de vista, el primero es desde la óptica del rendimiento en cada
prueba, y el segundo desde el rendimiento global de la misma. Otro enfoque interesante es
determinar un modelo que permita predecir la categoría de las instituciones educativas
haciendo un cruce entre los conjuntos de datos de los resultados de los estudiantes en la
prueba, con el de la categorización de los colegios de Colombia. Es claro que el objetivo
principal del ICFES y de las instituciones educativas es incrementar el desempeño en la
prueba saber 11°, lo cual repercutiría en la percepción de la calidad de la educación del país,
evidenciando mejoras en los procesos académicos y de enseñanza, incremento en la calidad
de las instituciones educativas de educación básica y jalonaría el desempeño en la prueba
PISA, donde Colombia ocupó en el año 2019 una de las la últimas posiciones de los países
de la OCDE, quedando por debajo de la media de los resultados de estos en las áreas
evaluadas de lectura, matemáticas y ciencias; la OCDE infiere que el nivel socioeconómico
tiene una gran influencia en los resultados de la prueba PISA.
Para este proyecto se establecerán tres modelos de predicción con el fin de determinar el que
presente las mejores métricas para el rendimiento de los estudiantes en la prueba en la región
Caribe colombiana, el rendimiento es una función de los atributos que hacen parte del
cuestionario sociodemográfico y aquellos relacionados con las instituciones educativas.
Por lo anterior, se hace necesario desarrollar las siguientes actividades con el fin de validar
los modelos y encontrar el que mejor se ajuste a los atributos del conjunto de datos:
 Obtención de los datos desde el sistema de bases de datos del ICFES de los años
2017 a 2019.
 Filtrado de los datos por los departamentos de la región Caribe: Atlántico, Bolívar,
César, Córdoba, La Guajira, Magdalena, San Andrés y Sucre.
 Extracción de los datos pertinentes, transformación y limpieza.
 Integración de los datos en un solo conjunto de datos.
 Selección de los atributos y las instancias que van a hacer parte de los modelos.
 Aplicación de algoritmos de aprendizaje automático de árboles de decisión (J48 y
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
33
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
LMT), de reglas (PART) y de redes neuronales (MLP).
 Elección y aplicación del método de validación del modelo.
 Análisis de las métricas para determinar el mejor modelo con el que se puede predecir
el rendimiento en la prueba Saber 11°.
4.2 Conjunto de datos de la prueba Saber 11°
El ICFES pone a disposición de los interesados las bases de datos de las pruebas que aplica
a nivel nacional, este servicio de datos recibe el nombre de “DataIcfes” y se encuentra ubicado
en la URL https://www.icfes.gov.co/investigadores-y-estudiantes-posgrado/acceso-a-bases-
de-datos. Para poder hacer uso de esta base de datos los interesados deben registrarse
suministrando sus nombres y una dirección de correo electrónico, una vez sea aprobada su
solicitud el sistema envía una contraseña para poder acceder al sistema y desarrollar las
consultas necesarias.
4.2.1 Ingreso al portal DataIcfes
En la figura 5 se puede observar la página de acceso al portal DataIcfes, para ingresar se
puede solicitar una contraseña para el acceso a la base de datos de las diferentes pruebas
aplicadas por el ICFES, una vez se ha ingresado a la base de datos se despliega un servicio
de almacenamiento en la nube de Microsoft OneDrive.
Se permite el uso de los datos disponibles en el repositorio DataIcfes para propósitos
investigativos, durante el desarrollo de la prueba se solicita a los estudiantes permiso para el
uso de datos personales como sus nombres y apellidos, dirección, fecha de nacimiento,
número de identificación, correo electrónico, números de contacto (estos datos no se hacen
públicos y son de conocimiento exclusivo del ICFES), y los datos socioeconómicos que son
diligenciados durante la prueba; previamente los datos de las instituciones educativas han
sido recopilados durante el registro que hacen los planteles educativos. Los usuarios de los
datos no pueden hacer pública la información personal de los estudiantes o perfilamientos sin
permiso expreso de los interesados de acuerdo a lo dispuesto en el decreto ley 1377 del 27
de junio del año 2013 el cual reglamenta la Ley 1581 del año 2012 en cuanto a las
autorizaciones para el tratamiento, las políticas de tratamiento, los derechos de los titulares,
las transferencias y transmisiones y la responsabilidad ante los datos privados.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
34
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 5. Página del portal de las bases de datos DataIcfes
Fuente: ICFES
El presente proyecto no requirió al ICFES los datos personales de los evaluados, ni desarrolló
perfilamiento alguno que permitan identificar unívocamente a los titulares de la información
reflejada en las instancias del conjunto de datos.
Una vez que se ha ingresado al sistema y a la carpeta Saber 11, ver figura 6, se tiene acceso
al árbol de directorios con información pertinente a la prueba, estructurada de la siguiente
forma:
1. Guía del usuario del portal DataIcfes en PDF.
2. Documentos, tales como la documentación Saber 11°, documentación referente al
cálculo del INSE (Índice del Nivel Socioeconómico) y la metodología para la
clasificación de planteles educativos.
3. Resultados Saber 11°, desde el año 2000 al 2019 para los dos calendarios académicos
de cada año comprimidos en ZIP.
4. Clasificación de Planteles, desde el año 2001 comprimidos en ZIP.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
35
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11°
Fuente: Portal DataIcfes
4.2.2 Extracción de los datos
Una vez que se ha identificado el origen de los datos se proceden a descargar los
correspondientes a los resultados del examen en los años 2017, 2018 y 2019. El proceso de
carga se intenta desarrollar por OpenRefine y EmEditor, OpenRefine tiene problemas de
memoria con la data más extensa correspondiente al calendario A, EmEditor carga los datos,
pero se observan algunas instancias que no pueden manejar el separador “¬” utilizado en los
archivos de texto; se hace la carga con éxito en la aplicación Power BI Desktop tal como se
muestra en la figura 7.
Para cada año se publican dos conjuntos de datos diferentes, uno de la prueba aplicada en el
mes de marzo y otro de la prueba del mes de agosto, para un total de seis conjuntos de datos
para el trienio 2017 - 2019. Una vez los datos de los resultados se encuentran cargados en
Power BI, se anexan las consultas en una sola tabla, seguidamente se hace necesario
convertir a tipo fecha el campo “PERIODO” que es de tipo texto con la finalidad de que se
tenga esta referencia para el cálculo posterior de la edad de los evaluados de acuerdo a su
fecha de nacimiento.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
36
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 7. Datos cargados en Power BI Desktop
Fuente: Elaboración propia
4.2.3 Descripción del conjunto de datos
El conjunto de datos se divide en seis bloques o dimensiones, estos bloques son:
 Información personal
 Información de contacto
 Información socioeconómica
 Información del colegio
 Datos de citación y resultados
Originalmente, cada conjunto de datos por periodo está compuesto por 71 atributos, sin tener
en cuenta los atributos de tipo identificador, tales como los códigos de la distribución
geográfica, códigos de exámenes, etc. Desde el segundo periodo del año 2018 se implementa
en Colombia el programa “Generación E” como una mejora al programa “Ser Pilo Paga”, por
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
37
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
eso al momento de integrar los seis conjuntos de datos los atributos se incrementan a 72,
adicionalmente se generará el atributo derivado EDAD que se obtiene de la diferencia de la
fecha de aplicación del examen y la fecha de nacimiento del evaluado, lo que nos incrementa
el número de atributos a 73. En cuanto al número de instancias, una vez que se integran las
tablas de los resultados del 2017 al 2019, se cuenta con 1,689,010 instancias y una vez que
se filtran las instancias pertenecientes a los departamentos de la región Caribe el número de
instancias disminuye a 381,782.
Cómo se observa en la tabla 5, no se puede identificar a los participantes de la prueba dado
que el ICFES, previamente a la publicación en el repositorio DataIcfes, ha anonimizado los
datos de acuerdo a los lineamientos legales de la Ley 1581 de 2012 y el Decreto Ley 1377 de
2013.
Tabla 5. Características del conjunto de datos
DIMENSIÓN ATRIBUTOS Tipo Descripción
INFORMACIÓN
PERSONAL
ESTU_TIPODOCUMENTO Nominal
Tipo de
documento
ESTU_NACIONALIDAD Nominal Nacionalidad
ESTU_GENERO Nominal Género
ESTU_FECHANACIMIENTO Fecha
Fecha de
nacimiento
PERIODO Nominal
Periodo de
presentación
ESTU_ESTUDIANTE Nominal
Tipo de
inscripción
ESTU_PAIS_RESIDE Nominal
País de
residencia
ESTU_ETNIA Nominal Grupo étnico
INFORMACIÓN DE
CONTACTO
ESTU_DEPTO_RESIDE Nominal
Departamento
residencia
ESTU_MCPIO_RESIDE Nominal
Municipio de
residencia
INFORMACIÓN
SOCIOECONÓMICA
FAMI_ESTRATOVIVIENDA Nominal
Estrato
socioeconómico
de la vivienda
FAMI_PERSONASHOGAR Nominal
Número de
personas en el
hogar
FAMI_CUARTOSHOGAR Nominal
Número de
cuartos
(habitaciones)
FAMI_EDUCACIONPADRE Nominal
Nivel educativo
del padre
FAMI_EDUCACIONMADRE Nominal
Nivel educativo
de la madre
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
38
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
DIMENSIÓN ATRIBUTOS Tipo Descripción
FAMI_TRABAJOLABORPADRE Nominal
Labor del trabajo
del padre
FAMI_TRABAJOLABORMADRE Nominal
Labor del trabajo
de la madre
FAMI_TIENEINTERNET Booleano
Disponibilidad de
Internet
FAMI_TIENESERVICIOTV Booleano
Servicio de
televisión cerrada
FAMI_TIENECOMPUTADOR Booleano
Tiene
computadora
FAMI_TIENELAVADORA Booleano Tiene lavadora
FAMI_TIENEHORNOMICROONGAS Booleano
Tiene horno
microondas o de
gas
FAMI_TIENEAUTOMOVIL Booleano Tiene automóvil
FAMI_TIENEMOTOCICLETA Booleano Tiene motocicleta
FAMI_TIENECONSOLAVIDEOJUEGOS Booleano
Tiene consola de
videojuegos
FAMI_NUMLIBROS Nominal
Cantidad de
libros,revistas y
similares en el
hogar
FAMI_COMELECHEDERIVADOS Nominal
Veces por
semana que
consume
derivados lácteos
FAMI_COMECARNEPESCADOHUEVO Nominal
Veces por
semana que
consume
pescado y huevo
FAMI_COMECEREALFRUTOSLEGUMBRE Nominal
Veces por
semana que
consume
cereales – frutas
– legumbres
FAMI_SITUACIONECONOMICA Nominal
Percepción de la
situación
económica
respecto al año
anterior
ESTU_DEDICACIONLECTURADIARIA Nominal
Horas dedicadas
a la lectura por
semana
ESTU_DEDICACIONINTERNET Nominal
Horas de uso de
internetpor día
ESTU_HORASSEMANATRABAJA Nominal
Horas de trabajo
por semana
ESTU_TIPOREMUNERACION Nominal
Tipo de
remuneración por
las horas
trabajadas
INFORMACIÓN DEL COLE_NOMBRE_ESTABLECIMIENTO Nominal Nombre del
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
39
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
DIMENSIÓN ATRIBUTOS Tipo Descripción
COLEGIO establecimiento
COLE_GENERO Nominal
Género de la
población de
estudiantes del
colegio
COLE_NATURALEZA Nominal Naturaleza legal
COLE_CALENDARIO Nominal
Calendario
académico
COLE_BILINGUE Booleano
Educación
bilingüe
COLE_CARACTER Nominal Carácter
COLE_NOMBRE_SEDE Nominal
Nombre de la
sede
COLE_SEDE_PRINCIPAL Booleano
Indica si la sede
es la principal
COLE_AREA_UBICACION Nominal
Área de
ubicación del
colegio
COLE_JORNADA Nominal Jornada
COLE_MCPIO_UBICACION Nominal
Municipio de
ubicación
COLE_DEPTO_UBICACION Nominal
Departamento de
ubicación
DATOS DE
CITACIÓN
ESTU_PRIVADO_LIBERTAD Booleano
Condición judicial
del evaluado
ESTU_MCPIO_PRESENTACION Nominal
Municipio de
presentación
ESTU_DEPTO_PRESENTACION Nominal
Departamento de
presentación
RESULTADOS
PUNT_LECTURA_CRITICA Numérico
Puntajes,
percentiles y
desempeño en
las áreas de
lectura crítica,
matemática,
ciencias
naturales,
ciencias sociales
y ciudadanas,e
inglés
PERCENTIL_LECTURA_CRITICA Numérico
DESEMP_LECTURA_CRITICA Numérico
PUNT_MATEMATICA Numérico
PERCENTIL_MATEMÁTICAS Numérico
DESEMP_MATEMATICAS Numérico
PUNT_C_NATURALES Numérico
PERCENTIL_C_NATURALES Numérico
DESEMP_C_NATURALES Numérico
PUNT_SOCIALES_CIUDADANAS Numérico
PERCENTIL_SOCIALES_CIUDADANAS Numérico
DESEMP_SOCIALES_CIUDADANAS Numérico
PUNT_INGLES Numérico
PERCENTIL_INGLES Numérico
DESEMP_INGLES Numérico
PUNT_GLOBAL Numérico Puntaje,
percentiles y
desempeño
global de la
prueba
PERCENTIL_GLOBAL Numérico
ESTU_INSE_INDIVIDUAL
Numérico
ESTU_NSE_INDIVIDUAL Nominal
Nivel
socioeconómico
estudiante
ESTU_NSE_ESTABLECIMIENTO Numérico
Nivel
socioeconómico
del
establecimiento
ESTU_ESTADOINVESTIGACION Nominal
Estado de los
resultados para
los evaluados
ESTU_GENERACIONE Nominal Informa si
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
40
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
DIMENSIÓN ATRIBUTOS Tipo Descripción
ESTU_PILO_PAGA Nominal
clasifica al
programa
Fuente: Diccionario de variables Saber 11° ubicado en el repositorio DataIcfes
4.2.4 Análisis del conjunto de datos
Con el fin de evidenciar, los percentiles promedio nacionales de las calificaciones de cada
área de conocimiento, se desarrolla un dashboard en Power BI para los resultados a nivel
nacional para comparar estos con los de la región Caribe. En la figura 8, aproximando al entero
más cercano, el resultado nacional se encuentra en el percentil 50 donde se ubica la media y
la mediana de la escala indicando que la mitad de los estudiantes se encuentran por debajo
de la media nacional y la otra parte por encima de esta, estos resultados incluyen a los
colegios de naturaleza oficial y no oficiales (privados).
Específicamente, los resultados de la región Caribe están 7.8 percentiles por debajo de la
media nacional, ver figura 9, siendo un indicativo de los esfuerzos que debe hacer la región
para alcanzar los resultados nacionales, la región tiene el reto de mejorar las condiciones
socioeconómicas y la calidad de la educación con la colaboración de todos los actores del
proceso.
Figura 8. Promedio nacional de los percentiles de las áreas evaluadas
Fuente: Elaboración propia
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
41
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas
Fuente: Elaboración propia
En los departamentos de la región Caribe (Atlántico, Bolívar, César, Córdoba, La Guajira,
Magdalena, San Andrés y Sucre), el 72.1% de las instituciones son oficiales (públicas)
mientras que el resto de ellas pertenecen al sector privado (figura 10), de ahí el peso que las
instituciones oficiales tienen en el promedio de las calificaciones de las áreas evaluadas en la
prueba.
Figura 10. Cantidad de instituciones educativas por naturaleza
Fuente: Elaboración propia
El calendario académico “A”, que inicia actividades en febrero, es al que se acoge una mayor
cantidad de las instituciones educativas representando el 98.45% del total nacional. Los otros
calendarios, representan solo el 1.45% e inician su periodo de actividades en el mes de
septiembre, estos no tienen presencia en algunos departamentos y muy poca presencia en
los municipios del país (figura 11).
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
42
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 11. Cantidad de instituciones educativas por su naturaleza
Fuente: Elaboración propia
Observando las líneas de tendencia, el rendimiento en las áreas de conocimiento evaluadas
tiende a disminuir desde el año 2018, solo hay un leve incremento desde el segundo periodo
del mismo año en el caso de las calificaciones del área de Lectura Crítica,
desafortunadamente tiene poca incidencia en el promedio global de calificaciones, las áreas
de matemáticas e inglés son la que tienen la pendiente más negativa en las líneas de
tendencia indicando que son las áreas en las que desde el 2018 evidencian un bajo
rendimiento promedio ubicándose por debajo del percentil 60 en el segundo periodo del año
2019. Si se analizan estas gráficas de acuerdo con el calendario académico de los colegios,
el mejor rendimiento promedio se presenta en los estudiantes provenientes de instituciones
que pertenecen al calendario “B”, pocas instituciones educativas pertenecen a este
calendario, son de carácter privado y por lo general los estudiantes tienen un mejor nivel
socioeconómico. El rendimiento promedio más bajo se presenta en el calendario “A”, quienes
desarrollan la prueba en el segundo semestre de cada año, el mayor número de estudiantes
evaluados del país pertenecen a este calendario, hacen parte de este todas las instituciones
oficiales (del gobierno) y en menor proporción las no oficiales (privadas). Los colegios que
manejan otros calendarios académicos tienen un rendimiento que se ubica por encima del
rendimiento de las instituciones del calendario “A” y por debajo del rendimiento de las del
calendario “B”, es el calendario con el menor número de estudiantes en el país y las
instituciones se asimilan en muchos aspectos a los colegios de calendario “B”. Las gráficas
12 y 13 muestran en el eje de las ordenadas el rendimiento promedio y en el eje de las
abscisas la fecha de presentación de las pruebas, en ellas se puede apreciar la tendencia en
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
43
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
el tiempo de los percentiles promedio por área del saber y por calendario académico.
Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias Naturales y Ciencias
Sociales y Ciudadanas
Fuente: Elaboración propia
En cuanto al rendimiento de los colegios por su naturaleza (figura 14), los colegios privados
obtienen un puntaje promedio superior a la media ubicándose en el percentil 55, casocontrario
ocurre con los colegios oficiales donde al parecer existen factores determinantes de bajo
rendimiento en la prueba haciendo que este se ubique en el percentil 39. La línea de tiempo,
de la figura 15, muestra la tendencia negativa en el rendimiento de los colegios oficiales y no
oficiales, aunque se observa un ligero incremento en el rendimiento de los colegios públicos
en el segundo semestre del año comparado con el primer semestre del año 2019, aunque
estas medidas no son comparables dado a que los promedios se calculan en base a los
resultados de pocos estudiantes que se presenta a realizar la prueba en las fechas de los
exámenes del calendario “B”. Esta disparidad en el rendimiento en las áreas de conocimiento,
pueden reflejar falencias en gran parte del sistema educativo, es probablemente la causa de
estar entre las peores notas de los países de la OCDE, junto con Panamá y República
Dominicana, en las pruebas internacionales PISA donde se evalúan las áreas de lectura,
matemáticas y ciencias (Portafolio, 2019).
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
44
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 13. Percentiles promedio en el área de Inglés y rendimiento global
Fuente: Elaboración propia
Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas
Fuente: Elaboración propia
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
45
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa
Fuente: Elaboración propia
Las condiciones existentes en la gran mayoría de los territorios rurales (figura 16) pueden
tener incidencia en el rendimiento de los evaluados ubicados en esas áreas geográficas de
tipo rural, el rendimiento es inferior al de los evaluados en las áreas urbanas. Este bajo
rendimiento puede estar influenciado por los problemas de infraestructura vial, el acceso a
servicios públicos básicos, la disponibilidad de las tecnologías, las deficiencias en la
conectividad, etc., muy a pesar de que el gobierno nacional destina partidas para el sector
educativo y obras subsidiarias, estas no tienen un manejo adecuado haciendo que gran parte
de los colegios no cuenten con las facilidades y medios adecuados para su labor.
Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas
Fuente: Elaboración propia
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
46
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
En cuanto al sexo de los evaluados, se destaca el promedio que obtienen los colegios que
son exclusivos del sexo femenino en los resultados de la prueba, ubicándose por encima de
las instituciones educativas donde prima el sexo masculino y muy por encima del rendimiento
de los colegios con enfoque de mixto de género (figura 17), no se puede generalizar, pero al
parecer con miras a los resultados no es conveniente un enfoque de género mixto en los
colegios.
Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones educativas
Fuente: Elaboración propia
Las siguientes dos figuras tienen relación con el tiempo de dedicación en la labor educativa y
el énfasis en las jornadas de las instituciones educativas. Las tres jornadas que más
establecen los colegios para su labor son la de la mañana, la de la tarde y la de la noche; las
jornadas menos implementadas en los colegios son la sabatina, la completa y la única (figura
18). Sin embargo, las mejores calificaciones en la prueba las obtienen los estudiantes de las
instituciones que implementan jornada completa, seguidos por la jornada única y la jornada
matutina (figura 19). Queda claro que el tiempo de dedicación a las labores académicas puede
tener un impacto significativo en las áreas evaluadas en la prueba.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
47
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 18. Número de instituciones educativas por jornada
Fuente: Elaboración propia
Figura 19. Rendimiento promedio por jornada académica
Fuente: Elaboración propia
Con relación al estrato socioeconómico de la vivienda familiar de los estudiantes (figura 20),
a excepción del estrato 1, no se ven diferencias significativas en los puntajes promedio de la
prueba Saber 11°, el estrato uno tiene un rendimiento promedio de 3 a 6 percentiles por debajo
de los demás estratos, mientras que la diferencia entre los estratos 2 al 6 es en promedio de
1 a 3 percentiles. Es muy común encontrar en los sectores de estrato 1 al 4, familias que
tienen una mejor posición socioeconómica y viviendas con mejoras significativas en
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
48
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
comparación con su entorno, el gobierno colombiano maneja la estratificación por lo general
por sectores, muchos de los habitantes no cambian sus sectores de residencia a otros de
estratos más altos para no aumentar su carga económica en cuanto a impuestos y servicios
públicos.
Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda
Fuente: Elaboración propia
El nivel socioeconómico (NSE) refleja, de acuerdo al ICFES, la diferencia en el rendimiento
de acuerdo a nivel social y económico de las familias de los estudiantes, en la figura 21 se
puede observar que el rendimiento promedio de los evaluados en la prueba es directamente
proporcional a su clasificación NSE. Los estudiantes alcanzan en el nivel 1 solo un promedio
de 32 percentiles en el puntaje global, mientras que aquellos que se encuentran en el nivel 4
alcanzan valores muy por encima de la media llegado al percentil promedio 73. Todo parece
indicar que el grado de necesidades insatisfechas puede afectar el rendimiento de los
estudiantes, algo en lo que se debe seguir trabajando desde las políticas del gobierno
nacional, regional y local.
Respecto al atributo derivado de la edad, el gráfico de dispersión de la figura 22 muestra el
rendimiento en la prueba en función de la edad, es evidente que existe una relación inversa
entre estas dos variables, a mayor edad menor rendimiento. Se presentan algunos valores
atípicos que tendrán que analizarse y corregirse posteriormente.
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
49
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región
Caribe colombiana en la prueba Saber 11° 2017 – 2019
Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados
Fuente: Elaboración propia
Figura 22. Rendimiento en la prueba en función de la edad
Fuente: Elaboración propia
Referente a la intensidad en el uso diario de la Internet, a pesar de que el promedio en las
calificaciones de los estudiantes aumenta con el tiempo de uso, apenas alcanzan a superar
la media nacional (figura 23), aquellos evaluados que no usan internet alcanzan en promedio
un rendimiento de 32 percentiles, pero una vez se va aumentando la intensidad en el uso de
internet los promedios mejoran hasta llegar a 51 percentiles en aquellos estudiantes que
utilizan este servicio por más de tres horas. No necesariamente su uso tiene que ver con
actividades de aprendizaje y quizás es utilizado en la mayor parte del tiempo para el ocio. Hay
un trabajo importante encaminado a mejorar las estrategias educativas para incrementar la
forma en que se puede aprovechar la información disponible en la red para mejorar el
desempeño general en la prueba.
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019

More Related Content

Similar to Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019

Ml application on_student_non_deployment
Ml application on_student_non_deploymentMl application on_student_non_deployment
Ml application on_student_non_deploymentAccenture
 
IRJET- Predictive Analytics for Placement of Student- A Comparative Study
IRJET- Predictive Analytics for Placement of Student- A Comparative StudyIRJET- Predictive Analytics for Placement of Student- A Comparative Study
IRJET- Predictive Analytics for Placement of Student- A Comparative StudyIRJET Journal
 
Big data project
Big data projectBig data project
Big data projectKedar Kumar
 
An Intelligent Career Guidance System using Machine Learning
An Intelligent Career Guidance System using Machine LearningAn Intelligent Career Guidance System using Machine Learning
An Intelligent Career Guidance System using Machine LearningIRJET Journal
 
BigMLSchool: Customer Segmentation
BigMLSchool: Customer SegmentationBigMLSchool: Customer Segmentation
BigMLSchool: Customer SegmentationBigML, Inc
 
machine learning based predictive analytics of student academic performance i...
machine learning based predictive analytics of student academic performance i...machine learning based predictive analytics of student academic performance i...
machine learning based predictive analytics of student academic performance i...CloudTechnologies
 
Competency model for
Competency model forCompetency model for
Competency model forcsandit
 
Intelligent Career Guidance System.pptx
Intelligent Career Guidance System.pptxIntelligent Career Guidance System.pptx
Intelligent Career Guidance System.pptxAnonymous366406
 
IRJET- Evaluation Technique of Student Performance in various Courses
IRJET- Evaluation Technique of Student Performance in various CoursesIRJET- Evaluation Technique of Student Performance in various Courses
IRJET- Evaluation Technique of Student Performance in various CoursesIRJET Journal
 
Student’s Career Interest Prediction using Machine Learning
Student’s Career Interest Prediction using Machine LearningStudent’s Career Interest Prediction using Machine Learning
Student’s Career Interest Prediction using Machine LearningIRJET Journal
 
Performance Management to Program Evaluation: Creating a Complementary Connec...
Performance Management to Program Evaluation: Creating a Complementary Connec...Performance Management to Program Evaluation: Creating a Complementary Connec...
Performance Management to Program Evaluation: Creating a Complementary Connec...nicholes21
 
Digital badges encourage attainment of descrete math skills
Digital badges encourage attainment of descrete math skillsDigital badges encourage attainment of descrete math skills
Digital badges encourage attainment of descrete math skillscccschamp
 
Iisrt shiju george (cs)
Iisrt shiju george (cs)Iisrt shiju george (cs)
Iisrt shiju george (cs)IISRT
 
PISA-VET launch_El Iza Mohamedou_19 March 2024.pptx
PISA-VET launch_El Iza Mohamedou_19 March 2024.pptxPISA-VET launch_El Iza Mohamedou_19 March 2024.pptx
PISA-VET launch_El Iza Mohamedou_19 March 2024.pptxEduSkills OECD
 
Modular or part time learning program
Modular or part time learning programModular or part time learning program
Modular or part time learning programnihal dias
 
13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clusteringArdianDwiPraba
 

Similar to Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019 (20)

Ml application on_student_non_deployment
Ml application on_student_non_deploymentMl application on_student_non_deployment
Ml application on_student_non_deployment
 
IRJET- Predictive Analytics for Placement of Student- A Comparative Study
IRJET- Predictive Analytics for Placement of Student- A Comparative StudyIRJET- Predictive Analytics for Placement of Student- A Comparative Study
IRJET- Predictive Analytics for Placement of Student- A Comparative Study
 
Big data project
Big data projectBig data project
Big data project
 
An Intelligent Career Guidance System using Machine Learning
An Intelligent Career Guidance System using Machine LearningAn Intelligent Career Guidance System using Machine Learning
An Intelligent Career Guidance System using Machine Learning
 
BigMLSchool: Customer Segmentation
BigMLSchool: Customer SegmentationBigMLSchool: Customer Segmentation
BigMLSchool: Customer Segmentation
 
machine learning based predictive analytics of student academic performance i...
machine learning based predictive analytics of student academic performance i...machine learning based predictive analytics of student academic performance i...
machine learning based predictive analytics of student academic performance i...
 
Competency model for
Competency model forCompetency model for
Competency model for
 
Intelligent Career Guidance System.pptx
Intelligent Career Guidance System.pptxIntelligent Career Guidance System.pptx
Intelligent Career Guidance System.pptx
 
IRJET- Evaluation Technique of Student Performance in various Courses
IRJET- Evaluation Technique of Student Performance in various CoursesIRJET- Evaluation Technique of Student Performance in various Courses
IRJET- Evaluation Technique of Student Performance in various Courses
 
Student’s Career Interest Prediction using Machine Learning
Student’s Career Interest Prediction using Machine LearningStudent’s Career Interest Prediction using Machine Learning
Student’s Career Interest Prediction using Machine Learning
 
Performance Management to Program Evaluation: Creating a Complementary Connec...
Performance Management to Program Evaluation: Creating a Complementary Connec...Performance Management to Program Evaluation: Creating a Complementary Connec...
Performance Management to Program Evaluation: Creating a Complementary Connec...
 
Rcademy pitch 2012
Rcademy pitch 2012Rcademy pitch 2012
Rcademy pitch 2012
 
Digital badges encourage attainment of descrete math skills
Digital badges encourage attainment of descrete math skillsDigital badges encourage attainment of descrete math skills
Digital badges encourage attainment of descrete math skills
 
Iisrt shiju george (cs)
Iisrt shiju george (cs)Iisrt shiju george (cs)
Iisrt shiju george (cs)
 
PISA-VET launch_El Iza Mohamedou_19 March 2024.pptx
PISA-VET launch_El Iza Mohamedou_19 March 2024.pptxPISA-VET launch_El Iza Mohamedou_19 March 2024.pptx
PISA-VET launch_El Iza Mohamedou_19 March 2024.pptx
 
06. HEUTAGOGY - MATHSHOP
06. HEUTAGOGY - MATHSHOP06. HEUTAGOGY - MATHSHOP
06. HEUTAGOGY - MATHSHOP
 
Modular or part time learning program
Modular or part time learning programModular or part time learning program
Modular or part time learning program
 
13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clustering
 
final
finalfinal
final
 
Sampson-Keynote@SMTE2019
Sampson-Keynote@SMTE2019Sampson-Keynote@SMTE2019
Sampson-Keynote@SMTE2019
 

More from Jairo Acosta Solano

Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxGuía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxJairo Acosta Solano
 
Big Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosBig Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosJairo Acosta Solano
 
Acceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarAcceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarJairo Acosta Solano
 
Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Jairo Acosta Solano
 
Presentación investigación IIp 2017
Presentación investigación IIp 2017Presentación investigación IIp 2017
Presentación investigación IIp 2017Jairo Acosta Solano
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...Jairo Acosta Solano
 
Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Jairo Acosta Solano
 
Generalidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesGeneralidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesJairo Acosta Solano
 
Contexto y circulación de textos científicos
Contexto y circulación de textos científicosContexto y circulación de textos científicos
Contexto y circulación de textos científicosJairo Acosta Solano
 
Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Jairo Acosta Solano
 
Presentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNPresentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNJairo Acosta Solano
 

More from Jairo Acosta Solano (20)

Visualización de Datos.pptx
Visualización de Datos.pptxVisualización de Datos.pptx
Visualización de Datos.pptx
 
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxGuía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
 
SISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptxSISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptx
 
Ejercicio clúster jerárquico
Ejercicio clúster jerárquicoEjercicio clúster jerárquico
Ejercicio clúster jerárquico
 
Ejercicio K-Means
Ejercicio K-MeansEjercicio K-Means
Ejercicio K-Means
 
Matriz de confusión
Matriz de confusiónMatriz de confusión
Matriz de confusión
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Arboles y reglas
Arboles y reglasArboles y reglas
Arboles y reglas
 
Fundamentos IA
Fundamentos IAFundamentos IA
Fundamentos IA
 
Big Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosBig Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos Masivos
 
Acceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarAcceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigar
 
Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)
 
Presentación investigación IIp 2017
Presentación investigación IIp 2017Presentación investigación IIp 2017
Presentación investigación IIp 2017
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
 
Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017
 
Generalidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesGeneralidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitales
 
Contexto y circulación de textos científicos
Contexto y circulación de textos científicosContexto y circulación de textos científicos
Contexto y circulación de textos científicos
 
Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016
 
Presentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNPresentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURN
 
Educacion Inclusiva
Educacion InclusivaEducacion Inclusiva
Educacion Inclusiva
 

Recently uploaded

UNIT4_ESD_wfffffggggggggggggith_ARM.pptx
UNIT4_ESD_wfffffggggggggggggith_ARM.pptxUNIT4_ESD_wfffffggggggggggggith_ARM.pptx
UNIT4_ESD_wfffffggggggggggggith_ARM.pptxrealme6igamerr
 
GENERAL CONDITIONS FOR CONTRACTS OF CIVIL ENGINEERING WORKS
GENERAL CONDITIONS  FOR  CONTRACTS OF CIVIL ENGINEERING WORKS GENERAL CONDITIONS  FOR  CONTRACTS OF CIVIL ENGINEERING WORKS
GENERAL CONDITIONS FOR CONTRACTS OF CIVIL ENGINEERING WORKS Bahzad5
 
Summer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdf
Summer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdfSummer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdf
Summer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdfNaveenVerma126
 
solar wireless electric vechicle charging system
solar wireless electric vechicle charging systemsolar wireless electric vechicle charging system
solar wireless electric vechicle charging systemgokuldongala
 
Technology Features of Apollo HDD Machine, Its Technical Specification with C...
Technology Features of Apollo HDD Machine, Its Technical Specification with C...Technology Features of Apollo HDD Machine, Its Technical Specification with C...
Technology Features of Apollo HDD Machine, Its Technical Specification with C...Apollo Techno Industries Pvt Ltd
 
Graphics Primitives and CG Display Devices
Graphics Primitives and CG Display DevicesGraphics Primitives and CG Display Devices
Graphics Primitives and CG Display DevicesDIPIKA83
 
Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...
Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...
Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...Sean Meyn
 
cloud computing notes for anna university syllabus
cloud computing notes for anna university syllabuscloud computing notes for anna university syllabus
cloud computing notes for anna university syllabusViolet Violet
 
دليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide Laboratory
دليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide Laboratoryدليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide Laboratory
دليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide LaboratoryBahzad5
 
me3493 manufacturing technology unit 1 Part A
me3493 manufacturing technology unit 1 Part Ame3493 manufacturing technology unit 1 Part A
me3493 manufacturing technology unit 1 Part Akarthi keyan
 
Power System electrical and electronics .pptx
Power System electrical and electronics .pptxPower System electrical and electronics .pptx
Power System electrical and electronics .pptxMUKULKUMAR210
 
SUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docx
SUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docxSUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docx
SUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docxNaveenVerma126
 
Modelling Guide for Timber Structures - FPInnovations
Modelling Guide for Timber Structures - FPInnovationsModelling Guide for Timber Structures - FPInnovations
Modelling Guide for Timber Structures - FPInnovationsYusuf Yıldız
 
Technical Management of cement industry.pdf
Technical Management of cement industry.pdfTechnical Management of cement industry.pdf
Technical Management of cement industry.pdfMadan Karki
 
Introduction to Machine Learning Unit-3 for II MECH
Introduction to Machine Learning Unit-3 for II MECHIntroduction to Machine Learning Unit-3 for II MECH
Introduction to Machine Learning Unit-3 for II MECHC Sai Kiran
 
Gender Bias in Engineer, Honors 203 Project
Gender Bias in Engineer, Honors 203 ProjectGender Bias in Engineer, Honors 203 Project
Gender Bias in Engineer, Honors 203 Projectreemakb03
 
Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...
Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...
Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...amrabdallah9
 
Lecture 1: Basics of trigonometry (surveying)
Lecture 1: Basics of trigonometry (surveying)Lecture 1: Basics of trigonometry (surveying)
Lecture 1: Basics of trigonometry (surveying)Bahzad5
 
How to Write a Good Scientific Paper.pdf
How to Write a Good Scientific Paper.pdfHow to Write a Good Scientific Paper.pdf
How to Write a Good Scientific Paper.pdfRedhwan Qasem Shaddad
 

Recently uploaded (20)

UNIT4_ESD_wfffffggggggggggggith_ARM.pptx
UNIT4_ESD_wfffffggggggggggggith_ARM.pptxUNIT4_ESD_wfffffggggggggggggith_ARM.pptx
UNIT4_ESD_wfffffggggggggggggith_ARM.pptx
 
GENERAL CONDITIONS FOR CONTRACTS OF CIVIL ENGINEERING WORKS
GENERAL CONDITIONS  FOR  CONTRACTS OF CIVIL ENGINEERING WORKS GENERAL CONDITIONS  FOR  CONTRACTS OF CIVIL ENGINEERING WORKS
GENERAL CONDITIONS FOR CONTRACTS OF CIVIL ENGINEERING WORKS
 
Summer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdf
Summer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdfSummer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdf
Summer training report on BUILDING CONSTRUCTION for DIPLOMA Students.pdf
 
solar wireless electric vechicle charging system
solar wireless electric vechicle charging systemsolar wireless electric vechicle charging system
solar wireless electric vechicle charging system
 
Technology Features of Apollo HDD Machine, Its Technical Specification with C...
Technology Features of Apollo HDD Machine, Its Technical Specification with C...Technology Features of Apollo HDD Machine, Its Technical Specification with C...
Technology Features of Apollo HDD Machine, Its Technical Specification with C...
 
Graphics Primitives and CG Display Devices
Graphics Primitives and CG Display DevicesGraphics Primitives and CG Display Devices
Graphics Primitives and CG Display Devices
 
Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...
Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...
Quasi-Stochastic Approximation: Algorithm Design Principles with Applications...
 
cloud computing notes for anna university syllabus
cloud computing notes for anna university syllabuscloud computing notes for anna university syllabus
cloud computing notes for anna university syllabus
 
دليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide Laboratory
دليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide Laboratoryدليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide Laboratory
دليل تجارب الاسفلت المختبرية - Asphalt Experiments Guide Laboratory
 
me3493 manufacturing technology unit 1 Part A
me3493 manufacturing technology unit 1 Part Ame3493 manufacturing technology unit 1 Part A
me3493 manufacturing technology unit 1 Part A
 
Power System electrical and electronics .pptx
Power System electrical and electronics .pptxPower System electrical and electronics .pptx
Power System electrical and electronics .pptx
 
SUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docx
SUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docxSUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docx
SUMMER TRAINING REPORT ON BUILDING CONSTRUCTION.docx
 
Modelling Guide for Timber Structures - FPInnovations
Modelling Guide for Timber Structures - FPInnovationsModelling Guide for Timber Structures - FPInnovations
Modelling Guide for Timber Structures - FPInnovations
 
Lecture 2 .pptx
Lecture 2                            .pptxLecture 2                            .pptx
Lecture 2 .pptx
 
Technical Management of cement industry.pdf
Technical Management of cement industry.pdfTechnical Management of cement industry.pdf
Technical Management of cement industry.pdf
 
Introduction to Machine Learning Unit-3 for II MECH
Introduction to Machine Learning Unit-3 for II MECHIntroduction to Machine Learning Unit-3 for II MECH
Introduction to Machine Learning Unit-3 for II MECH
 
Gender Bias in Engineer, Honors 203 Project
Gender Bias in Engineer, Honors 203 ProjectGender Bias in Engineer, Honors 203 Project
Gender Bias in Engineer, Honors 203 Project
 
Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...
Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...
Strategies of Urban Morphologyfor Improving Outdoor Thermal Comfort and Susta...
 
Lecture 1: Basics of trigonometry (surveying)
Lecture 1: Basics of trigonometry (surveying)Lecture 1: Basics of trigonometry (surveying)
Lecture 1: Basics of trigonometry (surveying)
 
How to Write a Good Scientific Paper.pdf
How to Write a Good Scientific Paper.pdfHow to Write a Good Scientific Paper.pdf
How to Write a Good Scientific Paper.pdf
 

Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019

  • 1. Trabajo Fin de Máster Tipo de trabajo: Piloto Experimental Presentado por: Acosta-Solano, Jairo Director/a: Lancheros Cuesta, Diana Janeth Universidad Internacional de La Rioja Escuela Superior de Ingeniería y Tecnología Máster Universitarioen Análisis y Visualización de Datos Masivos Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
  • 2. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 1 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Resumen El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas, el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el modelado y la validación de los modelos; se espera que la metodología propuesta sea implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES), las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la educación del país, en especial de la región Caribe. Palabras Clave: ICFES, rendimiento, aprendizaje automático, CRISP-DM, Región Caribe colombiana
  • 3. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 2 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Abstract The purpose of this project is to evaluate several machine learning models under the CRISP- DM methodology in order to determine, through its metrics, the best model for predicting the performance of high school students in the Colombian Caribbean region in the Saber 11º test, while proposing a new methodology for evaluating the results of the test by regions in order to take into account the socioeconomic particularities of each one of them. The CRISP-DM methodology is taken as a basis due to its maturity, this methodology allows the extraction of business and data knowledge, offers a guide for data preparation, modeling and validation of the models; it is expected that the proposed methodology will be implemented by the Colombian Institute for the Promotion of Higher Education (ICFES), departmental education secretariats and educational institutions. A variety of techniques and tools were used to develop ETL processes to obtain a data set with the most relevant attributes, in order to evaluate four machine learning models developed with the J48 (C4.5), LMT, PART and Multilayer Perceptron algorithms; obtaining that the best data set and the best learning model is obtained using the InfoGain attribute selection method and the LMT decision tree algorithm, respectively. The model was tested with a new dataset, obtaining a mean square error of 0.25 very much in line with the validation metrics of the model. Therefore, this project will facilitate the actors of the National Education System to make decisions for the benefit of students and the quality of education in the country, especially in the Caribbean region. Keywords: ICFES, performance, machine learnig, CRISP-DM, Colombian Caribbean region
  • 4. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 3 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de contenidos 1 Introducción .......................................................................................................................11 1.1 Justificación................................................................................................................11 1.2 Planteamiento del trabajo ..........................................................................................12 1.3 Estructura de la memoria...........................................................................................13 2 Contexto y estado del arte.................................................................................................15 3 Objetivos concretos y metodología de trabajo..................................................................19 3.1 Objetivo general .........................................................................................................19 3.2 Objetivos específicos .................................................................................................19 3.3 Metodología del trabajo..............................................................................................20 3.3.1 Tipo de Investigación..........................................................................................20 3.3.2 Universo y Muestra.............................................................................................20 3.3.3 Fuentes de información ......................................................................................20 3.3.4 Metodología de desarrollo ..................................................................................20 4 Desarrollo específico de la contribución ...........................................................................23 4.1 Generalidades del examen Saber 11°.......................................................................23 4.1.1 Antecedentes ......................................................................................................23 4.1.2 Áreas de evaluación ...........................................................................................24 4.1.3 Propósitos del examen .......................................................................................26 4.1.4 Competencias evaluadas y niveles de medición en las áreas de la prueba .....27 4.1.5 Índice de necesidades socioeconómicas (INSE)...............................................28 4.1.6 Clasificación de planteles educativos.................................................................29 4.1.7 Becas por el rendimiento en las pruebas Saber 11°..........................................31 4.1.8 Actividades para validación de los modelos de rendimiento en la prueba ........32 4.2 Conjunto de datos de la prueba Saber 11° ...............................................................33 4.2.1 Ingreso al portal DataIcfes..................................................................................33
  • 5. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 4 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4.2.2 Extracción de los datos.......................................................................................35 4.2.3 Descripción del conjunto de datos......................................................................36 4.2.4 Análisis del conjunto de datos ............................................................................40 4.2.5 Calidad de los datos ...........................................................................................56 4.3 Obtención del conjunto de datos para el modelado..................................................58 4.3.1 Eliminación de atributos que no aportan al modelo ...........................................59 4.3.2 Limpieza de los datos .........................................................................................64 4.3.2.1 Limpieza utilizando el lenguaje R................................................................64 4.3.2.2 Formateo de datos en Tableau Prep ..........................................................65 4.3.2.3 Limpieza de datos en WEKA.......................................................................69 4.3.3 Balanceo de clases.............................................................................................73 4.3.4 Selección de atributos.........................................................................................75 4.3.4.1 Selección de atributos en WEKA................................................................75 4.4 Modelos de aprendizaje automático..........................................................................78 4.4.1 Selección de modelos.........................................................................................78 4.4.1.1 Árboles de decisión C4.5 (J48)...................................................................78 4.4.1.2 Árboles de decisión LMT (Logistic Model Trees)........................................79 4.4.1.3 Reglas de decisión PART............................................................................79 4.4.1.4 Multilayer Perceptron (MLP)........................................................................80 4.4.2 Métricas de evaluación de los modelos .............................................................81 4.4.3 Construcción de los modelos..............................................................................84 4.4.3.1 Análisis del conjunto de datos inicial (TOTAL33) .......................................86 4.4.3.2 Análisis del conjunto de datos obtenido por el método de selección de atributos GainRatioAttributeEval (GRAE)......................................................................88 4.4.3.3 Análisis del conjunto de datos obtenido por el método de selección de atributos InfoGainAttributeEval (IGAE)..........................................................................90 4.4.3.4 Análisis del conjunto de datos obtenido por el método de selección de
  • 6. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 5 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 atributos OneRAttributeEval (ONERAE) .......................................................................91 4.4.4 Selección del mejor modelo y conjunto de datos...............................................92 4.5 Prueba del modelo seleccionado...............................................................................93 4.5.1 Características del set de datos de prueba........................................................94 4.5.2 Desarrollo de las predicciones en la aplicación WEKA con el conjunto de datos de prueba...........................................................................................................................95 4.5.3 Cálculo del Error Cuadrático Medio (ECM) ........................................................97 5 Conclusiones y trabajo futuro............................................................................................98 5.1 Conclusiones..............................................................................................................98 5.2 Líneas de trabajo futuro ...........................................................................................102 6 Bibliografía .......................................................................................................................103 Anexos ....................................................................................................................................107 Anexo I. Código desarrollado en R para el proceso ETL...................................................107 Anexo II. Cálculo del Error Cuadrático Medio ....................................................................117 Anexo III. Estructura del Logistic Model Tree.....................................................................131 Anexo IV: Código en R y gráfica del árbol generado por el algoritmo rpart ......................132 Anexo V. Reglas de asociación generadas por el algoritmo Apriori ..................................136
  • 7. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 6 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de tablas Tabla 1. Exámenes aplicados por el ICFES ............................................................................23 Tabla 2. Sub áreas de evaluación en el examen Saber 11°....................................................26 Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la prueba .......................................................................................................................................27 Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global.................31 Tabla 5. Características del conjunto de datos ........................................................................37 Tabla 6. Descriptivo de las variables numéricas......................................................................56 Tabla 7. Cantidad de instancias con valores NA y vacíos en el conjunto de datos ................57 Tabla 8. Atributos que harán parte del modelo........................................................................60 Tabla 9. Formateo de valores de los atributos.........................................................................66 Tabla 10. Selección de atributos por los métodos GainRatio, InfoGain y OneR ....................77 Tabla 11. Métricas de los modelos en los diferentes conjuntos de datos ...............................86 Tabla 12. Métricas para el conjunto IGAE................................................................................93
  • 8. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 7 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de figuras Figura 1. Fases de la Metodología CRISP-DM........................................................................21 Figura 2. Cuadernillo de respuestas de la prueba Saber 11°..................................................25 Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas ..................29 Figura 4. Descriptores socioeconómicos .................................................................................29 Figura 5. Página del portal de las bases de datos DataIcfes ..................................................34 Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11° .......................................35 Figura 7. Datos cargados en Power BI Desktop......................................................................36 Figura 8. Promedio nacional de los percentiles de las áreas evaluadas ................................40 Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas.......................41 Figura 10. Cantidad de instituciones educativas por naturaleza .............................................41 Figura 11. Cantidad de instituciones educativas por su naturaleza ........................................42 Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias Naturales y Ciencias Sociales y Ciudadanas...........................................................................43 Figura 13. Percentiles promedio en el área de Inglés y rendimiento global............................44 Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas ............44 Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa .....45 Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas .....45 Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones educativas .................................................................................................................................46 Figura 18. Número de instituciones educativas por jornada....................................................47 Figura 19. Rendimiento promedio por jornada académica......................................................47 Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda .......................48 Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados ....49 Figura 22. Rendimiento en la prueba en función de la edad ...................................................49 Figura 23. Rendimiento promedio y uso diario de internet en horas .......................................50
  • 9. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 8 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 24. Promedio de calificaciones de los evaluados de acuerdo al país de residencia ...50 Figura 25. Promedio de calificaciones de la región Caribe .....................................................51 Figura 26. Distribución de los percentiles de las áreas de Lectura Crítica y Matemáticas.....52 Figura 27. Distribución de los percentiles de las áreas de Ciencias Naturales y Ciencias Sociales y Ciudadanas .............................................................................................................53 Figura 28. Distribución de los percentiles de las áreas de Inglés y el Global de las áreas evaluadas..................................................................................................................................54 Figura 29. Distribución de la variable EDAD por departamentos ............................................55 Figura 30. Flujo de datos en Tableau Prep..............................................................................66 Figura 31. Conjunto de datos convertido a formato ARFF ......................................................70 Figura 32. Flujo de filtros para eliminar valores atípicos y extremos de la variable EDAD.....71 Figura 33. Atributos creados por el filtro InterquartileRange para eliminar los valores atípicos y extremos.................................................................................................................................72 Figura 34. Resultado de la categorización del atributo edad en tres rangos ..........................72 Figura 35. Distribución original de las clases...........................................................................74 Figura 36. Distribución de las clases después de aplicar el filtro SMOTE ..............................74 Figura 37. Distribución de las clases después del filtro SpreadSubsample............................75 Figura 38. Estructura de un árbol de decisión .........................................................................79 Figura 39. Estructura general de una red neuronal con capas ocultas...................................80 Figura 40. Matriz de confusión .................................................................................................81 Figura 41. Curva ROC y AUC...................................................................................................84 Figura 42. Flujo de conocimiento aplicado a los conjuntos de datos ......................................85 Figura 43. Visualización de las métricas de los algoritmos aplicados al conjunto de datos TOTAL33...................................................................................................................................88 Figura 44. Visualización de las métricas de los algoritmos aplicados al conjunto de datos GRAE ........................................................................................................................................89 Figura 45. Visualización de las métricas de los algoritmos aplicados al conjunto de datos GRAE ........................................................................................................................................90
  • 10. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 9 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 46. Visualización de las métricas de los algoritmos aplicados al conjunto de datos GRAE ........................................................................................................................................91 Figura 47. Curvas ROC y valor de AUC para los algoritmos aplicados al conjunto de datos IGAE..........................................................................................................................................92 Figura 48. Estrato familiar del conjunto de test........................................................................94 Figura 49. Nivel de educación de los padres ...........................................................................95 Figura 50. Resultado de las predicciones en WEKA...............................................................96
  • 11. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 10 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de ecuaciones Ecuación 1. Cálculo Índice General .........................................................................................30 Ecuación 2. Cálculo del índice por área...................................................................................30 Ecuación 3. Fórmula para obtención de valores atípicos v. 1 .................................................70 Ecuación 4. Fórmula para obtención valores atípicos v. 2 ......................................................70 Ecuación 5. Fórmula para valores extremos v. 1.....................................................................71 Ecuación 6. Fórmula para valores extremos v. 2.....................................................................71 Ecuación 7. Selección de atributos por Ratio de Ganancia.....................................................76 Ecuación 8. Selección de atributos por Ganancia de Información ..........................................76 Ecuación 9. Precisión...............................................................................................................82 Ecuación 10. Exhaustividad (Recall) ........................................................................................82 Ecuación 11. F1 o F-Meassure ................................................................................................82 Ecuación 12. Exactitud (Accuracy)...........................................................................................82 Ecuación 13. Tasa de error ......................................................................................................83 Ecuación 14. Área bajo la curva (AUC)....................................................................................83 Ecuación 15. Especificidad.......................................................................................................83 Ecuación 16. Fórmula del Error Cuadrático Medio ..................................................................93 Ecuación 17. Cálculo del Error Cuadrático Medio para datos de prueba ...............................97
  • 12. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 11 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 1 Introducción El desarrollo de un país depende de las acciones y decisiones que se toman en concordancia con el desarrollo de sus habitantes, estos aspectos se relacionan con los objetivos de desarrollo sostenible (ODS) promulgados en las Naciones Unidas. Este proyecto busca determinar un modelo predictivo para uno de estos objetivos, la educación de calidad, en el ciclo de la educación básica secundaria en la región Caribe colombiana; sin embargo, alcanzar este ODS va a depender del desarrollo y el avance alcanzado en otros, tales como los relacionados con el fin de la pobreza, el hambre cero, la salud y el bienestar, el trabajo decente, y el crecimiento económico (López, 2020). Este trabajo de fin de máster tiene como insumo principal los resultados de la prueba Saber 11° del trienio 2017 - 2019 con el fin de determinar el mejor modelo para predecir el desempeño de los estudiantes, haciendo uso de los mejores atributos del conjunto de datos, varios de los cuales presentan una estrecha relación con los objetivos de desarrollo sostenible. 1.1 Justificación El estado colombiano, con la finalidad de establecer patrones de medición de las competencias desarrolladas por los estudiantes del país durante sus diferentes etapas académicas, reglamenta la Prueba Saber, a cargo del Instituto Colombiano para el Fomento de la Educación Superior (ICFES), como un instrumento para medir la calidad de la educación en el país. Este instituto se encarga de evaluar la calidad de la educación en todos los niveles educativos, teniendo como insumo las bases de datos de las pruebas desarrolladas por los estudiantes con el fin de apoyar el establecimiento de políticas para mejorar el sistema educativo (ICFES, 2019a). Sin embargo, la mayoría de las instituciones educativas de la Región Caribe no cuentan con modelos predictivos que permitan tomar acciones tempranas, de acuerdo a la caracterización de los atributos socioeconómicos, institucionales y académicos de los estudiantes de la región; gran parte de los análisis se realizan basados en análisis descriptivos de los resultados más de la prueba, las instituciones interesadas, por lo general, no desarrollan modelos de aprendizaje automático para determinar la incidencia que tienen los factores mencionados anteriormente, tampoco construyen modelos de aprendizaje automático para la predicción del rendimiento de los estudiantes y estimar los niveles de desempeño en la prueba. Ante esta situación solo existe un acercamiento realizado por
  • 13. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 12 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Timarán-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019), en donde desarrollan un modelo basado en árboles de decisión para clasificar a los estudiantes por encima o por debajo de la media nacional en los exámenes Saber 11 del año 2016, este estudio no realiza ninguna comparativa de modelos y no clasificalas instancias de acuerdo a las medidas de desempeño utilizadas por el ICFES. Entre las funciones del ICFES no se encuentra la de suministrar a las instituciones educativas modelos predictivos para la toma temprana de decisiones tendientes a mejorar el desempeño de los estudiantes, antes de presentar la prueba, de hecho, el último informe publicado en el año 2018 no evidencia ningún esfuerzo en este sentido y solo se limita a mostrar las estadísticas descriptivas y comparativas con los resultados del examen Saber 11 del 2016 y 2017 (ICFES, 2019c). La labor de inducción de los datos suministrados por el ICFES, queda a cargo de las instituciones educativas de básica secundaria y de las instituciones de educación superior, donde los estudiantes continuaran con sus estudios técnicos, tecnológicos o profesionales; pero hasta la fecha no se tienen evidencias de alguna institución educativa que desarrolle este proceso para identificar debilidades, fortalezas o acciones de intervención con los estudiantes que estarían próximos a presentar el examen. Para las instituciones educativas de básica secundaria e instituciones universitarias, contar con un modelo que permita desarrollar predicciones del rendimiento de los estudiantes, facilitaría establecer acciones de intervención temprana o de seguimiento con el fin de mejorar los aspectos que puedan tener incidencia en el rendimiento. Las instituciones de educación superior pueden establecer con estos modelos una serie de reglas para sus programas de acompañamiento a la permanencia y retención estudiantil con el fin de determinar aquellos estudiantes que puedan presentar problemas de rendimiento académico durante los primeros semestres. 1.2 Planteamiento del trabajo Los atributos que pueden tener incidencia en el rendimiento de los estudiantes pueden ser muy variados, algunos seescapan del resorte de las instituciones educativas porque entrarían en el área de las acciones que deben realizar el estado y los propios individuos con miras a su desarrollo, no obstante, es importante que se puedan identificar aquellos factores en los que las instituciones puedan establecer tareas de intervención con el fin de mejorar y lograr un incremento en el deseo del logro académico, aspecto que puede despejar el futuro profesional de los individuos.
  • 14. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 13 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Ante este panorama se propone identificar, a través del uso del aprendizaje automático, el mejor modelo que permita identificar aquellos atributos que influyen en el desempeño de la prueba Saber 11° (clase), con el fin de poder utilizarlo para individualizar aquellos sujetos que requieran una intervención temprana o posterior y así disponer de una herramienta para mejorar el desempeño de estos en la prueba o en los niveles posteriores de educación superior técnica, tecnológica o profesional. Se hace necesario pues, entender el contexto general de la prueba y la necesidad de medir la calidad de la educación a través de sus indicadores de desempeño, comprender los diferentes atributos de los datos disponibles del examen en la región Caribe, realizar el adecuado proceso de selección de los atributos que van a ser tenidos en cuenta para la fase de modelado, aplicar los modelos de aprendizaje supervisado J48 (C4.5), LMT, PART y Multilayer Perceptron con el fin de evaluar cuál realiza una mejor predicción a través de los mejores atributos socioeconómicos identificados en este proyecto. 1.3 Estructura de la memoria La presente memoria estará estructurada en las siguientes secciones: La sección 2 presenta el Contexto y estado del arte hace una revisión de diferentes investigaciones y trabajos relacionados con el rendimiento de los estudiantes en pruebas nacionales con referencia a variables como la edad, el sexo, las áreas evaluadas, y otros aspectos relevantes, desde una óptica general para llegar a contribuciones más relacionadas con el presente proyecto. En la sección 3 se enumeran y desarrollan los Objetivos concretos y metodología de trabajo basada en CRISP-DM con la que se pretende entender el negocio y los datos, preparar, modelar y evaluar los datos a través de los diferentes algoritmos de aprendizaje automático desarrollados. En la sección 4 se realiza el Desarrollo específico de la contribución se desarrollan ordenadamente los objetivos establecidos bajo la metodología CRISP-DM, se despliegan los procesos ETL necesarios para contar con un conjunto de datos adecuado que nos permita desarrollar el entrenamiento, la validación y prueba de los modelos con el fin de seleccionar el mejor de acuerdo a los resultados obtenidos. La sección 5 presenta las Conclusiones y Líneas de Trabajo Futuro con el fin de mostrar
  • 15. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 14 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 los principales aportes del proyecto y la forma en que este puede ser referente para adelantar otros proyectos de investigación.
  • 16. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 15 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 2 Contexto y estado del arte Con el fin de verificar que aspectos pueden tener incidencia en el rendimiento académico de los estudiantes de educación básica secundaria sehan encontrado que ciertas características, del individuo, del núcleo familiar, el sexo y la edad, son determinantes para el desempeño en la prueba Saber 11° (Gaviria y Barrientos, 2001; Velasco Rodríguez, 2014). La edad influye en el rendimiento de la prueba de forma inversamente proporcional lo que implica que las puntuaciones tienden a disminuir a mayor edad de los evaluados, así mismo es determinante el sexo del estudiante que presenta la prueba, encontrándose diferencias significativas en el rendimiento de hombres y mujeres. El informe de Gaviria & Barrientos (2001) va mucho más allá de las variables mostradas anteriormente, encuentra evidencia de que el calendario académico, en Colombia se manejan los calendarios A y B1 , de las instituciones educativas y la naturaleza de las mismas, no tiene incidencia en el rendimiento de los estudiantes, pero, como era previsible las condiciones académicas y de infraestructura de los colegios privados y de calendario B tienen una incidencia significativa en aquellos estudiantes que tienen los mejores rendimientos en la prueba. Becerra-González y Reidl Martínez (2015), estiman que el sexo de los estudiantes puede determinar diferencias en el factor de estabilidad ante los aspectos negativos del entorno escolar y social, los sujetos del género masculino cree que este aspecto afectará su vida futura; en cuanto al factor edad se encuentra que a mayor edad existe un mayor control en el aspecto académicoy las evaluaciones negativas; el nivel académicode la figura paterna tiene relación con las variables de rendimiento de los estudiantes, a mayor nivel de escolaridad del padre los factores de rendimiento escolar se incrementa al motivar el alcance de logros por parte de sus hijos, especialmente cuando el padre tiene estudios de posgrado. Este estudio concluye que no encuentra relación entre el rendimiento de los estudiantes con las variables sociodemográficas consideradas en los instrumentos, sin embargo, si encuentra relación con las variables motivacionales de la atribución académica, el logro en la escuela y la eficacia propia en los aspectos académicos. Gabalán-Coello y Vásquez-Rizo (2016) correlacionan el desempeño en las áreas de matemáticas y lenguaje, en una institución universitaria, con el Examen Saber 11°, y el 1 El calendario A inicia actividades escolares en el mes de febrero y el calendario B inicia jornada en el mes de septiembre.
  • 17. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 16 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 desempeño de asignaturas de diferentes facultades donde son relevantes los componentes de abstracción y competencias comunicativas; y encuentran que no hay evidencia estadística que sugiera la existencia de una asociación entre la puntuación de la prueba Saber 11°, aplicable a los sujetos de estudio, y el rendimiento posterior en las materias relacionadas con estás áreas específicas. En cuanto al rendimiento en la prueba Saber 11° por regiones, se ha encontrado que las diferencias por región han aumentado en los últimos dos decenios y la región Caribe ha disminuido su desempeño con respecto a los de la ciudad de Bogotá, que es la de mejor desempeño promedio en Colombia, ocasionando por esto un mejor ejercicio en la región Andina, esto implica que los estudiantes ubicados en el centro del país tienen cada día mejor desempeño en la prueba que los ubicados en la periferia de la nación (Rocay Granger, 2019). El trabajo de grado de maestría de Palacios (2019), evidencia diferencias significativas en la educación pública y privada, al igual entre los sujetos de evaluación que se encuentran en poblaciones rurales o urbanas, encontrando que el mejor desempeño en el examen Saber 11° se da en las zonas urbanas y en los estudiantes que pertenecen a instituciones educativas privadas, establece conclusiones muy similares a la investigación realizada por Roca y Granger en cuanto al rendimiento por regiones, es de anotar que este estudio utiliza el análisis multivariante a través de las técnicas de análisis factorial exploratorio (AFE) y confirmatorio (AFC), aplicada a la base de datos de resultados nacionales del Instituto de Fomento de la Educación Superior (ICFES) de las pruebas Saber 11°. Ante este panorama donde se evidencia la complejidad de tratar de determinar el rendimiento de los estudiantes, existen varias aproximaciones desde el punto de vista de la inteligencia artificial para la predicción del rendimiento en las pruebas que miden la calidad de la educación recibida. Hamsa, Indiradevi y Kizhakkethottam (2016) desarrollan un modelo de predicción del rendimiento utilizando los algoritmos de árboles de decisión y algoritmos genéticos difusos (fuzzy genetic), teniendo como sujetos a estudiantes del grado y la maestría de Ciencia de los Computadores, Electrónica y Comunicaciones, con el fin de tratar de predecir su rendimiento en los exámenes finales, para esto establecieron dos clases para la aplicación de los algoritmos de aprendizaje supervisado: aprobado y en riesgo; la aplicación del algoritmo de árboles de decisión predice una mayor cantidad de instancias “en riesgo” académico que aquellos que superan la prueba, el algoritmo genético difuso arroja un resultado contrario porque tiene en cuenta el estado de seguridad mental del estudiante ante los exámenes lo que hace que la clase con mayor número de instancia clasificadas sea la de “aprobado”.
  • 18. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 17 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Otra investigación tendiente a determinar un modelo de predicción del rendimiento en pruebas de evaluación, específicamente en el examen final de estudios profesionales bajo la modalidad e-learning, y la aprobación o no (clase)de las asignaturas impartidas en un periodo específico, desarrolla siete algoritmos de aprendizaje automático (Random Forest, Support Vector Regression, BayesianRidge, Stochastic Gradient Descent, Gaussian Process Regressor, Decision Tree Regressor y Multi-Layer Perceptron), aplicados a tres variantes del conjunto de datos, se concluye que existe un mejor desempeño en general de los algoritmos cuando se tienen en cuenta los atributos demográficos y se aplica el algoritmo Support Vector Regression (Song et al., 2020). En cuanto al modelado, utilizando datos desbalanceados de un atributo determinante como lo es el sexo de los participantes, Sapiezynski, Kassarnig, Wilson, Lehmann, y Mislove (2017), desarrollan un modelo de predicción utilizando el algoritmo Naive Bayes, con presencia escasa de sujetos del sexo femenino, razón por la cual aplican una validación cruzada del modelo con solo tres iteraciones para disminuir el bias o sesgo del modelo en cuanto al atributo del sexo biológico, mejorando la probabilidad de tener, en los datos de entrenamiento y validación, la presencia de ambos sexos. Los investigadores se valieron de un conjunto de datos de seguimiento de más de ochocientos individuos con atributos que dan cuenta de comportamientos y características individuales, el uso de redes para el relacionamiento del grupo de estudiantes y su rendimiento académico a través de tres clases (bajo, medio y alto). Encontraron que al reducir las iteraciones necesarias en la validación obtenían valores de AUC de 0.84 y ROC de 0.67, que puede llevar a concluir que el modelo puede discriminar entre las clases positivas y negativas en la variable del sexo biológico, dejando en evidencia que esta estrategia no se puede generalizar para otros conjuntos de datos. La curva ROC evidencia cómo se comporta el modelo en los umbrales de clasificación determinados por la tasa de verdaderos positivos y la tasa de falsos positivos, la curva AUC en realidad lo que muestra es el área bajo la curva ROC que indica la probabilidad de que las predicciones sean correctas, por lo tanto, un valor de una unidad indicaría que el modelo realiza correctamente el 100% de las predicciones (Google Developers, s. f.-a). En el ámbito nacional, Timaran-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019) desarrollan un modelo de predicción para el rendimiento de los estudiantes en la prueba Saber 11° utilizando como referencia los resultados de las exámenes realizados en 2015 y 2016, utilizan algunos de los atributos del conjunto de datos suministrado por el ICFES, desarrollando una clasificación entre aquellos estudiantes que estaban por encima o por
  • 19. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 18 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 debajo de la media nacional. Para esto utilizaron únicamente el algoritmo de árboles de decisión como técnica de aprendizaje automático con una exactitud del 67% en la predicción del rendimiento en la prueba, utilizando una validación cruzada del modelo. Los atributos con mayor ganancia de información, determinantes en el buen desempeño en la prueba, tienen que ver con los atributos relacionados con el estrato socioeconómico superior o de nivel medio, el tipo de jornada matutina o extendida en que se desarrollan las clases, el índice TIC medio-bajo y las edades inferiores a los dieciocho años; en el caso del bajo rendimiento, los atributos que tienen una ganancia de información mayor son los que tienen que ver con los estratos socioeconómico y el índice TIC en los rangos bajos y el nivel 1 de clasificación en el Sistema de Selección de Beneficiarios para los Programas Sociales (SISBEN). Este estudio no tuvo en cuenta la forma como el ICFES clasifica los rendimientos de los estudiantes, las diferencias regionales, y no desarrolló el entrenamiento y validación con otros algoritmos de aprendizaje automático, este modelo desarrollado puede verse afectado por el alto rendimiento promedio de la región andina. Estos antecedentes van a permitir establecer la relevancia de los atributos del conjunto de datos de la prueba Saber 11° del trienio 2017 - 2019, se evidencia que se deben tener en cuenta varios atributos sociodemográficos comola edad, el sexo, el estrato, el nivel de estudio de los padres, etc. Además, las aproximaciones realizadas a nivel nacional pueden verse influenciadas por el rendimiento en la prueba en las otras regiones del país, especialmente de la región andina, esto evidencia que es mejor trabajar con modelos regionales de predicción del rendimiento de los estudiantes debido a la similitud en las condiciones socioeconómicas.
  • 20. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 19 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 3 Objetivos concretos y metodología de trabajo 3.1 Objetivo general Desarrollar la evaluación de cuatro modelos de aprendizaje automático del rendimiento de los estudiantes de la región Caribe colombiana con base a los resultados de la prueba Saber 11° del trienio 2017 – 2019, utilizando la metodología CRISP-DM con el fin de disponer de una herramienta para la predicción temprana del desempeño de los evaluados. 3.2 Objetivos específicos  Determinar las particularidades de la prueba Saber 11° con el fin de evidenciar las características más importantes del examen y elaborar un plan para el tratamiento de los datos.  Analizar el conjunto de datos suministrado por el ICFES de la prueba Saber 11° del trienio 2017 - 2019 de tal forma que se determinen la calidad de los datos, la necesidad de procesos ETL y conocer los metadatos de los atributos.  Establecer que atributos se van a tener en cuenta en los modelos de predicción con el fin de realizar los procesos de extracción, transformación y limpieza que sean indispensables.  Desarrollar el proceso de modelado utilizando las técnicas de aprendizaje automático de árboles de decisión J48, LMT, reglas de decisión PART y redes neuronales (Multilayer Perceptron).  Evaluar el rendimiento de los modelos de predicción del desempeño de los estudiantes con la finalidad de determinar aquel o aquellos que tengan las mejores métricas de desempeño.
  • 21. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 20 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 3.3 Metodología del trabajo 3.3.1 Tipo de Investigación Esta investigación es de tipo mixto y transversal, donde se van a determinar las características y cualidades relacionadas con la prueba Saber 11º, utilizando procesos de inducción propios de los algoritmos de aprendizaje automático, los datos se van a caracterizancuantitativamente y en consecuencia se utiliza el enfoque exploratorio propio de la metodología CRISP-DM. 3.3.2 Universo y Muestra El universo de la investigación son los datos suministrados por el ICFES de los resultados de la prueba Saber 11° de los estudiantes colombianos. La muestra está conformada por los datos de los resultados de los estudiantes de la región Caribe correspondientes a los años 2017 a 2019, que superan el proceso de extracción, transformación y limpieza (ETL). 3.3.3 Fuentes de información Fuentes primarias: conjunto de datos y demás documentos que se encuentran disponibles en las bases de datos del ICFES relativos a la prueba Saber 11°, tales como guías de orientación, diccionario de datos, descriptores y documentación en general. Fuentes secundarias: información científica y técnica relacionada con la prueba o los atributos de estas, artículos de prensa, información del Ministerio de Educación Nacional de Colombia y del Instituto Colombiano para la Evaluación de la Educación Superior, manuales de las herramientas que se van a utilizar para desarrollar los diferentes procesos necesarios para el desarrollo de la metodología CRISP-DM, etc. 3.3.4 Metodología de desarrollo Este proyecto se desarrollará haciendo uso de la metodología CRISP-DM (Cross Industry Process Model for Data Mining) que sigue un enfoque orientado a metas, es un enfoque maduro que sigue teniendo mucha aceptación en los proyectos de minería de datos a través de algoritmos de aprendizaje automático (Ayele, 2020). Esta metodología provee un enfoque de ciclo de vida en proyectos aplicados de inteligencia artificial (Wirth y Hipp, 2000) y se considera como la metodología ideal para el proceso de descubrimiento de conocimiento en
  • 22. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 21 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 bases de datos (KDD) (Martinez-Plumed et al., 2019). En la figura 1 se pueden ver las diferentes fases de la metodología y la relación que hay entre ellas, obviando la fase final de implementación que no va a ser desarrollada en este proyecto. Figura 1. Fases de la Metodología CRISP-DM Fuente: Elaboración propia, adaptado de Wirth & Hipp (2000) Las fases de la metodología tienen las siguientes características (Gironés-Roig, Casas-Roma, Minguillón-Alfonso, y Caihuelas-Quiles, 2017):  FASE I. Entenderelnegocio: sedebe concretarcuáles son los objetivos del proceso de análisis de datos desde el punto de vista de su utilidad para el negocio. Es importante conocer el punto de partida situacional respecto a estos objetivos con el fin de reconocer los recursos con los que se cuenta, los requisitos y límites. Este análisis previo permitirá determinar las actividades que se deben desarrollar para el alcance de los objetivos del proyecto de análisis de datos.  FASE II. Entender los datos: en esta fase es necesario familiarizarse con los datos, con su estructura, conocer los metadatos, que problemas pueden tener y la forma de mitigar estos inconvenientes. Esta fase determina la calidad de los datos con que contamos para las posteriores fases, por lo tanto, en se deben extraer los datos,
  • 23. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 22 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 caracterizarlos y explorarlos para determinar las no conformidades y la forma de solucionarlas.  FASE III. Preparar los datos: en esta fase se debe construir el conjunto de datos definitivo que va a ser utilizado en las siguientes etapas de la metodología CRISP- DM, se deben identificar los atributos que son relevantes para cumplir los objetivos del proyecto, de ser necesario se puede contemplar en esta fase usar técnicas de muestreo y de selección de atributos.  FASE IV. Modelar:al finalizar esta fase hay que identificar uno o varios modelos que satisfagan los objetivos que se han establecido para el negocio, para esto se deben aplicar varios algoritmos de aprendizaje automático, supervisados o no supervisados, con el fin de escoger el o los algoritmos que tengan el mejor desempeño en la clasificación, asociación o agrupamiento de los datos. En esta fase se pueden utilizar diferentes algoritmos que conlleven al mismo fin de análisis.  FASE V. Evaluar: se valora en qué grado el modelado responde o no a las necesidades plasmadas en la fase I, determinando si el modelo es eficiente o ineficiente. Es también una etapa de descubrimientos donde se evidencia que otros elementos del proceso permiten alcanzar las metas del negocio o ameritan ser resaltadas para un desarrollo futuro más amplio.
  • 24. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 23 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4 Desarrollo específico de la contribución 4.1 Generalidades del examen Saber 11° El gobierno de Colombia a través del Instituto Colombiano para la Evaluación de la Educación Superior (ICFES) se encarga de determinar los factores que tienen incidencia en la calidad de la educación en todos los diferentes grados: primaria, secundaria, media y superior. La siguiente tabla muestra los diferentes tipos de exámenes que desarrolla el ICFES en cada nivel educativo con el fin de hacer vigilancia de la calidad de la educación y de las instituciones educativas. Tabla 1. Exámenes aplicados por el ICFES PRIMARIA Y SECUNDARIA MEDIA SUPERIOR Saber 3°, 5° y 9° Avancemos 4°, 6° y 8° Presaber Saber 11° Validación del bachillerato Saber T y T Saber Pro Saber T y T y Saber Pro en el exterior Fuente: Elaboración propia con información del portal del ICFES (ICFES, s. f.). Otra función del ICFES, además de aplicar la prueba y consolidar los datos, es hacerlos públicos para que los actores del proceso educativo los puedan someter a análisis con los propósitos que cada quien estime conveniente en beneficio de la educación y del entorno de los estudiantes colombianos, al igual que son insumos para reevaluar la infraestructura educativa y los procesos de enseñanza-aprendizaje. El ICFES además de consolidar la información estadística de la prueba, también se encarga de informar a los estudiantes los resultados consolidados y discriminados por área de conocimiento, además de comunicar al sistema educativo las categorías de las instituciones de acuerdo al rendimiento de los evaluados en la prueba. 4.1.1 Antecedentes La prueba se aplica de forma semestral, por lo general en los meses de marzo y agosto, con la finalidad de que los estudiantes de los calendarios A y B puedan desarrollar sus exámenes al culminar sus estudios de educación media. Sus resultados, junto con la información que entregan los estudiantes y las instituciones educativas de las que proceden, permiten vigilar
  • 25. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 24 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 la calidad de la educación ofrecida por las instituciones y tener información que puede ser valiosa para el ciclo posterior de educación superior. A esta prueba se pueden presentar los estudiantes activos en grado 11 de educación media, estudiantes que se encuentran validando el bachillerato e individuos que hayan obtenido anteriormente su título de bachiller pero que necesiten obtener o mejorar los resultados en las pruebas. Inicialmente, en el año 1968, la prueba se desarrollaba para apoyar los procesos de ingreso a la educación superior, pero no era requisito para ingresar a los diferentes programas ofrecidos por las instituciones de educación superior. A partir del año 1980, presentar los resultados de la prueba se vuelve obligatorio para ingresar a la educación superior técnica, tecnológica o profesional, se convierte en un referente de la calidad de la educación por el Decreto 2343 de 1980 que reglamenta los exámenes de estado para el ingreso a la educación superior. Cuando se comienza a implementar la educación basada en competencias en el año 2000, el examen se adapta a este paradigma y pretende medir el grado en que los estudiantes alcanzan las competencias en las áreas que son evaluadas. El Ministerio de Educación Nacional es el ente encargado de desarrollar los estándares básicos de competencias que sirven como base para que el ICFES realice la labor de diseño del examen. En la segunda parte del año 2014, con la intención de consolidar un Sistema Nacional de Evaluación Estandarizada (SNEE), el diseño de las pruebas Saber se homogeniza con el fin de poder comparar el avance en las competencias genéricas evaluadas en las diferentes áreas de las pruebas Saber aplicadas en todos los niveles de educación. 4.1.2 Áreas de evaluación La prueba se conforma por preguntas cerradas que deben ser diligenciadas por los evaluados en una hoja de respuesta utilizando exclusivamente lápiz de grafito, además no se pueden usar calculadoras en su desarrollo. En la figura 2 se puede ver un ejemplo de una hoja de respuestas de la prueba y un acercamiento a los ítems de respuesta de la prueba, las opciones de rellenado se distribuyen en columnas con filas numeradas y la respectiva identificación de la sesión que se está evaluando, en la parte inferior se encuentra el cuestionario socioeconómico que hace parte de la mayoría de los atributos del conjunto de datos. Por lo general, en el primer semestre se evalúa a los estudiantes de calendario “B”, el grupo menos numeroso, y en el segundo semestre los de calendario “A”, a los que pertenecen la
  • 26. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 25 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 gran mayoría de los estudiantes de grado 11. En la tabla 2 se puede ver la evolución de las áreas evaluadas en la prueba, en especial los cambios que tuvieron lugar después de la implementación del SNEE en el año 2014, se puede distinguir las diferentes sub áreas que se evalúan y la evolución que han tenido en el tiempo. Se evidencia que a partir del segundo semestre del año 2014 las sub áreas de Lenguaje y Filosofía se fusiona en la sub área de Lectura Crítica, la de Matemáticas se complementa con ítems que buscan medir las competencias en razonamiento cuantitativo, las sub áreas de Física, Química y Biología se fusionan en una de Ciencias Naturales, las de Historia y Geografía primero se fusionan como Ciencias Sociales y en el 2014 se adicionan las competencias ciudadanas, y por último la segunda lengua evaluada a partir del 2006 es exclusivamente el idioma inglés (MEN, 2017). Figura 2. Cuadernillo de respuestas de la prueba Saber 11° Fuente: Guía de orientación Saber 11° (ICFES, 2019a)
  • 27. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 26 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Tabla 2. Sub áreas de evaluación en el examen Saber 11° 2000 1S – 2005 2S 2006 1S – 2014 1S 2014 2S – Actualidad Lenguaje Filosofía Lenguaje Filosofía Lectura crítica Matemáticas Matemáticas Matemáticas (incluyendo Razonamiento Cuantitativo) Física Química Biología Física Química Biología Ciencias Naturales Historia Ciencias Sociales Sociales y Ciudadanas Geografía Idioma Inglés Inglés Fuente: Guía del Usuario Saber 11° (ICFES, 2018) 4.1.3 Propósitos del examen A través de su evolución en el tiempo el examen ha tenido varios fines u objetivos, entre los cuales podemos mencionar (ICFES, 2019b):  Determinar el alcance de las competencias de los discentes que van a finalizar su bachillerato.  Brindar una herramienta que permita a los examinados verificar su avance con respecto a sus aspiraciones en la vida.  Servir como base a las instituciones educativas para desarrollar planes de acompañamiento en educación superior, desempeños mínimos en la prueba para aspirar cupos en su oferta profesional y establecer acciones que puedan evitar la deserción temprana.  Medir la calidad de la educación en las instituciones de educación media de acuerdo a los patrones de aptitud y referentes de calidad del Ministerio de Educación Nacional.  Ofrecer los datos para que sirvan en la implementación de indicadores de eficiencia en el servicio educativo que pueda interesar como base para el control estatal y ciudadano de la calidad de la educación.  Permitir que las instituciones educativas usen los datos para desarrollar procesos de autoevaluación que permitan mejorar y orientar sus procesos de enseñanza- aprendizaje.  Servir como base para el establecimiento de políticas públicas a nivel nacional, regional y local por parte de las entidades que propenden por el servicio educativo.
  • 28. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 27 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4.1.4 Competencias evaluadas y niveles de mediciónen las áreasde la prueba La tabla 3 muestra las competencias evaluadas y los niveles de medición en cada área del conocimiento que se evalúa en la prueba Saber 11°: Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la prueba ÁREA COMPETENCIAS EVALUADAS NIVELES DE MEDICIÓN Lectura crítica  Identificar y entender los contenidos locales que conforman un texto.  Comprender como se articulan las partes de un texto para darle un sentido global.  Reflexionar a partir de un texto y evaluar su contenido. Nominal ordinal (basado en percentiles)  0 – 40: Insuficiente  41 – 68: Mínimo  69 – 80: Satisfactorio  81 – 100: Avanzado Matemáticas  Interpretación y evaluación.  Formulación y ejecución.  Argumentación. Sociales y ciudadanas  Pensamiento social.  Interpretación y análisis de perspectivas.  Pensamiento reflexivo y sistémico. Ciencias naturales  Uso comprensivo del conocimiento científico.  Explicación de fenómenos.  Indagación. Inglés  Se evalúan las competencias de acuerdo con el Marco Común Europeo de Referencia para las lenguas (MCER). Nominal ordinal  A-  A1  A2  B1  B+ También tiene su equivalente a percentiles Fuente: Elaboración propia a partir de la Guía de orientación Saber 11° (ICFES, 2019a) Comose puede observar los valores de cada nivel ordinal en todas las áreas evaluadas siguen la misma escala, a excepción del área de inglés que presenta la escala MCER modificada, dado que se agrega el nivel A- que corresponde a los estudiantes que no alcanzan el nivel básico A1, y el nivel B+ implica aquellos estudiantes que clasifican en este nivel o un nivel superior del idioma.
  • 29. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 28 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 La valoración total de la prueba es de tipo numéricoy tiene el mismonivel de medición nominal ordinal de las áreas del conocimiento, para el presente proyecto va a ser el atributo que contendrá la clasificación de las diferentes instancias de los modelos de predicción del rendimiento que se van a evaluar. 4.1.5 Índice de necesidades socioeconómicas (INSE) El ICFES ha desarrollado un indicador que permite clasificar a los participantes de acuerdo al resultado del cuestionario socioeconómico que se aplica a la prueba. Está basado en las teorías de Coleman, Bradley & Corwyn (1988) de la relación de los capitales físicos, human os y sociales y su relación con la sensación de bienestar de los individuos. La metodología de cálculo de este índice ha permitido categorizar a los estudiantes en el índice NSE toma los valores de uno a cuatro, siendo estos los extremos los evaluados con alto y alto bajo nivel de necesidades socioeconómicas insatisfechas. En los años 2009 a 2012, este índice se calculaba usando los lineamientos de los métodos multivariantes, utilizados por la Dirección Nacional de Planeación (DNP), sobre los atributos que hacen parte del aspecto socioeconómico de los evaluados y su entorno familiar. Desde el año 2012 el cálculo de este índice se desarrolla utilizando la metodología de la Teoría de Respuesta al Ítem que permite que se tenga una escala de medición comparable entre periodos. Con el fin de determinar un conjunto reducido de atributos que tengan un aporte de información significativo para la medición del nivel socioeconómico se utiliza en análisis de componentes principales, esto hace que el nivel socioeconómico (NSE) sea comparable entre periodos o aplicaciones de la prueba. El INSE, de tipo numérico,se emplea comoinsumo para categorizar los atributos en el NSE de los participantes (ICFES, 2019d). En las figuras 3 y 4, muestran los intervalos del INSE que sirven para definir el NSE, este último es resultado de la aplicación de algoritmos de árboles de decisión para clasificar a los evaluados en alguna de las cuatro categorías.
  • 30. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 29 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas Fuente: ICFES (2019d) Figura 4. Descriptores socioeconómicos Fuente: ICFES (2019d) 4.1.6 Clasificación de planteles educativos El rendimiento de los estudiantes, además de reflejar el grado de desarrollo de las competencias de los estudiantes en las diferentes áreas de conocimiento evaluadas, permite también caracterizarla calidad de los planteles educativos y esto a suvez define el incremento máximo en el valor de las matrículas y pensiones para el año posterior al desarrollo de la
  • 31. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 30 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 prueba, estos incrementos se realizan dos veces en el año dependiendo de la jornada académica de las instituciones. La clasificación de las instituciones educativas tiene en cuenta el resultado de los estudiantes en las cinco áreas del conocimiento que se evalúan en la prueba, utilizando un indicador de Índice General (IG) que se calcula tal como semuestra en las ecuaciones 1 y 2, y no solamente tiene en cuenta la media de las calificaciones sino también la varianza de las mismas, para tal efecto únicamente se tienen en cuenta el 80% de las mejores calificaciones en cada área sin incluir a los evaluados que se encuentran repitiendo la prueba y excluyendo a los estudiantes con algún tipo de capacidades especiales (para no usar el término discapacidad que utiliza la fuente) que tomen una versión modificada de la prueba (ICFES, 2014). Para calcular el Índice General se utiliza la siguiente fórmula: 𝐼𝐺 = (3𝐼𝑀 ) + (3𝐼𝐿𝐶 ) + (3𝐼𝐶𝑁 ) + (3𝐼𝑆𝐶𝐶 ) + (3𝐼𝐼 ) 13 Ecuación 1. Cálculo Índice General Cada uno de los índices de cada área se calculan utilizando la siguiente ecuación: 𝐼𝑃 = 𝜇𝑖 1 − 𝜎𝑖 2 Ecuación 2. Cálculo del índice por área Donde: 𝜇𝑖: media de los puntajes en la prueba i 𝜎𝑖 2 : varianza de los puntajes en la prueba i La aplicación de estas ecuaciones permite clasificara los colegios en cinco categorías, siendo la categoría A+ la evaluación más alta para las instituciones de educación básica. La relación entre estas categorías y el Índice General se puede observar en la tabla 4. De ahí la importancia que las instituciones educativas, en especial las de origen privado, le dan al rendimiento de sus estudiantes en la prueba, con el propósito de mejorar sus resultados estas desarrollan capacitaciones y simulacros previos con el fin de poder identificar aspectos para mejorar el rendimiento en la prueba.
  • 32. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 31 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global Categoría Rango del Índice General A+ IG > 0.77 A 0.72 < IG ≤ 0.77 B 0.67 < IG ≤ 0.72 C 0.62 < IG ≤ 0.67 D 0 ≤ IG ≤ 0.77 Fuente: Portal del ICFES (2010) 4.1.7 Becas por el rendimiento en las pruebas Saber 11° Además, del beneficio económicoque les puede representar a las instituciones educativas las alzas anuales en matrículas y pensiones de acuerdo a la categoría alcanzada por los resultados en las pruebas, los estudiantes con los mejores puntajes pueden acceder a diferentes estímulos becarios para poder estudiar sus pregrados en las diferentes instituciones de educación superior que tiene el país. Los mejores bachilleres, galardonados a través de resolución por el Ministerio de Educación Nacional con la distinción “Andrés Bello”, reciben subsidios de matrículas y de sostenimiento en la institución de educación superior donde superen el proceso de admisión. El subsidio de sostenimiento dependerá de la ubicación de su lugar de residencia y la sede de la institución educativa donde van a continuar sus estudios, este subsidio estaría entre uno y cuatro salarios mínimos legales vigentes (SMLV) (ICETEX, 2020). Además del beneficio anterior, el actual gobierno estableció un programa para que los estudiantes del país tengan accesoa la educación superior, el programa se llama “Generación E”, que en gobiernos anteriores se conocía como “Ser Pilo Paga”, con la diferencia en que en el nuevo programa se aumenta la cantidad de usuarios beneficiados debido a la asignación de un presupuesto nacional importante. El programa maneja dos opciones: Generación E Excelencia Nacional, y Generación E Equidad; el ICFES en el conjunto de datos de los resultados de las pruebas específica a cuál de las modalidades puede aspirar el evaluado si cumple con: las condiciones de puntaje total en la prueba, puntajes máximos en el SISBEN, estar dentro de los 10 mejores puntajes de departamentos seleccionados, rango de edad, etc. Este programa condona el 100% de los costos a los estudiantes que se matriculen en instituciones de educación superior públicas y 75% para quienes acudan a las instituciones privadas (Cepeda, 2019).
  • 33. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 32 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4.1.8 Actividades para validación de los modelos de rendimiento en la prueba De acuerdo a lo que se ha visto en este capítulo, el rendimiento de la prueba puede ser analizado desde varios puntos de vista, el primero es desde la óptica del rendimiento en cada prueba, y el segundo desde el rendimiento global de la misma. Otro enfoque interesante es determinar un modelo que permita predecir la categoría de las instituciones educativas haciendo un cruce entre los conjuntos de datos de los resultados de los estudiantes en la prueba, con el de la categorización de los colegios de Colombia. Es claro que el objetivo principal del ICFES y de las instituciones educativas es incrementar el desempeño en la prueba saber 11°, lo cual repercutiría en la percepción de la calidad de la educación del país, evidenciando mejoras en los procesos académicos y de enseñanza, incremento en la calidad de las instituciones educativas de educación básica y jalonaría el desempeño en la prueba PISA, donde Colombia ocupó en el año 2019 una de las la últimas posiciones de los países de la OCDE, quedando por debajo de la media de los resultados de estos en las áreas evaluadas de lectura, matemáticas y ciencias; la OCDE infiere que el nivel socioeconómico tiene una gran influencia en los resultados de la prueba PISA. Para este proyecto se establecerán tres modelos de predicción con el fin de determinar el que presente las mejores métricas para el rendimiento de los estudiantes en la prueba en la región Caribe colombiana, el rendimiento es una función de los atributos que hacen parte del cuestionario sociodemográfico y aquellos relacionados con las instituciones educativas. Por lo anterior, se hace necesario desarrollar las siguientes actividades con el fin de validar los modelos y encontrar el que mejor se ajuste a los atributos del conjunto de datos:  Obtención de los datos desde el sistema de bases de datos del ICFES de los años 2017 a 2019.  Filtrado de los datos por los departamentos de la región Caribe: Atlántico, Bolívar, César, Córdoba, La Guajira, Magdalena, San Andrés y Sucre.  Extracción de los datos pertinentes, transformación y limpieza.  Integración de los datos en un solo conjunto de datos.  Selección de los atributos y las instancias que van a hacer parte de los modelos.  Aplicación de algoritmos de aprendizaje automático de árboles de decisión (J48 y
  • 34. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 33 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 LMT), de reglas (PART) y de redes neuronales (MLP).  Elección y aplicación del método de validación del modelo.  Análisis de las métricas para determinar el mejor modelo con el que se puede predecir el rendimiento en la prueba Saber 11°. 4.2 Conjunto de datos de la prueba Saber 11° El ICFES pone a disposición de los interesados las bases de datos de las pruebas que aplica a nivel nacional, este servicio de datos recibe el nombre de “DataIcfes” y se encuentra ubicado en la URL https://www.icfes.gov.co/investigadores-y-estudiantes-posgrado/acceso-a-bases- de-datos. Para poder hacer uso de esta base de datos los interesados deben registrarse suministrando sus nombres y una dirección de correo electrónico, una vez sea aprobada su solicitud el sistema envía una contraseña para poder acceder al sistema y desarrollar las consultas necesarias. 4.2.1 Ingreso al portal DataIcfes En la figura 5 se puede observar la página de acceso al portal DataIcfes, para ingresar se puede solicitar una contraseña para el acceso a la base de datos de las diferentes pruebas aplicadas por el ICFES, una vez se ha ingresado a la base de datos se despliega un servicio de almacenamiento en la nube de Microsoft OneDrive. Se permite el uso de los datos disponibles en el repositorio DataIcfes para propósitos investigativos, durante el desarrollo de la prueba se solicita a los estudiantes permiso para el uso de datos personales como sus nombres y apellidos, dirección, fecha de nacimiento, número de identificación, correo electrónico, números de contacto (estos datos no se hacen públicos y son de conocimiento exclusivo del ICFES), y los datos socioeconómicos que son diligenciados durante la prueba; previamente los datos de las instituciones educativas han sido recopilados durante el registro que hacen los planteles educativos. Los usuarios de los datos no pueden hacer pública la información personal de los estudiantes o perfilamientos sin permiso expreso de los interesados de acuerdo a lo dispuesto en el decreto ley 1377 del 27 de junio del año 2013 el cual reglamenta la Ley 1581 del año 2012 en cuanto a las autorizaciones para el tratamiento, las políticas de tratamiento, los derechos de los titulares, las transferencias y transmisiones y la responsabilidad ante los datos privados.
  • 35. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 34 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 5. Página del portal de las bases de datos DataIcfes Fuente: ICFES El presente proyecto no requirió al ICFES los datos personales de los evaluados, ni desarrolló perfilamiento alguno que permitan identificar unívocamente a los titulares de la información reflejada en las instancias del conjunto de datos. Una vez que se ha ingresado al sistema y a la carpeta Saber 11, ver figura 6, se tiene acceso al árbol de directorios con información pertinente a la prueba, estructurada de la siguiente forma: 1. Guía del usuario del portal DataIcfes en PDF. 2. Documentos, tales como la documentación Saber 11°, documentación referente al cálculo del INSE (Índice del Nivel Socioeconómico) y la metodología para la clasificación de planteles educativos. 3. Resultados Saber 11°, desde el año 2000 al 2019 para los dos calendarios académicos de cada año comprimidos en ZIP. 4. Clasificación de Planteles, desde el año 2001 comprimidos en ZIP.
  • 36. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 35 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11° Fuente: Portal DataIcfes 4.2.2 Extracción de los datos Una vez que se ha identificado el origen de los datos se proceden a descargar los correspondientes a los resultados del examen en los años 2017, 2018 y 2019. El proceso de carga se intenta desarrollar por OpenRefine y EmEditor, OpenRefine tiene problemas de memoria con la data más extensa correspondiente al calendario A, EmEditor carga los datos, pero se observan algunas instancias que no pueden manejar el separador “¬” utilizado en los archivos de texto; se hace la carga con éxito en la aplicación Power BI Desktop tal como se muestra en la figura 7. Para cada año se publican dos conjuntos de datos diferentes, uno de la prueba aplicada en el mes de marzo y otro de la prueba del mes de agosto, para un total de seis conjuntos de datos para el trienio 2017 - 2019. Una vez los datos de los resultados se encuentran cargados en Power BI, se anexan las consultas en una sola tabla, seguidamente se hace necesario convertir a tipo fecha el campo “PERIODO” que es de tipo texto con la finalidad de que se tenga esta referencia para el cálculo posterior de la edad de los evaluados de acuerdo a su fecha de nacimiento.
  • 37. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 36 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 7. Datos cargados en Power BI Desktop Fuente: Elaboración propia 4.2.3 Descripción del conjunto de datos El conjunto de datos se divide en seis bloques o dimensiones, estos bloques son:  Información personal  Información de contacto  Información socioeconómica  Información del colegio  Datos de citación y resultados Originalmente, cada conjunto de datos por periodo está compuesto por 71 atributos, sin tener en cuenta los atributos de tipo identificador, tales como los códigos de la distribución geográfica, códigos de exámenes, etc. Desde el segundo periodo del año 2018 se implementa en Colombia el programa “Generación E” como una mejora al programa “Ser Pilo Paga”, por
  • 38. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 37 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 eso al momento de integrar los seis conjuntos de datos los atributos se incrementan a 72, adicionalmente se generará el atributo derivado EDAD que se obtiene de la diferencia de la fecha de aplicación del examen y la fecha de nacimiento del evaluado, lo que nos incrementa el número de atributos a 73. En cuanto al número de instancias, una vez que se integran las tablas de los resultados del 2017 al 2019, se cuenta con 1,689,010 instancias y una vez que se filtran las instancias pertenecientes a los departamentos de la región Caribe el número de instancias disminuye a 381,782. Cómo se observa en la tabla 5, no se puede identificar a los participantes de la prueba dado que el ICFES, previamente a la publicación en el repositorio DataIcfes, ha anonimizado los datos de acuerdo a los lineamientos legales de la Ley 1581 de 2012 y el Decreto Ley 1377 de 2013. Tabla 5. Características del conjunto de datos DIMENSIÓN ATRIBUTOS Tipo Descripción INFORMACIÓN PERSONAL ESTU_TIPODOCUMENTO Nominal Tipo de documento ESTU_NACIONALIDAD Nominal Nacionalidad ESTU_GENERO Nominal Género ESTU_FECHANACIMIENTO Fecha Fecha de nacimiento PERIODO Nominal Periodo de presentación ESTU_ESTUDIANTE Nominal Tipo de inscripción ESTU_PAIS_RESIDE Nominal País de residencia ESTU_ETNIA Nominal Grupo étnico INFORMACIÓN DE CONTACTO ESTU_DEPTO_RESIDE Nominal Departamento residencia ESTU_MCPIO_RESIDE Nominal Municipio de residencia INFORMACIÓN SOCIOECONÓMICA FAMI_ESTRATOVIVIENDA Nominal Estrato socioeconómico de la vivienda FAMI_PERSONASHOGAR Nominal Número de personas en el hogar FAMI_CUARTOSHOGAR Nominal Número de cuartos (habitaciones) FAMI_EDUCACIONPADRE Nominal Nivel educativo del padre FAMI_EDUCACIONMADRE Nominal Nivel educativo de la madre
  • 39. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 38 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 DIMENSIÓN ATRIBUTOS Tipo Descripción FAMI_TRABAJOLABORPADRE Nominal Labor del trabajo del padre FAMI_TRABAJOLABORMADRE Nominal Labor del trabajo de la madre FAMI_TIENEINTERNET Booleano Disponibilidad de Internet FAMI_TIENESERVICIOTV Booleano Servicio de televisión cerrada FAMI_TIENECOMPUTADOR Booleano Tiene computadora FAMI_TIENELAVADORA Booleano Tiene lavadora FAMI_TIENEHORNOMICROONGAS Booleano Tiene horno microondas o de gas FAMI_TIENEAUTOMOVIL Booleano Tiene automóvil FAMI_TIENEMOTOCICLETA Booleano Tiene motocicleta FAMI_TIENECONSOLAVIDEOJUEGOS Booleano Tiene consola de videojuegos FAMI_NUMLIBROS Nominal Cantidad de libros,revistas y similares en el hogar FAMI_COMELECHEDERIVADOS Nominal Veces por semana que consume derivados lácteos FAMI_COMECARNEPESCADOHUEVO Nominal Veces por semana que consume pescado y huevo FAMI_COMECEREALFRUTOSLEGUMBRE Nominal Veces por semana que consume cereales – frutas – legumbres FAMI_SITUACIONECONOMICA Nominal Percepción de la situación económica respecto al año anterior ESTU_DEDICACIONLECTURADIARIA Nominal Horas dedicadas a la lectura por semana ESTU_DEDICACIONINTERNET Nominal Horas de uso de internetpor día ESTU_HORASSEMANATRABAJA Nominal Horas de trabajo por semana ESTU_TIPOREMUNERACION Nominal Tipo de remuneración por las horas trabajadas INFORMACIÓN DEL COLE_NOMBRE_ESTABLECIMIENTO Nominal Nombre del
  • 40. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 39 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 DIMENSIÓN ATRIBUTOS Tipo Descripción COLEGIO establecimiento COLE_GENERO Nominal Género de la población de estudiantes del colegio COLE_NATURALEZA Nominal Naturaleza legal COLE_CALENDARIO Nominal Calendario académico COLE_BILINGUE Booleano Educación bilingüe COLE_CARACTER Nominal Carácter COLE_NOMBRE_SEDE Nominal Nombre de la sede COLE_SEDE_PRINCIPAL Booleano Indica si la sede es la principal COLE_AREA_UBICACION Nominal Área de ubicación del colegio COLE_JORNADA Nominal Jornada COLE_MCPIO_UBICACION Nominal Municipio de ubicación COLE_DEPTO_UBICACION Nominal Departamento de ubicación DATOS DE CITACIÓN ESTU_PRIVADO_LIBERTAD Booleano Condición judicial del evaluado ESTU_MCPIO_PRESENTACION Nominal Municipio de presentación ESTU_DEPTO_PRESENTACION Nominal Departamento de presentación RESULTADOS PUNT_LECTURA_CRITICA Numérico Puntajes, percentiles y desempeño en las áreas de lectura crítica, matemática, ciencias naturales, ciencias sociales y ciudadanas,e inglés PERCENTIL_LECTURA_CRITICA Numérico DESEMP_LECTURA_CRITICA Numérico PUNT_MATEMATICA Numérico PERCENTIL_MATEMÁTICAS Numérico DESEMP_MATEMATICAS Numérico PUNT_C_NATURALES Numérico PERCENTIL_C_NATURALES Numérico DESEMP_C_NATURALES Numérico PUNT_SOCIALES_CIUDADANAS Numérico PERCENTIL_SOCIALES_CIUDADANAS Numérico DESEMP_SOCIALES_CIUDADANAS Numérico PUNT_INGLES Numérico PERCENTIL_INGLES Numérico DESEMP_INGLES Numérico PUNT_GLOBAL Numérico Puntaje, percentiles y desempeño global de la prueba PERCENTIL_GLOBAL Numérico ESTU_INSE_INDIVIDUAL Numérico ESTU_NSE_INDIVIDUAL Nominal Nivel socioeconómico estudiante ESTU_NSE_ESTABLECIMIENTO Numérico Nivel socioeconómico del establecimiento ESTU_ESTADOINVESTIGACION Nominal Estado de los resultados para los evaluados ESTU_GENERACIONE Nominal Informa si
  • 41. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 40 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 DIMENSIÓN ATRIBUTOS Tipo Descripción ESTU_PILO_PAGA Nominal clasifica al programa Fuente: Diccionario de variables Saber 11° ubicado en el repositorio DataIcfes 4.2.4 Análisis del conjunto de datos Con el fin de evidenciar, los percentiles promedio nacionales de las calificaciones de cada área de conocimiento, se desarrolla un dashboard en Power BI para los resultados a nivel nacional para comparar estos con los de la región Caribe. En la figura 8, aproximando al entero más cercano, el resultado nacional se encuentra en el percentil 50 donde se ubica la media y la mediana de la escala indicando que la mitad de los estudiantes se encuentran por debajo de la media nacional y la otra parte por encima de esta, estos resultados incluyen a los colegios de naturaleza oficial y no oficiales (privados). Específicamente, los resultados de la región Caribe están 7.8 percentiles por debajo de la media nacional, ver figura 9, siendo un indicativo de los esfuerzos que debe hacer la región para alcanzar los resultados nacionales, la región tiene el reto de mejorar las condiciones socioeconómicas y la calidad de la educación con la colaboración de todos los actores del proceso. Figura 8. Promedio nacional de los percentiles de las áreas evaluadas Fuente: Elaboración propia
  • 42. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 41 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas Fuente: Elaboración propia En los departamentos de la región Caribe (Atlántico, Bolívar, César, Córdoba, La Guajira, Magdalena, San Andrés y Sucre), el 72.1% de las instituciones son oficiales (públicas) mientras que el resto de ellas pertenecen al sector privado (figura 10), de ahí el peso que las instituciones oficiales tienen en el promedio de las calificaciones de las áreas evaluadas en la prueba. Figura 10. Cantidad de instituciones educativas por naturaleza Fuente: Elaboración propia El calendario académico “A”, que inicia actividades en febrero, es al que se acoge una mayor cantidad de las instituciones educativas representando el 98.45% del total nacional. Los otros calendarios, representan solo el 1.45% e inician su periodo de actividades en el mes de septiembre, estos no tienen presencia en algunos departamentos y muy poca presencia en los municipios del país (figura 11).
  • 43. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 42 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 11. Cantidad de instituciones educativas por su naturaleza Fuente: Elaboración propia Observando las líneas de tendencia, el rendimiento en las áreas de conocimiento evaluadas tiende a disminuir desde el año 2018, solo hay un leve incremento desde el segundo periodo del mismo año en el caso de las calificaciones del área de Lectura Crítica, desafortunadamente tiene poca incidencia en el promedio global de calificaciones, las áreas de matemáticas e inglés son la que tienen la pendiente más negativa en las líneas de tendencia indicando que son las áreas en las que desde el 2018 evidencian un bajo rendimiento promedio ubicándose por debajo del percentil 60 en el segundo periodo del año 2019. Si se analizan estas gráficas de acuerdo con el calendario académico de los colegios, el mejor rendimiento promedio se presenta en los estudiantes provenientes de instituciones que pertenecen al calendario “B”, pocas instituciones educativas pertenecen a este calendario, son de carácter privado y por lo general los estudiantes tienen un mejor nivel socioeconómico. El rendimiento promedio más bajo se presenta en el calendario “A”, quienes desarrollan la prueba en el segundo semestre de cada año, el mayor número de estudiantes evaluados del país pertenecen a este calendario, hacen parte de este todas las instituciones oficiales (del gobierno) y en menor proporción las no oficiales (privadas). Los colegios que manejan otros calendarios académicos tienen un rendimiento que se ubica por encima del rendimiento de las instituciones del calendario “A” y por debajo del rendimiento de las del calendario “B”, es el calendario con el menor número de estudiantes en el país y las instituciones se asimilan en muchos aspectos a los colegios de calendario “B”. Las gráficas 12 y 13 muestran en el eje de las ordenadas el rendimiento promedio y en el eje de las abscisas la fecha de presentación de las pruebas, en ellas se puede apreciar la tendencia en
  • 44. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 43 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 el tiempo de los percentiles promedio por área del saber y por calendario académico. Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias Naturales y Ciencias Sociales y Ciudadanas Fuente: Elaboración propia En cuanto al rendimiento de los colegios por su naturaleza (figura 14), los colegios privados obtienen un puntaje promedio superior a la media ubicándose en el percentil 55, casocontrario ocurre con los colegios oficiales donde al parecer existen factores determinantes de bajo rendimiento en la prueba haciendo que este se ubique en el percentil 39. La línea de tiempo, de la figura 15, muestra la tendencia negativa en el rendimiento de los colegios oficiales y no oficiales, aunque se observa un ligero incremento en el rendimiento de los colegios públicos en el segundo semestre del año comparado con el primer semestre del año 2019, aunque estas medidas no son comparables dado a que los promedios se calculan en base a los resultados de pocos estudiantes que se presenta a realizar la prueba en las fechas de los exámenes del calendario “B”. Esta disparidad en el rendimiento en las áreas de conocimiento, pueden reflejar falencias en gran parte del sistema educativo, es probablemente la causa de estar entre las peores notas de los países de la OCDE, junto con Panamá y República Dominicana, en las pruebas internacionales PISA donde se evalúan las áreas de lectura, matemáticas y ciencias (Portafolio, 2019).
  • 45. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 44 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 13. Percentiles promedio en el área de Inglés y rendimiento global Fuente: Elaboración propia Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas Fuente: Elaboración propia
  • 46. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 45 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa Fuente: Elaboración propia Las condiciones existentes en la gran mayoría de los territorios rurales (figura 16) pueden tener incidencia en el rendimiento de los evaluados ubicados en esas áreas geográficas de tipo rural, el rendimiento es inferior al de los evaluados en las áreas urbanas. Este bajo rendimiento puede estar influenciado por los problemas de infraestructura vial, el acceso a servicios públicos básicos, la disponibilidad de las tecnologías, las deficiencias en la conectividad, etc., muy a pesar de que el gobierno nacional destina partidas para el sector educativo y obras subsidiarias, estas no tienen un manejo adecuado haciendo que gran parte de los colegios no cuenten con las facilidades y medios adecuados para su labor. Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas Fuente: Elaboración propia
  • 47. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 46 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 En cuanto al sexo de los evaluados, se destaca el promedio que obtienen los colegios que son exclusivos del sexo femenino en los resultados de la prueba, ubicándose por encima de las instituciones educativas donde prima el sexo masculino y muy por encima del rendimiento de los colegios con enfoque de mixto de género (figura 17), no se puede generalizar, pero al parecer con miras a los resultados no es conveniente un enfoque de género mixto en los colegios. Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones educativas Fuente: Elaboración propia Las siguientes dos figuras tienen relación con el tiempo de dedicación en la labor educativa y el énfasis en las jornadas de las instituciones educativas. Las tres jornadas que más establecen los colegios para su labor son la de la mañana, la de la tarde y la de la noche; las jornadas menos implementadas en los colegios son la sabatina, la completa y la única (figura 18). Sin embargo, las mejores calificaciones en la prueba las obtienen los estudiantes de las instituciones que implementan jornada completa, seguidos por la jornada única y la jornada matutina (figura 19). Queda claro que el tiempo de dedicación a las labores académicas puede tener un impacto significativo en las áreas evaluadas en la prueba.
  • 48. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 47 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 18. Número de instituciones educativas por jornada Fuente: Elaboración propia Figura 19. Rendimiento promedio por jornada académica Fuente: Elaboración propia Con relación al estrato socioeconómico de la vivienda familiar de los estudiantes (figura 20), a excepción del estrato 1, no se ven diferencias significativas en los puntajes promedio de la prueba Saber 11°, el estrato uno tiene un rendimiento promedio de 3 a 6 percentiles por debajo de los demás estratos, mientras que la diferencia entre los estratos 2 al 6 es en promedio de 1 a 3 percentiles. Es muy común encontrar en los sectores de estrato 1 al 4, familias que tienen una mejor posición socioeconómica y viviendas con mejoras significativas en
  • 49. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 48 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 comparación con su entorno, el gobierno colombiano maneja la estratificación por lo general por sectores, muchos de los habitantes no cambian sus sectores de residencia a otros de estratos más altos para no aumentar su carga económica en cuanto a impuestos y servicios públicos. Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda Fuente: Elaboración propia El nivel socioeconómico (NSE) refleja, de acuerdo al ICFES, la diferencia en el rendimiento de acuerdo a nivel social y económico de las familias de los estudiantes, en la figura 21 se puede observar que el rendimiento promedio de los evaluados en la prueba es directamente proporcional a su clasificación NSE. Los estudiantes alcanzan en el nivel 1 solo un promedio de 32 percentiles en el puntaje global, mientras que aquellos que se encuentran en el nivel 4 alcanzan valores muy por encima de la media llegado al percentil promedio 73. Todo parece indicar que el grado de necesidades insatisfechas puede afectar el rendimiento de los estudiantes, algo en lo que se debe seguir trabajando desde las políticas del gobierno nacional, regional y local. Respecto al atributo derivado de la edad, el gráfico de dispersión de la figura 22 muestra el rendimiento en la prueba en función de la edad, es evidente que existe una relación inversa entre estas dos variables, a mayor edad menor rendimiento. Se presentan algunos valores atípicos que tendrán que analizarse y corregirse posteriormente.
  • 50. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 49 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados Fuente: Elaboración propia Figura 22. Rendimiento en la prueba en función de la edad Fuente: Elaboración propia Referente a la intensidad en el uso diario de la Internet, a pesar de que el promedio en las calificaciones de los estudiantes aumenta con el tiempo de uso, apenas alcanzan a superar la media nacional (figura 23), aquellos evaluados que no usan internet alcanzan en promedio un rendimiento de 32 percentiles, pero una vez se va aumentando la intensidad en el uso de internet los promedios mejoran hasta llegar a 51 percentiles en aquellos estudiantes que utilizan este servicio por más de tres horas. No necesariamente su uso tiene que ver con actividades de aprendizaje y quizás es utilizado en la mayor parte del tiempo para el ocio. Hay un trabajo importante encaminado a mejorar las estrategias educativas para incrementar la forma en que se puede aprovechar la información disponible en la red para mejorar el desempeño general en la prueba.