Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
FACULTAD DE CIENCIAS E INGENIERÍA
Carrera 9 No. 19-03
Conmutador (6) 887 9680 extensión: 1689
Manizales, Caldas, Colombia
...
Nº 28 - enero - junio / 2013

GUILLERMO ORLANDO SIERRA SIERRA
Rector
JORGE IVÁN JURADO SALGADO
Vicerrector
GERMÁN WILLIAM ...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Comité editorial
Mario Andrés GIRALDO FADUL, PhD.
California ...
Nº 28 - enero - junio / 2013

Diego Samir MELO SOLARTE, PhD(c).
Universidad de Manizales - Manizales, Caldas, Colombia
Car...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Nery Francisco HERRERA PINEDA, MSc.
Universidad Católica de E...
Nº 28 - enero - junio / 2013

6
Universidad de Manizales

Facultad de Ciencias e Ingeniería

En esta edición
	Página
Editorial...............................
Nº 28 - enero - junio / 2013

Estrategias educativas para la inserción
social del egresado de Ingeniería Mecánica............
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Editorial
Omar Antonio VEGA1
Director/Editor

La edición 28, ...
Nº 28 - enero - junio / 2013

en programas de pregrado, mediante la detección de patrones utilizando técnicas de minería d...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

por lo el siguiente artículo, procedente de la Universidad Pi...
Nº 28 - enero - junio / 2013

12
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Implementación de un software
para el análisis de imágenes
aé...
Nº 28 - enero - junio / 2013

generados. Además se implementó un software clasificador
referencial basado en redes neurona...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

La presencia de caña de azúcar caída (CC) al momento de la co...
Nº 28 - enero - junio / 2013

del peso del trash de la materia prima ingresada por balanza a valor
caña, dado que la forma...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

intensiva donde por sus particularidades, considera Sustaita ...
Nº 28 - enero - junio / 2013

co, como un primer resultado, se brinda una estimación cuantitativa y
espacial de las region...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

del cual se obtendrán 5678 muestras, o subimágenes cuadradas ...
Nº 28 - enero - junio / 2013

•	 	 Índice de vegetación de diferencia normalizada (NDVI) (Rouse et
al., 1973)
La extracció...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Se implementó una Red Neuronal (R.N) del tipo Perceptrón Mult...
Nº 28 - enero - junio / 2013

3. Resultados y discusión
Los indicadores de interés evaluados resultaron, en general, promi...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

En cuanto a la firma espectral, si bien se observa solapamien...
Nº 28 - enero - junio / 2013

y en menor medida la entropía, la tasa de aciertos crece, incluso por
encima de los valores ...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

3.2 Análisis de la influencia de las entradas
individuales en...
Nº 28 - enero - junio / 2013

Figura 4. Falsos positivos de CP al suprimir una entrada

3.3 Cuantificación de clases en la...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

4. Conclusiones
El trabajo interdisciplinario entre profesion...
Nº 28 - enero - junio / 2013

5. Referencias bibliográficas
ANDERSON, D.L.; PORTIER, K.M.; OBREZA, T.A.; COLLINS, M.E & PI...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

RAUN, W.R.; SOLIE, J.B.; STONE, M.L.; MARTIN, K.L.;FREEMAN, K...
Nº 28 - enero - junio / 2013

30
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Aplicación de la minería de datos
en la extracción de perfile...
Nº 28 - enero - junio / 2013

estudiantes que desertan utilizando la técnica de clasificación basada en árboles de decisió...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

acuerdo al Sistema Nacional de Información de la Educación Su...
Nº 28 - enero - junio / 2013

una investigación sobre deserción estudiantil utilizando las técnicas de
minería de datos. S...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

del estudiante desertor de la Escuela de Marketing y Publicid...
Nº 28 - enero - junio / 2013

El Descubrir de Conocimiento en Bases de Datos (DCBD) es básicamente un proceso automático e...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

(2001). El conocimiento obtenido en el proceso de aprendizaje...
Nº 28 - enero - junio / 2013

Educación Superior (SPADIES), del Sistema de Identificación de Beneficiarios Potenciales de ...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

metro de frecuencias iguales (useEqualFrequency) a 6 valores....
Formato arff
atributo

40

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute
...
Formato arff
atributo

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

@attribute

No....
Nº 28 - enero - junio / 2013

2.5 Etapa de interpretación de datos
En esta etapa se evalúan e interpretan los patrones des...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

4. Conclusiones y trabajos futuros
Los primeros resultados ob...
Atributo
Clase
Deserta
S
N
S
N
S

44
N
N
N
S
N
N
S

Reglas de clasificación socioeconómicas con el conjunto de datos TA18
...
S
N
N
S
S
S
N
S
S
S
N
S
S
S
S
S
N
S
S
S

extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS EXACTAS Y NATUR...
Nº 28 - enero - junio / 2013

Referencias bibliográficas
ADAMO, Jean-Marc (2001). Data Mining for Association Rules and Se...
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Informática, CISCI 2010, (29/06-2/07/2010), Orlando (Florida,...
Nº 28 - enero - junio / 2013

48
Universidad de Manizales

Facultad de Ciencias e Ingeniería

Técnicas de implementación
de procesos colaborativos
a la mej...
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Revista ventana informatica   28
Upcoming SlideShare
Loading in …5
×

Revista ventana informatica 28

3,485 views

Published on

  • Be the first to comment

  • Be the first to like this

Revista ventana informatica 28

  1. 1. FACULTAD DE CIENCIAS E INGENIERÍA Carrera 9 No. 19-03 Conmutador (6) 887 9680 extensión: 1689 Manizales, Caldas, Colombia www.umanizales.edu.co ventanainformatica@umanizales.edu.co ventanainformatica@gmail.com
  2. 2. Nº 28 - enero - junio / 2013 GUILLERMO ORLANDO SIERRA SIERRA Rector JORGE IVÁN JURADO SALGADO Vicerrector GERMÁN WILLIAM LONDOÑO JIMÉNEZ Decano Facultad de Ciencias e Ingeniería Director / Editor OMAR ANTONIO VEGA PhD(c) VENTANA INFORMÁTICA Derechos Reservados ISSN 0123-9678 Diseño y Diagramación Gonzalo Gallego González Centro Editorial Universidad de Manizales 2013 VENTANA INFORMÁTICA es una publicación semestral especializada de la Facultad de Ciencias e Ingeniería de la Universidad de Manizales. Está clasificada en la CATEGORÍA C, en IBN – Publindex (Colombia) e incluida en Latindex 2
  3. 3. Universidad de Manizales Facultad de Ciencias e Ingeniería Comité editorial Mario Andrés GIRALDO FADUL, PhD. California State University –USA Carlos Eugenio OLIVEROS TASCÓN, PhD. Centro Nacional de Investigaciones de Café - Colombia Gustavo Adolfo ISAZA ECHEVERRY, PhD. Universidad de Caldas - Colombia Héctor MORA PÁEZ, MSc. Servicio Geológico Colombiano – Colombia Luis RODRÍGUEZ BAENA, PhD. Universidad Pontificia de Salamanca - España Comité científico Mauro CALLEJAS CUERVO, MSc. Universidad Pedagógica y Tecnológica de Colombia - Colombia Andrés David EPIFANÍA HUERTA, MSc. Universidad Católica Los Ángeles de Chimbote - Perú Luis Alejandro FLÉTSCHER BOCANEGRA, MSc. Universidad de Antioquia - Colombia (c) Alejandro Javier HADAD, PhD. Universidad de Entre Ríos – Argentina André Atanásio MARANHÃO ALMEIDA, MSc. Instituto Federal de Alagoas - Brasil Ana Teresa ORTEGA MINAKATA, MSc. Instituto de Información Territorial del Estado de Jalisco - México Comité científico de redacción Luis Carlos CORREA ORTIZ, MSc. Universidad de Manizales - Manizales, Caldas, Colombia Julio César GÓMEZ CASTAÑO, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia 3
  4. 4. Nº 28 - enero - junio / 2013 Diego Samir MELO SOLARTE, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia Carlos Alberto OSPINA PARRA, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia Omar Antonio VEGA, PhD(c). Universidad de Manizales - Manizales, Caldas, Colombia Comité científico de arbitraje (Integrantes que realizaron arbitraje de artículos para este número) Genaro AGUIRRE AGUILAR, PhD. Universidad Veracruzana –México Andrea Catherine ALARCÓN ALDANA, MSc. Universidad Pedagógica y Tecnológica de Colombia - Colombia Luis Marcial BERTEL PATERNINA, Esp. Universidad de Manizales - Colombia Mauro CALLEJAS CUERVO, MSc. Universidad Pedagógica y Tecnológica de Colombia - Colombia Luis Fernando CASTILLO OSSA, PhD. Universidad de Caldas - Colombia Andrés David EPIFANÍA HUERTA, MSc. Universidad Católica Los Ángeles de Chimbote - Perú Gloria Piedad GASCA HURTADO, PhD. Universidad de Medellín –Colombia Mario Andrés GIRALDO FADUL, PhD. California State University –USA María Ester GONZÁLEZ, PhD. Universidad Politécnica de Madrid - España Rubén Arístides GONZÁLEZ CRESPO, PhD. Universidad Pontificia de Salamanca - España Juan Sebastián GONZÁLEZ SANABRIA, Esp. Universidad Pedagógica y Tecnológica de Colombia – Colombia 4
  5. 5. Universidad de Manizales Facultad de Ciencias e Ingeniería Nery Francisco HERRERA PINEDA, MSc. Universidad Católica de El Salvador - El Salvador Orlando Clemente IPARRAGUIRRE VILLANUEVA, MSc. Universidad Católica Los Ángeles de Chimbote - Perú Gustavo Adolfo ISAZA ECHEVERRY, PhD. Universidad de Caldas - Colombia Alejandro LONDOÑO VALENCIA, MSc. Universidad de Manizales –Colombia André Atanásio MARANHÃO ALMEIDA, MSc. Instituto Federal de Alagoas - Brasil Carlos Eduardo MARULANDA ECHEVERRY, MSc. Universidad de Caldas - Colombia Diego Samir MELO SOLARTE, PhD(c). Universidad de Manizales – Colombia Ana Teresa ORTEGA MINAKATA, MSc. Instituto de Información Territorial del Estado de Jalisco - México Luis Eduardo PELÁEZ VALENCIA, MSc. Universidad Católica de Pereira - Colombia Willington Libardo SIABATO VACA, PhD. Universidad Politécnica de Madrid – España Ábilo Andrés VELÁSQUEZ SALAZAR, MSc. Universidad Nacional de Colombia - Colombia Ronald Eduard VINASCO SALAZAR, MSc. Universidad de Manizales – Colombia Gunnar Eyal WOLF ISZAEVICH, Lic. Universidad Nacional Autónoma de México - México 5
  6. 6. Nº 28 - enero - junio / 2013 6
  7. 7. Universidad de Manizales Facultad de Ciencias e Ingeniería En esta edición Página Editorial.................................................................................................... 9-11 Omar Antonio VEGA Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar.......................13-29 [Implementation of software for the analysis of multispectral aerial images sugarcane] Gerardo SCHNEIDER, Alejandro Javier HADAD, Alejandra KEMERER Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil..................................31-47 [Application of data mining in extracting student dropout profiles] Ricardo TIMARÁN PEREIRA, Andrés CALDERÓN ROMERO, Javier JIMÉNEZ TOLEDO Técnicas de implementación de procesos colaborativos a la mejora procesos: un acercamiento a PMBOK.............................49-66 [Implementation Techniques for improving collaborative processes closer to PMBOK processes] José Luis JURADO, César Alberto COLLAZOS Sistema multiparamétrico de monitoreo remoto de movimientos por remoción en masa...............................................67-82 [A multiparameter system for remote monitoring of landslides] John Makario LONDOÑO, César Augusto VEGA, Liliana María MAYA Análisis del sistema de información de la microempresa N´Diaye & Filhos...........................................................83-97 [Analysis of the information system of N´Diaye & Filhos micro-enterprise] Lourdes María GARCÍA PUJADAS, Eduardo Barbarito HERNÁNDEZ HURTADO, Horacio CHICOLA Pautas, métodos y herramientas de evaluación de accesibilidad web........................................................ 99-115 [Guidelines, methods and tools for web accessibility evaluation] Cinthia DE OLEO MORETA, Luis RODRÍGUEZ BAENA Una memoria organizacional para gestionar información y conocimiento de proyectos de investigación de instituciones venezolanas.............................. 117-131 [An organizational memory to manage information and knowledge of research projects from Venezuelan institutions] Esmeralda RAMOS, Iván FLORES, Haydemar NÚÑEZ 7
  8. 8. Nº 28 - enero - junio / 2013 Estrategias educativas para la inserción social del egresado de Ingeniería Mecánica....................................133-149 [Educational strategies for the social inclusion of the Mechanical Engineering students] Alejandro Arturo PÉREZ VILLEGAS, Adriana María SÁNCHEZ NAVARRETE Metodología para determinar la evolución de los sistemas informáticos de organizaciones regionales....................151-166 [Methodology to determine the evolution of the computer systems of regional organizations] Ludwig Iván TRUJILLO HERNÁNDEZ Módulo informático de evaluación docente para la carrera de informática en el ISMMM....................................167-179 [Teacher evaluation computer module for computing career in the ISMMM] Marcos Antonio MARTÍNEZ RODRÍGUEZ, Yadiris MARTÍNEZ CORDERO, Iliana DÍAZ SÁNCHEZ Políticas editoriales de la revista Ventana Informática........................ 181-198 Director y Consejo Editorial Índice histórico de artículos publicados................................................199-210 Nota: Los conceptos expresados en esta publicación son responsabilidad de los autores y no comprometen el pensamiento de la Universidad ni de la Facultad de Ciencias e Ingeniería. COPYRIGHT © UNIVERSIDAD DE MANIZALES 8
  9. 9. Universidad de Manizales Facultad de Ciencias e Ingeniería Editorial Omar Antonio VEGA1 Director/Editor La edición 28, correspondiente al primer semestre del año 2012, recoge 10 de los 23 artículos presentados en la convocatoria cerrada en febrero 20, procedentes de diversas instituciones, especialmente universidades, con un interesante número de nuevos autores. Los autores que publican en este número, están afiliados a: - las Universidades de Nariño, del Cauca, Piloto de Colombia, San Buenaventura, Nacional de Entre Ríos, de Ciego de Ávila, Pontificia de Salamanca, Central de Venezuela y Autónoma de San Luis de Potosí, - la Institución Universitaria Cesmag, - los Institutos Nacional de Tecnología Agropecuaria y Superior Minero Metalúrgico de Moa, - los Servicios Geológico de Colombia y de Salud Pública de Villa Clara, - además de un funcionario de la micro-empresa N´Diaye & Filhos y una profesional independiente. En este momento es interesante hacer hincapié en un hecho: aparece una cantidad significativa de nuevos autores e instituciones aportando sus escritos a la revista, señalando el paulatino, pero firme, proceso de consolidación en Iberoamérica. La edición recoge diversos temas, mediante artículos de investigación científica y tecnológica, de reflexión y reportes de casos, cuya somera presentación es: - El primer artículo, en el área de la bioingeniería y procedente de un proyecto entre la Universidad Nacional de Entre Ríos y el INTA, hace alusión a una implementación de software que permite determinar, a partir del análisis de imágenes aéreas multiespectrales, el estado de las plantaciones de caña de azúcar, especialmente en cuanto a caña caída o volcada. - En el segundo artículo, realizado entre la Universidad de Nariño y la institución Universitaria Cesmag, se enfrenta la deserción estudiantil 1 Ing. Agrónomo, Esp. en Informática y Computación, MSc. en Orientación y Asesoría Educativa, MSc. en Educación. Docencia, PhD(c) en Ingeniería Informática: Sociedad de la Información y el Conocimiento. Director/editor de la revista Ventana Informática, Líder del grupo de investigación ‘Sociedad de la Información y el Conocimiento’, Profesor titular, Facultad de Ciencias e Ingeniería, Universidad de Manizales, Manizales (Colombia). Correo electrónico: oavega@ umanizales.edu.co 9
  10. 10. Nº 28 - enero - junio / 2013 en programas de pregrado, mediante la detección de patrones utilizando técnicas de minería de datos. - A continuación, desde la ingeniería de software y procedente de la Universidad del Cauca, se presenta una integración de la ingeniería de la colaboración con la gestión de proyectos, en el modelo de mejora PmCompetisoft. - Siendo Colombia un país donde la mayoría de su población está ubicada en zonas de ladera, con frecuentes casos de deslizamientos, se presenta un sistema, realizado entre el Servicio Geológico Colombiano y la Universidad de Manizales, que permite realizar monitoreo remoto de remociones en masa, usando diferentes tipos de sensores, que permite emitir alertas a partir de la información obtenida y procesada. - En el marco de la cooperación cubana a Angola, se presenta el artículo presenta el análisis del sistema de información para la empresa N´Diaye & Filhos, como paso para favorecer el mejoramiento de la gestión económica de la empresa. Este es un componente de los varios desarrollados, en este caso entre profesionales del Instituto Superior Minero Metalúrgico de Moa y la Universidad de Ciego de Ávila, en conjunto con personal de empresas angolanas. - La accesibilidad web se está convirtiendo en conditio sine qua non al momento de emprender iniciativas para la universalización de acceso y uso de las TIC. Por ello, desde la Universidad Pontifica de Salamanca campus Madrid, se enfoca en su evaluación, realizando el análisis de pautas, métodos y herramientas considerados en el estándar de la W3C. - La gestión de la información y de conocimiento, no puede restringirse a la empresa convencional, sino que tiene un sitio especial en la academia, responsable de mover la frontera del conocimiento. En esa dirección, desde la Universidad Central de Venezuela, se propone un modelo para definir la estructura de la memoria organizacional de la producción intelectual de los investigadores en sus proyectos de investigación. - La globalización, y el aspecto competitivo que conlleva, hace que la universidad deba preocuparse porque sus egresados sean competentes en la realidad cambiante del entorno laboral y productivo. Por ello, desde la Universidad Autónoma de San Luis de Potosí, se analiza la trascendencia de la formación integral de los estudiantes, frente a la realidad que lo espera como ingeniero y profesional. - Los procesos gerenciales y la incorporación informática a las empresas, hacen parte del proceso de mejoramiento y desarrollo de ellas, 10
  11. 11. Universidad de Manizales Facultad de Ciencias e Ingeniería por lo el siguiente artículo, procedente de la Universidad Piloto de Colombia seccional Alto Magdalena, muestra la aplicación de una metodología de evaluación de las empresas de Girardot, mediante las etapas de evolución de los sistemas informáticos inspirado en el modelo de Gibson & Nolan. - El último de los artículos presenta, a manera de propuesta, un módulo con el objetivo de facilitar y complementar la labor diaria de los profesores, que hace parte de la gestión docente del departamento de informática del Instituto Superior Minero Metalúrgico de Moa. En el cierre de la revista aparecen las políticas editoriales, para facilitar la participación como autor y/o árbitro, así como el listado histórico de artículos publicados. No hay duda alguna que la calidad científica de una revista se fundamenta en sus procesos de convocatoria y selección, y se refrenda con los índices bibliométricos, referidos a la consulta y citación de los documentos en ella publicados. Por ello, se hace una invitación a investigadores, docentes y estudiantes para seguir aportando sus artículos, al igual que a considerar, revistas como esta, al momento de hacer sus revisiones bibliográficas… no puede olvidarse la característica local o regional que frecuentemente se presentan en sus artículos, aspecto relevante de glocalización en el planteamiento de los antecedentes de un proyecto de investigación. Para finalizar, se recuerda que la revista mantiene su convocatoria abierta, con cortes en febrero 20, para los números del primer semestre, y agosto 20, para el segundo, ya que: Alguien está necesitando la información que usted está dispuesto a brindar. Usted está necesitando la información que alguien está dispuesto a brindar… Ventana Informática se mantiene abierta para que la información fluya en ambas direcciones. 11
  12. 12. Nº 28 - enero - junio / 2013 12
  13. 13. Universidad de Manizales Facultad de Ciencias e Ingeniería Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar*1 [Implementation of software for the analysis of multispectral aerial images sugarcane] Gerardo SCHNEIDER2, Alejandro Javier HADAD3 ,Alejandra KEMERER4 Recibo: 20.02.2013 - Aprobación: 17.06.2013 Resumen En este trabajo se presenta una implementación de software para la determinación del estado de plantaciones de caña de azúcar basado en el análisis de imágenes aéreas multiespectrales. En la actualidad no existen técnicas precisas para estimar objetivamente la superficie de caña caída o volcada, y esta ocasiona importantes pérdidas de productividad en la cosecha y en la industrialización. Para la realización de éste trabajo se confeccionó un dataset referencial de imágenes, y se implementó un software a partir del cual se obtuvieron indicadores propuestos como representativos del fenómeno agronómico, y se realizaron análisis de los datos * Modelo para citación de este artículo: SCHNEIDER, Gerardo; HADAD, Alejandro Javier & KEMERER, Alejandra (2013). Implementación de un software para el análisis de imágenes aéreas multiespectrales de caña de azúcar. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad de Manizales. p. 13-29. ISSN: 0123-9678 1 Artículo de investigación científica y tecnológica proveniente de la tesina de grado Análisis de Imágenes Aéreas Orientado a la caracterización de caña caída, necesaria para la obtención del título de Licenciado en Bioinformática, cuyo autor es Gerardo Schneider bajo la dirección de Alejandro Hadad durante el año 2012. 2 Licenciado en Bioinformática. FI-UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: gerschneider@gmail.com. 3 Bioingeniero, Aspirante al Doctorado en Ingeniería, mención en Sistemas de Información, UTN-FRSF. Docente-Investigador e Integrante del GIA de la FI-UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: hadad@santafe-conicet.gov.ar. 4 Ingeniera Agrónoma. M. Sc. Investigador en el Grupo de Recursos Naturales y Factores Abióticos de la EEA Paraná del INTA y Docente en las cátedras de Climatología Agrícola y SIG de la FCA UNER. Oro Verde, Entre Ríos (Argentina). Correo electrónico: akemerer@parana. inta.gov.ar Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 13-29 13
  14. 14. Nº 28 - enero - junio / 2013 generados. Además se implementó un software clasificador referencial basado en redes neuronales con el que se estimó la fortaleza de dichos indicadores y se estimó la superficie afectada en forma cuantitativa y espacial. Palabras Clave: Caña de azúcar, cuantificación, volcado, red neuronal, procesamiento de imagen Abstract In this paper we present a software implementation for determining the status of sugarcane plantations based on the analysis of multispectral aerial images. Currently there are no precise techniques to estimate objectively the cane area fall or overturned, and this causes significant losses in crop productivity and industrialization. For the realization of this work a dataset benchmark images was made, and a software, from which were obtained representative proposed indicators for the agronomic phenomenon was implemented, and analyzes of the data generated were realized. In addition, we implemented a software benchmark classifier based on neural networks with which we estimated the strength of these indicators and the area affected was estimated quantitatively and spatially. Keywords: Sugarcane, quantification, fall, neural network, image processing Introducción El cultivo de caña de azúcar en Argentina se encuentra principalmente localizado en la región noroeste del país (99%), donde representa, de acuerdo con Pérez et al. (2005), una de las actividades productivas más importantes, y en escasa extensión en la región litoral (1%). Los sistemas productivos cañeros presentan diferentes niveles tecnológicos según el sistema de cosecha utilizado, con sistemas desde manuales a totalmente mecanizados, si bien, en la actualidad más del 70% del volumen total se cosecha de manera mecanizada. Uno de los aspectos más críticos del proceso de cosecha de la caña de azúcar son las pérdidas que se producen y se han determinado como niveles tolerables alrededor del 2,5%. La presencia de caña caída es uno de los factores con mayor influencia. Incidencia de vuelco superiores al 20% determina incrementos en las pérdidas que van desde el 4 al 6,4%, según expresan Rodríguez et al. (2010). 14
  15. 15. Universidad de Manizales Facultad de Ciencias e Ingeniería La presencia de caña de azúcar caída (CC) al momento de la cosecha trae aparejadas importantes pérdidas en la recolección y en el ingenio azucarero. En el fenómeno de CC por quebrado intervienen aspectos aleatorios e impredecibles. Es normal que el cañaveral en un cuadro productivo alcance una altura promedio, pero presenta variaciones respecto de esta variable en diferentes sectores del campo. Esto puede deberse a las condiciones diferenciales del suelo que presenta distintos niveles de fertilidad, humedad, compactación, etc. Por otro lado, cada planta del cañaveral es constitutivamente diferente, por lo que manifestará en forma única los distintos estímulos externos. Cuando la planta es joven y se ha desarrollado bajo condiciones óptimas, alcanza cierta altura y por su propio peso comienza a pandearse, llegando algunas a quebrarse una vez que se supera su tensión de rotura producto del viento o fenómenos ambientales como el granizo. La CC se presenta con una gran heterogeneidad espacial. Una vez que se produce el fenómeno, el suelo puede quedar al descubierto, o por el contrario puede producirse un reverdecimiento producto de la aparición de nuevas hojas verdes, con crecimiento fototrópico. Esto suma heterogeneidad ante una observación externa. Los factores antes mencionados evidencian la gran complejidad en el fenómeno en estudio, lo que lo hace dificultoso de analizar y cuantificar. La materia extraña a la caña denominada en inglés como trash, cuando ingresa al ingenio azucarero representa una importante pérdida de eficiencia en el proceso de elaboración de azúcar, aseguran Tonatto et al. (2005). El desafío de ingeniería industrial radica en explorar las alternativas para controlar los efectos perjudiciales que estos desechos o trash y la tierra presentes en la caña tienen en los equipos, procesos y rendimientos operativos de la fábrica. Es decir que la calidad de la caña afecta en forma directa al rendimiento fabril y a la calidad de la azúcar obtenida (Larrahondo, 1995). A su vez la calidad de la materia prima (caña) puede ser afectada por aspectos siempre cambiantes de la agricultura de la caña de azúcar, tales como la introducción de nuevos cultivares, variaciones climáticas, el uso de maduradores químicos, cambios en las prácticas culturales y en los sistemas de cosecha o la aparición en los cultivos de enfermedades o plagas. En cuanto a los tipos de cosecha, se observa que los contenidos de trash y tierra en caña cosechada en forma mecanizada son sensiblemente inferiores que en la cosecha semi-mecanizada, pasando de un 2 a un 5-7%. Al mismo tiempo, los valores de fibra (residuo vegetal) suben de 14 a 18% aproximadamente, debido a la presencia de mayor cantidad de partes vegetales por una cosecha menos eficiente (Sustaita, 2005). Esto significa que las industrias abonan a los productores una parte significativa 15
  16. 16. Nº 28 - enero - junio / 2013 del peso del trash de la materia prima ingresada por balanza a valor caña, dado que la forma de muestreo y análisis de este parámetro es generalmente inadecuado. A esto se le debe incorporar los otros costos adicionales que produce este producto extraño en la fábrica propiamente dicha, como ser: -- Desgaste en los molinos por abrasión y una pérdida progresiva en la capacidad de extracción del jugo de caña. -- Aumento significativo de la cantidad de cachaza5 y con ello de las pérdidas de azúcar en la misma. -- Aumento del consumo de productos químicos para el tratamiento de los jugos. -- Aumento del color en el jugo y subsecuentemente en el azúcar con lo cual para evitarlo se reducen los ciclos de cristalización disminuyendo la eficiencia fabril. -- Desgaste de equipos, tuberías y bombas. -- Disminución del poder calorífico del bagazo6 y por ende la eficiencia en el quemado del mismo, con un aumento del consumo de y de las emisiones de caldera. -- Otros. 1. Fundamento teórico Para disminuir al mínimo posible el porcentaje de trash en la caña, en varios ingenios se instalaron mesas lavadoras de caña, removiendo el contenido de tierra mediante grandes cantidades de agua (relación aproximada de 3 m3 de agua por ton. de caña). Esto supone ahorro de dinero, pero agrega problemas como mayores costos por la potencia requerida, el agua necesaria y la mano de obra adicional, sumado a las nuevas discusiones con los productores ya que algunos estudios confirman que en el lavado de la caña se pierde un porcentaje del rendimiento por arrastre de azúcar. Además, la técnica requiere disponibilidad de terreno para instalar decantadores de arena y barros para poder re-usar el agua y no devolverla así a los causes incrementando la contaminación. Una estrategia prometedora para lograr reducir este impacto radica en lograr una mayor eficiencia operativa en las tareas de cosecha de la caña en el campo, etapa previa al ingreso a las fábricas, y fundamentalmente en sectores con caña quebrada que incrementan notablemente el porcentaje de trash. Esta es un área de mano de obra 5 Espumas e impurezas que sobrenadan en el jugo de la caña de azúcar al someterlo a la acción del fuego. 6 Residuo de una materia de la que se ha extraído el jugo. 16
  17. 17. Universidad de Manizales Facultad de Ciencias e Ingeniería intensiva donde por sus particularidades, considera Sustaita (2005), no se han logrado introducir soluciones tecnológicas que reduzcan su impacto negativo en la producción. Actualmente, la cuantificación de la caña de azúcar caída en cuadros productivos es un proceso costoso e ineficiente. Se requiere del envío de evaluadores al terreno que deben explorar grandes superficies para obtener un muestreo representativo que les permita hacer estimaciones. En su desplazamiento por el campo producen daño, requieren muchas horas hombre de trabajo y generan estimaciones con un alto grado de incerteza. A su vez, la presencia de variaciones espaciales en la productividad de la caña es muy amplia. Viccini (2007) determinó variaciones de hasta 50 tn/ha a nivel de lote de producción. Es esperable que este patrón, así como variaciones en la calidad de la caña se observe a diversas escalas, de manera similar a lo que se ha demostrado para otras variables que inciden en la producción, como las propiedades de suelo (Anderson et al., 1999), lo que dificulta establecer un distanciamiento de muestreo único y repercute negativamente en los costos. Otra estrategia es la de realizar vuelos sobre los cultivos con observadores especialistas los que estiman el porcentaje de caña caída de acuerdo a su experiencia e impresión de lo observado desde el aire. Esta estrategia es subjetiva y dependiente de los especialistas disponibles en cada área de interés. Teniendo en cuenta estos antecedentes se evidencia que no se ha observado reporte de alguna metodología con cierto grado de certeza mensurable para determinar el área afectada, a fin de ayudar a planificar de mejor manera el proceso de cosecha y los costos asociados por parte de los actores productivos involucrados. En este sentido, el Instituto Nacional de Tecnología Agropecuaria de Argentina – INTA – ha abordado la problemática, realizando trabajos a partir de fotografías aéreas de alta resolución (Kemerer et al. 2010, Melchiori et al., 2009). A partir de esta fuente de datos se trabajó en conjunto para avanzar con nuevas estrategias tecnológicas para abordar el problema. En este trabajo se presenta la infraestructura informática desarrollada y el análisis de resultados informáticos y agronómicos. Desde el punto de vista informático se montó una aplicación para realizar el etiquetado de imágenes, a partir del cual se desarrolló una estructura tipo pipeline con capacidades de análisis de variables y clasificación de regiones. Como clasificador de referencia se utilizaron redes neuronales por la capacidad de las mismas para esta tarea y la experiencia previa de los autores con este clasificador. Desde el punto de vista agronómi17
  18. 18. Nº 28 - enero - junio / 2013 co, como un primer resultado, se brinda una estimación cuantitativa y espacial de las regiones con caña de azúcar en pie y caída. 2. Metodología Se contó con el set de imágenes obtenido por el Instituto Nacional de Tecnología Agropecuaria (INTA) de Argentina desde un avión Sky Arrow 650 TCNS ERA, cuyo sistema de captura se compone de un sistema de posicionamiento global, una cámara multiespectral Geospatial MS4100 y un sistema de control y almacenamiento de datos. La cámara empleada permite la adquisición de fotogramas en tres bandas del espectro electromagnético: verde (530-580 nm.), roja (650-685 nm.) e infrarroja cercana (770-830 nm.) con una resolución de imagen de 1920 x 1075 pixeles. El sistema de posicionamiento proporciona la posición, actitud y altura de vuelo en sincronismo con la adquisición de cada fotograma. El vuelo se realizó el 5 de mayo de 2008, momento del ciclo del cultivo donde la presencia de caída de la caña es claramente evidente. Los vuelos se efectuaron en el medio día solar a fin de contar con una iluminación homogénea en la superficie. El plan de vuelo se diseñó para una altitud de 1200 m. resultando un tamaño de pixel de 0.7 m. Se obtuvieron 540 fotogramas que fueron ensamblados mediante el reconocimiento de puntos de anclaje en fotogramas consecutivos generando un mosaico. Se utilizaron en este procedimiento las librerías Panorama Tools7 con la interfaz gráfica Hugin8, ambas de distribución libre. El mosaico se georreferenció con el programa de análisis Leica Erdas Imagine 9.1. y se extrajeron imágenes individuales correspondientes a cada parcela productiva. Con la asistencia de un Ingeniero Agrónomo se realizó el etiquetado de las imágenes en las clases de interés, para lo cual se utilizó la aplicación Label Me (Russel et al., 2008) del Instituto Tecnológico de Massachusetts, la cual fue desplegada en un servidor local de modo de facilitar el acceso a los datos y su incorporación a un pipeline de procesamiento, extracción de características, análisis, clasificación y segmentación posterior. En la figura 1 se observa el proceso de etiquetado consistió en delimitar en las imágenes, polígonos continentes de porciones representativas de las clases Caña en Pie (CP), Caña Caída en Forma de Parches (CCP), Caña Caída en Áreas Grandes (CCA), Caña Caída con Fototropismo (CCF) y Corridas o áreas de suelo descubierto (C) (figura 1). De esta etapa surge un conjunto de datos de referencia o dataset, 7 8 18 http://panotool.sourfceforge.net http://hugin.sourceforge.net
  19. 19. Universidad de Manizales Facultad de Ciencias e Ingeniería del cual se obtendrán 5678 muestras, o subimágenes cuadradas de 60 pixeles de lado. Se desarrolló en código Java un software capaz de adquirir la información con forma de metadatos generada en el etiquetado, y a partir de ella recortar y procesar automáticamente las porciones de imágenes obtenidas desde el dataset, con el fin de obtener indicadores representativos de cada clase. Se incorpora en esta etapa un preprocesamiento de normalización en brillo de las imágenes que se realizó calculando el brillo promedio por canal de todos los polígonos etiquetados, y fijando arbitrariamente como parámetro para la normalización un 120% de dichos valores, lo que amplió el rango dinámico sin producir saturación en el histograma. Se aplicó un filtro espacial Frei-Chen para la detección de bordes (Frei et al., 1977), con el fin de resaltar las zonas de alta frecuencia. Figura 1. Captura de pantalla de un imagen ejemplo y del proceso de etiquetado de la misma con LabelMe Dadas las características del fenómeno agronómico, se realizó un abordaje desde el punto de vista de las texturas de las imágenes, definiéndose las siguientes características o indicadores de interés: • Desvío estándar del histograma de la muestra por canal • Entropía promedio del histograma de la muestra por canal • Valor promedio de los pixeles de la muestra por canal (mencionado como Firma Espectral) • Valor promedio de los pixeles de la muestra por canal post filtrado de detección de bordes (mencionado como Firma Espectral con Detección de Borde) 19
  20. 20. Nº 28 - enero - junio / 2013 • Índice de vegetación de diferencia normalizada (NDVI) (Rouse et al., 1973) La extracción de características se realizó en un proceso iterativo del tipo Batch dado el alto requerimiento de poder de cómputo y tiempo requerido. El volumen de información generada se almacenó en una base de datos Postgres, de modo de poder acceder concurrentemente al momento del análisis a toda la información y obtenerla utilizando las potencialidades de un lenguaje de consulta SQL. Con el fin de evaluar los efectos ponderados de los indicadores propuestos, se eligió como clasificador de referencia una Red Neuronal (RN) Perceptrón Multicapa. La elección se realizó teniendo en cuenta resultados en el procesamiento de imágenes reportadas en la bibliografía (Wang et al., 2013; Ma et al., 2005; Kobashi et al., 2001; Iscan et al., 2009; Middleton & Damper 2004) y la experiencia de los investigadores en dicho modelo. Las RN constituyen un modelo computacional inspirado en ciertas características de las redes neuronales biológicas, cuyo primer modelo matemático se presentó en 1943 por Warren McCulloch y Walter Pitts. Permiten resolver diversos problemas complejos de la vida real, que no son resolubles con tecnologías convencionales. El perceptrón multicapas (PMC) es un tipo de red neuronal artificial de aprendizaje supervisado (Figura 2), que consiste en un arreglo de nodos o neuronas ubicados en capas, de forma tal que los nodos de una están conectados a todos los nodos de la capa anterior y de la siguiente mediante valores de pesos de conexión, o sinapsis. Estas neuronas o nodos, computan alguna función no lineal simple en la suma de las entradas, denominada función de activación. Un PMC puede aproximar relaciones no lineales entre datos de entrada y de salida. Figura 2. Red neuronal tipo Perceptrón Multicapa con nc capas 20
  21. 21. Universidad de Manizales Facultad de Ciencias e Ingeniería Se implementó una Red Neuronal (R.N) del tipo Perceptrón Multicapa, con una neurona de salida por cada clase o estado del cultivo, una neurona de entrada por canal para cada indicador propuesto, y una capa intermedia de 80 neuronas. Se utilizó la R.N. para evaluar además la robustez de cada indicador en relación a cada clase, y para segmentar la imagen original cuantificando en hectáreas la superficie asociada a cada estado del cultivo. Atendiendo al problema de la complejidad de los datos al momento de entrenar una red neuronal, se minimizaron efectos negativos del desbalance y solapamiento de clases (Toribio et al., 2009) mediante la generación de training sets balanceados con igual número de muestras por clase, y obtenidos aleatoriamente del dataset a partir de la consulta SQL: DROP VIEW balanceada; CREATE VIEW balanceada AS (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CP’ ORDER BY RANDOM() LIMIT cantMuestras) UNION SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CCA’ ORDER BY RANDOM() LIMIT cantMuestras) UNION (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CCP’ ORDER BY RANDOM() LIMIT cantMuestras) UNION (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’CCF’ ORDER BY RANDOM() LIMIT cantMuestras)UNION (SELECT e.id FROM tablaAnalisisEspectro e WHERE e.tamVentana=tamVent AND e.clase=’C’ ORDER BY RANDOM() LIMIT cantMuestras); Para cada una de las muestras se extrajeron las características de textura a fin de conformar los patrones de entrenamiento y testeo. A partir de dichos patrones se realizaron ensayos con diferentes configuraciones de características y del clasificador de referencia. El criterio de selección que se utilizó se vinculó a aquellas configuraciones en las cuales se incrementó en menor medida el error de testeo 21
  22. 22. Nº 28 - enero - junio / 2013 3. Resultados y discusión Los indicadores de interés evaluados resultaron, en general, promisorios para el proceso de caracterización de la caña caída, a excepción del NDVI. Este índice presentó valores bajos en el caso de la caña caída donde el cultivo alcanza más biomasa y el valor debería ser mayor (Flowers et al., 2003, Raun et al., 2005, Melchiori et al., 2006). Esto sucede porque la banda IR capta las variaciones en estructura del cultivo asociadas a la biomasa y el índice de área foliar. Cuando el cultivo se cae la estructura se ve modificada, disminuye, eso hace bajar el IR y entonces el NDVI toma valores más bajos. También hay un efecto confundido del aporte de reflectancia del suelo en la caña caída que hace disminuir el NDVI (Qi et al., 1994; Rondeaux et al., 1996). Por lo tanto, este índice no fue incorporado en el análisis posterior. En el caso de los valores de desvío del histograma se observó para la clase caña en pié (CP) un corrimiento hacia valores inferiores en los tres canales analizados (figura 3). Se considera al desvío estándar del histograma como un indicador candidato de la clase caña en pie. Figura 3. Desvío estándar del histograma de las muestras contenidas en los polígonos que conforman el dataset, para cada clase y ventanas de tamaño V= 40 px en los tres canales analizados (Ch=0: Infrarrojo, Ch=1: Rojo, Ch=2: Verde). La distribución de la entropía presentó valores más elevados para las clases de caña caída (CCA, CCF y CCP) y suelos descubierto respecto a la clase caña en pie, con valores medios diferentes entre clases. Por lo tanto, se considera a la entropía del histograma un indicador promisorio para la identificación de caña en pie. 22
  23. 23. Universidad de Manizales Facultad de Ciencias e Ingeniería En cuanto a la firma espectral, si bien se observa solapamiento en las distribuciones entre clases, para el canal IR se observa un desplazamiento hacia valores superiores para caña en pie. La firma espectral para el canal IR se presenta como indicador promisorio para identificar caña en pie, por lo que se considera como una de las variables a incorporar. De la aplicación del filtro de detección de bordes Frei-Chen sobre la imagen de los cuadros productivos completos, surge una atenuación casi total de las áreas homogéneas, como ser caña en pie, caña caída en áreas grandes y corridas. En cambio, se realzan las zonas de caña caída en forma de parches y caña caída con fototropismo, aunque esta última atenuada por la aparición de nuevas hojas verdes, las que suavizan sus bordes Al comparar las firmas espectrales de las imágenes originales con las resultantes del filtro de detección de bordes Fei-Chen, se observa una mejor resolución de la clase caña en pie (CP) en relación al resto. También mejora, aunque en menor medida, la resolución interclase para las variantes de caña caída. El nuevo indicador obtenido es considerado promisorio para la identificación de características de caña caída. 3.1 Análisis de la influencia de los indicadores en el clasificador de referencia Se utilizó el clasificador de referencia, suprimiendo de las entradas un indicador por vez en sus tres canales. Se realizó un testeo del clasificador con 200 ciclos de entrenamiento – testeo, con ventaneo de 60 pixeles de lado, 60 muestras por clase en el entrenamiento y clasificación con barrido de ventana de 20 pixeles, paso de a tres pixeles en la clasificación, para un dataset normalizado en brillo. El objetivo de este tipo de análisis es fundamentalmente evidenciar la influencia de cada una de las variables consideradas desde el punto de vista de una tarea de clasificación. En los diferentes ensayos se observó que al suprimir el desvío del histograma de los patrones de entrenamiento y testeo de la red neuronal, la performance global resultó en valores similares a los obtenidos al no suprimir ninguna entrada. Al suprimir otras variables como la entropía del histograma, firma espectral (Espectro) del histograma o firma espectral de las imágenes con procesamiento de detección de borde (Esp. Borde), la tasa de aciertos globales decreció, resultando afectada en mayor medida por esta última variable, lo que indica que la firma espectral de las imágenes procesadas con filtro de detección de bordes es un indicador muy fuerte asociado a la clasificación. Al analizar la performance comparativa para la clasificación de la clase caña en pie (CP) se observa que al suprimir el desvío del histograma, 23
  24. 24. Nº 28 - enero - junio / 2013 y en menor medida la entropía, la tasa de aciertos crece, incluso por encima de los valores obtenidos al no suprimir ninguna entrada. En consecuencia se puede inferir que estas dos variables no están aportando información útil para la clasificación de caña en pie, pero además intervendrían negativamente aportando ruido, lo que baja la performance de la red para esta clase en particular. Los errores globales (Tabla 1) ante la supresión de un indicador de entrada de la red crecen al suprimir la firma espectral de las imágenes con detección de borde (Esp. Borde) y en menor medida al suprimir la entropía. Esto refleja una asociación positiva de dichos indicadores con la performance de la clasificación. Diferente es el caso de suprimir el desvío o firma espectral, cuando se evidencia disminución de la tasa de error global, aunque muy levemente en el último caso. Tabla 1. Valores promedio de errores globales al suprimir un indicador en la red Entrada Suprimida Desvío estándar Entropía Firma espectral detección borde Firma espectral Ninguna Errores totales (valores porcentuales promedio) 3,02 8,12 9,63 4,66 5,54 Análisis comparativos de supresión de entrada realizados preliminarmente para el testeo del algoritmo, arrojan las mismas conclusiones, las que se confirman al analizar un dataset normalizado en brillo y evaluando 200 ciclos de entrenamiento y testeo. En la tabla 2 la columna Total refleja el porcentaje global de falsos positivos a la clase CP, el cual resulta de promediar la ponderación de los porcentajes de falsos positivos de cada clase con la cantidad de muestras de dicha clase. Se observa que el error alcanza los valores más altos al suprimir la firma espectral con detección de borde, mientras que la variable que menor efecto presenta es el desvío estándar. Tabla 2. Valores porcentuales promedio de falsos positivos a CP por clase al suprimir un indicador en la red Análisis de errores promedio por clase Ent. Suprimida: CCA CCF CCP Desvío estándar 2,66 6,07 2,07 Entropía 11,24 12,02 6,15 Firma espectral detección borde 10,73 16,71 8,34 Firma espectral 4,95 6,59 3,39 Ninguna 6,59 9,93 4,39 24 C 2,54 7,07 5,15 5,59 3,85 Total 3,02 8,12 9,63 4,66 5,54
  25. 25. Universidad de Manizales Facultad de Ciencias e Ingeniería 3.2 Análisis de la influencia de las entradas individuales en el clasificador Suprimiendo una de las doce variables de entrada a la vez (indicador evaluado para cada uno de los canales, tabla 3), se realizó un testeo del clasificador con 64 ciclos de entrenamiento-testeo, con ventaneo de 60 pixeles de lado, 60 muestras por clase en el entrenamiento y clasificación con barrido de ventana de 20 pixeles, pasó de a 3 pixeles en la clasificación. El análisis de falsos positivos hacia la clase CP que se ha realizado resulta primordial, ya que una mayor tasa de aciertos en la clasificación de una clase no necesariamente está asociada a una mejor performance de funcionamiento de la red. Como ejemplo, es válido considerar la anulación de la entrada N°4 que a primera vista prometió excelentes resultados en cuanto a aciertos, ya que produjo la mayor tasa de aciertos para CP. Sin embargo, esa anulación también incrementó considerablemente el porcentaje de falsos positivos, lo que indica que la red estaría sobreestimando la cantidad de caña en pie e incrementando su error de clasificación para la clase de interés. Resulta entonces fundamental analizar los resultados de aciertos y errores para evitar llegar a falsas conclusiones (figura 4). Tabla 3. Numeración de las variables de entrada utilizadas por canal N° 1 2 3 4 5 6 7 8 9 10 11 12 13 Variable de entrada Firma Espectral Firma Espectral Firma Espectral Firma Espectral con Detección de Borde Firma Espectral con Detección de Borde Firma Espectral con Detección de Borde Entropía Histograma Entropía Histograma Entropía Histograma Desvío Estándar del Histograma Desvío Estándar del Histograma Desvío Estándar del Histograma Ninguna entrada anulada Canal 0 1 2 0 1 2 0 1 2 0 1 2 Se observa que al suprimir las entradas 10, 11 y 12 no se incrementa sensiblemente el número de falsos positivos para la clase CP, confirmando lo mencionado sobre la disminución de falsos positivos para CP en relación a no suprimir ninguna entrada. 25
  26. 26. Nº 28 - enero - junio / 2013 Figura 4. Falsos positivos de CP al suprimir una entrada 3.3 Cuantificación de clases en las imágenes De la segmentación realizada con supresión del indicador desvío, se obtienen estadísticas por clase en porcentajes de superficie del cuadro productivo y su distribución espacial (figura 5). A modo de ejemplo, en la figura 5 a, se muestra la segmentación de regiones dentro de un cuadro productivo y su cuantificación espacial (figura 5 b.) resaltándose en gris oscuro el área de interés para cosecha (Caña en pie). La extensión del mismo es de 50,1 hectáreas, de las cuales la segmentación de regiones identifica que 45,5 hectáreas son de caña en pie y el resto de CC. Esta información resumida del cuadro productivo obtenida a partir de la imagen permitirá realizar una estimación más precisa de costos de la cosecha y del posterior proceso de industrialización. Figura 5. Segmentación de regiones dentro de un cuadro productivo para la planificación de la cosecha de caña. (a- Imagen aérea original, b-Imagen segmentada por clase) 26
  27. 27. Universidad de Manizales Facultad de Ciencias e Ingeniería 4. Conclusiones El trabajo interdisciplinario entre profesionales de diferentes áreas, ha posibilitado un abordaje innovador hacia el problema de la cuantificación de CC proponiendo nuevas herramientas tecnológicas para resolverlo. Se confeccionó un dataset de referencia y una base de datos para el estudio del cultivo de la caña de azúcar en sus diferentes estados, a partir del cual el software creado pudo brindar información sobre la robustez de los indicadores propuestos y realizar una estimación de la superficie de caña de azúcar caída, brindando valores numéricos y su distribución espacial en la forma de imagen segmentada, con un margen de error acotado. En cuanto a las variables descriptoras del problema se observó que, a excepción del desvío estándar del histograma y el NDVI, los indicadores propuestos resultan satisfactorios para la clasificación de caña caída vs caña en pie, en este contexto de aplicación. Si bien no se logró diferenciar a través de patrones de textura las diferencias entre los distintos tipos de CC, la clasificación de caña caída vs caña en pie permite realizar una cuantificación de las mismas la cual ya permite planificar las tareas de cosecha. El clasificador de referencia fue utilizado principalmente para explorar distintas indicadores de textura y ponderar su importancia relativa en relación a la detección planteada. A partir de los indicadores obtenidos en este trabajo se proyecta como trabajo futuro la comparación y/o combinación con otros clasificadores y la evaluación de nuevos abordajes para la diferenciación entre los distintos tipos de cañas caídas. 27
  28. 28. Nº 28 - enero - junio / 2013 5. Referencias bibliográficas ANDERSON, D.L.; PORTIER, K.M.; OBREZA, T.A.; COLLINS, M.E & PITTS, D.J. (1999). Tree regression analysis to determine effects of soil variability on sugarcane yields. In: Soil Science Society of America Journal, Vol. 63, No. 3, Madison (WI, USA), Soil Science Society of America, p. 592–600, ISSN: 0361-5995. FLOWERS, M.W.R.; HEINIGER, R.; TARLETON, B. & MEIJER, A. (2003). Field Validation of a Remote Sensing Technique for Early Nitrogen Application Decisions in Wheat. In: Agronomy Journal, Vol. 95, No. 1. Madison (WI, USA): American Society of Agronomy, p 167–176. ISSN: 0002-1962. FREI, W. & CHEN, C. (1977). Fast boundary detection: a generalization and a new algorithm. En: IEEE Transactions on computers, Vol C-26, No.10 (Oct.). Washington DC (USA): IEEE Computer Society. p. 988-998. ISSN: 0018-9340. Iscan, Z.; YÜKSEL, A.; Dokur, Z.; Korürek, M. & Ölmez, T. (2009). Medical image segmentation with transform and moment based features and incremental supervised neural network [online]. Digital Signal Processing, Vol. 19, No. 5 (Sep.). Philidelphia (PA, USA): Elsevier Inc. p. 890–901 <http://www.sciencedirect.com/science/article/pii/S1051200409000086> [consult: 12/05/2013] KEMERER, A., MELCHIORI A.; ALBARENQUE, S. & MELCHIORI, R. (2010). Utilización de fotografías aéreas multiespectrales para caracterizar la variabilidad espacial en la producción de caña de azúcar. En: 9º Curso de Agricultura de Precisión y 4ª Expo de Máquinas Precisas (14-16/07/2010), Manfredi (Córdoba, Argentina): INTA - EEA Manfredi. Material del 9º Curso de Agricultura de Precisión, p. 177-182. Kobashi, s.; Kamiura, n.; Hata, y. & Miyawaki. F. (2001). Volume-quantization-based neural network approach to 3D MR angiography image segmentation. In: Image and Vision Computing, Vol. 19, No. 4 (Mar.). Philadelphia (PA, USA): Elsevier Inc. p. 185–193. ISSN: 0262-8856 LARRAHONDO, J.E. (1995). Calidad en la Caña de Azúcar. En: Cenicaña. El cultivo de la caña en la zona azucarera de Colombia, Cali, CENICAÑA. p. 337-354. <http://www.cenicana.org/pdf/ documentos_no_seriados/libro_el_cultivo_cana/libro_p337-354.pdf> [consulta: 15/04/2013] Ma, L. & Staunton, R.C. (2005). Integration of multiresolution image segmentation and neural networks for object depth recovery. In: Pattern Recognition, Vol. 38, No. 7 (Jul.). Philadelphia (PA, USA): Elsevier Inc. p. 985 – 996. ISSN: 0031-3203. MELCHIORI, R.J.M.; CAVIGLIA, O.P.; BIANCHINI, A.A.; FACCENDINI, N.; ALBARENQUE, S. & RAUN W. (2006). Wheat Yield Prediction by Using an Active Sensor in the Northern Argentinean Pampas. In: ASA-CSSA-SSSA Annual meeting (12-16/11/2006), Indianapolis (Indiana, USA): American Society of Agronomy, ASA - Crop Science Society of America, CSSA - Soil Science Society of America, SSSA. Proceedings of ASA-CSSA-SSSA Annual Meeting 2006. Madison (WI, USA): ASA-CSSA-SSSA. MELCHIORI, A.; KEMERER, A. & MELCHIORI, R. Y BELLOMO, M. (2009). Utilización de fotografías aéreas multiespectrales de alta resolución para la cuantificación de caña de azúcar caída. En: I Congreso Argentino de Agroinformática (24-25/08/2009), Mar del Plata (Argentina): Sociedad Argentina de Informática y el Instituto Nacional de Tecnología Agropecuaria, INTA. Middleton, I. & Damper, R. I. (2004). Segmentation of magnetic resonance images using a combination of neural networks and active contour models. In: Medical Engineering & Physics, Vol. 26, No. 1 (Jan.). Philadelphia (PA, USA): Elsevier Inc. p. 71–86. ISSN: 1350-4533. PÉREZ, D.; FANDOS, C.; MAZZONE, L.; SORIA, F.; SCANDALIARIS, P. & SCANDALIARIS, J. (2005). Caña de azúcar en Tucumán y Argentina: evolución de algunos aspectos económicos y productivos en la campaña 2004 [en línea]. Reporte agroindustrial. Estadísticas y márgenes de cultivos tucumanos. Vol. 2, Boletín Nº 6, (ene.). Tucumán (Argentina): Estación Experimental Agroindustrial Obispo Colombres, EEAOC. p 1-6. <http://www.eeaoc.org.ar/upload/publicaciones/archivos/189/20120316170830000000.pdf> [consulta: 02/04/2013] QI, J.; CHEHBOUNI, A.; HUETE, A.; FERRY, Y. & SOROOSHIAN, S. (1994). A modified soil adjusted vegetation index, Remote Sensing of Environment, Vol. 48, No. 2 (May.). Philadelphia (PA, USA): Elsevier Inc. p. 119-126, ISSN: 0034-4257. <http://www.sciencedirect.com/science/ article/pii/0034425794901341> [consult: 01/04/2013] 28
  29. 29. Universidad de Manizales Facultad de Ciencias e Ingeniería RAUN, W.R.; SOLIE, J.B.; STONE, M.L.; MARTIN, K.L.;FREEMAN, K.W.; MULLEN, R.W.; ZHANG, H.; CHEPERS, J.S. & JOHNSON, G.V. (2005). Optical Sensor-Based Algorithm for Crop Nitrogen Fertilization [online].In: Communications in Soil Science and Plant Analysis, Vol. 36, No. 19-20. Johannesburg (South Africa): Taylor & Francis, Inc. p. 2759-2781. ISSN: 0010-3624, EISSN: 1532-2416. <http://www.nue.okstate.edu/Index_Publications/NFOA_2003. pdf> [consult: 02/04/2013] RODRÍGUEZ, R.A.; SOPENA, R.A.; SALEME, P.M. & VICINI, L.E. (2010). Pérdidas durante la Cosecha del Cultivo de Caña de Azúcar: Evaluaciones 2009 en la Provincia de Tucumán – Argentina. En: Informes Técnicos del proyecto Precop, No. 1. Famaillá (Tucumán, Argentina): INTA EEA Famaillá, No. 1, 18 p. ISSN: 1852-9399. ROUSE, J. W.; Jr.; HAAS, R. H.; SCHELL, J. A. & DEERING, D. W. (1973). Monitoring vegetation systems in the great plains with ERTS. In: Third ERTS Symposium (10-14/12/1973), Washington D.C. (USA): NASA. Proceedings of Third ERTS Symposium Vol. 1., p. 309-317. RONDEAUX, G.; STEVEN, M. & BARET, F. (1996). Optimization of soil-adjusted vegetation indices. In: Remote Sensing of Environment, Vol. 55, No. 2 (feb.). Philadelphia (PA, USA): Elsevier Inc. p. 95-107. ISSN: 0034-4257. RUSSEL, B.C.; TORRALBA, A.; MURPHY, K. P. & FREEMAN, W.T. (2008). LabelMe: a database and web-based tool for image annotation. In: International Journal of Computer Vision, Vol. 77, No. 1-3 (may.). New York (USA): Springer US. p. 157-173, ISSN: 0920-5691. SUSTAITA, G. (2005). Modelo estratégico para la industria azucarera regional. Tesis Final MBA, San Miguel deTucumán (Tucumán, Argentina): Universidad Católica del Norte Santo Tomás de Aquino, Fundación del Tucumán y Pontificia Universidad Católica de Valparaíso. TONATTO, J.; ROMERO, E.R.; LEGGIO NEME, M.F.; SCANDALIARIS, J.; ALONSO, J.; DIGONZELLI, P.; ALONSO, L. & CASEN, S. (2005). Importancia de la calidad de la materia prima en la productividad de la agroindustria azucarera. En: Gacetilla Agroindustrial de la EEAOC, No. 67, Tucumán (Argentina): EEAOC. 13 p. TORIBIO, P.; RODRÍGUEZ, B.G. & ALEJO, R. (2009). Complejidad de los datos en las Redes Neuronales Artificiales: Estado de la cuestión. En: 7° Congreso Internacional de Cómputo en Optimización y Software, CICOS 2009 (17-20/11/2009), México (México): UAEM. CRUZCHÁVEZ, M.A. & ZAVALA-DÍAZ, J.C. (eds.). Memorias del 7mo. Congreso de Cómputo CICOS 2009. ISBN(e) 978-607-00-1970-8, México (México): UAEM. p. 229-235. <http://campusv.uaem.mx/ cicos/imagenes/memorias/7mocicos2009/Articulos/24%20%20Complejidad%20de%20los%20 Datos%20en%20Redes.pdf> [consulta: 02/04/2013] VICCINI, L. (2007). Determinación de la variación de rendimiento cultural de caña de azúcar en Tucumán, Argentina, posicionada con GPS. En: Actualización Técnica Nº 8 (jun.). Manfredi (Córdoba, Argentina): Proyecto Nacional Agricultura de Precisión, INTA, 18 p. Wang, A.; ZINEDDIN, B.; LIANG, J.; ZENG, N.; LI, Y.; DU, M.; CAO, J. & LIU,, X. (2013). A novel neural network approach to cDNA microarray image segmentation [online]. In: Computer Methods and Programs in Biomedicine, Vol. 111, No. 1 (Jul.). Philidelphia (PA, USA): Elsevier Inc. p. 189–198 <http://www.sciencedirect.com/science/article/pii/S016926071300103X> [consult: 18/05/2013] 29
  30. 30. Nº 28 - enero - junio / 2013 30
  31. 31. Universidad de Manizales Facultad de Ciencias e Ingeniería Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil*1 [Application of data mining in extracting student dropout profiles] Ricardo TIMARÁN PEREIRA2 - Andrés CALDERÓN ROMERO3 Javier JIMÉNEZ TOLEDO4 Recibo: 20.02.2013 - Aprobación: 16.06.2013 Resumen En este artículo se presentan los primeros resultados del proyecto de investigación cuyo objetivo es detectar patrones de deserción estudiantil a partir de los datos socioeconómicos, académicos, disciplinares e institucionales de los estudiantes de los programas de pregrado de la Universidad de Nariño e Institución Universitaria IUCESMAG, dos instituciones de educación superior de la ciudad de Pasto (Colombia), utilizando técnicas de Minería de Datos. Los resultados obtenidos corresponden a la Universidad de Nariño. Se descubrieron perfiles socioeconómicos y académicos de los * 1 2 3 4 Modelo para citación de este artículo: TIMARÁN PEREIRA, Ricardo; CALDERÓN ROMERO, Andrés & JIMÉNEZ TOLEDO, Javier (2013). Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad de Manizales. p. 31-47. ISSN: 0123-9678 Artículo de investigación científica y tecnológica proveniente del proyecto Detección de perfiles de deserción estudiantil con técnicas de minería de datos en los programas de pregrado de la Universidad de Nariño e Institución Universitaria CESMAG, ejecutado en el periodo 10/2012-04/2013, e inscrito en los grupos de investigación GRIAS de la Universidad de Nariño y Tecnofilia de la IUCESMAG. PhD. en Ingeniería, MSc. en Ingeniería, Especialista en Multimedia e Ingeniero de Sistemas y Computación. Director grupo de investigación GRIAS, Profesor Asociado, Departamento de Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico: ritimar@ udenar.edu.co MSc. en Geoinformática, Ingeniero de Sistemas. Profesor hora cátedra, Departamento de Sistemas, Facultad de Ingeniería, Universidad de Nariño, Pasto (Colombia). Correo electrónico: aocalderon@udenar.edu.co Especialista en Docencia Universitaria, Ingeniero de Sistema. Profesor tiempo completo, Facultad de Ingeniería, Institución Universitaria CESMAG, Pasto (Colombia). Correo electrónico: jajimenez@iucesmag.edu.co Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 31-47 31
  32. 32. Nº 28 - enero - junio / 2013 estudiantes que desertan utilizando la técnica de clasificación basada en árboles de decisión. El conocimiento generado permitirá soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos. Palabras clave: Extracción de Perfiles, Deserción Estudiantil, Minería de Datos, Clasificación, Árboles de Decisión Abstract The first results of the research project that aims to identify patterns of student dropout from socioeconomic, academic, disciplinary and institutional data of students from undergraduate programs at the University of Nariño and IUCESMAG University, two higher education institutions in the city of Pasto (Colombia), using data mining techniques are presented. The results correspond to the University of Nariño. Socioeconomic and academic profiles were discovered of students who drop using classification technique based on decision trees. The knowledge generated will support effective decision-making of university staff focused to develop policies and strategies related to student retention programs that are currently set. Keywords: Extraction of Profiles, Student Dropout, Data Mining, Classification, Decision Trees Introducción Los países de América Latina enfrentan desafíos similares en la educación superior, los cuales constituyen el contexto de la deserción estudiantil: financiación, incremento de la cobertura, aseguramiento de la calidad, mejoramiento de la equidad en el acceso y permanencia, mayor articulación con la educación secundaria, diversificación de la oferta para atender distintas dimensiones, intereses y necesidades (ciencia, tecnología, sector productivo, investigación, humanidades, artes, formación integral) y mayor vinculación con el sector laboral y productivo. Según el Instituto para la Educación Superior en América Latina y el Caribe (IESALC), citado por MEN (2006a, 14), Latinoamérica presentó en el año 2003 una cobertura promedio en educación superior del 28.7% y una tasa de deserción estudiantil del 50%. En Colombia, el sistema educativo cuenta con 277 instituciones de educación superior, de las cuales 81 son públicas y 196 privadas. De 32
  33. 33. Universidad de Manizales Facultad de Ciencias e Ingeniería acuerdo al Sistema Nacional de Información de la Educación Superior (SNIES), citado por MEN (2006a, 14), a 2006 la cobertura fue de 26.1%, lo cual equivale a 1.301.728 estudiantes. Uno de los principales problemas que enfrenta el sistema de educación superior colombiano concierne a los altos niveles de deserción estudiantil. Pese a que los últimos años, según MEN (2009, 13), se han caracterizado por aumentos de cobertura e ingreso de estudiantes nuevos, el número de alumnos que logra culminar sus estudios superiores no es alto, dejando entrever que una gran parte de éstos abandona sus estudios, principalmente en los primeros semestres, ya que de cada cien estudiantes que ingresan a una institución de educación superior cerca de la mitad no logra culminar su ciclo académico y obtener la graduación. Adicionalmente, MEN (2006a, 14) plantea que a 2004, la deserción se estimó en 49%, cuyas causas fueron: limitaciones económicas y financieras, bajo rendimiento académico, desorientación vocacional y profesional y dificultades para adaptarse al ambiente universitario. Es de resaltar que, señala MEN (2006b, 1), la deserción estudiantil conlleva altos costos sociales y económicos que afectan a las familias, los estudiantes, las instituciones y el Estado. Se entiende por deserción estudiantil, de acuerdo con UPN (2005), al hecho de que un número de estudiantes matriculados no siga la trayectoria normal del programa académico, bien sea por retirarse de ella, por repetir cursos o por retiros temporales. MEN (2009), la define como una situación a la que se enfrenta un estudiante cuando aspira y no logra concluir su proyecto educativo, considerándose como desertor a aquel individuo que siendo estudiante de una institución de educación superior no presenta actividad académica durante dos semestres académicos consecutivos, lo cual equivale a un año de inactividad académica. Esta definición es el que se aplicó en esta investigación. La minería de datos en la educación no es un tópico nuevo y su estudio y aplicación ha sido muy relevante en los últimos años. El uso de estas técnicas permite, entre otras cosas, predecir cualquier fenómeno dentro del ámbito educativo. De esta forma, utilizando las técnicas que ofrece la minería de datos, se puede predecir, con un porcentaje muy alto de confiabilidad, la probabilidad de desertar de cualquier estudiante, coinciden Valero (2009) y Valero, Salvador & García (2010). En el entorno internacional se han desarrollado algunos proyectos de investigación aplicando la minería de datos al descubrimiento de patrones de deserción estudiantil: - Tal como lo señalan Pautsch (2009, 58) y Pautsch, La Red & Cutro (2010), en la Universidad Nacional de Misiones (Argentina) se realizó 33
  34. 34. Nº 28 - enero - junio / 2013 una investigación sobre deserción estudiantil utilizando las técnicas de minería de datos. Su objetivo principal fue maximizar la calidad que los modelos tienen para clasificar y agrupar a los estudiantes, de acuerdo a sus características académicas, factores sociales y demográficos, que han desertado de la Carrera Analista en Sistemas de Computación de la Facultad de Ciencias Exactas, Químicas y Naturales analizando los datos de las cohortes entre los años 2000 al 2006. - De igual manera, según La Red et al. (2010), en la Universidad Nacional del Nordeste (Argentina) se realizó un estudio cuyo objetivo principal fue aplicar técnicas de almacenes de datos y minería de datos basadas en clustering para la búsqueda de perfiles de los alumnos de la asignatura Sistemas Operativos de la Licenciatura en Sistemas de Información según su rendimiento académico, situación demográfica y socioeconómica, que permita conocer a priori situaciones potenciales de éxito o de fracaso académico. - En la Universidad Nacional de la Matanza (Argentina), señalan Spositto et al., (2010), se aplicaron técnicas de minería de datos para evaluar el rendimiento académico y la deserción de los estudiantes del Departamento de Ingeniería e Investigaciones Tecnológicas sobre los datos de los alumnos del periodo 2003 al 2008. La implementación de este proceso se realizó con el software MS SQL Server para la generación de un almacén de datos, el software SPSS para realizar un preprocesamiento de los datos y el software Weka (Waikato Environment for Knowledge Analysis) para encontrar un clasificador del rendimiento académico y para detectar los patrones determinantes de la deserción estudiantil. - Valero, (2009) y Valero, Salvador & García, (2010), señalan que en la Universidad Tecnológica de Izúcar de Matamoros (México) se propuso una investigación para identificar las causas que motivan la deserción de sus estudiantes desde que ingresan. Mediante la técnica de minería de datos clasificación y la herramienta Weka, encontraron relaciones entre atributos académicos que identifican y predicen la probabilidad de deserción y propusieron una herramienta para el tutor que le permite predecir la probabilidad de deserción de cualquier alumno en cualquier momento de su estancia escolar. En el ámbito colombiano, de acuerdo con Restrepo & López (2008), en la Universidad de La Sabana se realizó un proyecto de investigación donde el objetivo era seleccionar, de una base de datos de estudiantes, los atributos que tuvieran mayor incidencia en la deserción de la Universidad en los últimos cuatro años, con la técnica de minería de datos clasificación por Rough Sets utilizando el paquete ROSE2. De igual manera, Pinzón (2011) presenta la caracterización del perfil 34
  35. 35. Universidad de Manizales Facultad de Ciencias e Ingeniería del estudiante desertor de la Escuela de Marketing y Publicidad de la Universidad Sergio Arboleda, utilizando la técnica de minería de datos agrupamiento con el algoritmo K-means. Se analizaron las variables demográficas del alumno obtenidas en el registro de última matrícula del mismo semestre de abandono y las causas que lo generaron. Como resultado final, se obtuvieron tres tipos de clúster que para el caso de la investigación, constituyeron perfiles significativos. En este artículo se presentan los primeros resultados del proyecto de investigación cuyo objetivo es detectar patrones de deserción estudiantil a partir de los datos socioeconómicos, académicos, disciplinares e institucionales de los estudiantes de los programas de pregrado de dos instituciones colombianas de educación superior, utilizando técnicas de Minería de Datos. Se descubrieron perfiles socioeconómicos y académicos de los estudiantes que desertan utilizando la técnica de clasificación basada en árboles de decisión con la herramienta Weka, una de las suites más utilizadas en el área de descubrimiento de conocimiento en los últimos años (García, s.f.). El conocimiento generado permitirá soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos. El resto del artículo se organiza de la siguiente manera. En la sección 1, se presenta los conceptos básicos del proceso de descubrimiento de conocimiento en bases de datos. En la sección 2, se describe la metodología utilizada en la investigación. En la sección 3, se presentan los resultados de la fase de minería de datos y la discusión de resultados y finalmente, en la última sección se presenta las conclusiones y trabajos futuros. 1. Fundamento teórico 1.1 Proceso de descubrimiento de conocimiento en bases de datos El proceso de extraer conocimiento a partir de grandes volúmenes de datos ha sido reconocido por muchos investigadores como un tópico de investigación clave en los sistemas de bases de datos, y por muchas compañías industriales como una importante área y una oportunidad para obtener mayores ganancias. Fayyad, Piatetsky-Shapiro & Smyth (1996) lo definen como «El proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente entendibles al usuario a partir de los datos». 35
  36. 36. Nº 28 - enero - junio / 2013 El Descubrir de Conocimiento en Bases de Datos (DCBD) es básicamente un proceso automático en el que se combinan descubrimiento y análisis. El proceso, de acuerdo con Agrawal & Srikant (1994), Chen, Han & Yu (1996) y Han & Kamber (2001), consiste en extraer patrones en forma de reglas o funciones, a partir de los datos, para que el usuario los analice, tarea que implica generalmente preprocesar los datos, hacer minería de datos (data mining) y presentar resultados. El proceso DCBD es interactivo e iterativo, involucra numerosos pasos con la intervención del usuario en la toma de muchas decisiones y se resumen en cinco etapas: Selección de datos, preprocesamiento, transformación de datos, minería de datos (data mining) e interpretación. En la figura 1 se muestran estas etapas. Figura 1. Etapas del proceso de descubrimiento de conocimiento en bases de datos 1.2 Etapa de minería de datos La minería de datos es la etapa más importante del proceso DCBD, cuyo objetivo es la búsqueda, extracción y descubrimiento de patrones insospechados y de interés. La minería de datos consta de diferentes tareas, cada una de las cuales puede considerarse como un tipo de problema a ser resuelto por un algoritmo de minería de datos, afirman Adamo (2001) y Hernández, Ramírez & Ferri (2005), donde la tarea de clasificación por árboles de decisión es una de ellas. La clasificación por árboles de decisión es, probablemente, el modelo más utilizado y popular por su simplicidad y facilidad para su entendimiento, de acuerdo con Han & Kamber (2001) y Sattler & Dunemann 36
  37. 37. Universidad de Manizales Facultad de Ciencias e Ingeniería (2001). El conocimiento obtenido en el proceso de aprendizaje, según Wang, Iyer & Scott (1998), se representa mediante un árbol en el cual cada nodo interior contiene una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta) y cada hoja del árbol se refiere a una decisión (una clasificación). Durante la etapa de construcción del árbol, en forma recursiva, cada conjunto de datos se divide en subconjuntos de acuerdo a un criterio de particionamiento, con el fin de escoger el atributo que mejor separe los ejemplos restantes en clases individuales. Seleccionar el mejor punto de particionamiento, consideran Sattler & Dunemann (2001), es la parte de la construcción del árbol que mayor tiempo consume. 2. Metodología Teniendo en cuenta las etapas del proceso DCBD, inicialmente se seleccionaron, de las bases de datos de la Universidad de Nariño los datos socio-económicos, académicos, disciplinares e institucionales de los estudiantes que ingresaron en los años 2004, 2005 y 2006 a los diferentes programas de pregrado, con el fin de hacerles un seguimiento completo hasta el año 2011, determinando si desertaron o no. Con estos datos se construyó un repositorio de datos utilizando el SGBD PostgreSQL. A estos datos se les aplicó las etapas de preprocesamiento y transformación con el fin de obtener conjuntos de datos limpios y listos para aplicarles las técnicas y los algoritmos de minería de datos. Los primeros resultados se obtuvieron utilizando la técnica de clasificación basada en árboles de decisión con la herramienta libre de minería de datos Weka. Finalmente, estos resultados fueron analizados, evaluados e interpretados para determinar la validez del conocimiento obtenido. 2.1 Etapa de selección de datos El objetivo de esta etapa es obtener las fuentes internas y externas de datos que sirven de base para el proceso de minería de datos. Como fuentes internas, se seleccionaron las bases de datos de Admisiones y Registro Académico. Teniendo en cuenta la ventana de observación de este estudio (2004-2011), en estas bases de datos se encuentra almacenada la información personal y académica de 15.805 estudiantes. Como fuentes externas principales se seleccionaron datos de la base de datos del Instituto Colombiano para el Fomento de la Educación Superior (ICFES), del Departamento Administrativo Nacional de Estadística (DANE), del Sistema para la Prevención de la Deserción en la 37
  38. 38. Nº 28 - enero - junio / 2013 Educación Superior (SPADIES), del Sistema de Identificación de Beneficiarios Potenciales de Programas Sociales (SISBEN) e información de la Registraduría Nacional del Estado Civil Colombiano. De los 15.805 registros se seleccionaron únicamente los datos de los estudiantes de las cohortes 2004, 2005 y 2006 con los atributos más relevantes para este estudio. Como resultado se obtuvieron 6870 registros y 62 atributos correspondientes a información socioeconómica, académica, disciplinar e institucional. Estos datos fueron almacenados en una base de datos construida con el sistema gestor de base de datos PostgreSQL, en la tabla TA62. Esta tabla servirá de base para las subsiguientes etapas del proceso de descubrimiento de patrones de deserción estudiantil. 2.2 Etapa de preprocesamiento de datos El objetivo de esta etapa es obtener datos limpios, i.e. datos sin valores nulos o anómalos, que permitan obtener patrones de calidad. Por medio de consultas SQL ad-hoc o a través de histogramas, se analizó minuciosamente la calidad de los datos contenidos en cada uno de los atributos de la tabla TA62. Teniendo en cuenta la relevancia de ciertos atributos para la investigación, los valores nulos de estos atributos fueron actualizados con los valores encontrados en fuentes externas. Por otra parte, los atributos con un alto porcentaje de valores nulos tales como libreta-militar (82.45%), distritomilitar (84.82%), idmunicipio-conflicto (89.57%), periodo-grado (89.50%), padre-vive (99.47%), madre-vive (99.58%), descripción-laboral (99.75%) entre otros, fueron eliminados por la imposibilidad de obtener estos valores con las fuentes externas o utilizando técnicas estadísticas como la media, mediana y la moda o derivando sus valores a través de otros. 2.3 Etapa de transformación de datos El objetivo de esta fase es transformar la fuente de datos en un conjunto listo para aplicar las diferentes técnicas de minería de datos. Con el fin de generar conocimiento acerca de los factores socioeconómicos, académicos, disciplinares e institucionales que pueden incidir en la deserción estudiantil, se seleccionaron de la tabla TA62, los 31 atributos más representativos y con estos se creó la tabla TA31. De estos 31 atributos, se escogieron 18 para analizar el factor socioeconómico y 15 para el factor académico y se crearon las tablas TA18 y TA15 respectivamente. Dado el reducido número de atributos seleccionados para los factores disciplinar e institucional, estos se agregaron a la parte académica del estudiante. Para facilitar la extracción de patrones, se discretizaron los valores numéricos de la tabla TA31 a valores nominales. Este proceso se llevó a cabo utilizando el filtro discretize de la herramienta Weka con el pará38
  39. 39. Universidad de Manizales Facultad de Ciencias e Ingeniería metro de frecuencias iguales (useEqualFrequency) a 6 valores. Por otra parte se adecuo la tabla TA31 al formato ARFF (Atribute Relation File Format) requerido por Weka para continuar con la etapa de minería de datos. En la tabla 1 se muestran los atributos de la tabla TA31 con los diferentes valores discretizados en formato ARFF. De acuerdo a esta tabla, los primeros 17 atributos y el atributo 31 de TA31 forman la tabla TA18 y corresponden a los atributos socioeconómicos. Los atributos del 17 al 31 de la tabla TA31 corresponden a los atributos académicos y estructuran la tabla TA15. 2.4 Etapa de minería de datos El objetivo de la etapa de minería de datos es la búsqueda y descubrimiento de patrones insospechados y de interés aplicando tareas de descubrimiento tales como clasificación, clustering, patrones secuenciales, asociaciones entre otras. La tarea de minería de datos escogida para el proceso de descubrimiento de patrones de deserción estudiantil en la Universidad de Nariño fue clasificación, teniendo en cuenta que con los valores del atributo clase deserción se puede construir un modelo de clasificación que determine las características de las estudiantes que desertan o no. Las reglas de clasificación se obtuvieron con la herramienta Weka utilizando el algoritmo J48 que implementa el conocido algoritmo de árboles de decisión C4.5 (Quinlan, 1993, 81). Se utilizó el repositorio TA31 para obtener las reglas de clasificación generales que caracterizan a los estudiantes que desertan. Se escogió como clase, el atributo deserción. En la figura 2 se muestra el árbol de decisión generado por Weka. De igual manera, se utilizaron los conjuntos de datos TA18 y TA15 para determinar, respectivamente, los factores socioeconómicos y académicos que inciden en la deserción estudiantil. Las reglas de clasificación más relevantes se muestran en la sección de resultados. Figura 2. Árbol de decisión para reglas de clasificación generales a partir de TA31 39
  40. 40. Formato arff atributo 40 @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute No. 1 2 3 4 5 6 7 8 19 20 Zona_nacimiento {sur, CAPITAL,putumayo,norte,’otras regiones’,’centro occidente’,costa,centro} Zona_procedencia { CAPITAL,norte,sur,’centro occidente’,c entro,costa,putumayo,’otras regiones’} 23 24 Ocupacion_padre {varios,’oficiales, operarios, artesanos,industria manufacturera, construccion y mineria’,’sin ocupacion’,hogar,’profesionales universitarios, cientificos e intelectuales’,pensionados, etc. 22 Padre {n,s} Estrato {0,1,2,3,4,5,6,99} 21 18 Estado_civil {soltero,casado,separado,’unión libre’,’madre soltera’,viudo,religioso} Regimen_salud {contributivo,subsidiado} 17 No. Genero {m,f} Atributos y valores @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute Formato arff atributo Atributos y valores Facultad {‘ciencias exactas y naturales’,’ciencias humanas’,’ciencias agricolas’,’ciencias económicas y administrativas’,’ciencias de la salud’,ingeniería,’ciencias pe cuarias’,educación,artes,’ingenieria agroindustrial’} Extension { CAPITAL,tumaco,tuquerres,ipiales,samaniego, buesaco,’la union’,ricaurte} Icfes_total {‘mayor a 475’,’de 420 a 450’,’de 450 a 475’,’de 400 a 420’,’de 375 a 400’,’menor a 375’} Icfes_promedio {‘de 53 a 56’,’de 48 a 50’,’de 46 a 48’,’de 50 a 53’,’menor a 46’,’mayor a 56’} Icfes_ponderado {‘de 52 a 54’,’de 50 a 52’,’de 54 a 58’,’de 46 a 50’,’mayor a 58’,’menor a 46’} Jornada_colegio {mañana,tarde,completa,noche,sabatina} Tipo_colegio {publico,privado} Edad_ingreso {‘igual a 18’,’menor a 18’,’mayor a 22’,’de 21 a 22’,’igual a 19’,’igual a 20’} Tabla 1. Atributos tabla TA31 en formato ARFF Nº 28 - enero - junio / 2013
  41. 41. Formato arff atributo @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute No. 9 10 11 12 13 14 15 16 27 Tipo_residencia {‘arrendada o anticresada’,propia,’propia pagandose por cuotas’} 30 31 Ingresos_familiares {‘de 4540000 a 5980000’,’mayor a 8540000’,’de 2850000 a 4540000’,’5980000 a 8854000’,’menor a 2850000’} Valor_matricula_colegio {‘de 76639 a 106100’,’de 60248 a 76639’,’mayor a 106100’,’menor a 21550’,’de 21550 a 44369’,’de 44369 a 60247’} Valor_matricula {‘menor a 100259’,’de 120574 a 158846’,’de 100259 a 120574’,’de 234266 a 381504’,’de 158846 a 234266’,’mayor a 381504’} 29 Hermanos_universidad {‘n ‘,’s ‘} 28 26 Ocupacion_madre {‘trabajadores no calificados’,hogar,’sin ocupacion’,’trabajadores de los servicios y vendedores’,vari os,pensionados,’profesionales universitarios, etc. Vive_con_familia {‘s ‘,’n ‘} 25 No. Madre {n,s} Atributos y valores @attribute @attribute @attribute @attribute @attribute @attribute @attribute Formato arff atributo Desercion {s,n} Veces_perdida {‘igual a 2’,’igual a 3’,ninguna,’igual a 1’,’igual a 4’,’mayor a 4’} Area_materia {‘formación específica’,na,’filosofía histórica ’,pedagogía,’componente de fundamentación’,’formación instrumental’,’ciencias básicas’,’paradigmas teóricos’,’formación investigativa’,’formación matemática’,etc. Semestre_perdidas {‘p ‘,’m ‘,na,’u ‘,ce} Materias_perdidas {‘de 3 a 4’,’mayor a 9’,’de 5 a 6’,ninguna,’de 1 a 2’,’de 7 a 9’} Promedio_nota {‘de 2.4 a 3.1’,’de 3.5 a 3.7’,’mayor a 4.0’,’de 3.7 a 4.0’,’de 3.1 a 3.5’,’menor a 2.4’} Area_programa {‘matemáticas y ciencias naturales’,’ciencias sociales y humanas’,’agronomía, veterinaria y afines’,’economía, administración, contaduría y afines’,’ciencias de la salud’,ingeniería,’ciencias de la educación’,’bellas artes’} Atributos y valores Universidad de Manizales Facultad de Ciencias e Ingeniería 41
  42. 42. Nº 28 - enero - junio / 2013 2.5 Etapa de interpretación de datos En esta etapa se evalúan e interpretan los patrones descubiertos para determinar su calidad y consolidar el conocimiento descubierto e incorporarlo en otro sistema para posteriores acciones o para confrontarlo con conocimiento previamente descubierto. Además, puede incluir la visualización de los patrones extraídos, la remoción de los patrones redundantes o irrelevantes y la traducción de los patrones útiles en términos que sean entendibles para el usuario. Con el fin de evaluar la calidad y precisión de la predicción de las reglas de clasificación obtenidas se utilizó el método de validación cruzada con 10 pliegues (n-fold cross validation). Los resultados de esta etapa se analizan en la siguiente sección. 3. Resultados y discusión Como resultado de interpretar el árbol de decisión, generado por el algoritmo J48 (figura 2) con el conjunto de datos TA31 se obtuvieron las reglas de clasificación más representativas con una confianza mayor que 80% que se muestran en la tabla 2, donde puede observarse que los factores predominantes en la deserción estudiantil en la Universidad de Nariño son los académicos, especialmente un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera. Con el fin de determinar los factores socioeconómicos que inciden en la deserción estudiantil, se generaron las reglas de clasificación con una confianza mayor que 80% y con el conjunto de datos TA18. El resultado se muestra en la tabla 3. Para determinar otros factores académicos asociados a la deserción estudiantil, se generaron reglas de clasificación con una confianza mayor que 80%, pero con el conjunto de datos TA15 sin tener en cuenta el atributo promedio_nota. De acuerdo a las reglas de la tabla 3, los factores socioeconómicos que inciden en la deserción estudiantil son el valor de la matrícula mayor que $381504 y proceder de la zona sur del departamento. El hecho de ser soltero, vivir con la madre y ser de la ciudad capital puede incidir también en la deserción. Según las resultados, los factores académicos que inciden en la deserción estudiantil, además de un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera, son la facultad a la que pertenece el estudiante y el área a la que pertenece las materias perdidas. 42
  43. 43. Universidad de Manizales Facultad de Ciencias e Ingeniería 4. Conclusiones y trabajos futuros Los primeros resultados obtenidos a través de la técnica de clasificación por árboles de decisión indica que esta es capaz de generar modelos consistentes con la realidad observada y el respaldo teórico, basándose únicamente en los datos que se encuentran almacenados en las bases de datos de una de las universidades. Una de las grandes dificultades que se presenta en esta clase de estudios es la mala calidad de los datos que muchas veces, después del proceso de limpieza, hace que se descarten ciertas variables por la imposibilidad de obtener sus valores y que de alguna manera influye en los resultados de la minería de datos. Se ha obtenido un patrón general de deserción estudiantil determinado por un promedio bajo y el tener materias perdidas en los primeros semestres de la carrera. Se han determinado factores socioeconómicos y académicos asociados a la deserción estudiantil. La evaluación, análisis y utilidad de estos patrones permitirá soportar la toma de decisiones eficaces de las directivas universitarias enfocadas a formular políticas y estrategias relacionadas con los programas de retención estudiantil que actualmente se encuentran establecidos. Como trabajos futuros están el continuar con el estudio de deserción estudiantil en la universidad estudiada, aplicando otras técnicas de minería de datos tales como asociación y clustering con el fin de determinar afinidades, similitudes y relaciones entre los factores socioeconómicos y académicos de las estudiantes que desertan. Para verificar la calidad y precisión del modelo de clasificación obtenido se utilizarán otros clasificadores y se compararán sus resultados. Se aplicará la misma metodología al repositorio de datos de la universidad cooperante en el estudio, para analizar y evaluar los patrones encontrados en ambas instituciones de educación superior. Agradecimientos Este proyecto de investigación se financia con recursos del Ministerio de Educación Nacional y con recursos de contrapartida de la Universidad de Nariño y la Institución Universitaria CESMAG. 43
  44. 44. Atributo Clase Deserta S N S N S 44 N N N S N N S Reglas de clasificación socioeconómicas con el conjunto de datos TA18 valor_matricula = De 158846 a 234266 & vive_con_familia = N valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = N & padre = N & hermanos_universidad = N & genero = F valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = SUR valor_matricula > 381504 & zona_procedencia = SUR valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = COSTA valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = CENTRO OCCIDENTE valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = S & tipo_residencia = PROPIA & zona_nacimiento = CAPITAL Atributo, Clase, Deserta promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 5 a 6 & semestre_perdidas = P promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 1 a 2 & semestre_perdidas = P & zona_procedencia = CAPITAL Reglas S S promedio_nota = De 3.5 a 3.7 & materias_perdidas = De 1 a 2 & semestre_perdidas = P Tabla 3. Reglas de clasificaciones socioeconómicas y académicas S promedio_nota = De 2.4 a 3.1 & semestre_perdidas = P promedio_nota = De 3.7 a 4.0 & veces_perdida = 1 promedio_nota = Menor a 2.4 promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 7 a 9 promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 3 a 4 Reglas Tabla 2. Reglas de clasificación más representativas con el conjunto de datos TA31 0.0284 0.0242 0.0224 0.0136 0.0119 0.0337 0.0933 Soporte 0.017 0.0129 0.0227 0.1559 0.1551 0.1519 0.0314 0.0264 Soporte 0.912 0.9369 0.882 0.908 0.8071 0.8 0.8539 Confianza 0.8198 0.8341 0.8108 0.939 0.8528 0.998 0.8585 0.9535 Confianza Nº 28 - enero - junio / 2013
  45. 45. S N N S S S N S S S N S S S S S N S S S extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS EXACTAS Y NATURALES extension = CAPITAL & semestre_perdidas = CE extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS HUMANAS extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS PECUARIAS extension = TUMACO extension = IPIALES extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN extension = CAPITAL & semestre_perdidas = P & facultad = EDUCACIÓN extension = TUMACO & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES extension = CAPITAL & semestre_perdidas = NA & facultad = ARTES extension = CAPITAL & semestre_perdidas = P & area_materia = PEDAGOGÍA extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BÁSICAS & facultad = CIENCIAS EXACTAS Y NATURALES extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN MATEMÁTICA extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIÓN EN CIENCIAS EXACTAS Y NATURALES extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS DE LA SALUD extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS AGRICOLAS extension = CAPITAL & semestre_perdidas = P & area_materia = LENGUA EXTRANJERA extension = TUMACO & semestre_perdidas = P & area_programa = ECONOMÍA ADMINISTRACIÓN CONTADURÍA Y AFINES extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIÓN BÁSICA & facultad = ARTES N Atributo, Clase, Deserta Reglas de clasificación académicas con el conjunto de datos TA15 extension = CAPITAL & semestre_perdidas = M Reglas 0.0152 0.0156 0.0161 0.0167 0.0179 0.0175 0.0185 0.0187 0.019 0.0207 0.0215 0.0233 0.0458 0.0379 0.0336 0.0322 0.0497 0.0582 0.0612 0.1032 0.2088 Soporte 0.8283 0.9412 0.8571 0.8716 0.9658 0.807 0.9587 0.8852 0.879 0.8593 0.8786 0.8092 0.8361 0.9919 0.863 0.8524 0.8025 0.8079 0.8672 0.8692 0.8128 Confianza Universidad de Manizales Facultad de Ciencias e Ingeniería 45
  46. 46. Nº 28 - enero - junio / 2013 Referencias bibliográficas ADAMO, Jean-Marc (2001). Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. New York (USA): Springer-Verlag. 253 p. ISBN: 0-387-95048-6. AGRAWAL, Rakesh & SRIKANT, Ramakrishnan (1994). Fast Algorithms for Mining Association Rules. In: 20th International Conference on Very Large Data Bases, VLDB 1994, (1215/09/1994). Santiago de Chile (Chile): VLDB. Proceedings. p. 487-499. ISBN: 1-55860-153-8. CHEN, Ming; HAN, Jiawei & YU, Philip (1996). Data mining: An overview from database perspective. In: IEEE Transactions on Knowledge and Data Engineering. Vol. 8, No. 6 (dic). Los Alamitos (CA, USA): IEEE Computer Society. p. 866-883. ISSN: 1041-4347. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory and SMYTH, Padrahic. (1996). The KDD process for extracting useful knowledge from volumes of data. In: Comunications of the ACM. Vol. 39, No. 11 (nov). New York (USA): ACM Digital Library. p 27-34. ISSN: 0001-0782. GARCÍA MORATE, Diego (s.f.). Manual de Weka [en línea]. Valladolid (España): MetaEmotion, S.L. <http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf> 42 p. [consulta: 15/06/ 2012]. HAN, Jiawei & KAMBER, Micheline (2001). Data Mining: Concepts and Techniques. San Francisco (CA, USA): Morgan Kaufmann Publishers, Academic Press. 550 p. ISBN: 1-55860-489-8. HERNÁNDEZ, José; RAMÍREZ, María & FERRI, César (2005). Introducción a la Minería de Datos. Madrid (España): Pearson Prentice Hall. 656 p. ISBN: 84-205-4091-9. LA RED, David, ACOSTA, Julio; CUTRO, Luis; URIBE, Valeria. & RAMBO, Alice (2010). Data Warehouse y Data Mining Aplicados al Estudio del Rendimiento Académico. En: Novena Conferencia Iberoamericana en Sistemas, Cibernética e Informática, CISCI 2010, (29/062/07/2010), Orlando (Florida, EE.UU.): International Institute of Informatics and Systemics. Memorias CISCI 2010, Volumen I, p. 289-294. ISBN: 978-1-934272-94-7. MEN (2006a). América Latina piensa la deserción. En: Boletín informativo Educación Superior. No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446. MEN (2006b). Deserción estudiantil: prioridad en la agenda. En: Boletín informativo Educación Superior. No 7 (dic). Bogotá (Colombia): Ministerio de Educación Nacional. 20 p. ISSN: 1794-2446. MEN (2009). Deserción estudiantil en la educación superior colombiana: metodología de seguimiento, diagnóstico y elementos para su prevención. Bogotá (Colombia): Ministerio de Educación Nacional. 158 p. ISBN: 978-958-691-366-9. PAUTSCH, Jesús (2009). Minería de datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación. Tesis de grado (Licenciado en Sistemas de Información). Posadas, Misiones (Argentina): Universidad Nacional de Misiones. 193 p. PAUTSCH, Jesús; LA RED, David & CUTRO, Luis (2010). Minería de datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación [en línea]. Posadas, Misiones (Argentina): Universidad Nacional de Misiones. <http://www.dataprix.com/files/Analisis%20de%20Desercion%20Univ_0.pdf> [consulta: 18/06/2012]. PINZÓN, Liza (2011). Aplicando minería de datos al marketing educativo. En: Revista Notas de Marketing. No 1 (jun). Bogotá (Colombia): Universidad Sergio Arboleda, Escuela de Marketing y Publicidad. p 45-61. ISSN: 2248-4930 QUINLAN, Ross (1993). C4.5: Programs for Machine Learning. San Francisco (CA, USA): Morgan Kaufmann Publishers. 299 p. ISBN: 1-55860-238-0. RESTREPO, Mauricio & LÓPEZ, Andrés (2008). Uso de la metodología Rough Sets en un modelo de deserción académica. En: XIV Congreso Ibero Latinoamericano de Investigación de Operaciones, CLAIO 2008, (9-12/09/2008), Cartagena (Colombia): Universidad del Norte. Libro de Memorias CLAIO 2008, p. 108-109. Ediciones Uninorte. SATTLER, Kai-Uwe. & DUNEMANN, Oliver (2001). SQL Database Primitives for Decision Tree Classifiers. In: The 10th ACM International Conference on Information and Knowledge Management - CIKM, (5-10/11/2001), Atlanta (Georgia, USA): ACM. Proceedings, p. 379-386. ISBN: 1-58113-436-3. SPOSITTO, Osvaldo; ETCHEVERRY, Martín; RYCKEBOER, Hugo & BOSSERO, Julio (2010). Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil. En: Novena Conferencia Iberoamericana en Sistemas, Cibernética e 46
  47. 47. Universidad de Manizales Facultad de Ciencias e Ingeniería Informática, CISCI 2010, (29/06-2/07/2010), Orlando (Florida, EE.UU.): International Institute of Informatics and Systemics. Memorias CISCI 2010, Vol. I. ISBN: 978-1-934272-94-7. UPN (2005). La deserción estudiantil: reto investigativo y estratégico asumido de forma integral por la UPN [en línea]. En: Encuentro Internacional sobre Deserción en Educación Superior: experiencias significativas (17-18/05/2005) Bogotá (Colombia): Ministerio de Educación Nacional. <http://www.mineducacion.gov.co/1621/articles-85600_Archivo_pdf3.pdf> [consulta: 15/06/ 2012]. VALERO, Sergio (2009). Aplicación de técnicas de minería de datos para predecir la deserción [en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/MineriaDesercion.pdf> [consulta: 10/06/2012]. VALERO, Sergio; SALVADOR, Alejandro & GARCÍA, Marcela (2010). Minería de datos: predicción de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos más cercanos [en línea]. Izúcar de Matamoros, Puebla (México): Universidad Tecnológica de Izúcar de Matamoros. <http://www.utim.edu.mx/~svalero/docs/e1.pdf> [consulta: 10/06/2012]. WANG, Min; IYER, Bala & SCOTT, Jeffrey (1998). Scalable Mining for Classification Rules in Relational Databases. In: International Database Engineering and Application Symposium, IDEAS 98, (08-10/07/1998), Cardiff (Wales, U.K.): IEEE Computer Society. Proceedings, p. 58-67. ISBN: 0-8186-8307-4. 47
  48. 48. Nº 28 - enero - junio / 2013 48
  49. 49. Universidad de Manizales Facultad de Ciencias e Ingeniería Técnicas de implementación de procesos colaborativos a la mejora procesos: un acercamiento a PMBOK*1 [Implementation techniques for improving collaborative processes closer to PMBOK processes] José Luis JURADO2, César Alberto COLLAZOS3 Recibo: 20.02.2013 - Aprobación: 21.06.2013 Resumen La ingeniería de la colaboración surge como una línea de estudio de la ingeniería de software, que brinda grandes virtudes, en la mejora de procesos, para potencializar el desarrollo de trabajo en equipo y generación de nuevo conocimiento, a partir de la cooperación y articulación de un esfuerzo compartido de un equipo de trabajo en una organización. El propósito del presente documento es dar a conocer el resultado de una investigación que buscó integrar la ingeniería de la colaboración con la gestión de proyectos, en pro de mejorar los procesos de control, seguimiento y verificación de los resultados alcanzados por una organización, que aplique métodos y guías formales en sus procesos de gestión de proyectos informáticos. El documento está centrado en describir las técnicas de la ingeniería de la colaborativas usadas y el resultado de * Modelo para citación de este artículo: JURADO, José Luis & COLLAZOS, César Alberto (2013). Técnicas de implementación de procesos colaborativos a la mejora procesos: un acercamiento a PMBOK. En: Ventana Informática. No. 28 (ene.-jun.). Manizales (Colombia): Facultad de Ciencias e Ingeniería, Universidad de Manizales. p. 49-66. ISSN: 0123-9678 1 Artículo de investigación científica y tecnológica proveniente del proyecto Mejora de procesos en la gestión de proyectos informáticos una perspectiva desde la ingeniería de la colaboración, ejecutado en el periodo Junio 2010 –junio 2012, e inscrito en el grupo de investigación IDIS – Universidad del Cauca. [Proyecto para optar al título de Magíster en Computación – Universidad del Cauca, por parte del primer autor bajo dirección del segundo]. 2 Ingeniero de Sistemas, MSc. en Computación. Docente, Institución Universitaria Colegio Mayor del Cauca, (Popayán, Cauca, Colombia). Correo electrónico: jjurado@unicauca.edu.co 3 Ingeniero de Sistemas, PhD. en Computación. Profesor asociado, Universidad de San Buenaventura, (Cali, Valle del Cauca, Colombia). Correo electrónico: ccollazo@unicauca.edu.co Nº 28 - Universidad de Manizales, enero-junio/2013 - pp 49-66 49

×