Esta plática aborda una exploración y explotación de datos reunidos mediante las bitácoras de los resultados de intervenciones médicas a varios pacientes. A través del uso de técnicas como “árboles de decisión” se busca sintetizar un predictor del resultado de la intervención, para poder planear y optimizar el uso de los recursos hospitalarios necesarios.
5. @sgcampus
Introducción
La minería de datos o exploración de datos es un
campo de la estadística y las ciencias de la
computación referido al proceso que intenta
descubrir patrones en grandes volúmenes de
conjuntos de datos.
6. @sgcampus
Introducción
Inteligencia artificial y estadística
• Redes neuronales artificiales
• Regresiones (lineales o no)
• Árboles de decisión
• Modelos estadísticos
• Clustering
Algunos se podrán dividir entre supervisados y no supervisados
8. @sgcampus
Contexto
• En un hospital existe una bitácora en la que se
registran los resultados de las intervenciones
quirúrgicas realizadas a pacientes en el área de
pediatría.
• Se registran las condiciones iniciales, eventos
ocurridos durante la intervención, y resultado final
de la intervención.
9. @sgcampus
Contexto
• Intervención programada o de urgencia
• Edad y sexo del paciente
• Eventualidades como transfusiones sanguíneas
• Quién participó en la intervención
• Tipo de destino del paciente
10. @sgcampus
Contexto
• No existe una forma estándar de llevar la bitácora
• Los registros de la bitácora se llevan en una hoja
de cálculo
• No hay un proceso de homologación de
información
• Los registros son hechos por los mismos médicos
según van terminando su turno
12. @sgcampus
Contexto
Why we need a methodology for data science
IBM Big Data & Analytics Hub
http://www.ibmbigdatahub.com/blog/why-we-need-methodology-data-science
17. @sgcampus
Propuesta
• Predictor del destino del paciente
– Historial de las intervenciones
– Registro de condiciones iniciales
– Registro del destino del paciente
• ¿Qué se necesita para predecir?
• ¿Qué variables son importantes para predecir?
23. @sgcampus
Propuesta
• Árbol de clasificación
– Fácil interpretación de resultados
– Representación visual
– Agrupación de variables
– Jerarquías de variables
– Automatización e implementación fácil
• Extracción de reglas de negocio
• Sistema experto
25. @sgcampus
Propuesta
• Marzo
• 20 variables
• Limpieza de información
– Expresiones regulares
– Minúsculas
– Eliminación de espacios y caracteres
especiales
– Sustitución de palabras
26. @sgcampus
Propuesta
• 8 variables
– Edad en meses
– Sexo
– Diagnóstico
– Tipo de programación
– Tiempo en minutos
– Hemoderivados
– Incidentes
– Destino
27. @sgcampus
Propuesta
• Árbol C 4.5
– En RWeka se llama J48
– Entropía o desorden de la información
– Aprendizaje supervisado
– Clasificador
– La variable que mejor divide al conjunto de
datos se fija y se vuelve a iterar