Introducción a la minería de datos o data mining en salud pública, aproximación realista y practica de herramientas útiles para la predicción, análisis y compresión de la información
1. MINERÍA DE DATOS EN
SALUD: INTRODUCCIÓN
(DATA MINING IN HEALTHCARE )
Jairo Cesar Alexander 2017
2. MINERÍA DE DATOS - DATA MINING
• Procesos para
descubrir patrones
en grandes
conjuntos de datos
* Dengue grave en Colombia
3. PARA QUÉ USAMOS LA MINERÍA DE
DATOS?
Predecir
• Utilizar algunas variables o campos en una base de datos para predecir
valores desconocidos o futuros.
Comprender
• Encontrar o visualizar patrones que describan la información (interpretables
o entendibles por el profesional y el usuario lo mas importante)
* Hipotiroidismo congénito en Colombia
4. EJEMPLO: MINERÍA DE DATOS EN SALUD
• 70 indicadores de salud en Colombia monitorizados en tiempo real , con
generación de puntos de alarma y pronósticos automáticos vía web(sistema simple
pero funcional creado por el autor en pc de escritorio en software KNIME)
5. Nivel de atención Enfoque de
el nivel de
Intervención
Acciones practicas gracias a la minería de datos (ejemplos) Impacto
global a
largo
termino
Primer nivel de
atención
Promoción
de la salud
Prevención
Tratamiento
Rehabilitaci
ón
Enviar mensajes de texto PERSONALISADOS recordando la vacunación
de los niños
Las mamas pueden saber si las demás mamas están vacunado a sus
hijos y los médicos están al tanto.
seguir una epidemia (ejem H1N1) en tiempo real.
llamar proactivamente a alguien con riesgo alto de IAM
retroalimentar (útilmente)al medico en tiempo real en la consulta diaria
con analítica de toda la información suministrada
Dx de toda la población automática , en tiempo real , para todos, y
para la acción ya .
alto
Segundo nivel de
atención
Tratamiento retroalimentar al medico con medicamentos que nunca se reclaman en
farmacia
Gerencia puede evaluar la efectividad, eficiencia, eficacia de los ttos.
Evaluación del seguimiento de los protocolos recomendados por Min
Salud. Integración de información inter institucional de uso practico.
Detección de fraude concierta enfermedad de alto costo que se
aumento de repente un 200%, conformaciones de redes reales.
medio
Tercer nivel de
atención
Tratamiento Evaluacion de el riesgo de readminisión a UCI de un paciente
Responder a preguntas :Que tto tiene mas eficiencia?
Existe una nueva patología en nuestra población?
Como les va a otros usuarios como este medicamento?
bajo
7. EJEMPLOS ÚTILES DE PREDICCIÓN
• Estratificar a los pacientes en grupos de
alto, medio o bajo riesgo. clave para el
éxito de cualquier iniciativa de gestión de
salud de la población.
• Para pacientes que llevan mucho riesgo
,sería más barato enviarles de forma
preventiva un médico ,en lugar de esperar
que ese paciente entre por urgencias
8. TRANSICIÓN NECESARIA
SISTEMA DE SALUD BASADO EN
ATENCIÓN DE URGENCIAS CENTRADO EN
EL ASEGURAMIENTO FINANCIERO
A
SISTEMA DE SALUD BASADO EN
PROMOCIÓN DE LA SALUD Y
PREVENCIÓN DE LA ENFEREMDAD
CENTRADO EN LA SALID DE EL USUARIO
9. RETOS - MINERÍA DE DATOS EN
SALUD
• Como analizar todas las historias clínicas , todos los registros farmacéuticos,
cirujas , procedimientos, interconsultas, y evolución DE FORMA INTEGRADA
para: promover la salud, prevenir la enfermedad , evaluar y mejorar los
tratamientos rehabilitación, etc
• Como lo hago en tiempo real, y para todos…(notificación nacional e
institucional automática en tiempo real – algoritmos de revisión,
verificación) todos significa retroalimentación desde el usuario -medico al
sistema y del sistema hasta el medico - usuario, también epidemiologia en
tiempo real para todos.
• Como usar las redes sociales para mis objetivos
10. TANTA INFORMACIÓN PARA
QUE ? PARA QUIEN ?
Dx individual Dx poblacional
Evaluación individual y E. poblacional
Terapéutica individual
y poblacional
y manejo de riesgo
Retroalimentación usuario y
generador de información
11. REDES SOCIALES
• COMERCIO (CERVECERAS TABACALARES)
• BANCA
• SECTOR POLITICO
• TELECOMUNICACIONES
• AEROLINEAS
• OTROS 30 SECTORES y hasta la delincuencia …
Y NOSOTROS QUE ?
12. FASES DE LA MINERÍA (CRISP-DM):
• (1) Comprensión del negocio (fenómenos de salud – las causas…..)
• (2) La comprensión de Datos (estadística)
• (3) Preparación de Datos (integración)
• (4) Modelado
• (5) Evaluación
• (6) El despliegue
13. FUENTES DE DATOS
• Bases de datos relacionales
• Bases de datos multidimensionales (DW)
• Bases de datos transaccionales
• Series temporales, secuencias y data streams
• Datos estructurados
• Datos espaciales y espaciotemporales
• Textos e hipertextos (p.ej. Web Redes sociales)
• Bases de datos multimedia (p.ej. Imágenes, microscopia RX etc.)
14. TAREAS DE LA MINERIA DE DATOS-
SALUD
• Caracterización: descriptiva, necesidades, prioridades
• Asociación: poblaciones similares, riesgo,
• Clasificación: diagnostico
• Análisis de grupos: inferencia
• Evolución y tendencias (en espacio-GIS o tiempo -series temporales –
predicción, interpolación, perspectivas, escenarios)
• Análisis de desviaciones o anomalías: fraude, brotes, picos, respuesta a
políticas, o programas, impacto.
15. ADVERTENCIA
Todas las técnicas estadísticas se basan en
la suposición de que los patrones
existentes continuarán en el futuro.
(o de que existen patrones)
17. QUE MÉTODO SELECCIONO?
• Existe una gran cantidad de métodos o
herramientas clasificadas de acuerdo a
su uso habitual. La selección de un
método depende de muchos factores:
el contexto, la pertinencia, la
disponibilidad de los datos históricos, el
grado de precisión deseable, el período
de tiempo que se prevé, el costo /
beneficio de la previsión, el tiempo
disponible para realizar el análisis, pero
sobre todo de lo que necesito
realmente.
18. Necesidad Conjunto Metodos Ejemplo
Visualizar Visualización Grafica de líneas
Grafica de pastel
Series de tiempo
Joint point
Describir las tendencias
del acné en Colombia y
si hay puntos de quiebre
estadísticamente
significativos, y mostrar
porcentajes por genero y
grupos de edad.
Predecir Clasificación Arbol C&R, QUEST, CHAID, C 5.0, Regresión,
lineal, logística, Cox, redes neuronal,
maquina de vectores, redes bayesianas,
lineal mixto generalizado, ARIMA, KNN,
Pre método PCA/Análisis factorial, filtros
Predecir la evolución de
la leishmaniosis en
Colombia para los
próximos 10 años.
Encontrar
patrones
Asociación A priori, CARMA, CARMA secuencial, reglas. Buscar una serie de
procesos con altas tasa
de eventos de riesgo.
Segmentar Clusters K medias, Kohonen Agrupar la población por
riesgo, detectar atípicos
en una población.
SELECCIÓN DEL MÉTODO ADECUADO : FÁCIL
19. MUCHOS MÉTODOS
• Árboles de Decisión
• Clasificación de Bayes
• Mínimos cuadrados ordinarios
• Regresión logística
• Máquinas de Vectores Soporte
• Métodos Ensemble
• Algoritmos de agrupación
• Análisis de Componentes Principales
• Análisis de Componentes Independientes
• Descomposición de valor singular
• Redes Neuronales Artificiales.
• Algoritmos Genéticos.
• Vecino más Cercano.
• otros
21. MÉTODOS
• Árboles de decisión.
Herramientas analíticas
empleadas para el
descubrimiento de reglas y
relaciones.
Se construye partiendo el
conjuntos de dos (CART) o
más (CHAID).
Cada subconjunto a su vez
es particionado.
Se continua hasta no
encontrar diferencias
significativas de influencia.
Son modelos caja abierta,
permiten interpretación
21
22. MÉTODOS
• Reglas de asociación.
Derivan de un tipo de
análisis que extrae
información por
coincidencias.
Permite descubrir
correlaciones en los
sucesos de la base de
datos.
Usa reglas del tipo SI...
ENTONCES.
Permiten interpretación
del experto
22
23. MÉTODOS
• Redes neuronales.
Son capaces de
detectar y aprender
patrones y
características de los
datos.
Una vez adiestradas las
redes pueden hacer
pronósticos,
clasificaciones y
segmentación.
Son modelos cajas
negras
23
24. MÉTODOS
• Algoritmos genéticos.
Hacen uso de técnicas de
reproducción (mutación y
cruce) para ser utilizadas
para búsqueda y
optimización.
Se parte de una población
inicial, y se altera
optimizándola.
Esta herramienta se usa en
las primeras fases de la
minería .
24
25. MÉTODOS
• Lógica difusa.
Surge de la necesidad
de modelar la realidad
de forma mas exacta,
evitando el
determinismo y
exactitud.
Permite el tratamiento
de grises mas allá del
blanco y negro
Trata la existencia de
barreras difusas o
suaves entre grupos.
Genera y usa reglas
tipo: SI x es y en tal
grado entonces z en
tal grado
25
26. MÉTODOS
• Redes bayesianas.
Permiten aprender sobre
relaciones de dependencia y
causalidad.
Permiten combinar
conocimiento de datos.
Evitan el sobre-ajuste de
datos.
Permiten el manejo de bases
de datos incompletas, al igual
que las redes neuronales y la
lógica difusa.
Aprovechan el conocimiento
previo.
26
27. MÉTODOS
• Series temporales.
Estudian variables a través
del tiempo para que
partiendo de ese
conocimiento y con el
supuesto de no cambios
poder realizar predicciones.
Se basan en ciclos,
tendencias y estaciones.
(reconoce el azar)
Se puede aplicar enfoques
híbridos entre métodos
anteriores, o con otro tipo
de variables.
27
* Del trabajo del autor las tendencias del bajo peso al nacer en Colombia y los ciclos económicos