Caso de Éxito: Mineria de Procesos en investigación del cancer
Minería de Procesos
Descubriendo nuevas líneas de investigación
para Profesionales de las TIC de Antonio Valle Salas
4 novembre de 2016
The Critical Need of Value
MINERÍA DE PROCESOS
Descubriendo nuevas líneas de investigación de las neoplasias
mediante minería de procesos
RESUMEN
En este proyecto G2, junto con un equipo de investigación del Institut Català d’Oncologia,
analizó mediante técnicas de Minería de Procesos la evolución de los pacientes que han
sufrido múltiples episodios de cáncer.
Los resultados fueron sorprendentes: utilizar estas técnicas permitió a los investigadores
tener una visión temporal de las neoplasias, visualizar claramente los patrones de aparición
de segundos y sucesivos tumores y descubrir relaciones y comportamientos de las
neoplasias que hasta el momento del estudio no estaban claros.
PROYECTO
La Minería de Procesos se puede utilizar para el análisis de cualquier tipo de información en
la que se produzca un cambio en el tiempo.
El ICO lleva desde el año 2005 realizando una investigación detallada sobre la aparición y
evolución de siete tipos distintos de tumores cancerígenos: Colo-Rectal, Pulmón, Mama,
Leucemia, Linfoma, Mieloma y Sistema Nervioso Central. Durante este periodo se ha
recopilado información detallada sobre la aparición de cada una de las neoplasias.
Los equipos de investigación buscan patrones y relaciones entre la aparición del primer, el
segundo y los sucesivos tumores en un paciente que les permitan establecer nuevos
protocolos de monitorización de los pacientes: una detección temprana aumenta en gran
medida las posibilidades de su supervivencia y su calidad de vida.
Así, se plantearon al equipo de proyecto tres retos:
a) ¿Cuáles son los patrones fundamentales que sigue la aparición de neoplasias
sucesivas? ¿Existen relaciones que no estén descritas y que puedan servir como
punto de partida de nuevas líneas de investigación?
b) ¿Podemos representar un mapa que sirva de guía y de herramienta de comunicación
para que los médicos de atención primaria estén alerta ante los síntomas o señales
que se muestran en la aparición de cáncer sucesivo?
c) Paralelamente y de forma adicional, ¿podríamos generar algún material de
comunicación que nos permita tener una visión temporal de la evolución de los
pacientes?
G2, Gobierno y Gestión de TI 1
Descubriendo nuevas líneas de investigación
G2 propuso utilizar la solución Disco, del fabricante holandés Fluxicon, para llevar a cabo los
análisis de los datos mediante técnicas de minería de procesos, por la gran agilidad y
usabilidad en los análisis que proporciona Disco.
DATOS
Para realizar este análisis se extrajeron de los sistemas de información del ICO los datos
sobre la aparición de tumores en forma de event log, en el que cada evento representa un
tumor y cada caso un paciente; la información sobre tumores venía enriquecida con
aspectos clínicos y demográficos tanto del paciente (sexo, edad, etc.) como del tumor
(clasificación, aspectos clínicos, etc.)
La extracción de los datos se realizó utilizando las herramientas y el datawarehouse que ya
existían en la organización: un sistema de almacenamiento y ETL basado en Kettle ya
integrado con la información de los sistemas operacionales y que es utilizado en las tareas
de investigación y reporting. La existencia previa de esta información y de este sistema ETL
facilitó enormemente la tarea, ya que no hubo que realizar esfuerzos especialmente
importantes en la extracción de datos.
El event log a analizar se componía de 3800
casos y 4782 eventos y unas primeras
comprobaciones permitieron descubrir que
el grado de calidad de los datos era
excelente: apenas un 0,21% de los casos
contenían errores, los cuales fueron
detectados rápidamente con Disco.
Después de verificar la información en los
sistemas operacionales, el equipo encontró
que los errores se correspondían a casos
duplicados en los sistemas de origen y a
errores de apreciación en la historia clínica,
errores que fueron corregidos en el origen
antes de repetir la exportación de datos a
Disco.
El siguiente reto con el que nos encontramos fue con la necesidad de agrupar los tumores
por categorías: la primera extracción de datos contenía gran cantidad de actividades (462)
debido al nivel de detalle con el que se clasifican los tumores en la historia clínica. Con ayuda
de la oncóloga del equipo se asignó a cada una de estas actividades una categoría que nos
permitía agrupar los tumores objeto del estudio en los 7 grandes grupos mencionados en la
introducción, reduciendo el número de actividades a 19.
G2, Gobierno y Gestión de TI2
Fig. 1 Secuencia de neoplasis que muestra problemas de
calidad de los datos: ¿5 pacientes empiezan con el
“segundo” tumor?
MINERÍA DE PROCESOS
Así, por ejemplo, se asignó la categoría “Mama” a los tumores clasificados como “Cuadrante
inferior interno de la mama” o “Cuadrante superior interno de la mama” o “Prolongación
Axilar de la mama”.
Una vez que ya disponíamos del dataset correcto se aplicó un filtro para descartar todos
aquellos casos que habían padecido un único tumor, ya que el estudio se debía centrar en
los casos múltiples dejando la muestra reducida a 792 casos (pacientes), 1776 eventos
(tumores) y 19 actividades (tipologías de tumor).
RESULTADOS
El proceso de análisis fue muy intenso, con todo el equipo presente durante los dos días que
dedicamos a explorar la información proporcionada. Rápidamente las técnicas de Minería de
Procesos se ganaron la confianza y el respeto de los miembros del ICO. La primera
representación fue, como cabía esperar, un diagrama de espaguetis por lo que, liderados por
la oncóloga del equipo, pasamos a realizar varias representaciones de las diferentes
casuísticas según nos lo iba pidiendo.
La primera comprobación fue un
diagrama de supervivencia (figura
2). En él se puede observar
claramente cómo el 69,45% de
los pacientes analiza do s
sobrevive al primer tumor; un
60,6% sobrevive al segundo y un
63,4% lo hace al tercero: una
información que el equipo de
investigación ya conocía, pero
q u e a l s e r re p re s e n t a d a
gráficamente ganaba un gran
peso como herramienta de
comunicación médica.
Por otra parte, explorar un terreno conocido sirvió para afianzar la confianza en las nuevas
técnicas empleadas.
Para explorar diferentes maneras de representar los patrones que presentan los datos
utilizamos una representación de mapa filtrado (mostrando los casos que se iniciaban con
cualquiera de los 7 tipos de neoplasia objeto de la investigación), la representación de las
variantes que proporciona Disco y el visualizador “Explore Event Log (trace variants)”.
G2, Gobierno y Gestión de TI 3
Fig. 2 Diagrama de secuencia y supervivencia
Descubriendo nuevas líneas de investigación
De esta manera, la representación de mapa de Disco cubría todos los objetivos del estudio.
Por ejemplo, la figura. 3 muestra cómo los pacientes que han sufrido un primer episodio de
cáncer de mama y que posteriormente presentan un segundo tumor o sucesivo presentan
mayor probabilidad de desarrollar un segundo tumor de mama que otros tipos de tumores.
Por otra parte, al analizar las variantes mediante el
visualizador de ProM (figura 4), se descubrió la fuerte
relación que había entre las tipologías Pulmón y CCR
(Colo-Rectal), haciendo aflorar un patrón que hasta el
momento había permanecido oculto y que servirá para
abrir líneas de investigación en el futuro.
G2, Gobierno y Gestión de TI4
Fig. 3 Patrones en el cáncer de mama
Fig. 4 Patrones / Variantes en ProM
MINERÍA DE PROCESOS
Una vez detectada esta relación, se filtraron los casos en Disco para obtener una visión más
ajustada y se pudo observar que aproximadamente un 9% de los casos presentan ambos
tipos de neoplasia, tal y como podemos ver en la figura 5.
BENEFICIOS
Este proyecto ha generado beneficios importantes en diferentes perspectivas:
En el equipo de investigación del ICO: El equipo de investigación del ICO ha podido
comprobar en primera instancia las ventajas que proporciona la minería de procesos para
aportar nuevas perspectivas del estudio de la información. Los nuevos métodos de estudio y
representación de la información abren puertas a nuevas ideas y avances en la investigación.
En la manera de presentar la información: En general los estudios que se han venido
realizando en el ámbito de la Oncología en Catalunya están fuertemente ligados a métodos
estadísticos o de diagnóstico por la imagen. La nueva forma de visualizar el flujo de los
tumores ha sido relevante, y usar gráficas de variantes en ProM o animaciones de Disco ha
sido determinante para ganar la atención del resto de equipos de investigación.
En la práctica de minería de procesos: Este ha sido el primer caso de aplicación de la
minería de procesos a la investigación de la evolución de tumores. Había bastantes
referencias del uso de la minería de procesos en el sector salud, pero siempre orientado al
flujo o a la gestión hospitalaria y no a la investigación de enfermedades.
En la presentación de resultados a la sociedad: Durante los días 21 y 22 de Abril de
2016 se llevó a cabo el simposio ICO 10mes10 en el que el ICO presentaba los resultados
de sus 20 años de actividad a la sociedad.
G2, Gobierno y Gestión de TI 5
Fig. 5 Relación entre Pulmón y CCP.
Descubriendo nuevas líneas de investigación
Entre los más de 500 asistentes al simposio se encontraban los médicos e investigadores
más relevantes de Catalunya. La única conferencia que se repitió los dos días del congreso
fue la dictada por el Dr. José Ramón Germà presentando los resultados de los análisis de
supervivencia en los siete tumores analizados (demostrando que la supervivencia en
Catalunya es la más alta del mundo); durante esa conferencia, el Dr. Germà proyectó un
video mostrando las animaciones realizadas con Disco y mencionando específicamente la
minería de procesos como un nuevo método de investigación.
EQUIPO
Este proyecto fue desarrollado íntegramente en las instalaciones del ICO por un equipo
multidisciplinar compuesto por: un especialista en las estructuras de datos y sistemas de
información del ICO, una doctora del ICO especializada en oncología y un experto en análisis
de datos y Minería de Procesos de G2.
G2: Antonio Valle Salas ICO: Pau López García ICO: Lourdes Pétriz González
G2, Gobierno y Gestión de TI6
Acerca del ICO
El Institut Català d’Oncologia (ICO) es
un centro público que trabaja
exclusivamente en el campo del cáncer.
Su aproximación a la enfermedad es
complete, combinando dentro de la
misma organización prevención,
atención hospitalaria, investigación y
formación especializada. El ICO se creó
en 1995 por el Departament de Salut de
la Generalitat de Catalunya y es a día de
hoy el centro de referencia en oncología
para más del 40% de la población de
Catalunya.
Acerca de G2
G2 es una consultora especialista en el
gobierno y la gestión de servicios y
precios orientada a la mejora continua
de los mismos y a aumentar el valor que
éstos aportan al las organizaciones.
Fundad en 1998, G2 está reconocida
como líder en la aplicación de minería
de procesos en mil tiples ámbitos (TIC,
sanidad, administración…) así como en
el gobierno de las TIC y la gestión del
cambio organizativo en clientes de
todos los sectores de actividad.
Avd. Ernest Lluch, 32 - 08302 Mataró - Barcelona
Gobierno y Gestión de TI
http://www.gedos.es