AIIM (Association for Information and Image Management
Doc clásica: historias clínicas, resultados de laboratorio, pruebas diagnosticas, medicación (prescrita/consumida), …
Publicaciones médicas, portales, foros…
Sensores
Points of leverage (influenciar) Lo importante es si toda esta información nos ayuda a tomar las mejores decisions posibles
En esta marea de información se puede dar la paradoja del náufrago: estar rodeado de agua y morirse de sed
Los sistemas analíticos han de extraer de esta marea únicamente la información relevante en el momento adecuado. No vale con presenter cuadros de mando complejos con decenas de indicadores (se pierde tiempo de atención). Han de ser capaces de proporcionar información muy concreta que permitan identificar acciones, a ser posible preventivas.
CHF = Insuficiencia Cardiaca
Ejemplo de analítica avanzada, que toca 3 pilares:
1) cómo extraer información de fuentes no estructuradas, 2) definir un modelo predictivo que permita anticipar riesgo de IC antes del diagnóstico 3) Proponer acciones preventivas
Calidad de vida del paciente - Costes
Principales componentes de la solución:
Content Analytics como extractor/intérprete de información no estructurada
Modelos predictivos de riesgo de IC, entrenados en base al repositorio de información (estruc+no estruc)
Modelos de identificación de pacientes similares ‘ad-hoc’. Cada paciente es diferente y las guías y protocolos se desarrollan en base a grupos estandarizados de pacientes. Por otro lado los ensayos clínicos se centran típicamente en pacientes con una sola enfermedad. Pero en la vida real cada paciente es diferente y pueden coexistir diferentes enfermedades.
Vamos a ver un ejemplo de la solución aplicada a un proceso oncológico
1) AJCC: Estadificación del cancer = T2
Se extraen de manera precisa datos medicos de orígenes no estructurados. Se combinan con datos estructurados.
2) Se define un grupo de estudio ‘al instante’ con todos los miembros similares al paciente, analizando hasta 30K puntos de comparación.
3) Se hace un modelo de scoring y se predice la probablilidad de la incidencia para ese grupo de pacientes
4) Análisis de los ‘caminos’ de la enfermedad
DTIC (dacarbazine). Purpose: DTIC is given to shrink or slow the growth of melanoma tumors that have spread throughout the body.
Retos:
Negaciones (LVEF= Fracción de Eyección del ventrículo izquierdo)
Frases ambiguas
Inferir significado cuando no hay contexto
Normalizar los datos (fundamental la codificación)
Análisis por oleadas (UIMA Pipeline):
1) Language Identification = 22 Languages (Spanish being one)
2) Based on the Language uses linguistics to do lexical analysis (parts of speech, normizing lemas (run, running)
3) Developed models for classification, disambiguation, relationship extraction
Patient: Elizabeth
Doctor: Professor O’Mohony (uh-naf-er-uh resolution of Elizabeth to form the relationship)
Disease: Myocardial infarction
Not a Disease: hypertension, diabetes, etc
Ralationships
IBM ha desarrollado reglas específicas de extracción de información clínica (diagnósticos, procesos, laboratorios, medicamentos,…)
Se codifica esta información según normas muy importante para poder hablar el mismo idioma y poder comparar casos.
Reglas específicas de detección de negaciones o de historias familiares
Un ejemplo de una caso real de codificación automática de diagnósticos en base al catálogo ICD-9 para identificar procedimientos secundarios que no han sido facturados.
Esta funcionalidad podría ayudar a evitar errores en la codificación (discrepancias entre el código ICD informado en la historia clínica y las notas del curso clínico)
What Really Causes Readmissions at Seton
Results and Highlights
We started our analysis by identifying 113 candidate predictors (13 came from unstructured data only (ICA part of ICPA).
We originally thought that Ejection Fraction (LVEF) and Smoking were the two primary unstructured predictors of interest but once we used actual predictive analysis, two other ICA variables actually surfaced: Assisted Living and Drug/Alcohol Abuse
One of the key values of ICA in this use case was providing data to this process that was not available in structured form. If you look at the right side of the slide you can see the importance of the unstructured data … the structured data was less reliable then unstructured data which increased the reliance and usefulness on unstructured data (compare the values).
The unstructured data was also more reliable … Smoking was only 65% accurate and the other data sources were too small to effectively gauge reliability.
In the case of the Drug and Alcohol Abuse (ranked 3 of 18 predictors), ICA enhanced the encounters resulting in reducing the missing values from 84% to 16% making a much stronger predictor. In the case of Assisted Living (ranked 7 of 18 predictors), even though only 13% of the encounters had a yes value, it was significant enough to rank in the top 18 predictors. For this variable, the value was only from ICA.
Applying this predictive model to CHF readmissions at the Seton Healthcare facilities, compared with a random effect(s) model or variance components model previously used where only 20% of readmitted cases are seen, the predictive model “captured” 49% of readmitted cases in the first quintile.
On the predictive side (left), the gain chart shows that when compared to a normal distribution (red line), the ICPA predictive model scored 49% of the readmissions in the first 20 percentile compared to only 20% in the random model. This analysis shows that the ICPA model is very predictive.
In the 20th percentile, the model captures 49% of readmitted cases compared to the no-model situation where only 20% of readmitted cases are seen
In the 80th percentile, the model captures 97% of readmitted cases compared to no-model scenario which only captures 80%.
Can do more complex models – using machine learning
Como base para el modelo predictivo se construye una estructura de datos de tipo fecha, atributo, valor. Se tratan cientos de atributos de diferentes orígenes de datos (por ejemplo, de laboratorio un atributo puede ser la presión arterial). Datos estructurados y no estructurados.
Al final para cada paciente se tiene una ventana temporal con decenas o cientos de miles de registros.
La búsqueda por similaridad compara el vector de atributos de un paciente en el momento actual con todos los vectores de pacientes a lo largo del tiempo