Successfully reported this slideshow.
Your SlideShare is downloading. ×

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Big Data y el sector salud
Big Data y el sector salud
Loading in …3
×

Check these out next

1 of 61 Ad

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Download to read offline

Sesión en el IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas. La presentación realiza una introducción al concepto de Big Data y sus posibles aplicaciones en salud. Se centra principalmente en el tratamiento de información no estructurada a través de tecnología de análisis de texto (text analytics)

Sesión en el IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas. La presentación realiza una introducción al concepto de Big Data y sus posibles aplicaciones en salud. Se centra principalmente en el tratamiento de información no estructurada a través de tecnología de análisis de texto (text analytics)

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

Viewers also liked (18)

Advertisement

Similar to Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos (20)

Recently uploaded (20)

Advertisement

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

  1. 1. IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos José Luis Martínez Fernández Socio Director de DAEDALUS S.A. Profesor Asociado de la Universidad Carlos III de Madrid @jlmartinez_es http://es.linkedin.com/in/jlmartinezfernandez 1 de Julio de 2015, Santander Universidad Internacional Menéndez Pelayo
  2. 2. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Contenido §  ¿Qué es Big Data? §  Big Data en el dominio de salud §  Arquitectura típica de un proceso de Big Data §  Datos •  Análisis de datos estructurados en Big Data •  Aprendizaje automático •  Análisis de datos no estructurados en Big Data •  Técnicas de Análisis de Texto •  Evaluando técnicas de análisis de texto §  Recursos §  Aplicaciones •  La experiencia de TrendMiner §  Retos
  3. 3. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ¿QUÉ ES BIG DATA?
  4. 4. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Técnicas para capturar, gestionar y procesar grandes volúmenes de datos en tiempos aceptables §  Doug Laney (analista de META Group, ahora Gartner) identifica en 2001 los retos y oportunidades del crecimiento de los datos: •  Volumen: aumento de datos •  Velocidad: de entrada/salida de datos •  Variedad: rango de tipos y fuentes de datos §  Gartner: modelo de las 3Vs (2012): •  “Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.” Big Data: ¿qué es?
  5. 5. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos 5 ¿Qué es Big Data?
  6. 6. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Data Never Sleep 2.0 https://www.domo.com/learn/data-never- sleeps-2 ¿Qué es Big Data?
  7. 7. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud VOLUMEN VELOCIDAD VARIEDAD §  Millones de historias clínicas §  Miles de publicaciones científicas §  Dispositivos §  Internet … §  Informes diarios … §  Nuevas publicaciones científicas §  Internet … §  ECGS §  Diagnósticos §  Resultados de pruebas §  …
  8. 8. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos “En los últimos 5 años se ha generado más información científica que en toda la historia …” Winston Hide, Escuela Pública de Harvard “Solo en MedLine se publican 20.000 artículos a la semana” María Herrero, Tesis Doctoral “Los profesionales de salud dedican el 20% de su tiempo a buscar y procesar información necesaria para la práctica sanitaria ” Clinical Solutions, Elsevier Big Data en el dominio de salud
  9. 9. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud
  10. 10. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos #cardiotuitero Big Data en el dominio de salud
  11. 11. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud
  12. 12. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud
  13. 13. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos La información no estructurada es cada vez más importante en Salud Documentación médica Medios sociales Redes, foros, comunidades de salud Extraer información estructurada “accionable” de contenido no estructurado Big Data en el dominio de salud
  14. 14. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  ¿Cuántos datos se procesan de la Historia Clínica Electrónica? §  Aplicaciones: •  Soporte a la codificación ICD9/10, SNOMED CT, CIMA, … •  Sistemas de ayuda a operadores humanos: procesos de codificación (p. ej.: diagnósticos en partes de alta en urgencias) No Estructurados Estructurados Big Data en el dominio de salud
  15. 15. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ARQUITECTURA TÍPICA DE UN PROCESO DE BIG DATA
  16. 16. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Arquitectura típica de un proceso de análisis de sentimiento Adquisición/ Grabación Extracción/ Limpieza Interpretación/ Agregación Análisis/ Modelado Interpretación
  17. 17. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Arquitectura típica de un proceso de análisis de sentimiento Big Interactions Big Transactions Big Processing Big Analytics •  Sociales: Twitter….. •  Generadas por máquinas: sensores, escáneres de seguridad, ... •  Datos históricos: que crecen exponencialmente •  Web: clicks, logs, … •  No SQL: Hadoop (distribución) •  Evolución SGBD: Oracle Exadata •  Aumento RAM •  Visualización: nubes, árboles, … •  Análisis de opinión •  Segmentación de clientes •  Detección de fraude
  18. 18. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos DATOS
  19. 19. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Datos no estructurados Datos estructurados 19 Datos 20% de los datos frente al … ¡¡80%!!
  20. 20. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  De bases de datos relacionales §  A bases de datos NoSQL Datos
  21. 21. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ANÁLISIS DE DATOS ESTRUCTURADOS EN BIG DATA
  22. 22. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Machine Learning/ Pattern Recognition Statistics/ AI Data Mining Database systems Datos estructurados
  23. 23. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Modelo Valida (estadística) Genera (aprendizaje) DATOS RESULTADOS Datos estructurados Proceso de Análisis
  24. 24. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Modelos Predictivos responden preguntas sobre datos futuros Ej.: •  ¿Cuáles serán las ventas el año próximo? •  ¿Es esta transacción fraudulenta? •  ¿Qué tipo de seguro es más probable que contrate el cliente X? Descriptivos Proporcionan información sobre las relaciones entre los datos y sus características Ej.: •  Los clientes que compran pañales suelen comprar cerveza. •  El tabaco y el alcohol son los factores más importantes en la enfermedad Y. •  Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto. Datos estructurados
  25. 25. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Técnica Supervisada No-supervisada Predicción Clasificación Descripción Clustering Asociación •  Bayesiana •  Redes de neuronas •  Regresión •  Árboles de decisión •  Support Vector Machines •  … •  K-Medias •  Conceptual •  Probabilístico •  A priori •  … Datos estructurados
  26. 26. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos TÉCNICAS DE ANÁLISIS DE TEXTO EN BIG DATA
  27. 27. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Pipeline para análisis de texto ACL2014 proceedings, CoreNLP description
  28. 28. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  División de un texto de entrada en oraciones y palabras. §  ¡Fácil!, ¿verdad? Ejemplos: Técnicas de Análisis de Texto Segmentación (tokenization) Ø  ECG al alta: Ritmo sinusal a 70 Ipm. PR 100 msec. BRD+HBAI. QRS 120 msec. Ø  SCASEST (ANGINA MIXTA) EN VARON DE 67 AÑOS CON CARDIOPATIA
  29. 29. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Este proceso asigna a cada palabra la categoría gramatical que le corresponde. §  Ej.: Acude por angina progresiva desde hace 10 días Técnicas de Análisis de Texto Etiquetado de partes del discurso (POS tagging) { "form": "angina", "id": "3", "inip": "10", "endp": "15", "bold": "no", "italic": "no", "underscore": "no", "separation": "1”, "analysis_list": [ { "tag": "NCFS-NYN3", "lemma": "angina", "original_form": "angina”}]}
  30. 30. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Dos tipos de implementaciones: •  Estadística: Hidden Markov Models, Maximum Entropy, Support Vector Machines, basado en reglas •  Basada en conocimiento: Introduce un paso previo al análisis estadístico en el que las etiquetas posibles para una palabra forman parte de una base léxica. §  Se apoyan en colecciones de texto etiquetadas: TreeBank (Linguistic Data Consortium, LDC) §  Problemas •  Ambigüedad •  Casa: Juan se casa el viernes, Juan se ha ido de casa •  Puede incluir o no lematización §  Precisión del 97% (teóricamente): dependiente del contexto de aplicación Técnicas de Análisis de Texto Etiquetado de partes del discurso (POS tagging)
  31. 31. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Identificación de nombres propios. §  Ej.: “En el Día Internacional de la Enfermería, entrevistamos a ROSA PÉREZ, enfermera, autora de El blog de Rosa” Extracción de Entidades (NER) Técnicas de Análisis de Texto "entity_list": [ { "form": "Día Internacional de la Enfermería", "sementity": { "class": "instance", "type": "Top", "confidence": "unknown" }}] "variant_list": [ { "form": "ROSA PÉREZ", "sementity": { "class": "instance", "type": "Top>Person>FullName", "confidence": "unknown" }, "variant_list": [ { "form": "ROSA PÉREZ", "inip": "58", "endp": "67" } ], "relevance": "100" }]
  32. 32. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  El proceso de extracción de entidades, en ocasiones, va más allá: categorización (persona, lugar, …) §  ¿Estándar para la categorización? §  Linked Open Data Extracción de Entidades (NER) Técnicas de Análisis de Texto
  33. 33. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  El análisis sintáctico consiste en obtener la estructura sintagmática de una frase. Análisis sintáctico (syntactic parsing) Técnicas de Análisis de Texto
  34. 34. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Análisis sintáctico (syntactic parsing) Técnicas de Análisis de Texto
  35. 35. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Implementación: •  Se implementa como parte del proceso de etiquetado POS: §  los corpus de entrenamiento incluyen etiquetas para identificar sintagmas •  Técnicas basadas en análisis de dependencias: •  La estructura sintáctica consiste en entradas léxicas enlazadas mediante relaciones binarias asimétricas, denominadas dependencias. Análisis sintáctico (syntactic parsing) Técnicas de Análisis de Texto
  36. 36. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Asignar un texto a un conjunto de clases predeterminado. §  Tipos de algoritmos: •  Estadísticos: •  Aprendizaje automático: árboles de decisión, SVM, Redes neuronales, clasificadores bayesianos •  Representación vectorial •  Basados en reglas: Clasificación de textos Técnicas de Análisis de Texto C B A
  37. 37. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Selección de características: •  Índice Gini: basado en la probabilidad condicional de que un documento pertenezca a una clase dado que contiene una palabra determinada. •  Ganancia de información: no solo tiene en cuenta la aparición de una palabra en el documento si no que también contempla el número de documentos que contienen esa palabra. •  Información mutua: tiene en cuenta la co-ocurrencia de una palabra determinada y una clase concreta. Clasificación de textos Técnicas de Análisis de Texto
  38. 38. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Creación de clases/grupos a partir del conjunto de elementos. §  Número desconocido de clases. §  Técnicas: •  Algoritmos basados en distancias: cercanía entre dos documentos •  Algoritmos aglomerativos o jerárquicos: agrupa elementos dando lugar a una jerarquía. •  Algoritmos basados en particiones: •  K-means: utiliza k representantes alrededor de los cuales se forman los grupos •  Topic modeling: crear un modelo probabilístico generativo a partir de los textos del corpus. El corpus se representa en función de variables aleatorias, cuyos parámetros se estiman a partir de una colección concreta. Agrupación de textos (clustering) Técnicas de Análisis de Texto
  39. 39. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Determinar el parecer de un hablante respecto a un tema determinado §  Determinar la polaridad (positiva, negativa o neutra) expresada en un texto. §  Implementación: •  Listas de palabras positivas/negativas à Cuenta •  Aprendizaje automático •  Análisis PLN: detección de aspectos y de sentimiento sobre estos aspectos Análisis de sentimiento (sentiment analysis) Técnicas de Análisis de Texto
  40. 40. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Estoy encantado con el servicio de urgencias del hospital Análisis de sentimiento (sentiment analysis) Técnicas de Análisis de Texto "polarity_term_list": [{ "text": "estar encantado”, "score_tag": "P+", "sentimented_concept_list": [ { "form": "servicio de urgencias”, "type": "Top>Product>ProfessionalService", "score_tag": "P+" }] "sentimented_concept_list": [{ "form": "hospital", "type": "Top>Location>Facility", }]
  41. 41. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Herramienta para organizar grandes cantidades de información. §  ¿Sobre qué temas o topics trata el contenido de un documento? §  Modelo bayesiano: §  Asumimos que un topic queda definido por una distribución probabilística de términos. §  Asumimos que cada documento se genera a partir de una distribución de topics (ocultos). §  Algoritmos (no supervisados) para entrenar un modelo LDA: inferencia variacional y muestreo de Gibbs. §  Herramientas open-source que lo implementan: Mallet (muestreo de Gibbs). Latent Dirichlet Allocation Técnicas de Análisis de Texto Análisis de tendencias
  42. 42. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Análisis de tendencias. LDA Técnicas de Análisis de Texto
  43. 43. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos EVALUACIÓN
  44. 44. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Precisión: Proporción de sentimientos etiquetados correctamente de entre los encontrados por el sistema §  Recall(cobertura): Proporción de sentimientos encontrados respecto al total de expresiones de sentimiento existentes en la colección S S S S S S Evaluación
  45. 45. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Los requisitos dependen de la aplicación •  Monitorización de marca en medios sociales: alta precisión, baja cobertura •  Lucha antiterrorista: alta cobertura, baja precisión §  Precisión y cobertura están inversamente relacionadas •  Buscar compromiso §  Las personas NO tenemos una precisión del 100% •  Tests con analistas humanos: acuerdo 85-95% (91% en dominio médico, [Krallinger, 2015])) Evaluación
  46. 46. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Evaluación Estado del arte en cuanto a medidas de precisión §  Extracción de entidades: 70-85% §  Clasificación: 70-80% §  Análisis de sentimiento: 60-70% La mejora de calidad depende de la adaptación de las herramientas y recursos a la aplicación/tarea Evaluación
  47. 47. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos RECURSOS
  48. 48. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Anatomical Therapeutic Chemical (ATC) Classification System Ibuprofeno algiasdin|apirofeno|aragel|articalm|astefor| brufen|dalsy|dersindol|diltix|dolencar|doltra|espididol| espidifen|…. nauseas estomago revuelto|sentirse mareado| nauseas|nauseas solas|nauseoso|nauseoso|ansia nauseosa|…… 35.259 términos 16.418 fármacos y 2.228 principios activos 2.566 códigos ATC 42.548 principales enfermedades Cáncer|neoplasia maligna|…. Recursos
  49. 49. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos TRENDMINER Aplicaciones Monitorización de información sobre salud en medios sociales
  50. 50. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Detectar menciones de fármacos y eventos médicos (enfermedades, síntomas, efectos adversos, etc.) en medios sociales. §  Los medios sociales pueden ser fuentes valiosas en la monitorización de eventos médicos. §  Aplicación a tareas de farmacovigilancia llevadas a cabo por las agencias de medicamentos y compañías farmacéuticas. Objetivos Aplicaciones. TrendMiner
  51. 51. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Patients on Twitter Spanish patient Forums Aplicaciones. TrendMiner Fuentes analizadas
  52. 52. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Aplicaciones. TrendMiner §  Ejemplo de comentario en Forumclinic
  53. 53. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Spanish DrugEffect DB containing relations among drugs and effects 63.000 relations Aplicaciones. TrendMiner Recursos integrados
  54. 54. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Collecting texts from Twitter & Blogs Datawarehous e Health monitoring Dashboard GATE Annotation Pipeline Analytics Processing Gatherer processes Real-time visualization Inquirer processes Spanish Drug Effect Database Aplicaciones. TrendMiner
  55. 55. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Datos agregados de los efectos del fármaco lorazepam Aplicaciones. TrendMiner
  56. 56. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Línea temporal con la evolución de los fármacos y eventos mencionados con el lorazempan Aplicaciones. TrendMiner
  57. 57. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos RETOS
  58. 58. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  ¡¡Datos!! •  Acceso a los datos para los no médicos •  Anonimización (Proyecto Visc+) •  Estandarización •  Propiedad de la información •  Compartición de conjuntos de datos §  Veracidad/confiabilidad de los datos §  Aplicaciones dirigidas por los usuarios (médicos y pacientes) §  Integración de sistemas aislados •  Dispersión en diferentes hospitales, centros de salud, … Retos
  59. 59. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ¡Gracias por vuestra atención! José Luis Martínez Fernández Socio Director de Daedalus S.A. Profesor Asociado Universidad Carlos III de Madrid jmartinez@daedalus.es Daedalus, S.A. Tel: +34 913324301 info@daedalus.es http://www.daedalus.es @daedalus_sa
  60. 60. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Bibliografía §  Aggarwal, Charu C., & Zhai, ChengXiang (2012). A survey of text classification algorithms. In Mining text data (pp. 163–222). §  El Poder de los datos, Informe de la Fundación Bankinter, Mayo 2015 §  Europeans becoming enthusiastic users of online health information, EU report, 2014 §  María Herrero Zazo, Semantic Resources in Pharmacovigilance: A Corpus and an Ontology for Drug-Drug Interactions, Directores: Isabel Segura-Bedmar y Paloma Martínez, Universidad Carlos III de Madrid, Departamento de Informática, 2015 §  Martínez,P., Nuevo sistema para detectar efectos adversos de los medicamentos usando redes sociales, 2015, Oficina de Información Científica, Universidad Carlos III de Madrid §  Martin Krallinger et al. CHEMDNER: The drugs and chemical names extraction challenge. Journal of Cheminformatics, 7(Suppl 1):S1 (2015)
  61. 61. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Bibliografía §  Maynard, D. Et al, NLP Techniques for Term Extraction and Ontology Population, Proceedings of the 2008 conference on Ontology Learning and Population: Bridging the Gap between Text and Knowledge, Pages 107-127 §  Monitorización de la alergia en Twitter, Fundación Telefónica, 2015 §  Isabel Segura-Bedmar, Paloma Martínez, Ricardo Revert , Julián Moreno-Schneider, (2015). Exploring Spanish Health Social Media for detecting drug effects, BMC Medical Informatics and Decision Making, June, 2015, Volumen: 15, Número: Supplement S2, Páginas: doi:10.1186/1472-6947-15-S2-S §  Paloma Martínez, Isabel Segura-Bedmar, Thierry Declerck, José Luis Martínez Fernández, (2014). TrendMiner: Large-scale Cross-lingual Trend Mining Summarization of Realtime Media Streams, September, 2014, Procesamiento del Lenguaje Natural , Volumen: 53, Páginas: 163-166

×