SlideShare una empresa de Scribd logo
1 de 12
Calidad de datos:
conceptos y métodos
David Moner
damoca@veratech.es
Calidad de datos
• Un uso (o reúso) adecuado de los datos de salud pasa por asegurar la
calidad de dichos datos.
• ¿En qué consiste?
• Los datos representan correctamente la realidad a la que se refieren
• Los datos son los adecuados para el uso esperado
• El uso de datos de baja calidad puede tener consecuencias directas sobre
el proceso de atención de los pacientes, las investigaciones clínicas o la
gestión sanitaria.
Calidad de datos: conceptos y métodos - VeraTech for Health 2
Calidad de datos
• Tradicionalmente se evalúa la calidad de los datos según diferentes dimensiones. Proponemos siete:
• Unicidad: ¿Existen datos replicados?
• Completitud: ¿Faltan datos?
• Consistencia: ¿Los datos cumplen con las reglas estrablecidas (tipos, rangos, ocurrencias, etc.)?
• Corrección: ¿Existen datos anómalos?
• Estabilidad Temporal: ¿Existe variabilidad en los datos a lo largo del tiempo?
• Estabilidad Multifuente: ¿Existe variabilidad en los datos en función de su origen o fuente (hospitales,
departamentos, profesionales, etc.)?
• Valor Predictivo: ¿Puedo utilizar alguna variable de mis datos para construir un sistema de ayuda a la decisión?
Calidad de datos: conceptos y métodos - VeraTech for Health 3
¿Cómo podemos definir un patrón de
calidad de datos?
1. Definiendo completamente el modelo de información sanitaria
• It’s the archetypes, stupid!
• Generamos Schematron a partir de los arquetipos para evaluar las reglas de calidad
• Completitud, consistencia
2. Aplicando métodos estadísticos
• Por ejemplo, en una métrica estabilidad multifuente se mide disimilaridad de una fuente
de datos con una tendencia central global del conjunto de todas las fuentes
• Corrección, estabilidad temporal, estabilidad multifuente, valor predictivo
Calidad de datos: conceptos y métodos - VeraTech for Health 4
qualize
• VeraTech ha desarrollado qualize como nuestro marco de referencia para
la evaluación de la calidad de datos
Calidad de datos: conceptos y métodos - VeraTech for Health 5
www.qualize.net
qualize – Dimensión de completitud
• Comprobamos la existencia o no de cada atributo de los datos
• Es un problema complejo cuando tratamos con estructuras de datos anidadas y
multivaluadas.
Calidad de datos: conceptos y métodos - VeraTech for Health 6
qualize – Dimensión de consistencia
• Evaluamos todas las restricciones del arquetipo, incluyendo tipos de
datos, rangos, ocurrencias, cardinalidad, subconjuntos terminológicos…
Calidad de datos: conceptos y métodos - VeraTech for Health 7
qualize – Dimensión de consistencia
Calidad de datos: conceptos y métodos - VeraTech for Health 8
• Para la evaluación de valores codificados, podemos comprobar la
pertenencia de un código de los datos dentro de un subconjunto
• Definido utilizando SNOMED CT Expression Language
• Evaluado utilizando los servicios de VeraTech SNQuery
• También podemos definir reglas complejas de consistencia
• En el futuro se incorporarán reglas de consistencia propias del dominio
sanitario.
• Ej. comprobar la correspondencia entre un texto natural y su codificación.
qualize – Dimensión de estabilidad
multifuente
• Ejemplo de implantación de la dimension de variabilidad multifuente
Calidad de datos: conceptos y métodos - VeraTech for Health 9
No se indican campos
identificadores
No se indica variable
multifuente
No se indica variable
a predecir
No se indica variable
temporal
No se indica ningún
tipo
Fig.1: Sin ninguna configuración Fig.2: Configuración completa
Con una configuración
más restrictiva: más
reglas, más campos
obligatorios, etc.
Una configuración más
estricta podría empeorar los
resultados, pero serían de
más calidad asegurada
La importancia de la configuración
Calidad y normalización
• Normalización de datos
• Limpieza de datos
(transformaciones y filtros)
• Evaluación de la calidad de
datos
• Detección de errores
Calidad de datos: conceptos y métodos - VeraTech for Health 11
Preguntas / Debate
Calidad de datos: conceptos y métodos - VeraTech for Health 12
David Moner
damoca@veratech.es

Más contenido relacionado

Similar a Calidad de datos: conceptos y métodos

Introducción a openEHR en español
Introducción a openEHR en españolIntroducción a openEHR en español
Introducción a openEHR en españolPablo Pazos
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8John Bulla
 
Reglas de integridad
Reglas de integridadReglas de integridad
Reglas de integridadMemo Wars
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data miningrenfer64
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxAnonymousEoGAaTF
 
Revista de metodologia cuantitativa
Revista de metodologia cuantitativaRevista de metodologia cuantitativa
Revista de metodologia cuantitativaAntonellaMarchn1
 
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...Jesús Bucarito
 
Integridad de datos
Integridad de datosIntegridad de datos
Integridad de datosestudiante
 
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptxMódulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptxuribefernando485
 
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptxPRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptxCarlos Yañez Serrano
 
openEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidadopenEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidadPablo Pazos
 

Similar a Calidad de datos: conceptos y métodos (20)

Introducción a openEHR en español
Introducción a openEHR en españolIntroducción a openEHR en español
Introducción a openEHR en español
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8
 
Reglas de integridad
Reglas de integridadReglas de integridad
Reglas de integridad
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
 
Revista de metodologia cuantitativa
Revista de metodologia cuantitativaRevista de metodologia cuantitativa
Revista de metodologia cuantitativa
 
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
 
Pruebas de Selección para Cargos de Data Scientist
Pruebas de Selección para Cargos de Data ScientistPruebas de Selección para Cargos de Data Scientist
Pruebas de Selección para Cargos de Data Scientist
 
María pinto
María pintoMaría pinto
María pinto
 
Datalogía - Módulo 3 - Convertir los Datos en Variables
Datalogía - Módulo 3 - Convertir los Datos en VariablesDatalogía - Módulo 3 - Convertir los Datos en Variables
Datalogía - Módulo 3 - Convertir los Datos en Variables
 
Insight2011 (1).pptx
Insight2011 (1).pptxInsight2011 (1).pptx
Insight2011 (1).pptx
 
Integridad de datos
Integridad de datosIntegridad de datos
Integridad de datos
 
sistemas de informacion
sistemas de informacionsistemas de informacion
sistemas de informacion
 
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptxMódulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
 
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptxPRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
 
Encuentro 2
Encuentro 2Encuentro 2
Encuentro 2
 
MSA Clase (3).pptx
MSA Clase (3).pptxMSA Clase (3).pptx
MSA Clase (3).pptx
 
Material de Referencia Certificado
Material de Referencia CertificadoMaterial de Referencia Certificado
Material de Referencia Certificado
 
openEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidadopenEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidad
 

Más de David Moner Cano

Archetype Modeling Methodology
Archetype Modeling MethodologyArchetype Modeling Methodology
Archetype Modeling MethodologyDavid Moner Cano
 
Data reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environmentsData reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environmentsDavid Moner Cano
 
Ehr models, standards and semantic interoperability
Ehr models, standards and semantic interoperabilityEhr models, standards and semantic interoperability
Ehr models, standards and semantic interoperabilityDavid Moner Cano
 
Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606David Moner Cano
 
Archetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHRArchetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHRDavid Moner Cano
 
Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...David Moner Cano
 
CEN EN13606 Normalisation Framework
CEN EN13606 Normalisation FrameworkCEN EN13606 Normalisation Framework
CEN EN13606 Normalisation FrameworkDavid Moner Cano
 
Implementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines ReconciliationImplementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines ReconciliationDavid Moner Cano
 

Más de David Moner Cano (8)

Archetype Modeling Methodology
Archetype Modeling MethodologyArchetype Modeling Methodology
Archetype Modeling Methodology
 
Data reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environmentsData reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environments
 
Ehr models, standards and semantic interoperability
Ehr models, standards and semantic interoperabilityEhr models, standards and semantic interoperability
Ehr models, standards and semantic interoperability
 
Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606
 
Archetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHRArchetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHR
 
Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...
 
CEN EN13606 Normalisation Framework
CEN EN13606 Normalisation FrameworkCEN EN13606 Normalisation Framework
CEN EN13606 Normalisation Framework
 
Implementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines ReconciliationImplementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
 

Último

¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf7adelosriosarangojua
 
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdfPons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdffrank0071
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialEducática
 
proyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesproyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesssuserbe0d1c
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docxssusere34b451
 
taller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariataller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariaandresingsiseo
 
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .llocllajoaquinci00
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).jcaballerosamayoa
 
manual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfmanual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfprofmartinsuarez
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .itzyrivera61103
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónAntonia Yamilet Perez Palomares
 
Introducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptxIntroducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptxJohanna4222
 
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnaTELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnajrujel91
 
Unidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdfUnidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdfMarianneBAyn
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerRobertoCarrancioFern
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptxjarniel1
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALGuadalinfoHuscarGuad
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareAndres Avila
 
Presentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptxPresentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptxTaim11
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC6dwwcgtpfx
 

Último (20)

¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf
 
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdfPons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicial
 
proyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesproyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptuales
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docx
 
taller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariataller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundaria
 
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).
 
manual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfmanual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdf
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
 
Introducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptxIntroducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptx
 
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnaTELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
 
Unidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdfUnidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdf
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL Server
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de Software
 
Presentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptxPresentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptx
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
 

Calidad de datos: conceptos y métodos

  • 1. Calidad de datos: conceptos y métodos David Moner damoca@veratech.es
  • 2. Calidad de datos • Un uso (o reúso) adecuado de los datos de salud pasa por asegurar la calidad de dichos datos. • ¿En qué consiste? • Los datos representan correctamente la realidad a la que se refieren • Los datos son los adecuados para el uso esperado • El uso de datos de baja calidad puede tener consecuencias directas sobre el proceso de atención de los pacientes, las investigaciones clínicas o la gestión sanitaria. Calidad de datos: conceptos y métodos - VeraTech for Health 2
  • 3. Calidad de datos • Tradicionalmente se evalúa la calidad de los datos según diferentes dimensiones. Proponemos siete: • Unicidad: ¿Existen datos replicados? • Completitud: ¿Faltan datos? • Consistencia: ¿Los datos cumplen con las reglas estrablecidas (tipos, rangos, ocurrencias, etc.)? • Corrección: ¿Existen datos anómalos? • Estabilidad Temporal: ¿Existe variabilidad en los datos a lo largo del tiempo? • Estabilidad Multifuente: ¿Existe variabilidad en los datos en función de su origen o fuente (hospitales, departamentos, profesionales, etc.)? • Valor Predictivo: ¿Puedo utilizar alguna variable de mis datos para construir un sistema de ayuda a la decisión? Calidad de datos: conceptos y métodos - VeraTech for Health 3
  • 4. ¿Cómo podemos definir un patrón de calidad de datos? 1. Definiendo completamente el modelo de información sanitaria • It’s the archetypes, stupid! • Generamos Schematron a partir de los arquetipos para evaluar las reglas de calidad • Completitud, consistencia 2. Aplicando métodos estadísticos • Por ejemplo, en una métrica estabilidad multifuente se mide disimilaridad de una fuente de datos con una tendencia central global del conjunto de todas las fuentes • Corrección, estabilidad temporal, estabilidad multifuente, valor predictivo Calidad de datos: conceptos y métodos - VeraTech for Health 4
  • 5. qualize • VeraTech ha desarrollado qualize como nuestro marco de referencia para la evaluación de la calidad de datos Calidad de datos: conceptos y métodos - VeraTech for Health 5 www.qualize.net
  • 6. qualize – Dimensión de completitud • Comprobamos la existencia o no de cada atributo de los datos • Es un problema complejo cuando tratamos con estructuras de datos anidadas y multivaluadas. Calidad de datos: conceptos y métodos - VeraTech for Health 6
  • 7. qualize – Dimensión de consistencia • Evaluamos todas las restricciones del arquetipo, incluyendo tipos de datos, rangos, ocurrencias, cardinalidad, subconjuntos terminológicos… Calidad de datos: conceptos y métodos - VeraTech for Health 7
  • 8. qualize – Dimensión de consistencia Calidad de datos: conceptos y métodos - VeraTech for Health 8 • Para la evaluación de valores codificados, podemos comprobar la pertenencia de un código de los datos dentro de un subconjunto • Definido utilizando SNOMED CT Expression Language • Evaluado utilizando los servicios de VeraTech SNQuery • También podemos definir reglas complejas de consistencia • En el futuro se incorporarán reglas de consistencia propias del dominio sanitario. • Ej. comprobar la correspondencia entre un texto natural y su codificación.
  • 9. qualize – Dimensión de estabilidad multifuente • Ejemplo de implantación de la dimension de variabilidad multifuente Calidad de datos: conceptos y métodos - VeraTech for Health 9
  • 10. No se indican campos identificadores No se indica variable multifuente No se indica variable a predecir No se indica variable temporal No se indica ningún tipo Fig.1: Sin ninguna configuración Fig.2: Configuración completa Con una configuración más restrictiva: más reglas, más campos obligatorios, etc. Una configuración más estricta podría empeorar los resultados, pero serían de más calidad asegurada La importancia de la configuración
  • 11. Calidad y normalización • Normalización de datos • Limpieza de datos (transformaciones y filtros) • Evaluación de la calidad de datos • Detección de errores Calidad de datos: conceptos y métodos - VeraTech for Health 11
  • 12. Preguntas / Debate Calidad de datos: conceptos y métodos - VeraTech for Health 12 David Moner damoca@veratech.es