Data Integration & Data Quality Open Source (spanish)

4,926 views
5,133 views

Published on

Introducción a Data Quality: Qué es, Por qué, Conceptos, Beneficios de Data Quality

Data Quality & Business Intelligence:
Pilares del BI
Integración de datos
Mejores prácticas

Opensource & Data Quality:
Data Quality & Pentaho (PDI)
PDI / ETLs / Integridad / Validación
Data Cleaner
Integración Data Cleaner y PDI

Published in: Business
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,926
On SlideShare
0
From Embeds
0
Number of Embeds
3,341
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide
  • Data Profiling: proceso de examinar los datos que existen en las fuentes de origen y recopilar estadísticas e información sobre los mismos. Data Cleansing: proceso de detectar y corregir datos corruptos, incoherentes o erróneos. Data Integrity: proceso de analizar la consistencia de los datos y las relaciones entre los diferentes conjuntos de datos. Data Validation: proceso de aplicar reglas de validación a los datos basándose en diccionarios de datos y/o reglas de negocio. Master Data Management: conjunto de procesos, políticas, estándares y herramientas que sirven para gestionar Datos Maestros de una organización (normalmente información no transaccional). Data Auditing: proceso de gestionar cómo los datos se ajustan a los propósitos definidos por la organización. Es necesario establecer las políticas necesarias. Actuar + Vigilar. Data Governance: concepto que engloba a todos los procesos anteriores y que permite a una organización disponer de una información confiable.
  • Data Integration & Data Quality Open Source (spanish)

    1. 1. Data Integration & Data QualityData Integration & Data Quality Your open source based BI solution!! by
    2. 2. Introducción a Data Quality Qué es Por qué Conceptos Beneficios de Data Quality Data Quality & Business Intelligence Pilares del BI Integración de datos Mejores prácticas Opensource & Data Quality Data Quality & Pentaho (PDI) PDI / ETLs / Integridad / Validación Data Cleaner Integración Data Cleaner y PDI Índice
    3. 3. Contacto Inicial
    4. 4. Confían en Business Intelligence Open Source Sector Privado Sector Público
    5. 5. Introducción a Data QualityIntroducción a Data Quality http://optimizeyourdataquality.wordpress.com/
    6. 6. Introducción ¿Qué es Data Quality?¿Qué es Data Quality? Definición no estándar “Proceso constante de percepción o evaluación del grado de conveniencia de los datos que sirven para un propósito en un determinado contexto” Búsqueda de atributos en los datos: Precisión Fidelidad Integridad Relevancia http://unitar.org
    7. 7. Introducción ¿Por qué Data Quality?¿Por qué Data Quality?
    8. 8. Introducción ConceptosConceptos
    9. 9. Gobernanza de datos Toma de decisiones mejor y más rápida Crítico disponer de datos de calidad Introducción Fundamental realizar tareas de Data Quality en los procesos de integración de datos
    10. 10. Beneficios de Data QualityBeneficios de Data Quality Introducción Segmentación de clientes adecuada  Satisfacción de clientes Evita tratar información errónea  Reducción de costes Mayor confianza y valor de la información Mejor eficacia en los procesos de negocio Incremento en los ingresos
    11. 11. & Business& Business IntelligenceIntelligence
    12. 12. ¿Qué es Business Intelligence? (BI) Habilidad para transformar datos en información, información en conocimiento y optimizar el proceso de toma de decisiones en los negocios Data Quality & Business Intelligence Herramientas Visuales para un Análisis óptimo y sencillo Datos robustos y confiables Pilares del Business IntelligencePilares del Business Intelligence Procesos involucrados: •Integración de datos •Explotación de información
    13. 13. Integración de datosIntegración de datos Clave para cualquier proyecto BI ETL = Extract, Transform and Load Proceso para mover datos de diferentes fuentes, tratarlos y cargarlos en bases de datos unificadas: data warehouse / data marts. Data Quality & Business Intelligence Tareas principales: Extraer datos de múltiples fuentes Aplicar calidad y consistencia (limpiar) a los datos Conformar (unificar) los datos Cargar los datos en un DW http://blog.bootstraptoday.com CRM ERP BPM CMS
    14. 14. Data Quality & Business Intelligence DESAFÍOS: Fuentes heterogéneas Grandes volúmenes de datos Mejorar eficiencia operativa Sincronismo de las fuentes Escalabilidad Integración de datos y Data Quality muy relacionadosIntegración de datos y Data Quality muy relacionados Integración de datosIntegración de datos
    15. 15. El Proceso de Data Quality puede realizarse de forma: Manual  Consultas ad-hoc, búsqueda en ficheros, etc… Automatizada  Incluido en el proceso de integración de datos Son métodos complementarios, aunque: Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)Tareas de Data Quality como parte del proceso de Integración de Datos (ETL) Data Quality & Business Intelligence Integración de datosIntegración de datos
    16. 16. Mejores prácticas en ETLMejores prácticas en ETL Centralizar procedimientos: asegura la homogeneidad y coherencia de datos de diferentes fuentes. Evitar redundancia de cálculos: si un dato está calculado en origen, no volver a calcularlo. Mejora el rendimiento y evita posibles inconsistencias. Establecer puntos de “control de calidad”: asegura la ejecución en puntos clave del proceso y permite registrar información de seguimiento para futuras auditorías. Implementar procesos de recarga de la información: útiles ante posibles errores de carga inicial. Utilizar estructuras intermedias: facilita la monitorización y seguimiento del proceso. Data Quality & Business Intelligence
    17. 17. Mejores prácticas en ETLMejores prácticas en ETL Data Quality & Business Intelligence Procesos centralizados y estandarizados Puntos de control y registro Estructuras intermedias Aplicar filosofía BI al proceso de calidad de datos Explotar y analizar resultados de Data Quality Permite
    18. 18. Opensource &Opensource &
    19. 19. Herramientas ETL y Data QualityHerramientas ETL y Data Quality Pentaho Data Integration Talend Open Studio DataCleaner Talend Data Quality Google Refine Opensource & Data Quality Algunas Soluciones Data Quality Opensource: Principales Soluciones ETL Opensource
    20. 20. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Herramienta ETL intuitiva basada en trabajos y transformaciones Libertad para decidir dónde y cómo realizar tareas de: profiling, cleansing, integrity, validation; en base a metadatos. Disponibilidad en transformaciones de componentes orientados a Data Quality: No es herramienta pura de profiling, pero se puede integrar DataCleaner Arquitectura de Plug-in que permite expandir sus funcionalidades. Opensource & Data Quality
    21. 21. Opensource & Data Quality Variedad de componentes: Limpieza Scripting (sql, javascript) Validación Estadísticas Etc… Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
    22. 22. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Opensource & Data Quality Importante buen diseño de ETL distribuido en fases: 1. Preparación del proceso 2. Recepción de datos 3. Procesamiento de datos 4. Carga final 5. Informes de resultados 6. Control de actividades transversal Este planteamiento permite: Estandarizar los procesos en una organización Escalar mejor al incrementar el número de fuentes Controlar de forma centralizada los resultados de los procesos
    23. 23. Data CleanerData Cleaner Opensource & Data Quality Herramienta de Profiling recomendada por Pentaho Alternativas de uso: Herramienta de escritorio Herramienta web Plugin para PDI
    24. 24. Data Cleaner DesktopData Cleaner Desktop Opensource & Data Quality Funcionalidades: Limpieza de datos Definición de diccionarios de datos Búsqueda de patrones, duplicados, nulos, etc. Monitorización Estadísticas de resultados completa Etc.
    25. 25. Data Cleaner Monitor (web)Data Cleaner Monitor (web) Opensource & Data Quality Funcionalidades: Monitorización centralizada Visualización elegante Programación de trabajos Data Cleaner y PDI Definición de métricas propias Etc.
    26. 26. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción A Hacer profiling de los datos resultantes de un paso PDI
    27. 27. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción B Ejecutar un trabajo de Data Cleaner
    28. 28. Referencias International Association for Information and Data Quality: http://iaidq.org/ Pentaho Data Integration: http://www.pentaho.com/explore/pentaho-data-integration/ Data Cleaner: http://datacleaner.org/
    29. 29. Stratebi: Quiénes somos www.TodoBI.com info@stratebi.com www.stratebi.com Mas información Tfno: 91.788.34.10 MadridMadrid: Pº de la Castellana, 164, 1º BarcelonaBarcelona: C/ Valencia, 63 BrasilBrasil:: Av. Paulista, 37 4 andar

    ×