Your SlideShare is downloading. ×
Data Integration & Data Quality Open Source (spanish)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Data Integration & Data Quality Open Source (spanish)

2,954
views

Published on

Introducción a Data Quality: Qué es, Por qué, Conceptos, Beneficios de Data Quality …

Introducción a Data Quality: Qué es, Por qué, Conceptos, Beneficios de Data Quality

Data Quality & Business Intelligence:
Pilares del BI
Integración de datos
Mejores prácticas

Opensource & Data Quality:
Data Quality & Pentaho (PDI)
PDI / ETLs / Integridad / Validación
Data Cleaner
Integración Data Cleaner y PDI

Published in: Business

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,954
On Slideshare
0
From Embeds
0
Number of Embeds
33
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Data Profiling: proceso de examinar los datos que existen en las fuentes de origen y recopilar estadísticas e información sobre los mismos. Data Cleansing: proceso de detectar y corregir datos corruptos, incoherentes o erróneos. Data Integrity: proceso de analizar la consistencia de los datos y las relaciones entre los diferentes conjuntos de datos. Data Validation: proceso de aplicar reglas de validación a los datos basándose en diccionarios de datos y/o reglas de negocio. Master Data Management: conjunto de procesos, políticas, estándares y herramientas que sirven para gestionar Datos Maestros de una organización (normalmente información no transaccional). Data Auditing: proceso de gestionar cómo los datos se ajustan a los propósitos definidos por la organización. Es necesario establecer las políticas necesarias. Actuar + Vigilar. Data Governance: concepto que engloba a todos los procesos anteriores y que permite a una organización disponer de una información confiable.
  • Transcript

    • 1. Data Integration & Data QualityData Integration & Data Quality Your open source based BI solution!! by
    • 2. Introducción a Data Quality Qué es Por qué Conceptos Beneficios de Data Quality Data Quality & Business Intelligence Pilares del BI Integración de datos Mejores prácticas Opensource & Data Quality Data Quality & Pentaho (PDI) PDI / ETLs / Integridad / Validación Data Cleaner Integración Data Cleaner y PDI Índice
    • 3. Contacto Inicial
    • 4. Confían en Business Intelligence Open Source Sector Privado Sector Público
    • 5. Introducción a Data QualityIntroducción a Data Quality http://optimizeyourdataquality.wordpress.com/
    • 6. Introducción ¿Qué es Data Quality?¿Qué es Data Quality? Definición no estándar “Proceso constante de percepción o evaluación del grado de conveniencia de los datos que sirven para un propósito en un determinado contexto” Búsqueda de atributos en los datos: Precisión Fidelidad Integridad Relevancia http://unitar.org
    • 7. Introducción ¿Por qué Data Quality?¿Por qué Data Quality?
    • 8. Introducción ConceptosConceptos
    • 9. Gobernanza de datos Toma de decisiones mejor y más rápida Crítico disponer de datos de calidad Introducción Fundamental realizar tareas de Data Quality en los procesos de integración de datos
    • 10. Beneficios de Data QualityBeneficios de Data Quality Introducción Segmentación de clientes adecuada  Satisfacción de clientes Evita tratar información errónea  Reducción de costes Mayor confianza y valor de la información Mejor eficacia en los procesos de negocio Incremento en los ingresos
    • 11. & Business& Business IntelligenceIntelligence
    • 12. ¿Qué es Business Intelligence? (BI) Habilidad para transformar datos en información, información en conocimiento y optimizar el proceso de toma de decisiones en los negocios Data Quality & Business Intelligence Herramientas Visuales para un Análisis óptimo y sencillo Datos robustos y confiables Pilares del Business IntelligencePilares del Business Intelligence Procesos involucrados: •Integración de datos •Explotación de información
    • 13. Integración de datosIntegración de datos Clave para cualquier proyecto BI ETL = Extract, Transform and Load Proceso para mover datos de diferentes fuentes, tratarlos y cargarlos en bases de datos unificadas: data warehouse / data marts. Data Quality & Business Intelligence Tareas principales: Extraer datos de múltiples fuentes Aplicar calidad y consistencia (limpiar) a los datos Conformar (unificar) los datos Cargar los datos en un DW http://blog.bootstraptoday.com CRM ERP BPM CMS
    • 14. Data Quality & Business Intelligence DESAFÍOS: Fuentes heterogéneas Grandes volúmenes de datos Mejorar eficiencia operativa Sincronismo de las fuentes Escalabilidad Integración de datos y Data Quality muy relacionadosIntegración de datos y Data Quality muy relacionados Integración de datosIntegración de datos
    • 15. El Proceso de Data Quality puede realizarse de forma: Manual  Consultas ad-hoc, búsqueda en ficheros, etc… Automatizada  Incluido en el proceso de integración de datos Son métodos complementarios, aunque: Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)Tareas de Data Quality como parte del proceso de Integración de Datos (ETL) Data Quality & Business Intelligence Integración de datosIntegración de datos
    • 16. Mejores prácticas en ETLMejores prácticas en ETL Centralizar procedimientos: asegura la homogeneidad y coherencia de datos de diferentes fuentes. Evitar redundancia de cálculos: si un dato está calculado en origen, no volver a calcularlo. Mejora el rendimiento y evita posibles inconsistencias. Establecer puntos de “control de calidad”: asegura la ejecución en puntos clave del proceso y permite registrar información de seguimiento para futuras auditorías. Implementar procesos de recarga de la información: útiles ante posibles errores de carga inicial. Utilizar estructuras intermedias: facilita la monitorización y seguimiento del proceso. Data Quality & Business Intelligence
    • 17. Mejores prácticas en ETLMejores prácticas en ETL Data Quality & Business Intelligence Procesos centralizados y estandarizados Puntos de control y registro Estructuras intermedias Aplicar filosofía BI al proceso de calidad de datos Explotar y analizar resultados de Data Quality Permite
    • 18. Opensource &Opensource &
    • 19. Herramientas ETL y Data QualityHerramientas ETL y Data Quality Pentaho Data Integration Talend Open Studio DataCleaner Talend Data Quality Google Refine Opensource & Data Quality Algunas Soluciones Data Quality Opensource: Principales Soluciones ETL Opensource
    • 20. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Herramienta ETL intuitiva basada en trabajos y transformaciones Libertad para decidir dónde y cómo realizar tareas de: profiling, cleansing, integrity, validation; en base a metadatos. Disponibilidad en transformaciones de componentes orientados a Data Quality: No es herramienta pura de profiling, pero se puede integrar DataCleaner Arquitectura de Plug-in que permite expandir sus funcionalidades. Opensource & Data Quality
    • 21. Opensource & Data Quality Variedad de componentes: Limpieza Scripting (sql, javascript) Validación Estadísticas Etc… Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
    • 22. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Opensource & Data Quality Importante buen diseño de ETL distribuido en fases: 1. Preparación del proceso 2. Recepción de datos 3. Procesamiento de datos 4. Carga final 5. Informes de resultados 6. Control de actividades transversal Este planteamiento permite: Estandarizar los procesos en una organización Escalar mejor al incrementar el número de fuentes Controlar de forma centralizada los resultados de los procesos
    • 23. Data CleanerData Cleaner Opensource & Data Quality Herramienta de Profiling recomendada por Pentaho Alternativas de uso: Herramienta de escritorio Herramienta web Plugin para PDI
    • 24. Data Cleaner DesktopData Cleaner Desktop Opensource & Data Quality Funcionalidades: Limpieza de datos Definición de diccionarios de datos Búsqueda de patrones, duplicados, nulos, etc. Monitorización Estadísticas de resultados completa Etc.
    • 25. Data Cleaner Monitor (web)Data Cleaner Monitor (web) Opensource & Data Quality Funcionalidades: Monitorización centralizada Visualización elegante Programación de trabajos Data Cleaner y PDI Definición de métricas propias Etc.
    • 26. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción A Hacer profiling de los datos resultantes de un paso PDI
    • 27. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción B Ejecutar un trabajo de Data Cleaner
    • 28. Referencias International Association for Information and Data Quality: http://iaidq.org/ Pentaho Data Integration: http://www.pentaho.com/explore/pentaho-data-integration/ Data Cleaner: http://datacleaner.org/
    • 29. Stratebi: Quiénes somos www.TodoBI.com info@stratebi.com www.stratebi.com Mas información Tfno: 91.788.34.10 MadridMadrid: Pº de la Castellana, 164, 1º BarcelonaBarcelona: C/ Valencia, 63 BrasilBrasil:: Av. Paulista, 37 4 andar