• Save
Data Integration & Data Quality Open Source (spanish)
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Data Integration & Data Quality Open Source (spanish)

  • 2,661 views
Uploaded on

Introducción a Data Quality: Qué es, Por qué, Conceptos, Beneficios de Data Quality ...

Introducción a Data Quality: Qué es, Por qué, Conceptos, Beneficios de Data Quality

Data Quality & Business Intelligence:
Pilares del BI
Integración de datos
Mejores prácticas

Opensource & Data Quality:
Data Quality & Pentaho (PDI)
PDI / ETLs / Integridad / Validación
Data Cleaner
Integración Data Cleaner y PDI

More in: Business
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
2,661
On Slideshare
961
From Embeds
1,700
Number of Embeds
29

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 1,700

http://www.stratebi.com 1,164
http://todobi.blogspot.com.es 248
http://www.dataprix.tv 56
http://static.usrfiles.com 52
http://feedly.com 43
http://htmlcomponentservice.appspot.com 30
http://www.dataprix.com 23
http://todobi.blogspot.com 22
http://mucho95.rssing.com 14
http://www.movilidadempresarial.es.usrfiles.com 13
http://todobi.blogspot.com.ar 7
http://todobi.blogspot.com.br 3
http://todobi.blogspot.co.uk 3
http://www.todobi.blogspot.com 3
http://todobi.blogspot.mx 2
http://newsblur.com 2
http://feedreader.com 2
http://webcache.googleusercontent.com 2
http://todobi.blogspot.kr 1
http://feeds.feedburner.com 1
http://todobi.blogspot.in 1
http://www.todobi.blogspot.com.es 1
http://todobi.blogspot.it 1
http://todobi.blogspot.dk 1
http://digg.com 1
http://www.inoreader.com 1
http://inoreader.com 1
https://www.blogger.com 1
http://www.google.com.co 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Data Profiling: proceso de examinar los datos que existen en las fuentes de origen y recopilar estadísticas e información sobre los mismos. Data Cleansing: proceso de detectar y corregir datos corruptos, incoherentes o erróneos. Data Integrity: proceso de analizar la consistencia de los datos y las relaciones entre los diferentes conjuntos de datos. Data Validation: proceso de aplicar reglas de validación a los datos basándose en diccionarios de datos y/o reglas de negocio. Master Data Management: conjunto de procesos, políticas, estándares y herramientas que sirven para gestionar Datos Maestros de una organización (normalmente información no transaccional). Data Auditing: proceso de gestionar cómo los datos se ajustan a los propósitos definidos por la organización. Es necesario establecer las políticas necesarias. Actuar + Vigilar. Data Governance: concepto que engloba a todos los procesos anteriores y que permite a una organización disponer de una información confiable.

Transcript

  • 1. Data Integration & Data QualityData Integration & Data Quality Your open source based BI solution!! by
  • 2. Introducción a Data Quality Qué es Por qué Conceptos Beneficios de Data Quality Data Quality & Business Intelligence Pilares del BI Integración de datos Mejores prácticas Opensource & Data Quality Data Quality & Pentaho (PDI) PDI / ETLs / Integridad / Validación Data Cleaner Integración Data Cleaner y PDI Índice
  • 3. Contacto Inicial
  • 4. Confían en Business Intelligence Open Source Sector Privado Sector Público
  • 5. Introducción a Data QualityIntroducción a Data Quality http://optimizeyourdataquality.wordpress.com/
  • 6. Introducción ¿Qué es Data Quality?¿Qué es Data Quality? Definición no estándar “Proceso constante de percepción o evaluación del grado de conveniencia de los datos que sirven para un propósito en un determinado contexto” Búsqueda de atributos en los datos: Precisión Fidelidad Integridad Relevancia http://unitar.org
  • 7. Introducción ¿Por qué Data Quality?¿Por qué Data Quality?
  • 8. Introducción ConceptosConceptos
  • 9. Gobernanza de datos Toma de decisiones mejor y más rápida Crítico disponer de datos de calidad Introducción Fundamental realizar tareas de Data Quality en los procesos de integración de datos
  • 10. Beneficios de Data QualityBeneficios de Data Quality Introducción Segmentación de clientes adecuada  Satisfacción de clientes Evita tratar información errónea  Reducción de costes Mayor confianza y valor de la información Mejor eficacia en los procesos de negocio Incremento en los ingresos
  • 11. & Business& Business IntelligenceIntelligence
  • 12. ¿Qué es Business Intelligence? (BI) Habilidad para transformar datos en información, información en conocimiento y optimizar el proceso de toma de decisiones en los negocios Data Quality & Business Intelligence Herramientas Visuales para un Análisis óptimo y sencillo Datos robustos y confiables Pilares del Business IntelligencePilares del Business Intelligence Procesos involucrados: •Integración de datos •Explotación de información
  • 13. Integración de datosIntegración de datos Clave para cualquier proyecto BI ETL = Extract, Transform and Load Proceso para mover datos de diferentes fuentes, tratarlos y cargarlos en bases de datos unificadas: data warehouse / data marts. Data Quality & Business Intelligence Tareas principales: Extraer datos de múltiples fuentes Aplicar calidad y consistencia (limpiar) a los datos Conformar (unificar) los datos Cargar los datos en un DW http://blog.bootstraptoday.com CRM ERP BPM CMS
  • 14. Data Quality & Business Intelligence DESAFÍOS: Fuentes heterogéneas Grandes volúmenes de datos Mejorar eficiencia operativa Sincronismo de las fuentes Escalabilidad Integración de datos y Data Quality muy relacionadosIntegración de datos y Data Quality muy relacionados Integración de datosIntegración de datos
  • 15. El Proceso de Data Quality puede realizarse de forma: Manual  Consultas ad-hoc, búsqueda en ficheros, etc… Automatizada  Incluido en el proceso de integración de datos Son métodos complementarios, aunque: Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)Tareas de Data Quality como parte del proceso de Integración de Datos (ETL) Data Quality & Business Intelligence Integración de datosIntegración de datos
  • 16. Mejores prácticas en ETLMejores prácticas en ETL Centralizar procedimientos: asegura la homogeneidad y coherencia de datos de diferentes fuentes. Evitar redundancia de cálculos: si un dato está calculado en origen, no volver a calcularlo. Mejora el rendimiento y evita posibles inconsistencias. Establecer puntos de “control de calidad”: asegura la ejecución en puntos clave del proceso y permite registrar información de seguimiento para futuras auditorías. Implementar procesos de recarga de la información: útiles ante posibles errores de carga inicial. Utilizar estructuras intermedias: facilita la monitorización y seguimiento del proceso. Data Quality & Business Intelligence
  • 17. Mejores prácticas en ETLMejores prácticas en ETL Data Quality & Business Intelligence Procesos centralizados y estandarizados Puntos de control y registro Estructuras intermedias Aplicar filosofía BI al proceso de calidad de datos Explotar y analizar resultados de Data Quality Permite
  • 18. Opensource &Opensource &
  • 19. Herramientas ETL y Data QualityHerramientas ETL y Data Quality Pentaho Data Integration Talend Open Studio DataCleaner Talend Data Quality Google Refine Opensource & Data Quality Algunas Soluciones Data Quality Opensource: Principales Soluciones ETL Opensource
  • 20. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Herramienta ETL intuitiva basada en trabajos y transformaciones Libertad para decidir dónde y cómo realizar tareas de: profiling, cleansing, integrity, validation; en base a metadatos. Disponibilidad en transformaciones de componentes orientados a Data Quality: No es herramienta pura de profiling, pero se puede integrar DataCleaner Arquitectura de Plug-in que permite expandir sus funcionalidades. Opensource & Data Quality
  • 21. Opensource & Data Quality Variedad de componentes: Limpieza Scripting (sql, javascript) Validación Estadísticas Etc… Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
  • 22. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration Opensource & Data Quality Importante buen diseño de ETL distribuido en fases: 1. Preparación del proceso 2. Recepción de datos 3. Procesamiento de datos 4. Carga final 5. Informes de resultados 6. Control de actividades transversal Este planteamiento permite: Estandarizar los procesos en una organización Escalar mejor al incrementar el número de fuentes Controlar de forma centralizada los resultados de los procesos
  • 23. Data CleanerData Cleaner Opensource & Data Quality Herramienta de Profiling recomendada por Pentaho Alternativas de uso: Herramienta de escritorio Herramienta web Plugin para PDI
  • 24. Data Cleaner DesktopData Cleaner Desktop Opensource & Data Quality Funcionalidades: Limpieza de datos Definición de diccionarios de datos Búsqueda de patrones, duplicados, nulos, etc. Monitorización Estadísticas de resultados completa Etc.
  • 25. Data Cleaner Monitor (web)Data Cleaner Monitor (web) Opensource & Data Quality Funcionalidades: Monitorización centralizada Visualización elegante Programación de trabajos Data Cleaner y PDI Definición de métricas propias Etc.
  • 26. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción A Hacer profiling de los datos resultantes de un paso PDI
  • 27. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI Opensource & Data Quality Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso: Opción B Ejecutar un trabajo de Data Cleaner
  • 28. Referencias International Association for Information and Data Quality: http://iaidq.org/ Pentaho Data Integration: http://www.pentaho.com/explore/pentaho-data-integration/ Data Cleaner: http://datacleaner.org/
  • 29. Stratebi: Quiénes somos www.TodoBI.com info@stratebi.com www.stratebi.com Mas información Tfno: 91.788.34.10 MadridMadrid: Pº de la Castellana, 164, 1º BarcelonaBarcelona: C/ Valencia, 63 BrasilBrasil:: Av. Paulista, 37 4 andar