SlideShare a Scribd company logo
1 of 18
Data Pipeline
Enero 2020
Elena López
ELENA LÓPEZ
• ING. DE SISTEMAS DESDE MUCHO ANTES DE WINDOWS 7
• DATOS, DATOS Y MÁS DATOS
• CURIOSA, EMPRENDEDORA, AUTODIDACTA
• DATA PLATFORM MICROSOFT MVP
• HUMOR, CERVEZA, NATURALEZA
Aprendiendo BD
con
SQL Server
La nueva economía prospera
gracias al aprovechamiento
de los datos
EVOLUCIÓN
RETOS
Nosotros Los Datos
RETOSRELACIONADOS A LOS DATOS
• Valores nulos
• Valores vacíos
• Valores por defecto
Completit
ud
• Estandarizados
• Legibles
Conformidad
• No se contradicenConsistencia
• Veracidad de los datosPrecisión
• Redundancia
• Valor que representa un mismo
dato en diferente formato
Duplicidad
• ¿Podemos usar y confiar en los
datos que tenemos?Integridad
70-80% del tiempo se invierte en la limpieza y recolección de los datos.
TEAM DATA SCIENCE PROCESSMetodología de trabajo desarrollada y recomendada por Microsoft
Entendimiento del negocio
Se identifican junto al cliente las
preguntas que se buscan resolver con el
proyecto
Levantamiento de riesgos, supuestos,
beneficios
Objetivos del proyecto
Formación del equipo
Definición de métricas de éxito
(específicas, medibles, alcanzables,
relevantes y con límite de tiempo
Se identifican
las fuentes de
datos
Adquisición y entendimiento
de los datos
Selección de conjuntos de datos
Exploración de los datos, uso de
estadística descriptiva para evaluar
calidad de los datos
Análisis de correlación para identificar
variables
Limpieza y calidad de datos en caso de
requerirse (datos duplicados, presencia
de valores nulos, valores atípicos)
Modelamiento y Desarrollo
Ingeniería de atributos
Desarrollo de Extracción,
Transformación y Carga de los datos
(ETL).
Diseño lógico/conceptual del almacén
de datos o data warehouse (topología
de esquema estrella)
Diseño de estructuras
multidimensionales o cubos
Diseño de Reportes, dashboards, KPIs y
alertas
Calidad
Despliegue
Visualizadores Web
Hojas de cálculos
Notificaciones vía correo electrónico
Herramientas comerciales de
autoservicio de datos (Power BI por
ejemplo)
Data Pipeline
Enero 2020
Actividades ordenadas lógicamente para
realizar una tarea en torno a los datos
Data Pipeline
Enero 2020
Data sets
Activities
Pipeline
Activities
Data Movement
Data Transformation
Control
¿Qué
perseguimos?
Autoservicio
Única fuente de la verdad
Eliminar la dependencia de TIC
Modern Data Warehouse
Advanced Analytics on Big Data
Real Time Analytics
Los sistemas deben seguir los lineamientos de los procesos empresariales y garantizar la calidad
de los datos.
Data pipeline

More Related Content

What's hot

066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina
GeneXus
 
Que función cumple excel para las empresas
Que función cumple excel para las empresasQue función cumple excel para las empresas
Que función cumple excel para las empresas
leidyyaira
 

What's hot (19)

Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Claves para entender el actual big data
Claves para entender el actual big dataClaves para entender el actual big data
Claves para entender el actual big data
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Mi primer modelo de clasificación con Azure Machine Learning Studio
Mi primer modelo de clasificación con Azure Machine Learning StudioMi primer modelo de clasificación con Azure Machine Learning Studio
Mi primer modelo de clasificación con Azure Machine Learning Studio
 
Solid Day - IoT en México
Solid Day - IoT en MéxicoSolid Day - IoT en México
Solid Day - IoT en México
 
Excel power pivot ssas tabular
Excel power pivot ssas tabularExcel power pivot ssas tabular
Excel power pivot ssas tabular
 
Marcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de DatosMarcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de Datos
 
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadas
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadasParadigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadas
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadas
 
066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina
 
Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentes
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women Techmakers
 
Data Science - Analítica Predictiva y Evolución de BI
Data Science - Analítica Predictiva y Evolución de BIData Science - Analítica Predictiva y Evolución de BI
Data Science - Analítica Predictiva y Evolución de BI
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
Diseñando equipos de ciencia de datos: aciertos y desastres,
Diseñando equipos de ciencia de datos: aciertos y desastres,Diseñando equipos de ciencia de datos: aciertos y desastres,
Diseñando equipos de ciencia de datos: aciertos y desastres,
 
Big data
Big dataBig data
Big data
 
Que función cumple excel para las empresas
Que función cumple excel para las empresasQue función cumple excel para las empresas
Que función cumple excel para las empresas
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Paso de TI, tengo Power BI
Paso de TI, tengo Power BIPaso de TI, tengo Power BI
Paso de TI, tengo Power BI
 

Similar to Data pipeline

Data integration
Data integrationData integration
Data integration
PowerData
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
shady85
 

Similar to Data pipeline (20)

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8
 
Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Microsoft Business Analytics 2013
Microsoft Business Analytics 2013Microsoft Business Analytics 2013
Microsoft Business Analytics 2013
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
Introducción al Data Mining
Introducción al Data MiningIntroducción al Data Mining
Introducción al Data Mining
 
Data integration
Data integrationData integration
Data integration
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
Bilatam - BI for Beginners
Bilatam - BI for BeginnersBilatam - BI for Beginners
Bilatam - BI for Beginners
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Hablemos de Big Data
Hablemos de Big DataHablemos de Big Data
Hablemos de Big Data
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 

More from Elena Lopez

More from Elena Lopez (12)

Data driven decision making
Data driven decision makingData driven decision making
Data driven decision making
 
Modern data warehouse
Modern data warehouseModern data warehouse
Modern data warehouse
 
Arquitectura de Datos en Azure
Arquitectura de Datos en AzureArquitectura de Datos en Azure
Arquitectura de Datos en Azure
 
Data analytics on Azure
Data analytics on AzureData analytics on Azure
Data analytics on Azure
 
El valor de los datos 3.0
El valor de los datos 3.0El valor de los datos 3.0
El valor de los datos 3.0
 
Gestión de Proyectos de Ciencia de Datos
Gestión de Proyectos de Ciencia de DatosGestión de Proyectos de Ciencia de Datos
Gestión de Proyectos de Ciencia de Datos
 
Analitica avanzada
Analitica avanzadaAnalitica avanzada
Analitica avanzada
 
Inteligencia de negocios - tercera parte
Inteligencia de negocios  - tercera parteInteligencia de negocios  - tercera parte
Inteligencia de negocios - tercera parte
 
Consideraciones para un buen diseño lógico de base de datos
Consideraciones para un buen diseño lógico de base de datosConsideraciones para un buen diseño lógico de base de datos
Consideraciones para un buen diseño lógico de base de datos
 
El valor de los datos
El valor de los datosEl valor de los datos
El valor de los datos
 
1. introduccion las Bases de Datos
1. introduccion las Bases de Datos1. introduccion las Bases de Datos
1. introduccion las Bases de Datos
 
1. introduccion a las Bases de datos
1. introduccion a las Bases de datos1. introduccion a las Bases de datos
1. introduccion a las Bases de datos
 

Recently uploaded

Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 

Recently uploaded (20)

Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 

Data pipeline

  • 2. ELENA LÓPEZ • ING. DE SISTEMAS DESDE MUCHO ANTES DE WINDOWS 7 • DATOS, DATOS Y MÁS DATOS • CURIOSA, EMPRENDEDORA, AUTODIDACTA • DATA PLATFORM MICROSOFT MVP • HUMOR, CERVEZA, NATURALEZA
  • 4. La nueva economía prospera gracias al aprovechamiento de los datos
  • 6.
  • 8. RETOSRELACIONADOS A LOS DATOS • Valores nulos • Valores vacíos • Valores por defecto Completit ud • Estandarizados • Legibles Conformidad • No se contradicenConsistencia • Veracidad de los datosPrecisión • Redundancia • Valor que representa un mismo dato en diferente formato Duplicidad • ¿Podemos usar y confiar en los datos que tenemos?Integridad 70-80% del tiempo se invierte en la limpieza y recolección de los datos.
  • 9. TEAM DATA SCIENCE PROCESSMetodología de trabajo desarrollada y recomendada por Microsoft Entendimiento del negocio Se identifican junto al cliente las preguntas que se buscan resolver con el proyecto Levantamiento de riesgos, supuestos, beneficios Objetivos del proyecto Formación del equipo Definición de métricas de éxito (específicas, medibles, alcanzables, relevantes y con límite de tiempo Se identifican las fuentes de datos Adquisición y entendimiento de los datos Selección de conjuntos de datos Exploración de los datos, uso de estadística descriptiva para evaluar calidad de los datos Análisis de correlación para identificar variables Limpieza y calidad de datos en caso de requerirse (datos duplicados, presencia de valores nulos, valores atípicos) Modelamiento y Desarrollo Ingeniería de atributos Desarrollo de Extracción, Transformación y Carga de los datos (ETL). Diseño lógico/conceptual del almacén de datos o data warehouse (topología de esquema estrella) Diseño de estructuras multidimensionales o cubos Diseño de Reportes, dashboards, KPIs y alertas Calidad Despliegue Visualizadores Web Hojas de cálculos Notificaciones vía correo electrónico Herramientas comerciales de autoservicio de datos (Power BI por ejemplo)
  • 10. Data Pipeline Enero 2020 Actividades ordenadas lógicamente para realizar una tarea en torno a los datos
  • 11. Data Pipeline Enero 2020 Data sets Activities Pipeline
  • 13. ¿Qué perseguimos? Autoservicio Única fuente de la verdad Eliminar la dependencia de TIC
  • 17. Los sistemas deben seguir los lineamientos de los procesos empresariales y garantizar la calidad de los datos.

Editor's Notes

  1. La baja calidad de los datos es la razón principal por la que el 40% de las iniciativas de negocio son abandonadas, impactando negativamente el crecimiento, la competividad y los ingresos.