SlideShare a Scribd company logo
1 of 20
Download to read offline
Construyendo pruebas para un
DWH usando un paradigma de
modelado Data Vault
Presenta:
Tania Gómez Jiménez
INDICE
1. Conceptos Generales para Pruebas de Modelado Data Vault
2. Pruebas para un DWH usando un paradigma de modelado Data Vault
ETL
Extract, Transform and Load («extraer, transformar y cargar», frecuentemente
abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, transformarlos y cargarlos en otra base de datos, data mart o
data warehouse para analizar, o en otro sistema operacional para apoyar un
Proceso de Negocio.
Los procesos de extracción de información dependen de la base de datos en la que
se creará el Data Warehouse
Componentes de un proceso de ETL:
o Extracción
o Transformación
o Carga
Pruebas ETL’S
• Cifras Control (Origen vs Destino)
• Mapeo de datos
• Estructura (tipo de dato, longitudes, campos obligatorios)
• Consistencia de datos (Integridad)
• Reglas de negocio
Cifras
Control
Reglas de
Negocio
Detalle de la
Información
Modelo Data Vault
• Es una técnica de modelado de datos que permite explotar la información para
una toma de decisiones
• El modelo es construido para una extrema flexibilidad y escalabilidad, ejemplo,
desde cuando un cliente cambio de ciudad, domicilio, estado civil, etc.
• Consiste de tres tipos de entidades:
• Hub
• Satellite
• Links
Hub
• Se definen por una lista única de llaves de negocio (Business keys)
• Una llave de negocio, es usado por negocio para localizar e identificar
registros únicos en un compendio de información
• Ejemplos:
• Número de empleado
• Número de licencia de manejo
• Número de boleto
SEQUENCE
<BUSINESS KEY>
<LOAD DATE>
<RECORD SOURCE>
Hub_EmpID_SQN: numeric
(8)
EmpleadoID: integer (25)
Hub_EmpID_LDTS:
datetime (8)
Hub_EmpID_RSRC:
varchar(12)
Índice único
Hub_Empleado
SQN: Sequence number
LDTS: Load Date Time Stamp
RSRC: Record Source
Satellite
• Proporciona un contexto de las llaves de negocio (hubs)
• Descriptores
SEQUENCE
<BUSINESS KEY>
<LOAD DATE>
<RECORD SOURCE>
Links
• Asociaciones
• Es una intersección de llaves de negocio
• Se utilizan para conectar múltiple conjuntos de información
Link_Empleado_
Cuenta
Hub Empleado Hub Cuenta
SEQUENCE
<HUB KEY SQN 1>
<HUB KEY SQN 2>
<HUB KEY SQN N>
<LOAD DATE>
<RECORD SOURCE>
Pruebas para un DWH usando un
paradigma de modelado Data Vault
Ambientes
• Ambientes separados:
• Desarrollo
• Pruebas
• Producción
• Un proceso estandarizado de despliegue, es requerido
Desarrollo Pruebas Producción
Datos de Prueba
• Participación Equipo Análisis vs Pruebas
• Aquí es donde el entorno de prueba entra en juego:
• Proporciona una copia de los datos reales de producción con todas las
funcionalidades
• Se trata de una copia de toda la funcionalidad y los datos de producción tanto
como sea posible
• El ambiente de pruebas debería contener una copia completa de los datos que
están siendo usados actualmente por los usuarios de negocio
• No siempre es posible tener una copia completa de los datos en el ambiente de
pruebas debido a limitaciones de espacio
• Al menos el 50% de los datos productivos deben ser usados para pruebas
Capas
• Adquisición
• Extracción de información
• Capa cruda
• Contiene la información del sistema operacional, de acuerdo a las llaves
de negocio
• Capa Homologado
• Contiene la información de todos los sistemas centrales homologando los
conceptos de negocio y aplicando las reglas de negocio
¿Qué Probar?
FUENTES ADQUISICION CRUDO HOMOLOGADO
Ciclos de Pruebas
Se determina el periodo a cargar para los ciclos de pruebas, la recomendación es
trabajar en conjunto con el equipo de análisis:
• Ciclo de Pruebas 1
• Cargas Iniciales
• Deltas
• Ciclo de Pruebas 2
• Cargas Iniciales
• Deltas
Casos de Prueba Adquisición
Source vs Adquisición
• Query Pivote
• Se extrae en base a un query pivote, contra el cual se hará join el
resto de las tablas
• Cifras control (conteo registros)
• Pueden contener o no una llave de negocio y agruparse o no por la
misma
• Longitud de datos
Casos de Prueba Crudo
Adquisición vs Hub
• Hub
• Cifras control (agrupado por llaves de negocio)
• Llaves de negocio únicas
• Atributos
• Longitud de datos
• Campos control (Fecha_Carga, Source, etc.)
• Registros activos (Estatus)
Casos de Prueba Crudo…
Adquisición vs Satellite
• Satellite
• Cifras control (agrupado por llaves de negocio) (Acq vs Sat y Hub vs Sat)
• Llaves de negocio únicas
• Atributos
• Longitud
• Tipo dato
• Campos control (Fecha_Carga, Source, etc.)
• Registros activos / inactivos (Estatus)
Casos de Prueba Crudo…
Hub vs Link
• Link
• Cifras control (conformación hubs)
• Campos control (Fecha_Carga, Source, etc.)
• Registros activos (Estatus)
Referencias
• Super Charge your Data Warehouse. Dan Linstedt
• www.learndatavault.com
Tania Gómez
Jiménez
Tania Gómez Jiménez
Tania Gómez Jiménez
tgomezj@wssgroup.com
cctania_utm@yahoo.com.mx
taniagomezjimenez

More Related Content

Viewers also liked

Aseguramiento de calidad en aplicaciones móviles
Aseguramiento de calidad en aplicaciones móvilesAseguramiento de calidad en aplicaciones móviles
Aseguramiento de calidad en aplicaciones móvilesSoftware Guru
 
Introducción a las nubes privadas con OpenStack
Introducción a las nubes privadas con OpenStackIntroducción a las nubes privadas con OpenStack
Introducción a las nubes privadas con OpenStackSoftware Guru
 
DukeScript: HTML5 y JavaScript desde Java
DukeScript: HTML5 y JavaScript desde JavaDukeScript: HTML5 y JavaScript desde Java
DukeScript: HTML5 y JavaScript desde JavaSoftware Guru
 
Azure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo realAzure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo realSoftware Guru
 
Vuelvete un desarrollador de primer mundo
Vuelvete un desarrollador de primer mundoVuelvete un desarrollador de primer mundo
Vuelvete un desarrollador de primer mundoSoftware Guru
 
Data wrangling en R para programadores SQL
Data wrangling en R para programadores SQLData wrangling en R para programadores SQL
Data wrangling en R para programadores SQLSoftware Guru
 
Desarrollo y testing de apps móviles con Intel XDK y Testdroid
Desarrollo y testing de apps móviles con Intel XDK y TestdroidDesarrollo y testing de apps móviles con Intel XDK y Testdroid
Desarrollo y testing de apps móviles con Intel XDK y TestdroidSoftware Guru
 
Taller práctico de reportería con Eclipse BIRT
Taller práctico de reportería con Eclipse BIRTTaller práctico de reportería con Eclipse BIRT
Taller práctico de reportería con Eclipse BIRTSoftware Guru
 
¿Cómo convertirse en un Tester de verdad?
¿Cómo convertirse en un Tester de verdad?¿Cómo convertirse en un Tester de verdad?
¿Cómo convertirse en un Tester de verdad?Software Guru
 
Propuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoft
Propuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoftPropuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoft
Propuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoftSoftware Guru
 
Agile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data ModelingAgile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data ModelingKent Graziano
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)DANIEL VENTURA
 
DevOps con Seguridad - Administrando Riesgos
DevOps con Seguridad - Administrando RiesgosDevOps con Seguridad - Administrando Riesgos
DevOps con Seguridad - Administrando RiesgosSoftware Guru
 
Introduction to Data Vault Modeling
Introduction to Data Vault ModelingIntroduction to Data Vault Modeling
Introduction to Data Vault ModelingKent Graziano
 

Viewers also liked (17)

Aseguramiento de calidad en aplicaciones móviles
Aseguramiento de calidad en aplicaciones móvilesAseguramiento de calidad en aplicaciones móviles
Aseguramiento de calidad en aplicaciones móviles
 
Introducción a las nubes privadas con OpenStack
Introducción a las nubes privadas con OpenStackIntroducción a las nubes privadas con OpenStack
Introducción a las nubes privadas con OpenStack
 
DukeScript: HTML5 y JavaScript desde Java
DukeScript: HTML5 y JavaScript desde JavaDukeScript: HTML5 y JavaScript desde Java
DukeScript: HTML5 y JavaScript desde Java
 
Azure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo realAzure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo real
 
Vuelvete un desarrollador de primer mundo
Vuelvete un desarrollador de primer mundoVuelvete un desarrollador de primer mundo
Vuelvete un desarrollador de primer mundo
 
Data wrangling en R para programadores SQL
Data wrangling en R para programadores SQLData wrangling en R para programadores SQL
Data wrangling en R para programadores SQL
 
Desarrollo y testing de apps móviles con Intel XDK y Testdroid
Desarrollo y testing de apps móviles con Intel XDK y TestdroidDesarrollo y testing de apps móviles con Intel XDK y Testdroid
Desarrollo y testing de apps móviles con Intel XDK y Testdroid
 
Forget about Agile
Forget about AgileForget about Agile
Forget about Agile
 
Taller práctico de reportería con Eclipse BIRT
Taller práctico de reportería con Eclipse BIRTTaller práctico de reportería con Eclipse BIRT
Taller práctico de reportería con Eclipse BIRT
 
The Red Hat Way
The Red Hat WayThe Red Hat Way
The Red Hat Way
 
¿Cómo convertirse en un Tester de verdad?
¿Cómo convertirse en un Tester de verdad?¿Cómo convertirse en un Tester de verdad?
¿Cómo convertirse en un Tester de verdad?
 
Why Data Vault?
Why Data Vault? Why Data Vault?
Why Data Vault?
 
Propuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoft
Propuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoftPropuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoft
Propuestas de mejoras y actualizaciones al Modelo de Procesos MoProSoft
 
Agile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data ModelingAgile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
 
DevOps con Seguridad - Administrando Riesgos
DevOps con Seguridad - Administrando RiesgosDevOps con Seguridad - Administrando Riesgos
DevOps con Seguridad - Administrando Riesgos
 
Introduction to Data Vault Modeling
Introduction to Data Vault ModelingIntroduction to Data Vault Modeling
Introduction to Data Vault Modeling
 

Similar to Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault

SQL Server Fundamentals 3ra Sesion
SQL Server Fundamentals 3ra SesionSQL Server Fundamentals 3ra Sesion
SQL Server Fundamentals 3ra SesionJulián Castiblanco
 
Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)SolidQ
 
Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)Enrique Catala Bañuls
 
Arquitectura de datos empresariales ta. informe
Arquitectura de datos empresariales   ta. informeArquitectura de datos empresariales   ta. informe
Arquitectura de datos empresariales ta. informeCarlosTenelema1
 
Introduccion Data WareHouse
Introduccion Data WareHouseIntroduccion Data WareHouse
Introduccion Data WareHouseRicardo Mendoza
 
Data-Warehouse-I.pdf
Data-Warehouse-I.pdfData-Warehouse-I.pdf
Data-Warehouse-I.pdfYair Ambrocio
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Evaluación y prácticas para migrar a la nube
Evaluación y prácticas para migrar a la nubeEvaluación y prácticas para migrar a la nube
Evaluación y prácticas para migrar a la nubeAmazon Web Services LATAM
 
¿Cómo implementar la analítica empresarial en tiempo real?
¿Cómo implementar la analítica empresarial en tiempo real?¿Cómo implementar la analítica empresarial en tiempo real?
¿Cómo implementar la analítica empresarial en tiempo real?Denodo
 
Toolbox SQL Server para optimización
Toolbox SQL Server para optimizaciónToolbox SQL Server para optimización
Toolbox SQL Server para optimizaciónSolidQ
 
Dimensionado y gestión del entorno virtual
Dimensionado y gestión del entorno virtualDimensionado y gestión del entorno virtual
Dimensionado y gestión del entorno virtualOmega Peripherals
 
Novedades sql server 2008 para developers
Novedades sql server 2008 para developersNovedades sql server 2008 para developers
Novedades sql server 2008 para developersEnrique Catala Bañuls
 
BI real time analytics
BI real time analyticsBI real time analytics
BI real time analyticsSolidQ
 
Conociendo los cambios de SQL Server a partir de 2012 a 2016
Conociendo los cambios de SQL Server a partir de 2012 a 2016Conociendo los cambios de SQL Server a partir de 2012 a 2016
Conociendo los cambios de SQL Server a partir de 2012 a 2016Joseph Lopez
 
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...SpanishPASSVC
 

Similar to Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault (20)

Taller de Base de Datos - Unidad 6 SQL procedural
Taller de Base de Datos - Unidad 6 SQL proceduralTaller de Base de Datos - Unidad 6 SQL procedural
Taller de Base de Datos - Unidad 6 SQL procedural
 
SQL Server Fundamentals 3ra Sesion
SQL Server Fundamentals 3ra SesionSQL Server Fundamentals 3ra Sesion
SQL Server Fundamentals 3ra Sesion
 
Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)
 
Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)
 
Arquitectura de datos empresariales ta. informe
Arquitectura de datos empresariales   ta. informeArquitectura de datos empresariales   ta. informe
Arquitectura de datos empresariales ta. informe
 
Introduccion Data WareHouse
Introduccion Data WareHouseIntroduccion Data WareHouse
Introduccion Data WareHouse
 
Data-Warehouse-I.pdf
Data-Warehouse-I.pdfData-Warehouse-I.pdf
Data-Warehouse-I.pdf
 
Bi conceptos
Bi conceptosBi conceptos
Bi conceptos
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
sesion 01_sql basico.pdf
sesion 01_sql basico.pdfsesion 01_sql basico.pdf
sesion 01_sql basico.pdf
 
Evaluación y prácticas para migrar a la nube
Evaluación y prácticas para migrar a la nubeEvaluación y prácticas para migrar a la nube
Evaluación y prácticas para migrar a la nube
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
¿Cómo implementar la analítica empresarial en tiempo real?
¿Cómo implementar la analítica empresarial en tiempo real?¿Cómo implementar la analítica empresarial en tiempo real?
¿Cómo implementar la analítica empresarial en tiempo real?
 
Toolbox SQL Server para optimización
Toolbox SQL Server para optimizaciónToolbox SQL Server para optimización
Toolbox SQL Server para optimización
 
Dimensionado y gestión del entorno virtual
Dimensionado y gestión del entorno virtualDimensionado y gestión del entorno virtual
Dimensionado y gestión del entorno virtual
 
Novedades sql server 2008 para developers
Novedades sql server 2008 para developersNovedades sql server 2008 para developers
Novedades sql server 2008 para developers
 
BI real time analytics
BI real time analyticsBI real time analytics
BI real time analytics
 
Aena piloto golden_gate_v1.0
Aena piloto golden_gate_v1.0Aena piloto golden_gate_v1.0
Aena piloto golden_gate_v1.0
 
Conociendo los cambios de SQL Server a partir de 2012 a 2016
Conociendo los cambios de SQL Server a partir de 2012 a 2016Conociendo los cambios de SQL Server a partir de 2012 a 2016
Conociendo los cambios de SQL Server a partir de 2012 a 2016
 
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
 

More from Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

More from Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault

  • 1. Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault Presenta: Tania Gómez Jiménez
  • 2. INDICE 1. Conceptos Generales para Pruebas de Modelado Data Vault 2. Pruebas para un DWH usando un paradigma de modelado Data Vault
  • 3. ETL Extract, Transform and Load («extraer, transformar y cargar», frecuentemente abreviado ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, transformarlos y cargarlos en otra base de datos, data mart o data warehouse para analizar, o en otro sistema operacional para apoyar un Proceso de Negocio. Los procesos de extracción de información dependen de la base de datos en la que se creará el Data Warehouse Componentes de un proceso de ETL: o Extracción o Transformación o Carga
  • 4. Pruebas ETL’S • Cifras Control (Origen vs Destino) • Mapeo de datos • Estructura (tipo de dato, longitudes, campos obligatorios) • Consistencia de datos (Integridad) • Reglas de negocio Cifras Control Reglas de Negocio Detalle de la Información
  • 5. Modelo Data Vault • Es una técnica de modelado de datos que permite explotar la información para una toma de decisiones • El modelo es construido para una extrema flexibilidad y escalabilidad, ejemplo, desde cuando un cliente cambio de ciudad, domicilio, estado civil, etc. • Consiste de tres tipos de entidades: • Hub • Satellite • Links
  • 6. Hub • Se definen por una lista única de llaves de negocio (Business keys) • Una llave de negocio, es usado por negocio para localizar e identificar registros únicos en un compendio de información • Ejemplos: • Número de empleado • Número de licencia de manejo • Número de boleto SEQUENCE <BUSINESS KEY> <LOAD DATE> <RECORD SOURCE> Hub_EmpID_SQN: numeric (8) EmpleadoID: integer (25) Hub_EmpID_LDTS: datetime (8) Hub_EmpID_RSRC: varchar(12) Índice único Hub_Empleado SQN: Sequence number LDTS: Load Date Time Stamp RSRC: Record Source
  • 7. Satellite • Proporciona un contexto de las llaves de negocio (hubs) • Descriptores SEQUENCE <BUSINESS KEY> <LOAD DATE> <RECORD SOURCE>
  • 8. Links • Asociaciones • Es una intersección de llaves de negocio • Se utilizan para conectar múltiple conjuntos de información Link_Empleado_ Cuenta Hub Empleado Hub Cuenta SEQUENCE <HUB KEY SQN 1> <HUB KEY SQN 2> <HUB KEY SQN N> <LOAD DATE> <RECORD SOURCE>
  • 9. Pruebas para un DWH usando un paradigma de modelado Data Vault
  • 10. Ambientes • Ambientes separados: • Desarrollo • Pruebas • Producción • Un proceso estandarizado de despliegue, es requerido Desarrollo Pruebas Producción
  • 11. Datos de Prueba • Participación Equipo Análisis vs Pruebas • Aquí es donde el entorno de prueba entra en juego: • Proporciona una copia de los datos reales de producción con todas las funcionalidades • Se trata de una copia de toda la funcionalidad y los datos de producción tanto como sea posible • El ambiente de pruebas debería contener una copia completa de los datos que están siendo usados actualmente por los usuarios de negocio • No siempre es posible tener una copia completa de los datos en el ambiente de pruebas debido a limitaciones de espacio • Al menos el 50% de los datos productivos deben ser usados para pruebas
  • 12. Capas • Adquisición • Extracción de información • Capa cruda • Contiene la información del sistema operacional, de acuerdo a las llaves de negocio • Capa Homologado • Contiene la información de todos los sistemas centrales homologando los conceptos de negocio y aplicando las reglas de negocio
  • 14. Ciclos de Pruebas Se determina el periodo a cargar para los ciclos de pruebas, la recomendación es trabajar en conjunto con el equipo de análisis: • Ciclo de Pruebas 1 • Cargas Iniciales • Deltas • Ciclo de Pruebas 2 • Cargas Iniciales • Deltas
  • 15. Casos de Prueba Adquisición Source vs Adquisición • Query Pivote • Se extrae en base a un query pivote, contra el cual se hará join el resto de las tablas • Cifras control (conteo registros) • Pueden contener o no una llave de negocio y agruparse o no por la misma • Longitud de datos
  • 16. Casos de Prueba Crudo Adquisición vs Hub • Hub • Cifras control (agrupado por llaves de negocio) • Llaves de negocio únicas • Atributos • Longitud de datos • Campos control (Fecha_Carga, Source, etc.) • Registros activos (Estatus)
  • 17. Casos de Prueba Crudo… Adquisición vs Satellite • Satellite • Cifras control (agrupado por llaves de negocio) (Acq vs Sat y Hub vs Sat) • Llaves de negocio únicas • Atributos • Longitud • Tipo dato • Campos control (Fecha_Carga, Source, etc.) • Registros activos / inactivos (Estatus)
  • 18. Casos de Prueba Crudo… Hub vs Link • Link • Cifras control (conformación hubs) • Campos control (Fecha_Carga, Source, etc.) • Registros activos (Estatus)
  • 19. Referencias • Super Charge your Data Warehouse. Dan Linstedt • www.learndatavault.com
  • 20. Tania Gómez Jiménez Tania Gómez Jiménez Tania Gómez Jiménez tgomezj@wssgroup.com cctania_utm@yahoo.com.mx taniagomezjimenez