De lo operativo a lo estratégico: un modelo de management de diseño
Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault
1. Construyendo pruebas para un
DWH usando un paradigma de
modelado Data Vault
Presenta:
Tania Gómez Jiménez
2. INDICE
1. Conceptos Generales para Pruebas de Modelado Data Vault
2. Pruebas para un DWH usando un paradigma de modelado Data Vault
3. ETL
Extract, Transform and Load («extraer, transformar y cargar», frecuentemente
abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, transformarlos y cargarlos en otra base de datos, data mart o
data warehouse para analizar, o en otro sistema operacional para apoyar un
Proceso de Negocio.
Los procesos de extracción de información dependen de la base de datos en la que
se creará el Data Warehouse
Componentes de un proceso de ETL:
o Extracción
o Transformación
o Carga
4. Pruebas ETL’S
• Cifras Control (Origen vs Destino)
• Mapeo de datos
• Estructura (tipo de dato, longitudes, campos obligatorios)
• Consistencia de datos (Integridad)
• Reglas de negocio
Cifras
Control
Reglas de
Negocio
Detalle de la
Información
5. Modelo Data Vault
• Es una técnica de modelado de datos que permite explotar la información para
una toma de decisiones
• El modelo es construido para una extrema flexibilidad y escalabilidad, ejemplo,
desde cuando un cliente cambio de ciudad, domicilio, estado civil, etc.
• Consiste de tres tipos de entidades:
• Hub
• Satellite
• Links
6. Hub
• Se definen por una lista única de llaves de negocio (Business keys)
• Una llave de negocio, es usado por negocio para localizar e identificar
registros únicos en un compendio de información
• Ejemplos:
• Número de empleado
• Número de licencia de manejo
• Número de boleto
SEQUENCE
<BUSINESS KEY>
<LOAD DATE>
<RECORD SOURCE>
Hub_EmpID_SQN: numeric
(8)
EmpleadoID: integer (25)
Hub_EmpID_LDTS:
datetime (8)
Hub_EmpID_RSRC:
varchar(12)
Índice único
Hub_Empleado
SQN: Sequence number
LDTS: Load Date Time Stamp
RSRC: Record Source
7. Satellite
• Proporciona un contexto de las llaves de negocio (hubs)
• Descriptores
SEQUENCE
<BUSINESS KEY>
<LOAD DATE>
<RECORD SOURCE>
8. Links
• Asociaciones
• Es una intersección de llaves de negocio
• Se utilizan para conectar múltiple conjuntos de información
Link_Empleado_
Cuenta
Hub Empleado Hub Cuenta
SEQUENCE
<HUB KEY SQN 1>
<HUB KEY SQN 2>
<HUB KEY SQN N>
<LOAD DATE>
<RECORD SOURCE>
9. Pruebas para un DWH usando un
paradigma de modelado Data Vault
10. Ambientes
• Ambientes separados:
• Desarrollo
• Pruebas
• Producción
• Un proceso estandarizado de despliegue, es requerido
Desarrollo Pruebas Producción
11. Datos de Prueba
• Participación Equipo Análisis vs Pruebas
• Aquí es donde el entorno de prueba entra en juego:
• Proporciona una copia de los datos reales de producción con todas las
funcionalidades
• Se trata de una copia de toda la funcionalidad y los datos de producción tanto
como sea posible
• El ambiente de pruebas debería contener una copia completa de los datos que
están siendo usados actualmente por los usuarios de negocio
• No siempre es posible tener una copia completa de los datos en el ambiente de
pruebas debido a limitaciones de espacio
• Al menos el 50% de los datos productivos deben ser usados para pruebas
12. Capas
• Adquisición
• Extracción de información
• Capa cruda
• Contiene la información del sistema operacional, de acuerdo a las llaves
de negocio
• Capa Homologado
• Contiene la información de todos los sistemas centrales homologando los
conceptos de negocio y aplicando las reglas de negocio
14. Ciclos de Pruebas
Se determina el periodo a cargar para los ciclos de pruebas, la recomendación es
trabajar en conjunto con el equipo de análisis:
• Ciclo de Pruebas 1
• Cargas Iniciales
• Deltas
• Ciclo de Pruebas 2
• Cargas Iniciales
• Deltas
15. Casos de Prueba Adquisición
Source vs Adquisición
• Query Pivote
• Se extrae en base a un query pivote, contra el cual se hará join el
resto de las tablas
• Cifras control (conteo registros)
• Pueden contener o no una llave de negocio y agruparse o no por la
misma
• Longitud de datos
16. Casos de Prueba Crudo
Adquisición vs Hub
• Hub
• Cifras control (agrupado por llaves de negocio)
• Llaves de negocio únicas
• Atributos
• Longitud de datos
• Campos control (Fecha_Carga, Source, etc.)
• Registros activos (Estatus)
17. Casos de Prueba Crudo…
Adquisición vs Satellite
• Satellite
• Cifras control (agrupado por llaves de negocio) (Acq vs Sat y Hub vs Sat)
• Llaves de negocio únicas
• Atributos
• Longitud
• Tipo dato
• Campos control (Fecha_Carga, Source, etc.)
• Registros activos / inactivos (Estatus)
18. Casos de Prueba Crudo…
Hub vs Link
• Link
• Cifras control (conformación hubs)
• Campos control (Fecha_Carga, Source, etc.)
• Registros activos (Estatus)