Objetivo: Crear almacenes de datos mediante herramientas tecnológicas sobre arquitecturas de Inteligencia de Negocios para recopilar datos de varios orígenes a través del proceso ETL (Extracción, Transformación y Carga) para mantener información consolidada e integrada
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
1. Ph.D. Franklin Parrales 1
08/02/2022
Inteligencia de Negocios Carrera de Software
Infraestructuras y
arquitecturas de
inteligencia de negocios
Unidad 2
Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo
para uso de los cursos de Inteligencia de Negocios
2. Ph.D. Franklin Parrales 2
08/02/2022
Inteligencia de Negocios Carrera de Software
Objetivo general de la Unidad 2
Crear almacenes de datos mediante herramientas
tecnológicas sobre arquitecturas de Inteligencia de
Negocios para recopilar datos de varios orígenes a través
del proceso ETL (Extracción, Transformación y Carga) para
mantener información consolidada e integrada
3. Ph.D. Franklin Parrales 3
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
4. Ph.D. Franklin Parrales 4
08/02/2022
Inteligencia de Negocios Carrera de Software
Sistema Operacional
(OLTP)
Sistema de Almacén
de Datos
(DW)
BD orientada al
proceso
BD orientada al
análisis
Almacén de datos
Base de Datos diseñada con un objetivo de explotación
distinto que el de las bases de datos de los sistemas
operacionales.
5. Ph.D. Franklin Parrales 5
08/02/2022
Inteligencia de Negocios Carrera de Software
Data Warehouse
El objetivo último de un almacén de datos es
integrar datos corporativos, residentes en bases
de datos operacionales de la organización, en
un único repositorio sobre el cual los usuarios
puedan realizar consultas o informes y hacer
análisis de datos.
La tecnología de almacenes de datos
integra las técnicas de bases de datos y las
técnicas de análisis de datos.
6. Ph.D. Franklin Parrales 6
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué es Data Warehouse?
Colección de datos diseñada
para dar apoyo a los procesos
de toma de decisiones
orientada hacia
la información*
relevante de la
organización
integrada
variable en el
tiempo
no volátil
características
Bill Inmon 1992
7. Ph.D. Franklin Parrales 7
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
Según Oracle:
• Un data warehouse es un tipo de sistema de
gestión de datos diseñado para habilitar y dar
soporte a las tareas de inteligencia empresarial
(BI), especialmente las analíticas.
• Los data warehouses solo se han diseñado para
realizar consultas y tareas de análisis, y suelen
contener grandes cantidades de datos históricos.
• A menudo, la información dentro de un data
warehouse proviene de una amplia gama de
fuentes, como los archivos de registro de
aplicaciones o las aplicaciones de transacción.
8. Ph.D. Franklin Parrales 8
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
• Un almacén de datos (DWH) se define como un
repositorio central de datos almacenados a partir de
una amplia gama de fuentes dentro y fuera de la
empresa.
• Es una tecnología que combina datos estructurados,
no estructurados y semiestructurados de una o varias
fuentes con el fin de ofrecer una vista unificada de los
datos a los analistas y usuarios comerciales para
mejorar la BI.
• Por lo tanto, se utiliza con fines analíticos y de
informes comerciales, lo que ayuda a mantener
registros pasados y analizar datos para optimizar las
operaciones comerciales.
9. Ph.D. Franklin Parrales 9
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
Importante
• También es importante diferenciar entre una
base de datos y un almacén de datos, ya que
a menudo la gente confunde los dos.
• Si bien una base de datos es simplemente
una técnica convencional para almacenar
datos, el almacen de datos o data warehouse
es un tipo de base de datos especialmente
diseñada para el análisis de datos.
• Almacena todo en una sola ubicación de
numerosos bancos de datos externos.
10. Ph.D. Franklin Parrales 10
08/02/2022
Inteligencia de Negocios Carrera de Software
Orientada hacia la información relevante de
la organización
Se diseña para consultar eficientemente información relativa a
las actividades (ventas, compras, producción, ...) básicas de la
organización, no para soportar los procesos que se realizan en
ella (gestión de pedidos, facturación, etc).
Sistemas Operacionales
Acciones
Préstamos
Seguros
Planes de
Inversión
Información
financiera
de clientes
Data Warehouse
11. Ph.D. Franklin Parrales 11
08/02/2022
Inteligencia de Negocios Carrera de Software
Propiedades de DWH:
Orientada a
un tema
Integrada
Variante en
el tiempo
No Volátil
Data
Warehouse
12. Ph.D. Franklin Parrales 12
08/02/2022
Inteligencia de Negocios Carrera de Software
Integrada
• Integra datos recogidos de diferentes sistemas
operacionales de la organización (y/o fuentes
externas).
Entorno Operacional
Aplicación
Cuentas de
Ahorro
Aplicación
Cuentas
Corrientes
Aplicación
Préstamos
Data Warehouse
Objeto de interés
=
Cliente
13. Ph.D. Franklin Parrales 13
08/02/2022
Inteligencia de Negocios Carrera de Software
Variable en el tiempo
• Los datos son relativos a un periodo de tiempo y
deben ser incrementados periódicamente.
Los datos son almacenados como fotos (snapshots)
correspondientes a periodos de tiempo.
Datos
Tiempo
01/97
02/97
03/97
Datos de Enero
Datos de Febrero
Datos de Marzo
Data
Warehouse Nota: El periodo de tiempo cubierto por un
DW varia entre 2 y 10 años.
14. Ph.D. Franklin Parrales 14
08/02/2022
Inteligencia de Negocios Carrera de Software
No volátil
• Los datos almacenados no son actualizados, sólo son
incrementados.
SELECT
Carga
INSERT SELECT
UPDATE
DELETE
Bases de datos operacionales Warehouse
15. Ph.D. Franklin Parrales 15
08/02/2022
Inteligencia de Negocios Carrera de Software
Orientado a un Tema
La data es categorizada y almacenada por áreas
de negocio en lugar de aplicaciones.
Aplicaciones OLTP
Información
Financiera
del Cliente
Tema del Data
Warehouse
Planes de
equidad Acciones
Seguros
Prestamos Ahorros
16. Ph.D. Franklin Parrales 16
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos
rentabilidad de
las inversiones
realizadas para
su creación
aumento de la
competitividad
en el mercado
aumento de la
productividad de
los técnicos de
dirección
Ventajas
17. Ph.D. Franklin Parrales 17
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos
infravaloración de los
recursos necesarios
para la captura, carga
y almacenamiento de
los datos
incremento
continuo de los
requisitos de los
usuarios
privacidad de
los datos
infravaloración del
esfuerzo necesario
para su diseño y
creación
Problemas
18. Ph.D. Franklin Parrales 18
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
19. Ph.D. Franklin Parrales 19
08/02/2022
Inteligencia de Negocios Carrera de Software
Arquitectura de un sistema de almacén de
datos
Datos Op. 1
Datos Op. 2
Datos Op. 3
metadatos
datos de
detalle
datos
agregados
datos
agregados
AD
gestor de
carga
gestor
del AD
gestor
del AD
gestor de
consultas
copias
herramientas
de consultas
e informes
herramientas
de OLAP
herramientas
de Data Mining
SAD
área de
almacenamiento
intermedio
herramientas
de EIS
20. Ph.D. Franklin Parrales 20
08/02/2022
Inteligencia de Negocios Carrera de Software
• datos operacionales: el origen de los datos puede ser: bases de datos
operacionales de la organización, bases de datos privadas, bases de datos
públicas, etc.
• gestor de carga: permite realizar las funciones de extracción de datos de
las fuentes externas, transformación (limpieza, consolidación, ...) y la carga del
AD, utiliza un almacenamiento intermedio y realiza las siguientes operaciones:
✓ extracción de los datos.
✓ transformación de los datos: limpieza, estandarización, etc.
✓ carga inicial del almacén: ordenación, agregaciones, etc.
✓ refresco del almacén: operación periódica que propaga los cambios de
las fuentes operacionales al almacén de datos
(herramientas* del fabricante o programas de la organización).
• ETT (extracción, transformación y transporte)
• ETL (extracción, transformación y carga (load))
Componentes
21. Ph.D. Franklin Parrales 21
08/02/2022
Inteligencia de Negocios Carrera de Software
• metadatos: documentación sobre los datos (origen, descripción, nivel de
agregación, almacenamiento, etc).
• herramientas de consulta: herramientas para diseñar consultas e
informes, herramientas de desarrollo de aplicaciones de usuario final,
herramientas de análisis de datos (OLAP), herramientas de minería de datos
(DATA MINING), herramientas dirigidas a ejecutivos (EIS). (herramientas de
diferentes fabricantes).
• gestor (servidor) del AD: permite realizar todas las funciones de definición y
mantenimiento del almacén de datos: definición, agregación de datos, vistas,
creación de índices, copias, etc. (herramienta del fabricante).
• gestor de consultas: ejecución de consultas. (herramienta del
fabricante).
Componentes
22. Ph.D. Franklin Parrales 22
08/02/2022
Inteligencia de Negocios Carrera de Software
Creación de DWH
• La creación de un Datawarehouse
representa en la mayoría de las ocasiones
el primer paso, desde el punto de vista
técnico, para implantar una solución
completa y fiable de Business Intelligence.
•
23. Ph.D. Franklin Parrales 23
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
24. Ph.D. Franklin Parrales 24
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué es un esquema de base de
datos?
• Un esquema de base de datos representa la
configuración lógica de todo o parte de una base
de datos
• Hay dos tipos principales de esquemas de bases
de datos:
– Un esquema lógico de base de datos expresa las
restricciones lógicas que se aplican a los datos
almacenados. Puede definir las restricciones de
integridad, las vistas y las tablas.
– Un esquema físico de base de datos dispone cómo
se almacenan los datos físicamente en un sistema de
almacenamiento en términos de archivos e índices.
25. Ph.D. Franklin Parrales 25
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo dimensional: Introducción
• Es un modelo diferente al modelo Entidad
Relación
• Se basa en una súper consulta a la base de
la cual se sirve para toma de decisiones
• El problema esta en quien usa el cubo
Datos Cubo
ETL
26. Ph.D. Franklin Parrales 26
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso de modelado dimensional
• Centrado en identificar el modelo de negocio
– Identificar las posibles consultas
– Identificación de los hechos: los datos utilizados en dichas
consultas.
– Cada consulta debe usar solo una tabla de hechos y sus
tablas de dimensión.
• Posiblemente sea bueno comenzar con un modelo ER
– Identificar qué unión de tablas sirven como tablas de
hechos.
– Usar solo claves sustitutas (surrogate keys)
– A menudo debe considerarse una dimensión de tiempo
– Desnormalizar en copo de nieve o esquema de estrella
Una clave sustituta o clave artificial en una base de datos es un identificador
único para una entidad en el mundo real o modelado o para un objeto en la base
de datos. Al contrario que la clave natural, la clave sustituta no deriva de los datos
de una aplicación.
27. Ph.D. Franklin Parrales 27
08/02/2022
Inteligencia de Negocios Carrera de Software
Order
order_id
customer_id
store_id
clerk_id
date
Store
store_id
store_name
address
district
floor_type
Clerk
clerk_id
clerk_name
clerk_grade
Product
sku
description
brand
category
Customer
customer_ID
customer_name
purchase_profile
credit_profile
address
Promotion
promotion_id
promotion_name
price_type
ad_type
OrderLine
order_id
sku
promotion_id
dollars_sold
units_sold
dollars_cost
Modelo
Relacional
28. Ph.D. Franklin Parrales 28
08/02/2022
Inteligencia de Negocios Carrera de Software
Time
time_key
SQL_date
day_of_week
month
Store
store_key
store_id
store_name
address
district
floor_type
Clerk
clerk_key
clerk_id
clerk_name
clerk_grade
Product
product_key
sku
description
brand
category
Customer
customer_key
customer_name
purchase_profile
credit_profile
address
Promotion
promotion_key
promotion_name
price_type
ad_type
Order
time_key
store_key
clerk_key
product_key
customer_key
promotion_key
dollars_sold
units_sold
dollars_cost
Modelo
dimensional
Esquema de estrella
29. Ph.D. Franklin Parrales 29
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos (data
warehousing)
• La topología
típica usada
para
construir un
almacén de
datos se
denomina
"modelo en
forma de
estrella":
30. Ph.D. Franklin Parrales 30
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de esquemas de bases de datos
• Se han desarrollado ciertos patrones en el
diseño de esquemas de bases de datos.
– El esquema de estrella ampliamente utilizado es
también el más simple. En este, una o más tablas
de datos están vinculadas a un número indefinido
de tablas dimensionales. Es mejor para gestionar
consultas simples.
– El esquema de copo de nieve relacionado
también se usa para representar una base de
datos multidimensional. No obstante, en este
patrón, las dimensiones se normalizan en lotes
de tablas separadas, creando el efecto expansivo
de una estructura similar a un copo de nieve.
31. Ph.D. Franklin Parrales 31
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
32. Ph.D. Franklin Parrales 32
08/02/2022
Inteligencia de Negocios Carrera de Software
Data Mart
Subconjunto de un almacén de datos.
✓ Se definen para satisfacer las necesidades de un
departamento o sección de la organización.
✓ Contiene menos información de detalle y mas
información agregada.
33. Ph.D. Franklin Parrales 33
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Datamart es una base de datos departamental,
especializada en el almacenamiento de los datos de
un área de negocio específica. Se caracteriza por
disponer la estructura óptima de datos para
analizar la información al detalle desde todas las
perspectivas que afecten a los procesos de dicho
departamento.
34. Ph.D. Franklin Parrales 34
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Es consultado mediante herramientas OLAP
(Procesamiento Analítico en Línea) que ofrecen una
visión multidimensional de la información. Sobre
estas bases de datos se pueden
construir EIS (Sistemas de Información para
Directivos) y DSS (Sistemas de Ayuda a la toma de
Decisiones).
35. Ph.D. Franklin Parrales 35
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Data mart: es una versión especial de almacén
de datos (data warehouse). Son subconjuntos de
datos con el propósito de ayudar a que un área
específica dentro del negocio pueda tomar mejores
decisiones.
36. Ph.D. Franklin Parrales 36
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
En síntesis, se puede decir que los data marts son
pequeños data warehouse centrados en un tema o
un área de negocio específico dentro de una
organización.
Representan una estrategia de "divide y vencerás"
para ámbitos muy genéricos de un Data
Warehouse.
Aunque un datamart puede ser alimentado desde
los datos de un datawarehouse, o integrar por si
mismo un compendio de distintas fuentes de
información.
37. Ph.D. Franklin Parrales 37
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Data mart: se crea por las siguientes razones:
➢ Prestaciones: Para descargar el data mart a un
ordenador independiente para mejorar la
eficiencia o para obviar las necesidades de
gestionar todo el volumen del data warehouse
centralizado.
➢ Seguridad: Para separar un subconjunto de
datos de forma selectiva a los que queremos
permitir o restringir el acceso.
38. Ph.D. Franklin Parrales 38
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Data mart: se crea por las siguientes razones:
➢ Conveniencia: De poder pasar por alto las
autorizaciones y requerimientos necesarios para
poder incorporar una nueva aplicación en el Data
Warehouse principal de la Empresa.
➢ Demostración sobre el terreno: Para demostrar
la viabilidad y el potencial de una aplicación
antes de migrarla al Data Warehouse de la
Empresa.
➢ Política: Razones internas de la organización
para hacer esta división o separación de los
datos del almacén de datos.
39. Ph.D. Franklin Parrales 39
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
40. Ph.D. Franklin Parrales 40
08/02/2022
Inteligencia de Negocios Carrera de Software
ETL
• ETL son las siglas en inglés de Extraer,
Transformar y Cargar (Extract, Transform
and Load).
• Es el proceso que permite a las
organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y
cargarlos en otra base de datos, data mart, o
data warehouse para analizar, o en otro
sistema operacional para apoyar un proceso
de negocio.
41. Ph.D. Franklin Parrales 41
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso de construcción del
Datawarehousing
Denominado ETL (Extracción, Transformación y
Carga), a partir de los sistemas operaciones de una
compañía:
▪ Extracción: obtención de información de las
distintas fuentes tanto internas como externas.
▪ Transformación: filtrado, limpieza, depuración,
homogeneización y agrupación de la información.
▪ Carga: organización y actualización de los datos
y los metadatos en la base de datos.
42. Ph.D. Franklin Parrales 42
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
43. Ph.D. Franklin Parrales 43
08/02/2022
Inteligencia de Negocios Carrera de Software
Extraer
• Consiste en extraer los datos desde los
sistemas de origen.
• La mayoría de los proyectos de
almacenamiento de datos fusionan datos
provenientes de diferentes sistemas de
origen.
• Cada sistema separado puede usar una
organización diferente de los datos o
formatos distintos.
44. Ph.D. Franklin Parrales 44
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
45. Ph.D. Franklin Parrales 45
08/02/2022
Inteligencia de Negocios Carrera de Software
Transformar(1/3)
• La fase de transformación aplica una serie de
reglas de negocio o funciones sobre los
datos extraídos para convertirlos en datos
que serán cargados.
• Algunas fuentes de datos requerirán alguna
pequeña manipulación de los datos.
• No obstante en otros casos pueden ser
necesarias aplicar algunas de las siguientes
transformaciones:
46. Ph.D. Franklin Parrales 46
08/02/2022
Inteligencia de Negocios Carrera de Software
Transformar(2/3)
• Seleccionar sólo ciertas columnas para su carga (Ej. que las
columnas con valores nulos no se carguen).
• Traducir códigos (Ej. Si la fuente almacena una "H" para
Hombre y "M" para Mujer pero el destino tiene que guardar
"1" para Hombre y "2" para Mujer).
• Codificar valores libres (Ej. convertir "Hombre" en "H" o "Sr"
en "1").
• Obtener nuevos valores calculados (Ej. total_venta = cantidad
* precio).
• Unir datos de múltiples fuentes (Ej. búsquedas,
combinaciones, etc).
• Calcular totales de múltiples filas de datos (Ej. ventas totales
de cada región).
47. Ph.D. Franklin Parrales 47
08/02/2022
Inteligencia de Negocios Carrera de Software
Transformar(3/3)
• Generación de campos clave en el destino.
• Transponer o pivotar (girando múltiples columnas en
filas o viceversa).
• Dividir una columna en varias (Ej. columna "Nombre:
García, Miguel"; pasar a dos columnas "Nombre: Miguel"
y "Apellido: García").
• La aplicación de cualquier forma, simple o compleja, de
validación de datos, y la consiguiente aplicación de la
acción que en cada caso se requiera:
– Datos OK: Entregar datos a la siguiente etapa (Carga).
– Datos erróneos: Ejecutar políticas de tratamiento de
excepciones (Ej. Rechazar el registro completo, dar al campo
erróneo un valor nulo o un valor centinela).
48. Ph.D. Franklin Parrales 48
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
49. Ph.D. Franklin Parrales 49
08/02/2022
Inteligencia de Negocios Carrera de Software
Carga(1/3)
• La fase de carga es el momento en el cual
los datos de la fase anterior (transformación)
son cargados en el sistema de destino.
• Dependiendo de los requerimientos de la
organización, este proceso puede abarcar
una amplia variedad de acciones diferentes.
– En algunas bases de datos se sobrescribe la
información antigua con nuevos datos.
50. Ph.D. Franklin Parrales 50
08/02/2022
Inteligencia de Negocios Carrera de Software
Carga(2/3)
• Existen dos formas básicas de desarrollar
el proceso de carga:
– Acumulación simple
– Rolling
51. Ph.D. Franklin Parrales 51
08/02/2022
Inteligencia de Negocios Carrera de Software
Carga(3/3)
• La fase de carga interactúa directamente con
la base de datos de destino.
• Al realizar esta operación se aplicarán todas
las restricciones y triggers (disparadores) que
se hayan definido en ésta
– Ej. valores únicos, integridad referencial, campos
obligatorios, rangos de valores.
• Estas restricciones y triggers (si están bien
definidos) contribuyen a que se garantice la
calidad de los datos en el proceso ETL, y
deben ser tenidos en cuenta
52. Ph.D. Franklin Parrales 52
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
53. Ph.D. Franklin Parrales 53
08/02/2022
Inteligencia de Negocios Carrera de Software
Tablas de hechos y de dimensión
Hechos: Las tablas de unión son los datos más
importantes: los hechos
– Por ejemplo: compras en la tienda, inscripciones a
clases, datos de clics
– Generalmente las tablas más grandes
– Los datos clave a menudo son numéricos y aditivos –
por ejemplo: cantidad comprada, costo por unidad,
visualizaciones de anuncios
Dimensiones: Las tablas secundarias en relación
de 1 a muchos con hechos
– Por ejemplo: tiendas, clientes, personal de ventas,
período de ventas
54. Ph.D. Franklin Parrales 54
08/02/2022
Inteligencia de Negocios Carrera de Software
Ver tabla de hechos como un cubo de
datos n-dimensional
Cada tabla de dimensión
representa una
dimensión del cubo.
Los hechos son los
datos del cubo
Los hechos pueden
agregarse previamente a lo
largo de cada dimensión o
combinación de
dimensiones.
55. Ph.D. Franklin Parrales 55
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
56. Ph.D. Franklin Parrales 56
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelos de Cubos
• Cuando las dimensiones no tienen orden expansivo se
llama modelo Estrella
• Supongamos que entre las tablas Persona y Ciudad
existe una conexión en el modelo, en este caso el
esquema es un Copo de Nieve
Tabla de Hecho(Fact Table)
Tabla de Hecho(Fact Table)
Persona
Ciudad
57. Ph.D. Franklin Parrales 57
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
58. Ph.D. Franklin Parrales 58
08/02/2022
Inteligencia de Negocios Carrera de Software
Esquema estrella
En el esquema de estrella,
el centro de la estrella
puede tener una tabla de
hechos y varias tablas de
dimensiones asociadas.
Se conoce como esquema
estelar ya que su
estructura se asemeja a
una estrella.
El esquema en estrella es
el tipo más simple de
esquema de Data
Warehouse.
Está optimizado para
consultar grandes
conjuntos de datos.
59. Ph.D. Franklin Parrales 59
08/02/2022
Inteligencia de Negocios Carrera de Software
Extra: esquema Galaxy
• Un esquema Galaxy contiene dos tablas de hechos que
comparten tablas de dimensiones. También se llama
Fact Constellation Schema.
• El esquema se ve como una colección de estrellas, de
ahí el nombre Galaxy Schema.
60. Ph.D. Franklin Parrales 60
08/02/2022
Inteligencia de Negocios Carrera de Software
Id_Ciudad(pk)
Nombre
Ciudad
Id_Producto (fk)
Id_Proveedor (fk)
Id_Bodega (fk)
Id_Dia
diaProm
Valor
Cantidad
Compra
Id_Productos (pk)
Id_Ciudad(fk)
nombre
Bodega
Id_Dia (pk)
Dia
Id_Mes(fk)
Dia
Id_Proveedor (Pk)
Nombre
Apellido
Id_Ciudad(fk)
Proveedor
Id_Producto (pk)
Nombre
PrecioUnitario
Id_Categoria(fk)
Producto
Id_Categoria(pk)
Nombre
Categoria
Id_mes (pk)
Dia
Id_año(fk)
Mes
Id_año (pk)
Año
Año
Tabla de
Hecho
La tabla de hecho NO
tiene clave primaria
61. Ph.D. Franklin Parrales 61
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejercicio de Constelación
Ciudad
Jefe de Planta
Ciudad
Clientes
Cantidad
Valor Total
Porcentaje
Ciudad
Tienda
Mes
dia
Año
Producto
Categoria
CantProducidas
Eficacia
Turno
62. Ph.D. Franklin Parrales 62
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
63. Ph.D. Franklin Parrales 63
08/02/2022
Inteligencia de Negocios Carrera de Software
Esquema copo de nieve
Un esquema de copo
de nieve es una
extensión de un
esquema de estrella y
agrega dimensiones
adicionales. Se llama
snowflake porque su
diagrama se asemeja a
un copo de nieve.
Las tablas de
dimensiones
están normalizadas,
lo que divide los datos
en tablas
adicionales. En el
siguiente ejemplo, País
se normaliza aún más
en una tabla individual.
64. Ph.D. Franklin Parrales 64
08/02/2022
Inteligencia de Negocios Carrera de Software
Copo de nieve:
Id_Persona (Pk)
Nombre
Edad
Id_Ciudad(fk)
Persona
Id_Ciudad(Pk)
Nombre
Ciudad
Id_Producto (fk)
Id_Persona (fk)
Id_Dia (fk)
VentaTotal
MaxVenta
Ventas
Id_Productos (Pk)
NombreXproducto
Categoria
Productos
Id_Tiempo (pk)
Dia (fk)
DiaSemana
Tiempo
Dimensión: Producto
Dimensión: Personas
Dimensión: Ciudad
Dimensión: Tiempo
Tabla de Hecho
(Fact Table)
Esquema de copo de nieve
65. Ph.D. Franklin Parrales 65
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Compras
Dias_promEntrega
Valor
Cantidad
Bodega
Ciudad
Producto
Categoría
día
mes
año
proveedor
Ciudad
Tiempo
Dimensiones
66. Ph.D. Franklin Parrales 66
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
67. Ph.D. Franklin Parrales 67
08/02/2022
Inteligencia de Negocios Carrera de Software
OLTP
• OLTP es la sigla en inglés de Procesamiento de
Transacciones En Línea: es un tipo de procesamiento que
facilita y administra aplicaciones transaccionales, usualmente
para entrada de datos y recuperación y procesamiento de
transacciones (gestor transaccional).
El Procesamiento de Transacciones Online (OLTP), usado
normalmente por aplicaciones orientadas a la transacción:
• No ha sido construido teniendo en cuenta la creación de
bases de datos segregada.
• Los potenciales análisis que puedan realizarse se hacen
sobre los mismos datos usados por la aplicación.
• Tampoco han sido diseñadas para situaciones donde la
cantidad de datos a ser analizados es exponencialmente
grande.
68. Ph.D. Franklin Parrales 68
08/02/2022
Inteligencia de Negocios Carrera de Software
OLAP
• Los sistemas OLAP permiten el acceso a grandes cantidades
de datos a través de procesos de consulta, sobre bases de
datos multidimensionales con el propósito de servir a
sistemas de apoyo a las decisiones.
• Tiene la función de ayudar a interpretar y integrar el
significado de los datos operativos, suministrando
herramientas de muy alto nivel que pueden categorizarse en
tres niveles:
▪ Consulta y reporte de la información. Generan reportes y gráficos,
mientras mantienen un control estricto sobre el acceso a la información.
▪ Análisis multidimensional. Recorren la información por niveles, del
resumen al detalle y de éste a la consolidación, para identificar tendencias
desde diferentes perspectivas.
▪ Exploración de datos. Ejecutan procesos automatizados que descubren
patrones ocultos en los datos.
69. Ph.D. Franklin Parrales 69
08/02/2022
Inteligencia de Negocios Carrera de Software
OLTP y OLAP
70. Ph.D. Franklin Parrales 70
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Cuándo es necesario OLAP?
71. Ph.D. Franklin Parrales 71
08/02/2022
Inteligencia de Negocios Carrera de Software
Principales Beneficios de OLAP
72. Ph.D. Franklin Parrales 72
08/02/2022
Inteligencia de Negocios Carrera de Software
Las herramientas de OLAP se caracterizan* por:
✓ofrecer una visión multidimensional de los datos.
✓no imponer restricciones sobre el número de dimensiones.
✓ofrecer simetría para las dimensiones.
✓permitir definir jerarquías sobre las dimensiones
✓ofrecer operadores de manipulación: drill-down, roll-up.
✓permitir expresar condiciones sobre las dimensiones y criterios de
agrupación de los datos.
✓ser transparentes al tipo de tecnología que soporta el almacén de datos
(ROLAP o MOLAP).
*Subconjunto de las 12 reglas propuestas por E.F. Codd.
Las doce reglas propuestas por E.F. Codd
73. Ph.D. Franklin Parrales 73
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de sistemas OLAP
ROLAP
• Implementación OLAP que almacena los datos en un
motor relacional. Típicamente, los datos son
detallados, evitando las agregaciones y las tablas se
encuentran desnormalizadas.
• Los esquemas más comunes sobre los que se trabaja
son estrella o copo de nieve, aunque es posible
trabajar sobre cualquier base de datos relacional.
• La arquitectura está compuesta por un servidor de
banco de datos relacional y el motor OLAP se
encuentra en un servidor dedicado. La principal
ventaja de esta arquitectura es que permite el análisis
de una enorme cantidad de datos.
74. Ph.D. Franklin Parrales 74
08/02/2022
Inteligencia de Negocios Carrera de Software
ROLAP
Usuario Final
Warehouse
Data
cache
Live
fetch
Cache
Query
Data
75. Ph.D. Franklin Parrales 75
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de sistemas OLAP
MOLAP
• Esta implementación OLAP almacena los datos
en una base de datos multidimensional.
• Para optimizar los tiempos de respuesta, el
resumen de la información es usualmente
calculado por adelantado. Estos valores
precalculados o agregaciones son la base de las
ganancias de desempeño de este sistema.
• Algunos sistemas utilizan técnicas de compresión
de datos para disminuir el espacio de
almacenamiento en disco debido a los valores
precalculados.
76. Ph.D. Franklin Parrales 76
08/02/2022
Inteligencia de Negocios Carrera de Software
MOLAP
Usuario Final
Warehouse
Query
Data
MDDB
Carga
periódica
77. Ph.D. Franklin Parrales 77
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de sistemas OLAP
HOLAP (Hybrid OLAP)
• Almacena algunos datos en un motor
relacional y otros en una base de datos
multidimensional.
78. Ph.D. Franklin Parrales 78
08/02/2022
Inteligencia de Negocios Carrera de Software
HOLAP
Usuario Final
Trae al
cache
MDDB y
cache
carga
periódica Query
Data
Warehouse
79. Ph.D. Franklin Parrales 79
08/02/2022
Inteligencia de Negocios Carrera de Software
Comparación:
• Algunas implementaciones MOLAP son propensas a la
"explosión" de la base de datos
– Este fenómeno provoca la necesidad de grandes cantidades de
espacio de almacenamiento para el uso de una base de datos
MOLAP cuando se dan ciertas condiciones:
• elevado número de dimensiones, resultados precalculados y escasos
datos multidimensionales.
– Las técnicas habituales de atenuación de la explosión de la
base de datos no son todo lo eficientes que sería deseable.
• Por lo general MOLAP ofrece mejor rendimiento debido a la
especializada indexación y a las optimizaciones de
almacenamiento.
• MOLAP también necesita menos espacio de almacenamiento
en comparación con los especializados ROLAP porque su
almacenamiento especializado normalmente incluye técnicas
de compresión.
80. Ph.D. Franklin Parrales 80
08/02/2022
Inteligencia de Negocios Carrera de Software
Comparación:
• ROLAP es generalmente más escalable. Sin
embargo, el gran volumen de preprocesamiento es
difícil de implementar eficientemente por lo que con
frecuencia se omite; por tanto, el rendimiento de una
consulta ROLAP puede verse afectado.
• Desde la aparición de ROLAP van apareciendo
nuevas versiones de bases de datos preparadas para
realizar cálculos, las funciones especializadas que se
pueden utilizar tienen más limitaciones.
• HOLAP (OLAP Híbrido) engloba un conjunto de
técnicas que tratan de combinar MOLAP y ROLAP de
la mejor forma posible. Generalmente puede pre-
procesar rápidamente, escala bien, y proporciona una
buena función de apoyo.
81. Ph.D. Franklin Parrales 81
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
82. Ph.D. Franklin Parrales 82
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Para crear el data mart de un área de la empresa es
preciso encontrar la estructura óptima para el
análisis de su información, estructura que puede
estar montada sobre:
➢ Base de datos OLTP, como el propio
datawarehouse.
➢ Una base de datos OLAP.
83. Ph.D. Franklin Parrales 83
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Datamart OLAP
Se basan en los populares cubos OLAP, que se
construyen agregando, según los requisitos de cada
área o departamento, las dimensiones y los
indicadores necesarios de cada cubo relacional. El
modo de creación, explotación y mantenimiento de
los cubos OLAP es muy heterogéneo, en función de
la herramienta final que se utilice.
84. Ph.D. Franklin Parrales 84
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Datamart OLTP
Las estructuras más comunes en este sentido son
las tablas report, que vienen a ser fact-
tables reducidas (que agregan las dimensiones
oportunas), y las vistas materializadas.
85. Ph.D. Franklin Parrales 85
08/02/2022
Inteligencia de Negocios Carrera de Software
Time
time_key
SQL_date
day_of_week
month
Store
store_key
store_id
store_name
address
district
floor_type
Clerk
clerk_key
clerk_id
clerk_name
clerk_grade
Product
product_key
sku
description
brand
category
Customer
customer_key
customer_name
purchase_profile
credit_profile
address
Promotion
promotion_key
promotion_name
price_type
ad_type
Order
time_key
store_key
clerk_key
product_key
customer_key
promotion_key
dollars_sold
units_sold
dollars_cost
Modelo
Dimensional
Esquema de estrella
86. Ph.D. Franklin Parrales 86
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubos OLAP
• Recordemos que La tabla central se llama
"tabla de hechos" y referencia un número
de "dimensiones" (que son las tablas que
están alrededor).
• Usando este método es posible producir
informes que incluyan gran cantidad de
información distribuida.
• Por esta razón se construyen (hiper)cubos
de información, y mediante este modelo
de datos desde diferentes dimensiones
(potencialmente todas variables) pueden
ser enlazadas todas juntas.
• Cubo OLAP con Tiempo, Cliente y
Producto como dimensiones:
La principal característica
que potencia a OLAP, es
que es lo más rápido a la
hora de ejecutar
sentencias SQL de tipo
SELECT, en
contraposición con OLTP
que es la mejor opción
para operaciones de tipo
INSERT, UPDATE Y
DELETE
87. Ph.D. Franklin Parrales 87
08/02/2022
Inteligencia de Negocios Carrera de Software
Ver tabla de hechos como un cubo de
datos n-dimensional
Cada tabla de dimensión
representa una
dimensión del cubo.
Los hechos son los
datos del cubo
Los hechos pueden
agregarse previamente a lo
largo de cada dimensión o
combinación de
dimensiones.
88. Ph.D. Franklin Parrales 88
08/02/2022
Inteligencia de Negocios Carrera de Software
Pero… ¿Qué es un Cubo?
• Cubo= Información de Datos->Data Warehouse
– Nombre maquillado de Sistemas Expertos
– Cubo de Información
BSC
Cubo
Datos
Balanced Score Card
Estrategia
Táctica
Operación
89. Ph.D. Franklin Parrales 89
08/02/2022
Inteligencia de Negocios Carrera de Software
Pero… ¿Qué es un Cubo?
• Contiene datos de primer interés para los
usuarios
• Es un subconjunto de los datos que están
en la bodega. Contiene valores
agregados a todos los niveles de las
dimensiones
• Usados para organizar los datos en
dimensiones y medidas
• Mejoran la velocidad de consulta
90. Ph.D. Franklin Parrales 90
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo
• Data Mart
Datos
Información
Patrón
Minería de Datos(Sistema Experto)
Conocimiento
91. Ph.D. Franklin Parrales 91
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo:
Id_Persona (Pk)
Nombre
Edad
Id_Ciudad(fk)
Persona
Id_Ciudad(Pk)
Nombre
Ciudad
Id_Producto (fk)
Id_Persona (fk)
Id_Dia (fk)
VentaTotal
MaxVenta
Ventas
Id_Productos (Pk)
NombreXproducto
Categoria
Productos
Id_Tiempo (pk)
Dia (fk)
DiaSemana
Tiempo
Dimensión: Producto
Dimensión: Personas
Dimensión: Ciudad
Dimensión: Tiempo
Tabla de Hecho
(Fact Table)
Esquema de copo de nieve
92. Ph.D. Franklin Parrales 92
08/02/2022
Inteligencia de Negocios Carrera de Software
Consulta Multidimensional
• Lo que guarda el cubo son medidas o
indicadores.
Fuente de Datos
ETL
Id_Tiempo (fk)
Dia (fk)
DiaSemana
Tiempo
Convertir tiempo en tabla
Data Mapping
Medidas=Variables=Indicadores
Tiempo= Atributo en Transaccional
Tiempo= entidad en ETL
93. Ph.D. Franklin Parrales 93
08/02/2022
Inteligencia de Negocios Carrera de Software
Data Mapping
idDia(lo saca del destino)
diaSemana(lo calcula)
Carga los valores
1/2/09
E
303
1/2/09
Domingo
T
Domingo
L
94. Ph.D. Franklin Parrales 94
08/02/2022
Inteligencia de Negocios Carrera de Software
Estructura multidimensional
José
Uvas
Melones
Q4
Q1 Q2 Q3
Dimensión: FECHA
Juan
Luis
Dimension:
PERSONA
Manzanas
Cerezas
Ana
Los cubos pueden
tener N
dimensiones pero
mostraremos uno
de 3 dimensiones
porque es más
fácil de dibujar y
entender.
95. Ph.D. Franklin Parrales 95
08/02/2022
Inteligencia de Negocios Carrera de Software
Consulta Multidimensional
Uvas
Q4
Q1 Q2 Q3
Dimensión: FECHA
Juan
Luis
José
Manzanas
Cerezas
Ana
Suma Venta,
Max Venta
Melones
96. Ph.D. Franklin Parrales 96
08/02/2022
Inteligencia de Negocios Carrera de Software
Consulta Multidimensional
• El cubo puede responder preguntas que
incluyan tres dimensiones y una medida
– Dimensión producto: contiene categorías del
producto
– Dimensión almacén: contiene almacenes
– Dimensión tiempo: contiene periodos del año
– Medida ventas: cantidad numérica que puede
ser sumarizada
97. Ph.D. Franklin Parrales 97
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo Multidimensional
Sección
Hogar
Informática
Alimentos
Alimentos
Marcas
Fanta
Gatorade
Pepsi-Cola
Coca-Cola
Red Bull
Coca-Cola
24
Semana del mes
03 10 17
23.5 MM UNIDADES
€ 28.3 VENTA BRUTA
€ 26.8 COSTO
24
“Mostrar las ventas de
Coca-Cola en la
sección de alimentos,
para la 4ta. semana.”
98. Ph.D. Franklin Parrales 98
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo
• Un cubo puede tener hasta 64 dimensiones
– Cada celda del cubo tiene un valor
– El valor de cada celda es la intersección de las
dimensiones
– El dato en la celda es una agregación
• Para obtener las ventas totales anuales por
producto y localización: seleccionar el
producto y la localización y suma por las
cuatro celdas de tiempo
99. Ph.D. Franklin Parrales 99
08/02/2022
Inteligencia de Negocios Carrera de Software
Jerarquía de agregación
100. Ph.D. Franklin Parrales 100
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
101. Ph.D. Franklin Parrales 101
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
102. Ph.D. Franklin Parrales 102
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
103. Ph.D. Franklin Parrales 103
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
104. Ph.D. Franklin Parrales 104
08/02/2022
Inteligencia de Negocios Carrera de Software
Actividad objeto de análisis: ventas de productos.
Información registrada sobre las ventas: "ventas diarias de productos en
los supermercados de la cadena“.
Ejemplo: "del producto “Coca-Cola 33cl” se han vendido en el almacén “Almacén nro.1”
el día 12/01/1999, 50 unidades por un importe de 70€.”
Para hacer el análisis de ventas no interesa la venta individual
(ticket) realizada a un cliente sino las ventas diarias de
productos en los distintos almacenes de la cadena.
Ejemplo Organización:
Cadena de supermercados.
105. Ph.D. Franklin Parrales 105
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
- Dimensiones que
caracterizan la actividad.
- La actividad de ventas se
registra a nivel diario para
cada producto y cada
almacén
Producto Tiempo
(día)
Almacén
-Actividad que es objeto de
análisis con los indicadores
que interesa analizar
-“Importe total de ventas por
almacén y producto”
106. Ph.D. Franklin Parrales 106
08/02/2022
Inteligencia de Negocios Carrera de Software
Agua
Jabón
Vino
Leche
Almacén2
Almacén1
Almacén
Producto
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
Tabla multidimensional
OLAP
107. Ph.D. Franklin Parrales 107
08/02/2022
Inteligencia de Negocios Carrera de Software
Presentaciones del esquema
multidimensional en una herramienta
OLAP:
-representación en estrella
-representación en cubo de datos
108. Ph.D. Franklin Parrales 108
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Dimensiones que
caracterizan la actividad.
Producto Tiempo
(día)
Almacén
Modelo en estrella:
-actividad (centro)
-dimensiones (puntas)
Actividad que es objeto de
análisis con los indicadores
que interesa analizar
Modelo de Consulta
109. Ph.D. Franklin Parrales 109
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacén
Producto
Tiempo
Ventas
Almacén
Producto
Tiempo
Ventas
Cliente
4 dimensiones
3 dimensiones
Modelo en cubo de datos:
-actividad (celda)
-dimensiones (ejes)
Modelo de Cubo de Datos
110. Ph.D. Franklin Parrales 110
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nombre
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de
análisis con los indicadores
que interesa analizar
Dimensiones con atributos
descriptores.
Trimestre
Nro_almacén
Atributos Descriptores
111. Ph.D. Franklin Parrales 111
08/02/2022
Inteligencia de Negocios Carrera de Software
✓ en un esquema multidimensional se representa una actividad que
es objeto de análisis (hecho) y las dimensiones que caracterizan la
actividad (dimensiones).
✓ la información relevante sobre el hecho se representa por un
conjunto de indicadores (medidas o atributos de hecho).
✓ la información descriptiva de cada dimensión se representa por
un conjunto de atributos (atributos de dimensión).
Modelo Multidimensional
112. Ph.D. Franklin Parrales 112
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nombre
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidas
Día
Mes
Día de la
semana
Año
Trimestre
Nro_almacén dimensión
atributos
Modelo Multidimensional
113. Ph.D. Franklin Parrales 113
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Nombre
El Atributo Identificador de las
Dimensiones
114. Ph.D. Franklin Parrales 114
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Los valores (instancias)
de la dimensión Producto
son productos ofertados
por la cadena
Los valores (instancias)
de la dimensión Tiempo
son días del calendario
Los valores (instancias)
de la dimensión Almacén
son almacenes de la
cadena
Nombre
115. Ph.D. Franklin Parrales 115
08/02/2022
Inteligencia de Negocios Carrera de Software
departamento
nro_almacén ciudad región
nro_almacén tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
departamento
nro. producto tipo
Jerarquías basadas generalmente en dependencias
funcionales entre los atributos de la dimensión.
Jerarquías en las dimensiones de los atributos
116. Ph.D. Franklin Parrales 116
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Nombre
Jerarquías en las dimensiones de los atributos
117. Ph.D. Franklin Parrales 117
08/02/2022
Inteligencia de Negocios Carrera de Software
Los atributos de las dimensiones van a servir para:
✓ expresar condiciones que restringen el subconjunto de
datos del AD que se desea consultar
✓ definir los parámetros de la consulta: nivel de detalle (o
agregación) al que se desean presentar los datos
seleccionados
✓ añadir información descriptiva a los elementos de la
dimensión
✓ las jerarquías definidas entre los atributos de las
dimensiones son una guía para "navegar" por los datos
seleccionados, cambiando el nivel de agregación con el
que son presentados
118. Ph.D. Franklin Parrales 118
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Nombre
Importe total de ventas por
almacén, para almacenes de
tipo "gran superficie", indicando
el nombre completo del
almacén.
atributo de
selección
atributo
descriptivo
atributo de
agrupación
Atributo de: Agrupación, Descriptivo y Selección
119. Ph.D. Franklin Parrales 119
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas por
año, región y departamento”
OLAP
Trimestre
Nombre
120. Ph.D. Franklin Parrales 120
08/02/2022
Inteligencia de Negocios Carrera de Software
informe
Importe de ventas
SELECT ...........
departamento región año importe
OLAP
año
región
departamento
ROLAP
121. Ph.D. Franklin Parrales 121
08/02/2022
Inteligencia de Negocios Carrera de Software
fecha
nro_producto
nro_almacén
importe
unidades
Ventas
nro_almacén
nombre
dirección
región
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
nro_producto
descripción
marca
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Almacén
Producto
fecha
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
Modelo Multidimensional
122. Ph.D. Franklin Parrales 122
08/02/2022
Inteligencia de Negocios Carrera de Software
“Una consulta a un almacén de datos consiste generalmente en la
obtención de medidas sobre los hechos parametrizados por atributos de
las dimensiones y restringidos por condiciones impuestas sobre las
dimensiones”
¿Importe total de las ventas durante este año de los productos
del departamento Bebidas, por trimestre y por categoría?.
Restricciones: productos del departamento Bebidas, ventas durante
este año
medida hecho
Parámetros de la consulta: por categoría de producto y por
trimestre
Otro Ejemplo
123. Ph.D. Franklin Parrales 123
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en
este año, del departamento
de “Bebidas”, por categoría y
trimestre”
OLAP
Trimestre
Nombre
Otro Ejemplo
124. Ph.D. Franklin Parrales 124
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT ...........
trimestre categoría importe
OLAP
ROLAP
Otro Ejemplo
125. Ph.D. Franklin Parrales 125
08/02/2022
Inteligencia de Negocios Carrera de Software
fecha
nro_producto
nro_almacén
importe
unidades
Ventas
nro_almacén
nombre
dirección
región
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
nro_producto
descripción
marca
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Almacén
Producto
fecha
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
126. Ph.D. Franklin Parrales 126
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT P.categoría, T.trimestre, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.trimestre, P.categoría
medida
selección de datos
de la tabla de
hechos
restringidos por
condiciones sobre
las tablas de
dimensión
agregación sobre
Almacén
agrupación por
Tiempo y Producto
tabla de hechos
parámetros
Consulta SQL
127. Ph.D. Franklin Parrales 127
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT D1.C1, ..., Dn.Cn, Agg1(F.A1),..., Aggn(F.An)
FROM Hechos F, Dimensión1 D1,...Dimensión Dn
WHERE
JOIN_cond (F,D1) AND
...
JOIN_cond (F,Dn) AND
condición_selección
GROUP BY D1.C1,..., Dn.Cn
Forma de la Consulta OLAP
128. Ph.D. Franklin Parrales 128
08/02/2022
Inteligencia de Negocios Carrera de Software
Presentación tabular
(relacional) de los
datos seleccionados
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Se asumen dos categorías en
el departamento de Bebidas:
Refrescos y Zumos.
129. Ph.D. Franklin Parrales 129
08/02/2022
Inteligencia de Negocios Carrera de Software
T4
T3
T2
T1
Zumos
Refrescos
Categoría
Trimestre Presentación matricial
(multidimensional) de los
datos seleccionados
Los parámetros de la consulta (“por trimestre” y “por categoría”)
determinan los criterios de agrupación de los datos seleccionados
("ventas de productos del año actual", "del departamento de
Bebidas"). La agrupación se realiza sobre dos atributos de dos
dimensiones: Producto (categoría), Tiempo (trimestre).
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
130. Ph.D. Franklin Parrales 130
08/02/2022
Inteligencia de Negocios Carrera de Software
El carácter agregado de las consultas en el análisis de datos, aconseja
la definición de nuevos operadores que faciliten la agregación
(consolidación) y la disgregación (división) de los datos:
✓ Agregación (roll): permite sustituir (eliminándolo o utilizando uno
de mayor granularidad) un criterio de agrupación utilizado en el
análisis. Se agregan los grupos de la consulta actual.
✓ Disgregación (drill): permite sustituir (añadiendo uno nuevo o
utilizando uno de menor granularidad) un criterio de agrupación
utilizado en el análisis. Se disgregan los grupos de la consulta
actual.
Agregación y Disgregación
131. Ph.D. Franklin Parrales 131
08/02/2022
Inteligencia de Negocios Carrera de Software
Las operaciones de agregación (ROLL) y disgregación
(DRILL) se pueden hacer sobre:
✓ atributos de una dimensión sobre los que se ha
definido una jerarquía: DRILL-DOWN, ROLL-UP
departamento – categoría - producto (Producto)
año - trimestre – mes - día (Tiempo)
✓ sobre dimensiones independientes: DRILL-ACROSS,
ROLL-ACROSS
Producto – Almacén -Tiempo
ROLL y DRILL
132. Ph.D. Franklin Parrales 132
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este
año, del departamento de
“Bebidas”, por categoría y mes”
OLAP
Trimestre
Nombre
ROLL y DRILL
133. Ph.D. Franklin Parrales 133
08/02/2022
Inteligencia de Negocios Carrera de Software
trimestre categoría importe
OLAP
¡ la operación de DRILL
se realiza sobre el
informe original !
día
mes
año
trimestre
ROLL-UP
DRILL-DOWN
134. Ph.D. Franklin Parrales 134
08/02/2022
Inteligencia de Negocios Carrera de Software
Categoría Ventas
Mes
500000
Refrescos
Enero
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada fila (categoría-trimestre) de la
consulta original se disgrega en tres
nuevas filas (categoría-mes).
135. Ph.D. Franklin Parrales 135
08/02/2022
Inteligencia de Negocios Carrera de Software
drill-down
SELECT P.categoría, T.mes, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.mes, P.categoría
medida
selección de
datos de la tabla
de hechos
restringidos por
condiciones
sobre las tablas
de dimensión
agrupación por
Tiempo y Producto
tabla de hechos
Sustitución de nivel en la jerarquía de
la dimensión Tiempo por un nivel de
granularidad más fina
Operación SQL
136. Ph.D. Franklin Parrales 136
08/02/2022
Inteligencia de Negocios Carrera de Software
Si se desea introducir la dimensión Almacén en el
análisis anterior e incluir un nuevo criterio de agrupación
sobre la ciudad del almacén:
¿Importe total de las ventas durante este año de los productos del
departamento Bebidas, por trimestre, por categorías y por ciudad
del almacén?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto, por trimestre y por
ciudad del almacén.
137. Ph.D. Franklin Parrales 137
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en
este año, del departamento
de “Bebidas”, por categoría,
trimestre y ciudad”
OLAP
Trimestre
Explotación de un almacén de datos: herramientas OLAP
Nombre
138. Ph.D. Franklin Parrales 138
08/02/2022
Inteligencia de Negocios Carrera de Software
trimestre categoría importe
OLAP
¡ la operación de
DRILL se realiza sobre
el informe original !
Explotación de un almacén de datos: herramientas OLAP
139. Ph.D. Franklin Parrales 139
08/02/2022
Inteligencia de Negocios Carrera de Software
Categoría Trimestre Ventas
Ciudad
T2
T1
300000
T2 700000
Refrescos T1
Valencia
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
León
Refrescos
Refrescos
Refrescos
Valencia
León
1000000
1000000
* Se asumen dos ciudades: Valencia y León.
Cada fila (categoría-trimestre) de la
consulta original se disgrega en dos
nuevas filas (categoría-trimestre-
ciudad) para las ciudades de León y
Valencia.
140. Ph.D. Franklin Parrales 140
08/02/2022
Inteligencia de Negocios Carrera de Software
drill-across
SELECT P.categoría, T.trimestre, A.ciudad, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P, Almacén A
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
V.nro_almacén=A.nro_almacén AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.trimestre, P.categoría, A.ciudad
medida
selección de
datos de la tabla
de hechos
restringidos por
condiciones
sobre las tablas
de dimensión
agrupación por
Tiempo, Producto y
Almacén
tabla de hechos
Inclusión de una nueva dimensión en
los criterios de agrupación
Operación SQL
141. Ph.D. Franklin Parrales 141
08/02/2022
Inteligencia de Negocios Carrera de Software
T1 T2 T3 T4
Zumos
1000000
300000
300000
500000
100000
200000
500000
2000000
Presentación matricial de
los datos seleccionados.
142. Ph.D. Franklin Parrales 142
08/02/2022
Inteligencia de Negocios Carrera de Software
Si se desea eliminar el criterio de agrupación sobre la
dimensión Tiempo en la consulta original:
¿Importe total de las ventas durante este año de los
productos del departamento Bebidas, por categorías?.
143. Ph.D. Franklin Parrales 143
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en
este año, del departamento
de “Bebidas”, por categorías”
OLAP
Trimestre
Nombre
144. Ph.D. Franklin Parrales 144
08/02/2022
Inteligencia de Negocios Carrera de Software
OLAP
trimestre categoría importe
¡ la operación de ROLL
se realiza sobre el
informe original !
145. Ph.D. Franklin Parrales 145
08/02/2022
Inteligencia de Negocios Carrera de Software
Categoría Ventas
Refrescos 8000000
Zumos 12900000
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
146. Ph.D. Franklin Parrales 146
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT P.categoría, T.trimestre, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.trimestre, P.categoría
medida
selección de
datos de la tabla
de hechos
restringidos por
condiciones
sobre las tablas
de dimensión
agregación sobre
Almacén y Tiempo
agrupación por
Producto
tabla de hechos
roll-across
Eliminación de una dimensión
en los criterios de agrupación
Operación SQL
147. Ph.D. Franklin Parrales 147
08/02/2022
Inteligencia de Negocios Carrera de Software
Otras operaciones de OLAP:
✓ SLICE: elimina una dimensión de la consulta actual,
fijando un valor para ella.
✓ DICE: selecciona un subconjunto de datos de la
consulta actual.
✓ PIVOT: reorientación de las dimensiones en la
consulta actual.
151. Ph.D. Franklin Parrales 151
08/02/2022
Inteligencia de Negocios Carrera de Software
Infraestructuras y
arquitecturas de
inteligencia de negocios
Unidad 2
Final de la unidad