SlideShare a Scribd company logo
1 of 151
Ph.D. Franklin Parrales 1
08/02/2022
Inteligencia de Negocios Carrera de Software
Infraestructuras y
arquitecturas de
inteligencia de negocios
Unidad 2
Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo
para uso de los cursos de Inteligencia de Negocios
Ph.D. Franklin Parrales 2
08/02/2022
Inteligencia de Negocios Carrera de Software
Objetivo general de la Unidad 2
Crear almacenes de datos mediante herramientas
tecnológicas sobre arquitecturas de Inteligencia de
Negocios para recopilar datos de varios orígenes a través
del proceso ETL (Extracción, Transformación y Carga) para
mantener información consolidada e integrada
Ph.D. Franklin Parrales 3
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 4
08/02/2022
Inteligencia de Negocios Carrera de Software
Sistema Operacional
(OLTP)
Sistema de Almacén
de Datos
(DW)
BD orientada al
proceso
BD orientada al
análisis
Almacén de datos
Base de Datos diseñada con un objetivo de explotación
distinto que el de las bases de datos de los sistemas
operacionales.
Ph.D. Franklin Parrales 5
08/02/2022
Inteligencia de Negocios Carrera de Software
Data Warehouse
El objetivo último de un almacén de datos es
integrar datos corporativos, residentes en bases
de datos operacionales de la organización, en
un único repositorio sobre el cual los usuarios
puedan realizar consultas o informes y hacer
análisis de datos.
La tecnología de almacenes de datos
integra las técnicas de bases de datos y las
técnicas de análisis de datos.
Ph.D. Franklin Parrales 6
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué es Data Warehouse?
Colección de datos diseñada
para dar apoyo a los procesos
de toma de decisiones
orientada hacia
la información*
relevante de la
organización
integrada
variable en el
tiempo
no volátil
características
Bill Inmon 1992
Ph.D. Franklin Parrales 7
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
Según Oracle:
• Un data warehouse es un tipo de sistema de
gestión de datos diseñado para habilitar y dar
soporte a las tareas de inteligencia empresarial
(BI), especialmente las analíticas.
• Los data warehouses solo se han diseñado para
realizar consultas y tareas de análisis, y suelen
contener grandes cantidades de datos históricos.
• A menudo, la información dentro de un data
warehouse proviene de una amplia gama de
fuentes, como los archivos de registro de
aplicaciones o las aplicaciones de transacción.
Ph.D. Franklin Parrales 8
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
• Un almacén de datos (DWH) se define como un
repositorio central de datos almacenados a partir de
una amplia gama de fuentes dentro y fuera de la
empresa.
• Es una tecnología que combina datos estructurados,
no estructurados y semiestructurados de una o varias
fuentes con el fin de ofrecer una vista unificada de los
datos a los analistas y usuarios comerciales para
mejorar la BI.
• Por lo tanto, se utiliza con fines analíticos y de
informes comerciales, lo que ayuda a mantener
registros pasados ​​y analizar datos para optimizar las
operaciones comerciales.
Ph.D. Franklin Parrales 9
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
Importante
• También es importante diferenciar entre una
base de datos y un almacén de datos, ya que
a menudo la gente confunde los dos.
• Si bien una base de datos es simplemente
una técnica convencional para almacenar
datos, el almacen de datos o data warehouse
es un tipo de base de datos especialmente
diseñada para el análisis de datos.
• Almacena todo en una sola ubicación de
numerosos bancos de datos externos.
Ph.D. Franklin Parrales 10
08/02/2022
Inteligencia de Negocios Carrera de Software
Orientada hacia la información relevante de
la organización
Se diseña para consultar eficientemente información relativa a
las actividades (ventas, compras, producción, ...) básicas de la
organización, no para soportar los procesos que se realizan en
ella (gestión de pedidos, facturación, etc).
Sistemas Operacionales
Acciones
Préstamos
Seguros
Planes de
Inversión
Información
financiera
de clientes
Data Warehouse
Ph.D. Franklin Parrales 11
08/02/2022
Inteligencia de Negocios Carrera de Software
Propiedades de DWH:
Orientada a
un tema
Integrada
Variante en
el tiempo
No Volátil
Data
Warehouse
Ph.D. Franklin Parrales 12
08/02/2022
Inteligencia de Negocios Carrera de Software
Integrada
• Integra datos recogidos de diferentes sistemas
operacionales de la organización (y/o fuentes
externas).
Entorno Operacional
Aplicación
Cuentas de
Ahorro
Aplicación
Cuentas
Corrientes
Aplicación
Préstamos
Data Warehouse
Objeto de interés
=
Cliente
Ph.D. Franklin Parrales 13
08/02/2022
Inteligencia de Negocios Carrera de Software
Variable en el tiempo
• Los datos son relativos a un periodo de tiempo y
deben ser incrementados periódicamente.
Los datos son almacenados como fotos (snapshots)
correspondientes a periodos de tiempo.
Datos
Tiempo
01/97
02/97
03/97
Datos de Enero
Datos de Febrero
Datos de Marzo
Data
Warehouse Nota: El periodo de tiempo cubierto por un
DW varia entre 2 y 10 años.
Ph.D. Franklin Parrales 14
08/02/2022
Inteligencia de Negocios Carrera de Software
No volátil
• Los datos almacenados no son actualizados, sólo son
incrementados.
SELECT
Carga
INSERT SELECT
UPDATE
DELETE
Bases de datos operacionales Warehouse
Ph.D. Franklin Parrales 15
08/02/2022
Inteligencia de Negocios Carrera de Software
Orientado a un Tema
La data es categorizada y almacenada por áreas
de negocio en lugar de aplicaciones.
Aplicaciones OLTP
Información
Financiera
del Cliente
Tema del Data
Warehouse
Planes de
equidad Acciones
Seguros
Prestamos Ahorros
Ph.D. Franklin Parrales 16
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos
rentabilidad de
las inversiones
realizadas para
su creación
aumento de la
competitividad
en el mercado
aumento de la
productividad de
los técnicos de
dirección
Ventajas
Ph.D. Franklin Parrales 17
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos
infravaloración de los
recursos necesarios
para la captura, carga
y almacenamiento de
los datos
incremento
continuo de los
requisitos de los
usuarios
privacidad de
los datos
infravaloración del
esfuerzo necesario
para su diseño y
creación
Problemas
Ph.D. Franklin Parrales 18
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos-data warehouse
Ph.D. Franklin Parrales 19
08/02/2022
Inteligencia de Negocios Carrera de Software
Arquitectura de un sistema de almacén de
datos
Datos Op. 1
Datos Op. 2
Datos Op. 3
metadatos
datos de
detalle
datos
agregados
datos
agregados
AD
gestor de
carga
gestor
del AD
gestor
del AD
gestor de
consultas
copias
herramientas
de consultas
e informes
herramientas
de OLAP
herramientas
de Data Mining
SAD
área de
almacenamiento
intermedio
herramientas
de EIS
Ph.D. Franklin Parrales 20
08/02/2022
Inteligencia de Negocios Carrera de Software
• datos operacionales: el origen de los datos puede ser: bases de datos
operacionales de la organización, bases de datos privadas, bases de datos
públicas, etc.
• gestor de carga: permite realizar las funciones de extracción de datos de
las fuentes externas, transformación (limpieza, consolidación, ...) y la carga del
AD, utiliza un almacenamiento intermedio y realiza las siguientes operaciones:
✓ extracción de los datos.
✓ transformación de los datos: limpieza, estandarización, etc.
✓ carga inicial del almacén: ordenación, agregaciones, etc.
✓ refresco del almacén: operación periódica que propaga los cambios de
las fuentes operacionales al almacén de datos
(herramientas* del fabricante o programas de la organización).
• ETT (extracción, transformación y transporte)
• ETL (extracción, transformación y carga (load))
Componentes
Ph.D. Franklin Parrales 21
08/02/2022
Inteligencia de Negocios Carrera de Software
• metadatos: documentación sobre los datos (origen, descripción, nivel de
agregación, almacenamiento, etc).
• herramientas de consulta: herramientas para diseñar consultas e
informes, herramientas de desarrollo de aplicaciones de usuario final,
herramientas de análisis de datos (OLAP), herramientas de minería de datos
(DATA MINING), herramientas dirigidas a ejecutivos (EIS). (herramientas de
diferentes fabricantes).
• gestor (servidor) del AD: permite realizar todas las funciones de definición y
mantenimiento del almacén de datos: definición, agregación de datos, vistas,
creación de índices, copias, etc. (herramienta del fabricante).
• gestor de consultas: ejecución de consultas. (herramienta del
fabricante).
Componentes
Ph.D. Franklin Parrales 22
08/02/2022
Inteligencia de Negocios Carrera de Software
Creación de DWH
• La creación de un Datawarehouse
representa en la mayoría de las ocasiones
el primer paso, desde el punto de vista
técnico, para implantar una solución
completa y fiable de Business Intelligence.
•
Ph.D. Franklin Parrales 23
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 24
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué es un esquema de base de
datos?
• Un esquema de base de datos representa la
configuración lógica de todo o parte de una base
de datos
• Hay dos tipos principales de esquemas de bases
de datos:
– Un esquema lógico de base de datos expresa las
restricciones lógicas que se aplican a los datos
almacenados. Puede definir las restricciones de
integridad, las vistas y las tablas.
– Un esquema físico de base de datos dispone cómo
se almacenan los datos físicamente en un sistema de
almacenamiento en términos de archivos e índices.
Ph.D. Franklin Parrales 25
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo dimensional: Introducción
• Es un modelo diferente al modelo Entidad
Relación
• Se basa en una súper consulta a la base de
la cual se sirve para toma de decisiones
• El problema esta en quien usa el cubo
Datos Cubo
ETL
Ph.D. Franklin Parrales 26
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso de modelado dimensional
• Centrado en identificar el modelo de negocio
– Identificar las posibles consultas
– Identificación de los hechos: los datos utilizados en dichas
consultas.
– Cada consulta debe usar solo una tabla de hechos y sus
tablas de dimensión.
• Posiblemente sea bueno comenzar con un modelo ER
– Identificar qué unión de tablas sirven como tablas de
hechos.
– Usar solo claves sustitutas (surrogate keys)
– A menudo debe considerarse una dimensión de tiempo
– Desnormalizar en copo de nieve o esquema de estrella
Una clave sustituta o clave artificial en una base de datos es un identificador
único para una entidad en el mundo real o modelado o para un objeto en la base
de datos. Al contrario que la clave natural, la clave sustituta no deriva de los datos
de una aplicación.
Ph.D. Franklin Parrales 27
08/02/2022
Inteligencia de Negocios Carrera de Software
Order
order_id
customer_id
store_id
clerk_id
date
Store
store_id
store_name
address
district
floor_type
Clerk
clerk_id
clerk_name
clerk_grade
Product
sku
description
brand
category
Customer
customer_ID
customer_name
purchase_profile
credit_profile
address
Promotion
promotion_id
promotion_name
price_type
ad_type
OrderLine
order_id
sku
promotion_id
dollars_sold
units_sold
dollars_cost
Modelo
Relacional
Ph.D. Franklin Parrales 28
08/02/2022
Inteligencia de Negocios Carrera de Software
Time
time_key
SQL_date
day_of_week
month
Store
store_key
store_id
store_name
address
district
floor_type
Clerk
clerk_key
clerk_id
clerk_name
clerk_grade
Product
product_key
sku
description
brand
category
Customer
customer_key
customer_name
purchase_profile
credit_profile
address
Promotion
promotion_key
promotion_name
price_type
ad_type
Order
time_key
store_key
clerk_key
product_key
customer_key
promotion_key
dollars_sold
units_sold
dollars_cost
Modelo
dimensional
Esquema de estrella
Ph.D. Franklin Parrales 29
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacenes de datos (data
warehousing)
• La topología
típica usada
para
construir un
almacén de
datos se
denomina
"modelo en
forma de
estrella":
Ph.D. Franklin Parrales 30
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de esquemas de bases de datos
• Se han desarrollado ciertos patrones en el
diseño de esquemas de bases de datos.
– El esquema de estrella ampliamente utilizado es
también el más simple. En este, una o más tablas
de datos están vinculadas a un número indefinido
de tablas dimensionales. Es mejor para gestionar
consultas simples.
– El esquema de copo de nieve relacionado
también se usa para representar una base de
datos multidimensional. No obstante, en este
patrón, las dimensiones se normalizan en lotes
de tablas separadas, creando el efecto expansivo
de una estructura similar a un copo de nieve.
Ph.D. Franklin Parrales 31
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 32
08/02/2022
Inteligencia de Negocios Carrera de Software
Data Mart
Subconjunto de un almacén de datos.
✓ Se definen para satisfacer las necesidades de un
departamento o sección de la organización.
✓ Contiene menos información de detalle y mas
información agregada.
Ph.D. Franklin Parrales 33
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Datamart es una base de datos departamental,
especializada en el almacenamiento de los datos de
un área de negocio específica. Se caracteriza por
disponer la estructura óptima de datos para
analizar la información al detalle desde todas las
perspectivas que afecten a los procesos de dicho
departamento.
Ph.D. Franklin Parrales 34
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Es consultado mediante herramientas OLAP
(Procesamiento Analítico en Línea) que ofrecen una
visión multidimensional de la información. Sobre
estas bases de datos se pueden
construir EIS (Sistemas de Información para
Directivos) y DSS (Sistemas de Ayuda a la toma de
Decisiones).
Ph.D. Franklin Parrales 35
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Data mart: es una versión especial de almacén
de datos (data warehouse). Son subconjuntos de
datos con el propósito de ayudar a que un área
específica dentro del negocio pueda tomar mejores
decisiones.
Ph.D. Franklin Parrales 36
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
En síntesis, se puede decir que los data marts son
pequeños data warehouse centrados en un tema o
un área de negocio específico dentro de una
organización.
Representan una estrategia de "divide y vencerás"
para ámbitos muy genéricos de un Data
Warehouse.
Aunque un datamart puede ser alimentado desde
los datos de un datawarehouse, o integrar por si
mismo un compendio de distintas fuentes de
información.
Ph.D. Franklin Parrales 37
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Data mart: se crea por las siguientes razones:
➢ Prestaciones: Para descargar el data mart a un
ordenador independiente para mejorar la
eficiencia o para obviar las necesidades de
gestionar todo el volumen del data warehouse
centralizado.
➢ Seguridad: Para separar un subconjunto de
datos de forma selectiva a los que queremos
permitir o restringir el acceso.
Ph.D. Franklin Parrales 38
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Un Data mart: se crea por las siguientes razones:
➢ Conveniencia: De poder pasar por alto las
autorizaciones y requerimientos necesarios para
poder incorporar una nueva aplicación en el Data
Warehouse principal de la Empresa.
➢ Demostración sobre el terreno: Para demostrar
la viabilidad y el potencial de una aplicación
antes de migrarla al Data Warehouse de la
Empresa.
➢ Política: Razones internas de la organización
para hacer esta división o separación de los
datos del almacén de datos.
Ph.D. Franklin Parrales 39
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 40
08/02/2022
Inteligencia de Negocios Carrera de Software
ETL
• ETL son las siglas en inglés de Extraer,
Transformar y Cargar (Extract, Transform
and Load).
• Es el proceso que permite a las
organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y
cargarlos en otra base de datos, data mart, o
data warehouse para analizar, o en otro
sistema operacional para apoyar un proceso
de negocio.
Ph.D. Franklin Parrales 41
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso de construcción del
Datawarehousing
Denominado ETL (Extracción, Transformación y
Carga), a partir de los sistemas operaciones de una
compañía:
▪ Extracción: obtención de información de las
distintas fuentes tanto internas como externas.
▪ Transformación: filtrado, limpieza, depuración,
homogeneización y agrupación de la información.
▪ Carga: organización y actualización de los datos
y los metadatos en la base de datos.
Ph.D. Franklin Parrales 42
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 43
08/02/2022
Inteligencia de Negocios Carrera de Software
Extraer
• Consiste en extraer los datos desde los
sistemas de origen.
• La mayoría de los proyectos de
almacenamiento de datos fusionan datos
provenientes de diferentes sistemas de
origen.
• Cada sistema separado puede usar una
organización diferente de los datos o
formatos distintos.
Ph.D. Franklin Parrales 44
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 45
08/02/2022
Inteligencia de Negocios Carrera de Software
Transformar(1/3)
• La fase de transformación aplica una serie de
reglas de negocio o funciones sobre los
datos extraídos para convertirlos en datos
que serán cargados.
• Algunas fuentes de datos requerirán alguna
pequeña manipulación de los datos.
• No obstante en otros casos pueden ser
necesarias aplicar algunas de las siguientes
transformaciones:
Ph.D. Franklin Parrales 46
08/02/2022
Inteligencia de Negocios Carrera de Software
Transformar(2/3)
• Seleccionar sólo ciertas columnas para su carga (Ej. que las
columnas con valores nulos no se carguen).
• Traducir códigos (Ej. Si la fuente almacena una "H" para
Hombre y "M" para Mujer pero el destino tiene que guardar
"1" para Hombre y "2" para Mujer).
• Codificar valores libres (Ej. convertir "Hombre" en "H" o "Sr"
en "1").
• Obtener nuevos valores calculados (Ej. total_venta = cantidad
* precio).
• Unir datos de múltiples fuentes (Ej. búsquedas,
combinaciones, etc).
• Calcular totales de múltiples filas de datos (Ej. ventas totales
de cada región).
Ph.D. Franklin Parrales 47
08/02/2022
Inteligencia de Negocios Carrera de Software
Transformar(3/3)
• Generación de campos clave en el destino.
• Transponer o pivotar (girando múltiples columnas en
filas o viceversa).
• Dividir una columna en varias (Ej. columna "Nombre:
García, Miguel"; pasar a dos columnas "Nombre: Miguel"
y "Apellido: García").
• La aplicación de cualquier forma, simple o compleja, de
validación de datos, y la consiguiente aplicación de la
acción que en cada caso se requiera:
– Datos OK: Entregar datos a la siguiente etapa (Carga).
– Datos erróneos: Ejecutar políticas de tratamiento de
excepciones (Ej. Rechazar el registro completo, dar al campo
erróneo un valor nulo o un valor centinela).
Ph.D. Franklin Parrales 48
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 49
08/02/2022
Inteligencia de Negocios Carrera de Software
Carga(1/3)
• La fase de carga es el momento en el cual
los datos de la fase anterior (transformación)
son cargados en el sistema de destino.
• Dependiendo de los requerimientos de la
organización, este proceso puede abarcar
una amplia variedad de acciones diferentes.
– En algunas bases de datos se sobrescribe la
información antigua con nuevos datos.
Ph.D. Franklin Parrales 50
08/02/2022
Inteligencia de Negocios Carrera de Software
Carga(2/3)
• Existen dos formas básicas de desarrollar
el proceso de carga:
– Acumulación simple
– Rolling
Ph.D. Franklin Parrales 51
08/02/2022
Inteligencia de Negocios Carrera de Software
Carga(3/3)
• La fase de carga interactúa directamente con
la base de datos de destino.
• Al realizar esta operación se aplicarán todas
las restricciones y triggers (disparadores) que
se hayan definido en ésta
– Ej. valores únicos, integridad referencial, campos
obligatorios, rangos de valores.
• Estas restricciones y triggers (si están bien
definidos) contribuyen a que se garantice la
calidad de los datos en el proceso ETL, y
deben ser tenidos en cuenta
Ph.D. Franklin Parrales 52
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 53
08/02/2022
Inteligencia de Negocios Carrera de Software
Tablas de hechos y de dimensión
Hechos: Las tablas de unión son los datos más
importantes: los hechos
– Por ejemplo: compras en la tienda, inscripciones a
clases, datos de clics
– Generalmente las tablas más grandes
– Los datos clave a menudo son numéricos y aditivos –
por ejemplo: cantidad comprada, costo por unidad,
visualizaciones de anuncios
Dimensiones: Las tablas secundarias en relación
de 1 a muchos con hechos
– Por ejemplo: tiendas, clientes, personal de ventas,
período de ventas
Ph.D. Franklin Parrales 54
08/02/2022
Inteligencia de Negocios Carrera de Software
Ver tabla de hechos como un cubo de
datos n-dimensional
Cada tabla de dimensión
representa una
dimensión del cubo.
Los hechos son los
datos del cubo
Los hechos pueden
agregarse previamente a lo
largo de cada dimensión o
combinación de
dimensiones.
Ph.D. Franklin Parrales 55
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 56
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelos de Cubos
• Cuando las dimensiones no tienen orden expansivo se
llama modelo Estrella
• Supongamos que entre las tablas Persona y Ciudad
existe una conexión en el modelo, en este caso el
esquema es un Copo de Nieve
Tabla de Hecho(Fact Table)
Tabla de Hecho(Fact Table)
Persona
Ciudad
Ph.D. Franklin Parrales 57
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 58
08/02/2022
Inteligencia de Negocios Carrera de Software
Esquema estrella
En el esquema de estrella,
el centro de la estrella
puede tener una tabla de
hechos y varias tablas de
dimensiones asociadas.
Se conoce como esquema
estelar ya que su
estructura se asemeja a
una estrella.
El esquema en estrella es
el tipo más simple de
esquema de Data
Warehouse.
Está optimizado para
consultar grandes
conjuntos de datos.
Ph.D. Franklin Parrales 59
08/02/2022
Inteligencia de Negocios Carrera de Software
Extra: esquema Galaxy
• Un esquema Galaxy contiene dos tablas de hechos que
comparten tablas de dimensiones. También se llama
Fact Constellation Schema.
• El esquema se ve como una colección de estrellas, de
ahí el nombre Galaxy Schema.
Ph.D. Franklin Parrales 60
08/02/2022
Inteligencia de Negocios Carrera de Software
Id_Ciudad(pk)
Nombre
Ciudad
Id_Producto (fk)
Id_Proveedor (fk)
Id_Bodega (fk)
Id_Dia
diaProm
Valor
Cantidad
Compra
Id_Productos (pk)
Id_Ciudad(fk)
nombre
Bodega
Id_Dia (pk)
Dia
Id_Mes(fk)
Dia
Id_Proveedor (Pk)
Nombre
Apellido
Id_Ciudad(fk)
Proveedor
Id_Producto (pk)
Nombre
PrecioUnitario
Id_Categoria(fk)
Producto
Id_Categoria(pk)
Nombre
Categoria
Id_mes (pk)
Dia
Id_año(fk)
Mes
Id_año (pk)
Año
Año
Tabla de
Hecho
La tabla de hecho NO
tiene clave primaria
Ph.D. Franklin Parrales 61
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejercicio de Constelación
Ciudad
Jefe de Planta
Ciudad
Clientes
Cantidad
Valor Total
Porcentaje
Ciudad
Tienda
Mes
dia
Año
Producto
Categoria
CantProducidas
Eficacia
Turno
Ph.D. Franklin Parrales 62
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 63
08/02/2022
Inteligencia de Negocios Carrera de Software
Esquema copo de nieve
Un esquema de copo
de nieve es una
extensión de un
esquema de estrella y
agrega dimensiones
adicionales. Se llama
snowflake porque su
diagrama se asemeja a
un copo de nieve.
Las tablas de
dimensiones
están normalizadas,
lo que divide los datos
en tablas
adicionales. En el
siguiente ejemplo, País
se normaliza aún más
en una tabla individual.
Ph.D. Franklin Parrales 64
08/02/2022
Inteligencia de Negocios Carrera de Software
Copo de nieve:
Id_Persona (Pk)
Nombre
Edad
Id_Ciudad(fk)
Persona
Id_Ciudad(Pk)
Nombre
Ciudad
Id_Producto (fk)
Id_Persona (fk)
Id_Dia (fk)
VentaTotal
MaxVenta
Ventas
Id_Productos (Pk)
NombreXproducto
Categoria
Productos
Id_Tiempo (pk)
Dia (fk)
DiaSemana
Tiempo
Dimensión: Producto
Dimensión: Personas
Dimensión: Ciudad
Dimensión: Tiempo
Tabla de Hecho
(Fact Table)
Esquema de copo de nieve
Ph.D. Franklin Parrales 65
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Compras
Dias_promEntrega
Valor
Cantidad
Bodega
Ciudad
Producto
Categoría
día
mes
año
proveedor
Ciudad
Tiempo
Dimensiones
Ph.D. Franklin Parrales 66
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 67
08/02/2022
Inteligencia de Negocios Carrera de Software
OLTP
• OLTP es la sigla en inglés de Procesamiento de
Transacciones En Línea: es un tipo de procesamiento que
facilita y administra aplicaciones transaccionales, usualmente
para entrada de datos y recuperación y procesamiento de
transacciones (gestor transaccional).
El Procesamiento de Transacciones Online (OLTP), usado
normalmente por aplicaciones orientadas a la transacción:
• No ha sido construido teniendo en cuenta la creación de
bases de datos segregada.
• Los potenciales análisis que puedan realizarse se hacen
sobre los mismos datos usados por la aplicación.
• Tampoco han sido diseñadas para situaciones donde la
cantidad de datos a ser analizados es exponencialmente
grande.
Ph.D. Franklin Parrales 68
08/02/2022
Inteligencia de Negocios Carrera de Software
OLAP
• Los sistemas OLAP permiten el acceso a grandes cantidades
de datos a través de procesos de consulta, sobre bases de
datos multidimensionales con el propósito de servir a
sistemas de apoyo a las decisiones.
• Tiene la función de ayudar a interpretar y integrar el
significado de los datos operativos, suministrando
herramientas de muy alto nivel que pueden categorizarse en
tres niveles:
▪ Consulta y reporte de la información. Generan reportes y gráficos,
mientras mantienen un control estricto sobre el acceso a la información.
▪ Análisis multidimensional. Recorren la información por niveles, del
resumen al detalle y de éste a la consolidación, para identificar tendencias
desde diferentes perspectivas.
▪ Exploración de datos. Ejecutan procesos automatizados que descubren
patrones ocultos en los datos.
Ph.D. Franklin Parrales 69
08/02/2022
Inteligencia de Negocios Carrera de Software
OLTP y OLAP
Ph.D. Franklin Parrales 70
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Cuándo es necesario OLAP?
Ph.D. Franklin Parrales 71
08/02/2022
Inteligencia de Negocios Carrera de Software
Principales Beneficios de OLAP
Ph.D. Franklin Parrales 72
08/02/2022
Inteligencia de Negocios Carrera de Software
Las herramientas de OLAP se caracterizan* por:
✓ofrecer una visión multidimensional de los datos.
✓no imponer restricciones sobre el número de dimensiones.
✓ofrecer simetría para las dimensiones.
✓permitir definir jerarquías sobre las dimensiones
✓ofrecer operadores de manipulación: drill-down, roll-up.
✓permitir expresar condiciones sobre las dimensiones y criterios de
agrupación de los datos.
✓ser transparentes al tipo de tecnología que soporta el almacén de datos
(ROLAP o MOLAP).
*Subconjunto de las 12 reglas propuestas por E.F. Codd.
Las doce reglas propuestas por E.F. Codd
Ph.D. Franklin Parrales 73
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de sistemas OLAP
ROLAP
• Implementación OLAP que almacena los datos en un
motor relacional. Típicamente, los datos son
detallados, evitando las agregaciones y las tablas se
encuentran desnormalizadas.
• Los esquemas más comunes sobre los que se trabaja
son estrella o copo de nieve, aunque es posible
trabajar sobre cualquier base de datos relacional.
• La arquitectura está compuesta por un servidor de
banco de datos relacional y el motor OLAP se
encuentra en un servidor dedicado. La principal
ventaja de esta arquitectura es que permite el análisis
de una enorme cantidad de datos.
Ph.D. Franklin Parrales 74
08/02/2022
Inteligencia de Negocios Carrera de Software
ROLAP
Usuario Final
Warehouse
Data
cache
Live
fetch
Cache
Query
Data
Ph.D. Franklin Parrales 75
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de sistemas OLAP
MOLAP
• Esta implementación OLAP almacena los datos
en una base de datos multidimensional.
• Para optimizar los tiempos de respuesta, el
resumen de la información es usualmente
calculado por adelantado. Estos valores
precalculados o agregaciones son la base de las
ganancias de desempeño de este sistema.
• Algunos sistemas utilizan técnicas de compresión
de datos para disminuir el espacio de
almacenamiento en disco debido a los valores
precalculados.
Ph.D. Franklin Parrales 76
08/02/2022
Inteligencia de Negocios Carrera de Software
MOLAP
Usuario Final
Warehouse
Query
Data
MDDB
Carga
periódica
Ph.D. Franklin Parrales 77
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de sistemas OLAP
HOLAP (Hybrid OLAP)
• Almacena algunos datos en un motor
relacional y otros en una base de datos
multidimensional.
Ph.D. Franklin Parrales 78
08/02/2022
Inteligencia de Negocios Carrera de Software
HOLAP
Usuario Final
Trae al
cache
MDDB y
cache
carga
periódica Query
Data
Warehouse
Ph.D. Franklin Parrales 79
08/02/2022
Inteligencia de Negocios Carrera de Software
Comparación:
• Algunas implementaciones MOLAP son propensas a la
"explosión" de la base de datos
– Este fenómeno provoca la necesidad de grandes cantidades de
espacio de almacenamiento para el uso de una base de datos
MOLAP cuando se dan ciertas condiciones:
• elevado número de dimensiones, resultados precalculados y escasos
datos multidimensionales.
– Las técnicas habituales de atenuación de la explosión de la
base de datos no son todo lo eficientes que sería deseable.
• Por lo general MOLAP ofrece mejor rendimiento debido a la
especializada indexación y a las optimizaciones de
almacenamiento.
• MOLAP también necesita menos espacio de almacenamiento
en comparación con los especializados ROLAP porque su
almacenamiento especializado normalmente incluye técnicas
de compresión.
Ph.D. Franklin Parrales 80
08/02/2022
Inteligencia de Negocios Carrera de Software
Comparación:
• ROLAP es generalmente más escalable. Sin
embargo, el gran volumen de preprocesamiento es
difícil de implementar eficientemente por lo que con
frecuencia se omite; por tanto, el rendimiento de una
consulta ROLAP puede verse afectado.
• Desde la aparición de ROLAP van apareciendo
nuevas versiones de bases de datos preparadas para
realizar cálculos, las funciones especializadas que se
pueden utilizar tienen más limitaciones.
• HOLAP (OLAP Híbrido) engloba un conjunto de
técnicas que tratan de combinar MOLAP y ROLAP de
la mejor forma posible. Generalmente puede pre-
procesar rápidamente, escala bien, y proporciona una
buena función de apoyo.
Ph.D. Franklin Parrales 81
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Almacenes de Datos (data warehouse)
• Esquemas de Datos
• Datamart
• Herramientas ETL (Extracción, Transformación y Carga)
– Extracción de datos
– Transformación de datos
– Carga de datos
• Tabla Dimensiones y Tabla Hechos
• Enfoque de Desarrollo de un sistema de Datawarehouse
– Esquema Estrella
– Esquema Copo de nieve
• OLAP
– Cubos OLAP
Ph.D. Franklin Parrales 82
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Para crear el data mart de un área de la empresa es
preciso encontrar la estructura óptima para el
análisis de su información, estructura que puede
estar montada sobre:
➢ Base de datos OLTP, como el propio
datawarehouse.
➢ Una base de datos OLAP.
Ph.D. Franklin Parrales 83
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Datamart OLAP
Se basan en los populares cubos OLAP, que se
construyen agregando, según los requisitos de cada
área o departamento, las dimensiones y los
indicadores necesarios de cada cubo relacional. El
modo de creación, explotación y mantenimiento de
los cubos OLAP es muy heterogéneo, en función de
la herramienta final que se utilice.
Ph.D. Franklin Parrales 84
08/02/2022
Inteligencia de Negocios Carrera de Software
Data mart
Datamart OLTP
Las estructuras más comunes en este sentido son
las tablas report, que vienen a ser fact-
tables reducidas (que agregan las dimensiones
oportunas), y las vistas materializadas.
Ph.D. Franklin Parrales 85
08/02/2022
Inteligencia de Negocios Carrera de Software
Time
time_key
SQL_date
day_of_week
month
Store
store_key
store_id
store_name
address
district
floor_type
Clerk
clerk_key
clerk_id
clerk_name
clerk_grade
Product
product_key
sku
description
brand
category
Customer
customer_key
customer_name
purchase_profile
credit_profile
address
Promotion
promotion_key
promotion_name
price_type
ad_type
Order
time_key
store_key
clerk_key
product_key
customer_key
promotion_key
dollars_sold
units_sold
dollars_cost
Modelo
Dimensional
Esquema de estrella
Ph.D. Franklin Parrales 86
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubos OLAP
• Recordemos que La tabla central se llama
"tabla de hechos" y referencia un número
de "dimensiones" (que son las tablas que
están alrededor).
• Usando este método es posible producir
informes que incluyan gran cantidad de
información distribuida.
• Por esta razón se construyen (hiper)cubos
de información, y mediante este modelo
de datos desde diferentes dimensiones
(potencialmente todas variables) pueden
ser enlazadas todas juntas.
• Cubo OLAP con Tiempo, Cliente y
Producto como dimensiones:
La principal característica
que potencia a OLAP, es
que es lo más rápido a la
hora de ejecutar
sentencias SQL de tipo
SELECT, en
contraposición con OLTP
que es la mejor opción
para operaciones de tipo
INSERT, UPDATE Y
DELETE
Ph.D. Franklin Parrales 87
08/02/2022
Inteligencia de Negocios Carrera de Software
Ver tabla de hechos como un cubo de
datos n-dimensional
Cada tabla de dimensión
representa una
dimensión del cubo.
Los hechos son los
datos del cubo
Los hechos pueden
agregarse previamente a lo
largo de cada dimensión o
combinación de
dimensiones.
Ph.D. Franklin Parrales 88
08/02/2022
Inteligencia de Negocios Carrera de Software
Pero… ¿Qué es un Cubo?
• Cubo= Información de Datos->Data Warehouse
– Nombre maquillado de Sistemas Expertos
– Cubo de Información
BSC
Cubo
Datos
Balanced Score Card
Estrategia
Táctica
Operación
Ph.D. Franklin Parrales 89
08/02/2022
Inteligencia de Negocios Carrera de Software
Pero… ¿Qué es un Cubo?
• Contiene datos de primer interés para los
usuarios
• Es un subconjunto de los datos que están
en la bodega. Contiene valores
agregados a todos los niveles de las
dimensiones
• Usados para organizar los datos en
dimensiones y medidas
• Mejoran la velocidad de consulta
Ph.D. Franklin Parrales 90
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo
• Data Mart
Datos
Información
Patrón
Minería de Datos(Sistema Experto)
Conocimiento
Ph.D. Franklin Parrales 91
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo:
Id_Persona (Pk)
Nombre
Edad
Id_Ciudad(fk)
Persona
Id_Ciudad(Pk)
Nombre
Ciudad
Id_Producto (fk)
Id_Persona (fk)
Id_Dia (fk)
VentaTotal
MaxVenta
Ventas
Id_Productos (Pk)
NombreXproducto
Categoria
Productos
Id_Tiempo (pk)
Dia (fk)
DiaSemana
Tiempo
Dimensión: Producto
Dimensión: Personas
Dimensión: Ciudad
Dimensión: Tiempo
Tabla de Hecho
(Fact Table)
Esquema de copo de nieve
Ph.D. Franklin Parrales 92
08/02/2022
Inteligencia de Negocios Carrera de Software
Consulta Multidimensional
• Lo que guarda el cubo son medidas o
indicadores.
Fuente de Datos
ETL
Id_Tiempo (fk)
Dia (fk)
DiaSemana
Tiempo
Convertir tiempo en tabla
Data Mapping
Medidas=Variables=Indicadores
Tiempo= Atributo en Transaccional
Tiempo= entidad en ETL
Ph.D. Franklin Parrales 93
08/02/2022
Inteligencia de Negocios Carrera de Software
Data Mapping
idDia(lo saca del destino)
diaSemana(lo calcula)
Carga los valores
1/2/09
E
303
1/2/09
Domingo
T
Domingo
L
Ph.D. Franklin Parrales 94
08/02/2022
Inteligencia de Negocios Carrera de Software
Estructura multidimensional
José
Uvas
Melones
Q4
Q1 Q2 Q3
Dimensión: FECHA
Juan
Luis
Dimension:
PERSONA
Manzanas
Cerezas
Ana
Los cubos pueden
tener N
dimensiones pero
mostraremos uno
de 3 dimensiones
porque es más
fácil de dibujar y
entender.
Ph.D. Franklin Parrales 95
08/02/2022
Inteligencia de Negocios Carrera de Software
Consulta Multidimensional
Uvas
Q4
Q1 Q2 Q3
Dimensión: FECHA
Juan
Luis
José
Manzanas
Cerezas
Ana
Suma Venta,
Max Venta
Melones
Ph.D. Franklin Parrales 96
08/02/2022
Inteligencia de Negocios Carrera de Software
Consulta Multidimensional
• El cubo puede responder preguntas que
incluyan tres dimensiones y una medida
– Dimensión producto: contiene categorías del
producto
– Dimensión almacén: contiene almacenes
– Dimensión tiempo: contiene periodos del año
– Medida ventas: cantidad numérica que puede
ser sumarizada
Ph.D. Franklin Parrales 97
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo Multidimensional
Sección
Hogar
Informática
Alimentos
Alimentos
Marcas
Fanta
Gatorade
Pepsi-Cola
Coca-Cola
Red Bull
Coca-Cola
24
Semana del mes
03 10 17
23.5 MM UNIDADES
€ 28.3 VENTA BRUTA
€ 26.8 COSTO
24
“Mostrar las ventas de
Coca-Cola en la
sección de alimentos,
para la 4ta. semana.”
Ph.D. Franklin Parrales 98
08/02/2022
Inteligencia de Negocios Carrera de Software
Cubo
• Un cubo puede tener hasta 64 dimensiones
– Cada celda del cubo tiene un valor
– El valor de cada celda es la intersección de las
dimensiones
– El dato en la celda es una agregación
• Para obtener las ventas totales anuales por
producto y localización: seleccionar el
producto y la localización y suma por las
cuatro celdas de tiempo
Ph.D. Franklin Parrales 99
08/02/2022
Inteligencia de Negocios Carrera de Software
Jerarquía de agregación
Ph.D. Franklin Parrales 100
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
Ph.D. Franklin Parrales 101
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
Ph.D. Franklin Parrales 102
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
Ph.D. Franklin Parrales 103
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelo de Consulta
Ph.D. Franklin Parrales 104
08/02/2022
Inteligencia de Negocios Carrera de Software
Actividad objeto de análisis: ventas de productos.
Información registrada sobre las ventas: "ventas diarias de productos en
los supermercados de la cadena“.
Ejemplo: "del producto “Coca-Cola 33cl” se han vendido en el almacén “Almacén nro.1”
el día 12/01/1999, 50 unidades por un importe de 70€.”
Para hacer el análisis de ventas no interesa la venta individual
(ticket) realizada a un cliente sino las ventas diarias de
productos en los distintos almacenes de la cadena.
Ejemplo Organización:
Cadena de supermercados.
Ph.D. Franklin Parrales 105
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
- Dimensiones que
caracterizan la actividad.
- La actividad de ventas se
registra a nivel diario para
cada producto y cada
almacén
Producto Tiempo
(día)
Almacén
-Actividad que es objeto de
análisis con los indicadores
que interesa analizar
-“Importe total de ventas por
almacén y producto”
Ph.D. Franklin Parrales 106
08/02/2022
Inteligencia de Negocios Carrera de Software
Agua
Jabón
Vino
Leche
Almacén2
Almacén1
Almacén
Producto
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
Tabla multidimensional
OLAP
Ph.D. Franklin Parrales 107
08/02/2022
Inteligencia de Negocios Carrera de Software
Presentaciones del esquema
multidimensional en una herramienta
OLAP:
-representación en estrella
-representación en cubo de datos
Ph.D. Franklin Parrales 108
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Dimensiones que
caracterizan la actividad.
Producto Tiempo
(día)
Almacén
Modelo en estrella:
-actividad (centro)
-dimensiones (puntas)
Actividad que es objeto de
análisis con los indicadores
que interesa analizar
Modelo de Consulta
Ph.D. Franklin Parrales 109
08/02/2022
Inteligencia de Negocios Carrera de Software
Almacén
Producto
Tiempo
Ventas
Almacén
Producto
Tiempo
Ventas
Cliente
4 dimensiones
3 dimensiones
Modelo en cubo de datos:
-actividad (celda)
-dimensiones (ejes)
Modelo de Cubo de Datos
Ph.D. Franklin Parrales 110
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nombre
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de
análisis con los indicadores
que interesa analizar
Dimensiones con atributos
descriptores.
Trimestre
Nro_almacén
Atributos Descriptores
Ph.D. Franklin Parrales 111
08/02/2022
Inteligencia de Negocios Carrera de Software
✓ en un esquema multidimensional se representa una actividad que
es objeto de análisis (hecho) y las dimensiones que caracterizan la
actividad (dimensiones).
✓ la información relevante sobre el hecho se representa por un
conjunto de indicadores (medidas o atributos de hecho).
✓ la información descriptiva de cada dimensión se representa por
un conjunto de atributos (atributos de dimensión).
Modelo Multidimensional
Ph.D. Franklin Parrales 112
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nombre
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidas
Día
Mes
Día de la
semana
Año
Trimestre
Nro_almacén dimensión
atributos
Modelo Multidimensional
Ph.D. Franklin Parrales 113
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Nombre
El Atributo Identificador de las
Dimensiones
Ph.D. Franklin Parrales 114
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Los valores (instancias)
de la dimensión Producto
son productos ofertados
por la cadena
Los valores (instancias)
de la dimensión Tiempo
son días del calendario
Los valores (instancias)
de la dimensión Almacén
son almacenes de la
cadena
Nombre
Ph.D. Franklin Parrales 115
08/02/2022
Inteligencia de Negocios Carrera de Software
departamento
nro_almacén ciudad región
nro_almacén tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
departamento
nro. producto tipo
Jerarquías basadas generalmente en dependencias
funcionales entre los atributos de la dimensión.
Jerarquías en las dimensiones de los atributos
Ph.D. Franklin Parrales 116
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Nombre
Jerarquías en las dimensiones de los atributos
Ph.D. Franklin Parrales 117
08/02/2022
Inteligencia de Negocios Carrera de Software
Los atributos de las dimensiones van a servir para:
✓ expresar condiciones que restringen el subconjunto de
datos del AD que se desea consultar
✓ definir los parámetros de la consulta: nivel de detalle (o
agregación) al que se desean presentar los datos
seleccionados
✓ añadir información descriptiva a los elementos de la
dimensión
✓ las jerarquías definidas entre los atributos de las
dimensiones son una guía para "navegar" por los datos
seleccionados, cambiando el nivel de agregación con el
que son presentados
Ph.D. Franklin Parrales 118
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Nro_almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Día de la
semana
Año
Trimestre
Nombre
Importe total de ventas por
almacén, para almacenes de
tipo "gran superficie", indicando
el nombre completo del
almacén.
atributo de
selección
atributo
descriptivo
atributo de
agrupación
Atributo de: Agrupación, Descriptivo y Selección
Ph.D. Franklin Parrales 119
08/02/2022
Inteligencia de Negocios Carrera de Software
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas por
año, región y departamento”
OLAP
Trimestre
Nombre
Ph.D. Franklin Parrales 120
08/02/2022
Inteligencia de Negocios Carrera de Software
informe
Importe de ventas
SELECT ...........
departamento región año importe
OLAP
año
región
departamento
ROLAP
Ph.D. Franklin Parrales 121
08/02/2022
Inteligencia de Negocios Carrera de Software
fecha
nro_producto
nro_almacén
importe
unidades
Ventas
nro_almacén
nombre
dirección
región
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
nro_producto
descripción
marca
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Almacén
Producto
fecha
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
Modelo Multidimensional
Ph.D. Franklin Parrales 122
08/02/2022
Inteligencia de Negocios Carrera de Software
“Una consulta a un almacén de datos consiste generalmente en la
obtención de medidas sobre los hechos parametrizados por atributos de
las dimensiones y restringidos por condiciones impuestas sobre las
dimensiones”
¿Importe total de las ventas durante este año de los productos
del departamento Bebidas, por trimestre y por categoría?.
Restricciones: productos del departamento Bebidas, ventas durante
este año
medida hecho
Parámetros de la consulta: por categoría de producto y por
trimestre
Otro Ejemplo
Ph.D. Franklin Parrales 123
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en
este año, del departamento
de “Bebidas”, por categoría y
trimestre”
OLAP
Trimestre
Nombre
Otro Ejemplo
Ph.D. Franklin Parrales 124
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT ...........
trimestre categoría importe
OLAP
ROLAP
Otro Ejemplo
Ph.D. Franklin Parrales 125
08/02/2022
Inteligencia de Negocios Carrera de Software
fecha
nro_producto
nro_almacén
importe
unidades
Ventas
nro_almacén
nombre
dirección
región
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
nro_producto
descripción
marca
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Almacén
Producto
fecha
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
Ph.D. Franklin Parrales 126
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT P.categoría, T.trimestre, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.trimestre, P.categoría
medida
selección de datos
de la tabla de
hechos
restringidos por
condiciones sobre
las tablas de
dimensión
agregación sobre
Almacén
agrupación por
Tiempo y Producto
tabla de hechos
parámetros
Consulta SQL
Ph.D. Franklin Parrales 127
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT D1.C1, ..., Dn.Cn, Agg1(F.A1),..., Aggn(F.An)
FROM Hechos F, Dimensión1 D1,...Dimensión Dn
WHERE
JOIN_cond (F,D1) AND
...
JOIN_cond (F,Dn) AND
condición_selección
GROUP BY D1.C1,..., Dn.Cn
Forma de la Consulta OLAP
Ph.D. Franklin Parrales 128
08/02/2022
Inteligencia de Negocios Carrera de Software
Presentación tabular
(relacional) de los
datos seleccionados
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Se asumen dos categorías en
el departamento de Bebidas:
Refrescos y Zumos.
Ph.D. Franklin Parrales 129
08/02/2022
Inteligencia de Negocios Carrera de Software
T4
T3
T2
T1
Zumos
Refrescos
Categoría
Trimestre Presentación matricial
(multidimensional) de los
datos seleccionados
Los parámetros de la consulta (“por trimestre” y “por categoría”)
determinan los criterios de agrupación de los datos seleccionados
("ventas de productos del año actual", "del departamento de
Bebidas"). La agrupación se realiza sobre dos atributos de dos
dimensiones: Producto (categoría), Tiempo (trimestre).
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
Ph.D. Franklin Parrales 130
08/02/2022
Inteligencia de Negocios Carrera de Software
El carácter agregado de las consultas en el análisis de datos, aconseja
la definición de nuevos operadores que faciliten la agregación
(consolidación) y la disgregación (división) de los datos:
✓ Agregación (roll): permite sustituir (eliminándolo o utilizando uno
de mayor granularidad) un criterio de agrupación utilizado en el
análisis. Se agregan los grupos de la consulta actual.
✓ Disgregación (drill): permite sustituir (añadiendo uno nuevo o
utilizando uno de menor granularidad) un criterio de agrupación
utilizado en el análisis. Se disgregan los grupos de la consulta
actual.
Agregación y Disgregación
Ph.D. Franklin Parrales 131
08/02/2022
Inteligencia de Negocios Carrera de Software
Las operaciones de agregación (ROLL) y disgregación
(DRILL) se pueden hacer sobre:
✓ atributos de una dimensión sobre los que se ha
definido una jerarquía: DRILL-DOWN, ROLL-UP
departamento – categoría - producto (Producto)
año - trimestre – mes - día (Tiempo)
✓ sobre dimensiones independientes: DRILL-ACROSS,
ROLL-ACROSS
Producto – Almacén -Tiempo
ROLL y DRILL
Ph.D. Franklin Parrales 132
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este
año, del departamento de
“Bebidas”, por categoría y mes”
OLAP
Trimestre
Nombre
ROLL y DRILL
Ph.D. Franklin Parrales 133
08/02/2022
Inteligencia de Negocios Carrera de Software
trimestre categoría importe
OLAP
¡ la operación de DRILL
se realiza sobre el
informe original !
día
mes
año
trimestre
ROLL-UP
DRILL-DOWN
Ph.D. Franklin Parrales 134
08/02/2022
Inteligencia de Negocios Carrera de Software
Categoría Ventas
Mes
500000
Refrescos
Enero
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada fila (categoría-trimestre) de la
consulta original se disgrega en tres
nuevas filas (categoría-mes).
Ph.D. Franklin Parrales 135
08/02/2022
Inteligencia de Negocios Carrera de Software
drill-down
SELECT P.categoría, T.mes, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.mes, P.categoría
medida
selección de
datos de la tabla
de hechos
restringidos por
condiciones
sobre las tablas
de dimensión
agrupación por
Tiempo y Producto
tabla de hechos
Sustitución de nivel en la jerarquía de
la dimensión Tiempo por un nivel de
granularidad más fina
Operación SQL
Ph.D. Franklin Parrales 136
08/02/2022
Inteligencia de Negocios Carrera de Software
Si se desea introducir la dimensión Almacén en el
análisis anterior e incluir un nuevo criterio de agrupación
sobre la ciudad del almacén:
¿Importe total de las ventas durante este año de los productos del
departamento Bebidas, por trimestre, por categorías y por ciudad
del almacén?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto, por trimestre y por
ciudad del almacén.
Ph.D. Franklin Parrales 137
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en
este año, del departamento
de “Bebidas”, por categoría,
trimestre y ciudad”
OLAP
Trimestre
Explotación de un almacén de datos: herramientas OLAP
Nombre
Ph.D. Franklin Parrales 138
08/02/2022
Inteligencia de Negocios Carrera de Software
trimestre categoría importe
OLAP
¡ la operación de
DRILL se realiza sobre
el informe original !
Explotación de un almacén de datos: herramientas OLAP
Ph.D. Franklin Parrales 139
08/02/2022
Inteligencia de Negocios Carrera de Software
Categoría Trimestre Ventas
Ciudad
T2
T1
300000
T2 700000
Refrescos T1
Valencia
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
León
Refrescos
Refrescos
Refrescos
Valencia
León
1000000
1000000
* Se asumen dos ciudades: Valencia y León.
Cada fila (categoría-trimestre) de la
consulta original se disgrega en dos
nuevas filas (categoría-trimestre-
ciudad) para las ciudades de León y
Valencia.
Ph.D. Franklin Parrales 140
08/02/2022
Inteligencia de Negocios Carrera de Software
drill-across
SELECT P.categoría, T.trimestre, A.ciudad, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P, Almacén A
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
V.nro_almacén=A.nro_almacén AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.trimestre, P.categoría, A.ciudad
medida
selección de
datos de la tabla
de hechos
restringidos por
condiciones
sobre las tablas
de dimensión
agrupación por
Tiempo, Producto y
Almacén
tabla de hechos
Inclusión de una nueva dimensión en
los criterios de agrupación
Operación SQL
Ph.D. Franklin Parrales 141
08/02/2022
Inteligencia de Negocios Carrera de Software
T1 T2 T3 T4
Zumos
1000000
300000
300000
500000
100000
200000
500000
2000000
Presentación matricial de
los datos seleccionados.
Ph.D. Franklin Parrales 142
08/02/2022
Inteligencia de Negocios Carrera de Software
Si se desea eliminar el criterio de agrupación sobre la
dimensión Tiempo en la consulta original:
¿Importe total de las ventas durante este año de los
productos del departamento Bebidas, por categorías?.
Ph.D. Franklin Parrales 143
08/02/2022
Inteligencia de Negocios Carrera de Software
“2002”
“Bebidas”
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Día de la
semana
Nro_almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en
este año, del departamento
de “Bebidas”, por categorías”
OLAP
Trimestre
Nombre
Ph.D. Franklin Parrales 144
08/02/2022
Inteligencia de Negocios Carrera de Software
OLAP
trimestre categoría importe
¡ la operación de ROLL
se realiza sobre el
informe original !
Ph.D. Franklin Parrales 145
08/02/2022
Inteligencia de Negocios Carrera de Software
Categoría Ventas
Refrescos 8000000
Zumos 12900000
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Ph.D. Franklin Parrales 146
08/02/2022
Inteligencia de Negocios Carrera de Software
SELECT P.categoría, T.trimestre, SUM (V.importe)
FROM Ventas V, Tiempo T, Producto P
WHERE V.nro_producto = P.nro_producto AND
V.fecha = T.fecha AND
P.departamento= ‘ Bebidas’ AND
T.año= year (TODAY)
GROUP BY T.trimestre, P.categoría
medida
selección de
datos de la tabla
de hechos
restringidos por
condiciones
sobre las tablas
de dimensión
agregación sobre
Almacén y Tiempo
agrupación por
Producto
tabla de hechos
roll-across
Eliminación de una dimensión
en los criterios de agrupación
Operación SQL
Ph.D. Franklin Parrales 147
08/02/2022
Inteligencia de Negocios Carrera de Software
Otras operaciones de OLAP:
✓ SLICE: elimina una dimensión de la consulta actual,
fijando un valor para ella.
✓ DICE: selecciona un subconjunto de datos de la
consulta actual.
✓ PIVOT: reorientación de las dimensiones en la
consulta actual.
Ph.D. Franklin Parrales 148
08/02/2022
Inteligencia de Negocios Carrera de Software
Ventas
Electrónica
Juguetes
Ropa
Cosméticos
Q1
5,2
1,9
2,3
1,1
Electónica
Juguetes
Ropa
Cosméticos
Q2
8,9
0,75
4,6
1,5
Productos Tienda1 Tienda2
5,6
1,4
2,6
1,1
7,2
0,4
4,6
0,5
Ventas
Electrónica
Juguetes
Ropa
Cosméticos
Tienda1
5,2
1,9
2,3
1,1
Electrónica
Juguetes
Ropa
Cosméticos
Tienda2
5,6
1,4
2,6
1,1
Productos Q1 Q2
8,9
0,75
4,6
1,5
7,2
0,4
4,6
0,5
PIVOT
Pivot
Ph.D. Franklin Parrales 149
08/02/2022
Inteligencia de Negocios Carrera de Software
Ventas
Electrónica
Juguetes
Ropa
Cosméticos
Q1
5,2
1,9
2,3
1,1
Electrónica
Juguetes
Ropa
Cosméticos
Q2
8,9
0,75
4,6
1,5
Productos Tienda1 Tienda2
5,6
1,4
2,6
1,1
7,2
0,4
4,6
0,5
Ventas
Electrónica
Juguetes
Q1
5,2
1,9
Productos Tienda1
Electrónica
Juguetes
Q2
8,9
0,75
DICE
Tienda3
6,1
4,2
2,6
1,8
6,2
0,5
3,6
0,7
Tienda2
5,6
1,4
7,2
0,4
DICE
Ph.D. Franklin Parrales 150
08/02/2022
Inteligencia de Negocios Carrera de Software
Ventas
Electrónica
Juguetes
Ropa
Cosméticos
Q1
5,2
1,9
2,3
1,1
Electrónica
Juguetes
Ropa
Cosméticos
Q2
8,9
0,75
4,6
1,5
Productos Tienda1 Tienda2
5,6
1,4
2,6
1,1
7,2
0,4
4,6
0,5
Ventas
5,2
Q1
5,6
Tienda1 Tienda2
8,9
Q2
7,2
SLICE
Productos = 'Electrónica'
SLICE
Ph.D. Franklin Parrales 151
08/02/2022
Inteligencia de Negocios Carrera de Software
Infraestructuras y
arquitecturas de
inteligencia de negocios
Unidad 2
Final de la unidad

More Related Content

What's hot

Introducción a las Bases de Datos
Introducción a las Bases de DatosIntroducción a las Bases de Datos
Introducción a las Bases de DatosEvelynUBA
 
Listas como estructura de datos..
Listas como estructura de datos..Listas como estructura de datos..
Listas como estructura de datos..NANO-06
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Archivo secuencial-indexado
Archivo secuencial-indexadoArchivo secuencial-indexado
Archivo secuencial-indexadoAleizapata
 
ED Unidad 4: Estructuras de datos no lineales (árboles)
ED Unidad 4: Estructuras de datos no lineales (árboles)ED Unidad 4: Estructuras de datos no lineales (árboles)
ED Unidad 4: Estructuras de datos no lineales (árboles)Franklin Parrales Bravo
 
Métodos de ordenación externa
Métodos de ordenación externaMétodos de ordenación externa
Métodos de ordenación externaEdwin Narváez
 
Bases De Datos Paralelas
Bases De Datos ParalelasBases De Datos Paralelas
Bases De Datos Paralelaspineda2
 
DISEÑO DE SALIDA DE SISTEMAS
DISEÑO DE SALIDA DE SISTEMAS DISEÑO DE SALIDA DE SISTEMAS
DISEÑO DE SALIDA DE SISTEMAS passodobles115
 
Sistemas operativos distribuidos
Sistemas operativos distribuidosSistemas operativos distribuidos
Sistemas operativos distribuidoscarlosmax10
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datoslalopg
 
Data mining fp growth
Data mining fp growthData mining fp growth
Data mining fp growthShihab Rahman
 
Archivo Secuencial-Indexado
Archivo Secuencial-IndexadoArchivo Secuencial-Indexado
Archivo Secuencial-Indexadoluismy_martinez
 
Data warehouse
Data warehouseData warehouse
Data warehousemaggybe
 

What's hot (20)

Datawarehouse and OLAP
Datawarehouse and OLAPDatawarehouse and OLAP
Datawarehouse and OLAP
 
Introducción a las Bases de Datos
Introducción a las Bases de DatosIntroducción a las Bases de Datos
Introducción a las Bases de Datos
 
Listas como estructura de datos..
Listas como estructura de datos..Listas como estructura de datos..
Listas como estructura de datos..
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Diseño de archivos
Diseño de archivosDiseño de archivos
Diseño de archivos
 
VISTAS
VISTASVISTAS
VISTAS
 
Proyecto de Minería de Datos
Proyecto de Minería de DatosProyecto de Minería de Datos
Proyecto de Minería de Datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Archivo secuencial-indexado
Archivo secuencial-indexadoArchivo secuencial-indexado
Archivo secuencial-indexado
 
Big data aplicado el negocio CRISP-DM
Big data aplicado el negocio CRISP-DMBig data aplicado el negocio CRISP-DM
Big data aplicado el negocio CRISP-DM
 
ED Unidad 4: Estructuras de datos no lineales (árboles)
ED Unidad 4: Estructuras de datos no lineales (árboles)ED Unidad 4: Estructuras de datos no lineales (árboles)
ED Unidad 4: Estructuras de datos no lineales (árboles)
 
Métodos de ordenación externa
Métodos de ordenación externaMétodos de ordenación externa
Métodos de ordenación externa
 
Bases De Datos Paralelas
Bases De Datos ParalelasBases De Datos Paralelas
Bases De Datos Paralelas
 
DB1 Unidad 5: SQL Avanzado
DB1 Unidad 5: SQL AvanzadoDB1 Unidad 5: SQL Avanzado
DB1 Unidad 5: SQL Avanzado
 
DISEÑO DE SALIDA DE SISTEMAS
DISEÑO DE SALIDA DE SISTEMAS DISEÑO DE SALIDA DE SISTEMAS
DISEÑO DE SALIDA DE SISTEMAS
 
Sistemas operativos distribuidos
Sistemas operativos distribuidosSistemas operativos distribuidos
Sistemas operativos distribuidos
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datos
 
Data mining fp growth
Data mining fp growthData mining fp growth
Data mining fp growth
 
Archivo Secuencial-Indexado
Archivo Secuencial-IndexadoArchivo Secuencial-Indexado
Archivo Secuencial-Indexado
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 

Similar to IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios

Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSEnestor
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Julio Antonio Huaman Chuque
 
Data warehouse
Data warehouseData warehouse
Data warehousemalupahu
 
La planificacion segun_data_ware_house
La planificacion segun_data_ware_houseLa planificacion segun_data_ware_house
La planificacion segun_data_ware_houseernestoicidec
 
PLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxx
PLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxxPLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxx
PLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxxedwin520324
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
GRUPO 3_DATA WAREHOUSE_PRESENTACION.pptx
GRUPO 3_DATA WAREHOUSE_PRESENTACION.pptxGRUPO 3_DATA WAREHOUSE_PRESENTACION.pptx
GRUPO 3_DATA WAREHOUSE_PRESENTACION.pptxChristianCuzquillo
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 

Similar to IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios (20)

Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
ALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptxALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptx
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Kdd fase1
Kdd fase1Kdd fase1
Kdd fase1
 
La planificacion segun_data_ware_house
La planificacion segun_data_ware_houseLa planificacion segun_data_ware_house
La planificacion segun_data_ware_house
 
PLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxx
PLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxxPLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxx
PLANTILLA INCEPERÚ Sesión 3.pdf-xxxxxxxx
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Data mart
Data martData mart
Data mart
 
GRUPO 3_DATA WAREHOUSE_PRESENTACION.pptx
GRUPO 3_DATA WAREHOUSE_PRESENTACION.pptxGRUPO 3_DATA WAREHOUSE_PRESENTACION.pptx
GRUPO 3_DATA WAREHOUSE_PRESENTACION.pptx
 
Datawarehouse 1
Datawarehouse   1Datawarehouse   1
Datawarehouse 1
 
Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Business Inteligence
Business InteligenceBusiness Inteligence
Business Inteligence
 

More from Franklin Parrales Bravo

Presentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en CuencaPresentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en CuencaFranklin Parrales Bravo
 
IW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería WebIW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería WebFranklin Parrales Bravo
 
IW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicuaIW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicuaFranklin Parrales Bravo
 
IW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelosIW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelosFranklin Parrales Bravo
 
IW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería WebIW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería WebFranklin Parrales Bravo
 
AD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuidaAD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuidaFranklin Parrales Bravo
 
AD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidasAD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidasFranklin Parrales Bravo
 
EP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgosEP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgosFranklin Parrales Bravo
 
AD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidosAD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidosFranklin Parrales Bravo
 
AD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidosAD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidosFranklin Parrales Bravo
 
EP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectosEP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectosFranklin Parrales Bravo
 
EP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestraEP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestraFranklin Parrales Bravo
 
GCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del SoftwareGCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del SoftwareFranklin Parrales Bravo
 
GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software Franklin Parrales Bravo
 
POO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivosPOO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivosFranklin Parrales Bravo
 
POO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilosPOO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilosFranklin Parrales Bravo
 
POO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a ObjetosPOO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a ObjetosFranklin Parrales Bravo
 
POO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a ObjetosPOO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a ObjetosFranklin Parrales Bravo
 
RD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y EnrutamientoRD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y EnrutamientoFranklin Parrales Bravo
 

More from Franklin Parrales Bravo (20)

Presentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en CuencaPresentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en Cuenca
 
IW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería WebIW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería Web
 
IW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicuaIW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicua
 
IW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelosIW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelos
 
MOD Unidad 2: Tipos de modelado
MOD Unidad 2: Tipos de modeladoMOD Unidad 2: Tipos de modelado
MOD Unidad 2: Tipos de modelado
 
IW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería WebIW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
 
AD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuidaAD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuida
 
AD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidasAD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidas
 
EP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgosEP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgos
 
AD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidosAD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidos
 
AD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidosAD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidos
 
EP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectosEP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectos
 
EP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestraEP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestra
 
GCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del SoftwareGCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del Software
 
GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software
 
POO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivosPOO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivos
 
POO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilosPOO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilos
 
POO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a ObjetosPOO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a Objetos
 
POO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a ObjetosPOO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a Objetos
 
RD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y EnrutamientoRD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y Enrutamiento
 

IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios

  • 1. Ph.D. Franklin Parrales 1 08/02/2022 Inteligencia de Negocios Carrera de Software Infraestructuras y arquitecturas de inteligencia de negocios Unidad 2 Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo para uso de los cursos de Inteligencia de Negocios
  • 2. Ph.D. Franklin Parrales 2 08/02/2022 Inteligencia de Negocios Carrera de Software Objetivo general de la Unidad 2 Crear almacenes de datos mediante herramientas tecnológicas sobre arquitecturas de Inteligencia de Negocios para recopilar datos de varios orígenes a través del proceso ETL (Extracción, Transformación y Carga) para mantener información consolidada e integrada
  • 3. Ph.D. Franklin Parrales 3 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 4. Ph.D. Franklin Parrales 4 08/02/2022 Inteligencia de Negocios Carrera de Software Sistema Operacional (OLTP) Sistema de Almacén de Datos (DW) BD orientada al proceso BD orientada al análisis Almacén de datos Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de datos de los sistemas operacionales.
  • 5. Ph.D. Franklin Parrales 5 08/02/2022 Inteligencia de Negocios Carrera de Software Data Warehouse El objetivo último de un almacén de datos es integrar datos corporativos, residentes en bases de datos operacionales de la organización, en un único repositorio sobre el cual los usuarios puedan realizar consultas o informes y hacer análisis de datos. La tecnología de almacenes de datos integra las técnicas de bases de datos y las técnicas de análisis de datos.
  • 6. Ph.D. Franklin Parrales 6 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué es Data Warehouse? Colección de datos diseñada para dar apoyo a los procesos de toma de decisiones orientada hacia la información* relevante de la organización integrada variable en el tiempo no volátil características Bill Inmon 1992
  • 7. Ph.D. Franklin Parrales 7 08/02/2022 Inteligencia de Negocios Carrera de Software Almacenes de datos-data warehouse Según Oracle: • Un data warehouse es un tipo de sistema de gestión de datos diseñado para habilitar y dar soporte a las tareas de inteligencia empresarial (BI), especialmente las analíticas. • Los data warehouses solo se han diseñado para realizar consultas y tareas de análisis, y suelen contener grandes cantidades de datos históricos. • A menudo, la información dentro de un data warehouse proviene de una amplia gama de fuentes, como los archivos de registro de aplicaciones o las aplicaciones de transacción.
  • 8. Ph.D. Franklin Parrales 8 08/02/2022 Inteligencia de Negocios Carrera de Software Almacenes de datos-data warehouse • Un almacén de datos (DWH) se define como un repositorio central de datos almacenados a partir de una amplia gama de fuentes dentro y fuera de la empresa. • Es una tecnología que combina datos estructurados, no estructurados y semiestructurados de una o varias fuentes con el fin de ofrecer una vista unificada de los datos a los analistas y usuarios comerciales para mejorar la BI. • Por lo tanto, se utiliza con fines analíticos y de informes comerciales, lo que ayuda a mantener registros pasados ​​y analizar datos para optimizar las operaciones comerciales.
  • 9. Ph.D. Franklin Parrales 9 08/02/2022 Inteligencia de Negocios Carrera de Software Almacenes de datos-data warehouse Importante • También es importante diferenciar entre una base de datos y un almacén de datos, ya que a menudo la gente confunde los dos. • Si bien una base de datos es simplemente una técnica convencional para almacenar datos, el almacen de datos o data warehouse es un tipo de base de datos especialmente diseñada para el análisis de datos. • Almacena todo en una sola ubicación de numerosos bancos de datos externos.
  • 10. Ph.D. Franklin Parrales 10 08/02/2022 Inteligencia de Negocios Carrera de Software Orientada hacia la información relevante de la organización Se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc). Sistemas Operacionales Acciones Préstamos Seguros Planes de Inversión Información financiera de clientes Data Warehouse
  • 11. Ph.D. Franklin Parrales 11 08/02/2022 Inteligencia de Negocios Carrera de Software Propiedades de DWH: Orientada a un tema Integrada Variante en el tiempo No Volátil Data Warehouse
  • 12. Ph.D. Franklin Parrales 12 08/02/2022 Inteligencia de Negocios Carrera de Software Integrada • Integra datos recogidos de diferentes sistemas operacionales de la organización (y/o fuentes externas). Entorno Operacional Aplicación Cuentas de Ahorro Aplicación Cuentas Corrientes Aplicación Préstamos Data Warehouse Objeto de interés = Cliente
  • 13. Ph.D. Franklin Parrales 13 08/02/2022 Inteligencia de Negocios Carrera de Software Variable en el tiempo • Los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente. Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo. Datos Tiempo 01/97 02/97 03/97 Datos de Enero Datos de Febrero Datos de Marzo Data Warehouse Nota: El periodo de tiempo cubierto por un DW varia entre 2 y 10 años.
  • 14. Ph.D. Franklin Parrales 14 08/02/2022 Inteligencia de Negocios Carrera de Software No volátil • Los datos almacenados no son actualizados, sólo son incrementados. SELECT Carga INSERT SELECT UPDATE DELETE Bases de datos operacionales Warehouse
  • 15. Ph.D. Franklin Parrales 15 08/02/2022 Inteligencia de Negocios Carrera de Software Orientado a un Tema La data es categorizada y almacenada por áreas de negocio en lugar de aplicaciones. Aplicaciones OLTP Información Financiera del Cliente Tema del Data Warehouse Planes de equidad Acciones Seguros Prestamos Ahorros
  • 16. Ph.D. Franklin Parrales 16 08/02/2022 Inteligencia de Negocios Carrera de Software Almacenes de datos rentabilidad de las inversiones realizadas para su creación aumento de la competitividad en el mercado aumento de la productividad de los técnicos de dirección Ventajas
  • 17. Ph.D. Franklin Parrales 17 08/02/2022 Inteligencia de Negocios Carrera de Software Almacenes de datos infravaloración de los recursos necesarios para la captura, carga y almacenamiento de los datos incremento continuo de los requisitos de los usuarios privacidad de los datos infravaloración del esfuerzo necesario para su diseño y creación Problemas
  • 18. Ph.D. Franklin Parrales 18 08/02/2022 Inteligencia de Negocios Carrera de Software Almacenes de datos-data warehouse
  • 19. Ph.D. Franklin Parrales 19 08/02/2022 Inteligencia de Negocios Carrera de Software Arquitectura de un sistema de almacén de datos Datos Op. 1 Datos Op. 2 Datos Op. 3 metadatos datos de detalle datos agregados datos agregados AD gestor de carga gestor del AD gestor del AD gestor de consultas copias herramientas de consultas e informes herramientas de OLAP herramientas de Data Mining SAD área de almacenamiento intermedio herramientas de EIS
  • 20. Ph.D. Franklin Parrales 20 08/02/2022 Inteligencia de Negocios Carrera de Software • datos operacionales: el origen de los datos puede ser: bases de datos operacionales de la organización, bases de datos privadas, bases de datos públicas, etc. • gestor de carga: permite realizar las funciones de extracción de datos de las fuentes externas, transformación (limpieza, consolidación, ...) y la carga del AD, utiliza un almacenamiento intermedio y realiza las siguientes operaciones: ✓ extracción de los datos. ✓ transformación de los datos: limpieza, estandarización, etc. ✓ carga inicial del almacén: ordenación, agregaciones, etc. ✓ refresco del almacén: operación periódica que propaga los cambios de las fuentes operacionales al almacén de datos (herramientas* del fabricante o programas de la organización). • ETT (extracción, transformación y transporte) • ETL (extracción, transformación y carga (load)) Componentes
  • 21. Ph.D. Franklin Parrales 21 08/02/2022 Inteligencia de Negocios Carrera de Software • metadatos: documentación sobre los datos (origen, descripción, nivel de agregación, almacenamiento, etc). • herramientas de consulta: herramientas para diseñar consultas e informes, herramientas de desarrollo de aplicaciones de usuario final, herramientas de análisis de datos (OLAP), herramientas de minería de datos (DATA MINING), herramientas dirigidas a ejecutivos (EIS). (herramientas de diferentes fabricantes). • gestor (servidor) del AD: permite realizar todas las funciones de definición y mantenimiento del almacén de datos: definición, agregación de datos, vistas, creación de índices, copias, etc. (herramienta del fabricante). • gestor de consultas: ejecución de consultas. (herramienta del fabricante). Componentes
  • 22. Ph.D. Franklin Parrales 22 08/02/2022 Inteligencia de Negocios Carrera de Software Creación de DWH • La creación de un Datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence. •
  • 23. Ph.D. Franklin Parrales 23 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 24. Ph.D. Franklin Parrales 24 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué es un esquema de base de datos? • Un esquema de base de datos representa la configuración lógica de todo o parte de una base de datos • Hay dos tipos principales de esquemas de bases de datos: – Un esquema lógico de base de datos expresa las restricciones lógicas que se aplican a los datos almacenados. Puede definir las restricciones de integridad, las vistas y las tablas. – Un esquema físico de base de datos dispone cómo se almacenan los datos físicamente en un sistema de almacenamiento en términos de archivos e índices.
  • 25. Ph.D. Franklin Parrales 25 08/02/2022 Inteligencia de Negocios Carrera de Software Modelo dimensional: Introducción • Es un modelo diferente al modelo Entidad Relación • Se basa en una súper consulta a la base de la cual se sirve para toma de decisiones • El problema esta en quien usa el cubo Datos Cubo ETL
  • 26. Ph.D. Franklin Parrales 26 08/02/2022 Inteligencia de Negocios Carrera de Software Proceso de modelado dimensional • Centrado en identificar el modelo de negocio – Identificar las posibles consultas – Identificación de los hechos: los datos utilizados en dichas consultas. – Cada consulta debe usar solo una tabla de hechos y sus tablas de dimensión. • Posiblemente sea bueno comenzar con un modelo ER – Identificar qué unión de tablas sirven como tablas de hechos. – Usar solo claves sustitutas (surrogate keys) – A menudo debe considerarse una dimensión de tiempo – Desnormalizar en copo de nieve o esquema de estrella Una clave sustituta o clave artificial en una base de datos es un identificador único para una entidad en el mundo real o modelado o para un objeto en la base de datos. Al contrario que la clave natural, la clave sustituta no deriva de los datos de una aplicación.
  • 27. Ph.D. Franklin Parrales 27 08/02/2022 Inteligencia de Negocios Carrera de Software Order order_id customer_id store_id clerk_id date Store store_id store_name address district floor_type Clerk clerk_id clerk_name clerk_grade Product sku description brand category Customer customer_ID customer_name purchase_profile credit_profile address Promotion promotion_id promotion_name price_type ad_type OrderLine order_id sku promotion_id dollars_sold units_sold dollars_cost Modelo Relacional
  • 28. Ph.D. Franklin Parrales 28 08/02/2022 Inteligencia de Negocios Carrera de Software Time time_key SQL_date day_of_week month Store store_key store_id store_name address district floor_type Clerk clerk_key clerk_id clerk_name clerk_grade Product product_key sku description brand category Customer customer_key customer_name purchase_profile credit_profile address Promotion promotion_key promotion_name price_type ad_type Order time_key store_key clerk_key product_key customer_key promotion_key dollars_sold units_sold dollars_cost Modelo dimensional Esquema de estrella
  • 29. Ph.D. Franklin Parrales 29 08/02/2022 Inteligencia de Negocios Carrera de Software Almacenes de datos (data warehousing) • La topología típica usada para construir un almacén de datos se denomina "modelo en forma de estrella":
  • 30. Ph.D. Franklin Parrales 30 08/02/2022 Inteligencia de Negocios Carrera de Software Tipos de esquemas de bases de datos • Se han desarrollado ciertos patrones en el diseño de esquemas de bases de datos. – El esquema de estrella ampliamente utilizado es también el más simple. En este, una o más tablas de datos están vinculadas a un número indefinido de tablas dimensionales. Es mejor para gestionar consultas simples. – El esquema de copo de nieve relacionado también se usa para representar una base de datos multidimensional. No obstante, en este patrón, las dimensiones se normalizan en lotes de tablas separadas, creando el efecto expansivo de una estructura similar a un copo de nieve.
  • 31. Ph.D. Franklin Parrales 31 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 32. Ph.D. Franklin Parrales 32 08/02/2022 Inteligencia de Negocios Carrera de Software Data Mart Subconjunto de un almacén de datos. ✓ Se definen para satisfacer las necesidades de un departamento o sección de la organización. ✓ Contiene menos información de detalle y mas información agregada.
  • 33. Ph.D. Franklin Parrales 33 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
  • 34. Ph.D. Franklin Parrales 34 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Es consultado mediante herramientas OLAP (Procesamiento Analítico en Línea) que ofrecen una visión multidimensional de la información. Sobre estas bases de datos se pueden construir EIS (Sistemas de Información para Directivos) y DSS (Sistemas de Ayuda a la toma de Decisiones).
  • 35. Ph.D. Franklin Parrales 35 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Un Data mart: es una versión especial de almacén de datos (data warehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones.
  • 36. Ph.D. Franklin Parrales 36 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart En síntesis, se puede decir que los data marts son pequeños data warehouse centrados en un tema o un área de negocio específico dentro de una organización. Representan una estrategia de "divide y vencerás" para ámbitos muy genéricos de un Data Warehouse. Aunque un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.
  • 37. Ph.D. Franklin Parrales 37 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Un Data mart: se crea por las siguientes razones: ➢ Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data warehouse centralizado. ➢ Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso.
  • 38. Ph.D. Franklin Parrales 38 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Un Data mart: se crea por las siguientes razones: ➢ Conveniencia: De poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicación en el Data Warehouse principal de la Empresa. ➢ Demostración sobre el terreno: Para demostrar la viabilidad y el potencial de una aplicación antes de migrarla al Data Warehouse de la Empresa. ➢ Política: Razones internas de la organización para hacer esta división o separación de los datos del almacén de datos.
  • 39. Ph.D. Franklin Parrales 39 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 40. Ph.D. Franklin Parrales 40 08/02/2022 Inteligencia de Negocios Carrera de Software ETL • ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and Load). • Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.
  • 41. Ph.D. Franklin Parrales 41 08/02/2022 Inteligencia de Negocios Carrera de Software Proceso de construcción del Datawarehousing Denominado ETL (Extracción, Transformación y Carga), a partir de los sistemas operaciones de una compañía: ▪ Extracción: obtención de información de las distintas fuentes tanto internas como externas. ▪ Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información. ▪ Carga: organización y actualización de los datos y los metadatos en la base de datos.
  • 42. Ph.D. Franklin Parrales 42 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 43. Ph.D. Franklin Parrales 43 08/02/2022 Inteligencia de Negocios Carrera de Software Extraer • Consiste en extraer los datos desde los sistemas de origen. • La mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. • Cada sistema separado puede usar una organización diferente de los datos o formatos distintos.
  • 44. Ph.D. Franklin Parrales 44 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 45. Ph.D. Franklin Parrales 45 08/02/2022 Inteligencia de Negocios Carrera de Software Transformar(1/3) • La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. • Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. • No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones:
  • 46. Ph.D. Franklin Parrales 46 08/02/2022 Inteligencia de Negocios Carrera de Software Transformar(2/3) • Seleccionar sólo ciertas columnas para su carga (Ej. que las columnas con valores nulos no se carguen). • Traducir códigos (Ej. Si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer). • Codificar valores libres (Ej. convertir "Hombre" en "H" o "Sr" en "1"). • Obtener nuevos valores calculados (Ej. total_venta = cantidad * precio). • Unir datos de múltiples fuentes (Ej. búsquedas, combinaciones, etc). • Calcular totales de múltiples filas de datos (Ej. ventas totales de cada región).
  • 47. Ph.D. Franklin Parrales 47 08/02/2022 Inteligencia de Negocios Carrera de Software Transformar(3/3) • Generación de campos clave en el destino. • Transponer o pivotar (girando múltiples columnas en filas o viceversa). • Dividir una columna en varias (Ej. columna "Nombre: García, Miguel"; pasar a dos columnas "Nombre: Miguel" y "Apellido: García"). • La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera: – Datos OK: Entregar datos a la siguiente etapa (Carga). – Datos erróneos: Ejecutar políticas de tratamiento de excepciones (Ej. Rechazar el registro completo, dar al campo erróneo un valor nulo o un valor centinela).
  • 48. Ph.D. Franklin Parrales 48 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 49. Ph.D. Franklin Parrales 49 08/02/2022 Inteligencia de Negocios Carrera de Software Carga(1/3) • La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados en el sistema de destino. • Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes. – En algunas bases de datos se sobrescribe la información antigua con nuevos datos.
  • 50. Ph.D. Franklin Parrales 50 08/02/2022 Inteligencia de Negocios Carrera de Software Carga(2/3) • Existen dos formas básicas de desarrollar el proceso de carga: – Acumulación simple – Rolling
  • 51. Ph.D. Franklin Parrales 51 08/02/2022 Inteligencia de Negocios Carrera de Software Carga(3/3) • La fase de carga interactúa directamente con la base de datos de destino. • Al realizar esta operación se aplicarán todas las restricciones y triggers (disparadores) que se hayan definido en ésta – Ej. valores únicos, integridad referencial, campos obligatorios, rangos de valores. • Estas restricciones y triggers (si están bien definidos) contribuyen a que se garantice la calidad de los datos en el proceso ETL, y deben ser tenidos en cuenta
  • 52. Ph.D. Franklin Parrales 52 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 53. Ph.D. Franklin Parrales 53 08/02/2022 Inteligencia de Negocios Carrera de Software Tablas de hechos y de dimensión Hechos: Las tablas de unión son los datos más importantes: los hechos – Por ejemplo: compras en la tienda, inscripciones a clases, datos de clics – Generalmente las tablas más grandes – Los datos clave a menudo son numéricos y aditivos – por ejemplo: cantidad comprada, costo por unidad, visualizaciones de anuncios Dimensiones: Las tablas secundarias en relación de 1 a muchos con hechos – Por ejemplo: tiendas, clientes, personal de ventas, período de ventas
  • 54. Ph.D. Franklin Parrales 54 08/02/2022 Inteligencia de Negocios Carrera de Software Ver tabla de hechos como un cubo de datos n-dimensional Cada tabla de dimensión representa una dimensión del cubo. Los hechos son los datos del cubo Los hechos pueden agregarse previamente a lo largo de cada dimensión o combinación de dimensiones.
  • 55. Ph.D. Franklin Parrales 55 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 56. Ph.D. Franklin Parrales 56 08/02/2022 Inteligencia de Negocios Carrera de Software Modelos de Cubos • Cuando las dimensiones no tienen orden expansivo se llama modelo Estrella • Supongamos que entre las tablas Persona y Ciudad existe una conexión en el modelo, en este caso el esquema es un Copo de Nieve Tabla de Hecho(Fact Table) Tabla de Hecho(Fact Table) Persona Ciudad
  • 57. Ph.D. Franklin Parrales 57 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 58. Ph.D. Franklin Parrales 58 08/02/2022 Inteligencia de Negocios Carrera de Software Esquema estrella En el esquema de estrella, el centro de la estrella puede tener una tabla de hechos y varias tablas de dimensiones asociadas. Se conoce como esquema estelar ya que su estructura se asemeja a una estrella. El esquema en estrella es el tipo más simple de esquema de Data Warehouse. Está optimizado para consultar grandes conjuntos de datos.
  • 59. Ph.D. Franklin Parrales 59 08/02/2022 Inteligencia de Negocios Carrera de Software Extra: esquema Galaxy • Un esquema Galaxy contiene dos tablas de hechos que comparten tablas de dimensiones. También se llama Fact Constellation Schema. • El esquema se ve como una colección de estrellas, de ahí el nombre Galaxy Schema.
  • 60. Ph.D. Franklin Parrales 60 08/02/2022 Inteligencia de Negocios Carrera de Software Id_Ciudad(pk) Nombre Ciudad Id_Producto (fk) Id_Proveedor (fk) Id_Bodega (fk) Id_Dia diaProm Valor Cantidad Compra Id_Productos (pk) Id_Ciudad(fk) nombre Bodega Id_Dia (pk) Dia Id_Mes(fk) Dia Id_Proveedor (Pk) Nombre Apellido Id_Ciudad(fk) Proveedor Id_Producto (pk) Nombre PrecioUnitario Id_Categoria(fk) Producto Id_Categoria(pk) Nombre Categoria Id_mes (pk) Dia Id_año(fk) Mes Id_año (pk) Año Año Tabla de Hecho La tabla de hecho NO tiene clave primaria
  • 61. Ph.D. Franklin Parrales 61 08/02/2022 Inteligencia de Negocios Carrera de Software Ejercicio de Constelación Ciudad Jefe de Planta Ciudad Clientes Cantidad Valor Total Porcentaje Ciudad Tienda Mes dia Año Producto Categoria CantProducidas Eficacia Turno
  • 62. Ph.D. Franklin Parrales 62 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 63. Ph.D. Franklin Parrales 63 08/02/2022 Inteligencia de Negocios Carrera de Software Esquema copo de nieve Un esquema de copo de nieve es una extensión de un esquema de estrella y agrega dimensiones adicionales. Se llama snowflake porque su diagrama se asemeja a un copo de nieve. Las tablas de dimensiones están normalizadas, lo que divide los datos en tablas adicionales. En el siguiente ejemplo, País se normaliza aún más en una tabla individual.
  • 64. Ph.D. Franklin Parrales 64 08/02/2022 Inteligencia de Negocios Carrera de Software Copo de nieve: Id_Persona (Pk) Nombre Edad Id_Ciudad(fk) Persona Id_Ciudad(Pk) Nombre Ciudad Id_Producto (fk) Id_Persona (fk) Id_Dia (fk) VentaTotal MaxVenta Ventas Id_Productos (Pk) NombreXproducto Categoria Productos Id_Tiempo (pk) Dia (fk) DiaSemana Tiempo Dimensión: Producto Dimensión: Personas Dimensión: Ciudad Dimensión: Tiempo Tabla de Hecho (Fact Table) Esquema de copo de nieve
  • 65. Ph.D. Franklin Parrales 65 08/02/2022 Inteligencia de Negocios Carrera de Software Modelo de Compras Dias_promEntrega Valor Cantidad Bodega Ciudad Producto Categoría día mes año proveedor Ciudad Tiempo Dimensiones
  • 66. Ph.D. Franklin Parrales 66 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 67. Ph.D. Franklin Parrales 67 08/02/2022 Inteligencia de Negocios Carrera de Software OLTP • OLTP es la sigla en inglés de Procesamiento de Transacciones En Línea: es un tipo de procesamiento que facilita y administra aplicaciones transaccionales, usualmente para entrada de datos y recuperación y procesamiento de transacciones (gestor transaccional). El Procesamiento de Transacciones Online (OLTP), usado normalmente por aplicaciones orientadas a la transacción: • No ha sido construido teniendo en cuenta la creación de bases de datos segregada. • Los potenciales análisis que puedan realizarse se hacen sobre los mismos datos usados por la aplicación. • Tampoco han sido diseñadas para situaciones donde la cantidad de datos a ser analizados es exponencialmente grande.
  • 68. Ph.D. Franklin Parrales 68 08/02/2022 Inteligencia de Negocios Carrera de Software OLAP • Los sistemas OLAP permiten el acceso a grandes cantidades de datos a través de procesos de consulta, sobre bases de datos multidimensionales con el propósito de servir a sistemas de apoyo a las decisiones. • Tiene la función de ayudar a interpretar y integrar el significado de los datos operativos, suministrando herramientas de muy alto nivel que pueden categorizarse en tres niveles: ▪ Consulta y reporte de la información. Generan reportes y gráficos, mientras mantienen un control estricto sobre el acceso a la información. ▪ Análisis multidimensional. Recorren la información por niveles, del resumen al detalle y de éste a la consolidación, para identificar tendencias desde diferentes perspectivas. ▪ Exploración de datos. Ejecutan procesos automatizados que descubren patrones ocultos en los datos.
  • 69. Ph.D. Franklin Parrales 69 08/02/2022 Inteligencia de Negocios Carrera de Software OLTP y OLAP
  • 70. Ph.D. Franklin Parrales 70 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Cuándo es necesario OLAP?
  • 71. Ph.D. Franklin Parrales 71 08/02/2022 Inteligencia de Negocios Carrera de Software Principales Beneficios de OLAP
  • 72. Ph.D. Franklin Parrales 72 08/02/2022 Inteligencia de Negocios Carrera de Software Las herramientas de OLAP se caracterizan* por: ✓ofrecer una visión multidimensional de los datos. ✓no imponer restricciones sobre el número de dimensiones. ✓ofrecer simetría para las dimensiones. ✓permitir definir jerarquías sobre las dimensiones ✓ofrecer operadores de manipulación: drill-down, roll-up. ✓permitir expresar condiciones sobre las dimensiones y criterios de agrupación de los datos. ✓ser transparentes al tipo de tecnología que soporta el almacén de datos (ROLAP o MOLAP). *Subconjunto de las 12 reglas propuestas por E.F. Codd. Las doce reglas propuestas por E.F. Codd
  • 73. Ph.D. Franklin Parrales 73 08/02/2022 Inteligencia de Negocios Carrera de Software Tipos de sistemas OLAP ROLAP • Implementación OLAP que almacena los datos en un motor relacional. Típicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran desnormalizadas. • Los esquemas más comunes sobre los que se trabaja son estrella o copo de nieve, aunque es posible trabajar sobre cualquier base de datos relacional. • La arquitectura está compuesta por un servidor de banco de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La principal ventaja de esta arquitectura es que permite el análisis de una enorme cantidad de datos.
  • 74. Ph.D. Franklin Parrales 74 08/02/2022 Inteligencia de Negocios Carrera de Software ROLAP Usuario Final Warehouse Data cache Live fetch Cache Query Data
  • 75. Ph.D. Franklin Parrales 75 08/02/2022 Inteligencia de Negocios Carrera de Software Tipos de sistemas OLAP MOLAP • Esta implementación OLAP almacena los datos en una base de datos multidimensional. • Para optimizar los tiempos de respuesta, el resumen de la información es usualmente calculado por adelantado. Estos valores precalculados o agregaciones son la base de las ganancias de desempeño de este sistema. • Algunos sistemas utilizan técnicas de compresión de datos para disminuir el espacio de almacenamiento en disco debido a los valores precalculados.
  • 76. Ph.D. Franklin Parrales 76 08/02/2022 Inteligencia de Negocios Carrera de Software MOLAP Usuario Final Warehouse Query Data MDDB Carga periódica
  • 77. Ph.D. Franklin Parrales 77 08/02/2022 Inteligencia de Negocios Carrera de Software Tipos de sistemas OLAP HOLAP (Hybrid OLAP) • Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional.
  • 78. Ph.D. Franklin Parrales 78 08/02/2022 Inteligencia de Negocios Carrera de Software HOLAP Usuario Final Trae al cache MDDB y cache carga periódica Query Data Warehouse
  • 79. Ph.D. Franklin Parrales 79 08/02/2022 Inteligencia de Negocios Carrera de Software Comparación: • Algunas implementaciones MOLAP son propensas a la "explosión" de la base de datos – Este fenómeno provoca la necesidad de grandes cantidades de espacio de almacenamiento para el uso de una base de datos MOLAP cuando se dan ciertas condiciones: • elevado número de dimensiones, resultados precalculados y escasos datos multidimensionales. – Las técnicas habituales de atenuación de la explosión de la base de datos no son todo lo eficientes que sería deseable. • Por lo general MOLAP ofrece mejor rendimiento debido a la especializada indexación y a las optimizaciones de almacenamiento. • MOLAP también necesita menos espacio de almacenamiento en comparación con los especializados ROLAP porque su almacenamiento especializado normalmente incluye técnicas de compresión.
  • 80. Ph.D. Franklin Parrales 80 08/02/2022 Inteligencia de Negocios Carrera de Software Comparación: • ROLAP es generalmente más escalable. Sin embargo, el gran volumen de preprocesamiento es difícil de implementar eficientemente por lo que con frecuencia se omite; por tanto, el rendimiento de una consulta ROLAP puede verse afectado. • Desde la aparición de ROLAP van apareciendo nuevas versiones de bases de datos preparadas para realizar cálculos, las funciones especializadas que se pueden utilizar tienen más limitaciones. • HOLAP (OLAP Híbrido) engloba un conjunto de técnicas que tratan de combinar MOLAP y ROLAP de la mejor forma posible. Generalmente puede pre- procesar rápidamente, escala bien, y proporciona una buena función de apoyo.
  • 81. Ph.D. Franklin Parrales 81 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Almacenes de Datos (data warehouse) • Esquemas de Datos • Datamart • Herramientas ETL (Extracción, Transformación y Carga) – Extracción de datos – Transformación de datos – Carga de datos • Tabla Dimensiones y Tabla Hechos • Enfoque de Desarrollo de un sistema de Datawarehouse – Esquema Estrella – Esquema Copo de nieve • OLAP – Cubos OLAP
  • 82. Ph.D. Franklin Parrales 82 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Para crear el data mart de un área de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre: ➢ Base de datos OLTP, como el propio datawarehouse. ➢ Una base de datos OLAP.
  • 83. Ph.D. Franklin Parrales 83 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Datamart OLAP Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.
  • 84. Ph.D. Franklin Parrales 84 08/02/2022 Inteligencia de Negocios Carrera de Software Data mart Datamart OLTP Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact- tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas.
  • 85. Ph.D. Franklin Parrales 85 08/02/2022 Inteligencia de Negocios Carrera de Software Time time_key SQL_date day_of_week month Store store_key store_id store_name address district floor_type Clerk clerk_key clerk_id clerk_name clerk_grade Product product_key sku description brand category Customer customer_key customer_name purchase_profile credit_profile address Promotion promotion_key promotion_name price_type ad_type Order time_key store_key clerk_key product_key customer_key promotion_key dollars_sold units_sold dollars_cost Modelo Dimensional Esquema de estrella
  • 86. Ph.D. Franklin Parrales 86 08/02/2022 Inteligencia de Negocios Carrera de Software Cubos OLAP • Recordemos que La tabla central se llama "tabla de hechos" y referencia un número de "dimensiones" (que son las tablas que están alrededor). • Usando este método es posible producir informes que incluyan gran cantidad de información distribuida. • Por esta razón se construyen (hiper)cubos de información, y mediante este modelo de datos desde diferentes dimensiones (potencialmente todas variables) pueden ser enlazadas todas juntas. • Cubo OLAP con Tiempo, Cliente y Producto como dimensiones: La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE
  • 87. Ph.D. Franklin Parrales 87 08/02/2022 Inteligencia de Negocios Carrera de Software Ver tabla de hechos como un cubo de datos n-dimensional Cada tabla de dimensión representa una dimensión del cubo. Los hechos son los datos del cubo Los hechos pueden agregarse previamente a lo largo de cada dimensión o combinación de dimensiones.
  • 88. Ph.D. Franklin Parrales 88 08/02/2022 Inteligencia de Negocios Carrera de Software Pero… ¿Qué es un Cubo? • Cubo= Información de Datos->Data Warehouse – Nombre maquillado de Sistemas Expertos – Cubo de Información BSC Cubo Datos Balanced Score Card Estrategia Táctica Operación
  • 89. Ph.D. Franklin Parrales 89 08/02/2022 Inteligencia de Negocios Carrera de Software Pero… ¿Qué es un Cubo? • Contiene datos de primer interés para los usuarios • Es un subconjunto de los datos que están en la bodega. Contiene valores agregados a todos los niveles de las dimensiones • Usados para organizar los datos en dimensiones y medidas • Mejoran la velocidad de consulta
  • 90. Ph.D. Franklin Parrales 90 08/02/2022 Inteligencia de Negocios Carrera de Software Cubo • Data Mart Datos Información Patrón Minería de Datos(Sistema Experto) Conocimiento
  • 91. Ph.D. Franklin Parrales 91 08/02/2022 Inteligencia de Negocios Carrera de Software Cubo: Id_Persona (Pk) Nombre Edad Id_Ciudad(fk) Persona Id_Ciudad(Pk) Nombre Ciudad Id_Producto (fk) Id_Persona (fk) Id_Dia (fk) VentaTotal MaxVenta Ventas Id_Productos (Pk) NombreXproducto Categoria Productos Id_Tiempo (pk) Dia (fk) DiaSemana Tiempo Dimensión: Producto Dimensión: Personas Dimensión: Ciudad Dimensión: Tiempo Tabla de Hecho (Fact Table) Esquema de copo de nieve
  • 92. Ph.D. Franklin Parrales 92 08/02/2022 Inteligencia de Negocios Carrera de Software Consulta Multidimensional • Lo que guarda el cubo son medidas o indicadores. Fuente de Datos ETL Id_Tiempo (fk) Dia (fk) DiaSemana Tiempo Convertir tiempo en tabla Data Mapping Medidas=Variables=Indicadores Tiempo= Atributo en Transaccional Tiempo= entidad en ETL
  • 93. Ph.D. Franklin Parrales 93 08/02/2022 Inteligencia de Negocios Carrera de Software Data Mapping idDia(lo saca del destino) diaSemana(lo calcula) Carga los valores 1/2/09 E 303 1/2/09 Domingo T Domingo L
  • 94. Ph.D. Franklin Parrales 94 08/02/2022 Inteligencia de Negocios Carrera de Software Estructura multidimensional José Uvas Melones Q4 Q1 Q2 Q3 Dimensión: FECHA Juan Luis Dimension: PERSONA Manzanas Cerezas Ana Los cubos pueden tener N dimensiones pero mostraremos uno de 3 dimensiones porque es más fácil de dibujar y entender.
  • 95. Ph.D. Franklin Parrales 95 08/02/2022 Inteligencia de Negocios Carrera de Software Consulta Multidimensional Uvas Q4 Q1 Q2 Q3 Dimensión: FECHA Juan Luis José Manzanas Cerezas Ana Suma Venta, Max Venta Melones
  • 96. Ph.D. Franklin Parrales 96 08/02/2022 Inteligencia de Negocios Carrera de Software Consulta Multidimensional • El cubo puede responder preguntas que incluyan tres dimensiones y una medida – Dimensión producto: contiene categorías del producto – Dimensión almacén: contiene almacenes – Dimensión tiempo: contiene periodos del año – Medida ventas: cantidad numérica que puede ser sumarizada
  • 97. Ph.D. Franklin Parrales 97 08/02/2022 Inteligencia de Negocios Carrera de Software Cubo Multidimensional Sección Hogar Informática Alimentos Alimentos Marcas Fanta Gatorade Pepsi-Cola Coca-Cola Red Bull Coca-Cola 24 Semana del mes 03 10 17 23.5 MM UNIDADES € 28.3 VENTA BRUTA € 26.8 COSTO 24 “Mostrar las ventas de Coca-Cola en la sección de alimentos, para la 4ta. semana.”
  • 98. Ph.D. Franklin Parrales 98 08/02/2022 Inteligencia de Negocios Carrera de Software Cubo • Un cubo puede tener hasta 64 dimensiones – Cada celda del cubo tiene un valor – El valor de cada celda es la intersección de las dimensiones – El dato en la celda es una agregación • Para obtener las ventas totales anuales por producto y localización: seleccionar el producto y la localización y suma por las cuatro celdas de tiempo
  • 99. Ph.D. Franklin Parrales 99 08/02/2022 Inteligencia de Negocios Carrera de Software Jerarquía de agregación
  • 100. Ph.D. Franklin Parrales 100 08/02/2022 Inteligencia de Negocios Carrera de Software Modelo de Consulta
  • 101. Ph.D. Franklin Parrales 101 08/02/2022 Inteligencia de Negocios Carrera de Software Modelo de Consulta
  • 102. Ph.D. Franklin Parrales 102 08/02/2022 Inteligencia de Negocios Carrera de Software Modelo de Consulta
  • 103. Ph.D. Franklin Parrales 103 08/02/2022 Inteligencia de Negocios Carrera de Software Modelo de Consulta
  • 104. Ph.D. Franklin Parrales 104 08/02/2022 Inteligencia de Negocios Carrera de Software Actividad objeto de análisis: ventas de productos. Información registrada sobre las ventas: "ventas diarias de productos en los supermercados de la cadena“. Ejemplo: "del producto “Coca-Cola 33cl” se han vendido en el almacén “Almacén nro.1” el día 12/01/1999, 50 unidades por un importe de 70€.” Para hacer el análisis de ventas no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena. Ejemplo Organización: Cadena de supermercados.
  • 105. Ph.D. Franklin Parrales 105 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades - Dimensiones que caracterizan la actividad. - La actividad de ventas se registra a nivel diario para cada producto y cada almacén Producto Tiempo (día) Almacén -Actividad que es objeto de análisis con los indicadores que interesa analizar -“Importe total de ventas por almacén y producto”
  • 106. Ph.D. Franklin Parrales 106 08/02/2022 Inteligencia de Negocios Carrera de Software Agua Jabón Vino Leche Almacén2 Almacén1 Almacén Producto 2000000 1000000 3000000 2000000 1000000 1500000 8000000 2400000 Tabla multidimensional OLAP
  • 107. Ph.D. Franklin Parrales 107 08/02/2022 Inteligencia de Negocios Carrera de Software Presentaciones del esquema multidimensional en una herramienta OLAP: -representación en estrella -representación en cubo de datos
  • 108. Ph.D. Franklin Parrales 108 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Dimensiones que caracterizan la actividad. Producto Tiempo (día) Almacén Modelo en estrella: -actividad (centro) -dimensiones (puntas) Actividad que es objeto de análisis con los indicadores que interesa analizar Modelo de Consulta
  • 109. Ph.D. Franklin Parrales 109 08/02/2022 Inteligencia de Negocios Carrera de Software Almacén Producto Tiempo Ventas Almacén Producto Tiempo Ventas Cliente 4 dimensiones 3 dimensiones Modelo en cubo de datos: -actividad (celda) -dimensiones (ejes) Modelo de Cubo de Datos
  • 110. Ph.D. Franklin Parrales 110 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Día de la semana Nombre Ciudad Región Tipo Año Descripción Actividad que es objeto de análisis con los indicadores que interesa analizar Dimensiones con atributos descriptores. Trimestre Nro_almacén Atributos Descriptores
  • 111. Ph.D. Franklin Parrales 111 08/02/2022 Inteligencia de Negocios Carrera de Software ✓ en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). ✓ la información relevante sobre el hecho se representa por un conjunto de indicadores (medidas o atributos de hecho). ✓ la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión). Modelo Multidimensional
  • 112. Ph.D. Franklin Parrales 112 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Nombre Ciudad Región Tipo Departamento Nro_producto Categoría Marca Tipo Descripción hecho medidas Día Mes Día de la semana Año Trimestre Nro_almacén dimensión atributos Modelo Multidimensional
  • 113. Ph.D. Franklin Parrales 113 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Nro_almacén Ciudad Región Tipo Departamento Nro_producto Categoría Marca Tipo Descripción Día Mes Día de la semana Año Trimestre Nombre El Atributo Identificador de las Dimensiones
  • 114. Ph.D. Franklin Parrales 114 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Nro_almacén Ciudad Región Tipo Departamento Nro_producto Categoría Marca Tipo Descripción Día Mes Día de la semana Año Trimestre Los valores (instancias) de la dimensión Producto son productos ofertados por la cadena Los valores (instancias) de la dimensión Tiempo son días del calendario Los valores (instancias) de la dimensión Almacén son almacenes de la cadena Nombre
  • 115. Ph.D. Franklin Parrales 115 08/02/2022 Inteligencia de Negocios Carrera de Software departamento nro_almacén ciudad región nro_almacén tipo día mes año Producto Almacén Tiempo nro. producto categoría trimestre departamento nro. producto tipo Jerarquías basadas generalmente en dependencias funcionales entre los atributos de la dimensión. Jerarquías en las dimensiones de los atributos
  • 116. Ph.D. Franklin Parrales 116 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Nro_almacén Ciudad Región Tipo Departamento Nro_producto Categoría Marca Tipo Descripción Día Mes Día de la semana Año Trimestre Nombre Jerarquías en las dimensiones de los atributos
  • 117. Ph.D. Franklin Parrales 117 08/02/2022 Inteligencia de Negocios Carrera de Software Los atributos de las dimensiones van a servir para: ✓ expresar condiciones que restringen el subconjunto de datos del AD que se desea consultar ✓ definir los parámetros de la consulta: nivel de detalle (o agregación) al que se desean presentar los datos seleccionados ✓ añadir información descriptiva a los elementos de la dimensión ✓ las jerarquías definidas entre los atributos de las dimensiones son una guía para "navegar" por los datos seleccionados, cambiando el nivel de agregación con el que son presentados
  • 118. Ph.D. Franklin Parrales 118 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Nro_almacén Ciudad Región Tipo Departamento Nro_producto Categoría Marca Tipo Descripción Día Mes Día de la semana Año Trimestre Nombre Importe total de ventas por almacén, para almacenes de tipo "gran superficie", indicando el nombre completo del almacén. atributo de selección atributo descriptivo atributo de agrupación Atributo de: Agrupación, Descriptivo y Selección
  • 119. Ph.D. Franklin Parrales 119 08/02/2022 Inteligencia de Negocios Carrera de Software importe unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Día de la semana Nro_almacén Ciudad Región Tipo Año “Importe total de ventas por año, región y departamento” OLAP Trimestre Nombre
  • 120. Ph.D. Franklin Parrales 120 08/02/2022 Inteligencia de Negocios Carrera de Software informe Importe de ventas SELECT ........... departamento región año importe OLAP año región departamento ROLAP
  • 121. Ph.D. Franklin Parrales 121 08/02/2022 Inteligencia de Negocios Carrera de Software fecha nro_producto nro_almacén importe unidades Ventas nro_almacén nombre dirección región ciudad país tlfno fax superficie tipo_almacén ... nro_producto descripción marca categoría departamento peso unidades_peso tipo_envase dietético ... Almacén Producto fecha semana mes año día_semana día_mes trimestre festivo .... Tiempo Modelo Multidimensional
  • 122. Ph.D. Franklin Parrales 122 08/02/2022 Inteligencia de Negocios Carrera de Software “Una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizados por atributos de las dimensiones y restringidos por condiciones impuestas sobre las dimensiones” ¿Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría?. Restricciones: productos del departamento Bebidas, ventas durante este año medida hecho Parámetros de la consulta: por categoría de producto y por trimestre Otro Ejemplo
  • 123. Ph.D. Franklin Parrales 123 08/02/2022 Inteligencia de Negocios Carrera de Software “2002” “Bebidas” importe unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Día de la semana Nro_almacén Ciudad Región Tipo Año “Importe total de ventas en este año, del departamento de “Bebidas”, por categoría y trimestre” OLAP Trimestre Nombre Otro Ejemplo
  • 124. Ph.D. Franklin Parrales 124 08/02/2022 Inteligencia de Negocios Carrera de Software SELECT ........... trimestre categoría importe OLAP ROLAP Otro Ejemplo
  • 125. Ph.D. Franklin Parrales 125 08/02/2022 Inteligencia de Negocios Carrera de Software fecha nro_producto nro_almacén importe unidades Ventas nro_almacén nombre dirección región ciudad país tlfno fax superficie tipo_almacén ... nro_producto descripción marca categoría departamento peso unidades_peso tipo_envase dietético ... Almacén Producto fecha semana mes año día_semana día_mes trimestre festivo .... Tiempo
  • 126. Ph.D. Franklin Parrales 126 08/02/2022 Inteligencia de Negocios Carrera de Software SELECT P.categoría, T.trimestre, SUM (V.importe) FROM Ventas V, Tiempo T, Producto P WHERE V.nro_producto = P.nro_producto AND V.fecha = T.fecha AND P.departamento= ‘ Bebidas’ AND T.año= year (TODAY) GROUP BY T.trimestre, P.categoría medida selección de datos de la tabla de hechos restringidos por condiciones sobre las tablas de dimensión agregación sobre Almacén agrupación por Tiempo y Producto tabla de hechos parámetros Consulta SQL
  • 127. Ph.D. Franklin Parrales 127 08/02/2022 Inteligencia de Negocios Carrera de Software SELECT D1.C1, ..., Dn.Cn, Agg1(F.A1),..., Aggn(F.An) FROM Hechos F, Dimensión1 D1,...Dimensión Dn WHERE JOIN_cond (F,D1) AND ... JOIN_cond (F,Dn) AND condición_selección GROUP BY D1.C1,..., Dn.Cn Forma de la Consulta OLAP
  • 128. Ph.D. Franklin Parrales 128 08/02/2022 Inteligencia de Negocios Carrera de Software Presentación tabular (relacional) de los datos seleccionados Categoría Trimestre Ventas T4 T2 T3 T1 T3 2000000 3000000 1500000 2400000 8000000 T1 1000000 T4 T2 1000000 Refrescos Refrescos Refrescos Refrescos Zumos Zumos Zumos Zumos 2000000 Se asumen dos categorías en el departamento de Bebidas: Refrescos y Zumos.
  • 129. Ph.D. Franklin Parrales 129 08/02/2022 Inteligencia de Negocios Carrera de Software T4 T3 T2 T1 Zumos Refrescos Categoría Trimestre Presentación matricial (multidimensional) de los datos seleccionados Los parámetros de la consulta (“por trimestre” y “por categoría”) determinan los criterios de agrupación de los datos seleccionados ("ventas de productos del año actual", "del departamento de Bebidas"). La agrupación se realiza sobre dos atributos de dos dimensiones: Producto (categoría), Tiempo (trimestre). 2000000 1000000 3000000 2000000 1000000 1500000 8000000 2400000
  • 130. Ph.D. Franklin Parrales 130 08/02/2022 Inteligencia de Negocios Carrera de Software El carácter agregado de las consultas en el análisis de datos, aconseja la definición de nuevos operadores que faciliten la agregación (consolidación) y la disgregación (división) de los datos: ✓ Agregación (roll): permite sustituir (eliminándolo o utilizando uno de mayor granularidad) un criterio de agrupación utilizado en el análisis. Se agregan los grupos de la consulta actual. ✓ Disgregación (drill): permite sustituir (añadiendo uno nuevo o utilizando uno de menor granularidad) un criterio de agrupación utilizado en el análisis. Se disgregan los grupos de la consulta actual. Agregación y Disgregación
  • 131. Ph.D. Franklin Parrales 131 08/02/2022 Inteligencia de Negocios Carrera de Software Las operaciones de agregación (ROLL) y disgregación (DRILL) se pueden hacer sobre: ✓ atributos de una dimensión sobre los que se ha definido una jerarquía: DRILL-DOWN, ROLL-UP departamento – categoría - producto (Producto) año - trimestre – mes - día (Tiempo) ✓ sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS Producto – Almacén -Tiempo ROLL y DRILL
  • 132. Ph.D. Franklin Parrales 132 08/02/2022 Inteligencia de Negocios Carrera de Software “2002” “Bebidas” importe unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Día de la semana Nro_almacén Ciudad Región Tipo Año “Importe total de ventas en este año, del departamento de “Bebidas”, por categoría y mes” OLAP Trimestre Nombre ROLL y DRILL
  • 133. Ph.D. Franklin Parrales 133 08/02/2022 Inteligencia de Negocios Carrera de Software trimestre categoría importe OLAP ¡ la operación de DRILL se realiza sobre el informe original ! día mes año trimestre ROLL-UP DRILL-DOWN
  • 134. Ph.D. Franklin Parrales 134 08/02/2022 Inteligencia de Negocios Carrera de Software Categoría Ventas Mes 500000 Refrescos Enero Categoría Trimestre Ventas T4 T2 T3 T1 T3 2000000 3000000 1500000 2400000 8000000 T1 1000000 T4 T2 1000000 Refrescos Refrescos Refrescos Refrescos Zumos Zumos Zumos Zumos 2000000 Febrero Refrescos Refrescos Marzo 1000000 500000 Cada fila (categoría-trimestre) de la consulta original se disgrega en tres nuevas filas (categoría-mes).
  • 135. Ph.D. Franklin Parrales 135 08/02/2022 Inteligencia de Negocios Carrera de Software drill-down SELECT P.categoría, T.mes, SUM (V.importe) FROM Ventas V, Tiempo T, Producto P WHERE V.nro_producto = P.nro_producto AND V.fecha = T.fecha AND P.departamento= ‘ Bebidas’ AND T.año= year (TODAY) GROUP BY T.mes, P.categoría medida selección de datos de la tabla de hechos restringidos por condiciones sobre las tablas de dimensión agrupación por Tiempo y Producto tabla de hechos Sustitución de nivel en la jerarquía de la dimensión Tiempo por un nivel de granularidad más fina Operación SQL
  • 136. Ph.D. Franklin Parrales 136 08/02/2022 Inteligencia de Negocios Carrera de Software Si se desea introducir la dimensión Almacén en el análisis anterior e incluir un nuevo criterio de agrupación sobre la ciudad del almacén: ¿Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre, por categorías y por ciudad del almacén?. Restricciones: productos del departamento Bebidas, ventas durante este año Parámetros de la consulta: por categoría de producto, por trimestre y por ciudad del almacén.
  • 137. Ph.D. Franklin Parrales 137 08/02/2022 Inteligencia de Negocios Carrera de Software “2002” “Bebidas” importe unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Día de la semana Nro_almacén Ciudad Región Tipo Año “Importe total de ventas en este año, del departamento de “Bebidas”, por categoría, trimestre y ciudad” OLAP Trimestre Explotación de un almacén de datos: herramientas OLAP Nombre
  • 138. Ph.D. Franklin Parrales 138 08/02/2022 Inteligencia de Negocios Carrera de Software trimestre categoría importe OLAP ¡ la operación de DRILL se realiza sobre el informe original ! Explotación de un almacén de datos: herramientas OLAP
  • 139. Ph.D. Franklin Parrales 139 08/02/2022 Inteligencia de Negocios Carrera de Software Categoría Trimestre Ventas Ciudad T2 T1 300000 T2 700000 Refrescos T1 Valencia Categoría Trimestre Ventas T4 T2 T3 T1 T3 2000000 3000000 1500000 2400000 8000000 T1 1000000 T4 T2 1000000 Refrescos Refrescos Refrescos Refrescos Zumos Zumos Zumos Zumos 2000000 León Refrescos Refrescos Refrescos Valencia León 1000000 1000000 * Se asumen dos ciudades: Valencia y León. Cada fila (categoría-trimestre) de la consulta original se disgrega en dos nuevas filas (categoría-trimestre- ciudad) para las ciudades de León y Valencia.
  • 140. Ph.D. Franklin Parrales 140 08/02/2022 Inteligencia de Negocios Carrera de Software drill-across SELECT P.categoría, T.trimestre, A.ciudad, SUM (V.importe) FROM Ventas V, Tiempo T, Producto P, Almacén A WHERE V.nro_producto = P.nro_producto AND V.fecha = T.fecha AND V.nro_almacén=A.nro_almacén AND P.departamento= ‘ Bebidas’ AND T.año= year (TODAY) GROUP BY T.trimestre, P.categoría, A.ciudad medida selección de datos de la tabla de hechos restringidos por condiciones sobre las tablas de dimensión agrupación por Tiempo, Producto y Almacén tabla de hechos Inclusión de una nueva dimensión en los criterios de agrupación Operación SQL
  • 141. Ph.D. Franklin Parrales 141 08/02/2022 Inteligencia de Negocios Carrera de Software T1 T2 T3 T4 Zumos 1000000 300000 300000 500000 100000 200000 500000 2000000 Presentación matricial de los datos seleccionados.
  • 142. Ph.D. Franklin Parrales 142 08/02/2022 Inteligencia de Negocios Carrera de Software Si se desea eliminar el criterio de agrupación sobre la dimensión Tiempo en la consulta original: ¿Importe total de las ventas durante este año de los productos del departamento Bebidas, por categorías?.
  • 143. Ph.D. Franklin Parrales 143 08/02/2022 Inteligencia de Negocios Carrera de Software “2002” “Bebidas” importe unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Día de la semana Nro_almacén Ciudad Región Tipo Año “Importe total de ventas en este año, del departamento de “Bebidas”, por categorías” OLAP Trimestre Nombre
  • 144. Ph.D. Franklin Parrales 144 08/02/2022 Inteligencia de Negocios Carrera de Software OLAP trimestre categoría importe ¡ la operación de ROLL se realiza sobre el informe original !
  • 145. Ph.D. Franklin Parrales 145 08/02/2022 Inteligencia de Negocios Carrera de Software Categoría Ventas Refrescos 8000000 Zumos 12900000 Categoría Trimestre Ventas T4 T2 T3 T1 T3 2000000 3000000 1500000 2400000 8000000 T1 1000000 T4 T2 1000000 Refrescos Refrescos Refrescos Refrescos Zumos Zumos Zumos Zumos 2000000
  • 146. Ph.D. Franklin Parrales 146 08/02/2022 Inteligencia de Negocios Carrera de Software SELECT P.categoría, T.trimestre, SUM (V.importe) FROM Ventas V, Tiempo T, Producto P WHERE V.nro_producto = P.nro_producto AND V.fecha = T.fecha AND P.departamento= ‘ Bebidas’ AND T.año= year (TODAY) GROUP BY T.trimestre, P.categoría medida selección de datos de la tabla de hechos restringidos por condiciones sobre las tablas de dimensión agregación sobre Almacén y Tiempo agrupación por Producto tabla de hechos roll-across Eliminación de una dimensión en los criterios de agrupación Operación SQL
  • 147. Ph.D. Franklin Parrales 147 08/02/2022 Inteligencia de Negocios Carrera de Software Otras operaciones de OLAP: ✓ SLICE: elimina una dimensión de la consulta actual, fijando un valor para ella. ✓ DICE: selecciona un subconjunto de datos de la consulta actual. ✓ PIVOT: reorientación de las dimensiones en la consulta actual.
  • 148. Ph.D. Franklin Parrales 148 08/02/2022 Inteligencia de Negocios Carrera de Software Ventas Electrónica Juguetes Ropa Cosméticos Q1 5,2 1,9 2,3 1,1 Electónica Juguetes Ropa Cosméticos Q2 8,9 0,75 4,6 1,5 Productos Tienda1 Tienda2 5,6 1,4 2,6 1,1 7,2 0,4 4,6 0,5 Ventas Electrónica Juguetes Ropa Cosméticos Tienda1 5,2 1,9 2,3 1,1 Electrónica Juguetes Ropa Cosméticos Tienda2 5,6 1,4 2,6 1,1 Productos Q1 Q2 8,9 0,75 4,6 1,5 7,2 0,4 4,6 0,5 PIVOT Pivot
  • 149. Ph.D. Franklin Parrales 149 08/02/2022 Inteligencia de Negocios Carrera de Software Ventas Electrónica Juguetes Ropa Cosméticos Q1 5,2 1,9 2,3 1,1 Electrónica Juguetes Ropa Cosméticos Q2 8,9 0,75 4,6 1,5 Productos Tienda1 Tienda2 5,6 1,4 2,6 1,1 7,2 0,4 4,6 0,5 Ventas Electrónica Juguetes Q1 5,2 1,9 Productos Tienda1 Electrónica Juguetes Q2 8,9 0,75 DICE Tienda3 6,1 4,2 2,6 1,8 6,2 0,5 3,6 0,7 Tienda2 5,6 1,4 7,2 0,4 DICE
  • 150. Ph.D. Franklin Parrales 150 08/02/2022 Inteligencia de Negocios Carrera de Software Ventas Electrónica Juguetes Ropa Cosméticos Q1 5,2 1,9 2,3 1,1 Electrónica Juguetes Ropa Cosméticos Q2 8,9 0,75 4,6 1,5 Productos Tienda1 Tienda2 5,6 1,4 2,6 1,1 7,2 0,4 4,6 0,5 Ventas 5,2 Q1 5,6 Tienda1 Tienda2 8,9 Q2 7,2 SLICE Productos = 'Electrónica' SLICE
  • 151. Ph.D. Franklin Parrales 151 08/02/2022 Inteligencia de Negocios Carrera de Software Infraestructuras y arquitecturas de inteligencia de negocios Unidad 2 Final de la unidad