El documento define un datawarehouse como una colección de datos orientada a un tema, con datos integrados, no volátiles y variantes en el tiempo, que sirve para la toma de decisiones gerenciales. Explica que los datos se almacenan y agrupan por temas de interés, provienen de múltiples fuentes de datos e integran información histórica. Además, una vez almacenados los datos no se modifican y contienen información de fecha para el análisis histórico.
2. Almacenes y Minería de Datos 2
Definición
• Datawarehouse (Almacen de datos) se
define como una colección de datos que
verifican las siguientes propiedades:
– Está orientado (a un tema) a objetos
– Datos integrados
– No volátiles
– Variante en el tiempo
que surgieron como una herramienta de
soporte para la toma de decisiones a nivel
gerencial
3. Almacenes y Minería de Datos 3
Explicación de la definición
• Orientado hacia temas: los datos se
almacenan y agrupan por temas de interés.
4. Almacenes y Minería de Datos 4
Explicación de la definición
• Datos integrados: el almacén de datos
integra datos que provienen de varias
fuentes. Partimos de una base de datos
(operacional) y mediante un proceso de
carga de datos hacemos el Datawarehouse.
El proceso de carga es lo más complicado
por problemas de codificación, medidas de
los atributos… de las bases de datos.
BD
BD
BD
DW
CARGA
5. Almacenes y Minería de Datos 5
Explicación de la definición
• No volátiles: son estables, una vez
almacenados los datos no se modifican.
BD DWD
W
SELECT
INSERT
UPDATE
DELETE
REPORT
S
SELECT
CARGA
6. Almacenes y Minería de Datos 6
Explicación de la definición
• Variante en el tiempo: los datos contienen
información sobre la fecha de los mismos,
porque se hacen cargas de datos
continuamente. Cuando los datos van
cambiando, se actualizan los históricos y se
guardan en ficheros temporales. Siempre va
haber una variable tiempo.
TIEMPO
# id_tiempo
* periodo
7. Almacenes y Minería de Datos 7
Características
• Podemos resumir las características de
un Datawarehouse:
– Trabaja con datos de negocio
– Orientado a un sujeto
– Almacena datos actuales orientado a un
histórico (actual + histórico)
– Datos más bien resumidos (no información
detallada)
8. Almacenes y Minería de Datos 8
DIFERENCIAS
BD
OPERACIONAL
- Datos
operacionales
- Orientado a
aplicaciones
- Datos Actuales
- Datos Detallados
- Datos en continuo
cambio
DATAWAREHOUS
E
- Datos de negocio
- Orientado al sujeto
- Actuales +
Histórico
- Datos Resumidos
- Datos Estables
9. Almacenes y Minería de Datos 9
GESTOR
CARGA
ARQUITECTURA DW
GESTOR
ALMACENAMIENT
O
GESTOR
CONSULTAS
BD
operacional
Partimos de una BD operacional y se basa en 3 módulos
10. Almacenes y Minería de Datos 10
GESTOR DE CARGA
• Permite hacer la carga. Como dificultades
nos podemos encontrar:
– La integración de los datos
– Elección del momento de la carga
– El tiempo de carga sea el mínimo posible
– Buen diccionario de datos o METADATA (para
evitar cometer errores en la carga)
– Diseño de procedimientos PL/SQL
11. Almacenes y Minería de Datos 11
GESTOR DE ALMACENAMIENTO
• Se encarga del almacenamiento, de la
estructura,….
Existe una tabla llamada FACT (Hecho) y unas
tablas llamadas dimensiones o tablas
dimensionales.
Entre la tabla FACT y las tablas dimensionales
suele haber relaciones 1:N
Este modelo tiene forma de estrella por eso se
denomina MODELO STAR
12. Almacenes y Minería de Datos 12
MODELO STAR
FACT
DIM_1
DIM_2
DIM_TIEMPO
DIM_3
# PK4
# PK1
# PK2
# PK3
# PK1
# PK2
# PK3
# PK4
*campoA
*campoB
13. Almacenes y Minería de Datos 13
GESTOR DE CONSULTAS
• Las consultas se hacen sobre la tabla
FACT. También se encarga de los
perfiles, pues las consultas (reports)
serán diferentes dependiendo del
usuario y sus necesidades.
14. Almacenes y Minería de Datos 14
Ejemplo 1:
CATEGORIAS_PROF
# c_categoria
* descripción
* salario_min
* salario_max
USUARIOS
# c_usuario
* nombre
* apellido1
* apellido2
* c_categoria
* direccion
USU_OFERTAS
# c_categoria
# c_oferta
* salario_deseado
OFERTAS
# c_oferta
* descripción
* salario_min
* salario_max
* fx_alta
1
n
11
nn
15. Almacenes y Minería de Datos 15
Ejemplo 1:
# PK1CATEGORIAS_PR
OF
# c_categoria
* descripción
* salario_min
* salario_max
USUARIOS
# c_usuario
* nombre
* apellido1
* apellido2
* c_categoria
* direccion
OFERTAS
# c_oferta
* descripción
* salario_min
* salario_max
* fx_alta
TIEMPO
# c_tiempo
* descripcion
USU_OFERTAS
# c_usuario
# c_categoria
# c_oferta
* salario_deseado
16. Almacenes y Minería de Datos 16
REPORTS
• ¿Cuántos usuarios se han apuntado a las
ofertas de empleo del mes de enero?
SELECT count(*)
FROM USUARIOS_OFERTAS U, OFERTAS O
WHERE U.c_oferta=o.c_oferta
AND O.fx_alta BETWEEN (’01/01/07’,`31/01/07´)
17. 17
Arquitectura de un Almacén de Datos
EJEMPLO
Organización: Cadena de supermercados.
Actividad objeto de análisis: ventas de productos.
Información registrada sobre una venta: “del producto “Tauritón
33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5
unidades por un importe de 103,19 dolares.”
Para hacer el análisis no interesa la venta individual (ticket)
realizada a un cliente sino las ventas diarias de productos en
los distintos almacenes de la cadena.
18. 18
Arquitectura de un Almacén de Datos
Ventasimporte
unidades
Almacén
Almacén
Ciudad
Región
Tipo
Producto
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Tiempo
Día
Mes
Semana
Año
Trimestre
19. 19
Arquitectura de un Almacén de Datos
Ventasimporte
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Semana
Almacén
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de
análisis con los indicadores
que interesa analizar
Dimensiones (puntos de
vista) desde los que se
puede analizar la actividad.
Producto
TiempoAlmacén
Trimestre
20. 20
Arquitectura de un Almacén de Datos
Modelo multidimensional:
en un esquema multidimensional se representa una actividad
que es objeto de análisis (hecho) y las dimensiones que
caracterizan la actividad (dimensiones).
la información relevante sobre el hecho (actividad) se
representa por un conjunto de indicadores (medidas o atributos
de hecho).
la información descriptiva de cada dimensión se representa por
un conjunto de atributos (atributos de dimensión).
21. 21
Arquitectura de un Almacén de Datos
Ventas
importe
unidades
Almacén
Almacén
Ciudad
Región
Tipo
Producto
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidas
dimensión
atributos
Tiempo
Día
Mes
Semana
Año
Trimestre
22. 22
Arquitectura de un Almacén de Datos
Entre los atributos de una dimensión se definen jerarquías
departamento
almacén
ciudad región
tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
semana
23. 23
Arquitectura de un Almacén de Datos
Este esquema multidimensional recibe varios nombres:
• estrella: si la jerarquía de dimensiones es lineal
• estrella jerárquica o copo de nieve: si la jerarquía no es lineal.
PERSONAL
VENTAS
tiempo
tiempo
producto
lugar
proyecto
equipo
24. 24
Herramientas OLAP
una consulta a un almacén de datos consiste generalmente
en la obtención de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por
condiciones impuestas sobre las dimensiones
¿ “Importe total de las ventas durante este año de los productos
del departamento Bebidas, por trimestre y por categoría” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
medida hecho
Parámetros de la consulta: por categoría de producto y por trimestre
26. 26
Diseño de un Almacén de Datos
id_dim1
id_dim2
id_dim3
...
id_dim n
....
(hechos)
Dim3
Dim2
Dim1
tabla de
hechos
tabla
Dimensión 3
tabla
Dimensión 1
tabla
Dimensión 2 tabla
Dimensión nDimn
27. 27
Diseño de un Almacén de Datos
producto
día
almacén
ventas
tiempo
almacén
producto
id_producto
id_fecha
id_almacén
.....
.....
......
tabla de
hechos
la clave primaria* está
formada por los
identificadores de las
dimensiones básicas.
datos (medidas) sobre
las ventas diarias de un
producto en un almacén.
* pueden existir excepciones a esta regla general
28. 28
Diseño de un Almacén de Datos
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
Establecimiento
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Producto
29. 29
Diseño de un Almacén de Datos
id_fecha
id_producto
id_establec
...
...
...
Ventas
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Establecimiento
Producto
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
30. 30
Líneas de Investigación Abiertas
Diseño de Almacenes de Datos: modelos conceptuales,
metodogías de diseño.
Carga y ETL: recuperación de fallos durante la carga.
Planificación de cargas y refrescos.
Limpieza y Transformación
Mantenimiento de Almacenes de Datos: mantenimiento
de vistas materializadas.
Implementación de Almacenes de Datos.
Diseño Físico, optimizaciones para ROLAP, estructuras
para MOLAP.
Repartición de tareas OLAP entre el cliente y el servidor.