Fundamentos de Data 
Warehouse 
HHeerrmmeess RRoommeerroo 
DDAATTAABBAASSEE TTEEAAMM
Contenidos 
 Introducción 
 Arquitectura del data warehouse 
 Estructura de un Data warehouse 
 Data marts 
 Granular...
Introducción 
 Data Warehouse es una solución no un producto o grupo de 
 Un DWH puede ayudarnos a obtener respuestas pa...
o Data Warehousing : diseño e implementación de procesos, y 
herramientas para gestionar y proveer información completa, e...
Introducción 
 La necesidad del DWH surge a partir de la necesidad de 
obtener acceso fácil a una serie de datos estructu...
Introducción 
 En las décadas de los 80 y 90 las compañías se han 
preocupado principalmente por la adecuación de los sis...
Introducción 
 Debido principalmente a tres fenómenos que han 
ocurrido durante la pasada década los tamaños de las 
base...
• Diferentes estructuras de datos 
• Diferentes motores de datos 
• Diferentes almacenamientos físicos de información (fic...
o Este tipo de organizaciones tendrán que desarrollar y mantener 
diferentes aplicaciones para extraer, preparar y consoli...
o Los procesos de acceso a datos heterogéneos, limpios, filtrados y 
o El almacenamiento de datos en estructuras fáciles d...
considerablemente altos, particularmente si existen análisis 
basados en históricos. 
o Debido a este tipo de volumen de d...
Introducción 
 Los sistemas DWH no son considerados ahora como meras 
fotos-fijas (snapshots) de de los datos operacional...
Introducción 
 La acumulación de información histórica en el DWH, junto 
a su análisis puede dar lugar a informaciones o ...
 PARA LOGAR ESTOS RESULTADOS NO BASTA CON LA 
SIMPLE REINGENIERIA DE LOS MODELOS DE DATOS 
OPERACIONALES. 
© 2004 Databas...
 Consistencia de los datos (Data consistency architecture) 
o La consistencia de los datos se basa en la elección de los ...
 Arquitectura del almacén de datos para informes y del área 
de almacenamiento temporal (Reporting data store and 
stagin...
 Arquitectura del modelado de datos (Data modeling 
Architecture) 
o Consiste en la elección acerca de si se usarán model...
 Arquitectura de herramientas (Tool architecture) 
o La elección de herramientas que serán usadas para reporting. 
 Arqu...
 Un sistema DWH debe resolver necesidades propias de 
negocio y es por ello que será “sponsorizado” por las 
personas del...
o Funcionalidad (¿Para que sirve?) 
o Número de Consultas “ad-hoc” (personalizadas) de los 
o Número de consultas personal...
 Dependiendo de las respuestas a las preguntas descritas 
anteriormente se pueden establecer cuatro categorias: 
o OLPT –...
OLPT ODS OLAP DM/DW 
Funcionalidad Operacional Operacional/Decisional Decisional Decisional/Estrategica 
Herramientas de u...
 Otra de las mejores formulas para distinguir un DWH de 
uno que no lo es consiste en recabar la siguiente 
información: ...
 Los sistemas DWH por lo general tienen menos tablas y 
mas grandes, mientras que los operacionales tienen mas 
tablas y ...
OLPT ODS OLAP DM/DW 
Nº de tablas 1-miles 1-miles OLPT/10 OLPT/10 
Media de Registros por tabla miles -millones miles - mi...
o Debe hacer la información de la compañía accesible de 
manera sencilla a usuarios ofimáticos no avanzados 
o Debe presen...
 ¿cómo puede responder un sistema a la pregunta? 
o ¿por qué no se han alcanzado los resultados de ventas 
 Hasta el mom...
 Para que esta pregunta tenga respuesta a través del 
sistema es necesario realizar diversas consultas 
sistemáticas: 
o ...
o Si quisiera que me mostrase tan sólo aquellos productos que 
su cifra de ventas es menor que la cifra de ventas objetivo...
 Un director de ventas se preguntará probablemente: 
o ¿qué productos son los que mas se venden y cuales los que 
o ¿cuál...
o ¿qué clientes han reducido su periodo medio de compra? 
o ¿qué clientes han reducido su importe medio de compra? 
© 2004...
o ¿qué clientes no han comprado nada en los últimos 3 
o ¿por qué no se están cumpliendo los objetivos de ventas? 
© 2004 ...
 Una de las mayores obligaciones de un sistema de 
soporte a la toma de decisiones (DSS) es la disponibilidad 
de la info...
 Un data warehouse es un sistema orientado a 
determinados “asuntos” o áreas del negocio, es 
también un sistema integrad...
o Esta es la característica más importante 
o Los datos llegan de diferentes orígenes y son cargados en el data 
o Los dat...
 Como resultado de las transformaciones y 
cargas los datos una vez que residen en el data 
warehouse poseen una única im...
 Históricamente las distintas aplicaciones de una compañía 
manejaban la información de diferente manera, con 
diferentes...
o Al contrario que en los sistemas transaccionales OLPT, los 
datos en el data warehouse no son accedidos de manera 
regul...
o Que el data warehouse sea variable en el tiempo implica que 
cada dato incluido en el data warehouse ha sido obtenido en...
o El horizonte temporal de un sistema data warehouse es 
o El data warehouse debe contener más datos históricos que 
© 200...
 Pequeños data warehouses que pueden trabajar 
 El data mart depende de la arquitectura seleccionada 
© 2004 Database Te...
 Siempre ha existido una discusión acerca de si la 
arquitectura del DWH debía estar basada en Data Marts, 
o bien comple...
o Se pueden implementar de manera rápida y sencilla 
o Son proyectos de bajo riesgo. 
o presentan los datos desde la persp...
• Albergan subconjuntos de datos del repositorio central. 
o Los data marts también son conocidos como data 
warehouses de...
o Algunas veces los diseños de arquitecturas data warehouse 
basados en data marts caen en el error de diseñar 
estructura...
o Un analista que quiera obtener datos accederá de esta 
o Un repositorio de metadatos provee la información acerca de 
lo...
Usuarios Finales 
Usuarios Finales 
Usuarios Finales 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
BBDD 
Sistema...
 El experto en sistemas de “Business Intelligence” Drury 
Jenkins define la relación de soporte directo entre los 
sistem...
o Business Intelligence (BI) es la habilidad de tomar mejores 
o Un entorno de BI enfocado al cliente provee de la 
infrae...
o Los canales de contacto incluyen los tradicionales así como 
los basados en intercambio electrónico (email, web). 
o Las...
o El aspecto clave de proveer de la información necesaria es la 
creación de una vista global para cada cliente individual...
o Demasiado habitualmente, los datos obtenibles están 
fragmentados y repartidos sobre muchos lugares y sistemas, 
escondi...
© 2004 Database Team S.L 
© Hermes Romero 
DWH y BI 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Ante todo conocer al cliente 
o Cual es el valor del cliente para la compañía 
o Cuales son los clientes más importantes...
o Cual es el resultado de mis campañas publicitarias 
© 2004 Database Team S.L 
© Hermes Romero 
CRM 
 ...Que persigue el...
o El término CRM es confuso desde el punto de vista técnico 
• Se produce un paralelismo entre CRM y herramientas CRM 
o E...
BI 
Análisis 
Data mining 
© 2004 Database Team S.L 
© Hermes Romero 
CRM 
BBDD 
Transacciones 
ERP Negocio 
BBDD 
Relacio...
 La granularidad es el concepto mas importante en el 
diseño de un DWH. Por que es directamente proporcional 
al volumen ...
 Podemos tomar por ejemplo un registro de datos 
correspondiente a una venta, el registro individualmente 
se corresponde...
 Los datos de origen en los sistemas operacionales se 
encuentran en su mayor grado de granularidad, es por 
tanto durant...
 La granularidad también afectará como es evidente al 
tiempo de respuesta de las consultas al DWH. A mayor 
nivel de gra...
 El nivel de granularidad de un DWH es la clave de que 
esos datos puedan ser usados por diferentes tipos de 
usuarios en...
 Por ejemplo los datos de facturación de una compañía pueden 
ser usados por usuarios de Marketing, Ventas, Operaciones y...
Ventas por mes 
Ventas por semana 
Ventas por área geografica 
(52) 
Ventas por vendedor 
(52) 
Ventas por producto 
(20) ...
 Otro de los beneficios de la granularidad es la flexibilidad. 
o A mayor nivel de granularidad mayor flexibilidad. Esto ...
o A través del ejemplo anterior veamos el siguiente supuesto: 
• ¿Cuantas unidades ha vendido Paco del producto limpia-hog...
o La principal diferencia entre los distintos niveles de 
granularidad se centra en el volumen de recursos del que 
hace u...
 Es posible en determinados sistemas DWH definir dos o 
más niveles diferentes de granularidad para dar solución 
de mane...
 En nuestro ejemplo mientras el departamento de 
Operaciones y Financiero requiere un alto nivel de 
granularidad, los de...
 Los beneficios de la granularidad multiple se centran en 
un mayor rendimiento en tiempo y recursos para aquellas 
petic...
 Gracias a su bajo coste (básicamente almacenamiento), 
eficiencia, facilidad de acceso y habilidad para responder 
cualq...
 El principal condicionante en la elección del nivel de 
granularidad de nuestro sistema DWH se centra en el 
número de r...
o El primer paso para calcular el espacio que ocupará el DWH 
es la identificación de las tablas que serán construidas. 
o...
o 3º estimar en el horizonte de un año el máximo y mínimo 
numero de registros que contendrá cada una de las tablas. 
Si l...
o 5º Establecer el número y tamaño de los índices necesarios 
para las distintas tablas del DWH, es conveniente crear 
índ...
o Repetir esta operación por cada una de las tablas del DWH 
o Por lo general las estimaciones siempre se quedan pequeñas ...
 Una vez obtenidos los resultados de las predicciones es 
necesario aplicar la siguiente tabla para revisar si el nivel 
...
 Un importante componente de los sistemas DWH es el 
concepto de “Overflow storage” almacenamiento 
desbordado 
o El alma...
 Con el transcurso del tiempo mayor desbordamiento. 
o Almacenar los datos poco consultados en dispositivos 
o El uso del...
o Por ello a la hora de diseñar el almacenamiento de los datos 
es necesario discernir entre que datos son necesarios con ...
 La granularidad viene determinada a través de la 
funcionalidad del usuario, si el usuario ve los datos y el 
nivel de d...
 El nivel de granularidad debe tener en cuenta las 
necesidades futuras y la evolución del propio negocio. 
o Un nivel ma...
Caminos para establecer la granularidad 
 Realizando consultas sobre los orígenes de datos con los 
 Realizando las oper...
Caminos para establecer la granularidad 
 Identificando los mayores y menores valores en el 
 Identificando tan sólo los...
 Podemos definir particionamiento de los datos a nivel 
lógico y a nivel físico, para una mejor compresión, 
mantenimient...
o Acceso más flexible a los datos 
o Una gestión de los datos mas sencilla y eficiente 
o Asegura la escalabilidad del DWH...
 Habitualmente se realizan particiones de grandes 
volúmenes de datos dividiéndolos en piezas mas 
pequeñas. Al hacer est...
 Los criterios de particionamiento de los datos son 
variados pero quizás los mas representativos sean: 
o Periodo de tie...
 La elección de un criterio de particionamiento está 
basado e los requerimientos del propio negocio y las 
característic...
 Se puede realizar un particionamiento controlado por la 
propia aplicación. 
o Añadirá la posibilidad de portar los dato...
 Un DWH está siempre orientado a áreas temáticas 
 Área temática = área de interés para el negocio 
 El DWH está siempr...
 Esta orientación tiene su base en la forma en la que se 
plantean las consultas a un DWH, en un sistema 
operacional se ...
 Las áreas temáticas son la forma más común de 
 Para extraer una lista de los candidatos a áreas 
© 2004 Database Team ...
 Para la localización de las áreas temáticas se utiliza el 
método 5W1H que consiste en preguntarse acerca de: 
cuando, d...
 Una vez extraída la lista de candidatos a áreas temáticas, 
habrá que seleccionarlas, descomponerlas y redefinirlas 
mas...
Exploración y data mining (minería de datos) 
 Los sistemas de Data mining o minería de datos se han 
hecho populares dur...
 Es una practica extendida en nuestros días la integración 
de los sistemas de data mining en las aplicaciones 
transacci...
 Esta integración en los sistemas operacionales de la 
compañía requiere: 
o Integración de los sistemas de Data mining c...
 El principal caldo de cultivo de los sistemas de data 
mining son los sistemas DWH, ya que: 
o Permiten el análisis de l...
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
Definición 
DATA WAREHOUSE 
Preparación de los datos...
• Permite responder a determinadas preguntas , obteniendo la 
información relevante desde el DWH, transformándola para el ...
Preparación del informe 
Entrega del informe 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
Defini...
• El análisis multidimensional es una manera de extender las 
capacidades de las consultas e informes que como vimos se 
b...
• Mediante el mecanismo de precálculo integrado en las 
herramientas de procesamiento multidimensional, todas las 
respues...
Totales de Ventas en Enero Totales de Ventas en Febrero Totales de Ventas en Marzo 
Vendedor 1 Vendedor 2 Vendedor 1 Vende...
o Es una técnica relativamente nueva es muy diferente de las 
técnicas de consultas e informes y del análisis 
multidimens...
o Los descubrimientos pueden tomar la forma de encontrar 
significado a determinadas relaciones o patrones de datos. 
o De...
o Las técnicas de data mining se utilizan habitualmente para 
análisis estadístico de los datos y para descubrir el 
conoc...
o El soporte de las técnicas de análisis de data mining está 
soportado por los propios datos del negocio . Existe en el 
...
Gestionado por 
los datos 
Multidimensional Data Mining 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data min...
o OLAP data mart (OnLine Analitical Processing)  análisis 
multidimensional 
• Están diseñados para soportar análisis mul...
o Almacenes de exploración (Exploration warehouse) 
• Los almacenes de exploración están diseñados para dar soporte 
real ...
 Asumamos las siguientes aserciones como ciertas antes 
• En el DWH podremos encontrar datos de todas las unidades de 
ne...
o El DWH debe ser cargado con datos lo más rápida y 
o El DWH debe configurarse y diseñarse para soportar 
múltiples tecno...
 El tipo de análisis que será realizado con el DWH o Data 
mart puede determinar el tipo de modelado de datos y 
los cont...
o El análisis multidimensional también permite las operaciones 
o La minería de datos habitualmente trabaja mejor con el 
...
 Desde principios de los años 90 uno de los gurus del 
DWH , Ralph Kimball, propuso nuevas técnicas de diseño 
basadas en...
 Las características ideales que debe seguir el modelo de 
• Debemos por todos los medios a nuestro alcance evitar la 
re...
• Hemos repetido en varias ocasiones que nuestro DWH deba 
acomodarse a los cambios con facilidad y estabilidad, esto se 
...
• La consistencia de los datos contenidos en el DWH es sin duda la 
característica esencial. Los modelos de datos creados ...
 El modelo de datos resultante para el DWH, se 
trasladará a un diseño de base de datos que sea: 
o Fiable 
• No contendr...
• La base de datos resultante no condicionará en una dirección u 
otra el entorno BI creado. Todas las oportunidades tecno...
 Como cualquier proyecto de sistemas, un proyecto de 
DWH debe seguir las distintas fases del ciclo de vida de 
desarroll...
 En la mayoría de proyectos de DWH se abre un debate 
entre los integrantes tecnologicos del equipo acerca de si 
los mod...
 Lo mas recomendable en el diseño de data marts es que 
los esquemas de base de datos que los soportan deben 
estar diseñ...
 Probablemente basándome en mi experiencia el mejor 
diseño para los distintos tipos de data marts será el que 
no preest...
 Para determinar cual es el mejor diseño de base de datos 
posible para el data mart es aconsejable construir una 
matriz...
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
latencia 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com...
Diseño del DWH – Estructura de los datos 
 Para DWH podemos distinguir tres tipos básicos de datos: 
 Se puede configura...
Diseño del DWH – Estructura de los datos 
 Dependiendo de la naturaleza de los sistemas 
operacionales, el tipo de negoci...
Diseño del DWH – Estructura de los datos 
o Los datos en tiempo real representan el estado actual del 
negocio. Por supues...
Diseño del DWH – Estructura de los datos 
o Estos datos no tienen por que ser patrimonio exclusivo de 
los sistemas operac...
Diseño del DWH – Estructura de los datos 
o Evidentemente, también en el caso de que los datos en 
tiempo real provengan d...
Diseño del DWH – Estructura de los datos 
o Los datos derivados son datos que han sido creados 
probablemente a raíz de op...
Diseño del DWH – Estructura de los datos 
o Los datos derivados son tradicionalmente usados para la 
o La sumarización de ...
Diseño del DWH – Estructura de los datos 
o Los datos reconciliados son datos en tiempo real que han sido 
tratados para a...
Diseño del DWH – Estructura de los datos 
 El concepto de EDM – Enterprise Data Model 
o Un EDM es una definición consist...
 El modelador de datos debe responder a la premisa de 
diseñar las bases de datos del DWH para soportar de la 
mejor mane...
 En la mayoría de los modelos de datos de los sistemas 
operacionales actuales los modelos de datos se soportan 
sobre es...
 Con la llegada del DWH la necesidad de técnicas de 
modelado orientadas hacia el análisis se han visto 
incrementadas y ...
 El modelo de datos es una abstracción organizada de los 
datos que representan las actividades, recursos y 
resultados d...
 Por lo que a nivel lógico se refiere, se referirá a los 
aspectos de identificación de la entidad o entidades, su 
descr...
o Los modelos ER producen un modelo de datos de una 
especifica área de interes usando para ello dos conceptos 
básicos: E...
o El modelado ER se representa mediante un diagrama que 
usa tres tipos de graficos para conceptualizar los datos: 
Entida...
o Una relación se representa mediante lineas que unen a dos entidades. 
Una relación se designa de manera gramatical por m...
Modelado de datos para el DWH – Modelado 
dimensional 
 El modelado de datos dimensional usa tres conceptos 
 En algunos...
Modelado de datos para el DWH – Modelado 
dimensional 
 El modelado dimensional es un conjunto de medidas 
(measures) que...
Modelado de datos para el DWH – Modelado 
dimensional 
o Es una colección de items de datos relacionados. 
o Cada hecho ge...
Modelado de datos para el DWH – Modelado 
dimensional 
o Es una colección de miembros o unidades del mismo tipo. 
o Las di...
Modelado de datos para el DWH – Modelado 
dimensional 
o Si consideramos una base de datos de análisis de ventas, 
encontr...
Modelado de datos para el DWH – Modelado 
dimensional 
o Jerarquías de la dimensión (dimension hierarchies) 
• Las dimensi...
Modelado de datos para el DWH – Modelado 
dimensional 
Semana 
día ... 
© 2004 Database Team S.L 
© Hermes Romero 
 Jerar...
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
 Jerarquias de la dimen...
Modelado de datos para el DWH – Modelado 
dimensional 
o Una medida se determina por la combinación de miembros 
de las di...
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
 dimesion1 
DATABASE TE...
Modelado de datos para el DWH – Modelado 
dimensional 
o Es la tabla central en el modelo de datos dimensional, en 
esta t...
Modelado de datos para el DWH – Modelado 
dimensional 
o La capacidad de adición es crucial ya que raramente los 
valores ...
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de hechos representan el 90% o más del espacio 
ocupad...
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de hechos de tipo transaccional son las más 
o Las tab...
Modelado de datos para el DWH – Modelado 
dimensional 
o Las relaciones entre las tablas de hechos y las tablas de 
dimens...
Modelado de datos para el DWH – Modelado 
dimensional 
o En la mayoría de los casos no tiene ninguna utilidad la 
introduc...
Modelado de datos para el DWH – Modelado 
dimensional 
o Mucho del éxito de nuestro DWH dependerá de cómo se 
© 2004 Datab...
Modelado de datos para el DWH – Modelado 
dimensional 
o Hemos de tener en cuenta que las tablas de hechos pueden 
o No es...
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de dimensiones contienen los descriptores 
o En un mod...
Modelado de datos para el DWH – Modelado 
dimensional 
o Por otra parte las tablas de dimensiones por lo general son 
tabl...
Modelado de datos para el DWH – Modelado 
dimensional 
o En una consulta los atributos de una dimensión son 
identificable...
Modelado de datos para el DWH – Modelado 
dimensional 
o Un DWH será tan bueno como atributos de las tablas de 
dimensione...
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
 ...tablas de dimension...
Modelado de datos para el DWH – Modelado 
dimensional 
• Los atributos deben ser palabras reales en lugar de 
abreviacione...
Modelado de datos para el DWH – Modelado 
dimensional 
• Las tablas de dimensiones frecuentemente representan 
estructuras...
Modelado de datos para el DWH – Modelado 
dimensional 
• Debemos resistir nuestro impulso de almacenar tan solo el 
código...
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
tabla de marcas 
clave d...
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de dimensiones son los puntos de 
entrada a las tablas...
Modelado de datos para el DWH – Modelado 
dimensional 
dimensión 
tabla de tiendas 
clave de tienda 
provincia 
© 2004 Dat...
Modelado de datos para el DWH – Modelado 
dimensional 
o Al relacionar las tablas de hechos con las tablas de 
dimensiones...
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Fundamentos de DataWarehouse
Upcoming SlideShare
Loading in...5
×

Fundamentos de DataWarehouse

8,046

Published on

Introducción a la arquitectura y los fundamentos de un sistema DataWarehouse

Fundamentos de DataWarehouse

  1. 1. Fundamentos de Data Warehouse HHeerrmmeess RRoommeerroo DDAATTAABBAASSEE TTEEAAMM
  2. 2. Contenidos  Introducción  Arquitectura del data warehouse  Estructura de un Data warehouse  Data marts  Granularidad  Exploración y minería de datos  Diseño del data warehouse  Visualización del modelo dimensional Aplicaciones OLAP (bases de datos dimensionales)  Carga de datos en el data warehouse  Ciclo de vida del data warehouse
  3. 3. Introducción  Data Warehouse es una solución no un producto o grupo de  Un DWH puede ayudarnos a obtener respuestas para tomar  Antes de construir un DWH debemos responder a las siguientes preguntas o ¿De donde vienen los datos del DWH? o ¿cómo se cargarán los datos en el DWH? o ¿cómo se mantendrán? o ¿cómo se estructuran los datos en el DWH? o ¿qué podemos encontrar en un momento del tiempo en el DWH? © 2004 Database Team S.L © Hermes Romero productos. decisiones de manera más acertada. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  4. 4. o Data Warehousing : diseño e implementación de procesos, y herramientas para gestionar y proveer información completa, en tiempo, fiel y comprensible para la toma de decisiones. Incluye todas las actividades que hacen posible a una organización la creación, gestión y mantenimiento del DWH o del datamart. o La definición aceptada de DWH se atribuye a Bill Inmon en 1992*: • DWH es una base de datos que sigue cuatro características: © 2004 Database Team S.L © Hermes Romero Introducción  Definición de DWH o Subject oriented o Nonvolatile o Integrated o Time variant DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  5. 5. Introducción  La necesidad del DWH surge a partir de la necesidad de obtener acceso fácil a una serie de datos estructurados con la calidad suficiente para ser usados en la toma de decisiones.  Es sabido por todo el mundo que la información es un potente activo del que se pueden obtener importantes beneficios y ventajas competitivas para cualquier organización. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  6. 6. Introducción  En las décadas de los 80 y 90 las compañías se han preocupado principalmente por la adecuación de los sistemas operacionales, es decir por la obtención de los datos, la disponibilidad de las aplicaciones, el almacenamiento de los datos, etc... En nuestros días ha legado el momento de sacar partido de esa información, el problema es que los sistemas operacionales no permiten en la mayoría de los casos la obtención de información de manera rápida y precisa para la toma de decisiones, por diversas causas. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  7. 7. Introducción  Debido principalmente a tres fenómenos que han ocurrido durante la pasada década los tamaños de las bases de datos se han visto incrementados significativamente: o Los costes de almacenamiento se han vuelto insignificantes en comparación con el valor de la información almacenada. o Las empresas valoran la información (datos) como un activo o Muchas de las empresas multinacionales comparten su información a través de toda la organización a nivel mundial. © 2004 Database Team S.L © Hermes Romero de negocio crítico. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  8. 8. • Diferentes estructuras de datos • Diferentes motores de datos • Diferentes almacenamientos físicos de información (ficheros) • Diferentes plataformas o Por ejemplo un sistema calcula la edad a través de la fecha de nacimiento, otro lo escribe en un campo, uno llama edad al atributo, otro le llama AGE... © 2004 Database Team S.L © Hermes Romero Introducción o Existen diferentes aplicaciones en la organización o Mainframes o Sistemas medios multiprocesador o Proveedores externos de servicios o Estaciones de trabajo en red e independientes. • Información distribuida • Multiplicidad de tipos de datos DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  9. 9. o Este tipo de organizaciones tendrán que desarrollar y mantener diferentes aplicaciones para extraer, preparar y consolidar la información en informes y analíticas. o Es normal también que los responsables de la toma de decisión, a la hora de efectuar un hallazgo quieran profundizar más en los datos que han llevado a ese hallazgo. © 2004 Database Team S.L © Hermes Romero Introducción DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  10. 10. o Los procesos de acceso a datos heterogéneos, limpios, filtrados y o El almacenamiento de datos en estructuras fáciles de acceder,  Los datos en el DWH son usados para consultar, analizar y  El tipo de acceso, uso, tecnología y rendimiento son completamente diferentes de los sistemas transaccionales operacionales OLPT. © 2004 Database Team S.L © Hermes Romero Introducción  Los sistemas DWH implementan : transformados fáciles de usar y comprensibles. realizar informes. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  11. 11. considerablemente altos, particularmente si existen análisis basados en históricos. o Debido a este tipo de volumen de datos y el análisis que se realiza sobre ellos se desaconseja hacer este tipo de operaciones directamente sobre los sistemas transaccionales ya que estos pueden verse impactados de manera negativa en su rendimiento debido a las operaciones masivas que requiere el análisis. Existe por tanto un requerimiento de separación de los dos entornos DWH-OLPT para minimizar lso posibles conflictos y degradación de rendimiento en el sistema operacional. © 2004 Database Team S.L © Hermes Romero Introducción  Los volúmenes de datos en el DWH pueden ser DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  12. 12. Introducción  Los sistemas DWH no son considerados ahora como meras fotos-fijas (snapshots) de de los datos operacionales. Los sistemas DWH deben ser considerados como nuevas fuentes de información concebidas para el uso de toda la organización. La simple reingeniería de los modelos operacionales no satisfacen los requerimientos para el DWHing. El desarrollo de DWH requiere mucho más análisis aplicado a las técnicas de modelado y una relación mucho mas cercana con el propio negocio de la organización. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  13. 13. Introducción  La acumulación de información histórica en el DWH, junto a su análisis puede dar lugar a informaciones o revelaciones nunca antes conocidas acerca de clientes, competidores, etc..., por lo que el DWH aunque es un sistema de solo-lectura (read-only) también puede aportar información.  El DWH también ayuda al descubrimiento de cosas que © 2004 Database Team S.L © Hermes Romero diferencian a la organización. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  14. 14.  PARA LOGAR ESTOS RESULTADOS NO BASTA CON LA SIMPLE REINGENIERIA DE LOS MODELOS DE DATOS OPERACIONALES. © 2004 Database Team S.L © Hermes Romero Introducción DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  15. 15.  Consistencia de los datos (Data consistency architecture) o La consistencia de los datos se basa en la elección de los distintos orígenes de datos, dimensiones, Reglas de negocio, métrica y semántica, que una organización selecciona para un uso común. o Este es de lejos el aspecto más difícil de implementar en la arquitectura del data warehouse debido a que incluye y está condicionada por las políticas y la organización de la compañía. o Las decisiones acerca de esta arquitectura deben de conducir a todas © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH las otras decisiones. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  16. 16.  Arquitectura del almacén de datos para informes y del área de almacenamiento temporal (Reporting data store and stagin data store architecture) o Las principales razones por las que se almacenan datos en un data o Realización de informes que hacen uso de ellos (Reported against) o Limpieza y organización de los datos (Cleaned up) o Transporte a otro almacén de datos donde pueden ser utilizados para realización de informes o para su limpieza y organización. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH warehouse son: DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  17. 17.  Arquitectura del modelado de datos (Data modeling Architecture) o Consiste en la elección acerca de si se usarán modelos de datos, normalizados, denormalizados, orientados a objetos, propietarios, multidimensionales, etc... © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  18. 18.  Arquitectura de herramientas (Tool architecture) o La elección de herramientas que serán usadas para reporting.  Arquitectura de procesado (Processing tiers architecture) o Elección de las plataformas físicas para el procesamiento concurrente o Puede ir desde una simple arquitectura como la basada en un único servidor de informes hasta uno cientos de servidores distribuidos.  Arquitectura de Seguridad (Security Architecture) o Aunque la seguridad no presenta ninguna dificultad técnica a la hora de ser aplicada si presenta complejas dificultades desde el punto de vista político. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH que tiene lugar en el data warehouse. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  19. 19.  Un sistema DWH debe resolver necesidades propias de negocio y es por ello que será “sponsorizado” por las personas del negocio que harán uso de el.  Un DWH también sigue determinadas especificaciones de diseño, un DWH no es un DWH simplemente por que alguien dice que lo es. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  20. 20. o Funcionalidad (¿Para que sirve?) o Número de Consultas “ad-hoc” (personalizadas) de los o Número de consultas personalizadas por día y por usuario-día o Número de usuarios de informes standard o Numero de usuarios, usuarios-día de informes standard o Número de informes standard o Volumen del historico a almacenar en meses, trimestres o o Volumen de datos típico para almacenar (diario,semanal o © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH  Como detectar un DWH usuarios años. mensual) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  21. 21.  Dependiendo de las respuestas a las preguntas descritas anteriormente se pueden establecer cuatro categorias: o OLPT – sistema transaccional de operaciones o ODS operational data store o OLAP online analytical processing o DM / DW Data mart / data warehouse © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  22. 22. OLPT ODS OLAP DM/DW Funcionalidad Operacional Operacional/Decisional Decisional Decisional/Estrategica Herramientas de usuario final Cliente Servidor/WEB C/S-WEB C/S C/S-WEB tecnologia BBDD Relacional Relacional Cubica Relacional Nº de transacciones Alto Medio Bajo Bajo Tamaño de la transacción Bajo Medio Medio Alto tiempo de tranascción Corto Medio Medio Alto Tamaño BBDD en GB 1 OLPT * 2 - OLPT *10 OLPT * 2 - OLPT *10 OLPT*2-OLPT*100 Modelado de datos Entidad Relación Entidad Relación N/A Dimensional Normalización 3-5 NF 3 NF N/A 0 NF © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  23. 23.  Otra de las mejores formulas para distinguir un DWH de uno que no lo es consiste en recabar la siguiente información: o Número de tablas o El número de registros de la tabla mayor o El tamaño en GB de la tabla mayor o La media de registros de las mayores tablas o El tamaño medio en GB de las mayores tablas o La mayor transacción (rollback) en GB. (Oracle) o El mayor segmento temporal necesitado en GB. (Oracle) © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  24. 24.  Los sistemas DWH por lo general tienen menos tablas y mas grandes, mientras que los operacionales tienen mas tablas y mas pequeñas.  En el caso de Oracle y otras BBDD que utilicen mecanismos de recuperación de transacciones (rollback), así como segmentos o áreas temporales de ordenación de resultados, los sistemas DWH necesitarán que estas áreas sean al menos tan grandes como el objeto mas grande de la base de datos, mientras que los sistemas operacionales tan sólo necesitan que el espacio sea suficiente para dar cabida a la transacción mas voluminosa del sistema. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  25. 25. OLPT ODS OLAP DM/DW Nº de tablas 1-miles 1-miles OLPT/10 OLPT/10 Media de Registros por tabla miles -millones miles - millones millones millones Media de tamaño por tabla (GB) 1 a 99 1 a 99 1 a 99 1 a 999 Nº de registros de la tabla mas grande miles - millones miles - millones miles - millones miles - cientos de millones Tamaño de la Tabla mas grande (GB) 1 a 99 1 a 99 1 a 99 1 a 999 Tamaño de los segmentos de Rollback 1 a 100 Mb 1 a 100 Mb N/A 1 a 999 Gb Tamaño de los segmentos temporales 1 a 100 Mb 1 a 100 Mb N/A 1 a 999 Gb © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  26. 26. o Debe hacer la información de la compañía accesible de manera sencilla a usuarios ofimáticos no avanzados o Debe presentar la información de la compañía de manera o Debe adaptarse al cambio en el entorno y adaptable a las o Debe ser lo suficientemente seguro para proteger el activo mas importante de la compañía ... La información. o Debe servir a la funcionalidad ultima de mejora de la toma o Los usuarios deben de aceptar el sistema si se pretende que © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH  El sistema DWH debe: consistente y estructurada necesidades puntuales del usuario de decisión. su implementación y uso se haga con éxito. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  27. 27.  ¿cómo puede responder un sistema a la pregunta? o ¿por qué no se han alcanzado los resultados de ventas  Hasta el momento no existe ningún sistema informático que pueda dar respuesta a una pregunta de este tipo, imaginemos una sentencia SQL que pudiese dar respuesta a esta pregunta. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH previstos? DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  28. 28.  Para que esta pregunta tenga respuesta a través del sistema es necesario realizar diversas consultas sistemáticas: o Así la primera pregunta sería: • ¿Para cada producto, cuales son las ventas acumuladas del año? • El sistema nos devolvería una lista de los productos con sus cifras de venta correspondientes © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  29. 29. o Si quisiera que me mostrase tan sólo aquellos productos que su cifra de ventas es menor que la cifra de ventas objetivo • ¿cuáles son las ventas acumuladas para cada uno de los productos en las que las ventas actuales son menores que los objetivos? o Después de descubrir cuales son los productos que no alcanzan la cifra objetivo, analizará cada caso para ver cual es la posición del producto con respecto al mercado, etc...  El mismo análisis podría hacerse para localizar áreas de venta donde no se están alcanzando los objetivos, vendedores que no están alcanzando la cifra, etc... © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  30. 30.  Un director de ventas se preguntará probablemente: o ¿qué productos son los que mas se venden y cuales los que o ¿cuál es el periodo medio de compra de mis clientes? © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH menos? o ¿cuáles son los clientes mas importantes? • Por cifra de negocio (facturación) • Por rentabilidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  31. 31. o ¿qué clientes han reducido su periodo medio de compra? o ¿qué clientes han reducido su importe medio de compra? © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH o ¿cómo clasificaría a mis clientes? • A,B,C – Pareto o Basado en cifra de negocio o Basado en rentabilidad o Basado en periodo medio de compra • Otros... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  32. 32. o ¿qué clientes no han comprado nada en los últimos 3 o ¿por qué no se están cumpliendo los objetivos de ventas? © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH meses? • A nivel local • A nivel provincial • A nivel regional • A nivel nacional • ... o ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  33. 33.  Una de las mayores obligaciones de un sistema de soporte a la toma de decisiones (DSS) es la disponibilidad de la información. o Tener acceso a los datos correctos en el momento correcto y © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH con un tiempo de respuesta aceptable. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  34. 34.  Un data warehouse es un sistema orientado a determinados “asuntos” o áreas del negocio, es también un sistema integrado, no volátil y cambiante en el tiempo, que da soporte para la toma de decisiones de los niveles ejecutivos y gerenciales de una empresa. o Como es evidente cada tipo de negocio posee su propio conjunto de “asuntos” o áreas. Es decir una empresa dedicada a la distribución probablemente posea una serie de áreas comunes de análisis con el resto de empresas que se dediquen también a la distribución. o El data warehouse contiene datos corporativos estructurados de © 2004 Database Team S.L © Hermes Romero Estructura de un DWH manera granular. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  35. 35. o Esta es la característica más importante o Los datos llegan de diferentes orígenes y son cargados en el data o Los datos en su camino hacia el data warehouse pueden sufrir transformaciones fruto de cálculos realizados sobre los mismos. • Conversión de datos • Reformateado (Reformatted) • Cambio de secuencia (Resequenced) • Sumarizados (Summarized) • Etc... © 2004 Database Team S.L © Hermes Romero Estructura de un DWH  Está integrado warehouse. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  36. 36.  Como resultado de las transformaciones y cargas los datos una vez que residen en el data warehouse poseen una única imagen física. © 2004 Database Team S.L © Hermes Romero Estructura de un DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  37. 37.  Históricamente las distintas aplicaciones de una compañía manejaban la información de diferente manera, con diferentes tipos de datos. o No existía por tanto un consistencia a la hora de la codificación, nombres de entidades y atributos, tipo de datos, etc.., ...lo que hacía más difícil su integración en un único sistema de explotación de la información generada. o Es por tanto tarea del sistema data warehouse especificar un único repositorio que integre las diferentes peculiaridades de los distintos orígenes de datos. (Una única estructura de datos para distintos orígenes de datos con estructuras diferentes) © 2004 Database Team S.L © Hermes Romero Estructura de un DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  38. 38. o Al contrario que en los sistemas transaccionales OLPT, los datos en el data warehouse no son accedidos de manera regular de registro en registro. o Los data warehouse son cargados (generalmente en masa) y accedidos sólo para su consulta no para su actualización. o Cuando el data warehouse se carga genera una foto fija en o Cuando se producen nuevas cargas fruto de cambios en los sistemas OLPT una nueva foto fija de los datos nuevos se generará de manera que los datos ya cargados junto con los nuevos pasarán a formar parte del histórico del data warehouse. © 2004 Database Team S.L © Hermes Romero Estructura de un DWH  No es volátil (nonvolatile) el tiempo de los datos (snapshot). DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  39. 39. o Que el data warehouse sea variable en el tiempo implica que cada dato incluido en el data warehouse ha sido obtenido en un momento en el tiempo. • En algunos casos el registro tiene un campo de fecha. • En otros casos esa fecha se corresponde con la fecha en la que • En cualquier caso un registro siempre está sometido a una variable de tiempo. © 2004 Database Team S.L © Hermes Romero Estructura de un DWH  Variable en el tiempo se valido la transacción que lo contenía. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  40. 40. o El horizonte temporal de un sistema data warehouse es o El data warehouse debe contener más datos históricos que © 2004 Database Team S.L © Hermes Romero Estructura de un DWH mayor al de un sistema operacional. • Operacional 60-90 días. • DWH 5 a 10 años. cualquier otro sistema. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  41. 41.  Pequeños data warehouses que pueden trabajar  El data mart depende de la arquitectura seleccionada © 2004 Database Team S.L © Hermes Romero Data Marts independientemente o interconectados. para el data warehouse. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  42. 42.  Siempre ha existido una discusión acerca de si la arquitectura del DWH debía estar basada en Data Marts, o bien completamente centralizado.  Los data warehouses centrales (“enterprise wide data © 2004 Database Team S.L © Hermes Romero Data Marts warehouses”) o Proyectos mas arriesgados o Altos costes o Tiempos altos de desarrollo. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  43. 43. o Se pueden implementar de manera rápida y sencilla o Son proyectos de bajo riesgo. o presentan los datos desde la perspectiva de un proceso  La cantidad de datos históricos contenidos en un data mart deben ser dictados por los requerimientos del negocio. © 2004 Database Team S.L © Hermes Romero Data Marts  Los data marts simple de negocio (subject). DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  44. 44. • Albergan subconjuntos de datos del repositorio central. o Los data marts también son conocidos como data warehouses departamentales (departamental data warehouses). • No debe ser estrictamente departamental ya que es relativo a un proceso de negocio no a un departamento. • facturación, llamadas del call center, movimientos de almacén, procurement, etc... © 2004 Database Team S.L © Hermes Romero Data Marts  Arquitectura en Bus o Los Data marts en bus o seleccionados o preparados o Son usados por parte de un grupo de usuarios. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  45. 45. o Algunas veces los diseños de arquitecturas data warehouse basados en data marts caen en el error de diseñar estructuras de tela de araña donde múltiples extracciones de un mismo origen de datos se cargan en diferentes data marts. Con esto diseños se debe tener en cuenta el mayor coste así como la posibilidad de inconsistencias de los datos en los diferentes data marts. o Las arquitecturas basadas en estructuras de tela de araña no tienen en cuenta que el diseño de los distintos data marts debe estar basado en el proceso de negocio y no en la organización departamental de la compañía. En los sistemas centrados en el proceso (process-centric) los dato son extraídos una sola vez y almacenados en un único lugar. © 2004 Database Team S.L © Hermes Romero Data Marts  ...arquitectura en bus DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  46. 46. o Un analista que quiera obtener datos accederá de esta o Un repositorio de metadatos provee la información acerca de los diferentes data marts (directorio de data mart) © 2004 Database Team S.L © Hermes Romero Data Marts  ...arquitectura en bus manera al data mart relevante. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  47. 47. Usuarios Finales Usuarios Finales Usuarios Finales © 2004 Database Team S.L © Hermes Romero Data Marts BBDD Sistema Operacional Datos Historicos Repositorio Centralizado de Datos ODS (Operational Data Store) Otros datos Metadatos Data Marts DataMart DataMart DataMart DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  48. 48.  El experto en sistemas de “Business Intelligence” Drury Jenkins define la relación de soporte directo entre los sistemas business intelligence y los data warehouse haciendo un especial énfasis en el modelado de los datos y el análisis de los mismos. © 2004 Database Team S.L © Hermes Romero DWH y Business Intelligence DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  49. 49. o Business Intelligence (BI) es la habilidad de tomar mejores o Un entorno de BI enfocado al cliente provee de la infraestructura necesaria para proveer la información necesaria para maximizar la base de clientes. o Esta infraestructura combina datos, canales y técnicas analíticas para mejorar las satisfacción del cliente y el beneficio a través de mayores puntos de contacto. o Para los especialistas en Marketing esto es la habilidad de contactar al cliente correcto en el momento correcto, en el lugar correcto y con el producto correcto. © 2004 Database Team S.L © Hermes Romero DWH y BI decisiones de manera más rápida. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  50. 50. o Los canales de contacto incluyen los tradicionales así como los basados en intercambio electrónico (email, web). o Las técnicas analíticas incluyen análisis de perfiles, modelos predictivos, análisis de series de tiempo, y otras técnicas. © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  51. 51. o El aspecto clave de proveer de la información necesaria es la creación de una vista global para cada cliente individual y sus necesidades. o La integración de los datos de los clientes debe proveer de una vista única y uniforme de los clientes a lo largo de la organización. o El objetivo último es alcanzar una foto completa de la interacción de un cliente con la organización entera, sólo se puede lograr mediante la obtención y almacenamiento de los datos apropiados. o Además de los datos suplidos de demografía y otros datos externos, son necesarios numerosos datos internos de la organización. © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  52. 52. o Demasiado habitualmente, los datos obtenibles están fragmentados y repartidos sobre muchos lugares y sistemas, escondidos en numerosas bases de datos de transacciones, o herramientas de productividad personal como hojas de calculo o “micro-bases de datos”. o Esta dispersión de los datos, ha sido debido en gran manera por el crecimiento de los sistemas de aplicaciones cliente/servidor en la pasada década .... © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  53. 53. © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  54. 54. o Ante todo conocer al cliente o Cual es el valor del cliente para la compañía o Cuales son los clientes más importantes para la compañía o Cuales son los prospectos potenciales o Cuales son los clientes / productos más rentables © 2004 Database Team S.L © Hermes Romero CRM  Que persigue el CRM... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  55. 55. o Cual es el resultado de mis campañas publicitarias © 2004 Database Team S.L © Hermes Romero CRM  ...Que persigue el CRM... • Nº de impactos • Nº de clientes nuevos • Incremento de ventas • CrossSelling o Optimizar la interacción con el cliente o Trato personalizado o Ofertas personalizadas o Etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  56. 56. o El término CRM es confuso desde el punto de vista técnico • Se produce un paralelismo entre CRM y herramientas CRM o El CRM es una filosofía/estrategia de compañía que se lleva a cabo por medio de herramientas especializadas en los distintos ámbitos del tratamiento de la información referida al cliente. © 2004 Database Team S.L © Hermes Romero CRM  Ámbito tecnológico del CRM o Hoy por Hoy todo es CRM... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  57. 57. BI Análisis Data mining © 2004 Database Team S.L © Hermes Romero CRM BBDD Transacciones ERP Negocio BBDD Relaciones Con clientes Herramientas CRM Contact-Center ETL Data Warehouse DATABASE TECHNOLOGIES & SERVICES Reporting www.hermesromero.com
  58. 58.  La granularidad es el concepto mas importante en el diseño de un DWH. Por que es directamente proporcional al volumen de datos que almacenará el DWH.  La granularidad se refiere al nivel de detalle o resumen  A mayor detalle mayor nivel de granularidad.  A menor detalle menor nivel de granularidad. © 2004 Database Team S.L © Hermes Romero Granularidad de los datos contenidos en el DWH. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  59. 59.  Podemos tomar por ejemplo un registro de datos correspondiente a una venta, el registro individualmente se correspondería con el mayor nivel de granularidad, mientras que una consulta acerca del total de ventas del mes se correspondería con un nivel de granularidad menor.  Evidentemente a mayor nivel de granularidad mayor será el volumen de información , mientras que al contrario, a menor granularidad menor volumen de datos. © 2004 Database Team S.L © Hermes Romero Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  60. 60.  Los datos de origen en los sistemas operacionales se encuentran en su mayor grado de granularidad, es por tanto durante la fase de extracción de los datos de los sistemas operacionales hasta el DWH cuando se produce la transformación de los mismos para adecuar su granularidad a la definida en el diseño del DWH de destino.  A través del nivel de granularidad se puede predecir el crecimiento en número de registros del DWH, así como los requerimientos de espacio para el mismo. © 2004 Database Team S.L © Hermes Romero Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  61. 61.  La granularidad también afectará como es evidente al tiempo de respuesta de las consultas al DWH. A mayor nivel de granularidad menor rendimiento y mayor tiempo de respuesta. A menor nivel de granularidad del sistema, menores recursos son utilizados(procesador, memoria,almacenamiento,etc.). © 2004 Database Team S.L © Hermes Romero Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  62. 62.  El nivel de granularidad de un DWH es la clave de que esos datos puedan ser usados por diferentes tipos de usuarios en diferentes ocasiones y de diferente manera a lo largo de la compañía. © 2004 Database Team S.L © Hermes Romero Los beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  63. 63.  Por ejemplo los datos de facturación de una compañía pueden ser usados por usuarios de Marketing, Ventas, Operaciones y Financiero. Todos estos departamentos hacen uso de los mismos datos. Para el departamento de Marketing será interesante conocer las ventas por áreas geográficas por meses, para el departamento de ventas será necesario ver los datos desde la perspectiva de las ventas por vendedor o delegación comercial semanalmente. Para el departamento de operaciones será conveniente ver los datos desde la perspectiva de ventas por línea de producto con carácter mensual para de esa manera poder prever el nivel óptimo de stock en los almacenes. Finalmente para el departamento financiero lo importante será ver los datos desde la perspectiva de la rentabilidad de las ventas por línea de producto. © 2004 Database Team S.L © Hermes Romero Los beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  64. 64. Ventas por mes Ventas por semana Ventas por área geografica (52) Ventas por vendedor (52) Ventas por producto (20) Ventas por nivel de rentabilidad (5) 1081600 registros al mes 21632000 bytes/mes © 2004 Database Team S.L © Hermes Romero Los beneficios de la granularidad Ventas por mes Marketing Ventas Ventas por mes Ventas por área geografica (52) Operaciones Financiero Ventas por mes Ventas por semana Ventas por área geografica (52) Ventas por vendedor (52) Ventas por mes Ventas por semana Ventas por área geografica (52) Ventas por vendedor (52) Ventas por producto (20) 10816 registros al mes 216320 bytes/mes Mayor Granularidad 1 registro al mes 20 bytes/mes 52 registros al mes 1040 bytes/mes 216320 registros al mes 4326400 bytes/mes DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  65. 65.  Otro de los beneficios de la granularidad es la flexibilidad. o A mayor nivel de granularidad mayor flexibilidad. Esto significa que los requerimientos futuros de obtención de datos podrán ser acomodados con el diseño actual del DWH. Los cambios son inevitables, por esto nuestro DWH debe estar preparado para los distintos requerimientos de datos que sobrellevan los cambios del entorno del negocio.  Otro de los beneficios de la granularidad es que a mayor granularidad mayor contenido histórico de actividades y eventos de la compañía. © 2004 Database Team S.L © Hermes Romero Beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  66. 66. o A través del ejemplo anterior veamos el siguiente supuesto: • ¿Cuantas unidades ha vendido Paco del producto limpia-hogar Malvarossa la semana del 3 al 10 de Diciembre del año pasado.? o En el nivel 1 de granularidad nuestra pregunta no tendría o En el nivel 2 de granularidad tampoco o Ni en el nivel 3. o En el nivel 4 de granularidad nuestra respuesta si podría ser o En el nivel 5 de granularidad también podría ser contestada. © 2004 Database Team S.L © Hermes Romero Beneficios de la granularidad respuesta. contestada. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  67. 67. o La principal diferencia entre los distintos niveles de granularidad se centra en el volumen de recursos del que hace uso cada nivel. (a mayor nivel mayores recursos). © 2004 Database Team S.L © Hermes Romero Beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  68. 68.  Es posible en determinados sistemas DWH definir dos o más niveles diferentes de granularidad para dar solución de manera más eficiente a diferentes peticiones de datos. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  69. 69.  En nuestro ejemplo mientras el departamento de Operaciones y Financiero requiere un alto nivel de granularidad, los departamentos de ventas y Marketing requieren niveles de granularidad menor, para facilitar la labor de estos últimos´, diseñaremos por tanto dos repositorios de datos con distinta granularidad el primero de ellos tendrá un nivel 3 de granularidad y será el usado por el departamento de marketing y el departamento de Ventas, mientras que el segundo repositorio contendrá una granularidad de nivel 5 y dará respuesta a las necesidades de los departamentos de operaciones y financiero. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  70. 70.  Los beneficios de la granularidad multiple se centran en un mayor rendimiento en tiempo y recursos para aquellas peticiones dirigidas contra el repositorio de mayor granularidad. El reparto de peticiones entre los diferentes repositorios por granularidad afectará de manera positiva ya que también el número de peticiones sobre cada uno de los repositorios bajará.  Evidentemente la puesta en marcha de diferentes grados de granularidad afecta al espacio de almacenamiento. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  71. 71.  Gracias a su bajo coste (básicamente almacenamiento), eficiencia, facilidad de acceso y habilidad para responder cualquier consulta, la granularidad múltiple generalmente a dos niveles, es la mejor elección posible en arquitecturas donde el nivel de detalle del DWH es muy alto y el volumen de datos es también muy alto.  Un único nivel de granularidad muy detallada está solo indicada en casos en los que el volumen de datos es relativamente pequeño. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  72. 72.  El principal condicionante en la elección del nivel de granularidad de nuestro sistema DWH se centra en el número de registros o volumen de datos que contendrá la base de datos, evidentemente este volumen tan sólo podrá ser predictivo por estimación. Es importante también efectuar en esta fase un ejercicio para estimar el crecimiento del propio DWH. © 2004 Database Team S.L © Hermes Romero Estimación de la Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  73. 73. o El primer paso para calcular el espacio que ocupará el DWH es la identificación de las tablas que serán construidas. o 2º estimar el tamaño de un registro en cada una de las tablas. Evidentemente el tamaño exacto nunca se conocerá ya que una filas consumirán mas espacio y otras menos, por lo que nosotros tomaremos como cifra una estimación basada en la cantidad mínima de espacio y por otro lado la cantidad máxima de espacio necesario para una fila. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  74. 74. o 3º estimar en el horizonte de un año el máximo y mínimo numero de registros que contendrá cada una de las tablas. Si la información contenida se refiere a clientes o ventas es necesario usar las estimaciones de ventas del negocio recogidas en el plan de negocio para conocer el crecimiento de las tablas asociadas a las ventas. Si no existe un plan de negocio, será necesario utilizar otras variables predictivas como puede ser la situación economica, la cuota de mercado y el crecimiento en cuota de mercado, las previsiones de la comptencia, etc... o 4ª una vez que se han hecho las previsiones es necesario repetir el proceso pero esta vez con un horizonte de 5 años. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  75. 75. o 5º Establecer el número y tamaño de los índices necesarios para las distintas tablas del DWH, es conveniente crear índices en cada una de las variables condicionantes que formarán parte de las consultas (campos que estarán en las cláusulas WHERE de las sentencias SQL). • (Máximo número de filas posible en un año X tamaño máximo pro registro) + espacio de índices • (Mínimo número de filas posible en un año X tamaño mínimo por registro) + espacio de índices © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad o 6º Realizar la operación DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  76. 76. o Repetir esta operación por cada una de las tablas del DWH o Por lo general las estimaciones siempre se quedan pequeñas debido al crecimiento del DWH, por lo que es aconsejable sumar un espacio extra de al menos un 30% sobre la estimación. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  77. 77.  Una vez obtenidos los resultados de las predicciones es necesario aplicar la siguiente tabla para revisar si el nivel de granularidad es correcto: 100.000.000 1.000.000.000 Existen datos no usados por lo que se debe de replantar niveles inferiores de granularidad 10.000.000 100.000.000 Posiblemente existan datos no usados por lo que se recomienda replantearse el nivel de granularidad en el diseño del 1.000.000 10.000.000 DNiWveHl de granularidad Aceptable 100.000 1.000.000 Nivel de granularidad Adecuado © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad número de registros a 1 año vista Número de resgristros a 5 años vista DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  78. 78.  Un importante componente de los sistemas DWH es el concepto de “Overflow storage” almacenamiento desbordado o El almacenamiento desbordado se produce cuando son almacenados datos que no son usados de manera frecuente. o Relación directa con la granularidad del diseño. • A mayor nivel de granularidad mayor es la probabilidad de que se produzca el desbordamiento. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  79. 79.  Con el transcurso del tiempo mayor desbordamiento. o Almacenar los datos poco consultados en dispositivos o El uso del almacenamiento externo tiene implicaciones de rendimiento. • Seleccionar cuidadosamente que datos . • Un reparto inteligente de los datos entre los dispositivos externos e internos del sistema permitirá un mejor rendimiento a menor coste. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad externos CD-ROM - DVD DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  80. 80. o Por ello a la hora de diseñar el almacenamiento de los datos es necesario discernir entre que datos son necesarios con frecuencia y cuales no.  El uso de sistemas sobredimensionados, asumiendo su coste, nos permitiría aplicar el mayor nivel de granularidad deseado. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  81. 81.  La granularidad viene determinada a través de la funcionalidad del usuario, si el usuario ve los datos y el nivel de detalle es correcto para ellos entonces el nivel de granularidad es el apropiado. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  82. 82.  El nivel de granularidad debe tener en cuenta las necesidades futuras y la evolución del propio negocio. o Un nivel mayor de granularidad significará estar mas © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad preparado para el futuro. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  83. 83. Caminos para establecer la granularidad  Realizando consultas sobre los orígenes de datos con los  Realizando las operaciones de agregación, que serán realizadas desde el origen de los datos en su camino hacia el data warehouse.  Realizando las operaciones estadísticas como medias, etc.. que serán realizadas desde el origen de datos en su camino hacia el data warehouse. © 2004 Database Team S.L © Hermes Romero distintos niveles de granularidad posible. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  84. 84. Caminos para establecer la granularidad  Identificando los mayores y menores valores en el  Identificando tan sólo los datos que son estrictamente  Realizando pruebas de muestreo de datos utilizando conjuntos representativos de datos mediante condicionantes. © 2004 Database Team S.L © Hermes Romero destino. necesarios en el destino. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  85. 85.  Podemos definir particionamiento de los datos a nivel lógico y a nivel físico, para una mejor compresión, mantenimiento y navegación a través del DWH  El particionamiento físico se define a través de la propia  En el particionamiento de datos lógico el criterio común mas usado es el áreas temáticas (subject areas). o Podemos definir un área temática como una porción del DWH que es clasificada desde una perspectiva consistente. © 2004 Database Team S.L © Hermes Romero Particionamiento implementación física del diseño. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  86. 86. o Acceso más flexible a los datos o Una gestión de los datos mas sencilla y eficiente o Asegura la escalabilidad del DWH o Habilita la posibilidad de que los elementos del DWH sean portables y compartidos con otros DWH o archivados en distintos dispositivos de almacenamiento externo. © 2004 Database Team S.L © Hermes Romero Particionamiento  Para el DWH el particionamiento aporta: DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  87. 87.  Habitualmente se realizan particiones de grandes volúmenes de datos dividiéndolos en piezas mas pequeñas. Al hacer esto determinadas operaciones con los datos serán más fáciles de realizar: o Reestructuración de datos o Indexación o Escaneado Secuencial (Full Scans) o Reorganización o Recuperaciones o Monitoreado o Auditoría © 2004 Database Team S.L © Hermes Romero Particionamiento DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  88. 88.  Los criterios de particionamiento de los datos son variados pero quizás los mas representativos sean: o Periodo de tiempo (Fecha, mes , trimestre, semestre, año) o Por áreas geográficas o Por producto o línea de negocio o Por unidad organizativa o ... o Por combinaciones de lo anterior © 2004 Database Team S.L © Hermes Romero Particionamiento DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  89. 89.  La elección de un criterio de particionamiento está basado e los requerimientos del propio negocio y las características físicas de la propia base de datos.  Cada herramienta de gestión de bases de datos (DBMS) tiene su propia manera de implementar el particionamiento a nivel físico, y pueden ser bastante diferentes entre ellas. © 2004 Database Team S.L © Hermes Romero Particionamiento DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  90. 90.  Se puede realizar un particionamiento controlado por la propia aplicación. o Añadirá la posibilidad de portar los datos entre distintos © 2004 Database Team S.L © Hermes Romero Particionamiento DWH.  El particionamiento depende de: o El modelo de datos multidimensional o La granularidad de los datos o Las capacidades del motor de base de datos DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  91. 91.  Un DWH está siempre orientado a áreas temáticas  Área temática = área de interés para el negocio  El DWH está siempre orientado a áreas especificas de la © 2004 Database Team S.L © Hermes Romero Áreas temáticas (subject areas) (subject areas). organización como pueden ser: o Clientes o Productos o Beneficios o Ventas o ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  92. 92.  Esta orientación tiene su base en la forma en la que se plantean las consultas a un DWH, en un sistema operacional se formulan preguntas del tipo: o ¿Se puede pagar la factura del cliente XXXX?  Mientras que en el DWH las preguntas son más del tipo: o ¿qué productos se estan vendiendo mejor? o ¿cuáles son las oficinas que venden menos? o ¿cuáles son los vendedores menos rentables?... © 2004 Database Team S.L © Hermes Romero Áreas temáticas DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  93. 93.  Las áreas temáticas son la forma más común de  Para extraer una lista de los candidatos a áreas © 2004 Database Team S.L © Hermes Romero Áreas temáticas particionamiento lógico en el DWH. temáticas, debemos hacernos la pregunta: o ¿cuáles son los intereses del negocio? DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  94. 94.  Para la localización de las áreas temáticas se utiliza el método 5W1H que consiste en preguntarse acerca de: cuando, donde, quien, que, por que y como (When, where, who, what, why, how) acerca del negocio. o Si se hace la pregunta en quien está interesado el negocio (who) podrá aparecer: • Clientes, empleados, gerentes, proveedores, competidores, etc... • Este año, trimestralmente, mensualmente, anualmente, semanalmente, etc... © 2004 Database Team S.L © Hermes Romero Áreas temáticas o Sobre la pregunta cuando (when) o Donde (where) • Provincias, ciudades, países, etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  95. 95.  Una vez extraída la lista de candidatos a áreas temáticas, habrá que seleccionarlas, descomponerlas y redefinirlas mas claramente.  Como resultado podremos finalmente obtener una lista de áreas temáticas que representen claramente a nuestra organización.  El rol principal del área temática es la determinación de la unidad para un análisis efectivo, modelado e implementación del DWH, lo cual pude servir también como medida para discernir las áreas de interés de nuestro DWH. © 2004 Database Team S.L © Hermes Romero Áreas temáticas DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  96. 96. Exploración y data mining (minería de datos)  Los sistemas de Data mining o minería de datos se han hecho populares durante la pasada década. o para obtener mayor información o para obtener una mejor comprensión del negocio o para encontrar nuevos caminos e ideas para ganar potencial © 2004 Database Team S.L © Hermes Romero en otros mercados. o Para controlar gastos y costes DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  97. 97.  Es una practica extendida en nuestros días la integración de los sistemas de data mining en las aplicaciones transaccionales de negocio. o Por ejemplo call centers donde al recibirse una llamada el sistema localiza el cliente del cual proviene y le adjudica un operador de acuerdo a su perfil como cliente. o Sistemas que generan listados de receptores de publicidad directa con ofertas adecuadas a su perfil de cliente. o Sistemas que alertan sobre el riesgo de perdida de un cliente o, de la modificación de sus hábitos de compra. © 2004 Database Team S.L © Hermes Romero Exploración y Data mining o Etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  98. 98.  Esta integración en los sistemas operacionales de la compañía requiere: o Integración de los sistemas de Data mining con las bases de o Integración de los sistemas de Data Mining con los sistemas © 2004 Database Team S.L © Hermes Romero Exploración y Data mining datos de producción DWH. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  99. 99.  El principal caldo de cultivo de los sistemas de data mining son los sistemas DWH, ya que: o Permiten el análisis de los datos sobre granularidades o No influyen en el rendimiento del sistema operacional. o Buscan patrones de comportamiento a lo largo de todos los sistemas de la compañía y para ello es fundamental la integración y estandarización del DWH. © 2004 Database Team S.L © Hermes Romero Exploración y data mining significativas para el sistema DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  100. 100. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining Definición DATA WAREHOUSE Preparación de los datos Minería de datos Interpretación de resultados Implementación de resultados DATA MINING FUNCIONES DE SCORING DE RESULTADOS DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  101. 101. • Permite responder a determinadas preguntas , obteniendo la información relevante desde el DWH, transformándola para el contexto apropiado y mostrándola de manera legible. En esta técnica las consultas realizadas están basadas en dos dimensiones. • Los usuarios finales están especialmente interesados en: o Procesado de valores numéricos...totales de ventas, cantidades o Cálculo o investigación de medidas de calidad como satisfacción de o Predicciones de análisis de transacciones de negocio, análisis de © 2004 Database Team S.L © Hermes Romero Exploración y data mining  Consultas e Informes vendidas. clientes, retrasos en procesos de negocio, etc.. tendencias, etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  102. 102. Preparación del informe Entrega del informe © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining Definición de la consulta Acceso y obtención del dato Manipulación del dato y cálculo DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  103. 103. • El análisis multidimensional es una manera de extender las capacidades de las consultas e informes que como vimos se basan en dos únicas dimensiones.. • Básicamente sustituye a la necesidad de realizar múltiples consultas, para ello los datos son estructurados de manera que se habilita un acceso rápido y fácil a las respuestas de las preguntas que típicamente se realizan. • Por ejemplo: o ¿Cuantas unidades del producto X se han vendido en el mes de Enero, por un determinado vendedor, in una provincia en particular? • Cada una de las partes de la pregunta es lo que se llama una dimensión. © 2004 Database Team S.L © Hermes Romero Exploración y data mining o Análisis multidimensional Enero Vendedor provincia DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  104. 104. • Mediante el mecanismo de precálculo integrado en las herramientas de procesamiento multidimensional, todas las respuestas a las distintas consultas (dimensiones) se obtienen en la misma orden. o los datos no son recalculados sino que simplemente son accedidos y • El análisis multidimensional permite a los usuarios tener a su alcance un gran número de factores interdependientes asociados a un escenario del negocio. • Los usuarios pueden acceder a la información explorando los datos en diferentes niveles de detalle. © 2004 Database Team S.L © Hermes Romero Exploración y data mining mostrados. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  105. 105. Totales de Ventas en Enero Totales de Ventas en Febrero Totales de Ventas en Marzo Vendedor 1 Vendedor 2 Vendedor 1 Vendedor 2 Vendedor 1 Vendedor 2 Mad Sev Mad Sev Mad Sev Mad Sev Mad Sev Mad Sev © 2004 Database Team S.L © Hermes Romero Exploración y data mining Totales de Ventas en el primer trimestre Drill Down DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com Roll Up
  106. 106. o Es una técnica relativamente nueva es muy diferente de las técnicas de consultas e informes y del análisis multidimensional, su principal diferencia se basa en lo que se llama técnica de descubrimiento. o La técnica de descubrimiento (discovery technique) no consiste en realizar una consulta especifica a los datos, en cambio esta técnica utiliza algoritmos que analizan los datos y devuelven los resultados descubiertos. A diferencia de las dos técnicas anteriores el data mining busca respuesta a consultas que no han sido previamente realizadas. © 2004 Database Team S.L © Hermes Romero Exploración y Data mining  Data Mining DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  107. 107. o Los descubrimientos pueden tomar la forma de encontrar significado a determinadas relaciones o patrones de datos. o Después de realizar un descubrimiento, este puede convertirse en una regla que sea utilizada para hacer predicciones basadas en esa regla. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  108. 108. o Las técnicas de data mining se utilizan habitualmente para análisis estadístico de los datos y para descubrir el conocimiento (knowledge discovery) • El análisis estadístico descubre patrones no habituales en los datos aplicando técnicas matemáticas y estadísticas para la explicación de los patrones. • Una vez descubierto el patrón este se utilizará entonces para hacer previsiones y presupuestos. • Algunas de las técnicas estadísticas incluyen: • “knowledge discovery” extrae información no conocida de manera implícita de los datos. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining o análisis linear y no lineal o análisis de regresión o Análisis multivarianza o Y análisis de series en tiempo. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  109. 109. o El soporte de las técnicas de análisis de data mining está soportado por los propios datos del negocio . Existe en el DWH un alto nivel de complejidad en los datos almacenados y en sus interrelaciones que es difícil de descubrir sin el uso de técnicas de data mining. o La minería de datos ofrece nuevos revelaciones acerca del negocio dando respuesta a preguntas que nunca se nos hubiese ocurrido preguntar. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  110. 110. Gestionado por los datos Multidimensional Data Mining © 2004 Database Team S.L © Hermes Romero Exploración y Data mining Gestionado por el Analista Asistido por el Analista Consultas e informes Análisis DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  111. 111. o OLAP data mart (OnLine Analitical Processing)  análisis multidimensional • Están diseñados para soportar análisis multidimensional usando • El data mart en este caso se diseña utilizando las técnicas de esquema en estrella o tecnologías propietarias de cada herramienta basadas en el concepto de “hipercubo” (Hypercube). • El esquema en estrella o sistema de gestión de base de datos multidimensional (multidimensional database management system MD DBMS) es el indicado en data marts de los que se conocen perfectamente los requerimientos, estos son estables y las consultas a los mismos son fácilmente predecibles con tiempos de respuesta razonables e informes mas o menos recurrentes. © 2004 Database Team S.L © Hermes Romero Exploración y data mining herramientas de software OLAP. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  112. 112. o Almacenes de exploración (Exploration warehouse) • Los almacenes de exploración están diseñados para dar soporte real a la exploración o navegación puramente customizable por el usuario “ad-hoc”. • Después de un descubrimiento a través de la exploración, este puede dar lugar a la creación de un nuevo data mart , para que otros usuario se beneficien del hallazgo a partir de es momento. o Almacenes estadísticos (Data mining or statistical warehouses) • Es un data mart especializado diseñado para dar soporte a los o Aplicaciones analíticas customizables (Customizable analytical applications) • Permite la customización efectiva de aplicaciones genéricas. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining analistas e investigadores. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  113. 113.  Asumamos las siguientes aserciones como ciertas antes • En el DWH podremos encontrar datos de todas las unidades de negocio y departamentos de la compañía. o Se asume también que los datos contenidos en el DWH no violan ninguna de las reglas de negocio establecidas para la compañía. • El DWH en todo momento debe mostrar su adherencia a las © 2004 Database Team S.L © Hermes Romero Diseño del DWH de continuar: o El DWH debe tener un enfoque corporativo reglas de negocio de la compañía. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  114. 114. o El DWH debe ser cargado con datos lo más rápida y o El DWH debe configurarse y diseñarse para soportar múltiples tecnologías de BI, tanto presentes como futuras. o El DWH debe acomodarse fácilmente a cambios tanto en las estructuras de datos como en los datos propiamente dichos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH eficientemente posible. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  115. 115.  El tipo de análisis que será realizado con el DWH o Data mart puede determinar el tipo de modelado de datos y los contenidos del mismo.  Como los análisis basados en consultas e informes y los análisis multidimensionales requieren metadatos explícitos y sumarizaciones especificas, es importante que el modelo de datos que de soporte al análisis contenga estos elementos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  116. 116. o El análisis multidimensional también permite las operaciones o La minería de datos habitualmente trabaja mejor con el mayor nivel de detalle disponible (granularidad alta). © 2004 Database Team S.L © Hermes Romero Diseño del DWH  Debemos tener en cuenta también que: “drill down” y “roll up”. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  117. 117.  Desde principios de los años 90 uno de los gurus del DWH , Ralph Kimball, propuso nuevas técnicas de diseño basadas en las tradicionales bases de datos relacionales para lograr que los DWH fueran comprensibles y rápidos.  Estas técnicas de diseño que actualmente se conoce como modelado de datos dimensional (dimensional modeling) hacen que los sistemas DWH sean más rápidos a través de la limitación del número de enlaces (joins) entre las distintas tablas que forman parte del sistema. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  118. 118.  Las características ideales que debe seguir el modelo de • Debemos por todos los medios a nuestro alcance evitar la redundancia de los datos en nuestro DWH. La redundancia de datos añade trabajo extra a las operaciones de extracción transformación y carga (ETL), así como a los diseñadores que tendrán que preocuparse de que todos los elementos redundantes tengan el valor correcto en el momento correcto. • A mayor redundancia mayor complejidad en la carga de los datos. • Evidentemente cierto grado de redundancia a veces es inevitable e incluso aconsejable, a este tipo de redundancia la llamaremos redundancia controlada. © 2004 Database Team S.L © Hermes Romero Diseño del DWH datos en el sistema DWH son: o No redundante. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  119. 119. • Hemos repetido en varias ocasiones que nuestro DWH deba acomodarse a los cambios con facilidad y estabilidad, esto se logra mediante la independencia de nuestro DWH a los cambios en procesos, aplicaciones y tecnología que por otra parte son los cambios que ocurren mas frecuentemente en una organización. Por otra parte nuestro DWH debe estar preparado para añadir nuevas entidades o atributos cuando se añaden nuevas capacidades de análisis BI o se incorporan nuevos data marts. • Es importante por tanto que el diseñador de nuestro DWH use técnicas de modelado que permitan la incorporación de cambios en el modelo sin que sea necesario la redefinición de las entidades y atributos ya implementados. © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Estable DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  120. 120. • La consistencia de los datos contenidos en el DWH es sin duda la característica esencial. Los modelos de datos creados para el DWH deben reconciliar las discrepancias de concepto y físicas entre los distintos orígenes de datos, tanto a nivel estructural como a nivel de tipo de dato. Evidentemente este esfuerzo inicial es previo a cualquier tipo de carga de datos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Consistente DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  121. 121.  El modelo de datos resultante para el DWH, se trasladará a un diseño de base de datos que sea: o Fiable • No contendrá contradicciones en la forma de nombrar entidades o atributos, en referencias de unos a tros, así como en la documentación • El DWH resultante de la implementación de este modelo de datos podrá ser accedido por múltiples procesos y usuarios desde cualquier parte de la compañía. © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Compartido DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  122. 122. • La base de datos resultante no condicionará en una dirección u otra el entorno BI creado. Todas las oportunidades tecnológicas que se presenten permanecerán disponibles para la compañía. • LA base de datos resultante podrá acomodar nuevas entidades y atributos, manteniendo al integridad de los elementos implementados. • El modelo de datos proveerá una representación de cómo y que clase de información es usada en la compañía- © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Flexible y adaptable al cambio o Correcto DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  123. 123.  Como cualquier proyecto de sistemas, un proyecto de DWH debe seguir las distintas fases del ciclo de vida de desarrollo de sistemas, es por tanto lógico además de aconsejable no comenzar realizando un diseño de los modelos de datos que soportarán nuestro DWH antes de haber recabado todos los requerimientos por parte de los usuarios y de la dirección de la compañía. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  124. 124.  En la mayoría de proyectos de DWH se abre un debate entre los integrantes tecnologicos del equipo acerca de si los modelos deben estar basados en diseños en estrella, normalizados o de-normalizados o simplemente planos. Por razones varias muchos de los analistas prefieren aplicar a todos los diseños su “particular” técnica de diseño (quizás por que se sienten comodos con una tecnica en particular, o sencillamente por que desconocen el resto) y por esta rázón forzan a los ditintos data marts a tener un solo tipo de diseño. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  125. 125.  Lo mas recomendable en el diseño de data marts es que los esquemas de base de datos que los soportan deben estar diseñados de acuerdo al uso que se va ha hacer de ellos y del tipo de información que se solicitará al data mart. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  126. 126.  Probablemente basándome en mi experiencia el mejor diseño para los distintos tipos de data marts será el que no preestablezca o predetermine las relaciones entre los datos, ya que de esta manera condicionará el uso del mismo, y el fin último para el que debemos dirigir nuestro diseño es que este soporte todas y cada una de las posibilidades de análisis de datos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  127. 127.  Para determinar cual es el mejor diseño de base de datos posible para el data mart es aconsejable construir una matriz como la de la figura que compare el grado de volatilidad de los datos con respecto al tipo de diseño seleccionado así como con respecto a la frecuencia o tipo de consulta a realizar sobre el data mart. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  128. 128. © 2004 Database Team S.L © Hermes Romero Diseño del DWH latencia DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com Repetitivas Customizables Algoritmicas volatilidad Esquema en estrella De-normalizadas Normalizadas Planas
  129. 129. Diseño del DWH – Estructura de los datos  Para DWH podemos distinguir tres tipos básicos de datos:  Se puede configurar el DWH basándose en estos tres tipos, con la consideración adecuada a las características particulares de cada implementación. © 2004 Database Team S.L © Hermes Romero o Datos en tiempo real (real-time data) o Datos derivados (Derived data) o Datos reconciliados (Reconciled Data) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  130. 130. Diseño del DWH – Estructura de los datos  Dependiendo de la naturaleza de los sistemas operacionales, el tipo de negocio, y el número de usuarios que pueden acceder al DWH, debemos combinar los tres tipos de datos para crear el mas adecuado modelo de datos para el DWH. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  131. 131. Diseño del DWH – Estructura de los datos o Los datos en tiempo real representan el estado actual del negocio. Por supuesto, estos son los datos que utilizan los sistemas operacionales. o Los datos en tiempo real muestran la realidad cambiante del o Los datos en tiempo real muestran por otra parte el mayor nivel de detalle lo que se representa como el mayor nivel de granularidad. o Habitualmente estos son accedidos en modo lectura-escritura por las transacciones operacionales. © 2004 Database Team S.L © Hermes Romero  Datos en tiempo real (Real-Time data) negocio transacción a transacción. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  132. 132. Diseño del DWH – Estructura de los datos o Estos datos no tienen por que ser patrimonio exclusivo de los sistemas operaciones ya que es practica habitual la realización de transacciones distribuidas que reparten los datos entre sistemas operacionales y DWH en tiempo real. o De igual manera los datos en tiempo real pueden ser almacenados también en Almacenes de datos operacionales (ODS Operational Data Stores) para su posterior análisis y carga en sistemas DWH sin afectar al rendimiento de los sistemas operacionales. o El uso de datos en tiempo real en el DWH, implica que estos datos deben ser debidamente tratados para asegurar la adecuada calidad del dato, probablemente sumarizados y transformados a un formato mucho más fácilmente comprensible y manipulable por los analistas de negocio. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  133. 133. Diseño del DWH – Estructura de los datos o Evidentemente, también en el caso de que los datos en tiempo real provengan de distintos orígenes y sistemas, deberán ser reconciliados antes de ser cargados en el DWH. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  134. 134. Diseño del DWH – Estructura de los datos o Los datos derivados son datos que han sido creados probablemente a raíz de operaciones como sumas, medias, o agregaciones de operaciones en tiempo real a través de un proceso intermedio de transformación previo a la carga. o Los datos derivados pueden ser detallados o resumidos dependiendo de las especificaciones de requerimientos del DWH. o Pueden representar una vista del negocio en un momento determinado del tiempo o pueden ser datos históricos referidos a un periodo de tiempo. © 2004 Database Team S.L © Hermes Romero  Datos Derivados (Derived Data) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  135. 135. Diseño del DWH – Estructura de los datos o Los datos derivados son tradicionalmente usados para la o La sumarización de los datos en nuevos registros derivados requiere grandes volúmenes de datos a analizar y por consecuencia necesitará de grandes recursos para su procesamiento. o La eficiencia de los procesos de creación de datos derivados en tiempo y manera es vital y una de las tareas mas importantes que los analistas han de resolver. © 2004 Database Team S.L © Hermes Romero toma de decisiones y el análisis del negocio. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  136. 136. Diseño del DWH – Estructura de los datos o Los datos reconciliados son datos en tiempo real que han sido tratados para ajustarse a los niveles de integración y calidad que se requieren para ser usados en análisis de datos. o La consistencia es uno de los requerimiento de calidad inexcusables. o Durante el proceso de reconciliación de datos es posible crear y mantener datos históricos , por lo que los datos reconciliados podrían ser un tipo especial de datos derivados. o En algunas ocasiones los datos reconciliados son almacenados en estructuras físicas temporales requeridas para transformar de manera consistente los datos operacionales. © 2004 Database Team S.L © Hermes Romero  Datos Reconciliados (Reconciled Data) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  137. 137. Diseño del DWH – Estructura de los datos  El concepto de EDM – Enterprise Data Model o Un EDM es una definición consistente de todos los elementos de datos comunes al negocio. Desde una perspectiva mas abstracta a la mas concreta. o El EDM incluye a su vez vínculos a los diseños de datos de o A través del EDM se puede intuir una visión y comprensión © 2004 Database Team S.L © Hermes Romero cada una de las aplicaciones operacionales. de los requerimientos del negocio. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  138. 138.  El modelador de datos debe responder a la premisa de diseñar las bases de datos del DWH para soportar de la mejor manera las necesidades de los usuarios del DWH.  En el DWH existen dos técnicas básicas de modelado de © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH datos : o Modelado entidad-relación ER o Modelado dimensional DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  139. 139.  En la mayoría de los modelos de datos de los sistemas operacionales actuales los modelos de datos se soportan sobre estructuras de modelado ER. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  140. 140.  Con la llegada del DWH la necesidad de técnicas de modelado orientadas hacia el análisis se han visto incrementadas y con ello ha crecido el interés por estas técnicas. Con el modelado dimensional, se nos ofrece la capacidad mejorada de visualizar cuestiones abstractas que surgen del negocio y los usuarios finales. Mediante el uso de los modelos dimensionales los usuarios pueden fácilmente explorar y explotar los datos de manera comprensible. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  141. 141.  El modelo de datos es una abstracción organizada de los datos que representan las actividades, recursos y resultados de la organización.  Sin un modelo de datos la organización de la estructura y  El objetivo de los modelos de datos es conseguir la independencia lógico / física o Como se muestran los datos es completamente independiente de cómo se almacenarán a nivel físico © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH del contenido del DWH sería muy difícil. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  142. 142.  Por lo que a nivel lógico se refiere, se referirá a los aspectos de identificación de la entidad o entidades, su descripción y su organización.  En el nivel físico se tratarán aspectos como la organización, acceso y almacenamiento de los datos a nivel físico © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  143. 143. o Los modelos ER producen un modelo de datos de una especifica área de interes usando para ello dos conceptos básicos: Entidades y las relaciones entre esas entidades. Los modelos ER contienen también Atributos, que son las propiedades inherentes a las entidades y/o relaciones. o El modelo ER es una percepción del mundo compuesta por objetos llamados entidades y las relaciones entre ellos. Las entidades se diferencian unas de otras a través de sus atributos. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH  Modelos entidad-relación DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  144. 144. o El modelado ER se representa mediante un diagrama que usa tres tipos de graficos para conceptualizar los datos: Entidad, relación y Atributo. • Entidad o Una entidad se define como una persona, lugar cosa o evento de o Una entidad representa una clase de objeto, que puede ser observado y clasificado por sus propiedades y caracteristicas. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH interes para el negocio o la organización. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  145. 145. o Una relación se representa mediante lineas que unen a dos entidades. Una relación se designa de manera gramatical por medio de un verbo, como pertenece a, tiene. Tla relación entre dos entidades puede ser definida mediante su cardinalidad. La cardinalidad es el máximo número de instancias de una entidad que que se relacionan con una instancia de la otra entidad. Las cardinalidades posibles son: • Uno a uno 1:1 • Uno a muchos 1:M • Muchos a muchos M:M (no son válidas en un modelo normalizado) o Los atributos describen las caracteristicas o propiedades de las entidades. Un nombre de atributo debe se único en una entidad. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH • Relación • Atributos DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  146. 146. Modelado de datos para el DWH – Modelado dimensional  El modelado de datos dimensional usa tres conceptos  En algunos casos el modelado dimensional es más sencillo, más expresivo y fácil de comprender que el modelado relacional.  Es relativamente nuevo por lo que no está firmemente definido, especialmente comparado con las técnicas de modelado relacional. © 2004 Database Team S.L © Hermes Romero básicos: o Medidas (measures) o Hechos (facts) o Dimensiones (dimensions) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  147. 147. Modelado de datos para el DWH – Modelado dimensional  El modelado dimensional es un conjunto de medidas (measures) que son descritas por aspectos comunes del negocio.  Es especialmente útil para sumarizar datos y presentarlos en vistas para ayudar al análisis de los datos.  El modelado dimensional se centra en los datos numéricos, como valores, cuentas (count), pesos, balances y ocurrencias. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  148. 148. Modelado de datos para el DWH – Modelado dimensional o Es una colección de items de datos relacionados. o Cada hecho generalmente representa un item del negocio, una transacción del negocio, o un evento que puede ser utilizado para analizar el negocio o un proceso del negocio. o En un Data warehouse los hechos (facts) se almacenan donde los datos numéricos son almacenados. © 2004 Database Team S.L © Hermes Romero  Hechos (facts) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  149. 149. Modelado de datos para el DWH – Modelado dimensional o Es una colección de miembros o unidades del mismo tipo. o Las dimensiones determinan el contexto de fondo para los o Las dimensiones son los parámetros sobre los que queremos realizar el análisis OLAP (online analitical processing). © 2004 Database Team S.L © Hermes Romero  Dimensiones (dimensions) hechos. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  150. 150. Modelado de datos para el DWH – Modelado dimensional o Si consideramos una base de datos de análisis de ventas, encontraremos entre otras las siguientes dimensiones. • Tiempo • Localización / Provincia • Clientes • Vendedor o Miembros de la dimensión (dimension members) • Una dimensión puede a su vez contener n miembros. • Por ejemplo, los meses : enero, febrero, marzo,...,trimestres, cuatrimestres son miembros de la dimensión tiempo. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  151. 151. Modelado de datos para el DWH – Modelado dimensional o Jerarquías de la dimensión (dimension hierarchies) • Las dimensiones pueden a su vez ser divididas en diferentes jerarquías, cada jerarquía puede tener a su vez distintos niveles jerárquicos. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  152. 152. Modelado de datos para el DWH – Modelado dimensional Semana día ... © 2004 Database Team S.L © Hermes Romero  Jerarquias de la dimensión Jerarquía 1 año Jerarquía 2 semestre semestre trimestre trimestre mes día ... ... ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  153. 153. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero  Jerarquias de la dimensión o Drill down DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  154. 154. Modelado de datos para el DWH – Modelado dimensional o Una medida se determina por la combinación de miembros de las dimensiones y está situada en los hechos (facts) © 2004 Database Team S.L © Hermes Romero  Medidas (measures) o Es un atributo numérico de un hecho. o Por ejemplo las medidas de ventas serían • El importe de las ventas • El volumen de ventas • Las unidades vendidas • El importe de la materia prima • ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  155. 155. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero  dimesion1 DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  156. 156. Modelado de datos para el DWH – Modelado dimensional o Es la tabla central en el modelo de datos dimensional, en esta table es donde se almacenan los valores numéricos de las medidas. Se utiliza el termino hecho (fact) para representar una medida del negocio. o Una fila de la tabla de hechos representa una medida (measure). Por lo que una medida es una fila en la tabla de hechos. Todas las medidas de una tabla de hechos deben tener la misma granularidad. o Los hechos mas habituales son los numéricos y aditivos, © 2004 Database Team S.L © Hermes Romero  Tablas de hechos (facts) como euros o total de ventas. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  157. 157. Modelado de datos para el DWH – Modelado dimensional o La capacidad de adición es crucial ya que raramente los valores de las tablas de hechos son recuperados de fila en fila, lo usual es recuperarlos mediante la suma de una o mas de sus columnas o mediante la cuenta del número de filas, medias, etc... o Es importante tener en cuenta que no es aconsejable la introducción de filas en las tablas de hechos que no representen nada como por ejemplo (12/12/2003 , 0) en representación de que el día 12/12/2003 no se realizó ninguna venta, en estos casos es mejor no incluir el registro, de esta manera el espacio ocupado por la tabla de hechos será util al 100% © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  158. 158. Modelado de datos para el DWH – Modelado dimensional o Las tablas de hechos representan el 90% o más del espacio ocupado en un DWH, generalmente las tablas de hechos tienen la tendencia de ser voluminosas en cuanto a número de registros pero también a tener pocas columnas (atributos). o Las tablas de hechos se pueden además clasificar en tres grupos atendiendo a su nivel de granularidad. • Transacciones • Fotos-fijas periódicas (periodic snapshots) • Fotos-fijas acumulativas (accumulating snapshots) © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  159. 159. Modelado de datos para el DWH – Modelado dimensional o Las tablas de hechos de tipo transaccional son las más o Las tablas de hechos poseen dos o mas “foreign keys” (FK) que conectan las tablas de hechos con las tablas de dimensiones. o La tabla de hechos por otra parte por lo general posee una clave primaria formada por el conjunto o un subconjunto de las claves externas FK que posee (clave primaria compuesta). Cada tabla de hechos en un modelo dimensional tiene una clave compuesta, por lo que también podemos afirmar que cada tabla en un modelo dimensional que posee una clave compuesta es una tabla de hechos. © 2004 Database Team S.L © Hermes Romero  ...Tablas de hechos (facts) habituales con diferencia. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  160. 160. Modelado de datos para el DWH – Modelado dimensional o Las relaciones entre las tablas de hechos y las tablas de dimensiones son siempre relaciones de tipo muchos a muchos M:M. Por lo que las tablas que presenten este comportamiento relacional en un modelo dimensional serán tablas de hechos mientras que el resto serán tablas de dimensiones. o La composición de la clave primaria en la tabla de hechos no tiene por que relaizarse con todas las claves externas ya que probablemente la agrupación de unas pocas de ellas garantice la unicidad del registro. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  161. 161. Modelado de datos para el DWH – Modelado dimensional o En la mayoría de los casos no tiene ninguna utilidad la introducción de una clave primaria no compuesta para identificar unívocamente a cada registro de la tabla de hechos. Al contrario de nuevo podemos ocupar un espacio extra para añadir esto cuando realmente no es necesario, con las consecuencias implícitas de almacenamiento y rendimiento. Aunque si la naturaleza del negocio requiere la inclusión de varias filas con los mismos valores entonces si debemos plantearnos la creación de una clave primaria, siempre que sea necesario hacer una distinción clara entre las filas con el mismo contenido. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  162. 162. Modelado de datos para el DWH – Modelado dimensional o Mucho del éxito de nuestro DWH dependerá de cómo se © 2004 Database Team S.L © Hermes Romero  Tablas de hechos (facts) implementen las tablas de hechos. ventas diarias clave de fecha FK clave de tienda FK clave de producto FK cantidad valor DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  163. 163. Modelado de datos para el DWH – Modelado dimensional o Hemos de tener en cuenta que las tablas de hechos pueden o No es posible el mantenimiento de índices en un corto espacio de o Las tablas de hechos también pueden estar implementadas © 2004 Database Team S.L © Hermes Romero  Tablas de hechos (facts) encontrarse en tres estados: • Están siendo Consultadas • Están siendo cargadas • Están siendo gestionadas tiempo de diferentes maneras: • Sin particionamiento – Sin índices • Particionadas – Sin índices • Sin particionamiento – Con índices DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  164. 164. Modelado de datos para el DWH – Modelado dimensional o Las tablas de dimensiones contienen los descriptores o En un modelo bien diseñado las tablas de dimensiones tienen por lo general muchos atributos que describen la fila en la tabla de dimensión. o Las tablas de dimensiones deben contener tantos atributos como sean necesarios para hacer su contenido lo más comprensible posible. No es extraño encontrar tablas de dimensiones que contengan entre 50 y 100 atributos. © 2004 Database Team S.L © Hermes Romero  Tablas de dimensiones (dimensions) textuales del negocio. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  165. 165. Modelado de datos para el DWH – Modelado dimensional o Por otra parte las tablas de dimensiones por lo general son tablas que presentan pocos registros en comparación con las tablas de hechos, por lo general no mas de 1 millón de registros. o Cada dimensión se define a través de una clave primaria no compuesta (única) PK que será utilizada para guardar la integridad referencial con cualquier tabla de hechos con la que esté relacionada. o Cada uno de los atributos de las tablas de dimensiones serán utilizados para realizar las consultas como condicionantes, agrupaciones, etc... © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  166. 166. Modelado de datos para el DWH – Modelado dimensional o En una consulta los atributos de una dimensión son identificables por que siempre van precedidos de la palabra “por” (by). Quiero saber las ventas por region, Quiero saber las ventas por mes, Quiero saber las ventas por producto, ...por vendedor, etc. o Los atributos de las tablas de dimensiones juegan un papel vital en los modelos de datos dimensionales ya que ellos son el origen de las condicionantes en las consultas y de los resultados de las mismas. Los atributos de las tablas de dimensiones son la clave para hacer el DWH usable y comprensible. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  167. 167. Modelado de datos para el DWH – Modelado dimensional o Un DWH será tan bueno como atributos de las tablas de dimensiones posea. El poder del DWH es directamente proporcional a la calidad y profundidad de los atributos de sus dimensiones. o Cuanto mas tiempo pasemos definiendo atributos con sentido para el negocio mejor será nuestro DWH. o Cuanto mas tiempo pasemos poblando nuestras tablas de dimensiones con valores para los distintos atributos mejor será nuestro DWH. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  168. 168. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero  ...tablas de dimensiones (dimensions) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  169. 169. Modelado de datos para el DWH – Modelado dimensional • Los atributos deben ser palabras reales en lugar de abreviaciones. Esto nos ayudará en la implementación del DWH con respecto a los usuarios del mismo, ya que contribuye a su facilidad de uso y compresibilidad por parte de los usuarios. Los atributos típicos para una dimensión de producto por ejemplo incluirían una descripción corta de 10 a 15 caracteres, una descripción larga de 30 a 50 caracteres, nombre de la marca, categoría o familia de producto, tipo de empaquetado, tamaño , peso y otras características. Aunque se definan atributos numéricos dentro de las dimensiones, conservarán su carácter de dimensión siempre que se tomen como descripciones textuales, por ejemplo, el atributo código postal está representado por un número aunque su uso es textual no vamos a realizar operaciones con este valor, mas que para definir un área geográfica concreta. © 2004 Database Team S.L © Hermes Romero o Atributos en las dimensiones DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  170. 170. Modelado de datos para el DWH – Modelado dimensional • Las tablas de dimensiones frecuentemente representan estructuras jerarquicas entre distintas entidades, por ejemplo la dimensión producto, incluye un atributo marca que puede permitir a su vez la agrupación de los productos por marca, lo mismo ocurre con la familia de productos. Para cada fila en la dimension de producto se almacenará el nombre de la marca y el nombre de la familia a la que pertenece, aunque de esta forma estamos almacenando información redundante, pero esta operación se realiza para evitar nuevas relaciones (joins) en las consultas que se traducirian en decrementos del rendimiento del sistema. © 2004 Database Team S.L © Hermes Romero  ...tablas de dimensiones (dimensions) o Jerarquia de las dimensiones DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  171. 171. Modelado de datos para el DWH – Modelado dimensional • Debemos resistir nuestro impulso de almacenar tan solo el código de la marca y crear una vista separada para todas las marcas. Esto es lo que se conoce como diseño de copo de nieve (snowflake). Por lo general las tablas de dimensiones presentan un alto grado de de-normalización. • Si con la creación de diseños en copo de nieve pretendemos por ello ahorrar espacio de almacenamiento, hemos de tener en cuenta que las tablas de dimensiones, raramente representan mas del 10 % del total de almacenamiento del DWH, por lo que el ahorro no tendrá un impacto significativo, sin embargo si impactará en el rendimiento y, en la sencillez y comprensibilidad del modelo por parte de los usuarios. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  172. 172. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero tabla de marcas clave de marca nombre de la marca tabla de familias clave de familia nombre de la familia Tabla de productos clave de producto descripcion del producto clave de marca (FK) modelo clave de familia (FK) tipo de empaquetado tamaño empaquetado peso precio del producto DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  173. 173. Modelado de datos para el DWH – Modelado dimensional o Las tablas de dimensiones son los puntos de entrada a las tablas de hechos. La definición de unos robustos atributos, nos traerá capacidades robustas para realizar operaciones de tipo “slice” y “dice”. Las dimensiones implementan el interfaz de usuario al DHW. © 2004 Database Team S.L © Hermes Romero  ...tablas de dimensiones DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  174. 174. Modelado de datos para el DWH – Modelado dimensional dimensión tabla de tiendas clave de tienda provincia © 2004 Database Team S.L © Hermes Romero  Diseño en estrella (star join schema) dimensión tabla de fechas clave de fecha fecha mes dia año dimensión tabla de hechos ventas diarias clave de fecha (FK) clave de tienda (FK) clave de producto (FK) cantidad valor Tabla de productos clave de producto descripcion del producto modelo marca familia tipo de empaquetado tamaño empaquetado peso precio del producto DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  175. 175. Modelado de datos para el DWH – Modelado dimensional o Al relacionar las tablas de hechos con las tablas de dimensiones nos da la impresión de que se dibuja una especie de estrella, donde el punto central es la tabla de hechos donde convergen todas las tablas de dimensiones. o Debido a esto este diseño es conocido como diseño en estrella o “star”, aunque este termino se acuño en los primeros días de los diseños relacionales. © 2004 Database Team S.L © Hermes Romero  Diseño en estrella (star join schema) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×