SlideShare a Scribd company logo
1 of 37
Download to read offline
DATAWAREHOUSE




                              Datawarehouse




              Construcción de un Data Warehouse
                                    Fundamentos
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


         Agenda
     ●       Diseño de un almacen de datos.
     ●       Pasos para el diseño de un almacen de datos
                –   Modelamiento multidimensional.




CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Almacén de Datos        DATAWAREHOUSE




                  Recogida y análisis de
                       requisitos



                    Diseño conceptual


                  Diseño lógico específico



                       Diseño físico


                      Implementación



CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Almacén de Datos                                           DATAWAREHOUSE




              Recogida y análisis de
                   requisitos                           Análisis



               Diseño conceptual
                                       Discernimiento de           Requisitos de
                                       las fuentes                 usuario (consultas
                  Diseño lógico        necesarias del              de análisis
                                       sistema de                  necesarias, nivel de
                                       información de la           agregación, …)
                                       organización (OLTP) y
                  Diseño físico
                                       externas

                 Implementación
                                                       Diseño
                                                      Conceptual

                                                    p.ej. Entidad-Relación
CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Almacén de Datos                          DATAWAREHOUSE




              Recogida y análisis de
                   requisitos                Diseño
                                             Lógico


               Diseño conceptual

                                              Modelado
                  Diseño lógico        multidimensional (MR)


                  Diseño físico
                                           Esquemas
                 Implementación              estrella

CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Almacén de Datos                     DATAWAREHOUSE




              Recogida y análisis de        Diseño
                   requisitos               Físico


               Diseño conceptual
                                         Definición del
                                       esquema ROLAP o
                  Diseño lógico
                                            MOLAP

                  Diseño físico

                                           Diseño del
                 Implementación               ETL

CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Almacén de Datos                        DATAWAREHOUSE




              Recogida y análisis de
                   requisitos
                                         Implementación


               Diseño conceptual

                                         Carga del AD
                  Diseño lógico             (ETL)

                  Diseño físico
                                        Preparación de las
                                         vistas de usuario
                 Implementación        (herramienta OLAP)


CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Almacén de Datos                                       DATAWAREHOUSE




              • Detallemos más ahora el Diseño Lógico...

     Recogida y análisis de        La visión multidimensional seguida por
          requisitos                  las herramientas de explotación de
                                   almacenes de datos (OLAP) ha inspirado
                                  los modelos y metodologías de diseño de
       Diseño conceptual                     este tipo de sistemas.


             Diseño lógico



             Diseño físico       En la literatura se habla de “Bases de Datos
                              Multidimensionales” y de “Diseño Multidimensional”

         Implementación

CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


       Modelamiento multidimensional
     ●       En un esquema multidimensional se representa
             una actividad que es objeto de análisis (hecho)
             y las dimensiones que caracterizan la actividad
             (dimensiones).
     ●       La información relevante sobre el hecho
             (actividad) se representa por un conjunto de
             indicadores (medidas o atributos de hecho).
     ●       La información descriptiva de cada dimensión
             se representa por un conjunto de atributos
             (atributos de dimensión).
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


       Modelamiento multidimensional
     ●       El modelado multidimensional se puede
             aplicar utilizando distintos modelos de datos
             (conceptuales o lógicos).
     ●       La representación gráfica del esquema
             multidimensional dependerá del modelo de
             datos utilizado (relacional, ER, UML, OO, ...).




CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Almacén de Datos                                                 DATAWAREHOUSE




        El desarrollo de la tecnología de almacenes de
        datos se ha caracterizado por:
              - un temprano desarrollo industrial provocado por las
              demandas de los usuarios.
              - el uso de metodologías de diseño centradas
              principalmente en los niveles lógico e interno. (la atención
              se ha centrado en mejorar la eficiencia en la ejecución de consultas)




                     Metodología de diseño basada en el modelo
                    relacional: Modelo multidimensional de Kimball
                No es muy congruente usar modelos para diseño conceptual….


CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                    DATAWAREHOUSE




     datos:
     ●       Paso 1. Elegir un “proceso” de la organización
             para modelar.
     ●       Paso 2. Decidir el gránulo (nivel de detalle) de
             representación del proceso.
     ●       Paso 3. Identificar las dimensiones que
             caracterizan el proceso.
     ●       Paso 4. Decidir la información a almacenar
             sobre el proceso.

CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                      DATAWAREHOUSE




      datos:
  ●    Paso 1. Elegir un “proceso” de la organización
       para modelar.
              –   Proceso: actividad de la organización
                   soportada por un OLTP del cual se puede
                   extraer información con el propósito de
                   construir el almacén de datos.
                      ●   Pedidos (de clientes)
                      ●   Compras (a suministradores)
                      ●   Facturación
                      ●   Envíos
                      ●   Ventas
                      ●   Inventario
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                      DATAWAREHOUSE




     datos:
     ●       Ejemplo: Cadena de supermercados.
                –   Cadena de supermercados con 300 almacenes
                     en la que se expenden unos 30.000 productos
                     distintos.


     ●       Actividad: Ventas.
                –   La actividad a modelar son las ventas de
                     productos en los almacenes de la cadena.


CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                      DATAWAREHOUSE




     datos:
   Paso 2. Decidir el gránulo (nivel de detalle) de representación.
             Gránulo: es el nivel de detalle al que se desea almacenar
             información sobre la actividad a modelar.
                El gránulo define el nivel atómico de datos en el almacén de
                 datos.
                El gránulo determina el significado de las tuplas de la tabla de
                 hechos.
                El gránulo determina las dimensiones básicas del esquema
                      • transacción en el OLTP
                      • información diaria
                      • información semanal
                      • información mensual. ....
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                 DATAWAREHOUSE




     datos:
                                    tabla de
                                    hechos
             tabla                                       tabla
             Dimensión 1                           3
                             im
                                1   id_dim1    Dim       Dimensión 3
                           D
                                    id_dim2
                                    id_dim3

             tabla                  ...
                                2
                           D im                           tabla
             Dimensión 2            id_dim n         n
                                                 Dim      Dimensión n
                                    ....
                                    (hechos)




CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                     DATAWAREHOUSE




     datos:
   Ejemplo: Cadena de supermercados.
   Gránulo: “se desea almacenar información sobre las ventas
   diarias de cada producto en cada almacén de la cadena”.
   Gránulo:
             define el significado de las tuplas de la tabla de hechos.
             determina las dimensiones básicas del esquema.
                                   c   to
                                du          producto
                          pro
                                            día
                                            almacén
                                    én      ventas
                               ac
                          a lm
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                       DATAWAREHOUSE




     datos:
   • Gránulo inferior: no se almacena información a nivel de línea de
     ticket porque no se puede identificar siempre al cliente de la
     venta lo que permitiría hacer análisis del comportamiento (hábitos
     de compra) del cliente.
   • Gránulo superior: no se almacena información a nivel semanal o
     mensual porque se perderían opciones de análisis interesantes:
     ventas en días previos a vacaciones, ventas en fin de semana,
     ventas en fin de mes, ....

        En un almacén de datos se almacena información a un nivel de detalle
         (gránulo) fino no porque se vaya a interrogar el almacén a ese nivel sino
        porque ello permite clasificar y estudiar (analizar) la información desde
                                 muchos puntos de vista.
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                                          DATAWAREHOUSE




     datos:                 p   rod
                                    u   c to
                                                       producto
                                                       día
                                                       almacén
                                        én             ventas
                                 ac
                            a lm




                                    tabla de   id_producto
                                                                   la clave primaria(*) está
                                    hechos                         formada por los
                                               id_fecha
                                                                   identificadores de las
                                               id_almacén          dimensiones básicas.

                                               .....
                                               .....                datos (medidas) sobre las
                                                                    ventas diarias de un
                                               ......               producto en un almacén.


             (*) pueden existir excepciones a esta regla general
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                       DATAWAREHOUSE




    datos: las dimensiones que caracterizan el proceso.
   Paso 3. Identificar
              Dimensiones: dimensiones que caracterizan la actividad al nivel
               de detalle (gránulo) que se ha elegido.
                 Tiempo (dimensión temporal: ¿cuándo se produce la
                 actividad?)
                 Producto (dimensión ¿cuál es el objeto de la actividad?)
                 Almacén (dimensión geográfica: ¿dónde se produce la
                 actividad?)
                 Cliente   (dimensión ¿quién es el destinatario de la actividad?)
              De cada dimensión se debe decidir los atributos (propiedades)
               relevantes para el análisis de la actividad.
              Entre los atributos de una dimensión existen jerarquías
               naturales que deben ser identificadas (día-mes-año)
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de     DATAWAREHOUSE




     datos:
             tabla Dimensión 1
                                 id_dim1
                                 ....




CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                       DATAWAREHOUSE




     datos:
             Ejemplo: Cadena de supermercados.
                                             tiempo
        definición de         dimensiones        producto
        gránulo               básicas
                                                 establecimiento


             Nota: En las aplicaciones reales el número de
             dimensiones suele variar entre 3 y 15
             dimensiones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                     DATAWAREHOUSE




     datos:   Dimensión Tiempo:

         Dimensión presente en todo AD porque el AD contiene información
          histórica sobre la organización.
         Aunque el lenguaje SQL ofrece funciones de tipo DATE, una
          dimensión Tiempo permite representar otros atributos
          temporales no calculables en SQL.
         Se puede calcular de antemano
         Atributos frecuentes:
              – nro. de día, nro. de semana, nro. de año: valores absolutos del
              calendario juliano que permiten hacer ciertos cálculos aritméticos.
              – día de la semana (lunes, martes, miércoles,...): permite hacer
              análisis sobre días de la semana concretos (ej. ventas en sábado,
              ventas en lunes,..).
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                              DATAWAREHOUSE




    datos:              Dimensión Tiempo:
    atributos frecuentes:
             ­ día del mes (1..31): permite hacer comparaciones sobre el mismo día en
               meses distintos (ventas el 1º de mes).
             ­ marca de fin de mes, marca de fin de semana : permite hacer
               comparaciones sobre el último día del mes o días de fin de semana en
               distintos meses.
             ­ trimestre del año (1..4): permite hacer análisis sobre un trimestre concreto
               en distintos años.
             ­ marca de día festivo: permite hacer análisis sobre los días contiguos a un
               día festivo.
             ­ estación (primavera, verano..)
             ­ evento especial: permite marcar días de eventos especiales (final de futbol,
               elecciones...)
    jerarquía natural:

CARRERA DE
             día - mes - trimestre -año
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                           DATAWAREHOUSE




     datos:     Dimensión Producto:
      la dimensión Producto se define a partir del fichero maestro
       de productos del sistema OLTP.
      las actualizaciones del fichero maestro de productos deben
       reflejarse en la dimensión Producto (¿cómo?).
      la dimensión Producto debe contener el mayor número
       posible de atributos descriptivos que permitan un análisis
       flexible. Un número frecuente es de 50 atributos.
      atributos frecuentes: identificador (código estándar),
       descripción, tamaño del envase, marca, categoría,
       departamento, tipo de envase, producto dietético, peso,
       unidades de peso, unidades por envase, fórmula, ...
      jerarquías: producto-categoría-departamento
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                              DATAWAREHOUSE




     datos: Dimensión Establecimiento (store) :
     la dimensión Almacén representa la información geográfica básica.
     esta dimensión suele ser creada explícitamente recopilando
      información externa que sólo tiene sentido en el A.D y que no la
      tiene en un OLTP (número de habitantes de la ciudad del
      establecimiento, caracterización del tipo de población del distrito, ...)
     atributos frecuentes: identificador (código interno), nombre,
      dirección, distrito, región, ciudad, país, director, teléfono, fax, tipo de
      almacén, superficie, fecha de apertura, fecha de la última
      remodelación, superficie para congelados, superficie para productos
      frescos, datos de la población del distrito, zona de ventas, ...
     jerarquías:
             – establecimiento - distrito - ciudad - región - país (jerarquía geográfica)
             – establecimiento - zona_ventas - región_ventas (jerarquía de ventas)
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                       DATAWAREHOUSE




     datos:
              Tiempo       Establecimiento   Producto
              id_fecha      id_establec      id_producto
              día           nro_establec     nro_producto
              semana        nombre           descripción
              mes           dirección        marca
              año           distrito         subcategoría
              día_semana    ciudad           categoría
              día_mes       país             departamento
              trimestre     tlfno            peso
              festivo       fax              unidades_peso
              ....          superficie       tipo_envase
                            tipo_almacén     dietético
                            ...              ...




CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                    DATAWAREHOUSE


                              Tiempo
     datos:                   id_fecha
                              día
                                                         Establecimiento
                                                           id_establec
                                                           nro_establec
                              semana
              Producto                                     nombre
                              mes
                                                           dirección
              id_producto     año
                                                           distrito
              nro_producto    día_semana
                                                           ciudad
              descripción     día_mes
                                                           país
              marca           trimestre
                                                           tlfno
              subcategoría    festivo
                                           Ventas          fax
              categoría       ....
                                                           superficie
              departamento                 id_fecha
                                                           tipo_almacén
              peso                         id_producto
                                                           ...
              unidades_peso                id_establec
              tipo_envase                  ...
              dietético                    ...
              ...                          ...


CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                       DATAWAREHOUSE




     datos:
   Paso 4. Decidir la información a almacenar sobre el proceso.
   Hechos: información (sobre la actividad) que se desea
   almacenar en cada tupla de la tabla de hechos y que será
   el objeto del análisis.
              Precio
              Unidades
              Importe
     Nota:....
           algunos datos que en el OLTP coincidirían con valores
     de atributos de dimensiones, en el almacén de datos pueden
     representar hechos. (Ejemplo: el precio de venta de un
     producto).
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                            DATAWAREHOUSE




     datos:
             Ejemplo: Cadena de supermercados.
             Gránulo: “se desea almacenar información sobre
             las ventas diarias de cada producto en cada
             establecimiento de la cadena”.
                – importe total de las ventas del producto en el día
                – número total de unidades vendidas del producto en
                  el día
                – número total de clientes distintos que han comprado
                  el producto en el día.

CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                    DATAWAREHOUSE



                              Tiempo
     datos:                   id_fecha
                              día
                                                          Establecimiento
                                                           id_establec
                                                           nro_establec
                              semana
              Producto                                     nombre
                              mes
                                                           dirección
              id_producto     año
                                                           distrito
              nro_producto    día_semana
                                                           ciudad
              descripción     día_mes
                                                           país
              marca           trimestre
                                                           tlfno
              subcategoría    festivo
                                           Ventas          fax
              categoría       ....
                                                           superficie
              departamento                 id_fecha
                                                           tipo_almacén
              peso                         id_producto
                                                           ...
              unidades_peso                id_establec
              tipo_envase                  importe
              dietético                    unidades
              ...                          nro_clientes


CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de         DATAWAREHOUSE




     datos:
             Otras orientaciones de diseño:
               usar claves sin significado.
               evitar normalizar.
               incluir la dimensión Tiempo.
               dimensiones “que cambian”.
               definición de agregados.

CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                            DATAWAREHOUSE




     datos:
        Otras orientaciones de diseño:
                uso de claves sin significado.
                – en un almacén de datos debe evitarse el uso de las claves
                  del sistema operacional.
                – las claves de las dimensiones deben ser generadas
                  artificialmente: claves de tipo entero (4 bytes) son suficiente
                  para dimensiones de cualquier tamaño (232 valores distintos).
                – la dimensión TIEMPO debe tener también una clave artificial.
   Inconvenientes del uso de las claves del sistema operacional:
              en el OLTP se puede decidir reutilizar valores de la clave no utilizados
               actualmente.
              en el OLTP se puede decidir cambiar la codificación de las claves.
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                               DATAWAREHOUSE




     datos:
             Otras Orientaciones de diseño:
               evitar normalizar.
        Si se define una tabla de dimensión para cada dimensión
        identificada en el análisis, es frecuente que entre el conjunto
        de atributos de la tabla aparezcan dependencias
        funcionales que hacen que la tabla no esté en 3ª F.N.


              Evitar normalizar:
                  el ahorro de espacio no es significativo
                 se multiplican los JOIN durante las consultas.
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                             DATAWAREHOUSE




     datos:

      Otras Orientaciones de diseño:
               siempre introducir la dimensión Tiempo.


                En un almacén de Datos muchas consultas son
             restringidas y parametrizadas por criterios relativos a
                periodos de tiempo (último mes, este año, ...).



CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                                                DATAWAREHOUSE




     datos:
        Otras orientaciones de diseño:
             dimensiones “que cambian”.
      Se considera relevante el caso en que, en el mundo real, para un valor
      de una dimensión, cambia el valor de un atributo que es significativo
                 para el análisis sin cambiar el valor de su clave.
              Ejemplo: En un A.D existe la dimensión CLIENTE. En la tabla correspondiente un
              registro representa la información sobre el cliente “María García” cuyo estado civil
             cambia el 15-01-1994 de soltera a casada. El estado civil del cliente es utilizado con
                                  frecuencia en el análisis de la información.

     Existen tres estrategias para el tratamiento de los cambios en las dimensiones:
                 Tipo 1: Realizar la modificación.
                 Tipo 2: Crear un nuevo registro.
                 Tipo 3: Crear un nuevo atributo.
CARRERA DE
INGENIERÍA
DE SISTEMAS
Pasos en el diseño del almacén de                                               DATAWAREHOUSE




     datos:
        Otras orientaciones de diseño:
              definición de agregados.
                     ¡En un almacén de datos es usual
                      consultar información agregada!
     El almacenamiento de datos agregados por distintos criterios
     de agregación en la tabla de hechos mejora la eficiencia del AD.
        Estrategias de almacenamiento de datos agregados:
               Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para
                almacenar la información agregada (resp. la descripción de los niveles de
                agregación).
               Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que
                representan la información agregada (resp. los niveles de agregación).
CARRERA DE
INGENIERÍA
DE SISTEMAS

More Related Content

Viewers also liked

2 t218162dw t_fundamentosdatawarehouse
2 t218162dw t_fundamentosdatawarehouse2 t218162dw t_fundamentosdatawarehouse
2 t218162dw t_fundamentosdatawarehouseJulio Pari
 
1 t218162dw t_inteligencianegocios
1 t218162dw t_inteligencianegocios1 t218162dw t_inteligencianegocios
1 t218162dw t_inteligencianegociosJulio Pari
 
4 t218162dw tolap
4 t218162dw tolap4 t218162dw tolap
4 t218162dw tolapJulio Pari
 
5 t218162dw t_mineriadatos
5 t218162dw t_mineriadatos5 t218162dw t_mineriadatos
5 t218162dw t_mineriadatosJulio Pari
 
Unmsm fisi-05-ingeniería económica -capitulo 5-valor presente
Unmsm fisi-05-ingeniería económica -capitulo 5-valor presenteUnmsm fisi-05-ingeniería económica -capitulo 5-valor presente
Unmsm fisi-05-ingeniería económica -capitulo 5-valor presenteJulio Pari
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
Que Es Un Datawarehouse
Que Es Un DatawarehouseQue Es Un Datawarehouse
Que Es Un Datawarehouseguest10616d
 
Indice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPCIndice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPCJulio Pari
 

Viewers also liked (9)

2 t218162dw t_fundamentosdatawarehouse
2 t218162dw t_fundamentosdatawarehouse2 t218162dw t_fundamentosdatawarehouse
2 t218162dw t_fundamentosdatawarehouse
 
1 t218162dw t_inteligencianegocios
1 t218162dw t_inteligencianegocios1 t218162dw t_inteligencianegocios
1 t218162dw t_inteligencianegocios
 
4 t218162dw tolap
4 t218162dw tolap4 t218162dw tolap
4 t218162dw tolap
 
5 t218162dw t_mineriadatos
5 t218162dw t_mineriadatos5 t218162dw t_mineriadatos
5 t218162dw t_mineriadatos
 
Unmsm fisi-05-ingeniería económica -capitulo 5-valor presente
Unmsm fisi-05-ingeniería económica -capitulo 5-valor presenteUnmsm fisi-05-ingeniería económica -capitulo 5-valor presente
Unmsm fisi-05-ingeniería económica -capitulo 5-valor presente
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
Que Es Un Datawarehouse
Que Es Un DatawarehouseQue Es Un Datawarehouse
Que Es Un Datawarehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Indice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPCIndice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPC
 

Similar to 3 t218162dw t_construcciondatawarehouse

Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouseFundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouseJulio Pari
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehousedagmalu
 
Marcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de DatosMarcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de DatosMarcos Macedo
 
1 process
1 process1 process
1 processsalilor
 
MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOSLosMorales
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningDenodo
 
Componentes de arquitectura de un Bussiness Inteligence
Componentes de arquitectura de un Bussiness InteligenceComponentes de arquitectura de un Bussiness Inteligence
Componentes de arquitectura de un Bussiness InteligenceLEONCAMILO1
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BIdbLearner
 
Analisis de requsitos y diseño conceptual
Analisis de requsitos y diseño conceptualAnalisis de requsitos y diseño conceptual
Analisis de requsitos y diseño conceptualJuanito Jhoness Jhon
 
1ra unidad diapositivas
1ra unidad diapositivas1ra unidad diapositivas
1ra unidad diapositivasmartin
 
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...eccutpl
 
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...GIANFRANCOMONTENEGRO2
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionSergio, Chávez
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 

Similar to 3 t218162dw t_construcciondatawarehouse (20)

Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
 
Data warehouse in R
Data warehouse in RData warehouse in R
Data warehouse in R
 
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouseFundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Marcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de DatosMarcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de Datos
 
1 process
1 process1 process
1 process
 
MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOS
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
 
Componentes de arquitectura de un Bussiness Inteligence
Componentes de arquitectura de un Bussiness InteligenceComponentes de arquitectura de un Bussiness Inteligence
Componentes de arquitectura de un Bussiness Inteligence
 
Diseño de sistemas
Diseño de sistemasDiseño de sistemas
Diseño de sistemas
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BI
 
Analisis de requsitos y diseño conceptual
Analisis de requsitos y diseño conceptualAnalisis de requsitos y diseño conceptual
Analisis de requsitos y diseño conceptual
 
1ra unidad diapositivas
1ra unidad diapositivas1ra unidad diapositivas
1ra unidad diapositivas
 
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
 
S15 bi v1-1
S15 bi v1-1S15 bi v1-1
S15 bi v1-1
 
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacion
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
0 dw process
0 dw process0 dw process
0 dw process
 

More from Julio Pari

Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...Julio Pari
 
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesLinks kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesJulio Pari
 
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesComandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesJulio Pari
 
Arquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSMArquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSMJulio Pari
 
Jelastic Enterprise
Jelastic EnterpriseJelastic Enterprise
Jelastic EnterpriseJulio Pari
 
Marketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor OsorioMarketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor OsorioJulio Pari
 
Ingenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor CorderoIngenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor CorderoJulio Pari
 
Documento de Arquitectura
Documento de ArquitecturaDocumento de Arquitectura
Documento de ArquitecturaJulio Pari
 
Solucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISISolucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISIJulio Pari
 
Práctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa IIPráctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa IIJulio Pari
 
Armas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilasArmas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilasJulio Pari
 
Formato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISIFormato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISIJulio Pari
 
Cuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hijaCuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hijaJulio Pari
 
Ingeniería de Software Examen Parcial
Ingeniería de Software Examen ParcialIngeniería de Software Examen Parcial
Ingeniería de Software Examen ParcialJulio Pari
 
Sistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen ParcialSistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen ParcialJulio Pari
 
Php07 consultas bd
Php07 consultas bdPhp07 consultas bd
Php07 consultas bdJulio Pari
 
Php06 instalacion my_sql
Php06 instalacion my_sqlPhp06 instalacion my_sql
Php06 instalacion my_sqlJulio Pari
 
Php05 funciones usuario
Php05 funciones usuarioPhp05 funciones usuario
Php05 funciones usuarioJulio Pari
 
Php04 estructuras control
Php04 estructuras controlPhp04 estructuras control
Php04 estructuras controlJulio Pari
 

More from Julio Pari (20)

Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
 
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesLinks kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
 
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesComandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
 
Arquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSMArquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSM
 
Jelastic Enterprise
Jelastic EnterpriseJelastic Enterprise
Jelastic Enterprise
 
Marketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor OsorioMarketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor Osorio
 
Ingenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor CorderoIngenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor Cordero
 
Documento de Arquitectura
Documento de ArquitecturaDocumento de Arquitectura
Documento de Arquitectura
 
Solucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISISolucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISI
 
Práctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa IIPráctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa II
 
Armas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilasArmas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilas
 
UML Java
UML JavaUML Java
UML Java
 
Formato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISIFormato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISI
 
Cuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hijaCuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hija
 
Ingeniería de Software Examen Parcial
Ingeniería de Software Examen ParcialIngeniería de Software Examen Parcial
Ingeniería de Software Examen Parcial
 
Sistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen ParcialSistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen Parcial
 
Php07 consultas bd
Php07 consultas bdPhp07 consultas bd
Php07 consultas bd
 
Php06 instalacion my_sql
Php06 instalacion my_sqlPhp06 instalacion my_sql
Php06 instalacion my_sql
 
Php05 funciones usuario
Php05 funciones usuarioPhp05 funciones usuario
Php05 funciones usuario
 
Php04 estructuras control
Php04 estructuras controlPhp04 estructuras control
Php04 estructuras control
 

3 t218162dw t_construcciondatawarehouse

  • 1. DATAWAREHOUSE Datawarehouse Construcción de un Data Warehouse Fundamentos CARRERA DE INGENIERÍA DE SISTEMAS
  • 2. DATAWAREHOUSE Agenda ● Diseño de un almacen de datos. ● Pasos para el diseño de un almacen de datos – Modelamiento multidimensional. CARRERA DE INGENIERÍA DE SISTEMAS
  • 3. Diseño de un Almacén de Datos DATAWAREHOUSE Recogida y análisis de requisitos Diseño conceptual Diseño lógico específico Diseño físico Implementación CARRERA DE INGENIERÍA DE SISTEMAS
  • 4. Diseño de un Almacén de Datos DATAWAREHOUSE Recogida y análisis de requisitos Análisis Diseño conceptual Discernimiento de Requisitos de las fuentes usuario (consultas Diseño lógico necesarias del de análisis sistema de necesarias, nivel de información de la agregación, …) organización (OLTP) y Diseño físico externas Implementación Diseño Conceptual p.ej. Entidad-Relación CARRERA DE INGENIERÍA DE SISTEMAS
  • 5. Diseño de un Almacén de Datos DATAWAREHOUSE Recogida y análisis de requisitos Diseño Lógico Diseño conceptual Modelado Diseño lógico multidimensional (MR) Diseño físico Esquemas Implementación estrella CARRERA DE INGENIERÍA DE SISTEMAS
  • 6. Diseño de un Almacén de Datos DATAWAREHOUSE Recogida y análisis de Diseño requisitos Físico Diseño conceptual Definición del esquema ROLAP o Diseño lógico MOLAP Diseño físico Diseño del Implementación ETL CARRERA DE INGENIERÍA DE SISTEMAS
  • 7. Diseño de un Almacén de Datos DATAWAREHOUSE Recogida y análisis de requisitos Implementación Diseño conceptual Carga del AD Diseño lógico (ETL) Diseño físico Preparación de las vistas de usuario Implementación (herramienta OLAP) CARRERA DE INGENIERÍA DE SISTEMAS
  • 8. Diseño de un Almacén de Datos DATAWAREHOUSE • Detallemos más ahora el Diseño Lógico... Recogida y análisis de La visión multidimensional seguida por requisitos las herramientas de explotación de almacenes de datos (OLAP) ha inspirado los modelos y metodologías de diseño de Diseño conceptual este tipo de sistemas. Diseño lógico Diseño físico En la literatura se habla de “Bases de Datos Multidimensionales” y de “Diseño Multidimensional” Implementación CARRERA DE INGENIERÍA DE SISTEMAS
  • 9. DATAWAREHOUSE Modelamiento multidimensional ● En un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). ● La información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho). ● La información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión). CARRERA DE INGENIERÍA DE SISTEMAS
  • 10. DATAWAREHOUSE Modelamiento multidimensional ● El modelado multidimensional se puede aplicar utilizando distintos modelos de datos (conceptuales o lógicos). ● La representación gráfica del esquema multidimensional dependerá del modelo de datos utilizado (relacional, ER, UML, OO, ...). CARRERA DE INGENIERÍA DE SISTEMAS
  • 11. Diseño de un Almacén de Datos DATAWAREHOUSE El desarrollo de la tecnología de almacenes de datos se ha caracterizado por: - un temprano desarrollo industrial provocado por las demandas de los usuarios. - el uso de metodologías de diseño centradas principalmente en los niveles lógico e interno. (la atención se ha centrado en mejorar la eficiencia en la ejecución de consultas) Metodología de diseño basada en el modelo relacional: Modelo multidimensional de Kimball No es muy congruente usar modelos para diseño conceptual…. CARRERA DE INGENIERÍA DE SISTEMAS
  • 12. Pasos en el diseño del almacén de DATAWAREHOUSE datos: ● Paso 1. Elegir un “proceso” de la organización para modelar. ● Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso. ● Paso 3. Identificar las dimensiones que caracterizan el proceso. ● Paso 4. Decidir la información a almacenar sobre el proceso. CARRERA DE INGENIERÍA DE SISTEMAS
  • 13. Pasos en el diseño del almacén de DATAWAREHOUSE datos: ● Paso 1. Elegir un “proceso” de la organización para modelar. – Proceso: actividad de la organización soportada por un OLTP del cual se puede extraer información con el propósito de construir el almacén de datos. ● Pedidos (de clientes) ● Compras (a suministradores) ● Facturación ● Envíos ● Ventas ● Inventario CARRERA DE INGENIERÍA DE SISTEMAS
  • 14. Pasos en el diseño del almacén de DATAWAREHOUSE datos: ● Ejemplo: Cadena de supermercados. – Cadena de supermercados con 300 almacenes en la que se expenden unos 30.000 productos distintos. ● Actividad: Ventas. – La actividad a modelar son las ventas de productos en los almacenes de la cadena. CARRERA DE INGENIERÍA DE SISTEMAS
  • 15. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Paso 2. Decidir el gránulo (nivel de detalle) de representación. Gránulo: es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar.  El gránulo define el nivel atómico de datos en el almacén de datos.  El gránulo determina el significado de las tuplas de la tabla de hechos.  El gránulo determina las dimensiones básicas del esquema • transacción en el OLTP • información diaria • información semanal • información mensual. .... CARRERA DE INGENIERÍA DE SISTEMAS
  • 16. Pasos en el diseño del almacén de DATAWAREHOUSE datos: tabla de hechos tabla tabla Dimensión 1 3 im 1 id_dim1 Dim Dimensión 3 D id_dim2 id_dim3 tabla ... 2 D im tabla Dimensión 2 id_dim n n Dim Dimensión n .... (hechos) CARRERA DE INGENIERÍA DE SISTEMAS
  • 17. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Ejemplo: Cadena de supermercados. Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada almacén de la cadena”. Gránulo: define el significado de las tuplas de la tabla de hechos. determina las dimensiones básicas del esquema. c to du producto pro día almacén én ventas ac a lm CARRERA DE INGENIERÍA DE SISTEMAS
  • 18. Pasos en el diseño del almacén de DATAWAREHOUSE datos: • Gránulo inferior: no se almacena información a nivel de línea de ticket porque no se puede identificar siempre al cliente de la venta lo que permitiría hacer análisis del comportamiento (hábitos de compra) del cliente. • Gránulo superior: no se almacena información a nivel semanal o mensual porque se perderían opciones de análisis interesantes: ventas en días previos a vacaciones, ventas en fin de semana, ventas en fin de mes, .... En un almacén de datos se almacena información a un nivel de detalle (gránulo) fino no porque se vaya a interrogar el almacén a ese nivel sino porque ello permite clasificar y estudiar (analizar) la información desde muchos puntos de vista. CARRERA DE INGENIERÍA DE SISTEMAS
  • 19. Pasos en el diseño del almacén de DATAWAREHOUSE datos: p rod u c to producto día almacén én ventas ac a lm tabla de id_producto la clave primaria(*) está hechos formada por los id_fecha identificadores de las id_almacén dimensiones básicas. ..... ..... datos (medidas) sobre las ventas diarias de un ...... producto en un almacén. (*) pueden existir excepciones a esta regla general CARRERA DE INGENIERÍA DE SISTEMAS
  • 20. Pasos en el diseño del almacén de DATAWAREHOUSE datos: las dimensiones que caracterizan el proceso. Paso 3. Identificar  Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido. Tiempo (dimensión temporal: ¿cuándo se produce la actividad?) Producto (dimensión ¿cuál es el objeto de la actividad?) Almacén (dimensión geográfica: ¿dónde se produce la actividad?) Cliente (dimensión ¿quién es el destinatario de la actividad?)  De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.  Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año) CARRERA DE INGENIERÍA DE SISTEMAS
  • 21. Pasos en el diseño del almacén de DATAWAREHOUSE datos: tabla Dimensión 1 id_dim1 .... CARRERA DE INGENIERÍA DE SISTEMAS
  • 22. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Ejemplo: Cadena de supermercados. tiempo definición de dimensiones producto gránulo básicas establecimiento Nota: En las aplicaciones reales el número de dimensiones suele variar entre 3 y 15 dimensiones. CARRERA DE INGENIERÍA DE SISTEMAS
  • 23. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Dimensión Tiempo:  Dimensión presente en todo AD porque el AD contiene información histórica sobre la organización.  Aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensión Tiempo permite representar otros atributos temporales no calculables en SQL.  Se puede calcular de antemano  Atributos frecuentes: – nro. de día, nro. de semana, nro. de año: valores absolutos del calendario juliano que permiten hacer ciertos cálculos aritméticos. – día de la semana (lunes, martes, miércoles,...): permite hacer análisis sobre días de la semana concretos (ej. ventas en sábado, ventas en lunes,..). CARRERA DE INGENIERÍA DE SISTEMAS
  • 24. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Dimensión Tiempo:  atributos frecuentes: ­ día del mes (1..31): permite hacer comparaciones sobre el mismo día en meses distintos (ventas el 1º de mes). ­ marca de fin de mes, marca de fin de semana : permite hacer comparaciones sobre el último día del mes o días de fin de semana en distintos meses. ­ trimestre del año (1..4): permite hacer análisis sobre un trimestre concreto en distintos años. ­ marca de día festivo: permite hacer análisis sobre los días contiguos a un día festivo. ­ estación (primavera, verano..) ­ evento especial: permite marcar días de eventos especiales (final de futbol, elecciones...)  jerarquía natural: CARRERA DE día - mes - trimestre -año INGENIERÍA DE SISTEMAS
  • 25. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Dimensión Producto:  la dimensión Producto se define a partir del fichero maestro de productos del sistema OLTP.  las actualizaciones del fichero maestro de productos deben reflejarse en la dimensión Producto (¿cómo?).  la dimensión Producto debe contener el mayor número posible de atributos descriptivos que permitan un análisis flexible. Un número frecuente es de 50 atributos.  atributos frecuentes: identificador (código estándar), descripción, tamaño del envase, marca, categoría, departamento, tipo de envase, producto dietético, peso, unidades de peso, unidades por envase, fórmula, ...  jerarquías: producto-categoría-departamento CARRERA DE INGENIERÍA DE SISTEMAS
  • 26. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Dimensión Establecimiento (store) :  la dimensión Almacén representa la información geográfica básica.  esta dimensión suele ser creada explícitamente recopilando información externa que sólo tiene sentido en el A.D y que no la tiene en un OLTP (número de habitantes de la ciudad del establecimiento, caracterización del tipo de población del distrito, ...)  atributos frecuentes: identificador (código interno), nombre, dirección, distrito, región, ciudad, país, director, teléfono, fax, tipo de almacén, superficie, fecha de apertura, fecha de la última remodelación, superficie para congelados, superficie para productos frescos, datos de la población del distrito, zona de ventas, ...  jerarquías: – establecimiento - distrito - ciudad - región - país (jerarquía geográfica) – establecimiento - zona_ventas - región_ventas (jerarquía de ventas) CARRERA DE INGENIERÍA DE SISTEMAS
  • 27. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Tiempo Establecimiento Producto id_fecha id_establec id_producto día nro_establec nro_producto semana nombre descripción mes dirección marca año distrito subcategoría día_semana ciudad categoría día_mes país departamento trimestre tlfno peso festivo fax unidades_peso .... superficie tipo_envase tipo_almacén dietético ... ... CARRERA DE INGENIERÍA DE SISTEMAS
  • 28. Pasos en el diseño del almacén de DATAWAREHOUSE Tiempo datos: id_fecha día Establecimiento id_establec nro_establec semana Producto nombre mes dirección id_producto año distrito nro_producto día_semana ciudad descripción día_mes país marca trimestre tlfno subcategoría festivo Ventas fax categoría .... superficie departamento id_fecha tipo_almacén peso id_producto ... unidades_peso id_establec tipo_envase ... dietético ... ... ... CARRERA DE INGENIERÍA DE SISTEMAS
  • 29. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Paso 4. Decidir la información a almacenar sobre el proceso. Hechos: información (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que será el objeto del análisis. Precio Unidades Importe Nota:.... algunos datos que en el OLTP coincidirían con valores de atributos de dimensiones, en el almacén de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto). CARRERA DE INGENIERÍA DE SISTEMAS
  • 30. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Ejemplo: Cadena de supermercados. Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada establecimiento de la cadena”. – importe total de las ventas del producto en el día – número total de unidades vendidas del producto en el día – número total de clientes distintos que han comprado el producto en el día. CARRERA DE INGENIERÍA DE SISTEMAS
  • 31. Pasos en el diseño del almacén de DATAWAREHOUSE Tiempo datos: id_fecha día Establecimiento id_establec nro_establec semana Producto nombre mes dirección id_producto año distrito nro_producto día_semana ciudad descripción día_mes país marca trimestre tlfno subcategoría festivo Ventas fax categoría .... superficie departamento id_fecha tipo_almacén peso id_producto ... unidades_peso id_establec tipo_envase importe dietético unidades ... nro_clientes CARRERA DE INGENIERÍA DE SISTEMAS
  • 32. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Otras orientaciones de diseño: usar claves sin significado. evitar normalizar. incluir la dimensión Tiempo. dimensiones “que cambian”. definición de agregados. CARRERA DE INGENIERÍA DE SISTEMAS
  • 33. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Otras orientaciones de diseño: uso de claves sin significado. – en un almacén de datos debe evitarse el uso de las claves del sistema operacional. – las claves de las dimensiones deben ser generadas artificialmente: claves de tipo entero (4 bytes) son suficiente para dimensiones de cualquier tamaño (232 valores distintos). – la dimensión TIEMPO debe tener también una clave artificial. Inconvenientes del uso de las claves del sistema operacional:  en el OLTP se puede decidir reutilizar valores de la clave no utilizados actualmente.  en el OLTP se puede decidir cambiar la codificación de las claves. CARRERA DE INGENIERÍA DE SISTEMAS
  • 34. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Otras Orientaciones de diseño: evitar normalizar. Si se define una tabla de dimensión para cada dimensión identificada en el análisis, es frecuente que entre el conjunto de atributos de la tabla aparezcan dependencias funcionales que hacen que la tabla no esté en 3ª F.N. Evitar normalizar:  el ahorro de espacio no es significativo se multiplican los JOIN durante las consultas. CARRERA DE INGENIERÍA DE SISTEMAS
  • 35. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Otras Orientaciones de diseño:  siempre introducir la dimensión Tiempo. En un almacén de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a periodos de tiempo (último mes, este año, ...). CARRERA DE INGENIERÍA DE SISTEMAS
  • 36. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Otras orientaciones de diseño: dimensiones “que cambian”. Se considera relevante el caso en que, en el mundo real, para un valor de una dimensión, cambia el valor de un atributo que es significativo para el análisis sin cambiar el valor de su clave. Ejemplo: En un A.D existe la dimensión CLIENTE. En la tabla correspondiente un registro representa la información sobre el cliente “María García” cuyo estado civil cambia el 15-01-1994 de soltera a casada. El estado civil del cliente es utilizado con frecuencia en el análisis de la información. Existen tres estrategias para el tratamiento de los cambios en las dimensiones: Tipo 1: Realizar la modificación. Tipo 2: Crear un nuevo registro. Tipo 3: Crear un nuevo atributo. CARRERA DE INGENIERÍA DE SISTEMAS
  • 37. Pasos en el diseño del almacén de DATAWAREHOUSE datos: Otras orientaciones de diseño: definición de agregados. ¡En un almacén de datos es usual consultar información agregada! El almacenamiento de datos agregados por distintos criterios de agregación en la tabla de hechos mejora la eficiencia del AD. Estrategias de almacenamiento de datos agregados:  Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para almacenar la información agregada (resp. la descripción de los niveles de agregación).  Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que representan la información agregada (resp. los niveles de agregación). CARRERA DE INGENIERÍA DE SISTEMAS