DATAWAREHOUSE              Datawarehouse               Data Warehouse                   FundamentosCARRERA DEINGENIERÍADE ...
DATAWAREHOUSE    Agenda     ●       Introducción                –   Problemas     ●       Data Warehouse.                –...
DATAWAREHOUSE    Agenda     ●       Data Mart.     ●       Diseño de un Datawarehouse.     ●       OLTP y OLAP            ...
DATAWAREHOUSE    Introducción    • La información que se quiere investigar sobre      un cierto dominio de la organización...
DATAWAREHOUSE    Introducción     ●       Sobre estas mismas bases de datos de trabajo             ya se puede extraer con...
DATAWAREHOUSE    Introducción     ●       Problemas:                –   Perturba el trabajo transaccional diario de los   ...
DATAWAREHOUSE    Introducción     ●       Se desea operar eficientemente con esos             datos...                –   ...
DATAWAREHOUSE        Data Warehouse     Repositorio completo de datos de la empresa,     donde se almacenan datos estratég...
DATAWAREHOUSE         Data Warehouse     ●       El almacén de datos es ahora el “sistema de             información centr...
DATAWAREHOUSE    Data Warehouse                    Almacenes de Datos (AD)    (data warehouse)                Disponer de ...
Data Warehouse                                          DATAWAREHOUSE                              Almacenes de datos     ...
Data Warehouse                                                   DATAWAREHOUSE                    Almacenes de Datos      ...
Data Warehouse                                                                            DATAWAREHOUSE                   ...
Data Warehouse                                                                                                            ...
Data Warehouse                                                    DATAWAREHOUSE                                         Lo...
Data Warehouse                                                       DATAWAREHOUSE                                        ...
Data Warehouse                                       DATAWAREHOUSE                       Almacenes de Datos               ...
Data Warehouse                                          DATAWAREHOUSE                   Almacenes de Datos                ...
DATAWAREHOUSE    OLTP versus Data Warehouse              Sistema Operacional (OLTP)                          Almacén de da...
DATAWAREHOUSE             Arquitectura de un Data Warehouse      • La Arquitectura de un data warehouse viene        deter...
Arquitectura de un Data Warehouse                            DATAWAREHOUSE     • Componentes:             • Sistema ETL (E...
Arquitectura de un Data Warehouse                 DATAWAREHOUSE       • Componentes:          • Repositorio Propio de Dato...
Arquitectura de un Data Warehouse                           DATAWAREHOUSE       • Organización (Externa) de los datos…    ...
Arquitectura de un Data Warehouse                               DATAWAREHOUSE     EJEMPLO     Organización: Cadena de supe...
Arquitectura de un Data Warehouse                                                       DATAWAREHOUSE              Marca  ...
Arquitectura de un Data Warehouse                                                                       DATAWAREHOUSE     ...
Arquitectura de un Data Warehouse                  DATAWAREHOUSE      • El almacén de datos puede estar formado por       ...
DATAWAREHOUSE        Data Mart     Repositorio parcial de datos de la empresa,     donde se almacenan datos tácticos y    ...
Diseño de un Data Warehouse           DATAWAREHOUSE                    Recogida y análisis de                         requ...
DATAWAREHOUSE        OLTP     OLTP (On-Line Transaction Processing):     Define el comportamiento habitual de un entorno  ...
DATAWAREHOUSE        OLAP     OLAP: On-Line Analytical Processing: Define     el comportamiento de un sistema de análisis ...
DATAWAREHOUSE        OLAP     OLAP: Datawarehouse de análisis      ●        Procesos de consolidación      ●        Cambio...
DATAWAREHOUSE         OLAP     ●       Consistencia de consolidación         ●             Comprobar la validez de los dat...
DATAWAREHOUSE        Arquitectura Data Warehouse     Mecanismos de consolidación        ●          Refresco de datos: Volc...
OLTP vs. OLAP                                                                DATAWAREHOUSE             Características    ...
DATAWAREHOUSE        OLTP vs OLAP     Todas estas divergencias hacen que no sea     posible la convivencia en una única BD...
DATAWAREHOUSE        Bases Datos OLAP     Tipos de BD      ●        BD Relacional      ●        BD Multidimensional      ●...
Herramientas OLAP                                  DATAWAREHOUSE     ●       Las herramientas de OLAP presentan al usuario...
DATAWAREHOUSE    Data Warehouse y Data Minig     ●       Los almacenes de datos no son             imprescindibles para ha...
DATAWAREHOUSE    Data Warehouse y Data Minig     ●       Las ventajas de organizar un almacén de             datos para re...
DATAWAREHOUSE    OLAP y Data Mining     ●       Las herramientas OLAP                –   proporcionan facilidades para “ma...
DATAWAREHOUSE    OLAP y Data Mining     ●       Las herramientas de Minería de Datos:                –   son muy variadas:...
DATAWAREHOUSE         Conclusiones     ●       Los almacenes de datos y las técnicas OLAP             son las maneras más ...
DATAWAREHOUSE         Conclusiones     ●       La tecnología OLAP generalmente se asocia             a los almacenes de da...
Upcoming SlideShare
Loading in...5
×

Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

1,976
-1

Published on

0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,976
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
177
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

  1. 1. DATAWAREHOUSE Datawarehouse Data Warehouse FundamentosCARRERA DEINGENIERÍADE SISTEMAS
  2. 2. DATAWAREHOUSE Agenda ● Introducción – Problemas ● Data Warehouse. – Características. – Componentes. – Ventajas. – Problemas. ● OLTP vesrsus Data Warehouse. ● Arquitectura de un Data WarehouseCARRERA DEINGENIERÍADE SISTEMAS
  3. 3. DATAWAREHOUSE Agenda ● Data Mart. ● Diseño de un Datawarehouse. ● OLTP y OLAP – Comparación con OLTP versus OLAP. – Herramientas OLAP – Base de Datos OLAP ● DataWarehouse y Data Mining ● OLAPy Data Mining ●CARRERA DE ConclusionesINGENIERÍADE SISTEMAS
  4. 4. DATAWAREHOUSE Introducción • La información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. • Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).CARRERA DEINGENIERÍADE SISTEMAS
  5. 5. DATAWAREHOUSE Introducción ● Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). ● Uso de la base de datos transaccional para: – Se mantiene el trabajo transaccional diario de los sistemas de información originales (OLTP, On-Line Transactional Processing). – Se hace análisis de los datos en tiempo real sobre la misma base de datos (OLAP, On-Line Analytical Processing).CARRERA DEINGENIERÍADE SISTEMAS
  6. 6. DATAWAREHOUSE Introducción ● Problemas: – Perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana. – La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).CARRERA DEINGENIERÍADE SISTEMAS
  7. 7. DATAWAREHOUSE Introducción ● Se desea operar eficientemente con esos datos... – Costes de almacenamiento y conectividad se han reducido en últimos años, ● Parece razonable recoger los datos (información histórica) en un sistema separado y específico. – Data warehouses (Almacenes o Bodegas de Datos) – Nace Data-Warehousing.CARRERA DEINGENIERÍADE SISTEMAS
  8. 8. DATAWAREHOUSE Data Warehouse Repositorio completo de datos de la empresa, donde se almacenan datos estratégicos, tácticos y operativos, con el objeto de obtener información estratégica y táctica.CARRERA DEINGENIERÍADE SISTEMAS
  9. 9. DATAWAREHOUSE Data Warehouse ● El almacén de datos es ahora el “sistema de información central” en todo este proceso. ● Un almacén de datos es una colección de datos: – orientada a un dominio – integrada – no volátil – variante en el tiempo ● Para ayudar en la toma de decisiones.CARRERA DEINGENIERÍADE SISTEMAS
  10. 10. DATAWAREHOUSE Data Warehouse Almacenes de Datos (AD) (data warehouse) Disponer de Sistemas de Información de apoyo a la toma de decisiones* Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización Análisis de la Previsiones de Diseño de Organización evolución estratégias * DSS: Decision Support SystemsCARRERA DEINGENIERÍADE SISTEMAS
  11. 11. Data Warehouse DATAWAREHOUSE Almacenes de datos Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de datos de los sistemas operacionales. Sistema Operacional BD orientada al (OLTP) proceso Sistema de Almacén de BD orientada al Datos análisis (DW)CARRERA DEINGENIERÍADE SISTEMAS
  12. 12. Data Warehouse DATAWAREHOUSE Almacenes de Datos definición Colección de datos diseñada para dar apoyo a los procesos de toma de decisiones características orientada hacia integrada variable en no volátil la información* el tiempo relevante de la organización * subject oriented, not process orientedCARRERA DEINGENIERÍADE SISTEMAS
  13. 13. Data Warehouse DATAWAREHOUSE Se diseña para consultar eficientemente Orientado hacia la información información relativa a las actividades relevante de la (ventas, compras, producción, ...) básicas organización de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc). Base de Datos Transaccional PAÍS GAMA CURSO ... ... ... VENTA Información REUNION ... Necesaria ... PRODUCTO PROTOTIPO ... ...CARRERA DEINGENIERÍADE SISTEMAS
  14. 14. Data Warehouse DATAWAREHOUSE Integra datos recogidos de diferentes Integrado sistemas operacionales de la organización (y/o fuentes externas). Fuente de Datos 3 Fuente de Datos 1 Fuente de Datos 2 texto HTML Base de Datos Transaccional 1 Fuentes Externas Fuentes Internas Base de Datos Transaccional 2 Almacén de DatosCARRERA DEINGENIERÍADE SISTEMAS
  15. 15. Data Warehouse DATAWAREHOUSE Los datos son relativos a un periodo Variable en de tiempo y deben ser incrementados el tiempo periódicamente. Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo. Tiempo Datos 01/2003 Datos de Enero 02/2003 Datos de Febrero 03/2003 Datos de MarzoCARRERA DEINGENIERÍADE SISTEMAS
  16. 16. Data Warehouse DATAWAREHOUSE Los datos almacenados no son No volátil actualizados, sólo son incrementados. Carga Bases de datos operacionales Almacén de Datos INSERT READ READ UPDATE DELETE El periodo de tiempo cubierto por un AD varía entre 2 y 10 años.CARRERA DEINGENIERÍADE SISTEMAS
  17. 17. Data Warehouse DATAWAREHOUSE Almacenes de Datos ventajas para las organizaciones Rentabilidad de las Aumento de la Aumento de la inversiones competitividad productividad de los realizadas para su en el mercado técnicos de dirección creaciónCARRERA DEINGENIERÍADE SISTEMAS
  18. 18. Data Warehouse DATAWAREHOUSE Almacenes de Datos problemas Privacidad de los datos Infravaloración del Incremento continuo esfuerzo necesario de los requisitos de para su diseño y los usuarios creación Infravaloración de los recursos necesarios para la captura, transformación carga y almacenamiento de los datosCARRERA DEINGENIERÍADE SISTEMAS
  19. 19. DATAWAREHOUSE OLTP versus Data Warehouse Sistema Operacional (OLTP) Almacén de datos (DW) almacena datos actuales almacena datos históricos almacena datos de detalle almacena datos de detalle bases de datos medianas (100Mb-1Gb) bases de datos grandes (100Gb-1Tb) los datos son dinámicos (actualizables) los datos son estáticos los procesos (transacciones) son repetitivos los procesos no son previsibles el número de transacciones es elevado el número de transacciones es bajo o medio tiempo de respuesta pequeño (segundos) tiempo de respuesta variable (segundos-horas) dedicado al procesamiento de transacciones dedicado al análisis de datos orientado a los procesos de la organización orientado a la información relevante soporta decisiones diarias soporta decisiones estratégicas sirve a muchos usuarios (administrativos) sirve a técnicos de direcciónCARRERA DEINGENIERÍADE SISTEMAS
  20. 20. DATAWAREHOUSE Arquitectura de un Data Warehouse • La Arquitectura de un data warehouse viene determinada por su situación central como fuente de información para las herramientas de análisis. Fuentes Herramientas de Internas consultas e informes Base de Datos Transaccional Herramientas EIS Almacén de Interfaz y ETL Operadores Datos Fuente de Datos 1 Herramientas texto OLAP Fuente de Datos 3 HTML Copias de Seguridad Herramientas de Fuente de Fuentes Minería de Datos Datos ExternasCARRERA DEINGENIERÍADE SISTEMAS
  21. 21. Arquitectura de un Data Warehouse DATAWAREHOUSE • Componentes: • Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del Data Warehouse, realizando: • Extracción de los datos. • Filtrado de los datos: limpieza, consolidación, etc. • Carga inicial del almacén: ordenación, agregaciones, etc. • Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos.CARRERA DEINGENIERÍADE SISTEMAS
  22. 22. Arquitectura de un Data Warehouse DATAWAREHOUSE • Componentes: • Repositorio Propio de Datos: información relevante, metadatos. • Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). • Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...CARRERA DEINGENIERÍADE SISTEMAS
  23. 23. Arquitectura de un Data Warehouse DATAWAREHOUSE • Organización (Externa) de los datos… Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos. Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.CARRERA DEINGENIERÍADE SISTEMAS
  24. 24. Arquitectura de un Data Warehouse DATAWAREHOUSE EJEMPLO Organización: Cadena de supermercados. Actividad objeto de análisis: ventas de productos. Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.” Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.CARRERA DEINGENIERÍADE SISTEMAS
  25. 25. Arquitectura de un Data Warehouse DATAWAREHOUSE Marca Descripción Semana Categoría Departamento Mes Nro_producto Trimestre Día as Tipo Año nt Ve importe unidades Almacén Ciudad Tipo RegiónCARRERA DEINGENIERÍADE SISTEMAS
  26. 26. Arquitectura de un Data Warehouse DATAWAREHOUSE Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Marca Producto Descripción Semana Categoría Departamento Mes Día Trimestre Nro_producto as Tipo Año nt Ve importe unidades Almacén Ciudad Almacén Tipo Actividad que es objeto de análisis con los indicadores Región que interesa analizarCARRERA DEINGENIERÍADE SISTEMAS
  27. 27. Arquitectura de un Data Warehouse DATAWAREHOUSE • El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales. Subconjunto de un almacén de Data mart datos, generalmente en forma de estrella o copo de nieve. Se definen para satisfacer las necesidades de un departamento o sección de la organización. Contiene menos información de detalle y más información agregada.CARRERA DEINGENIERÍADE SISTEMAS
  28. 28. DATAWAREHOUSE Data Mart Repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica.CARRERA DEINGENIERÍADE SISTEMAS
  29. 29. Diseño de un Data Warehouse DATAWAREHOUSE Recogida y análisis de requisitos Diseño conceptual Diseño lógico específico Diseño físico ImplementaciónCARRERA DEINGENIERÍADE SISTEMAS
  30. 30. DATAWAREHOUSE OLTP OLTP (On-Line Transaction Processing): Define el comportamiento habitual de un entorno operacional de gestión: ● Altas/Bajas/Modificaciones/Consultas ● Consultas rápidas y escuetas ● Poco volumen de información ● Transacciones rápidas ● Gran nivel de concurrenciaCARRERA DEINGENIERÍADE SISTEMAS
  31. 31. DATAWAREHOUSE OLAP OLAP: On-Line Analytical Processing: Define el comportamiento de un sistema de análisis de datos y elaboración de información: ● Sólo Consulta ● Consultas pesadas y no predecibles ● Gran volumen de información histórica ● Operaciones lentasCARRERA DEINGENIERÍADE SISTEMAS
  32. 32. DATAWAREHOUSE OLAP OLAP: Datawarehouse de análisis ● Procesos de consolidación ● Cambio de tecnología de base de datos ● Sumarizan datos disgregados ● Transforman datos ● Consolidan datos de aplicaciones no integradasCARRERA DEINGENIERÍADE SISTEMAS
  33. 33. DATAWAREHOUSE OLAP ● Consistencia de consolidación ● Comprobar la validez de los datos en el entorno operacional ● Datos que no se usan ● Datos que no se mantienen ● Inconsistencia entre distintas aplicaciones dentro del sistema ● Datos no igualmente mantenidos ● Codificaciones diferentesCARRERA DEINGENIERÍADE SISTEMAS
  34. 34. DATAWAREHOUSE Arquitectura Data Warehouse Mecanismos de consolidación ● Refresco de datos: Volcado completo de los datos procedentes del sistema operacional ● Actualización de datos: Volcado incremental, tomando como criterio la fecha de operación ● Propagación de datos: Creación de logs en el entorno transaccional, los cuales se aplican en el entorno analíticoCARRERA DEINGENIERÍADE SISTEMAS
  35. 35. OLTP vs. OLAP DATAWAREHOUSE Características OLTP OLAP Tamaño BD GigaBytes Giga a TeraBytes Origen Datos Interno Interno y Externo Actualización On-Line Batch Periodos Actual Histórico Consultas Predecibles Ad Hoc Actividad Operacional AnalíticaCARRERA DEINGENIERÍADE SISTEMAS
  36. 36. DATAWAREHOUSE OLTP vs OLAP Todas estas divergencias hacen que no sea posible la convivencia en una única BD de los entornos OLAP y OLTP: ● Pérdida de rendimiento del entorno OLTP ● Falta de integración entre distintos aplicaciones OLTP ● Tecnologías de BD sin capacidad para soportar aplicaciones OLAP ● Incorporación de datos externos difícilmente aplicable a la BD OLTP ● Distribución de los datos no adecuada para análisis OLAPCARRERA DEINGENIERÍADE SISTEMAS
  37. 37. DATAWAREHOUSE Bases Datos OLAP Tipos de BD ● BD Relacional ● BD Multidimensional ● BD Híbrida ● BD OLAP (BD Relacional con funcionalidad OLAP)CARRERA DEINGENIERÍADE SISTEMAS
  38. 38. Herramientas OLAP DATAWAREHOUSE ● Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis. ● El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos. ● La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).CARRERA DEINGENIERÍADE SISTEMAS
  39. 39. DATAWAREHOUSE Data Warehouse y Data Minig ● Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. – se puede hacer minería de datos sobre un simple fichero de datos.CARRERA DEINGENIERÍADE SISTEMAS
  40. 40. DATAWAREHOUSE Data Warehouse y Data Minig ● Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: – tenemos grandes volúmenes de datos, o – éstos aumentan con el tiempo, o – provienen de fuentes heterogéneas o – se van a combinar de maneras arbitrarias y no predefinidas.CARRERA DEINGENIERÍADE SISTEMAS
  41. 41. DATAWAREHOUSE OLAP y Data Mining ● Las herramientas OLAP – proporcionan facilidades para “manejar” y “transformar” los datos. – producen otros “datos” (más agregados, combinados). – ayudan a analizar los datos porque producen diferentes vistas de los mismos.CARRERA DEINGENIERÍADE SISTEMAS
  42. 42. DATAWAREHOUSE OLAP y Data Mining ● Las herramientas de Minería de Datos: – son muy variadas: permiten “extraer” patrones, modelos, descubrir relaciones, regularidades, tendencias, etc. – producen “reglas” o “patrones” (“conocimiento”).CARRERA DEINGENIERÍADE SISTEMAS
  43. 43. DATAWAREHOUSE Conclusiones ● Los almacenes de datos y las técnicas OLAP son las maneras más efectivas y avanzadas para integrar, transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información.CARRERA DEINGENIERÍADE SISTEMAS
  44. 44. DATAWAREHOUSE Conclusiones ● La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque: – Podemos tener almacenes de datos sin OLAP y viceversa. ● Todos en la empresa son responsables, no el consultor. Todos lo implementan y todos lo aseguran.CARRERA DEINGENIERÍADE SISTEMAS
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×