Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Upcoming SlideShare
Loading in...5
×
 

Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

on

  • 1,613 views

 

Statistics

Views

Total Views
1,613
Views on SlideShare
1,613
Embed Views
0

Actions

Likes
4
Downloads
117
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse Presentation Transcript

    • DATAWAREHOUSE Datawarehouse Data Warehouse FundamentosCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Agenda ● Introducción – Problemas ● Data Warehouse. – Características. – Componentes. – Ventajas. – Problemas. ● OLTP vesrsus Data Warehouse. ● Arquitectura de un Data WarehouseCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Agenda ● Data Mart. ● Diseño de un Datawarehouse. ● OLTP y OLAP – Comparación con OLTP versus OLAP. – Herramientas OLAP – Base de Datos OLAP ● DataWarehouse y Data Mining ● OLAPy Data Mining ●CARRERA DE ConclusionesINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Introducción • La información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. • Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Introducción ● Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). ● Uso de la base de datos transaccional para: – Se mantiene el trabajo transaccional diario de los sistemas de información originales (OLTP, On-Line Transactional Processing). – Se hace análisis de los datos en tiempo real sobre la misma base de datos (OLAP, On-Line Analytical Processing).CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Introducción ● Problemas: – Perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana. – La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Introducción ● Se desea operar eficientemente con esos datos... – Costes de almacenamiento y conectividad se han reducido en últimos años, ● Parece razonable recoger los datos (información histórica) en un sistema separado y específico. – Data warehouses (Almacenes o Bodegas de Datos) – Nace Data-Warehousing.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Data Warehouse Repositorio completo de datos de la empresa, donde se almacenan datos estratégicos, tácticos y operativos, con el objeto de obtener información estratégica y táctica.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Data Warehouse ● El almacén de datos es ahora el “sistema de información central” en todo este proceso. ● Un almacén de datos es una colección de datos: – orientada a un dominio – integrada – no volátil – variante en el tiempo ● Para ayudar en la toma de decisiones.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Data Warehouse Almacenes de Datos (AD) (data warehouse) Disponer de Sistemas de Información de apoyo a la toma de decisiones* Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización Análisis de la Previsiones de Diseño de Organización evolución estratégias * DSS: Decision Support SystemsCARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Almacenes de datos Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de datos de los sistemas operacionales. Sistema Operacional BD orientada al (OLTP) proceso Sistema de Almacén de BD orientada al Datos análisis (DW)CARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Almacenes de Datos definición Colección de datos diseñada para dar apoyo a los procesos de toma de decisiones características orientada hacia integrada variable en no volátil la información* el tiempo relevante de la organización * subject oriented, not process orientedCARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Se diseña para consultar eficientemente Orientado hacia la información información relativa a las actividades relevante de la (ventas, compras, producción, ...) básicas organización de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc). Base de Datos Transaccional PAÍS GAMA CURSO ... ... ... VENTA Información REUNION ... Necesaria ... PRODUCTO PROTOTIPO ... ...CARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Integra datos recogidos de diferentes Integrado sistemas operacionales de la organización (y/o fuentes externas). Fuente de Datos 3 Fuente de Datos 1 Fuente de Datos 2 texto HTML Base de Datos Transaccional 1 Fuentes Externas Fuentes Internas Base de Datos Transaccional 2 Almacén de DatosCARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Los datos son relativos a un periodo Variable en de tiempo y deben ser incrementados el tiempo periódicamente. Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo. Tiempo Datos 01/2003 Datos de Enero 02/2003 Datos de Febrero 03/2003 Datos de MarzoCARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Los datos almacenados no son No volátil actualizados, sólo son incrementados. Carga Bases de datos operacionales Almacén de Datos INSERT READ READ UPDATE DELETE El periodo de tiempo cubierto por un AD varía entre 2 y 10 años.CARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Almacenes de Datos ventajas para las organizaciones Rentabilidad de las Aumento de la Aumento de la inversiones competitividad productividad de los realizadas para su en el mercado técnicos de dirección creaciónCARRERA DEINGENIERÍADE SISTEMAS
    • Data Warehouse DATAWAREHOUSE Almacenes de Datos problemas Privacidad de los datos Infravaloración del Incremento continuo esfuerzo necesario de los requisitos de para su diseño y los usuarios creación Infravaloración de los recursos necesarios para la captura, transformación carga y almacenamiento de los datosCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLTP versus Data Warehouse Sistema Operacional (OLTP) Almacén de datos (DW) almacena datos actuales almacena datos históricos almacena datos de detalle almacena datos de detalle bases de datos medianas (100Mb-1Gb) bases de datos grandes (100Gb-1Tb) los datos son dinámicos (actualizables) los datos son estáticos los procesos (transacciones) son repetitivos los procesos no son previsibles el número de transacciones es elevado el número de transacciones es bajo o medio tiempo de respuesta pequeño (segundos) tiempo de respuesta variable (segundos-horas) dedicado al procesamiento de transacciones dedicado al análisis de datos orientado a los procesos de la organización orientado a la información relevante soporta decisiones diarias soporta decisiones estratégicas sirve a muchos usuarios (administrativos) sirve a técnicos de direcciónCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Arquitectura de un Data Warehouse • La Arquitectura de un data warehouse viene determinada por su situación central como fuente de información para las herramientas de análisis. Fuentes Herramientas de Internas consultas e informes Base de Datos Transaccional Herramientas EIS Almacén de Interfaz y ETL Operadores Datos Fuente de Datos 1 Herramientas texto OLAP Fuente de Datos 3 HTML Copias de Seguridad Herramientas de Fuente de Fuentes Minería de Datos Datos ExternasCARRERA DEINGENIERÍADE SISTEMAS
    • Arquitectura de un Data Warehouse DATAWAREHOUSE • Componentes: • Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del Data Warehouse, realizando: • Extracción de los datos. • Filtrado de los datos: limpieza, consolidación, etc. • Carga inicial del almacén: ordenación, agregaciones, etc. • Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos.CARRERA DEINGENIERÍADE SISTEMAS
    • Arquitectura de un Data Warehouse DATAWAREHOUSE • Componentes: • Repositorio Propio de Datos: información relevante, metadatos. • Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). • Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...CARRERA DEINGENIERÍADE SISTEMAS
    • Arquitectura de un Data Warehouse DATAWAREHOUSE • Organización (Externa) de los datos… Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos. Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.CARRERA DEINGENIERÍADE SISTEMAS
    • Arquitectura de un Data Warehouse DATAWAREHOUSE EJEMPLO Organización: Cadena de supermercados. Actividad objeto de análisis: ventas de productos. Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.” Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.CARRERA DEINGENIERÍADE SISTEMAS
    • Arquitectura de un Data Warehouse DATAWAREHOUSE Marca Descripción Semana Categoría Departamento Mes Nro_producto Trimestre Día as Tipo Año nt Ve importe unidades Almacén Ciudad Tipo RegiónCARRERA DEINGENIERÍADE SISTEMAS
    • Arquitectura de un Data Warehouse DATAWAREHOUSE Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Marca Producto Descripción Semana Categoría Departamento Mes Día Trimestre Nro_producto as Tipo Año nt Ve importe unidades Almacén Ciudad Almacén Tipo Actividad que es objeto de análisis con los indicadores Región que interesa analizarCARRERA DEINGENIERÍADE SISTEMAS
    • Arquitectura de un Data Warehouse DATAWAREHOUSE • El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales. Subconjunto de un almacén de Data mart datos, generalmente en forma de estrella o copo de nieve. Se definen para satisfacer las necesidades de un departamento o sección de la organización. Contiene menos información de detalle y más información agregada.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Data Mart Repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica.CARRERA DEINGENIERÍADE SISTEMAS
    • Diseño de un Data Warehouse DATAWAREHOUSE Recogida y análisis de requisitos Diseño conceptual Diseño lógico específico Diseño físico ImplementaciónCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLTP OLTP (On-Line Transaction Processing): Define el comportamiento habitual de un entorno operacional de gestión: ● Altas/Bajas/Modificaciones/Consultas ● Consultas rápidas y escuetas ● Poco volumen de información ● Transacciones rápidas ● Gran nivel de concurrenciaCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLAP OLAP: On-Line Analytical Processing: Define el comportamiento de un sistema de análisis de datos y elaboración de información: ● Sólo Consulta ● Consultas pesadas y no predecibles ● Gran volumen de información histórica ● Operaciones lentasCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLAP OLAP: Datawarehouse de análisis ● Procesos de consolidación ● Cambio de tecnología de base de datos ● Sumarizan datos disgregados ● Transforman datos ● Consolidan datos de aplicaciones no integradasCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLAP ● Consistencia de consolidación ● Comprobar la validez de los datos en el entorno operacional ● Datos que no se usan ● Datos que no se mantienen ● Inconsistencia entre distintas aplicaciones dentro del sistema ● Datos no igualmente mantenidos ● Codificaciones diferentesCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Arquitectura Data Warehouse Mecanismos de consolidación ● Refresco de datos: Volcado completo de los datos procedentes del sistema operacional ● Actualización de datos: Volcado incremental, tomando como criterio la fecha de operación ● Propagación de datos: Creación de logs en el entorno transaccional, los cuales se aplican en el entorno analíticoCARRERA DEINGENIERÍADE SISTEMAS
    • OLTP vs. OLAP DATAWAREHOUSE Características OLTP OLAP Tamaño BD GigaBytes Giga a TeraBytes Origen Datos Interno Interno y Externo Actualización On-Line Batch Periodos Actual Histórico Consultas Predecibles Ad Hoc Actividad Operacional AnalíticaCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLTP vs OLAP Todas estas divergencias hacen que no sea posible la convivencia en una única BD de los entornos OLAP y OLTP: ● Pérdida de rendimiento del entorno OLTP ● Falta de integración entre distintos aplicaciones OLTP ● Tecnologías de BD sin capacidad para soportar aplicaciones OLAP ● Incorporación de datos externos difícilmente aplicable a la BD OLTP ● Distribución de los datos no adecuada para análisis OLAPCARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Bases Datos OLAP Tipos de BD ● BD Relacional ● BD Multidimensional ● BD Híbrida ● BD OLAP (BD Relacional con funcionalidad OLAP)CARRERA DEINGENIERÍADE SISTEMAS
    • Herramientas OLAP DATAWAREHOUSE ● Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis. ● El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos. ● La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Data Warehouse y Data Minig ● Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. – se puede hacer minería de datos sobre un simple fichero de datos.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Data Warehouse y Data Minig ● Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: – tenemos grandes volúmenes de datos, o – éstos aumentan con el tiempo, o – provienen de fuentes heterogéneas o – se van a combinar de maneras arbitrarias y no predefinidas.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLAP y Data Mining ● Las herramientas OLAP – proporcionan facilidades para “manejar” y “transformar” los datos. – producen otros “datos” (más agregados, combinados). – ayudan a analizar los datos porque producen diferentes vistas de los mismos.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE OLAP y Data Mining ● Las herramientas de Minería de Datos: – son muy variadas: permiten “extraer” patrones, modelos, descubrir relaciones, regularidades, tendencias, etc. – producen “reglas” o “patrones” (“conocimiento”).CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Conclusiones ● Los almacenes de datos y las técnicas OLAP son las maneras más efectivas y avanzadas para integrar, transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información.CARRERA DEINGENIERÍADE SISTEMAS
    • DATAWAREHOUSE Conclusiones ● La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque: – Podemos tener almacenes de datos sin OLAP y viceversa. ● Todos en la empresa son responsables, no el consultor. Todos lo implementan y todos lo aseguran.CARRERA DEINGENIERÍADE SISTEMAS