Your SlideShare is downloading. ×
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
DATA WAREHOUSE
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

DATA WAREHOUSE

4,315

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
4,315
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
52
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. DATA WAREHOUSE Ing. Erick Espinoza Torpoco Ing. Hans Camayo Peña Ing. Markos, Jorge Gonzales Ing. Jesus, Conde Pérez Ing. Edson Pablo Morales
  • 2. INTRODUCCION Desde los inicios de la era de la computadora, las organizaciones ha usado los datos desde sus sistemas operacionales para entender sus necesidades de información. El data warehouse, es el centro de las grandes instituciones, por que provee un ambiente para que las organizaciones hagan un mejor uso de la información que esta siendo administrada por diversas aplicaciones operacionales. Data warehouse es una colección de datos en la cual se encuentra integrada la información, no volátil de tiempo variante que se usa como soporte para la toma de decisiones. Al reunir los elementos de datos apropiados desde diversas fuentes, simplifica el proceso de análisis y consultas de esta información en menos tiempo. Un data warehouse se crea al extraer la información desde una o más bases de datos, esta información es transformada para eliminar inconsistencias y luego es cargada en la datawarehouse. La innovación que se brinda dentro de un ambiente datawarehousing, puede permitir a cualquier organización hacer un uso optimo de los datos, y hacer la toma de decisiones mas efectiva. El data warehouse es siempre un almacén de datos transformados y separados de la aplicación o base de donde se encontraron.
  • 3. SISTEMAS DE INFORMACION ESTATREGICO TACTICO TECNICO-OPERATIVO INTERINSTUCIONAL
  • 4. SISTEMAS DE INFORMACION
    • ESTRATEGICO
    • Orientados a soportar la toma de decisiones, proporcionando un soporte básico.
    • Se caracterizan por que son sistemas si carga periódica de trabajo, su utilización no es predecible.
    • TACTICOS.
    • Diseñados para las actividades y manejo de la documentación, para consultas en el sistema, proporcionar informes, facilitar la gestión independiente por parte de los niveles intermedios de la organización.
    • SISTEMAS TECNICO-OPERATIVOS.
    • Operaciones tradicionales de captura masiva de datos. Y servicios básicos de tratamiento de datos (contabilidad, presupuestos, almacenes, personal etc).
    • SISTEMAS INTERINSTITUCIONALES
    • Es el ultimo nivel de sistemas de información, son como consecuencia del mercado global el cual obliga a implementar estructuras de comunicación entre la organización y el mercado. (Internet).
  • 5. CARACTERISTICAS
    • Datos operacionales.
    • Orientado a la aplicación.
    • Actual.
    • Detallada
    • Cambia continuamente.
    • Datos del negocio para información.
    • Orientado al sujeto.
    • Actual + histórico.
    • Detallada + resumida.
    • Estable.
    Los datos de un Warehouse difieren de los datos operacionales usados por las aplicaciones de producción. Base de datos Operacional Data Warehouse
  • 6. CARACTERISTICAS
    • ORIENTADO A TEMAS.
    • La información esta basada en los aspectos que son de interés para la empresa.
    • en el ambiente operacional, una aplicación puede ser clientes, productos y cuentas, la base de datos combina estos elementos en una estructura que acomoda para las necesidades de la aplicación, en ambiente data warehouse, se organiza alrededor de sujetos, como cliente, vendedor, producto y actividad.
    • La diferencia entre orientación a procesos y la orientación a temas, radica en el contenido del data a escala, el data warehouse excluye la información que no será usada por el proceso de toma de desiciones .
    • INTEGRADA
    • Es el aspecto más importante del ambiente datawarehousing siempre esta integrada.
    • La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de las variables, atributos físicos de los datos consistentes, fuentes múltiples y otros.
    • DE TIEMPO VARIANTE.
    • Toda la información del data warehouse es requerida en algún momento.
    • ESTABLE
    • La información es útil solo cuando es estable.
  • 7. ESTRUCTURA Detalle histórico de los datos Detalle actual Ligeramente resumido Altamente resumido
  • 8. ARQUITECTURA DE UN DATAWAREHOUSE Nos sirve para comprender como se relacionan los componentes involucrados en una estrategia de Datawarehouse. INTERFAZ ADMINISTRADOR DE CONSULTAS INTEGRADOR DATAWAREHOUSE EXTRACTOR / MONITOR EXTRACTOR / MONITOR FUENTE FUENTE
  • 9. ELEMENTOS CONSTITUYENTES DE UNA ARQUITECTURA DATAWAREHOUSE En la parte inferior de la figura se pueden ver las fuente s conectadas a un extractor / monitor . El extractor es el responsable de homogenizar la información. El monitor es el responsable de detectar los cambios que puedan ser realizados en las fuentes y reportarlos al integrador. El integrador recibe los resultados de los extractores y después de integrarlos, los carga al DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los datos, el esquema multidimensional del DW. El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para permitir su análisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construcción y explotación. La fase de construcción se refiere al diseño e implementación de herramientas encargados de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la información previamente. Un proceso posterior pero asociad a esta mis fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos al DW.
  • 10. En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del DW a través de técnicas que facilitan y hacen mas eficiente su consulta. Ya con el DW poblado lo ultimo es diseñar e implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindándole todas las ventajas del análisis de la información. MODELO MULTIDIMENSIONAL El modelo multidimensional describe la organización de la información en un DW. Define los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones. CONCEPTOS. Dimensión. Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el concepto de dimensión como el grado de libertad de movimiento en el espacio. Entenderemos esta libertad como el numero de direcciones ortogonales diferentes que podamos tomar.
  • 11. Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y continente.
    • Medida.
    • Una medida es un valor en un espacio multidimensional definido por dimensiones ortogonales. La medida es un dato numérico que representa la agregación de un conjunto de datos. Los datos son producidos como el resultado del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de medidas.
      • Snapshots: modelan entidades en un punto dado en el tiempo.
      • Eventos: modelan eventos del mundo real, con el grano mas fino.
      • Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo.
  • 12.
    • Dependiendo de sus propiedades podemos tener tres medidas:
      • Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo, “temperatura”, que puede estar dada por las dimensiones estación, región y fecha.
      • Semi-aditivas, pueden no ser combinadas a lo largo de una o mas dimensiones. Por ejemplo, “nomina” que puede estar dada por las dimensiones empleados y tiempo, pero no producto.
      • No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo, “cantidad de producto”, que únicamente puede estar dada por la dimensión producto.
    Cubo. Una instancia del modelo multidimensional, esquema multidimensional, es conocida como Cubo o hipercubo de n dimensiones. Cuando la gente observa los datos de un cubo de n dimensiones, es mas fácil interpretar la información que contiene dicho cubo, así como las distintas operaciones que se le pueden realizar.
  • 13. Para ejemplificar consideramos la existencia de una aplicación que realiza la venta de juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones producto, tiempo y región. La figura presenta el esquema multidimensional de un DW para la venta de productos que organiza un conjunto de medidas según las dimensiones REGION, TIEMPO y PRODUCTO. ESQUEMA MULTIDIMENSIONAL
  • 14. Cada dimensión tiene asociada una jerarquía de niveles que denota la granularidad de observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión REGION se organiza por Ciudad-Estado-Región-País. Así se puede observar la cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla. ESQUEMA DE REPRESENTACION Un esquema multidimensional puede instrumentarse usando un esquema relacional en estrella (Star Schema) o usando un esquema copo de nieve (Snow Flake Schema). Un esquema de estrella esta formado por una tabla para cada dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada tabla de dimensión como se puede apreciar en la sig. figura. ESQUEMA EN ESTRELLA Región Id Ciudad Nombre Dirección Región Tiempo Id Tiempo Fecha Producto Id Producto Descripción Marca Grupo Familia Tipo Precio Medida Id Producto Id Ciudad Id Tiempo unid vendidas
  • 15. En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones del ambiente de negocios, ya que tiene un acceso mas directos a los datos. Región Id Ciudad Nombre Dirección Tiempo Id Tiempo día Producto Id Producto Descripción Marca Tipo Precio Id Región Región Id Tiempo mes Id Tiempo año Id Grupo grupo Id Familia familia Medida Id Producto Id Ciudad Id Tiempo unid vendidas
  • 16. CONSTRUCCION Y MANTENIMIENTO DE UN DW CONSTRUCCIÓN. Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los datos y se comunican con un integrados que integra los datos con respecto al esquema del DW. La figura siguiente presenta la arquitecta del mecanismo de construcción de un DW que consiste en un conjunto de extractores asociados a las fuentes. Un extractor con la fuente para extraer la información y la transforma a una representación comprendida por un integrador. El extractor conoce el formato de las fuentes, el formato de representación de datos del DW, el protocolo de comunicación y la ubicación de ambos. INTEGRADOR DATAWAREHOUSE EXTRACTOR / MONITOR FUENTE FUENTE FUENTE EXTRACTOR / MONITOR EXTRACTOR / MONITOR
  • 17. El integrador integra la información y calcula los valores agregados con respecto al esquema del DW. Las tareas principales del integrador son: combinar los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW.
    • MANTENIMIENTO.
    • El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen dos formas de refrescar los datos:
      • La primera es llevar los datos al DW segundos después de que las fuentes fueron actualizadas.
      • La segunda es acumulando y almacenando los datos ya integrados y transformados, en un sitio intermedio para que de forma periódica pasar la información al DW.
      • El refrescado se puede realizar de manera incremental o recalculando todos los datos.
  • 18.
      • Primero, el volumen de datos almacenado en el DW es muy grande y crece cada vez mas.
      • Segundo, el refrescado deber ser accesible a los diferentes cambios de ejecución del DW.
      • Finalmente, el refrescado engloba transacciones que por lo regular acceden a múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos ya que producirían un alto nivel de agregación.
    El refrescado de un DW esta considerado como un problema difícil debido a las siguientes razones: EXPLOTACIÓN DE UN DW La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas nos referimos a la manipulación, análisis y visualización de la información que realiza el usuario sobre la información del DW. Para el análisis de los datos almacenados en el QW se utiliza la tecnología OLAP (On Line Analytical Proccesing). Esta tecnología cuenta con operadores tales como: Slice´n dice roll-up y drill down.
  • 19. Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW. En la sig. figura se observa un ejemplo en el que se restringe el resultado para analizar solo las ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla.
  • 20. Roll up agrega medidas que van de un nivel Ni a un nivel mas general Nj de una dimensión. Permite analizar la información a través de diferentes niveles de granularidad de las dimensiones. Drill down es la operación inversa. A partir de un nivel superior este operador permitir bajar de nivel. En la sig. figura se observa un claro ejemplo de cómo la dimensión tiempo cambia de nivel días a meses y viceversa.
  • 21. CONSIDERACIONES ADICIONALES AL CONSTRUIR EL DW
    • Niveles de Esquematización:
    • Altos : Indexados libremente Fácilmente Reestructurados.
    • Bajos : Indexados moderadamente Difícilmente Reestructurado.
    • DBMS: Sistemas de Gestión de Base de Datos. (Data Base Management Systems)
    • Partición de las Aplicaciones :
    • Partición DBMS: Automáticamente.
    • Partición de Aplicaciones; Solo los programadores conocen, y la responsabilidad de administrar es de ellos.
    • La Data Calculada Fuera del DW pero que es necesario para la corporación:
    • Ejemplo.
    • Rentas, gastos, ganancias, parámetros de construcciones de aviones, datos de seguridad. Etc.
    • Este detalle en ocasiones debe ser guardado por razones Legales o Éticas.
    • Conocidos en DW como Datos permanentes.
    • El medio debe ser seguro
    • Deben poder ser restaurados
    • Necesitan se indexados de manera especia.
    Excepciones en el DW.
  • 22. * Aplicación Piloto. - Una prueba limitada para medir el beneficio de manera clara ORGANIZACION DEL PROYECTO 1. Factores en la Planificación del DW. : * Asociación entre Usuarios, Gestores y Grupos. - Información que satisfaga los requerimientos de la empresa. - Selección de Herramientas. * Prototipos . - Verificar la necesidades del usuario durante el proceso de implementación. * Implementación Incremental. - Reduce riesgos y controla el tamaño del proyecto para que sea manejable. * Reportar y Publicar casos exitosos. - Publicidad interna de cómo le ayuda a la gente que ya lo utiliza
  • 23. * Primero. - Acceso fácil al directorio de datos y gestión del proceso. - Entrenamiento al usuario final. - Uso de las Instalaciones del DW. 2. Estrategias para el Desarrollo del DW. : Desarrollar un estrategia apropiada a las necesidades de los usuarios. * Segundo. - Construir una copia de los datos operacionales. Esto por si los datos existente son de mala calidad. * Tercero. - Seleccionar el numero de usuarios. - Construir prototipos para los usuarios final para poder experimentar o modificar su es necesario. - Cargar los datos de los sistemas existentes o de fuentes externas.
  • 24. * Se requiere en ocasiones una Reingeniería de Proceso del Negocio. 3. Estrategias para el Diseño del DW. : * Estrategia de diseño de afuera hacia adentro (outside-in). * Los usuarios no conocen sus requerimientos, como los usuarios operacionales. * Reconocer que el mantenimiento de la estructura del DW es critica. 4. Estrategias para la Gestión de un Diseño del DW. : * Esto solo es una buena inversión si los usuarios finales consiguen información vital y rápida.
  • 25. DESARROLLO DE UN PROYECTO. * Puede contener toda la infamación de la empresa desde su inicio, o tan limitado a un gerente durante un año. Almacenaje de un DW. * Estos significa que los usuarios finales pueden acceder a bases operacionales directamente, usando cualquier herramienta (red de acceso de datos). Virtual o Point to Point. * Se seleccionan donde hay necesidades comunes de información y un gran numero de usuarios. DW Centrales * Los componentes de deposito se distribuyen en un numero de bases de datos físicas diferentes. DW Distribuidos * Ejecutivos y gerentes * “Power users” o “Buzo de Información”. Analistas financieros, Ingenieros, * Usuarios de soporte. De oficinas, administrativos. Tipo De Usuario
  • 26. * Esta integrado por un servidor de Hardware * Los DBMS que conforman el dispositivo. (Sistemas de Gestión de Base de Batos.) 1) Arquitectura total del deposito. Estructura física de la base de datos de deposito. BLOQUES CLAVES DE CONSTRUCCIÓN. ELEMENTOS CLAVES PARA EL DESARROLLO. a) DW Integrado o centralizado; Las bases de datos separados son todos integrados y físicamente almacenados en la misma plataforma. Financiero Comercio Manufactura Distribución Mainframe Usuario Final Data Warehouse Corporativo Servidor Local
  • 27. b) Arquitectura Global; Los datos es consolidad lógicamente pero se almacena por separado sin las bases de datos físicamente relacionadas, en el mismo lugar físico. Financiero Comercio Manufactura Distribución Corporativo Data Warehouse Usuario Final
  • 28. c) Arquitectura por Niveles; Datos altamente resumidos en la 1er estación de trabajo del usuario, con resúmenes mas detallaos en el 2do. servidor y mas detallada en el 3er servidor. Financiero Comercio Manufactura Distribución Corporativo Data Warehouse Estación de Trabajo Modelos Complementarios de datos Nivel 1 Nivel 2 Nivel 3 Financiero Comercio Manufactura Distribución
  • 29. 2) Arquitectura del servidor. Estructura física de la base de datos de deposito. BLOQUES CLAVES DE CONSTRUCCIÓN. a) De un solo Servidor; Fácil de administrar pero con limitaciones de potencia de procesamiento y escalabilidad. b) Multiprocesamiento Simétrico (SMP); Adición de procesadores que comparten la memoria interna de los servidores y de los dispositivos de almacenaje del disco. c) Procesamiento en Paralelo Masivo (MMP); Conjunto de procesadores con un enlace de banda ancha y de alta velocidad. Cada modo es un servidor con su propio procesador SMP y memoria interna. d) Acceso de memoria no uniforme (NUMA); Se crea con una sola gran maquina SMP al conectar múltiples nodos en uno solo, ventajas en la gestión y simplicidad de un ambiente SMP.
  • 30. 3) Sistema de Gestión de Base de Datos. Los Relational Data Base Managment Systems (RDBMS); son muy flexibles cuando se usan con una estructura de datos normalizada y tienen la capacidad para efectuar consultas con un único objetivo concreto. BLOQUES CLAVES DE CONSTRUCCIÓN. Base Normalizada, las estructura de datos son No Redundantes y que representan las entidades básicas. Los modelos super relacionados soportan extensiones para almacenar formatos, operaciones y diagramas indexacion especializados.
  • 31. BIBLIOGRAFIA Data Wareahousing (http://porgramacion.com/bbdd/tutorial/warehouse/ GRACIAS

×