• Save
Modelado de Data Warehouse
Upcoming SlideShare
Loading in...5
×
 

Modelado de Data Warehouse

on

  • 10,480 views

En esta presentación vemos los aspectos de modelado de Data Warehouse Teorico

En esta presentación vemos los aspectos de modelado de Data Warehouse Teorico
Saludos,

Eduardo Castro Martinez

Statistics

Views

Total Views
10,480
Views on SlideShare
9,400
Embed Views
1,080

Actions

Likes
10
Downloads
0
Comments
3

23 Embeds 1,080

http://ecastrom.blogspot.com 711
http://universosql.blogspot.com 96
http://ecastrom.blogspot.mx 76
http://ecastrom.blogspot.com.ar 41
http://ecastrom.blogspot.com.es 39
http://todosobresql.blogspot.com 34
http://186.46.137.34 21
http://www.aulauss.edu.pe 17
http://www.ecastrom.blogspot.com 10
http://sqlserverpedia.blogspot.com 8
http://universosql.blogspot.mx 6
http://static.slidesharecdn.com 4
http://todosobresql.blogspot.com.ar 4
http://todosobresql.blogspot.com.es 2
http://todosobresql.blogspot.mx 2
http://universosql.blogspot.com.ar 2
http://ecastrom.blogspot.ch 1
http://ecastrom.blogspot.com.au 1
http://www.sqlserverpedia.blogspot.com 1
http://todosobresql.blogspot.fr 1
https://m.facebook.com&_=1381965386111 HTTP 1
http://ecastrom.blogspot.kr 1
http://translate.googleusercontent.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • No se puede descargar?
    Are you sure you want to
    Your message goes here
    Processing…
  • bueno.
    Are you sure you want to
    Your message goes here
    Processing…
  • muy bueno
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Modelado de Data Warehouse Modelado de Data Warehouse Presentation Transcript

  • 1MODELADO DE LADATA WAREHOUSEDr. Eduardo Castro, MScecastro@simsasys.comhttp://ecastrom.blogspot.comhttp://comunidadwindows.orghttp://tiny.cc/comwindowsFacebook: ecastromTwitter: edocastro
  • 2Objetivos • Discutir las estructuras de datos del ambiente data warehouse • Discutir las fases del diseño de la BD Data warehouse • Definir el modelo de negocios • Definir el modelo dimensional • Definir el modelo físico
  • 3Modelado Dimensional
  • 4Problemas de Modelado• Diferentes tipos de Datos• Muchas formas de usar los datos warehouse• Muchas formas de estructurar los datos• Múltiples técnicas de modelado• Planificación de replicación• Grandes cantidades de datos
  • 5Estructuras de Datos• Tercera Forma Normal (3NF)• Esquema Estrella• Esquema de copo de nieve
  • 6Esquema Estrella Product Table Store Table Product_id Store_id Product_disc,... District_id,... Sales Fact Table Product_id Store_id Tabla de hechos Dimensiones centrales Item_id desnormalizadas Day_id Sales_amount Sales_units, ... Time Table Day_id Item Table Month_id Item_id Year_id,... Item_desc,...
  • 7Modelo de Copo de Nieve Store Table Product Table District Table Store_id Product_id District_id Store_desc Product_desc District_desc District_id Sales Fact Table Item_id Store_id Product_id Week_id Sales_amount Sales_units Time Table Item Table Dept Table Mgr Table Week_id Item_id Dept_id Dept_id Period_id Item_desc Dept_desc Mgr_id Year_id Dept_id Mgr_id Mgr_name
  • 8Modelo de Copo de Nieve (…Cont)• De uso directo por algunas herramientas• Más flexible al cambio• Provee una carga más rápida de datos• Puede volverse grande e inmanejable• Degrada el rendimiento de la consulta• Metadatos más complejos Country State County City
  • 9Fases de Diseño• Fase 1  Definir el modelo de negocios• Fase 2  Definir el modelo dimensional• Fase 3  Definir el modelo físico
  • 10Fase 1: Modelo de Negocio• Realizar análisis estratégico• Crear el modelo de negocio• Documentar los metadatos
  • 11Análisis Estratégico• Identificar los procesos cruciales del negocio• Entender los procesos del negocio• Prioriza y seleccionar los procesos de negocio a implementar Alta Beneficios del Negocio Baja Baja Viabilidad Alta
  • 12Crear el Modelo de Negocios• Definir los requerimientos del negocio: • Identificar las medidas del negocio • Identificar las dimensiones • Identificar del grano • Identificar las definiciones del negocio y reglas• Verificar las fuentes de los datos
  • 13Diseño de los procesos• Entrada primaria: Requirimientos del Negocio• Entrada secundaria: Metadatos Existentes Producción del Modelo ERD Investigación
  • 14Identificar Medidas y Dimensiones •El atributo varía continuamente: Medidas • Balance • Unidades Vendidas • Costo • Ventas Elatributo se percibe como una constante o discreto:  Producto Dimensiones  Ubicación  Tiempo  Tamaño
  • 15Matriz de Procesos de NegociosDimensiones Proceso de Negociode Negocio Ventas Devoluciones InventarioClienteFechaProductoCanalPromoción Ejemplo de la matriz de procesos de negocio
  • 16Determinar Granularidad Anual? Por Cuatrimestre? Mensual? Semanal? Diario?
  • 17Identificar la Reglas de Negocio Ubicación Producto Proximidad Tipo Monitor Estado Geográfica PC 15 pulg Nuevo 0 - 1 millas Servidor 17 pulg Reconstr 1 - 5 millas 19 pulg Personali > 5 millas Ninguna Tiempo Almacén Mensual > Almacén > Distrito > Cuatrimestre > Anual Región
  • 18Documentación de Metadatos• Documentación del diseño de los procesos• Documentación del proceso de desarrollo• Dar un registro de los cambios• Mejoras en el tiempo de grabación
  • 19Enfoques de Documentación de Metadatos• Automatizado • Herramientas de modelado de Datos • Herramientas ETL • Herramientas de usuario final• Manual
  • 20Fase 2: Modelo Dimensional• Identificar las tablas de hecho: • Traducir las medidas de negocio en tablas de hecho • Analizar la información fuente del sistema para medidas adicionales• Identificar las tablas de dimensión• Enlazar las tablas de hecho a las tablas de dimensión• Modelar la dimensión temporal
  • 21Características• Contiene métricas numéricas del negocio• Puede contener grandes volúmenes de datos• Puede crecer rápidamente• Puede contener datos base, derivados y resumidos• Son típicamente aditivos• Unidos a las tablas de dimensión a través de llaves foráneas que hacen referencia a llaves primarias de las tablas de dimensión
  • 22Características de Tablas de dimensión• Contiene información textual que representa los atributos del negocio• Contiene datos relativamente estáticos• Unidos a la tabla de hechos a través de refrencia de llave foránea
  • 23Características del Modelo Dimensional deEstrella• Fácil de entender para los usuarios• Llaves primarias representan una dimensión• Ninguna columna de llaves son valores• Hechos usualmente son altamente normalizados• Las dimensiones están completamente desnormalizadas• Brinda respuesta rápida a las consultas• Se mejora el rendimiento reduciendo los joins en las tablas• Muchas herramientas dan soporte
  • 24Tiempo en Data warehouse• Definición de estándares para el tiempo es crítico• La agregación basada en el tiempo es compleja
  • 25Tiempo de Dimensión• Una representación consistente del tiempo se requiere para la extensión Hechos de Tiempo de Ventas Dimensión ¿Dónde debería almacenarse el tiempo de dimensión?
  • 26Herramientas de Modelado de Datos• Las herramientas que tienen GUI permiten definición, modelado y reportes• Evitar una mezcla de técnicas de modelado, causadas por: • Presiones de desarrollo • Desarrolladores con falta de conocimiento • Sin estrategia• Determinar una estrategia• Escribir y publicar formalmente• Ponerlo disponible electrónicamente
  • 27Fase 3: Modelo Físico• Traducir el diseño dimensional en un modelo físico para implementación• Definir la estrategia de almacenamiento para tablas e índices• Realizar el dimensionamiento de la BD• Definir la estrategia inicial de indexado• Definir la estrategia de particionamiento• Actualizar el documento de metadatos con información física
  • 28Tareas de Diseño• Definir los estándares de nombrado y Base de Datos• Realizar el dimensionamiento de la BD• Desarrollar un estrategia inicial de indexado• Desarrollar un estrategia de particionamiento de datos• Definir los parámetros de almacenamiento• Usar el procesamiento en paralelo• Definir datos de resumen• Determinar la arquitectura del hardware
  • 29Convenciones de Nombres de BD• Desarrollar una lista razonable de abreviaturas• Listar los nombres de todos los objetos y trabajar con la comunidad de usuarios para definirlos• Resolver las disputas de nombres• Documentar los estándares de nombres en el documento de metadatos• Plan para la denominación de normas para ser un documento activo
  • 30Requerimientos de Arquitectura Escalabilidad Manejabilidad Disponibilidad Extensibilidad Flexibilidad Integración Usuario Negocio Presupuesto Tecnología
  • 31Estrategia para Definir Arquitectura• Obtener planes de arquitectura existentes• Obtener planes de capacidad existentes• Documentar las interfases existentes• Preparar el plan de capacitación• Preparar la arquitectura técnica• Documentar los requerimientos del SO• Desarrollar planes de recuperación• Desarrollar planes de control y seguridad• Crear la arquitectura• Crear asesoramiento para riegos técnicos
  • 32Requerimientos de Hardware• SMP• Cluster• MPP• NUMA• Híbridos (empleo de SMP y MPP)
  • 33La Elección Correcta• Los requerimientos difieren según el SO• Área Financiera: • Disponible para vendedores • Desarrollado por usted mismo • Uso de consultas realistas• La escalabilidad es importante
  • 34Consideraciones de Almacenaje yRendimiento• Dimensionamiento de la BD• Particionamiento de la BD • Horizontal • Vertical• Indexado • Árboles B • Bitmap • Bitmap-join• Optimización de consultas estrella • Transformación estrella
  • 35Dimensionar la BD• El tamaño influye en la capacidad de planeamiento y la administración del ambiente de sistemas• El dimensionamiento no es una ciencia exacta• La técnicas varían
  • 36Muestreo de Prueba de Carga• Asegura que los reflejos de la muestra: • Pruebe cargas para diferentes periodos • Operaciones de día a día • Datos de temporada y los peores escenarios • Índices y Resúmenes
  • 37Particionamiento• Romper los datos en unidades físicas separadas que se pueden manejar independientemente• Provee la facilidad de: • Reestructurar • Reorganizar • Remover • Recuperar • Monitorear • Adminstrar • Archivar • Indexar
  • 38Particionamiento Horizontal• Los datos de tabla e índices están divididos por: • Tiempo • Región de Ventas o persona • Geografía • Organización • Línea de negocios• Las columnas candidatas aparecen en la cláusula WHERE• El análisis determina requerimientos
  • 39Particionamiento Vertical• Lo puede usar cuando: • Para acelerar la consulta y acciones de actualización • Los usuarios requieren acceso a columnas específicas • Algunos datos se cambian con poca frecuencia • Texto de dimensión descriptiva es mejor que se aleje de la misma dimensión
  • 40Métodos de Particionamiento• Particionamiento de rango• Particionamiento de lista• Particionamiento hash• Particionamiento Compuesto: • Particionamiento compuesto de rango hash • Particionamiento compuesto de rango de lista• Particionamiento de Índice
  • 41Indexado• Se usa por las siguientes razones: • Enorme ahorro de costos, gran mejoría de rendimiento y escalabilidad • Se puede sustituir un cuadro completo de exploración de una rápida lectura del índice, seguida de una lectura única de los bloques de disco que contienen los registros necesarios
  • 42Índice Árbol B• Tipo más común de índice• Usado por columnas de alta cardinalidad• Diseñado para pocas filas devueltas
  • 43Índices Bitmap• Da beneficios de desempeño y ahorros de almacenamiento• Almacena valores como 1s y 0s• Use en lugar de los índices árboles B cuando: • Las tablas son muy grandes • Las columnas tienen relativamente baja cardinalidad
  • 44Índices Bitmap-Join• Para la unión de dos o más tablas: • Son nuevas en Oracle 9i • Proveen mejor desempeño y ahorro de almacenamiento
  • 45Optimización de la consulta Estrella• Ajustar las consultas estrella • Debe construirse un índice bitmap sobre cada llave foránea en la tabla de hechos • STAR_TRANFORMATION_ENABLE debe estar en TRUE • El optimizador basado en el costo debe usarse• Usar la transformación estrella
  • 46Transformación Estrella• Funcionan bien para esquemas con tablas de hechos de números pequeños de dimensiones y densidad• Dos fases: • La primera devuelve exactamente las filas necesarias de la tabla de hechos • La segunda fase, une este conjunto de resultados a las tablas de dimensión
  • 47Paralelismo P1 P2 P3 Tabla Ventas Tabla Clientes P1 P2 P3 Servidores en Ejecución Paralela
  • 48Uso de Datos Resumidos• Da los siguientes beneficios: • Brinda acceso rápido a datos preanalizados • Reduce el uso de E/S, CPU y memoria
  • 49Reescritura de Consultas – Oracle 9i Reescritura Generar Plan Generar Plan Elección (Basada en el costo) Ejecutar
  • 50Resumen• Existen diferentes estructuras de datos de Data warehouse• Existen tres modelos para esto: • Modelo de Negocios • Modelo Dimensional • Modelo Físico
  • 51Derechos de autor• Esta presentación está basada en el contenido de Gerardo Brenes
  • 52MODELADO DE LADATA WAREHOUSEDr. Eduardo Castro, MScecastro@simsasys.comhttp://ecastrom.blogspot.comhttp://comunidadwindows.orghttp://tiny.cc/comwindowsFacebook: ecastromTwitter: edocastro