5 Db2 Etl Cubos

3,336 views

Published on

Published in: Travel, Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,336
On SlideShare
0
From Embeds
0
Number of Embeds
752
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide
  • Clase del Miércoles 23 de Julio del 2008
  • 5 Db2 Etl Cubos

    1. 1. ETL y Cubos Sistemas de Bases de Datos II Notas elaboradas por: Franklin Parrales Bravo
    2. 2. Introducción(1/3) <ul><li>Existen algunos métodos para la sincronización de datos entre bases ubicadas en distintos lugares geográficos. </li></ul><ul><ul><li>Sincronización de Datos </li></ul></ul><ul><ul><li>Replicación </li></ul></ul><ul><ul><li>ETL(Extraction Tranform and load) </li></ul></ul><ul><ul><li>Modelo Multidimensional </li></ul></ul>
    3. 3. Introducción(2/3) <ul><li>La sincronización de Datos se daba entre bases homogéneas, es decir, entre iguales tipos de motores de bases de datos. </li></ul>DB Banco del Pacífico DB Tesorería ESPOL Acoplamiento Bases Homogéneas
    4. 4. Introducción(3/3) <ul><li>Con la Replicación se dio que la estructura o meta data de origen no puede tener la misma clave principal del destino , pero ya podía ser heterogénea. </li></ul>Físicamente y Lógicamente Lógicamente <ul><li>Conexión </li></ul><ul><li>Esquema </li></ul>
    5. 5. ETL <ul><li>ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and Load). Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. </li></ul>
    6. 6. Extraer <ul><li>Consiste en extraer los datos desde los sistemas de origen. </li></ul><ul><li>La mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. </li></ul><ul><li>Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. </li></ul>
    7. 7. Transformar(1/3) <ul><li>La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. </li></ul><ul><li>Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. </li></ul><ul><li>No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones: </li></ul>
    8. 8. Transformar(2/3) <ul><li>Seleccionar sólo ciertas columnas para su carga (Ej. que las columnas con valores nulos no se carguen). </li></ul><ul><li>Traducir códigos (Ej. Si la fuente almacena una &quot;H&quot; para Hombre y &quot;M&quot; para Mujer pero el destino tiene que guardar &quot;1&quot; para Hombre y &quot;2&quot; para Mujer). </li></ul><ul><li>Codificar valores libres (Ej. convertir &quot;Hombre&quot; en &quot;H&quot; o &quot;Sr&quot; en &quot;1&quot;). </li></ul><ul><li>Obtener nuevos valores calculados (Ej. total_venta = cantidad * precio). </li></ul><ul><li>Unir datos de múltiples fuentes (Ej. búsquedas, combinaciones, etc). </li></ul><ul><li>Calcular totales de múltiples filas de datos (Ej. ventas totales de cada región). </li></ul>
    9. 9. Transformar(3/3) <ul><li>Generación de campos clave en el destino. </li></ul><ul><li>Transponer o pivotar (girando múltiples columnas en filas o viceversa). </li></ul><ul><li>Dividir una columna en varias (Ej. columna &quot;Nombre: García, Miguel&quot;; pasar a dos columnas &quot;Nombre: Miguel&quot; y &quot;Apellido: García&quot;). </li></ul><ul><li>La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera: </li></ul><ul><ul><li>Datos OK: Entregar datos a la siguiente etapa (Carga). </li></ul></ul><ul><ul><li>Datos erróneos: Ejecutar políticas de tratamiento de excepciones (Ej. Rechazar el registro completo, dar al campo erróneo un valor nulo o un valor centinela). </li></ul></ul>
    10. 10. Carga(1/3) <ul><li>La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados en el sistema de destino. </li></ul><ul><li>Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la información antigua con nuevos datos. </li></ul>
    11. 11. Carga(2/3) <ul><li>Existen dos formas básicas de desarrollar el proceso de carga: </li></ul><ul><ul><li>Acumulación simple </li></ul></ul><ul><ul><li>Rolling </li></ul></ul>
    12. 12. Carga(3/3) <ul><li>La fase de carga interactúa directamente con la base de datos de destino. Al realizar esta operación se aplicarán todas las restricciones y triggers (disparadores) que se hayan definido en ésta (Ej. valores únicos, integridad referencial, campos obligatorios, rangos de valores). Estas restricciones y trigger (si están bien definidos) contribuyen a que se garantice la calidad de los datos en el proceso ETL, y deben ser tenidos en cuenta </li></ul>
    13. 13. Pero… ¿Qué es un Cubo? <ul><li>Cubo= Información de Datos->Data Warehouse </li></ul><ul><ul><li>Nombre maquillado de Sistemas Expertos </li></ul></ul><ul><ul><li>Cubo de Información </li></ul></ul>Balanced Score Card Estrategia Táctica Operación
    14. 14. Cubo <ul><li>Data Mart </li></ul>Datos Información Patrón Minería de Datos(Sistema Experto) Conocimiento
    15. 15. Cubo Dimensión: Producto Dimensión: Personas Dimensión: Ciudad Dimensión: Tiempo Tabla de Hecho (Fact Table) Id_Persona (Pk) Nombre Edad Id_Ciudad(fk) Persona Id_Ciudad(Pk) Nombre Ciudad Id_Producto (fk) Id_Persona (fk) Id_Dia (fk) VentaTotal MaxVenta Ventas Id_Productos (Pk) NombreXproducto Categoria Productos Id_Tiempo (pk) Dia (fk) DiaSemana Tiempo
    16. 16. Estructura multidimensional José Uvas Melones Q4 Q1 Q2 Q3 Dimensión: FECHA Dimensión: PRODUCTO Juan Luis Dimension: PERSONA Manzanas Cerezas Ana
    17. 17. Consulta Multidimensional Uvas Q4 Q1 Q2 Q3 Dimensión: FECHA Dimensión: PRODUCTO Juan Luis José Dimensión: PERSONA Manzanas Cerezas Ana Melones Suma Venta, Max Venta
    18. 18. Modelos de Cubos <ul><li>Cuando las dimensiones no tienen orden expansivo se llama modelo Estrella </li></ul><ul><li>Para el ejemplo anterior, en la tablas Persona y Ciudad existe conexión en el modelo y se lo llama Copos de Nieve </li></ul>Tabla de Hecho(Fact Table) Tabla de Hecho(Fact Table) Persona Ciudad
    19. 19. Consulta Multidimensional <ul><li>Lo que guarda el cubo son medidas o indicadores. </li></ul>Fuente de Datos ETL Id_Tiempo (fk) Dia (fk) DiaSemana Tiempo Convertir tiempo en tabla Data Mapping
    20. 20. Data Mapping idDia(lo saca del destino) diaSemana(lo calcula) Carga los valores 1/2/09 E 303 1/2/09 Domingo T Domingo L

    ×