• Like
DATAWAREHOUSE
Upcoming SlideShare
Loading in...5
×

DATAWAREHOUSE

  • 42,171 views
Uploaded on

soporte para la toma de decisiones estrategicas.

soporte para la toma de decisiones estrategicas.

More in: Technology , Business
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
No Downloads

Views

Total Views
42,171
On Slideshare
0
From Embeds
0
Number of Embeds
6

Actions

Shares
Downloads
2,329
Comments
7
Likes
24

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Administración de las Tecnologías de la Información Data Mining
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información
  • Data Mining Administración de las Tecnologías de la Información

Transcript

  • 1.
    • Alumnos:
        • Jeri Sandoval, Roberto
        • Rosales Buiza John
        • Segovia Herrera Néstor
        • Robles Rodriguez Isaac
    Data Warehouse 27/11/09 Administración de las Tecnologías de la Información FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS
  • 2. Definiciones de Data Warehouse
    • Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo
    • Bill H. Inmon
    • "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis“ o"la unión de todos los Data marts de una entidad“
    • Ralph Kimball
    • “ Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”
    • Susan Osterfeldt
    27/11/09 Administración de las Tecnologías de la Información
  • 3. Objetivos
    • Hacer la información de la organización accesible
    • Hacer a la información de la organización consistente
    • Controlar el acceso efectivo a los datos
    • Generar información de manera flexible
    • Servir de ayuda a la toma de decisiones
    27/11/09 Administración de las Tecnologías de la Información
  • 4. En resumen
    • Un Data Warehouse tiene como objetivo almacenar y proveer a la Organización de información relevante y a tiempo
    27/11/09 Administración de las Tecnologías de la Información
  • 5. Importancia del Data Warehouse
    • Mejorar la Entrega de Información: .
    • Mejorar el Proceso de Toma de Decisiones
    • Impacto Positivo sobre los Procesos Empresariales
    27/11/09 Administración de las Tecnologías de la Información
  • 6. A pensar antes de implementar un Data Warehouse
    • La amplitud; el número de diferentes temas y puntos de foco
    • Fuentes que proveerán datos brutos.
    • Los medios por los cuales los datos se transportan de las aplicaciones fuente y son cargados al Data Warehouse.
    • Las reglas de negocio que se aplican a la data en bruto para producir activos de datos de alta calidad.
    • Las bases de datos receptoras, en la que estos activos de datos serán almacenados.
    • Los activos de datos; los elementos, el nivel de detalle de cada elemento, y cuánta historia se ha mantenido, por ejemplo.
    • La Inteligencia de negocio
    • Herramientas de nivel usuario para acceder a los activos de datos.
    • La arquitectura y complejidad en general del entorno.
    27/11/09 Administración de las Tecnologías de la Información
  • 7. Empresas que usan DATA WAREHOUSE
    • Royal bank of canada
    • Paypal
    • 3M
    • Coca-Cola Company
    • Verizon
    • Ford Motor Company
    • Herramientas de nivel usuario para acceder a los activos de datos.
    • La arquitectura y complejidad en general del entorno.
    27/11/09 Administración de las Tecnologías de la Información
  • 8. 27/11/09 Administración de las Tecnologías de la Información
  • 9. Productos (suites) de DATA WAREHOUSE y BI
    • IBM Cognos
    • http://www-01.ibm.com/software/data/cognos/
    • Teradata
    • http://www.teradata.com
    • Oracle Hyperion
    • http://www.oracle.com/hyperion/index.html
    • MicroStrategy
    • http://www.strategy.com
    • SAS
    • http://www.sas.com
    27/11/09 Administración de las Tecnologías de la Información
  • 10. Características de un Data Warehouse
    • Orientado a un tema
    • Administra grandes cantidades de información
    • Guarda información en diversos medios de almacenamiento
    • Comprende múltiples versiones de uno (o varios) esquema de base de datos
    • Condensa y agrega información
    • Integra y asocia información de muchas fuentes
    27/11/09 Administración de las Tecnologías de la Información
  • 11. Diferencias entre un sistema de Data Warehouse y aplicaciones tradicionales 27/11/09 Administración de las Tecnologías de la Información SISTEMAS TRADICIONALES DATAWAREHOUSE
    • Predomina la actualización.
    • Actividad operativa (día a día).
    • Proceso puntual.
    • Estabilidad.
    • Datos desagregados.
    • Dato actual.
    • Respuesta de la transacción inmediata.
    • Estructura relacional.
    • Usuarios de perfiles bajos.
    • Explotación de la información relacionada con operatividad de cada aplicación
    • Predomina la consulta
    • Análisis y decisión estratégica.
    • Proceso masivo.
    • Dinamismo.
    • Niveles de detalle/agregación.
    • Dato histórico.
    • Respuesta masiva
    • Estructura Multidimensional
    • Usuarios de perfiles altos.
    • Explotación de información interna y externa relacionada con el negocio.
  • 12. Metodologías de Diseño de Data Warehouse
    • Metodología de Inmon (Top – Bottom)
    27/11/09 Administración de las Tecnologías de la Información
  • 13. Metodología de Kimball (Bottom-up) 27/11/09 Administración de las Tecnologías de la Información
  • 14. Metodología agil para la implementación de un dw 27/11/09 Administración de las Tecnologías de la Información
  • 15. Page Arquitectura de un Data Warehouse 27/11/09 Administración de las Tecnologías de la Información
  • 16. Production systems Other sources CRM Billing Activation systems Other DBs… Files ETL DataWarehouse OLAP cubes Business Users Querying & Reporting tools Acquisition Storage / Archiving Restitution Datamarts Flujo de Datos de un DW 27/11/09 Administración de las Tecnologías de la Información
  • 17. Page
    • Base de datos operacional / Nivel de base de datos externo.
    • Nivel de acceso a los datos
    • Nivel de organización de datos
    • Nivel de data warehouse
    • Nivel de acceso a la información
    • Nivel de gestión de proceso
    Arquitectura de un Data Warehouse 27/11/09 Administración de las Tecnologías de la Información
  • 18. Page
    • Base de datos operacional / Nivel de base de datos externo (Fuentes de datos)
    • Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas, tales como ERPs, SCMs, también se procesa información de fuentes de datos externas, tales como de la internet, INEI, BCRP.
    • Nivel de acceso a los datos
    • Es responsable de la interfaces entre las herramientas de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita para realizar estas interfases se utiliza el SQL (Standar Query Lenguaje)
    Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
  • 19. Page
    • Nivel de organización de datos
    • El componente final de la arquitectura data Warehouse es la organización de los datos, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas
    • Nivel de data warehouse
    • En un data Warehouse físico, el almacenaje de data procesada, incluso en forma redundante
    Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
  • 20. Page
    • Nivel de acceso a la información
    • Este nivel se incluye el hardware y software involucrados en representar y proveer de información al usuario final normalmente usa día a día. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.
    • Nivel de gestión de proceso
    • El nivel de gestión de procesos tiene que ver con la programación de diversas tareas que deben realizarse para construir y mantener actualizado el data warehouse y la información del directorio de datos.
    Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
  • 21. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
    • 1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE
    • Establecer una asociación de usuarios, gestión y grupos
    • Construir prototipos rápida y frecuentemente
    • Implementación incremental
    • Reportar activamente y publicar los casos exitosos
    Administración de las Tecnologías de la Información Fase 1: Organización 27/11/09
  • 22. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
    • 2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE
    Administración de las Tecnologías de la Información ¿Quién es el auditorio? ¿Cuál es el alcance? ¿Qué tipo de data warehouse debería construirse? 1ra.: Establecer un ambiente "data warehouse virtual“. 2da.: Construir una copia de los datos operacionales desde un sistema operacional único y posibilitar al data warehouse de una serie de herramientas de acceso a la información. 3ra.: Finalmente, la estrategia data warehousing óptima es seleccionar el número de usuarios basados en el valor de la empresa y hacer un análisis de sus puntos, preguntas y necesidades de acceso a datos. 27/11/09
  • 23. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 3 ESTRATEGIAS PARA EL DISEÑO DE UN DATA WAREHOUSE 1ra. : Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales. 2da.: El diseño de un data warehouse, con frecuencia involucra lo que se piensa en términos más amplios y con conceptos del negocio más difíciles de definir que en el diseño de un sistema operacional. Al respecto, un data warehouse está bastante cerca a Reingeniería de los Procesos del Negocio (Business Process Reengineering). 3ra.: Finalmente, la estrategia de diseño ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down). 27/11/09
  • 24. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE 1ra.: Un data warehouse es una inversión buena sólo si los usuarios finales realmente pueden conseguir información vital más rápida y más barata de lo que obtienen con la tecnología actual. 2da.: La administración debe reconocer que el mantenimiento de la estructura del data warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de misión-crítica. 3ra.: La gestión debe comprender también que si se embarcan sobre un programa data warehousing, se crearán nuevas demandas sobre sus sistemas operacionales, que son: Demandas para mejorar datos Demandas para una data consistente Demandas para diferentes tipos de datos, etc. 27/11/09
  • 25. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información
    • Se ha reconocido los beneficios del procesamiento analítico en línea (On Line Analytical Processing - OLAP), más allá de las áreas tradicionales de marketing y finanzas.
    • El crecimiento de la computación cliente/servidor, ha creado servidores de hardware y software más poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnológicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas.
    Fase 2: Desarrollo 1. ¿PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE? 27/11/09
  • 26. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE
    • Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas:
    • Alcance de un data warehouse
    • Redundancia de datos
    • Tipo de usuario final
    27/11/09
  • 27. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE
    • Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difíciles de trabajar en su entorno, costoso para arreglar y difícil de justificar.
    • Para conseguir que la implementación del depósito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construcción:
    • Arquitectura total del depósito
    • Arquitecturas del servidor
    • Sistemas de Gestión de Base de Dato
    • Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas:
    • Alcance de un data warehouse
    • Redundancia de datos
    • Tipo de usuario final
    27/11/09
  • 28. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 4 CONFIABILIDAD DE LOS DATOS
    • La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad.
    • No importa cómo esté diseñado un programa o cuán hábilmente se use. Si se alimenta mala información, se obtendrá resultados incorrectos o falsos.
    • Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de línea comercial operacionales pueden ser basura en lo que concierne a la aplicación data warehousing
    27/11/09
  • 29. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA WAREHOUSE
    • La data sucia es un serio peligro para el éxito de un proyecto de data warehouse. Dependiendo del alcance del problema, simplemente podría no ser posible dirigirlo rápidamente y abaratarlo. Los principales factores son:
      • El tiempo que toma la programación interna
      • El costo de las herramientas
    • Los gerentes de proyectos de Data Warehouse necesitan evaluar el problema con realismo, los recursos internos disponibles para distribuirlos y seleccionar la solución que se adapte a la planilla y presupuesto del proyecto, o modificar la planilla y el presupuesto para solucionar el problema.
    27/11/09
  • 30. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información
    • Proyecto Total o Proyecto en Fases
    • Es más viable el desarrollo de un proyecto en fases que produzcan resultados a corto plazo que el desarrollo de un proyecto que entregue resultados al término de varios años. Por ello, el proyecto debe estar centrado en un área o un proceso.
    • Modelo lógico de datos
    • El modelo lógico de datos debe tener un alcance más alto y cubrir todas las áreas de interés, así como los procesos más estratégicos de cada una de ellas.
    • Proyecto Especializado o Proyecto Base
    • Decidir sobre qué tipo de proyecto, es algo complicado. Un proyecto especializado soporta directamente un proceso específico, por ejemplo: retención de clientes.
    • Un proyecto base entrega capacidad genérica de análisis a todos los usuarios que tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la solución de un problema específico o el soporte especializado de un proceso específico.
    FASE 3: IMPLEMENTACION 1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION 27/11/09
  • 31. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION
    • Identificar el problema en el cual el uso estratégico de la información detallada, permita conseguir una solución para generar una ventaja competitiva o un ahorro de costos.
    • Definir el modelo lógico de datos a implementar para resolver el problema planteado.
    27/11/09
  • 32. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 3 ESTRATEGIAS EN LA IMPLEMENTACION
    • Definir el mejor diseño físico para el modelo de datos. El diseño físico debe estar orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia del modelo lógico que está orientado al usuario y a la facilidad de consulta.
    • Definir los procesos de extracción, filtro, transformación de información y carga de datos que se deben implementar para poblar ese modelo de datos.
    • Definir los procesos de administración de la información que permanece en el data warehouse
    • Definir las formas de consultas a la información del data warehouse que se le proporcionará al usuario. Para ésto, debe considerarse la necesidad de resolver un problema y la potencia de consulta.
    • Completar el modelo de consulta base, relativo al área seleccionada.
    • Implementar los procesos estratégicos del área de trabajo, es decir, implementar herramientas especializadas de scoring, herramientas especializadas para inducción de conocimiento (Data Mining), etc.
    • Completar las áreas de interés, en forma similar a lo descrito anteriormente.
    27/11/09
  • 33. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información
    • ¿Qué clases de costos excedieron el presupuesto en más del 10% en cada uno de los 12 meses pasados?
    • ¿Se aumentaron los presupuestos en más de 5% para cualquier área dentro de los últimos 18 meses?
    • ¿Cómo especificar las clases de gasto entre diferentes departamentos? ¿Entre divisiones? ¿A través de las regiones geográficas?
    • ¿Cómo tener márgenes de operación sobre los dos últimos años en cada área de negocio? Donde han disminuido los márgenes, ¿se han incrementado los costos?
    FASE 4: EVALUACION 1 EVALUACION DE RENDIMIENTO DE LA INVERSION 27/11/09
  • 34. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información CASO PRACTICO
    • En un estudio encargado por 20 vendedores y consultores, se encontró un Retorno Promedio Total de la inversión (Return On Investment-ROI) de 401%.También, se excluyeron los proyectos fracasados, así como los ejecutados excepcionalmente, tanto buenos como malos.
    27/11/09 2.2 Millones Costo promedio 2.3 Años Período de reembolso promedio 160% ROI mediano 533% ROI promedio del modelo complementario de datos 322% ROI promedio del proyecto más grande 401% ROI promedio total CAMBIOS DE VALOR
  • 35. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 1.1 COSTOS Y BENEFICIOS
    • Costos preliminares
    • Planificación
    • Diseño
    • Modelamiento /Ingeniería de Información
    • Costos iniciales
    • Plataforma de hardware
    • Software de base de datos
    • Costos en procesamiento
    • Mantenimiento de datos
    • Desarrollo de aplicaciones
    • Capacitación y soporte
    • Beneficios Tácticos
    • Impresión y emisión de reporte reducido
    • Demanda reducida para consultas de clientes
      • Entrega más rápida de información a los usuarios
    • Beneficios Estratégicos (Potencialidad)
    • Aplicaciones y herramientas de acceso para los usuarios finales
    • Decisiones con mayor información
    • Toma de decisiones más rápida
    • Capacidad de soporte a la información organizacional
    27/11/09
  • 36. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 2 BENEFICIOS A OBTENER
    • Para la Empresa
    • El data warehouse hace lo posible por aprovechar el valor potencial enorme de los recursos de información de la empresa y volver ese valor potencial en valor verdadero.
    • Para los Usuarios
    • El data warehouse extiende el alcance de la información para que puedan accesar directamente en línea, lo que a la vez contribuye en su capacidad para operar con mayor efectividad las tareas rutinarias o no.
    • Para la Organización en Tecnologías de Información El data warehouse enriquece las capacidades del usuario autosuficiente y hace lo factible para ofrecer nuevos servicios a los usuarios, sin interferir con las aplicaciones cotidianas de producción
    27/11/09
  • 37. Importante: El Modelo de Datos Es el modelo por el cual se diseña el esquema de funcionamiento de la Base de Datos que provee al Data Warehouse. Existen varios enfoques en este sentido: Fábrica de información corporativa (CIF): incluyen ODS, data warehouse y data marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional, fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa   Esquema en estrella: Este método replica las estructuras multidimensionales de hechos y dimensiones, pero usa tablas de RDBMS, específicamente tablas de hechos y tablas de dimensiones. Se dejan de lado las reglas de normalización de base de datos y se ponen los datos donde tienen más sentido   Data vault (Arquitectura de modelado fundacional común -CFIMA): Esta es una arquitectura de integración de datos que contiene una base de datos orientada al detalle que contiene un conjunto de tablas normalizadas únicamente enlazadas que soportan una o más áreas funcionales de las tablas de negocio con tablas satélites para rastrear cambios históricos. Este enfoque híbrido reúne lo mejor del cruce entre la tercera forma normal (3NF) 27/11/09 Administración de las Tecnologías de la Información
  • 38. Page DATA WAREHOUSE VS BD OPERACIONAL 27/11/09 Administración de las Tecnologías de la Información Uso de Base de Datos Operacionales Uso de Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas predefinidas y actualizables Consultas complejas, frecuentemente no anticipadas. Cantidades pequeñas de datos resumidas. Cantidades grandes de datos resumidas. Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos
  • 39. Modelo de Estrella 27/11/09 Administración de las Tecnologías de la Información
  • 40. Extracción, Transformación y Carga
    • Extracción
      • Multiples Fuentes
      • Orientadas a trabajo Batch : cagas de estos sistemas son más fuertes cuando los sistemas de producción tienen poca carga
      • Conectvidad a diferentes tecnologías, diferentes manejadores de BDs
    • Transformación
      • Manipulación de data compleja
      • Reunión de diferentes fuentes
      • Implementación de reglas de negocio
      • Limpiado, ordenado, eliminación de duplicidades
      • Optimizado para el desempeño y para grandes volúmenes
    • Carga
      • Cargar la data en tablas de hechos y dimensiones
      • Produce un historial en archivos o en la BD para trazabilidad
    • Otros
      • Controla los flujos de ejecución: maneja las dependencias entre tareas, control de ejecución, gestión de errores, registros históricos.
    27/11/09 Administración de las Tecnologías de la Información
  • 41. Ejemplos de transformación
    • Transformación de Búsqueda difusa
      • Busca valores en las tablas usando criterios difusos
      • Ejemplo: Para un campo de texto la data puede contener muchas variantes de la misma palabra (“friend”, “a friend”, “freind”, etc). La lógica difusa puede ayudar a reunir las variantes.
    • Transformación de dimensiones de cambio lento
    • Ayuda a manejar la actualización de una dimensión de cambio lento
      • Ejemplo : la información sobre los consumidores cambia constantemente, pero queremos una historia de estos
        • Cambio de dirección  no queremos el valor anteiror (reemplazo)
        • Un cambio en el valor VAT  ‘duplicamos’ la entrada del consumidor agregando los datos adicionales (para propósitos financieros)
    Clave sustituta 27/11/09 Administración de las Tecnologías de la Información
  • 42. Control de la Ejecución
    • Los datos son muy sensibles, la calidad de los reportes depende la calidad de estos
    • Cargar un Data Warehouse puede implicar reglas complejas de extracción, transformación y carga
    • Los usuarios del negocio no confiarán en un DW si no confían en su carga
    27/11/09 Administración de las Tecnologías de la Información
  • 43. Ejemplos de paquetes en ETL
    • Flujo de control y flujo de datos
    27/11/09 Administración de las Tecnologías de la Información
  • 44. Middleware
    • Son Instancias intermedias a la carga y al acceso que sirven para verificar la calidad y fiabilidad de la data
      • Estación de transformación interina: un área en la cual grupos de datos extraídos de alguna de las fuentes pasan por un proceso de transformación antes de moverse hacia la base de datos del almacén.
      • Estación de aseguramiento de la calidad: Un área en la cual grupos de datos pasan por un conjunto de intensas revisiones de aseguramiento de la calidad antes de pasar hacia el almacén de datos.
    27/11/09 Administración de las Tecnologías de la Información
  • 45. Middleware (2) 27/11/09 Administración de las Tecnologías de la Información
  • 46.
    • Solución: crear almacenes de datos especializados por área, que reciben los datos desde el almacén centralizado, estos almacenes se conocen como Data Marts.
    • Problema : al crecer el DW. El rendimiento de las consultas decae y el modelo centralizado deja de ser optimo.
    27/11/09 Administración de las Tecnologías de la Información
  • 47. Toma de decisiones
    • Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos
    • de un área de negocio
    • específica.
    • Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
    DATAMART 27/11/09 Administración de las Tecnologías de la Información
  • 48. Data Mart
    • Puede ser alimentado desde los datos de un
    • DWH, o integrar por si mismo un compendio de distintas fuentes de información.
    27/11/09 Administración de las Tecnologías de la Información
  • 49. Data Warehouses Vs. Data Marts Data Mart Departamental Un solo tema Pocos < 100 GB Meses Data Warehouse Propiedad Alcance Tema Fuente de datos Tamaño (típico) Tiempo de implementación Data Warehouse Empresarial Múltiples Muchas 100 GB to > 1 TB Meses a años 27/11/09 Administración de las Tecnologías de la Información Data Mart
  • 50. Su objetivo es agilizar la consulta de grandes cantidades de datos. Caracteriza la Arquitectura necesaria para la implementación de un sistema de ayuda en la toma de decisiones. La consultas son pocas pero son muy consumidoras de tiempo (pueden correr horas), las actualizaciones son menos frecuentes y/o la respuesta a la consulta no depende del hecho de tener actualizada la base de datos. Soporte análisis multidimensional y procesamiento analítico en línea ( OLAP ) 27/11/09 Administración de las Tecnologías de la Información
  • 51.
    • Soporte análisis multidimensional y procesamiento analítico en línea ( OLAP )
    • Los datos son clasificados en diferentes dimensiones y pueden ser vistas unas con otras en diferentes combinaciones para obtener diferentes análisis de los datos que contienen.
    • Los Usuarios pueden formular consultas complejas, arreglar datos en un reporte, cambiar de datos resumidos a datos detall ados .
    CARACTERISTICAS 27/11/09 Administración de las Tecnologías de la Información
  • 52. Clasificación según el tipo de motor en el que estén almacenados los datos: 27/11/09 Administración de las Tecnologías de la Información ROLAP (Relational OLAP) MOLAP (multidimensional OLAP) Almacena los datos en un motor relacional Almacena los datos en una base de datos multidimensional Muchas dimensiones Diez o menos dimensiones Soportan analisis OLAP contra grandes volumenens de datos Se comportan razonablemente en volumenes de datos mas reducidos (menos de 5Gb) Herramienta flexible y general Solución particular con volúmenes de información y numero de dimensiones mas modestos
  • 53. Consultando un cubo Trim4 Trim1 Trim2 Trim3 Dimensión tiempo Santiago Quito Arequipa Dimensión Ciudad Manzana Pañal Yogurt Lima Melon Dimensión Producto 27/11/09 Administración de las Tecnologías de la Información Ventas Fact
  • 54. LA ESTRUCTURA DE UN CUBO 27/11/09 Administración de las Tecnologías de la Información
  • 55. Hechos Principales 27/11/09 Administración de las Tecnologías de la Información
  • 56. Medidas 27/11/09 Administración de las Tecnologías de la Información
  • 57. Medida : cuenta de suscriptor x mes (para agilizar cálculos) 27/11/09 Administración de las Tecnologías de la Información
  • 58. Medida: Tasa de cambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago. 27/11/09 Administración de las Tecnologías de la Información
  • 59. Dimensiones La Dimensión fecha se usa más de una vez (dimensión con rol) 27/11/09 Administración de las Tecnologías de la Información
  • 60. Relaciones Una relación regular 27/11/09 Administración de las Tecnologías de la Información
  • 61. The cube structure Relaciones Una relación de hecho 27/11/09 Administración de las Tecnologías de la Información
  • 62. Relaciones Una relación referenciada 27/11/09 Administración de las Tecnologías de la Información
  • 63. The cube structure Relaciones Una relación de « muchos a muchos » Dim Product  Fact Charges Fact Charges  Dim Subscriber Dim Subscriber  Fact Subscriber 27/11/09 Administración de las Tecnologías de la Información
  • 64. DATA MINING Minería de Datos Administración de las Tecnologías de la Información 27/11/09
  • 65. Contents
    • DATA MINING
    Administración de las Tecnologías de la Información 1. What is Data Mining? 27/11/09 2. ¿POR QUÉ? 3. Data Mining un proceso 4. Importante 5. Anexos
  • 66. What is Data Mining?
    • El data mining es el conjunto de técnicas y tecnologías que permiten explorar grandes BBDD, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
    Administración de las Tecnologías de la Información 27/11/09
  • 67. What is Data Mining?
    • Arte/Ciencia de descubrir y aprovecha en
    • forma automática información
    • no-obvia y útil en grandes bases de datos
    Administración de las Tecnologías de la Información 27/11/09
    • Énfasis en:
      • no-obvia (no intuitivas)
      • útil (coste vs beneficio)
      • grande (proceso automático)
    • No hay reglas siempre que el proceso sea eficiente en
    • tiempo, dinero y recursos humanos
  • 68. Tres pasos Preparación de los datos Análisis de datos Toma de decisiones Redes Neuronales 27/11/09 Administración de las Tecnologías de la Información
  • 69. Preparación de datos Extracción / Integración Transformación Selección Limpieza Data warehouse 50-80% tiempo del proyecto 27/11/09 Administración de las Tecnologías de la Información
  • 70. 27/11/09 Administración de las Tecnologías de la Información
  • 71. “ Scrubbing, selecting, cleansing, preprocessing,…”
    • Eliminar redundancia
    • Eliminar datos y variables irrelevantes
    • Tratar datos ausentes
      • media, substitución astuta, interpolación, ignorar, ?
    • Corrección errores
    • Outliers (datos fuera de rango)
    • Verificar consistencia
    • Reservar todo preprocesamiento relevante hasta el análisis
    27/11/09 Administración de las Tecnologías de la Información
  • 72. Anáslisis de datos
    • Técnicas:
      • Árboles de decisión
      • Reglas de asociación
      • Ajustes (regresiones..)
      • Algoritmos genéticos
      • Redes neuronales
    • Tareas conceptuales:
      • Clasificación
      • Optimización
      • Interpolación
      • Modelación
      • Predicción
    • Objetivos:
      • Target marketing
      • Segmentación
      • Control
      • Predicción ventas
      • Descubrir imperfecciones
    27/11/09 Administración de las Tecnologías de la Información
  • 73. Toma de decisiones Los resultados del análisis pueden resultar inescrutables
    • El analista debe entender el problema a fondo
    • Los resultados deben presentarse con honestidad
    • El post-procesamiento y la inclusión de factores subjectivos
    • son a menudo necesarios
    • Validación estricta
    27/11/09 Administración de las Tecnologías de la Información
  • 74. ¿PARA QUÉ?
    • Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación “one-to-one” con sus clientes.
    • Las empresas recogen datos de todos lo procesos.
    • Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel
    Administración de las Tecnologías de la Información 27/11/09
  • 75. Data Mining proporciona la Inteligencia
    • El Data Warehouse proporciona los datos.
    • La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro
    • Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento
    Administración de las Tecnologías de la Información 27/11/09
  • 76. Relación Administración de las Tecnologías de la Información 27/11/09 Relación con el Data Mining Está asociado al escalón más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos. Mientras en Data Warehousing, se basan en estructuras multidimensionales, en las que se almacena la información calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de análisis. Aunque este método se puede considerar como exagerado, nunca será tan caro, como lo que le costaría a la organización el tomar las decisiones equivocadas.
  • 77. ¿Como nos ayudan?
      • ¿Qué clientes permanecerán fieles?
      • ¿Qué clientes están a punto de abandonar?
      • ¿Dónde debemos localizar la próxima sucursal?
      • ¿Qué productos se deben promocionar a qué prospectos?
      • ...
    • Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas
    Administración de las Tecnologías de la Información 27/11/09
  • 78. Data Mining un proceso Administración de las Tecnologías de la Información 27/11/09 Pasos
  • 79. Data Mining un proceso Administración de las Tecnologías de la Información 27/11/09 Identificar un problema Usar data mining para transformar los datos en información Actuar basándonos en la información Medir los resultados
  • 80. 27/11/09 Administración de las Tecnologías de la Información
    • OBJETIVO
    • Establecer la secuencia de l ó gica de actividades, responsables e informaci ó n necesaria que permita controlar, recopilar y procesar informaci ó n primaria y secundaria.
    • ALCANCE
    • El presente procedimiento permite la publicaci ó n de informaci ó n clasificada por sector, inici á ndose con la coordinaci ó n de la disponibilidad de informaci ó n y finalizando con el ingreso de informaci ó n al sistema.
    • El presente documento aplica para el Departamento de Informaci ó n y Negocios Electr ó nicos de la Sub Direcci ó n de Inteligencia y Prospectiva Comercial.
  • 81. 27/11/09 Administración de las Tecnologías de la Información
  • 82. 27/11/09 Administración de las Tecnologías de la Información
  • 83. 27/11/09 Administración de las Tecnologías de la Información
  • 84. Importante Administración de las Tecnologías de la Información 27/11/09 La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa
  • 85. Data Mining resumen Administración de las Tecnologías de la Información 27/11/09
    • Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo.
    • Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas.
    • Las técnicas se tienen que aplicar en el caso correcto a los datos correctos
  • 86. Conclusiones Administración de las Tecnologías de la Información 27/11/09 El concepto de DWH está teniendo una gran aplicación en la actualidad para el desarrollo de las empresas, como almacén de datos. Sus objetivos incluyen la reducción de los costes de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre años, más que sobre meses de información. Para diseñar una buena arquitectura de DWH es necesario como primer paso conocer bien los requerimientos del negocio y hacer un estudio profundo de las fuentes externas que nos van a suministrar los datos. Además, hacer un buen diseño del área de transformación de datos, cuáles son las transformaciones que se van a realizar y cómo se va a implementar el modelo dimensional con sus tablas de hechos y de dimensiones es el segundo paso a seguir.
  • 87. Resumiendo los beneficios de la arquitectura del DWH : Administración de las Tecnologías de la Información 27/11/09 Provee un esquema de organización – cuáles son los componentes que la forman, cómo ellos se interrelacionan, quién es el dueño de cada parte y cuáles son las prioridades. Mejora la flexibilidad – permite que rápidamente se añadan nuevas fuentes de datos. Desarrollo rápido y reuso – los desarrolladores de DWH son más capaces de comprender el proceso de DWH , los contenidos de las bases de datos y las reglas del negocio más rápidamente. Herramientas de comunicaciones – define y comunica la dirección y el alcance de las expectativas , identifica los roles y responsabilidades y comunica los requerimientos al proveedor.
  • 88. Que la tecnología no te entierre¡¡¡ Administración de las Tecnologías de la Información Thank You ! 27/11/09
  • 89. ANEXOS REDES NEURONALES 27/11/09 Administración de las Tecnologías de la Información Fuente: José Ignacio Latorre Universitat de Barcelona http://sophia.ecm.ub.es/latorre /
  • 90. ¿Por qué no se emplea el Data Mining?
    • Explotación “bruta” de las bases de datos da resultados sin sentido o no-competitivos
    • Sentido común y buena formación = coste elevado
    • Sí se emplea, pero poca gente es consciente
    Data Mining 27/11/09 Administración de las Tecnologías de la Información
  • 91. Redes Neuronales 27/11/09 Administración de las Tecnologías de la Información
  • 92. ¿Qué es una red neuronal? Datos Datos históricos variables objetivos Datos nuevos variables ?? Las redes neuronales aprenden a partir de ejemplos Economista/Matemático/Físico/Analista Aproximante universal (Permiten un ajuste a partir de ejemplos en un gran espacio de funciones sin sesgo, robusto, flexible que implementa inferencia bayesiana) Economista/Empresario Herramienta de predicción (objetivo, consolidado, adaptable a problemas complejos, integrable) Modelo del cerebro Redes neuronales 27/11/09 Administración de las Tecnologías de la Información
  • 93. Redes neuronales ¿Para qué sirven una red neuronal?
    • Clasificación
        • Clientes buenos/malos, comprometidos o no, asequibles o no
        • Reconocimiento de patrones
    • Interpolación
    • Adivinar el comportamiento de un nuevo cliente
    • Crear una nueva pintura
    • Predicción
    • Ventas, meteorología, finanzas, control de producción
    Las redes neuronales pueden ser aplicadas a cualquier problema de inferencia estadística 27/11/09 Administración de las Tecnologías de la Información
  • 94. ¿Cómo funciona una red neuronal? capa 1 capa 2 capa l ..... Red neuronal feedforward multicapa Redes neuronales 27/11/09 Administración de las Tecnologías de la Información
  • 95. Redes neuronales
    • La función de activación ƒ da flexibilidad para que la respuesta de
    • cada neurona pueda ser no lineal
    • Los pesos w y los umbrales t determinan la forma en que la información
    • es procesada por cada neurona
    • El número de capas y de neuronas por capa definen la
    • arquitectura de la red neuronal
    El algoritmo de aprendizaje por corrección de errores hacia atrás, “back-propagation” (1985) establece un procedimiento eficiente para ajustar los pesos y umbrales de una red neuronal de forma que aprenda ejemplos. ¡Hemos aprendido a aprender! 27/11/09 Administración de las Tecnologías de la Información
  • 96. Redes neuronales T vs C C T c T C T T C
    • Entrenamiento
    • 0. w y t aleatorios
    • 1. Introducir un ejempo (T)
    • Output = T
    • bien
    • Output = C
    • error
    • Propagar un cambio de
    • w and t a través de la red
    • para reducir el error
    • 4. Repetir con todos los ejemplos varias veces
    Aprendizaje supervisado de T / C T Robusto Universal Sin sesgo 27/11/09 Administración de las Tecnologías de la Información
  • 97. Redes neuronales Belgrado 19/04/1999 Una red neuronal es entrenada con patrones de aviones La red detecta un avión militar escondido bajo un avión comercial 27/11/09 Administración de las Tecnologías de la Información
  • 98. Finanzas Data Mining Divorcios Ciencia Banca Reconocimiento de patrones 27/11/09 Administración de las Tecnologías de la Información
  • 99. Tarjetas de crédito
    • 50000 clientes reciben la oferta
    • Un red neuronal es entrenada con
    • las respuestas
    • La red predice la respuesta de los
    • 450000 clientes restantes
    Un banco desea ofrecer una nueva tarjeta a sus clientes Depósitos Salario Edad Sexo Créditos Hipotecas Educación Sí / No Red neuronal Ejemplos 27/11/09 Administración de las Tecnologías de la Información
  • 100. Ejemplos Lift Chart % de clientes contactados % de Respuestas positivas retenidas 27/11/09 Administración de las Tecnologías de la Información
  • 101.
    • Promedios sobre redes entrenadas a partir de pesos aleatorios
      • Si existe un modelo subyacente, las redes son equivalentes
      • Si no existe un modelo subyacente, las redes producen dispersión
    • Lanzamos 100 redes sobre
    • datos entrenar/validar
    • Para cada dato tenemos un
    • promedio y una dispersión
    • Descartamos 3 sigma
    • Alarmas
    • Arbitraje
    • … .
    -1 sigma + 1sigma NN Real Ejemplos Series temporales de cotizaciones 27/11/09 Administración de las Tecnologías de la Información
  • 102. Ejemplos ¿Estoy divorciado?
    • Una red neuronal ha sido entrenada con
      • área del apartamento
      • ¿es relevante la virginidad? ¿divorciado?
      • salario sí / no
      • visitas de los suegros
      • salud,..
    Acierto: 88% Matemáticas / Filosofía 100% 27/11/09 Administración de las Tecnologías de la Información