DATA WAREHOUSE & DATA MINING http://www.espol.edu.ec
INTEGRANTES <ul><li>Bastidas Santos Washington Raúl </li></ul><ul><li>López Serrano Silvio Stephan </li></ul><ul><li>Monti...
DATA WAREHOUSE
INTRODUCCIÓN <ul><li>DW es una tecnología construida para optimizar el uso y análisis de información utilizado por las org...
<ul><li>Se caracteriza por ser  integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la ent...
DETALLES <ul><li>El DW   se encuentra normalmente implementado dentro de una arquitectura de cliente/servidor.  </li></ul>...
 
ARQUITECTURA <ul><li>Online Transaction Processing (OLTP) </li></ul><ul><li>Consolidación </li></ul><ul><li>Middleware </l...
OLTP <ul><li>Consultas rápidas, escuetas y predecibles </li></ul><ul><li>Poco volumen de información e información disgreg...
<ul><li>Consolidación </li></ul><ul><li>Se encarga de producir el cambio de los sistemas OLTP a las Bases de Datos OLAP. (...
OLAP <ul><li>Estructura de datos transparente al usuario </li></ul><ul><li>Solo Consulta, trabajan sobre la información op...
TIPOS DE SISTEMAS OLAP <ul><li>ROLAP </li></ul><ul><li>Motor relacional. Datos detallados, tablas normalizadas. Los esquem...
DATA MARTS
DATA MARTS <ul><li>Es una versión especial de DW </li></ul><ul><li>El Data Mart es un sistema orientado a la consulta, en ...
IMPLEMENTACIONES DE DW <ul><li>DW central:  un solo nivel con un solo almacén que soporta los requerimientos de informació...
Extract, Transform and Load (ETL)
EXTRACT, TRANSFORM AND LOAD (ETL) <ul><li>Extraer  los datos desde los sistemas de origen (Normalmente en DB relacionales)...
ETL – PROCESAMIENTO PARALELO <ul><li>De datos:  dividir un único archivo secuencial en pequeños archivos de datos. </li></...
ESQUEMA EN ESTRELLA <ul><ul><li>Modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para e...
ESQUEMA EN COPO DE NIEVE <ul><li>Un  esquema en copo de nieve  es una estructura algo más compleja que el esquema en estre...
DATAWAREHOUSE – DATA MINING
DATA WAREHOUSE
EXECUTIVE INFORMATION SYSTEM (EIS) <ul><li>Herramienta orientada a usuarios de nivel gerencial. </li></ul><ul><li>Permite ...
DECISION SUPPORT SYSTEM (DSS) <ul><li>Sistema informático utilizado para servir de apoyo, más que automatizar, el proceso ...
 
 
DATA MINING
INTRODUCCION <ul><li>Proceso de extraer  conocimiento útil y comprensible, previamente desconocido  ( Witten y Frank, 2000...
POR QUÉ MINERÍA DE DATOS? <ul><li>Gran cantidad de datos para analizar de forma clásica </li></ul><ul><li>¿Cómo explorar m...
Knowledge Discovery in Databases Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en...
Computational Knowledge Discovery
QUÉ TIPOS DE DATOS ? <ul><li>Data Warehouses </li></ul><ul><li>Base de Datos Transaccionales </li></ul><ul><li>Sistemas de...
MULTIPLES  DISCIPLINAS ? 20x20 ~ 2^400    10^120 patterns
CLASIFICACIÓN DE ALGORITMOS
CLASIFICACIÓN <ul><li>Encuentra modelos que describen y distinguen clases o conceptos. </li></ul><ul><li>El objetivo es de...
EJEMPLO CLASIFICACIÓN categoria categoria Continuo clase Test Set Training  Set Modelo Clasifica- dor
REPRESENTACIÓN :  ÁRBOL DE DECISIONES Refund MarSt TaxInc YES NO NO NO Yes No Married   Single, Divorced < 80K > 80K Atrib...
CLUSTERING <ul><li>Divide la información en diferentes grupos. </li></ul><ul><li>A diferencia de la clasificación, no se s...
ALGORITMO K-MEANS Initial seeds
ALGORITMO K-MEANS Nuevos Centros
ALGORITMO K-MEANS Centros Finales
MODELO LÓGICO Mining Model Mining Model Training Data DB data Client data Application data Data Mining Engine To Predict P...
MODELO FÍSICO Analysis Services Server Mining Model Data Mining Algorithm Data Source Interfaz Gráfica OLE DB/ ADOMD/ XMLA...
MINERIA DE DATOS DISTRIBUIDA <ul><li>Hacer frente a plataformas heterogéneas, con múltiples bases de datos y (posiblemente...
Upcoming SlideShare
Loading in...5
×

mineria de datos

6,476

Published on

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
6,476
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
586
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide
  • mineria de datos

    1. 1. DATA WAREHOUSE & DATA MINING http://www.espol.edu.ec
    2. 2. INTEGRANTES <ul><li>Bastidas Santos Washington Raúl </li></ul><ul><li>López Serrano Silvio Stephan </li></ul><ul><li>Montiel Salazar Marcos Xavier  </li></ul>
    3. 3. DATA WAREHOUSE
    4. 4. INTRODUCCIÓN <ul><li>DW es una tecnología construida para optimizar el uso y análisis de información utilizado por las organizaciones para adaptarse a los cambios en los mercados. </li></ul><ul><li>Su función esencial es ser la base de un sistema de información gerencial. Debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas. </li></ul>
    5. 5. <ul><li>Se caracteriza por ser integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza </li></ul>DATA WAREHOUSE
    6. 6. DETALLES <ul><li>El DW se encuentra normalmente implementado dentro de una arquitectura de cliente/servidor. </li></ul><ul><li>Por la complejidad de los DW es común utilizar middleware entre los clientes y los servidores dando una arquitectura de 3 niveles ( three tier ). </li></ul>
    7. 8. ARQUITECTURA <ul><li>Online Transaction Processing (OLTP) </li></ul><ul><li>Consolidación </li></ul><ul><li>Middleware </li></ul><ul><li>Online Analytical Process (OLAP) </li></ul><ul><li>Data Marts </li></ul>
    8. 9. OLTP <ul><li>Consultas rápidas, escuetas y predecibles </li></ul><ul><li>Poco volumen de información e información disgregada </li></ul><ul><li>Transacciones rápidas </li></ul><ul><li>Gran nivel de concurrencia </li></ul><ul><li>Modo de actualización on-line </li></ul><ul><li>Baja redundancia de datos </li></ul>
    9. 10. <ul><li>Consolidación </li></ul><ul><li>Se encarga de producir el cambio de los sistemas OLTP a las Bases de Datos OLAP. (comprobar validez, consistencia, actualización, propagación datos) </li></ul><ul><li>Middleware </li></ul><ul><li>Es un término genérico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas </li></ul>
    10. 11. OLAP <ul><li>Estructura de datos transparente al usuario </li></ul><ul><li>Solo Consulta, trabajan sobre la información operacional generada por los sistemas OLTP </li></ul><ul><li>Consultas sobre grandes volúmenes de datos no predecibles </li></ul><ul><li>Información histórica </li></ul><ul><li>Modo de actualización Batch </li></ul><ul><li>Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta </li></ul><ul><li>Poderoso Back-end analítico para múltiples aplicaciones de usuarios </li></ul>
    11. 12. TIPOS DE SISTEMAS OLAP <ul><li>ROLAP </li></ul><ul><li>Motor relacional. Datos detallados, tablas normalizadas. Los esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve </li></ul><ul><li>MOLAP </li></ul><ul><li>Base de datos multidimensional. el resumen de la información es usualmente calculado por adelantado. </li></ul><ul><li>HOLAP (Hybrid OLAP ) </li></ul><ul><li>Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional </li></ul>
    12. 13. DATA MARTS
    13. 14. DATA MARTS <ul><li>Es una versión especial de DW </li></ul><ul><li>El Data Mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos. </li></ul><ul><li>Es consultado mediante herramientas OLAP que ofrecen una visión multidimensional de la información. </li></ul><ul><li>Sobre estas bases de datos se pueden construir EIS y DSS . </li></ul><ul><li>Data Mining: Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil. </li></ul>
    14. 15. IMPLEMENTACIONES DE DW <ul><li>DW central: un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa. </li></ul><ul><li>DW distribuido: estructura de un solo nivel que se particiona para distribuirlo a nivel departamental. </li></ul><ul><li>DW de dos niveles: soporta requerimientos de información tanto a nivel empresarial como departamental. </li></ul>
    15. 16. Extract, Transform and Load (ETL)
    16. 17. EXTRACT, TRANSFORM AND LOAD (ETL) <ul><li>Extraer los datos desde los sistemas de origen (Normalmente en DB relacionales). Debe causar un impacto mínimo. </li></ul><ul><li>Transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. </li></ul><ul><li>Carga los datos de la fase anterior en el sistema de destino. Se aplicarán todas las restricciones y triggers definidos. </li></ul>
    17. 18. ETL – PROCESAMIENTO PARALELO <ul><li>De datos: dividir un único archivo secuencial en pequeños archivos de datos. </li></ul><ul><li>De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios componentes en el mismo flujo de datos. </li></ul><ul><li>De componente: funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos en el mismo puesto de trabajo. </li></ul>
    18. 19. ESQUEMA EN ESTRELLA <ul><ul><li>Modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el análisis, rodeada de las dimensiones estas tiene una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las demás. </li></ul></ul>
    19. 20. ESQUEMA EN COPO DE NIEVE <ul><li>Un esquema en copo de nieve es una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de las dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las tablas y así reducir el espacio de almacenamiento al eliminar la redundancia de datos </li></ul>
    20. 21. DATAWAREHOUSE – DATA MINING
    21. 22. DATA WAREHOUSE
    22. 23. EXECUTIVE INFORMATION SYSTEM (EIS) <ul><li>Herramienta orientada a usuarios de nivel gerencial. </li></ul><ul><li>Permite a usuarios con perfil no técnico construir nuevos informes y navegar por los datos de la compañía para descubrir información relevante. </li></ul><ul><li>Provee acceso instantáneo al estado de los indicadores de negocio que le afectan. </li></ul>
    23. 24. DECISION SUPPORT SYSTEM (DSS) <ul><li>Sistema informático utilizado para servir de apoyo, más que automatizar, el proceso de toma de decisiones, realizando análisis de las diferentes variables del negocio. </li></ul><ul><li>Capacidad de análisis multidimensional (OLAP) que permite profundizar en la información hasta llegar a un alto nivel de detalle </li></ul>
    24. 27. DATA MINING
    25. 28. INTRODUCCION <ul><li>Proceso de extraer conocimiento útil y comprensible, previamente desconocido ( Witten y Frank, 2000 ) </li></ul><ul><li>Que no es? </li></ul><ul><ul><li>Data warehousing </li></ul></ul><ul><ul><li>SQL / Ad Hoc Queries / Reporting </li></ul></ul><ul><ul><li>Software Agents </li></ul></ul><ul><ul><li>Online Analytical Processing (OLAP) </li></ul></ul><ul><ul><li>Data Visualization </li></ul></ul>“ Rico en datos, Pobre en información ” Conocimiento (patrones interesantes)
    26. 29. POR QUÉ MINERÍA DE DATOS? <ul><li>Gran cantidad de datos para analizar de forma clásica </li></ul><ul><li>¿Cómo explorar millones de registros, decenas o cientos de campos, y encontrar patrones? </li></ul>QUERY RESULT (Latitude, Longitude) 1 (Latitude, Longitude) 2
    27. 30. Knowledge Discovery in Databases Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos ”. Fayyad et al. 1996
    28. 31. Computational Knowledge Discovery
    29. 32. QUÉ TIPOS DE DATOS ? <ul><li>Data Warehouses </li></ul><ul><li>Base de Datos Transaccionales </li></ul><ul><li>Sistemas de Base de Datos Avanzado: </li></ul><ul><ul><li>Objetos Relacionales </li></ul></ul><ul><ul><li>Temporales y Espaciales </li></ul></ul><ul><ul><li>Serie de Tiempo </li></ul></ul><ul><ul><li>Multimedia, Texto </li></ul></ul><ul><ul><li>WWW </li></ul></ul>Structure - 3D Anatomy Function – 1D Signal Metadata – Annotation
    30. 33. MULTIPLES DISCIPLINAS ? 20x20 ~ 2^400  10^120 patterns
    31. 34. CLASIFICACIÓN DE ALGORITMOS
    32. 35. CLASIFICACIÓN <ul><li>Encuentra modelos que describen y distinguen clases o conceptos. </li></ul><ul><li>El objetivo es describir los datos o para hacer el futuro de predicción. </li></ul><ul><li>Árbol de decisiones, la clasificación general, redes neuronales. </li></ul>
    33. 36. EJEMPLO CLASIFICACIÓN categoria categoria Continuo clase Test Set Training Set Modelo Clasifica- dor
    34. 37. REPRESENTACIÓN : ÁRBOL DE DECISIONES Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced < 80K > 80K Atributos Divididos categoria categoria continuo clase
    35. 38. CLUSTERING <ul><li>Divide la información en diferentes grupos. </li></ul><ul><li>A diferencia de la clasificación, no se sabe donde habrá clúster o con que atributos de los datos se harán los clústeres. </li></ul><ul><li>Algoritmo K-means y Mapas de Presentación de Kohonen </li></ul><ul><li>Clustering schemes </li></ul><ul><ul><li>Basado en Distancia ( Distancia entre vectores ) </li></ul></ul><ul><ul><li>Basado en Partición (Enumera y valora) </li></ul></ul><ul><ul><li>Basado en Modelo( </li></ul></ul>
    36. 39. ALGORITMO K-MEANS Initial seeds
    37. 40. ALGORITMO K-MEANS Nuevos Centros
    38. 41. ALGORITMO K-MEANS Centros Finales
    39. 42. MODELO LÓGICO Mining Model Mining Model Training Data DB data Client data Application data Data Mining Engine To Predict Predicted Data Mining Model DB data Client data Application data “ Just one row ” Data Mining Engine algorithm
    40. 43. MODELO FÍSICO Analysis Services Server Mining Model Data Mining Algorithm Data Source Interfaz Gráfica OLE DB/ ADOMD/ XMLA App Data Resultado de la Evaulacion
    41. 44. MINERIA DE DATOS DISTRIBUIDA <ul><li>Hacer frente a plataformas heterogéneas, con múltiples bases de datos y (posiblemente) diferentes esquemas </li></ul><ul><li>Diseñar e implementar protocolos escalables y eficaces para la comunicación con los datos de los sitios. </li></ul><ul><li>Combine información recién adquiridos que previamente no estaban disponibles cuando los modelos se calcularon con los modelos existentes </li></ul><ul><li>La flexibilidad para incorporar nuevas técnicas de minería de datos </li></ul>
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×