• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
mineria de datos
 

mineria de datos

on

  • 8,956 views

 

Statistics

Views

Total Views
8,956
Views on SlideShare
8,883
Embed Views
73

Actions

Likes
3
Downloads
540
Comments
0

1 Embed 73

http://www.slideshare.net 73

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

mineria de datos mineria de datos Presentation Transcript

  • DATA WAREHOUSE & DATA MINING http://www.espol.edu.ec
  • INTEGRANTES
    • Bastidas Santos Washington Raúl
    • López Serrano Silvio Stephan
    • Montiel Salazar Marcos Xavier 
  • DATA WAREHOUSE
  • INTRODUCCIÓN
    • DW es una tecnología construida para optimizar el uso y análisis de información utilizado por las organizaciones para adaptarse a los cambios en los mercados.
    • Su función esencial es ser la base de un sistema de información gerencial. Debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas.
    • Se caracteriza por ser integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza
    DATA WAREHOUSE
  • DETALLES
    • El DW se encuentra normalmente implementado dentro de una arquitectura de cliente/servidor.
    • Por la complejidad de los DW es común utilizar middleware entre los clientes y los servidores dando una arquitectura de 3 niveles ( three tier ).
  •  
  • ARQUITECTURA
    • Online Transaction Processing (OLTP)
    • Consolidación
    • Middleware
    • Online Analytical Process (OLAP)
    • Data Marts
  • OLTP
    • Consultas rápidas, escuetas y predecibles
    • Poco volumen de información e información disgregada
    • Transacciones rápidas
    • Gran nivel de concurrencia
    • Modo de actualización on-line
    • Baja redundancia de datos
    • Consolidación
    • Se encarga de producir el cambio de los sistemas OLTP a las Bases de Datos OLAP. (comprobar validez, consistencia, actualización, propagación datos)
    • Middleware
    • Es un término genérico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas
  • OLAP
    • Estructura de datos transparente al usuario
    • Solo Consulta, trabajan sobre la información operacional generada por los sistemas OLTP
    • Consultas sobre grandes volúmenes de datos no predecibles
    • Información histórica
    • Modo de actualización Batch
    • Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta
    • Poderoso Back-end analítico para múltiples aplicaciones de usuarios
  • TIPOS DE SISTEMAS OLAP
    • ROLAP
    • Motor relacional. Datos detallados, tablas normalizadas. Los esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve
    • MOLAP
    • Base de datos multidimensional. el resumen de la información es usualmente calculado por adelantado.
    • HOLAP (Hybrid OLAP )
    • Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional
  • DATA MARTS
  • DATA MARTS
    • Es una versión especial de DW
    • El Data Mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos.
    • Es consultado mediante herramientas OLAP que ofrecen una visión multidimensional de la información.
    • Sobre estas bases de datos se pueden construir EIS y DSS .
    • Data Mining: Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil.
  • IMPLEMENTACIONES DE DW
    • DW central: un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa.
    • DW distribuido: estructura de un solo nivel que se particiona para distribuirlo a nivel departamental.
    • DW de dos niveles: soporta requerimientos de información tanto a nivel empresarial como departamental.
  • Extract, Transform and Load (ETL)
  • EXTRACT, TRANSFORM AND LOAD (ETL)
    • Extraer los datos desde los sistemas de origen (Normalmente en DB relacionales). Debe causar un impacto mínimo.
    • Transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados.
    • Carga los datos de la fase anterior en el sistema de destino. Se aplicarán todas las restricciones y triggers definidos.
  • ETL – PROCESAMIENTO PARALELO
    • De datos: dividir un único archivo secuencial en pequeños archivos de datos.
    • De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios componentes en el mismo flujo de datos.
    • De componente: funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos en el mismo puesto de trabajo.
  • ESQUEMA EN ESTRELLA
      • Modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el análisis, rodeada de las dimensiones estas tiene una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las demás.
  • ESQUEMA EN COPO DE NIEVE
    • Un esquema en copo de nieve es una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de las dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las tablas y así reducir el espacio de almacenamiento al eliminar la redundancia de datos
  • DATAWAREHOUSE – DATA MINING
  • DATA WAREHOUSE
  • EXECUTIVE INFORMATION SYSTEM (EIS)
    • Herramienta orientada a usuarios de nivel gerencial.
    • Permite a usuarios con perfil no técnico construir nuevos informes y navegar por los datos de la compañía para descubrir información relevante.
    • Provee acceso instantáneo al estado de los indicadores de negocio que le afectan.
  • DECISION SUPPORT SYSTEM (DSS)
    • Sistema informático utilizado para servir de apoyo, más que automatizar, el proceso de toma de decisiones, realizando análisis de las diferentes variables del negocio.
    • Capacidad de análisis multidimensional (OLAP) que permite profundizar en la información hasta llegar a un alto nivel de detalle
  •  
  •  
  • DATA MINING
  • INTRODUCCION
    • Proceso de extraer conocimiento útil y comprensible, previamente desconocido ( Witten y Frank, 2000 )
    • Que no es?
      • Data warehousing
      • SQL / Ad Hoc Queries / Reporting
      • Software Agents
      • Online Analytical Processing (OLAP)
      • Data Visualization
    “ Rico en datos, Pobre en información ” Conocimiento (patrones interesantes)
  • POR QUÉ MINERÍA DE DATOS?
    • Gran cantidad de datos para analizar de forma clásica
    • ¿Cómo explorar millones de registros, decenas o cientos de campos, y encontrar patrones?
    QUERY RESULT (Latitude, Longitude) 1 (Latitude, Longitude) 2
  • Knowledge Discovery in Databases Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos ”. Fayyad et al. 1996
  • Computational Knowledge Discovery
  • QUÉ TIPOS DE DATOS ?
    • Data Warehouses
    • Base de Datos Transaccionales
    • Sistemas de Base de Datos Avanzado:
      • Objetos Relacionales
      • Temporales y Espaciales
      • Serie de Tiempo
      • Multimedia, Texto
      • WWW
    Structure - 3D Anatomy Function – 1D Signal Metadata – Annotation
  • MULTIPLES DISCIPLINAS ? 20x20 ~ 2^400  10^120 patterns
  • CLASIFICACIÓN DE ALGORITMOS
  • CLASIFICACIÓN
    • Encuentra modelos que describen y distinguen clases o conceptos.
    • El objetivo es describir los datos o para hacer el futuro de predicción.
    • Árbol de decisiones, la clasificación general, redes neuronales.
  • EJEMPLO CLASIFICACIÓN categoria categoria Continuo clase Test Set Training Set Modelo Clasifica- dor
  • REPRESENTACIÓN : ÁRBOL DE DECISIONES Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced < 80K > 80K Atributos Divididos categoria categoria continuo clase
  • CLUSTERING
    • Divide la información en diferentes grupos.
    • A diferencia de la clasificación, no se sabe donde habrá clúster o con que atributos de los datos se harán los clústeres.
    • Algoritmo K-means y Mapas de Presentación de Kohonen
    • Clustering schemes
      • Basado en Distancia ( Distancia entre vectores )
      • Basado en Partición (Enumera y valora)
      • Basado en Modelo(
  • ALGORITMO K-MEANS Initial seeds
  • ALGORITMO K-MEANS Nuevos Centros
  • ALGORITMO K-MEANS Centros Finales
  • MODELO LÓGICO Mining Model Mining Model Training Data DB data Client data Application data Data Mining Engine To Predict Predicted Data Mining Model DB data Client data Application data “ Just one row ” Data Mining Engine algorithm
  • MODELO FÍSICO Analysis Services Server Mining Model Data Mining Algorithm Data Source Interfaz Gráfica OLE DB/ ADOMD/ XMLA App Data Resultado de la Evaulacion
  • MINERIA DE DATOS DISTRIBUIDA
    • Hacer frente a plataformas heterogéneas, con múltiples bases de datos y (posiblemente) diferentes esquemas
    • Diseñar e implementar protocolos escalables y eficaces para la comunicación con los datos de los sitios.
    • Combine información recién adquiridos que previamente no estaban disponibles cuando los modelos se calcularon con los modelos existentes
    • La flexibilidad para incorporar nuevas técnicas de minería de datos