Data Minig
Upcoming SlideShare
Loading in...5
×
 

Data Minig

on

  • 529 views

Minería de Datos

Minería de Datos

Statistics

Views

Total Views
529
Slideshare-icon Views on SlideShare
529
Embed Views
0

Actions

Likes
0
Downloads
44
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Data Minig Data Minig Presentation Transcript

    • MINERIA DE DATOS “Torturar a los datos hasta que confiesen” Junior Villafuerte Beita Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining
    • Protocolos Introducción Universidad Latina de Costa Rica Definición Técnicas y Algoritmos Conclusión Procesos Software Principales Usos Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Contenido
    • Universidad Latina de Costa Rica INTRODUCCIÓN Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Introducción al DM
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Introducción al DM Era de la Información (Tecnologías de la Información y la Comunicación) Información = Poder & Éxito Ordenadores + Medios de Almacenamiento Masivo Enormes Cantidades de Información Enormes Colecciones de Información = Nuevas necesidades “Data Mining” – Minería de Datos Explorar y Analizar grandes volúmenes de Información Encontrar correlaciones significativas (Tendencias & Comportamientos)
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Introducción al DM ¿Qué es la Minería de Datos? • Deducir conocimiento examinando los datos y realizando predicciones. • En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. • Deducimos conocimiento en: Patrones, Clusters, Reglas, Árboles de Decisión, Redes Neuronales, Reglas de Asociación,….
    • Universidad Latina de Costa Rica DEFINICIÓN DEL DM Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Definición del DM
    • ² ² ² ² ²² ² Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Definición del DM  Proceso de exploración y análisis de grandes volúmenes de datos para hacerlos mas comprensibles, predecir tendencias y comportamientos.  Conjunto de técnicas y herramientas usadas para encontrar y entender relaciones en grandes cantidades de datos y presentarlas en una forma útil y ventajosa. “Encontrar pepitas de oro o diamantes en una mina de carbón” Principios: 1. La estadística clásica 2. La inteligencia artificial (AI) 3. La Maquina de aprendizaje Data Mining – Minería de Datos 90’s – Gregory Platetsky-Shapiro Knowledge Discovery in Databases Data Fishing Data Dredging Data Archaelogy Información Discovery
    • Universidad Latina de Costa Rica PROCESOS PARA APLICAR DM Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Procesos para aplicar el DM
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Procesos para aplicar el DM Selección del conjunto de datos Análisis de los datos Transformación del conjunto de datos de entrada Seleccionar y aplicar la técnica de minería de datos Extracción de conocimiento Interpretación y evaluación de datos
    • Universidad Latina de Costa Rica Protocolo de un Proyecto de DM Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Procesos para aplicar el DM
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Procesos para aplicar el DM  Comprensión: del negocio y del problema que se quiere resolver.  Determinación, obtención y limpieza: de los datos necesarios.  Creación de modelos matemáticos.  Validación, comunicación: de los resultados obtenidos.  Integración: si procede, de los resultados en un sistema transaccional o similar.
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Procesos para aplicar el DM  Formulación del Problema de Negocio  Recolección de Datos  Limpieza y Transformación de Datos  Transformación numérica  Agrupación  Agregación  Manejo de valores «perdidos»  Eliminar los «extremos»  Creación del Modelo  Selección del Algoritmo  Prueba y Error en muchos casos
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Procesos para aplicar el DM  Evaluación del Modelo  Evaluar la fiabilidad del modelo dentro de nuestro negocio  Reporting y Predicción  Integración en Aplicaciones  Gestión del Modelo  Dependiendo del escenario puede ser muy volátil  Planificar «Entrenamiento»
    • Universidad Latina de Costa Rica Técnicas de la Minería de Datos Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Técnicas y Algoritmos de DM
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Técnicas y Algoritmos de DM  Redes Neuronales o Procesamiento automático inspirado en la forma en que funciona el sistema nervioso; Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida como la percepción.  Regresión Lineal o Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.  Modelos Estadisticos o Una ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Técnicas y Algoritmos de DM  Árboles de Decisión o Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial  Agrupamiento o Clustering o Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.  Reglas de Asociación o Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
    • Universidad Latina de Costa Rica Algoritmos de la Minería de Datos Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Técnicas y Algoritmos de DM
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Técnicas y Algoritmos de DM IA y Estadística Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Técnicas y Algoritmos de DM  De Forecasting.  Dada una tendencia ¿Cuál es la previsión?  Supervisados.  Conocemos la respuesta ¿Qué está correlacionado?  No Supervisados.  Desconocemos la respuesta ¿Cuáles son los grupos?
    • Universidad Latina de Costa Rica Principales Usos de DM Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Principales Usos de DM
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Principales Usos de DM Negocios y Comercio Empleo Fraudes y Terrorismo Elecciones Medicina Ciencia e Ingeniería Comportamiento de Internet Genética Juegos
    • Universidad Latina de Costa Rica Software para aplicar DM Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Software para aplicar DM
    • Universidad Latina de Costa Rica Ofrecen Soporte y Facilitan la toma de decisiones. Comerciales y Libres Desarrollo de Modelos de Minería de Datos Uso del Estándar: PMML (Predictive Model Markup Language) Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Software para aplicar DM
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Software para aplicar DM
    • Universidad Latina de Costa Rica Ejemplo Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Ejemplo
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Ejemplo El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
    • Universidad Latina de Costa Rica Conclusión Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Conclusión
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Conclusión Una visión a grande escala de los patrones que la información oculta. Permite tomar decisiones asertivas a problemas, o para formular estrategias de mejora. Data Mining y modelos en constante evolución. Los patrones pueden cambiar.
    • Universidad Latina de Costa Rica Ingeniería de Sistemas Informáticos Base de Datos II Data Mining Gracias “Torturar a los datos hasta que confiesen”