Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Minería de datos

3,447 views

Published on

Curso de Big Data

Published in: Data & Analytics
  • Login to see the comments

  • Be the first to like this

Minería de datos

  1. 1. Minería de datos Ruben Egiguren 18/06/2013
  2. 2. ● Introducción ● KDD: Proceso de Extracción de conocimiento ● Procesos de un proyecto de minería de datos ● Técnicas de minería de datos ● Ciclo de un Proyecto de Minería de Datos Índice
  3. 3. De donde venimos y hacia dónde vamos
  4. 4. ● La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. ¿Qué es la Minería de Datos? Fuente: wikipedia
  5. 5. ● Deducir conocimiento examinando los datos y realizando predicciones ○ «examinar datos» examinar ejemplos de hechos conocidos sobre «casos» utilizando sus atributos – «variables» ○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de Decisión, Redes Neuronales, Reglas de Asociación,…. ● OLAP: Análisis orientado al modelo ● DM: Análisis orientado al dato ● Nombres alternativos: Análisis Predictivo ¿Qué es la Minería de Datos?
  6. 6. ● La minería de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) ● Proceso de detectar la información procesable de los conjuntos grandes de datos. ● Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. ● Estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. ● Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. ¿Qué es la Minería de Datos?
  7. 7. KDD: Proceso de Extracción de conocimiento Como muestra la figura, las etapas del proceso KDD se dividen en 5 fases y son: 1. Selección de datos 2. Preprocesamiento 3. Transformación 4. Data Mining 5. Interpretación y Evaluación
  8. 8. Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son: 1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos. 2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación. 3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente. 4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos. 5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos. KDD: Proceso de Extracción de conocimiento
  9. 9. Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente: ● Comprensión del negocio y del problema que se quiere resolver. ● Determinación, obtención y limpieza de los datos necesarios. ● Creación de modelos matemáticos. ● Validación, comunicación, etc. de los resultados obtenidos. ● Integración, si procede, de los resultados en un sistema transaccional o similar. Procesos de un proyecto de minería de datos
  10. 10. ● La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme. Procesos de un proyecto de minería de datos
  11. 11. ● Generación de Recomendaciones ○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros clientes? ● Detección de anomalías ○ Detección de fraude ● Análisis de Rotación ○ ¿Qué clientes son más proclives de irse a la competencia? ● Gestión de Riesgos ○ ¿Debería de concederse el crédito? ● Segmentación de clientes ○ Clasificación de nuestros clientes ● Anuncios Orientados ○ Personalización de anuncios, contenido,… Procesos de un proyecto de minería de datos
  12. 12. ● Previsión ○ ¿Cuánto venderemos el próximo semestre? ● Clasificación ○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de atributos uno de ellos es el atributo clase. ○ Se busca un modelo que describa el atributo clase como una función de los atributos de salida ● Agrupación ○ También conocido como segmentación ○ Identifica grupos naturales basándose en un conjunto de atributos ● Asociación ○ También conocido como análisis de cesta de la compra ● Regresión ○ Similar a clasificación pero con el objetivo de buscar patrones para determinar un valor numérico ○ Ej.: Predicción de la velocidad del viento basada en temperatura Procesos de un proyecto de minería de datos
  13. 13. Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Técnicas de minería de datos
  14. 14. Las técnicas más representativas son ● Redes neuronales ● Árboles de decisión ● Modelos estadísticos ● Agrupamiento o Clustering ● Algoritmos supervisados (o predictivos) ● Algoritmos no supervisados (o del descubrimiento del conocimiento) Técnicas de minería de datos
  15. 15. Redes neuronales Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son: ● El Perceptrón ● El Perceptrón multicapa. ● Los Mapas Autoorganizados, también conocidos como redes de Kohonen. Técnicas de minería de datos
  16. 16. Árboles de decisión Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos: ● Algoritmo ID3. ● Algoritmo C4.5. Técnicas de minería de datos
  17. 17. Modelos estadísticos ● Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Técnicas de minería de datos
  18. 18. Agrupamiento o Clustering Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos: ● Algoritmo K-means. ● Algoritmo K-medoids. Técnicas de minería de datos
  19. 19. Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998): ● Algoritmos supervisados (o predictivos) ○ Predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. ● Algoritmos no supervisados (o del descubrimiento del conocimiento) ○ Se descubren patrones y tendencias en los datos. Técnicas de minería de datos
  20. 20. Técnicas de minería de datos Ejemplo Comprador potencial de bicis: Provincia Ciudad Edad Coche Distancia trabajo Bici
  21. 21. Ciclo de un Proyecto de Minería de Datos
  22. 22. Muchas gracias por vuestra atención
  23. 23. ● dVelox ● KXEN ● KNIME ● Orange ● Powerhouse ● Quiterian ● RapidMiner ● R ● SPSS Clementine ● SAS Enterprise Miner ● STATISTICA Data Miner ● KEEL ● mahout ● Weka Algunas herramientas
  24. 24. Referencias ● http://www.slideshare.net/antoniosql/minera-de-datos ● http://msdn.microsoft.com/es-es/library/ms174949.aspx ● http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos ● http://www.slideshare.net/04071977/mineria-de-datos ● http://mahout.apache.org/ ● https://www.youtube.com/watch?v=43mS9M1ZjU8

×