Minería de datos

3,331 views
3,185 views

Published on

Material para el curso de Big Data.

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,331
On SlideShare
0
From Embeds
0
Number of Embeds
801
Actions
Shares
0
Downloads
189
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Minería de datos

  1. 1. Minería de datos
  2. 2. ● Introducción● KDD: Proceso de Extracción de conocimiento● Procesos de un proyecto de minería de datos● Técnicas de minería de datos● Ciclo de un Proyecto de Minería de DatosÍndice
  3. 3. De donde venimos y hacia dóndevamos
  4. 4. ● La minería de datos (DM, Data Mining) consiste en laextracción no trivial de información que reside demanera implícita en los datos. Dicha información erapreviamente desconocida y podrá resultar útil paraalgún proceso. En otras palabras, la minería de datosprepara, sondea y explora los datos para sacar lainformación oculta en ellos.¿Qué es la Minería de Datos?Fuente: wikipedia
  5. 5. ● Deducir conocimiento examinando los datos y realizandopredicciones○ «examinar datos» examinar ejemplos de hechos conocidossobre «casos» utilizando sus atributos – «variables»○ «conocimiento»: Patrones, Clusters, Reglas, Árboles deDecisión, Redes Neuronales, Reglas de Asociación,….● OLAP: Análisis orientado al modelo● DM: Análisis orientado al dato● Nombres alternativos: Análisis Predictivo¿Qué es la Minería de Datos?
  6. 6. ● La minería de datos (es la etapa de análisis de "Knowledge Discovery inDatabases" o KDD)● Proceso de detectar la información procesable de los conjuntosgrandes de datos.● Utiliza el análisis matemático para deducir los patrones y tendenciasque existen en los datos.● Estos patrones no se pueden detectar mediante la exploracióntradicional de los datos porque las relaciones son demasiado complejas oporque hay demasiado datos.● Estos patrones y tendencias se pueden recopilar y definir como unmodelo de minería de datos.¿Qué es la Minería de Datos?
  7. 7. KDD: Proceso de Extracción deconocimientoComo muestra la figura, las etapas del proceso KDD sedividen en 5 fases y son:1. Selección de datos2. Preprocesamiento3. Transformación4. Data Mining5. Interpretación y Evaluación
  8. 8. Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de informacióna utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o lasfuentes de datos.2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídosdesde las distintas fuentes de datos en una forma manejable, necesaria para las fasesposteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o enblanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura dedatos adecuada para su posterior transformación.3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación ygeneración de nuevas variables a partir de las ya existentes con una estructura de datosapropiada. Aquí se realizan operaciones de agregación o normalización, consolidando losdatos de una forma necesaria para la fase siguiente.4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes sonaplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmenteinteresantes, basándose en algunas medidas y se realiza una evaluación de los resultadosobtenidos.KDD: Proceso de Extracción deconocimiento
  9. 9. Un proyecto de minería de datos tiene varias fasesnecesarias que son, esencialmente:● Comprensión del negocio y del problema que se quiereresolver.● Determinación, obtención y limpieza de los datosnecesarios.● Creación de modelos matemáticos.● Validación, comunicación, etc. de los resultadosobtenidos.● Integración, si procede, de los resultados en unsistema transaccional o similar.Procesos de un proyecto de mineríade datos
  10. 10. ● La relación entre todas estas fases sólo eslineal sobre el papel. En realidad, es muchomás compleja y esconde toda una jerarquíade subfases. A través de la experienciaacumulada en proyectos de minería dedatos se han ido desarrollandometodologías que permiten gestionar estacomplejidad de una manera más o menosuniforme.Procesos de un proyecto de mineríade datos
  11. 11. ● Generación de Recomendaciones○ ¿Qué productos o servicios deberíamos de ofrecer a nuestrosclientes?● Detección de anomalías○ Detección de fraude● Análisis de Rotación○ ¿Qué clientes son más proclives de irse a la competencia?● Gestión de Riesgos○ ¿Debería de concederse el crédito?● Segmentación de clientes○ Clasificación de nuestros clientes● Anuncios Orientados○ Personalización de anuncios, contenido,…Procesos de un proyecto de mineríade datos
  12. 12. ● Previsión○ ¿Cuánto venderemos el próximo semestre?● Clasificación○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto deatributos uno de ellos es el atributo clase.○ Se busca un modelo que describa el atributo clase como una función de losatributos de salida● Agrupación○ También conocido como segmentación○ Identifica grupos naturales basándose en un conjunto de atributos● Asociación○ También conocido como análisis de cesta de la compra● Regresión○ Similar a clasificación pero con el objetivo de buscar patrones para determinarun valor numérico○ Ej.: Predicción de la velocidad del viento basada en temperatura presión deaire y humedadProcesos de un proyecto de mineríade datos
  13. 13. Las técnicas de la minería de datos provienende la Inteligencia artificial y de la estadística,dichas técnicas, no son más que algoritmos,más o menos sofisticados que se aplican sobreun conjunto de datos para obtener unosresultados.Técnicas de minería de datos
  14. 14. Las técnicas más representativas son● Redes neuronales● Árboles de decisión● Modelos estadísticos● Agrupamiento o Clustering● Algoritmos supervisados (o predictivos)● Algoritmos no supervisados (o del descubrimientodel conocimiento)Técnicas de minería de datos
  15. 15. Redes neuronalesSon un paradigma de aprendizaje y procesamientoautomático inspirado en la forma en que funciona elsistema nervioso de los animales. Se trata de un sistemade interconexión de neuronas en una red que colaborapara producir un estímulo de salida. Algunos ejemplos dered neuronal son:● El Perceptrón● El Perceptrón multicapa.● Los Mapas Autoorganizados, también conocidos comoredes de Kohonen.Técnicas de minería de datos
  16. 16. Árboles de decisiónUn árbol de decisión es un modelo de predicción utilizadoen el ámbito de la inteligencia artificial, dada una base dedatos se construyen estos diagramas de construccioneslógicas, muy similares a los sistemas de predicciónbasados en reglas, que sirven para representar ycategorizar una serie de condiciones que suceden deforma sucesiva, para la resolución de un problema.Ejemplos:● Algoritmo ID3.● Algoritmo C4.5.Técnicas de minería de datos
  17. 17. Modelos estadísticos● Es una expresión simbólica en forma deigualdad o ecuación que se emplea en todoslos diseños experimentales y en la regresiónpara indicar los diferentes factores quemodifican la variable de respuesta.Técnicas de minería de datos
  18. 18. Agrupamiento o ClusteringEs un procedimiento de agrupación de una serie devectores según criterios habitualmente de distancia; setratará de disponer los vectores de entrada de forma queestén más cercanos aquellos que tengan característicascomunes.Ejemplos:● Algoritmo K-means.● Algoritmo K-medoids.Técnicas de minería de datos
  19. 19. Según el objetivo del análisis de los datos, losalgoritmos utilizados se clasifican en supervisados yno supervisados (Weiss y Indurkhya, 1998):● Algoritmos supervisados (o predictivos)○ Predicen un dato (o un conjunto de ellos)desconocido a priori, a partir de otros conocidos.● Algoritmos no supervisados (o del descubrimiento delconocimiento)○ Se descubren patrones y tendencias en los datos.Técnicas de minería de datos
  20. 20. Técnicas de minería de datosEjemploComprador potencial de bicis:Provincia Ciudad Edad Coche Distancia trabajo Bici
  21. 21. Ciclo de un Proyecto de Minería deDatos
  22. 22. GRACIAS POR SU ATENCIÓNinfo@alianzo.comwww.alianzo.com

×