Minería de datos
Upcoming SlideShare
Loading in...5
×
 

Minería de datos

on

  • 1,609 views

Material para el curso de Big Data.

Material para el curso de Big Data.

Statistics

Views

Total Views
1,609
Slideshare-icon Views on SlideShare
1,380
Embed Views
229

Actions

Likes
2
Downloads
104
Comments
0

2 Embeds 229

http://blogs.alianzo.com 228
http://prlog.ru 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Minería de datos Minería de datos Presentation Transcript

    • Minería de datos
    • ● Introducción● KDD: Proceso de Extracción de conocimiento● Procesos de un proyecto de minería de datos● Técnicas de minería de datos● Ciclo de un Proyecto de Minería de DatosÍndice
    • De donde venimos y hacia dóndevamos
    • ● La minería de datos (DM, Data Mining) consiste en laextracción no trivial de información que reside demanera implícita en los datos. Dicha información erapreviamente desconocida y podrá resultar útil paraalgún proceso. En otras palabras, la minería de datosprepara, sondea y explora los datos para sacar lainformación oculta en ellos.¿Qué es la Minería de Datos?Fuente: wikipedia
    • ● Deducir conocimiento examinando los datos y realizandopredicciones○ «examinar datos» examinar ejemplos de hechos conocidossobre «casos» utilizando sus atributos – «variables»○ «conocimiento»: Patrones, Clusters, Reglas, Árboles deDecisión, Redes Neuronales, Reglas de Asociación,….● OLAP: Análisis orientado al modelo● DM: Análisis orientado al dato● Nombres alternativos: Análisis Predictivo¿Qué es la Minería de Datos?
    • ● La minería de datos (es la etapa de análisis de "Knowledge Discovery inDatabases" o KDD)● Proceso de detectar la información procesable de los conjuntosgrandes de datos.● Utiliza el análisis matemático para deducir los patrones y tendenciasque existen en los datos.● Estos patrones no se pueden detectar mediante la exploracióntradicional de los datos porque las relaciones son demasiado complejas oporque hay demasiado datos.● Estos patrones y tendencias se pueden recopilar y definir como unmodelo de minería de datos.¿Qué es la Minería de Datos?
    • KDD: Proceso de Extracción deconocimientoComo muestra la figura, las etapas del proceso KDD sedividen en 5 fases y son:1. Selección de datos2. Preprocesamiento3. Transformación4. Data Mining5. Interpretación y Evaluación
    • Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de informacióna utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o lasfuentes de datos.2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídosdesde las distintas fuentes de datos en una forma manejable, necesaria para las fasesposteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o enblanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura dedatos adecuada para su posterior transformación.3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación ygeneración de nuevas variables a partir de las ya existentes con una estructura de datosapropiada. Aquí se realizan operaciones de agregación o normalización, consolidando losdatos de una forma necesaria para la fase siguiente.4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes sonaplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmenteinteresantes, basándose en algunas medidas y se realiza una evaluación de los resultadosobtenidos.KDD: Proceso de Extracción deconocimiento
    • Un proyecto de minería de datos tiene varias fasesnecesarias que son, esencialmente:● Comprensión del negocio y del problema que se quiereresolver.● Determinación, obtención y limpieza de los datosnecesarios.● Creación de modelos matemáticos.● Validación, comunicación, etc. de los resultadosobtenidos.● Integración, si procede, de los resultados en unsistema transaccional o similar.Procesos de un proyecto de mineríade datos
    • ● La relación entre todas estas fases sólo eslineal sobre el papel. En realidad, es muchomás compleja y esconde toda una jerarquíade subfases. A través de la experienciaacumulada en proyectos de minería dedatos se han ido desarrollandometodologías que permiten gestionar estacomplejidad de una manera más o menosuniforme.Procesos de un proyecto de mineríade datos
    • ● Generación de Recomendaciones○ ¿Qué productos o servicios deberíamos de ofrecer a nuestrosclientes?● Detección de anomalías○ Detección de fraude● Análisis de Rotación○ ¿Qué clientes son más proclives de irse a la competencia?● Gestión de Riesgos○ ¿Debería de concederse el crédito?● Segmentación de clientes○ Clasificación de nuestros clientes● Anuncios Orientados○ Personalización de anuncios, contenido,…Procesos de un proyecto de mineríade datos
    • ● Previsión○ ¿Cuánto venderemos el próximo semestre?● Clasificación○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto deatributos uno de ellos es el atributo clase.○ Se busca un modelo que describa el atributo clase como una función de losatributos de salida● Agrupación○ También conocido como segmentación○ Identifica grupos naturales basándose en un conjunto de atributos● Asociación○ También conocido como análisis de cesta de la compra● Regresión○ Similar a clasificación pero con el objetivo de buscar patrones para determinarun valor numérico○ Ej.: Predicción de la velocidad del viento basada en temperatura presión deaire y humedadProcesos de un proyecto de mineríade datos
    • Las técnicas de la minería de datos provienende la Inteligencia artificial y de la estadística,dichas técnicas, no son más que algoritmos,más o menos sofisticados que se aplican sobreun conjunto de datos para obtener unosresultados.Técnicas de minería de datos
    • Las técnicas más representativas son● Redes neuronales● Árboles de decisión● Modelos estadísticos● Agrupamiento o Clustering● Algoritmos supervisados (o predictivos)● Algoritmos no supervisados (o del descubrimientodel conocimiento)Técnicas de minería de datos
    • Redes neuronalesSon un paradigma de aprendizaje y procesamientoautomático inspirado en la forma en que funciona elsistema nervioso de los animales. Se trata de un sistemade interconexión de neuronas en una red que colaborapara producir un estímulo de salida. Algunos ejemplos dered neuronal son:● El Perceptrón● El Perceptrón multicapa.● Los Mapas Autoorganizados, también conocidos comoredes de Kohonen.Técnicas de minería de datos
    • Árboles de decisiónUn árbol de decisión es un modelo de predicción utilizadoen el ámbito de la inteligencia artificial, dada una base dedatos se construyen estos diagramas de construccioneslógicas, muy similares a los sistemas de predicciónbasados en reglas, que sirven para representar ycategorizar una serie de condiciones que suceden deforma sucesiva, para la resolución de un problema.Ejemplos:● Algoritmo ID3.● Algoritmo C4.5.Técnicas de minería de datos
    • Modelos estadísticos● Es una expresión simbólica en forma deigualdad o ecuación que se emplea en todoslos diseños experimentales y en la regresiónpara indicar los diferentes factores quemodifican la variable de respuesta.Técnicas de minería de datos
    • Agrupamiento o ClusteringEs un procedimiento de agrupación de una serie devectores según criterios habitualmente de distancia; setratará de disponer los vectores de entrada de forma queestén más cercanos aquellos que tengan característicascomunes.Ejemplos:● Algoritmo K-means.● Algoritmo K-medoids.Técnicas de minería de datos
    • Según el objetivo del análisis de los datos, losalgoritmos utilizados se clasifican en supervisados yno supervisados (Weiss y Indurkhya, 1998):● Algoritmos supervisados (o predictivos)○ Predicen un dato (o un conjunto de ellos)desconocido a priori, a partir de otros conocidos.● Algoritmos no supervisados (o del descubrimiento delconocimiento)○ Se descubren patrones y tendencias en los datos.Técnicas de minería de datos
    • Técnicas de minería de datosEjemploComprador potencial de bicis:Provincia Ciudad Edad Coche Distancia trabajo Bici
    • Ciclo de un Proyecto de Minería deDatos
    • GRACIAS POR SU ATENCIÓNinfo@alianzo.comwww.alianzo.com