Your SlideShare is downloading. ×
mineria de datos
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

mineria de datos

9,544

Published on

dataminin process

dataminin process

Published in: Education, Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
9,544
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
522
Comments
0
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Mine for: Selection Aggregation Abstraction Visualization Transformation/Conversion Statistical Analysis “ Cleaning”
  • Transcript

    • 1. El Proceso de la Minería de Datos Ing. Samuel Oporto Díaz (Mag) [email_address]
    • 2. Mapa del Curso
    • 3. Tabla de Contenido
      • Metodologías para la minería de datos
        • CRIPS
        • SEMMA
      • El Proceso de la minería de datos
      • CRISP
        • Entendimiento del negocio
        • Preparación y compresión de los datos
        • Transformación y control de datos
        • Modelos de la minería de datos
        • Evaluación del desempeño.
        • Despliegue.
    • 4. METODOLOGIAS PARA LA MINERIA DE DATOS
    • 5. CRIPS
    • 6. CRIPS - DM
      • CR oss- I ndustry S tandard P rocess for Data Mining .
      • Metodología para el proceso de la MD.
      • Valida el proceso, dispone de modelos de referencia (plantillas), ayuda a planear y administrar proyectos.
      • Sin propietario. Desarrollado por algunos líderes de la industria: IBM, SAS, SPSS/ISL, NCR, Daimler-Benz, OHRA
      • Alienta la inter-operatividad de herramientas.
      • Neutral para la Industria y para la herramienta
      • Enfocado al negocio y al análisis técnico
    • 7. Visión general Comprensión del negocio Comprensión de los datos Preparación de los datos Modelación Evaluación Despliegue de resultados DATOS
    • 8. Fases Determinación de los objetivos. Definición de Criterios de Éxito. Calificación de la Situación. Determinación de las metas de la Minería de datos Recolectar los datos iniciales. Descripción de los datos. Exploración de los Datos. Verificación de la Calidad de los datos. Selección de Datos. Limpieza de los Datos. Construcción de Nuevos Datos. Formateo de los Datos. Selección de la Técnica de Modelación. Generación de Pruebas para el Modelo. Construcción del Modelo. Calificación del Modelo. Aplicación del modelo a la rutina diaria. Monitoreo y mantenimiento. Reporte Final Evaluación del modelo con respecto a los objetivos del proyecto. Evaluación costo-beneficio. Evaluar su aplicación en la realidad Comprensión de negocio Entendimiento de datos Preparación de datos Modelado Evaluación Despliegue de resultados
    • 9. SEMMA
    • 10. SEMMA
      • Es una metodología propuesta por SAS que significa:
      • (Sample, Explore, Modify, Model, Assess)
      • Muestrea, Explora, Modifica, Modela, Evalúa
    • 11. SEMMA
      • Muestreo.
      • Extrae muestras desde la población, para aplicar el análisis.
      • Selecciona una muestra representativa del problema en estudio.
      • Muestreo aleatorio simple. Muestreo aleatorio con reposición.
      • Establece un nivel de confianza para la muestra.
      • Exploración.
      • Para simplificar el problema y optimizar la eficiencia del modelo.
      • Usa herramientas de visualización y técnicas de estadísticas descriptiva.
      • Determina las variables explicativas (entradas al modelo)
    • 12. SEMMA
      • Modifica
      • Formatea los datos, para ser utilizado por el modelo.
      • Modela
      • Establece una relación [variables explicativas y variables objetivo]
      • Trabaja con un nivel de confianza determinado.
      • Las técnicas son: análisis discriminante, métodos de agrupamiento, y análisis de regresión, redes neuronales, técnicas adaptativas, lógica fuzzy, árboles de decisión, reglas de asociación y computación evolutiva.
      • Evalúa.
      • Valora los resultados mediante el análisis de bondad del modelo.
      • Contrasta con otros métodos estadísticos o con nuevas muestras.
    • 13. Uso de la metodologías
      • http://www.kdnuggets.com
    • 14. Comparación SEMMA CRISP Orientado al desarrollo del proceso de MD Orientado a los objetivos empresariales Se inicia analizando los datos Se inicia analizando los objetivos del negocio Ligada a productos SAS Metodología abierta y gratuita Orientado a una metodología de gestión de proyectos
    • 15. EL PROCESO DE LA MINERÍA DE DATOS
    • 16. El Proceso de la Minería de Datos Explotación Data Selección Conocimiento Patrones Minería de Datos Interpretación/ Evaluación Preparación de Datos Data Pre-procesada Datos Modelos Despliegue inducción deducción
    • 17. El Proceso de la Minería de Datos
      • Recopilación. Desde BDMS, datamarts, texto, imágenes, video, sonido, etc.
      • Selección de Datos. Selección de atributos relevantes. Selección de muestras.
      • Preparación de Datos (Pre-procesamiento). Mejora de la calidad de los datos, eliminación de atributos irrelevantes, eliminación de datos extremos, datos faltantes.
      • Minería de Datos. Generación de modelos desde lo datos recopilados y seleccionados. Uso de modelos.
      • Interpretación y evaluación. Evaluación y uso de los resultados obtenidos, reformulación del modelo.
    • 18. El Proceso de la Minería de Datos Data Objetivo Data Pre-procesada Data Transformada Patrones Fuentes de datos Pre-procesamiento Exploración y transformación Reconocimiento de Patrones Evaluación e Interpretación Data cruda DHW DBMS Texto Evaluación y Entendimiento
      • Muestreo y Selección
      • Muestreo
      • Selección
      • Limpieza de Datos
      • Datos que no existen
      • Datos no clasificados
      • Identificación de extremos
      • Eliminación de Ruido
      • Transformación de Datos
      • Reducción de Dimensionalidad
      • Creación de Características
      • Normalización de Datos
      • Variables Correlacionadas
      • Discretización
      Reportes y Visualización
      • Modelado
      • Clasificación
      • Regresión
      • Agrupamiento
      • Asociación
      • Secuenciación
    • 19. CRIPS
    • 20. Jerarquía
    • 21. Fases
    • 22. Tareas Genéricas y Resultados
    • 23.
      • Comprensión de negocio.
      • Declaración del objetivo de negocio
      • Declaración de los criterios de éxito
      • Declaración del objetivo de la minería de datos
      • Preparar el plan de trabajo
      • Preparar la estrategia para lograr el éxito.
      Fases en el proceso de MD ( 1 )
    • 24. Comprensión de negocio
    • 25.
      • Entendimiento de datos
      • Coleccionar los datos.
      • Describir los datos
      • Exploración de los datos.
      • Evaluar la calidad de datos
      • Búsqueda de valores atípicos
      Fases en el proceso de MD ( 2 )
    • 26. Entendimiento de los Datos
    • 27. Entendimiento de los Datos Recolección de datos iníciales Descripción de los datos Exploración de los datos Verificación de la calidad de los datos univariada multivariada series de datos
    • 28.
      • Preparación de datos.
      • Preparar la data inicial para ser usado en el proceso de MD.
      • Seleccionar casos y variables que queremos analizar y que son apropiados.
      • Ejecutar transformaciones sobre datos
      • Limpiar la data para que sea leído por las herramientas.
      Fases en el proceso de MD ( 3 ) 60% del tiempo
    • 29. Preparación de los Datos
    • 30. Preparación de los Datos Limpieza de datos Integración de Datos Transformación de datos Reducción de datos Valores extremos Valores null Valores con ruido Valores inconsistentes Valores mal clasificados Problemas de semántica ¿significa lo mismo? Problemas de temporalidad ¿cuándo fue registrado? Problemas de codificación y formato. Problemas de idioma. Problemas de duplicidad ¿cuál vale? Problema de medio de almacenamiento. Filas: suma y agregación de datos Columnas: log, sin, exp, tan, etc… Funciones entre columnas.
    • 31.
      • Construcción del modelo
      • ¿Qué técnicas de modelado usar para el proyecto?
      • Usar experiencias de otros
      • Calibrar los parámetros del modelo.
      Fases en el proceso de MD( 4) D P
      • El modelado es un proceso iterativo.
      • Es un proceso de prueba y error.
      • Es diferente del aprendizaje supervisado y no supervisado
      • Se modela para describir o predecir.
      • Modelos de predicción para regresión y clasificación
        • Algoritmos de regresión, predecir resultado numérico.
      • Modelos descriptivos para agrupamiento y búsqueda de asociaciones
        • Algoritmos de Clustering y asociación y secuenciación
    • 32. Modelado
    • 33. Modelos de Minería de Datos
      • Clasificación. Clasificar objetos en clases (categórico)
      • Regresión. Mapeo de variables (continuo)
      • Pronóstico. Series de tiempo.
      • Agrupamiento. Identificar grupos en los datos
      • Reglas de Buscar relaciones en los datos
      • Asociación.
      • Secuenciación Identificar el siguiente de la secuencia.
      P D D D P
    • 34.
      • Evaluación.
      • Evalúa la calidad y la efectividad del modelo antes de ser usado en la realidad.
      • Se mide en función de los objetivos planteados en la primera etapa.
      • Estable qué factores del negocio o problema de la investigación no se ha considerado suficientemente.
      Fases en el proceso de MD( 5)
    • 35. Evaluación del Modelo
    • 36. Evaluación de Modelos Matriz de confusión Curva ROC Lift charts
    • 37.
      • Despliegue.
      • ¿Cómo se usaran los resultados obtenidos?
      • ¿Quién necesita usarlos?’
      • ¿Con qué frecuencia se usaran?
      • Aplicado por el área responsable.
      Fases en el proceso de MD( 6)
      • Tipo de despliegue:
      • Simple . generar un reporte
      • Complejo . implementar un proceso de MD para una empresa
    • 38. Explotación de Resultados
    • 39. ESTÁNDARES PARA LA MINERIA DE DATOS
    • 40. Estándares
      • OLE DB for DM.
      • Especifica la interfaz común entre un DM Consumer y DM Provider.
      • Es auspiciado por Microsoft para usar algoritmos de ≠ proveedores.
      • Define un lenguaje para MD, para crear, entrenar y predecir con modelos.
      • Define un modelo de datos para los métodos y algoritmos de MD.
      CREATE MINING MODEL [Heart_Health Prediction] [ID] Int Key, [Age] Int, [Smoker] Int, [Salary] Double discretized, [HeartAttack] Int PREDICT, USING [Decision_Trees_101] INSERT INTO [Heart_Health Prediction] ([ID], [Age], [Smoker], [Salary]) SELECT [ID],[Age], [Smoker], [Salary] FROM Patient_Medical M, Patient_Financial F WHERE M.ID = F.ID SELECT t.[ID], [Heart_Health Prediction].[HeartAttack] FROM [Heart_Health Prediction] PREDICTION JOIN ( SELECT [ID],[Age],[Smoker],[Salary] FROM Patient_Medical M, Patient_Financial F WHERE M.ID = F.ID) as t ON [Heart_Health Prediction].Age = t.Age AND [Heath_Health Prediction].Smoker = t.Smoker AND [Heart_Health Prediction].Salary = t.Salary Identifica las columnas de entrenamiento, la columna a predecir y el algoritmo de minería de datos El INSERT representa los datos usados para el entrenamiento del modelo Usa el modelo entrenado y los datos actuales para hacer predicciones
    • 41. Estándares
      • SQL MM/DM
      • SQL/ Multimedia for Data Mining) fue propuesto por IBM.
      • Trabaja con texto, datos espaciales, imágenes y algoritmos de MD.
      • Trabaja con tipos de datos definidos por los usuarios y métodos en una base de datos para MD.
      • XML for Analysis:
      • Es un estándar de la industria propuesto por el “XML / A Council”.
      • Crea el lenguaje de consultas “query language Data Mining eXtensions” (DMX)
      • Permite consultas basadas en XML a los servidores de MD.
      • Java Data Mining API.
      • Es un paquete JAVA para MD propuesto por ORACLE.
      • El objetivo es permitir a las aplicaciones JAVA usar motores de MD.
    • 42. Estándares
      • PMML.
      • Es un lenguaje de marcas basado en XML.
      • Describe modelos estadísticos y de MD.
      • Define datos de entrada, transformaciones y parámetros del modelo.
      • Existe un esquema XML para cada tipo de modelo de MD.
    • 43. HERRAMIENTAS DE SOFTWARE PARA MINERÍA DE DATOS
    • 44. SAS System
    • 45. SQL Server Data Mining
    • 46. ORACLE DATA MINING
    • 47. IBM - DB2 Intelligent Miner
    • 48. SPSS Data Mining Pack
    • 49. Clementine
    • 50. Weka
    • 51. XLMiner
    • 52. Bibliografía
      • Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.
      • Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).
      • Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.
      • Introducción a la minería de datos . J. Hernández, J. Ramírez.
    • 53. PREGUNTAS
    • 54. Mg. Samuel Oporto Díaz [email_address] http://www.wiphala.net/oporto

    ×