Este documento describe un curso de análisis predictivo y minería de datos con RapidMiner. El curso enseñará técnicas de minería de datos como clasificación, regresión, agrupamiento y asociación usando herramientas como árboles de decisión, redes neuronales y el algoritmo Apriori. El curso se centrará en el desarrollo de modelos matemáticos para la toma de decisiones y consta de 7 sesiones con contenido y proyectos prácticos.
1. Limitless Power of Information (LPI)
AddKw S.r.L.
CURSO TALLER EN ANALISIS PREDICTIVO – MINERIA DE DATOS CON RAPID MINER - 2015
DESARROLLO DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
FORMACION EN ANALYTICS
1
2. Limitless Power of Information (LPI)
AddKw S.r.L.
CURSO TALLER EN ANALISIS PREDICTIVO – MINERIA DE DATOS CON RAPID MINER - 2015
DESARROLLO DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
1. SUMILLA
El análisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones
tal que permitan llegar a conclusiones fiables sobre eventos actuales y futuros, permite
mejorar el conocimiento del negocio tal como el comportamiento de los clientes,
empleados, pacientes, estudiantes y ciudadanos. Los dominios de aplicación pueden estar
en empresas comercializadoras, de producción, finanzas, energía, gobierno, etc.
La minería de datos es el proceso de descubrir conocimiento desde bases de datos,
mediante un proceso de extracción no trivial de información implícita, previamente
desconocida y potencialmente útil. Descubrir conocimiento implica buscar patrones de
comportamiento aún no conocidos en los datos. El conocimiento se puede manifestar
como: patrones, reglas de conocimiento, asociaciones, grupos, restricciones, tendencias,
etc.
La minería de textos es el proceso para descubrir conocimiento almacenado en documentos
(datos no estructurados). Comprende las siguientes actividades fundamentales:
Clasificación de documentos para la asignación automática a clases pre-definidas;
Agrupamiento de documentos para la identificación de documentos similares; Recuperación
de información (similar a un buscador); Extracción de la información incluida en esos
textos (hechos); y Extracción de asociaciones entre los hechos extraídos.
2. OBJETIVOS
Al final del curso los alumnos estarán en capacidad de:
• Comprender y usar las técnicas para el muestreo, descripción, limpieza y
transformación de datos mediante la identificación y eliminación de datos extremos,
valores nulos y datos mal clasificados, la selección de características y el balanceo de
datos.
• Comprender el proceso de la minería de datos para extraer patrones de
comportamiento haciendo uso de la metodología CRISP-DM.
• Diseñar, desarrollar, evaluar y comprender los modelo descriptivos – reglas de
asociación y agrupamiento y los modelos predictivos – clasificación y regresión, con la
finalidad de identificar patrones de comportamiento (conocimiento oculto).
• Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los
modelos basado en su efectividad haciendo uso de la matriz de clasificación y del MAPE
• Comprender, usar y entender los resultados entregados por los programas de software.
• Entender y aplicar los algoritmos de redes neuronales, árboles de decisión, modelo
naive bayes, regresión logística, k-means, maximización de expectativas y algoritmo a
priori.
• Conocer y entender los fundamentos y problemáticas actuales de Minería de Textos en
comparación a Data Mining tradicional.
• Comprender y usar las técnicas para el análisis y la preparación de documentos.
2
3. Limitless Power of Information (LPI)
AddKw S.r.L.
CURSO TALLER EN ANALISIS PREDICTIVO – MINERIA DE DATOS CON RAPID MINER - 2015
DESARROLLO DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
3. LA METODOLOGIA DE ENSEÑANZA
El curso se desarrolla a través de procesos de e-learning de transferencia de
conocimiento, basados en la plataforma TeamViewer (TeamViewer es un plataforma
altamente eficiente en el proceso de intercambio de conocimiento).
Se presentarán diapositivas y transparencias para las sesiones del curso.
• En cada sesión se desarrolla un grupo de conceptos que luego son reforzados
mediante el desarrollo de un caso de aplicación práctica.
• Tareas domiciliarias para desarrollar casos que integran los conceptos previamente
aprendidos.
3
4. Limitless Power of Information (LPI)
AddKw S.r.L.
CURSO TALLER EN ANALISIS PREDICTIVO – MINERIA DE DATOS CON RAPID MINER - 2015
DESARROLLO DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
4. UNIDADES Y CONTENIDOS TEMÁTICOS POR SESIÓN 32 Horas
4.1.PROGRAMA SEMANAL (CLASES)
Sesión HRS. TEMA
1 4
INTRODUCCIÓN A LOS FUNDAMENTOS DE MINERÍA DE DATOS
Fundamentos de análisis de datos. Conceptos y conocimientos previos.
Definición de la Minería de Datos. Herramientas de software disponibles.
Modelo de minería de datos. Evaluación del desempeño. Matriz de
confusión. Lift charts. Curva ROC. El proceso de la minería de datos.
Metodologías para la minería de datos. CRISP-DM. SEMMA. El proceso de la
minería de datos (CRISP).
2 4
ENTENDIMIENTO Y PREPARACIÓN DE
Entendimiento de los datos. Recolección de datos iníciales. Descripción de
los datos. Estadísticas descriptiva univariada y multivariada. Relaciones
entre series de datos. Exploración de los datos. Verificación de la calidad
de los datos. Preparación de datos. Limpieza de datos. Datos perdidos.
Valores extremos. Datos con ruido. Datos mal clasificados. Datos
inconsistentes. Integración de datos. Transformación de datos. Reducción
de datos. Reducción de datos. Reducción de instancias.
3 4
MODELOS DE CLASIFICACIÓN – ARBOLES DE DECISION (
Métodos de Clasificación. Inducción. Atributos y clase. Evaluación de
modelos de clasificación. Probabilidad de una clasificación. Clasificador
Naive Bayes. Probabilidades. Clasificador Naive Bayes. Arboles de
Decisión. Árbol de decisión. Información y entropía. Generación del árbol
de decisión. Poda del árbol. Regresión Logística. Discretización y
numerización.
4 4
MODELOS DE REGRESIÓN – REDES NEURONALES
Modelos de Regresión. Evaluación de modelos de regresión. MAPE.
Neuronas naturales y artificiales. Épocas, función de transferencia.
Aprendizaje de la red neuronal. Preparación de datos. Red Perceptrón.
Red de retro propagación. Análisis de las Redes Neuronales. Sub-ajuste y
sobre-ajuste. Normalización de datos. Neuronas de la capa intermedia.
5 4
MODELOS DE AGRUPAMIENTO – K-MEANS Y ALGORITMO EM
Modelos de agrupamiento. Conceptos de agrupamiento. Conceptos de
agrupamiento. Medidas de distancias. Tipos de agrupamiento.
Componentes Principales. Modelos de Agrupamiento. K-means. Jerárquico.
Modelos de agrupamiento y modelos de clasificación.
6 4 MODELOS DE ASOCIACIÓN – ALGORITMO A PRIORI
Conceptos acerca de modelos de asociación, entendiendo conceptos
4
5. Limitless Power of Information (LPI)
AddKw S.r.L.
CURSO TALLER EN ANALISIS PREDICTIVO – MINERIA DE DATOS CON RAPID MINER - 2015
DESARROLLO DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
como: soporte, confianza, itemset. Buscando itemsets frecuentes.
Graficando las reglas de asociación. Generando reglas de asociación.
Predicción. Ventas cruzadas, Canasta de mercado.
7 4
INTRODUCCIÓN A LA MINERIA DE TEXTOS (TEXT MINING)
¿Qué es la minería de textos?. Colecciones de documentos corpus. Datos
semi-estructurados y datos no estructurados. Técnicas de minería de
textos. El proceso de la minería de textos. Herramientas.
Lingüística, Morfología, Sintaxis, Semántica. Conceptos básicos,
Gramática, Léxico, Sintaxis. Tokenización. Stop words. Stemming. Vector
de Indices.
5
6. Limitless Power of Information (LPI)
AddKw S.r.L.
CURSO TALLER EN ANALISIS PREDICTIVO – MINERIA DE DATOS CON RAPID MINER - 2015
DESARROLLO DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
5. BIBLIOGRAFIA
1. Introducción a la minería de datos. 2004. José Hernández, M.José Ramírez, Cèsar
Ferri. Editorial Pearson, ISBN: 84 205 4091 9
2. Data Mining with Microsoft SQL Server 2008. 2009 Jamie MacLennan, ZhaoHui
Tang, Bogdan Crivat. Wiley Publishing Inc. ISBN 908-0-470-27774-4
3. Data Mining: Practical Machine Learning Tools and Techniques. 2005 Ian H.
Witten, Eibe Frank. Morgan Kaufmann; 2st edition. 560 pp. ISBN: 0120884070
4. Data Mining: Concepts and Techniques, 2000 Jiawei Han, Micheline Kamber.
Morgan Kaufmann; 1st edition, 500 pp. ISBN: 1558604898
6. REQUERIMIENTOS
Para el dictado del curso el estudiante debe tener lo siguiente
Una Línea de Internet mínimo de 2 MB.
Un equipo I5 con mínimo 4 GB de RAM, Tercera Generación, ya que se les
entregará una máquina virtual con el Software Base Instalado.
Debe tener el Audio y el video correcto.
6
7. Limitless Power of Information (LPI)
AddKw S.r.L.
CURSO TALLER EN ANALISIS PREDICTIVO – MINERIA DE DATOS CON RAPID MINER - 2015
DESARROLLO DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
5. BIBLIOGRAFIA
1. Introducción a la minería de datos. 2004. José Hernández, M.José Ramírez, Cèsar
Ferri. Editorial Pearson, ISBN: 84 205 4091 9
2. Data Mining with Microsoft SQL Server 2008. 2009 Jamie MacLennan, ZhaoHui
Tang, Bogdan Crivat. Wiley Publishing Inc. ISBN 908-0-470-27774-4
3. Data Mining: Practical Machine Learning Tools and Techniques. 2005 Ian H.
Witten, Eibe Frank. Morgan Kaufmann; 2st edition. 560 pp. ISBN: 0120884070
4. Data Mining: Concepts and Techniques, 2000 Jiawei Han, Micheline Kamber.
Morgan Kaufmann; 1st edition, 500 pp. ISBN: 1558604898
6. REQUERIMIENTOS
Para el dictado del curso el estudiante debe tener lo siguiente
Una Línea de Internet mínimo de 2 MB.
Un equipo I5 con mínimo 4 GB de RAM, Tercera Generación, ya que se les
entregará una máquina virtual con el Software Base Instalado.
Debe tener el Audio y el video correcto.
6