Objetivo: Aplicar técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.
1. Ph.D. Franklin Parrales 1
08/02/2022
Inteligencia de Negocios Carrera de Software
Minería de datos
Unidad 3
Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo
para uso de los cursos de Inteligencia de Negocios
2. Ph.D. Franklin Parrales 2
08/02/2022
Inteligencia de Negocios Carrera de Software
Objetivo general de la Unidad 3
Aplicar técnicas y tecnologías que permiten explorar
grandes bases de datos, de manera automática o
semiautomática, con el objetivo de encontrar patrones
repetitivos que expliquen el comportamiento de estos
datos.
3. Ph.D. Franklin Parrales 3
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
5. Ph.D. Franklin Parrales 5
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso de Descubrimiento del
conocimiento KDD
Se suele componer de cuatro etapas principales:
• Determinación de los objetivos. Trata de la delimitación de los objetivos
que el cliente desea bajo la orientación del especialista en minería de
datos.
• Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos.
Esta etapa consume generalmente alrededor del setenta por ciento del
tiempo total de un proyecto de minería de datos.
• Determinación del modelo. Se comienza realizando unos análisis
estadísticos de los datos, y después se lleva a cabo una visualización
gráfica de los mismos para tener una primera aproximación. Según los
objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse
algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
• Análisis de los resultados. Verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por los análisis estadísticos y de
visualización gráfica. El cliente determina si son novedosos y si le aportan
un nuevo conocimiento que le permita considerar sus decisiones.
6. Ph.D. Franklin Parrales 6
08/02/2022
Inteligencia de Negocios Carrera de Software
CRISP-DM
• CRISP-DM (del inglés Cross Industry
Standard Process for Data Mining) se trata
de un modelo estándar abierto del
proceso que describe los enfoques
comunes que utilizan los expertos en
minería de datos.
• La metodología CRISP-DM aborda el ciclo
de vida de un proyecto de minería de
datos
7. Ph.D. Franklin Parrales 7
08/02/2022
Inteligencia de Negocios Carrera de Software
CRISP-DM
Clinical
data
Comprender
los requisitos
Comprensión
de datos
Preprocesamiento
de datos
Modelado
Evaluación
Clinical
data
Data
Despliegue
8. Ph.D. Franklin Parrales 8
08/02/2022
Inteligencia de Negocios Carrera de Software
Comprender los
requisitos
Comprensión de
datos
Preprocesamiento
de datos
Modelado
Determinar los objetivos
médicos
• Antecedentes
• Objetivos
• Criterios de éxito
Evaluar la situación
• Inventario de recursos
• Requisitos, suposiciones y
restricciones
• Riesgos y Contingencias
• Terminología
• Costos y beneficios
Determinar
Objetivos de minería de
datos
• Objetivos de minería de
datos
• Criterios de éxito en
minería de datos
Producir el plan de proyecto
• Plan de proyecto
• Evaluación inicial de
herramientas y técnicas
Conjunto de datos
• Descripción del
conjunto de datos
Seleccionar datos
• Justificación para
la inclusión /
exclusión
Limpieza de datos
• Informe de
limpieza de datos
Construcción de
datos
• Atributos
derivados
• Registros
generados
Integrar datos
• Mezclar datos
Formato de datos
• Datos
reformateados
• Recoger datos
iniciales
• Describir datos
• Explorar datos
Seleccionar técnica
de modelado
• Técnica de
modelado
• Suposiciones de
modelado
Generar diseño de
prueba
• Diseño de prueba
Construir modelo
• Ajustes de
parámetros de
los modelos
• Descripción del
modelo
Modelo de
evaluación
• Evaluación del
modelo
• Ajustes de
parámetros
revisados
9. Ph.D. Franklin Parrales 9
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación Despliegue
Evaluar resultados
• Evaluación
resultados de
acuerdo a los
criterios de éxito.
Modelos aprobados
Proceso de revisión
• Revisión del
proceso
Determinar los
próximos pasos
• Lista de acciones
posibles
• Decisión
Implementación del
plan
• Plan de empleo
Plan de monitoreo
y mantenimiento
• Monitoreo y
mantenimiento
Producir informe
final
• Reporte final
• Presentación
final
Proyecto de
Revisión
• Documentación
de experiencias
10. Ph.D. Franklin Parrales 10
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del
conocimiento KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de
Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
11. Ph.D. Franklin Parrales 11
08/02/2022
Inteligencia de Negocios Carrera de Software
Minería de datos
• Es el proceso de hallar anomalías, patrones y
correlaciones en grandes conjuntos de datos para
predecir resultados.
• Empleando una amplia variedad de técnicas, se
puede utilizar esta información para incrementar
sus ingresos, recortar costos, mejorar sus
relaciones con clientes, reducir riesgos y más.
• La minería de datos es un método asistido por
ordenador que utiliza conceptos obtenidos de las
tecnologías de la información, estadísticas y
matemáticas para analizar datos.
12. Ph.D. Franklin Parrales 12
08/02/2022
Inteligencia de Negocios Carrera de Software
Ventajas aplicada a los negocios
• Permite descubrir información que no esperábamos obtener. Esto
se debe a su funcionamiento con algoritmos, ya que permite hacer
muchas combinaciones distintas.
• Es capaz de analizar bases de datos con una enorme cantidad de
datos.
• Los resultados son muy fáciles de interpretar y no es necesario
tener conocimientos en ingeniería informática.
• Permite encontrar, atraer y retener clientes.
• La empresa puede mejorar la atención al cliente a partir de la
información obtenida.
• Da a las empresas la posibilidad de ofrecer a los clientes los
productos o servicios que necesitan.
• Antes de usar los modelos, estos son comprobados mediante
estadísticas para verificar que las predicciones obtenidas son
válidas.
• Ahorra costes a la empresa y abre nuevas oportunidades de
negocio.
13. Ph.D. Franklin Parrales 13
08/02/2022
Inteligencia de Negocios Carrera de Software
Desventajas aplicada a los negocios
• Dependiendo del tipo de datos que se
quiera recopilar, nos puede llevar mucho
trabajo.
• La inversión inicial para obtener las
tecnologías necesarias para la
recopilación de datos puede tener un
coste elevado.
14. Ph.D. Franklin Parrales 14
08/02/2022
Inteligencia de Negocios Carrera de Software
Aplicación de la minería de datos
• 'Marketing'. El data mining en marketing predice también qué usuarios
pueden darse de baja de un servicio, qué les interesa según sus
búsquedas o qué debe incluir una lista de correo para lograr una tasa de
respuesta mayor.
• Comercio minorista. Los supermercados, por ejemplo, emplean los patrones
de compra conjunta para identificar asociaciones de productos y decidir
cómo situarlos en los diferentes pasillos y estanterías de los lineales. El data
mining detecta además qué ofertas son las más valoradas por los
clientes o incrementa la venta en la cola de caja.
• Banca. Los bancos recurren a la minería de datos para entender mejor los
riesgos del mercado.
• Medicina. La minería de datos favorece diagnósticos más precisos. Al contar
con toda la información del paciente —historial, examen físico y patrones de
terapias anteriores— se pueden prescribir tratamientos más efectivos.
• Televisión y radio. Hay cadenas que aplican la minería de datos en tiempo
real a sus registros de audiencia en televisión online (IPTV) y radio. Estos
sistemas recaban y analizan sobre la marcha información anónima de las
visualizaciones, las retransmisiones y la programación de los canales.
Gracias al data mining se pueden emitir recomendaciones
personalizadas a los radioyentes y telespectadores.
15. Ph.D. Franklin Parrales 15
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de datos que pueden ser minados
No todos los modelos de datos pueden ser minados.
• Datos almacenados en una base de datos
• Data warehouse
• Data transaccional
• Otros tipos de datos
– Datos de diseño de ingeniería
– Datos de secuencia
– Flujos de datos
– Datos de gráficos
– Datos espaciales
– Multimedia
Cualquier dato que tenga estructura, significados semánticos
16. Ph.D. Franklin Parrales 16
08/02/2022
Inteligencia de Negocios Carrera de Software
Diferencias entre minado de datos y
Big Data
• Aunque parezca lo mismo, el minado de datos y el Big
Data son conceptos diferentes, aunque con una
misma base.
• El Big Data es una tecnología que tiene la capacidad
de capturar, gestionar y procesar de forma veraz todo
tipo de datos, utilizando herramientas o softwares que
identifican patrones comunes.
• Cuando hablamos de Data Mining nos referimos al
análisis de los grandes datos.
• En resumen, Big Data y Minería de datos podrían ser
definidos como el “activo” y el “manejo”,
respectivamente.
• No hay minería de datos sin Big Data
17. Ph.D. Franklin Parrales 17
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
18. Ph.D. Franklin Parrales 18
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué es la ciencia de datos?
• La ciencia de datos es un campo
interdisciplinario que involucra métodos
científicos, procesos y sistemas para extraer
conocimiento o un mejor entendimiento de datos
en sus diferentes formas( estructurados/no
estructurados).
19. Ph.D. Franklin Parrales 19
08/02/2022
Inteligencia de Negocios Carrera de Software
¿quién es un científico de datos ?
• Es una persona formada en las ciencias
matemáticas y las estadísticas que
domina la programación y sus diferentes
lenguajes(Python, R, Scala, etc..),
ciencias de la computación y analítica.
• Además, debe saber comunicar sus
hallazgos a medida que los tiene, no sólo
al área de tecnología sino además al
sector de los negocios.
20. Ph.D. Franklin Parrales 20
08/02/2022
Inteligencia de Negocios Carrera de Software
¿quién es un científico de datos ?
21. Ph.D. Franklin Parrales 21
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué hace un científico de datos?
Masson y Wiggins (A taxonomy of Data
Science Mason and Wiggins, 2010) definen los
cinco pasos que realiza un científico de datos:
– Obtener datos
– Manipular datos
– Explorar datos
– Modelar datos
– Intepretar datos
22. Ph.D. Franklin Parrales 22
08/02/2022
Inteligencia de Negocios Carrera de Software
¿ quién es un científico de datos ?
• Trabajan en cualquier área, con el objetivo de obtener
respuestas fiables a problemas cotidianos como por
ejemplo:
– Saber cual es el mejor momento para comprar un boleto
de avión, hacer una reservación a un hotel (Bueno, Bonito
y Barato). Por ejemplo: Best Day, Trivago, etc..
– Predecir los gustos de los usuarios y mostrarle la mejor
opción y/o recomendación. Por ejemplo: Amazon, Netflix.
– Descubrir si una persona puede tener riesgo de padecer
una enfermedad. Por ejemplo: La secuenciación, mapeo
y análisis de los códigos ADN y ARN para, de esta
manera, comprender cómo los genes funcionan y qué
impacto tienen en las enfermedades.
23. Ph.D. Franklin Parrales 23
08/02/2022
Inteligencia de Negocios Carrera de Software
Recordando… ¿qué es big data?
• Big data (en español,
grandes datos o grandes
volúmenes de datos) es un
término evolutivo que
describe cualquier cantidad
voluminosa de datos
estructurados,
semiestructurados y no
estructurados que tienen
el potencial de ser extraídos
para obtener información.
24. Ph.D. Franklin Parrales 24
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué lo motiva?
• Los blogs generan cerca de
2 millones de entradas
nuevas.
• En Google se realizan más
de 5 millones de consultas.
• WhatsApp envía 25 millones
de mensajes.
• El número de correos
electrónicos que se envían
supera los 100 millones.
25. Ph.D. Franklin Parrales 25
08/02/2022
Inteligencia de Negocios Carrera de Software
Entonces, ¿cuál es la diferencia entre
ciencia de datos y big data?
El Big Data es parte de la Ciencia de Datos, y para hacer
Ciencia de Datos NO necesitas Big Data.
26. Ph.D. Franklin Parrales 26
08/02/2022
Inteligencia de Negocios Carrera de Software
Ciencia de Datos (Big Data) + Redes
Sociales
• Análisis de sentimiento o Minería de
opinión
– Ejemplo: Campaña de Barack Obama
• Sistemas de recomendación
– Ejemplo: Recomendación de amigos en
facebook
• Segmentación de clientes
– Ejemplo: Campañas dirigidas
27. Ph.D. Franklin Parrales 27
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
28. Ph.D. Franklin Parrales 28
08/02/2022
Inteligencia de Negocios Carrera de Software
A modo de introducción…
Id Age
Relatives with
cancer Stage Treatment
1 child yes I X
2 young no II Y
3 adult yes III Z
4 young yes II Y
5 adult no IV Z
… … … … …
Dataset
Instancia/Record
Atributos
Class
attribute
Etiqueta/Label
29. Ph.D. Franklin Parrales 29
08/02/2022
Inteligencia de Negocios Carrera de Software
Algoritmos
• Los algoritmos de minería de datos
revelan relaciones lógicas en forma de
patrones y tendencias.
• Son de gran ayuda para identificar
correlaciones, regularidades, problemas y
puntos débiles.
30. Ph.D. Franklin Parrales 30
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje Supervisado
• En el aprendizaje supervisado, los algoritmos
trabajan con datos “etiquetados” (labeled data)
• Intentan encontrar una función que, dadas las
variables de entrada (input data), les asigne la
etiqueta de salida adecuada.
• El algoritmo se entrena con un “histórico” de
datos y así “aprende” a asignar la etiqueta de
salida adecuada a un nuevo valor, es
decir, predice el valor de salida (Simeone,
2018)
31. Ph.D. Franklin Parrales 31
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje Supervisado
Las dos grandes familias de
algoritmos supervisados son:
• Los algoritmos de regresión
cuando el resultado a predecir
es un atributo numérico.
• Los algoritmos de clasificación
cuando el resultado a predecir
es un atributo categórico
32. Ph.D. Franklin Parrales 32
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje Supervisado
Documentos,
textos de
entrenamiento
, imágenes,
etc.
Etiquetas
Nuevo
documentos,
texto, imagen,
etc.
Algoritmo
de
aprendizaje
automático
Modelo
predictivo
Etiqueta
esperada
Vectores de
características
Vector de
características
33. Ph.D. Franklin Parrales 33
08/02/2022
Inteligencia de Negocios Carrera de Software
Clustering (agrupamiento)
Aprendizaje NO supervisado:
Encuentra agrupaciones
"naturales" de instancias con
datos no etiquetados.
34. Ph.D. Franklin Parrales 34
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje No Supervisado
El aprendizaje no supervisado
está dedicado a las tareas de
agrupamiento, también
llamadas clustering o
segmentación, donde su
objetivo es encontrar grupos
similares en el conjunto de
datos.
35. Ph.D. Franklin Parrales 35
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación vs. Clustering (agrupamiento)
Clasificación: Aprendizaje supervizado:
Aprende un método para predecir la clase de instancia a partir de
instancias previamente etiquetadas (clasificadas)
36. Ph.D. Franklin Parrales 36
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelos y algoritmos
ordenador
(algoritmo de
aprendizaje)
Datos de
entrada
Datos de
salida
Patrones
Datos de
entrenamiento
Modelo
x, y g() g(x, y) = f()
f(x) = y
^
^ ^
37. Ph.D. Franklin Parrales 37
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso
Obtención de
datos
Análisis de
datos
Preprocesamiento
Modelado
Análisis del
modelo
Integración
selección, extracción, captura, muestreo, observación, medición, sondeo, enriquecimiento…
estadística descriptiva, histograma, dispersión, valores atípicos, valores vacíos
interpretación, evaluación, validación, valoración, análisis de errores
aplicación, explotación, uso
aprendizaje automático (supervisado o no)
transformación, escalado, normalización, redimensionado...
38. Ph.D. Franklin Parrales 38
08/02/2022
Inteligencia de Negocios Carrera de Software
“Debemos sospechar de cualquier conjunto de
datos (grande o pequeño) que parezca perfecto.”
David J. Hand
Hand, David J. "Statistical challenges of administrative and transaction data." Journal
of the Royal Statistical Society: Series A (Statistics in Society) 181.3 (2018): 555-605.
Advertencia!
39. Ph.D. Franklin Parrales 39
08/02/2022
Inteligencia de Negocios Carrera de Software
Preprocesamiento
Preprocesamiento ● Extracción de características
● Estandarización
● Transformaciones no lineales
● Normalización
● Codificación de datos categóricos
● Discretización
● Imputación de valores desconocidos
● Generación de características polinomiales
● Generación de características ad-hoc
● Reducción de la dimensionalidad
● Codificación de la variable objetivo
● Etc.
40. Ph.D. Franklin Parrales 40
08/02/2022
Inteligencia de Negocios Carrera de Software
Problemas en Datos clínicos
41. Ph.D. Franklin Parrales 41
08/02/2022
Inteligencia de Negocios Carrera de Software
Problemas en Datos clínicos
42. Ph.D. Franklin Parrales 42
08/02/2022
Inteligencia de Negocios Carrera de Software
Algunos datos no categorizados y heterogéneos
Toxin-age of
onset
(years)
Body mass
index
(kg/m2)
Hemoglobin
(g/dL)
Creatinine
(mg/dL)
Platelets
(u/mcL)
51 17.21 13.4 0.71 213000
49 24.5 14.2 0.55 252000
36 28.54 13.5 0.44 304000
26 36.14 13.1 0.66 218000
31 31.05 14.8 0.71 327000
65 41.07 16.2 0.74 327000
43. Ph.D. Franklin Parrales 43
08/02/2022
Inteligencia de Negocios Carrera de Software
“La cuestión de la calidad de la historia clínica (datos
erróneos, faltantes y ambiguos) y de los datos extraídos
de ella sigue siendo poco estudiada”
Cabitza et al., 2019
Cabitza, F., Ciucci, D. & Rasoini, R. A giant with feet of clay: on the validity of the data
that feed machine learning in medicine. In Organizing for the Digital World, pages
121–136. Springer, 2019.
Situación actual
44. Ph.D. Franklin Parrales 44
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo de atributos heterogéneos, continuos y
categorizados disponibles en los datos clínicos
Toxin-age of
onset (years)
Body mass
index (kg/m2)
Hemoglobin
(g/dL)
Creatinine
(mg/dL)
Platelets
(u/mcL)
51 17.21 13.4 0.71 213000
49 24.5 14.2 0.55 252000
36 28.54 13.5 0.44 304000
26 36.14 13.1 0.66 218000
31 31.05 14.8 0.71 327000
65 41.07 16.2 0.74 327000
[Vmin, µ-σ] (µ-σ, µ+σ] (µ+σ,Vmax]
1 2 3
Categorización basada en Media y std-deviation
45. Ph.D. Franklin Parrales 45
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué son los datos faltantes (missing
data)?
• En la práctica, los
datos consisten en (a)
las observaciones
realmente realizadas
(donde '?' denota una
observación faltante):
• y (b) el patrón de
valores faltantes:
Variable
Unit 1 2 3 4 5 6 7
1 1 2 3.4 4.5 ? 10 1.2
2 1 3 ? ? B 12 ?
3 2 ? 2.6 ? C 15 0
Variable
Unit 1 2 3 4 5 6 7
1 1 1 1 1 0 1 1
2 1 1 0 0 1 1 0
3 1 0 1 0 1 1 1
46. Ph.D. Franklin Parrales 46
08/02/2022
Inteligencia de Negocios Carrera de Software
Completers analysis
• Los datos de la
derecha tienen una
observación faltante
en la variable 2,
unidad 10.
• Completers analysis
elimina todas las
unidades con datos
incompletos del
análisis (aquí la
unidad 10).
Variable
Unit 1 2
1 3.4 5.67
2 3.9 4.81
3 2.6 4.93
4 1.9 6.21
5 2.2 6.83
6 3.3 5.61
7 1.7 5.45
8 2.4 4.94
9 2.8 5.73
10 3.6 ?
47. Ph.D. Franklin Parrales 47
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué tiene de malo el completers
analysis?
• Es ineficiente
• Es problemático en la regresión cuando faltan los
valores de covariables y es necesario comparar modelos
con varios conjuntos de variables explicativas.
– O seguimos cambiando el tamaño del dataset, a medida que
agregamos/eliminamos variables explicativas con missing
values,
– O usamos el subconjunto (potencialmente muy pequeño y no
representativo) de los datos sin missing values.
• Cuando las observaciones que faltan no son una
selección completamente aleatoria de los datos, un
completers analysis dará estimaciones sesgadas e
inferencias inválidas.
48. Ph.D. Franklin Parrales 48
08/02/2022
Inteligencia de Negocios Carrera de Software
Imputación de datos
• Se encarga de completar los datos que faltan con
algunos valores plausibles. Este ha sido un
método popular para manejar problemas de
missing values (Barnard 1999)
• Una vez que se completan los missing values, los
métodos estándar de minería de datos que operan
en conjuntos de datos completos pueden ser
aplicados fácilmente para obtener modelos
predictivos, y así evitar la complicación en el
manejo, cálculo y análisis de datos debido a
irregularidades en los modelos.
49. Ph.D. Franklin Parrales 49
08/02/2022
Inteligencia de Negocios Carrera de Software
Imputación de datos
Para tener un análisis basado en dataset
parcialmente imputados, se deben cumplir dos
requisitos:
1. El método o modelo de imputación debe capturar
razonablemente las relaciones distributivas
reales entre lo no observado y lo observado.
2. El análisis debe tener en cuenta la incertidumbre
en los valores imputados, porque no importa
cuánto esfuerzo se haga, los valores imputados
simplemente no son las observaciones reales.
50. Ph.D. Franklin Parrales 50
08/02/2022
Inteligencia de Negocios Carrera de Software
Imputación media simple
• Reemplazamos los
datos faltantes con
el promedio
aritmético de los
datos observados
para esa variable.
En la tabla de 10
casos será 5,58.
• Se usa la moda en
lugar del promedio para
las variables
categóricas
Variable
Unit 1 2
1 3.4 5.67
2 3.9 4.81
3 2.6 4.93
4 1.9 6.21
5 2.2 6.83
6 3.3 5.61
7 1.7 5.45
8 2.4 4.94
9 2.8 5.73
10 3.6 5.58
51. Ph.D. Franklin Parrales 51
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature Selection: ¿Por qué?
Tiene algunos datos y desea usarlos para crear
un clasificador, de modo que pueda predecir
algo (por ejemplo, la probabilidad de cáncer)
Los datos tienen 10.000 campos (atributos)
debe reducirlo a 1000 campos antes de hacer uso de
técnicas de aprendizaje automático. ¿Cuáles 1000?
El proceso de elegir los 1000 campos que se van a utilizar se
denomina Selección de características (Feature Selection)
52. Ph.D. Franklin Parrales 52
08/02/2022
Inteligencia de Negocios Carrera de Software
Conjuntos de datos con muchos atributos
Gene expression datasets (~10,000 features)
http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds
Proteomics data (~20,000 features)
http://www.ebi.ac.uk/pride/
53. Ph.D. Franklin Parrales 53
08/02/2022
Inteligencia de Negocios Carrera de Software
Descripción general
• ¿Por qué necesitamos FS?:
1. Para mejorar el rendimiento (en términos de
velocidad, poder predictivo, simplicidad del
modelo).
2. Para visualizar los datos para la selección del
modelo.
3. Para reducir la dimensionalidad y eliminar el
ruido..
• Feature Selection es un proceso que elige un
subconjunto óptimo de atributos de acuerdo
a cierto criterio.
54. Ph.D. Franklin Parrales 54
08/02/2022
Inteligencia de Negocios Carrera de Software
Descripción general
• Las razones para realizar FS pueden
incluir…
– eliminar datos irrelevantes.
– aumentar la exactitud predictiva de los modelos
aprendidos.
– reducir el costo de los datos.
– mejorar la eficiencia del aprendizaje, como
reducir los requisitos de almacenamiento y el
costo computacional.
– reducir la complejidad de la descripción del
modelo resultante, mejorando la comprensión de
los datos y del modelo.
55. Ph.D. Franklin Parrales 55
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature Selection: ¿Por qué?
The accuracy of all test Web URLs when chang the number of
top words for category file
74%
76%
78%
80%
82%
84%
86%
88%
90%
top10
top20
top30
top40
top50
top60
top70
top80
top90
top100
top110
top120
top130
top140
top150
top160
top170
top180
top190
top200
Number of top words for category file
Accuracy
56. Ph.D. Franklin Parrales 56
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature Selection: ¿Por qué?
From http://elpub.scix.net/data/works/att/02-28.content.pdf
Bastante fácil de
encontrar muchos
más casos de
artículos, donde los
experimentos
muestran que la
exactitud se reduce
cuando usan más
atributos
57. Ph.D. Franklin Parrales 57
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature selection methods
58. Ph.D. Franklin Parrales 58
08/02/2022
Inteligencia de Negocios Carrera de Software
Técnicas de minería de datos
• En el ámbito de la investigación las técnicas de data mining pueden
ayudar a los científicos a clasificar y segmentar datos y a formar
hipótesis.
• El data mining permite encontrar información escondida en los
datos que no siempre resulta aparente, ya que, dado el gigantesco
volumen de datos existentes, gran parte de ese volumen nunca será
analizado.
• Las técnicas de data mining pueden ser de dos tipos:
– Métodos descriptivos– Buscan patrones interpretables para
describir datos. Son los siguientes: clustering, descubrimiento de
reglas de asociación y descubrimiento de patrones
secuenciales.
• Los métodos descriptivos se han utilizado, por ejemplo, para ver que
productos suelen adquirirse conjuntamente en el supermercado.
– Métodos predictivos- Usan algunas variables para predecir
valores futuros o desconocidos de otras variables. Son los
siguientes: clasificación, regresión y detección de la desviación.
59. Ph.D. Franklin Parrales 59
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
60. Ph.D. Franklin Parrales 60
08/02/2022
Inteligencia de Negocios Carrera de Software
Métodos de Clustering
• Muchos métodos y algoritmos diferentes:
– Para datos numéricos y / o simbólicos
– Determinista vs. probabilista
– Exclusivo vs. superpuesto
– Jerárquico vs. plano
– Top-down vs. bottom-up
61. Ph.D. Franklin Parrales 61
08/02/2022
Inteligencia de Negocios Carrera de Software
Clusters: exclusivo vs. superpuesto (overlapping)
Simple 2-D representation
Non-overlapping
Venn diagram
Overlapping
a
k
j
i
h
g
f
e
d
c
b
a
k
j
i
h
g
f
e
d
c
b
62. Ph.D. Franklin Parrales 62
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación de Clusters
• Inspección manual
• Benchmarking de etiquetas existentes
• Medidas de calidad del clúster
– medidas de distancia
– alta similitud dentro de un grupo, baja entre
grupos
63. Ph.D. Franklin Parrales 63
08/02/2022
Inteligencia de Negocios Carrera de Software
La función de distancia
• Caso más simple: un atributo numérico A
– Distancia(X,Y) = A(X) – A(Y)
• Varios atributos numéricos:
– Distancia(X,Y) = distancia euclidea entre X,Y
• Atributos nominales: la distancia se establece
en 1 si los valores son diferentes, 0 si son
iguales
• ¿Son todos los atributos igualmente
importantes?
– Podría ser necesario ponderar los atributos
64. Ph.D. Franklin Parrales 64
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
65. Ph.D. Franklin Parrales 65
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación
Aprender un modelo para predecir la clase de una instancia a
partir de instancias previamente etiquetadas (clasificadas)
Muchos métodos:
Regresión,
Árboles de clasificación,
Redes bayesianas,
Redes neuronales,
...
Dado un conjunto de puntos de clases
cual es la clase de nuevo punto ?
66. Ph.D. Franklin Parrales 66
08/02/2022
Inteligencia de Negocios Carrera de Software
Sobreajuste (overfitting)
f2
f1
67. Ph.D. Franklin Parrales 67
08/02/2022
Inteligencia de Negocios Carrera de Software
67
El problema del clima
Outlook Temperature Humidity Windy Play
sunny 85 85 false no
sunny 80 90 true no
overcast 83 86 false yes
rainy 70 96 false yes
rainy 68 80 false yes
rainy 65 70 true no
overcast 64 65 true yes
sunny 72 95 false no
sunny 69 70 false yes
rainy 75 80 false yes
sunny 75 70 true yes
overcast 72 90 true yes
overcast 81 75 false yes
rainy 71 91 true no
Dados los datos históricos,
puedes obtener las reglas
para ¿Jugar / no jugar?
¿De qué va el juego?
68. Ph.D. Franklin Parrales 68
08/02/2022
Inteligencia de Negocios Carrera de Software
El problema del clima
• Condiciones para jugar al golf
Outlook Temperature Humidity Windy Play
Sunny Hot High False No
Sunny Hot High True No
Overcast Hot High False Yes
Rainy Mild Normal False Yes
… … … … …
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
69. Ph.D. Franklin Parrales 69
08/02/2022
Inteligencia de Negocios Carrera de Software
Datos meteorológicos con atributos
mixtos
• Algunos atributos tienen valores numéricos
Outlook Temperature Humidity Windy Play
Sunny 85 85 False No
Sunny 80 90 True No
Overcast 83 86 False Yes
Rainy 75 80 False Yes
… … … … …
If outlook = sunny and humidity > 83 then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity < 85 then play = yes
If none of the above then play = yes
70. Ph.D. Franklin Parrales 70
08/02/2022
Inteligencia de Negocios Carrera de Software
Los datos de las lentes de contacto
Age Spectacle prescription Astigmatism Tear production rate Recommended
lenses
Young Myope No Reduced None
Young Myope No Normal Soft
Young Myope Yes Reduced None
Young Myope Yes Normal Hard
Young Hypermetrope No Reduced None
Young Hypermetrope No Normal Soft
Young Hypermetrope Yes Reduced None
Young Hypermetrope Yes Normal hard
Pre-presbyopic Myope No Reduced None
Pre-presbyopic Myope No Normal Soft
Pre-presbyopic Myope Yes Reduced None
Pre-presbyopic Myope Yes Normal Hard
Pre-presbyopic Hypermetrope No Reduced None
Pre-presbyopic Hypermetrope No Normal Soft
Pre-presbyopic Hypermetrope Yes Reduced None
Pre-presbyopic Hypermetrope Yes Normal None
Presbyopic Myope No Reduced None
Presbyopic Myope No Normal None
Presbyopic Myope Yes Reduced None
Presbyopic Myope Yes Normal Hard
Presbyopic Hypermetrope No Reduced None
Presbyopic Hypermetrope No Normal Soft
Presbyopic Hypermetrope Yes Reduced None
Presbyopic Hypermetrope Yes Normal None
71. Ph.D. Franklin Parrales 71
08/02/2022
Inteligencia de Negocios Carrera de Software
Un conjunto de reglas completo y
correcto
If tear production rate = reduced then recommendation = none
If age = young and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = pre-presbyopic and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = presbyopic and spectacle prescription = myope
and astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = no
and tear production rate = normal then recommendation = soft
If spectacle prescription = myope and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age young and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age = pre-presbyopic
and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
72. Ph.D. Franklin Parrales 72
08/02/2022
Inteligencia de Negocios Carrera de Software
Un árbol de clasificación para este
problema.
73. Ph.D. Franklin Parrales 73
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación iris de flores
Sepal length Sepal width Petal length Petal width Type
1 5.1 3.5 1.4 0.2 Iris setosa
2 4.9 3.0 1.4 0.2 Iris setosa
…
51 7.0 3.2 4.7 1.4 Iris versicolor
52 6.4 3.2 4.5 1.5 Iris versicolor
…
101 6.3 3.3 6.0 2.5 Iris virginica
102 5.8 2.7 5.1 1.9 Iris virginica
…
If petal length < 2.45 then Iris setosa
If sepal width < 2.10 then Iris versicolor
...
74. Ph.D. Franklin Parrales 74
08/02/2022
Inteligencia de Negocios Carrera de Software
• Example: 209 different computer configurations
• Linear regression function
Predecir el rendimiento de la CPU
Cycle time
(ns)
Main memory
(Kb)
Cache
(Kb)
Channels Performance
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269
…
208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
75. Ph.D. Franklin Parrales 75
08/02/2022
Inteligencia de Negocios Carrera de Software
El papel del conocimiento del dominio
If leaf condition is normal
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
If leaf malformation is absent
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
Pero en este dominio, “leaf condition is normal” implica
“leaf malformation is absent”!
76. Ph.D. Franklin Parrales 76
08/02/2022
Inteligencia de Negocios Carrera de Software
Dividiendo el dataset (conjunto de datos)
+
+
-
-
+
Data
Training set
90%
Testing set
10%
77. Ph.D. Franklin Parrales 77
08/02/2022
Inteligencia de Negocios Carrera de Software
Entrenamiento de modelos
Training set
+
+
-
-
+
Data
Construcción del
modelo
Testing set
78. Ph.D. Franklin Parrales 78
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación de modelos
Data
Predicciones
Y N
Training set
Testing set
+
+
-
-
+
Construcción del
modelo
Evaluar
+
-
+
-
79. Ph.D. Franklin Parrales 79
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: entrenamiento, validación, prueba
Data
Predicciones
Y N
Resultados Conocidos
Training set
Validation set
+
+
-
-
+
Construcción del modelo
Evaluar +
-
+
-
Final Model
Final Test Set
+
-
+
-
Final Evaluation
Construcció
n del modelo
80. Ph.D. Franklin Parrales 80
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación sobre datasets
“INMENSOS”
• Si hay muchos (miles) de instancias
disponibles, incluidos varios cientos de
instancias de cada clase, una evaluación
simple es suficiente.
– Divida aleatoriamente los datos en conjuntos de
entrenamiento y prueba (generalmente 2/3 para
entrenamiento, 1/3 para prueba)
• Construya un clasificador usando el conjunto
de entrenamiento (training set) y evalúelo
usando el conjunto de prueba (test set)
81. Ph.D. Franklin Parrales 81
08/02/2022
Inteligencia de Negocios Carrera de Software
Métricas
TP FN
TN
FP
-
+
+ -
Predicted
class value
Actual
class
value
• Positive values: “high”
therapeutic response to
treatment
• Negative values: “low”
therapeutic response to
treatment
82. Ph.D. Franklin Parrales 82
08/02/2022
Inteligencia de Negocios Carrera de Software
▪ Matriz de confusión/contingencia (p.ej. para el conjunto de test):
abrir (p) cerrar (n)
ABRIR (P) TP FP
CERRAR (N) FN TN
Real
Predicho Diagonal
de los
aciertos
• A partir de aquí, se han definido una serie de métricas:
❖ True Positive Rate: TPR = TP / (TP + FN). (“recall” o ”sensitivity” o “positive accuracy”).
❖ False Negative Rate: FNR = FN / (TP + FN). (“positive error”)
❖ True Negative Rate: TNR = TN / (TN + FP). (”specificity” o ”negative accuracy”).
❖ False Positive Rate: FPR = FP / (TN + FP). (“negative error”)
❖ Positive Predictive Value: PPV = TP / (TP + FP). (”precision”).
❖ Negative Predictive Value: NPV = TN / (TN + FN).
❖ Macro-average = MEDIA(TPR, TNR). (La media puede ser aritmética, geométrica u
otra)
❖ BREAK-EVEN= (Precision + Recall) / 2 = (PPV + TPR) / 2
❖ F-MEASURE= (Precision * Recall) / BREAK-EVEN = 2*PPV*TPR / (PPV + TPR)
84. Ph.D. Franklin Parrales 84
08/02/2022
Inteligencia de Negocios Carrera de Software
▪ Evaluación sensible al coste:
▪ En muchas situaciones todos los errores producidos por un modelo
predictivo no tienen las mismas consecuencias:
▪ Ejemplo: Dejar cerrada una válvula en una central nuclear cuando es
necesario abrirla, puede provocar una explosión, mientras que abrir una
válvula cuando puede mantenerse cerrada, puede provocar una parada.
▪ Matriz de costes:
▪ Lo importante no es obtener un “clasificador” que yerre lo menos
posible sino que tenga un coste menor.
▪ A partir de la matriz se calcula el coste de un clasificador.
▪ Los clasificadores se evalúan con dichos costes.
▪ Se selecciona el clasificador de menos coste.
abrir cerrar
ABRIR 0 100€
CERRAR 2000€ 0
Real
Predicho
85. Ph.D. Franklin Parrales 85
08/02/2022
Inteligencia de Negocios Carrera de Software
▪ Ejemplos:
abrir cerrar
ABRIR 0 100€
CERRAR 2000€ 0
Real
Predicho
c1 abrir cerrar
ABRIR 300 500
CERRAR 200 99000
Real
Pred
c3 abrir cerrar
ABRIR 400 5400
CERRAR 100 94100
Real
c2 abrir cerrar
ABRIR 0 0
CERRAR 500 99500
Real
c1 abrir cerrar
ABRIR 0€ 50.000€
CERRAR 400.000€ 0€
c3 abrir cerrar
ABRIR 0€ 540.000€
CERRAR 200.000€ 0€
c2 abrir cerrar
ABRIR 0€ 0€
CERRAR 1.000.000€ 0€
COSTE TOTAL: 450.000€ COSTE TOTAL: 1.000.000€ COSTE TOTAL: 740.000€
Matrices de confusión
Matriz de
coste
Matrices resultado
86. Ph.D. Franklin Parrales 86
08/02/2022
Inteligencia de Negocios Carrera de Software
▪¿De qué depende el coste final?
▪ Para dos clases. Depende de un contexto (o skew):
▪ El coste de los falsos positivos y falsos negativos: FPcost y
FNcost
▪ El porcentaje de ejemplos de la clase negativa respecto de
ejemplos de la clase positiva. (Neg / Pos).
▪ Se calcula: (para el ejemplo anterior)
20
1
2000
100
=
=
FNcost
FPcost
199
500
99500
=
=
Pos
Neg
95
,
9
199
·
20
1
=
=
slope
– Para dos clases, el valor “slope” es suficiente para
determinar qué clasificador será mejor.
Clasifi. 1: FNR= 40%, FPR= 0,5%
Coste Unitario =
1 x 0,40 + 9,95 x 0,005 = 0,45
Clasifi. 2: FNR= 100%, FPR= 0%
Coste Unitario =
1 x 1 + 9,95 x 0 = 1
Clasifi. 3: FNR= 20%, FPR= 5,4%
Coste Unitario =
1 x 0,20 + 9,95 x 0,054 = 0,74
87. Ph.D. Franklin Parrales 87
08/02/2022
Inteligencia de Negocios Carrera de Software
87
▪ El clasificador con menor error no es, frecuentemente, el
mejor clasificador.
▪ El contexto (la distribución de clases y los costes de
cada error) determinan la bondad de los clasificadores.
▪ PROBLEMA:
▪ En muchas aplicaciones, hasta el momento de aplicación, no se
conoce la distribución de clases y/o es difícil estimar la matriz de
costes. P.ej. un clasificador de spam.
▪ Pero los modelos se aprenden antes generalmente.
▪ Análisis ROC (Receiver Operating Characteristic).
▪ Usado por primera vez para evaluar radares en la 2ª guerra mundial,
posteriormente se usó para el análisis de respuesta de transistores, se
desarrolló fundamentalmente para aplicaciones de diagnóstico médico a
partir de 1970 y comienza a popularizarse a finales de los 90 en minería
de datos.
88. Ph.D. Franklin Parrales 88
08/02/2022
Inteligencia de Negocios Carrera de Software
Espacio ROC
0,000
0,200
0,400
0,600
0,800
1,000
0,000 0,200 0,400 0,600 0,800 1,000
False Positives
True
Positives
▪El espacio ROC
▪ Se normaliza la matriz de confusión por columnas:
TPR, FNR TNR, FPR.
abrir cerrar
ABRIR 400 12000
CERRAR 100 87500
Real
Pred
abrir cerrar
ABRIR 0,8 0,121
CERRAR 0,2 0,879
Real
Pred
TPR= 400 / 500 = 80%
FNR= 100 / 500 = 20%
TNR= 87500 / 99500 = 87,9%
FPR= 12000 / 99500 = 12,1%
89. Ph.D. Franklin Parrales 89
08/02/2022
Inteligencia de Negocios Carrera de Software
▪Espacio ROC: buenos y malos clasificadores.
0 1
1
0
FPR
TPR
• Buen clasificador.
– Alto TPR.
– Bajo FPR.
0 1
1
0
FPR
TPR
0 1
1
0
FPR
TPR
• Mal clasificador.
– Bajo TPR.
– Alto FPR.
• Mal clasificador
(en realidad).
90. Ph.D. Franklin Parrales 90
08/02/2022
Inteligencia de Negocios Carrera de Software
▪La Curva ROC. Construcción.
ROC diagram
0 1
1
0
FPR
TPR
▪ Construimos el “casco convexo”
(convex hull) de sus puntos
(FPR,TPR) además de los dos
clasificadores triviales (0,0) y
(1,1).
▪ Los clasificadores que caen
debajo de la curva ROC se
descartan.
▪ El mejor clasificador de los que
quedan se seleccionará en el
momento de aplicación…
▪ Dados varios clasificadores:
Podemos descartar los que están por debajo porque no hay ninguna
combinación de distribución de clases / matriz de costes para la cual puedan
ser óptimos.
La diagonal
muestra por
tanto la peor
situación posible.
91. Ph.D. Franklin Parrales 91
08/02/2022
Inteligencia de Negocios Carrera de Software
Medición honesta: Cross-validation
• Cross-validation evita la superposición de
conjuntos de prueba
– Primer paso: los datos se dividen en k
subconjuntos de igual tamaño
– Segundo paso: cada subconjunto a su vez se
usa para pruebas y el resto para entrenamiento
• Eso es llamado k-fold cross-validation
• A menudo, los subconjuntos se estratifican
antes de que se realice la validación cruzada.
• Las estimaciones de error se promedian para
producir una estimación de error general
92. Ph.D. Franklin Parrales 92
08/02/2022
Inteligencia de Negocios Carrera de Software
Cross-validation: Ejemplo
— Divida los datos en grupos del mismo tamaño
—
—
— Mantenga a un lado un grupo para probar y use el resto para
construir el modelo
—
— Repetir
Test
93. Ph.D. Franklin Parrales 93
08/02/2022
Inteligencia de Negocios Carrera de Software
D4
D3
D2
D1
Classificatio
n algorithm
M
D4
D3
D2
D1
D4
D3
D2
D1
D4
D3 D2
D1
D4
D3
D2
D1
M1
M2
M3
M4
Accuracy1
Accuracy2
Accuracy3
Accuracy4
Classificatio
n algorithm
Classificatio
n algorithm
Classificatio
n algorithm
Classificatio
n
algorithm
K-fold cross validation (k=4, ej, didáctico)
94. Ph.D. Franklin Parrales 94
08/02/2022
Inteligencia de Negocios Carrera de Software
Diseño de un experimento
Entrenamiento
Evaluación
Validación
train
dev
test
Modelo
(parámetros)
Hiperparámetros
Análisis de
errores:
- de sesgo
- de varianza
Datos
Preprocesamiento
Rendimiento
real del
modelo
95. Ph.D. Franklin Parrales 95
08/02/2022
Inteligencia de Negocios Carrera de Software
Parámetros e hiperparámetros
Fuente: stanford.edu
Hiperparámetros:
Son los valores que tenemos a mano
para configurar el algoritmo de
aprendizaje automático (épocas, número
de capas, ratio de aprendizaje, etc.).
Se establecen manualmente o usando
un proceso de búsqueda y optimización
(AutoML)
Parámetros:
Son los valores numéricos que define el
modelo matemático aprendido (pesos,
umbrales, etc.).
Se calculan automáticamente (se
aprenden automáticamente).
Entrenamiento Modelo
(parámetros)
Hiperparámetros
96. Ph.D. Franklin Parrales 96
08/02/2022
Inteligencia de Negocios Carrera de Software
Análisis de errores
● Muestra aleatoria de errores (10, 20, 50, 100)
● Intentamos identificar tipos de causas de error
● Rediseñamos aprendizaje (algoritmo,
hiperparámetros...)
ID ejemplo Tipo de error Esperado Predicho Causa del error
1 I FALSE TRUE Peso incorrecto
34 II TRUE FALSE Categoría desconocida
54 I FALSE TRUE Peso incorrecto
345 II TRUE FALSE Valores próximos
534 II TRUE FALSE Valores próximos
6578 I FALSE TRUE Categoría desconocida
97. Ph.D. Franklin Parrales 97
08/02/2022
Inteligencia de Negocios Carrera de Software
Interpretación del error
Fuente: stanford.edu
● Error de sesgo (bias)
Error alto en train y dev
Soluciones:
- mayor complejidad en el
modelo
- más tiempo de entrenamiento
- …
● Error de varianza (variance)
Error bajo en train, alto en dev
Soluciones:
Generalización (más datos,
regularización, parada
temprana, menor complejidad
del modelo…)
98. Ph.D. Franklin Parrales 98
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
99. Ph.D. Franklin Parrales 99
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Regresión Lineal
▪ Regresión lineal
w0 + w1 x + w2 y >= 0
▪ Regresión calcula wi
de los datos para
minimizar el error al
cuadrado para
"ajustar" los datos
▪ No es suficientemente
flexible
100. Ph.D. Franklin Parrales 100
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Reglas
X
Y
5
2
3
if X > 5 then purple
else if Y > 3 then purple
else if X > 2 then green
else purple
101. Ph.D. Franklin Parrales 101
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Árboles de clasificación
X
Y
5
2
3
Es un modelo de clasificación supervisado que utiliza la estructura de árbol para
describir la relación entre las características del modelo y los probables resultados
X
>5
purple
Y
>3
purple
<= 5
X
<= 3
purple
>2
green
<= 2
102. Ph.D. Franklin Parrales 102
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
P(X|Asia=yes,Smoker=yes,Dyspnea=yes)?
103. Ph.D. Franklin Parrales 103
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Ej. Caso completo (“Robo
o terremoto”) [Pearl’88]
Alarm
Earthq.
Burglary
WatsonCalls
News
104. Ph.D. Franklin Parrales 104
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Consultas: probabilidades posteriores
Dada alguna evidencia e (observaciones),
Probabilidad Posterior de una variable(s) objetivo X :
Otros nombres: propagación de probabilidad, actualización de
creencias o revisión …
Alarm
Earth.
Burgl.
WCalls
News
?
Vector
105. Ph.D. Franklin Parrales 105
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Semánticamente, por cualquier tipo de razonamiento
Razonamiento predictivo o deductivo (inferencia causal): predice
efectos
Alarm
Earth.
Burgl.
WCalls
News
?
Razonamiento diagnóstico (inferencia diagnóstica): diagnosticar
las causas
Alarm
Earth.
Burgl.
WCalls
News
?
Sintomas|Enfermedad
Enfermedad|Sintomas
Variable objetivo es
usualmente una descendiente
de la evidencia
Variable objetivo es
usualmente un ancestro de la
evidencia
106. Ph.D. Franklin Parrales 106
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
… para cualquier tipo de razonamiento
Razonamiento intercausal: entre causas
de un efecto común
Alarm
Earth.
Burgl.
WCalls
News
?
B y E son independientes el uno del otro
Suponer que A=Yes → Esto aumenta la Prob. para ambas posibles
causas B y E
Suponer luego que B=Yes → Esto explica el A observado, que a su
vez baja la Prob. de E=Yes
Dos causas inicialmente independientes. Si el efecto es conocido,
la presencia de una causa explicativa hace que la causa
alternativa sea menos probable (Esto es alejamiento explicativo)
107. Ph.D. Franklin Parrales 107
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
… para cualquier tipo de razonamiento
La dirección del arco entre las variables no restringe el tipo de
consulta que se debe realizar: la inferencia probabilística puede
combinar evidencia de todas las partes de la red
Razonamiento bidirectional(inferencia mixta): combina 2 o mas de
las anteriores
Alarm
Earth.
Burgl.
WCalls
News
? Razonamiento diagnóstico y predictivo
Razonamiento diagnóstico e intercausal
108. Ph.D. Franklin Parrales 108
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Más consultas: conjunta y verosimilitud
Conjunta posterior: prob. condicional de muchas
variables
El tamaño de la respuesta a la consulta es exponencial en
el número de variables en la conjunta
Verosimilitud de la evidencia: la consulta mas simple,
ej: la prob. de la evidencia
109. Ph.D. Franklin Parrales 109
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes neuronales
▪ Puede seleccionar
regiones más
complejas
▪ Puede ser más precisa
▪ Además, puede
sobreajustar los datos
– encontrar patrones
en ruido aleatorio
110. Ph.D. Franklin Parrales 110
08/02/2022
Inteligencia de Negocios Carrera de Software
Clustering Simple: K-means
Funciona solo con datos numéricos
1) Elija un número (K) de centros de
clústers/grupos (al azar)
2) Asignar cada elemento a su centro de
grupo más cercano (por ejemplo, utilizando
la distancia euclidiana)
3) Mueva cada centro de clúster a la media de
sus elementos asignados
4) Repita los pasos 2, 3 hasta la convergencia
(cambio en las asignaciones de clúster por
debajo de un umbral)
111. Ph.D. Franklin Parrales 111
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo K-means, paso 1
k1
k2
k3
X
Y
Elija 3
centros de
grupo
iniciales
(al azar)
112. Ph.D. Franklin Parrales 112
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo K-means, paso 2
k1
k2
k3
X
Y
Asignar
cada punto
al centro del
grupo más
cercano
113. Ph.D. Franklin Parrales 113
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo K-means, paso 3
X
Y
Mueva
cada
centro de
grupo a la
media de
cada
grupo
k1
k2
k2
k1
k3
k3
114. Ph.D. Franklin Parrales 114
08/02/2022
Inteligencia de Negocios Carrera de Software
Discusión
• El resultado puede variar significativamente
según la elección inicial de semillas.
• Puede quedar atrapado en un mínimo local
– Ejemplo:
• Para aumentar la posibilidad de encontrar el
óptimo global: reinicie con diferentes semillas
aleatorias
instances
initial
cluster
centers
115. Ph.D. Franklin Parrales 115
08/02/2022
Inteligencia de Negocios Carrera de Software
Resumen de agrupación en clústeres por K-means
• Ventajas
– Simple, comprensible
– elementos asignados
automáticamente a
clústeres
• Desventajas
– Debe elegir el
número de grupos de
antemano
– Todos los elementos
forzados a agruparse
– Demasiado sensible
a los valores atípicos
116. Ph.D. Franklin Parrales 116
08/02/2022
Inteligencia de Negocios Carrera de Software
Variaciones de K-means
• K-medoids – en lugar de medias, usa las
medianas de cada grupo
– Media de 1, 3, 5, 7, 9 es
– Media de 1, 3, 5, 7, 1009 es
– Mediana de 1, 3, 5, 7, 1009 es
– Ventaja de la mediana: no afectado por
valores extremos
• Para bases de datos grandes, use
muestreo
5
205
5
117. Ph.D. Franklin Parrales 117
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clustering jerárquico
• Bottom up
– Comience con clústeres de instancia única
– En cada paso, une los dos grupos más cercanos
– Decisión de diseño: distancia entre clústeres
• P.ej. dos instancias más cercanas en grupos
vs. distancia entre medias
• Top down
– Comience con un clúster universal
– Encuentra dos grupos
– Proceda de forma recursiva en cada subconjunto
– Puede ser muy rápido
• Ambos métodos producen un dendrograma.
g a c i e d k b j f h
118. Ph.D. Franklin Parrales 118
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clustering incremental
• Enfoque heurístico (COBWEB/CLASSIT)
• Forma una jerarquía de clústeres de forma incremental
• Inicio:
– el árbol consta de un nodo raíz vacío
• Luego:
– agregar instancias una por una
– actualizar el árbol de manera apropiada en cada etapa
– para actualizar, busque la hoja correcta para una instancia
– Puede implicar la reestructuración del árbol.
• Basar las decisiones de actualización en la utilidad de la
categoría
119. Ph.D. Franklin Parrales 119
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clusterizando datos meteorológicos
• 1
ID Outlook Temp. Humidity Windy
A Sunny Hot High False
B Sunny Hot High True
C Overcast Hot High False
D Rainy Mild High False
E Rainy Cool Normal False
F Rainy Cool Normal True
G Overcast Cool Normal True
H Sunny Mild High False
I Sunny Cool Normal False
J Rainy Mild Normal False
K Sunny Mild Normal True
L Overcast Mild High True
M Overcast Hot Normal False
N Rainy Mild High True
2
3
1
120. Ph.D. Franklin Parrales 120
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clusterizando datos meteorológicos
• 4
ID Outlook Temp. Humidity Windy
A Sunny Hot High False
B Sunny Hot High True
C Overcast Hot High False
D Rainy Mild High False
E Rainy Cool Normal False
F Rainy Cool Normal True
G Overcast Cool Normal True
H Sunny Mild High False
I Sunny Cool Normal False
J Rainy Mild Normal False
K Sunny Mild Normal True
L Overcast Mild High True
M Overcast Hot Normal False
N Rainy Mild High True
3
Merge best host
and runner-up
5
Consider splitting the best
host if merging doesn’t help
4
121. Ph.D. Franklin Parrales 121
08/02/2022
Inteligencia de Negocios Carrera de Software
*Jerarquía final
ID Outlook Temp. Humidity Windy
A Sunny Hot High False
B Sunny Hot High True
C Overcast Hot High False
D Rainy Mild High False
Oops! a and b are
actually very similar
122. Ph.D. Franklin Parrales 122
08/02/2022
Inteligencia de Negocios Carrera de Software
*Ejemplo: los datos del iris (subconjunto)
123. Ph.D. Franklin Parrales 123
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clustering con corte
124. Ph.D. Franklin Parrales 124
08/02/2022
Inteligencia de Negocios Carrera de Software
*Utilidad de la categoría
• Utilidad de la categoría: función de pérdida
cuadrática definida en probabilidades
condicionales:
• Cada instancia en una categoría diferente
numerador se convierte en
k
v
a
C
v
a
C
C
C
C
CU l i j
ij
i
l
ij
i
l
k
=
−
=
=
)
]
Pr[
]
|
(Pr[
]
Pr[
)
,...,
,
(
2
2
2
1
2
]
Pr[ ij
i v
a
m =
− maximum
number of attributes
125. Ph.D. Franklin Parrales 125
08/02/2022
Inteligencia de Negocios Carrera de Software
* Heurística para evitar sobreajuste
• Si cada instancia se coloca en una categoría
diferente, el numerador se convierte en (máximo):
• Donde n es el número de todos los posibles valores
de atributo.
• Entonces, sin k en el denominador de la fórmula UC,
¡cada grupo consistiría en una instancia!
=
−
i j
ij
v
i
a
n 2
]
Pr[ Valor Máximo de UC
126. Ph.D. Franklin Parrales 126
08/02/2022
Inteligencia de Negocios Carrera de Software
Niveles de Clustering
127. Ph.D. Franklin Parrales 127
08/02/2022
Inteligencia de Negocios Carrera de Software
Clustering jerárquico
• Los clústeres se crean en niveles creando
realmente conjuntos de clústeres en cada nivel.
• Aglomerativo
– Inicialmente, cada elemento en su propio grupo
– Iterativamente, los clústeres se fusionan
– Bottom Up
• Divisivo
– Inicialmente, todos los elementos de un grupo
– Los grandes grupos se dividen sucesivamente
– Top Down
128. Ph.D. Franklin Parrales 128
08/02/2022
Inteligencia de Negocios Carrera de Software
Dendrograma
• Dendrograma: una
estructura de datos de
árbol que ilustra técnicas
de agrupamiento
jerárquico.
• Cada nivel muestra
grupos para ese nivel.
– Hojas – clusters
individuales
– Raiz – un cluster
• Un clúster en el nivel i es
la unión de sus clústeres
hijos en el nivel i + 1.
128
129. Ph.D. Franklin Parrales 129
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo Aglomerativo
A B C D E
A 0 1 2 2 3
B 1 0 2 4 3
C 2 2 0 1 5
D 2 4 1 0 3
E 3 3 5 3 0
B
A
E C
D
4
Umbral de
2 3 5
1
A B C D E
130. Ph.D. Franklin Parrales 130
08/02/2022
Inteligencia de Negocios Carrera de Software
Distancia entre Clústeres
• Single Link: menor distancia entre puntos
• Complete Link: mayor distancia entre puntos
• Average Link: distancia media entre puntos
• Centroid: distancia entre centroides
131. Ph.D. Franklin Parrales 131
08/02/2022
Inteligencia de Negocios Carrera de Software
Agrupación en clústeres de enlace único
(Single Link Clustering)
132. Ph.D. Franklin Parrales 132
08/02/2022
Inteligencia de Negocios Carrera de Software
Resúmen sobre Algoritmos de
Clustering
• Aprendizaje no supervisado
• Muchas metodologías
– K-means – simple, algunas veces es muy útil
• K-medoids es menos sensitive a valores extremos
– Clustering jerárquico – funciona para atributos
simbólicos
• La evaluación de clústeres es un
problema
133. Ph.D. Franklin Parrales 133
08/02/2022
Inteligencia de Negocios Carrera de Software
Minería de datos
Unidad 3
Final de la unidad