IN Unidad 3: Minería de datos

Ph.D. Franklin Parrales 1
08/02/2022
Inteligencia de Negocios Carrera de Software
Minería de datos
Unidad 3
Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo
para uso de los cursos de Inteligencia de Negocios

08/02/2022
Objetivo general de la Unidad 3
Aplicar técnicas y tecnologías que permiten explorar
grandes bases de datos, de manera automática o
semiautomática, con el objetivo de encontrar patrones
repetitivos que expliquen el comportamiento de estos
datos.

08/02/2022
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos

08/02/2022

08/02/2022
Proceso de Descubrimiento del
conocimiento KDD
Se suele componer de cuatro etapas principales:
• Determinación de los objetivos. Trata de la delimitación de los objetivos
que el cliente desea bajo la orientación del especialista en minería de
datos.
• Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos.
Esta etapa consume generalmente alrededor del setenta por ciento del
tiempo total de un proyecto de minería de datos.
• Determinación del modelo. Se comienza realizando unos análisis
estadísticos de los datos, y después se lleva a cabo una visualización
gráfica de los mismos para tener una primera aproximación. Según los
objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse
algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
• Análisis de los resultados. Verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por los análisis estadísticos y de
visualización gráfica. El cliente determina si son novedosos y si le aportan
un nuevo conocimiento que le permita considerar sus decisiones.

08/02/2022
CRISP-DM
• CRISP-DM (del inglés Cross Industry
Standard Process for Data Mining) se trata
de un modelo estándar abierto del
proceso que describe los enfoques
comunes que utilizan los expertos en
minería de datos.
• La metodología CRISP-DM aborda el ciclo
de vida de un proyecto de minería de
datos

08/02/2022
CRISP-DM
Clinical
data
Comprender
los requisitos
Comprensión
de datos
Preprocesamiento
de datos
Modelado
Evaluación
Clinical
data
Data
Despliegue

08/02/2022
Comprender los
requisitos
Comprensión de
datos
Preprocesamiento
de datos
Modelado
Determinar los objetivos
médicos
• Antecedentes
• Objetivos
• Criterios de éxito
Evaluar la situación
• Inventario de recursos
• Requisitos, suposiciones y
restricciones
• Riesgos y Contingencias
• Terminología
• Costos y beneficios
Determinar
Objetivos de minería de
datos
• Objetivos de minería de
datos
• Criterios de éxito en
minería de datos
Producir el plan de proyecto
• Plan de proyecto
• Evaluación inicial de
herramientas y técnicas
Conjunto de datos
• Descripción del
conjunto de datos
Seleccionar datos
• Justificación para
la inclusión /
exclusión
Limpieza de datos
• Informe de
limpieza de datos
Construcción de
datos
• Atributos
derivados
• Registros
generados
Integrar datos
• Mezclar datos
Formato de datos
• Datos
reformateados
• Recoger datos
iniciales
• Describir datos
• Explorar datos
Seleccionar técnica
de modelado
• Técnica de
modelado
• Suposiciones de
modelado
Generar diseño de
prueba
• Diseño de prueba
Construir modelo
• Ajustes de
parámetros de
los modelos
• Descripción del
modelo
Modelo de
evaluación
• Evaluación del
modelo
• Ajustes de
parámetros
revisados

08/02/2022
Evaluación Despliegue
Evaluar resultados
• Evaluación
resultados de
acuerdo a los
criterios de éxito.
Modelos aprobados
Proceso de revisión
• Revisión del
proceso
Determinar los
próximos pasos
• Lista de acciones
posibles
• Decisión
Implementación del
plan
• Plan de empleo
Plan de monitoreo
y mantenimiento
• Monitoreo y
mantenimiento
Producir informe
final
• Reporte final
• Presentación
final
Proyecto de
Revisión
• Documentación
de experiencias

08/02/2022
Contenido
• Proceso de Descubrimiento del
conocimiento KDD
– Modelos, algoritmos y técnicas de Minería de
Datos

08/02/2022
Minería de datos
• Es el proceso de hallar anomalías, patrones y
correlaciones en grandes conjuntos de datos para
predecir resultados.
• Empleando una amplia variedad de técnicas, se
puede utilizar esta información para incrementar
sus ingresos, recortar costos, mejorar sus
relaciones con clientes, reducir riesgos y más.
• La minería de datos es un método asistido por
ordenador que utiliza conceptos obtenidos de las
tecnologías de la información, estadísticas y
matemáticas para analizar datos.

08/02/2022
Ventajas aplicada a los negocios
• Permite descubrir información que no esperábamos obtener. Esto
se debe a su funcionamiento con algoritmos, ya que permite hacer
muchas combinaciones distintas.
• Es capaz de analizar bases de datos con una enorme cantidad de
datos.
• Los resultados son muy fáciles de interpretar y no es necesario
tener conocimientos en ingeniería informática.
• Permite encontrar, atraer y retener clientes.
• La empresa puede mejorar la atención al cliente a partir de la
información obtenida.
• Da a las empresas la posibilidad de ofrecer a los clientes los
productos o servicios que necesitan.
• Antes de usar los modelos, estos son comprobados mediante
estadísticas para verificar que las predicciones obtenidas son
válidas.
• Ahorra costes a la empresa y abre nuevas oportunidades de
negocio.

08/02/2022
Desventajas aplicada a los negocios
• Dependiendo del tipo de datos que se
quiera recopilar, nos puede llevar mucho
trabajo.
• La inversión inicial para obtener las
tecnologías necesarias para la
recopilación de datos puede tener un
coste elevado.

08/02/2022
Aplicación de la minería de datos
• 'Marketing'. El data mining en marketing predice también qué usuarios
pueden darse de baja de un servicio, qué les interesa según sus
búsquedas o qué debe incluir una lista de correo para lograr una tasa de
respuesta mayor.
• Comercio minorista. Los supermercados, por ejemplo, emplean los patrones
de compra conjunta para identificar asociaciones de productos y decidir
cómo situarlos en los diferentes pasillos y estanterías de los lineales. El data
mining detecta además qué ofertas son las más valoradas por los
clientes o incrementa la venta en la cola de caja.
• Banca. Los bancos recurren a la minería de datos para entender mejor los
riesgos del mercado.
• Medicina. La minería de datos favorece diagnósticos más precisos. Al contar
con toda la información del paciente —historial, examen físico y patrones de
terapias anteriores— se pueden prescribir tratamientos más efectivos.
• Televisión y radio. Hay cadenas que aplican la minería de datos en tiempo
real a sus registros de audiencia en televisión online (IPTV) y radio. Estos
sistemas recaban y analizan sobre la marcha información anónima de las
visualizaciones, las retransmisiones y la programación de los canales.
Gracias al data mining se pueden emitir recomendaciones
personalizadas a los radioyentes y telespectadores.

08/02/2022
Tipos de datos que pueden ser minados
No todos los modelos de datos pueden ser minados.
• Datos almacenados en una base de datos
• Data warehouse
• Data transaccional
• Otros tipos de datos
– Datos de diseño de ingeniería
– Datos de secuencia
– Flujos de datos
– Datos de gráficos
– Datos espaciales
– Multimedia
Cualquier dato que tenga estructura, significados semánticos

08/02/2022
Diferencias entre minado de datos y
Big Data
• Aunque parezca lo mismo, el minado de datos y el Big
Data son conceptos diferentes, aunque con una
misma base.
• El Big Data es una tecnología que tiene la capacidad
de capturar, gestionar y procesar de forma veraz todo
tipo de datos, utilizando herramientas o softwares que
identifican patrones comunes.
• Cuando hablamos de Data Mining nos referimos al
análisis de los grandes datos.
• En resumen, Big Data y Minería de datos podrían ser
definidos como el “activo” y el “manejo”,
respectivamente.
• No hay minería de datos sin Big Data

08/02/2022
Contenido
KDD

08/02/2022
¿Qué es la ciencia de datos?
• La ciencia de datos es un campo
interdisciplinario que involucra métodos
científicos, procesos y sistemas para extraer
conocimiento o un mejor entendimiento de datos
en sus diferentes formas( estructurados/no
estructurados).

08/02/2022
¿quién es un científico de datos ?
• Es una persona formada en las ciencias
matemáticas y las estadísticas que
domina la programación y sus diferentes
lenguajes(Python, R, Scala, etc..),
ciencias de la computación y analítica.
• Además, debe saber comunicar sus
hallazgos a medida que los tiene, no sólo
al área de tecnología sino además al
sector de los negocios.

08/02/2022
¿quién es un científico de datos ?

08/02/2022
¿Qué hace un científico de datos?
Masson y Wiggins (A taxonomy of Data
Science Mason and Wiggins, 2010) definen los
cinco pasos que realiza un científico de datos:
– Obtener datos
– Manipular datos
– Explorar datos
– Modelar datos
– Intepretar datos

08/02/2022
¿ quién es un científico de datos ?
• Trabajan en cualquier área, con el objetivo de obtener
respuestas fiables a problemas cotidianos como por
ejemplo:
– Saber cual es el mejor momento para comprar un boleto
de avión, hacer una reservación a un hotel (Bueno, Bonito
y Barato). Por ejemplo: Best Day, Trivago, etc..
– Predecir los gustos de los usuarios y mostrarle la mejor
opción y/o recomendación. Por ejemplo: Amazon, Netflix.
– Descubrir si una persona puede tener riesgo de padecer
una enfermedad. Por ejemplo: La secuenciación, mapeo
y análisis de los códigos ADN y ARN para, de esta
manera, comprender cómo los genes funcionan y qué
impacto tienen en las enfermedades.

08/02/2022
Recordando… ¿qué es big data?
• Big data (en español,
grandes datos o grandes
volúmenes de datos) es un
término evolutivo que
describe cualquier cantidad
voluminosa de datos
estructurados,
semiestructurados y no
estructurados que tienen
el potencial de ser extraídos
para obtener información.

08/02/2022
¿Qué lo motiva?
• Los blogs generan cerca de
2 millones de entradas
nuevas.
• En Google se realizan más
de 5 millones de consultas.
• WhatsApp envía 25 millones
de mensajes.
• El número de correos
electrónicos que se envían
supera los 100 millones.

08/02/2022
Entonces, ¿cuál es la diferencia entre
ciencia de datos y big data?
El Big Data es parte de la Ciencia de Datos, y para hacer
Ciencia de Datos NO necesitas Big Data.

08/02/2022
Ciencia de Datos (Big Data) + Redes
Sociales
• Análisis de sentimiento o Minería de
opinión
– Ejemplo: Campaña de Barack Obama
• Sistemas de recomendación
– Ejemplo: Recomendación de amigos en
facebook
• Segmentación de clientes
– Ejemplo: Campañas dirigidas

08/02/2022
Contenido
KDD

08/02/2022
A modo de introducción…
Id Age
Relatives with
cancer Stage Treatment
1 child yes I X
2 young no II Y
3 adult yes III Z
4 young yes II Y
5 adult no IV Z
… … … … …
Dataset
Instancia/Record
Atributos
Class
attribute
Etiqueta/Label

08/02/2022
Algoritmos
• Los algoritmos de minería de datos
revelan relaciones lógicas en forma de
patrones y tendencias.
• Son de gran ayuda para identificar
correlaciones, regularidades, problemas y
puntos débiles.

08/02/2022
Aprendizaje Supervisado
• En el aprendizaje supervisado, los algoritmos
trabajan con datos “etiquetados” (labeled data)
• Intentan encontrar una función que, dadas las
variables de entrada (input data), les asigne la
etiqueta de salida adecuada.
• El algoritmo se entrena con un “histórico” de
datos y así “aprende” a asignar la etiqueta de
salida adecuada a un nuevo valor, es
decir, predice el valor de salida (Simeone,
2018)

08/02/2022
Las dos grandes familias de
algoritmos supervisados son:
• Los algoritmos de regresión
cuando el resultado a predecir
es un atributo numérico.
• Los algoritmos de clasificación
cuando el resultado a predecir
es un atributo categórico

08/02/2022
Documentos,
textos de
entrenamiento
, imágenes,
etc.
Etiquetas
Nuevo
documentos,
texto, imagen,
etc.
Algoritmo
de
aprendizaje
automático
Modelo
predictivo
Etiqueta
esperada
Vectores de
características
Vector de
características

08/02/2022
Clustering (agrupamiento)
Aprendizaje NO supervisado:
Encuentra agrupaciones
"naturales" de instancias con
datos no etiquetados.

08/02/2022
Aprendizaje No Supervisado
El aprendizaje no supervisado
está dedicado a las tareas de
agrupamiento, también
llamadas clustering o
segmentación, donde su
objetivo es encontrar grupos
similares en el conjunto de
datos.

08/02/2022
Clasificación vs. Clustering (agrupamiento)
Clasificación: Aprendizaje supervizado:
Aprende un método para predecir la clase de instancia a partir de
instancias previamente etiquetadas (clasificadas)

08/02/2022
Modelos y algoritmos
ordenador
(algoritmo de
aprendizaje)
Datos de
entrada
Datos de
salida
Patrones
Datos de
entrenamiento
Modelo
x, y g() g(x, y) = f()
f(x) = y
^
^ ^

08/02/2022
Proceso
Obtención de
datos
Análisis de
datos
Preprocesamiento
Modelado
Análisis del
modelo
Integración
selección, extracción, captura, muestreo, observación, medición, sondeo, enriquecimiento…
estadística descriptiva, histograma, dispersión, valores atípicos, valores vacíos
interpretación, evaluación, validación, valoración, análisis de errores
aplicación, explotación, uso
aprendizaje automático (supervisado o no)
transformación, escalado, normalización, redimensionado...

08/02/2022
“Debemos sospechar de cualquier conjunto de
datos (grande o pequeño) que parezca perfecto.”
David J. Hand
Hand, David J. "Statistical challenges of administrative and transaction data." Journal
of the Royal Statistical Society: Series A (Statistics in Society) 181.3 (2018): 555-605.
Advertencia!

08/02/2022
Preprocesamiento
Preprocesamiento ● Extracción de características
● Estandarización
● Transformaciones no lineales
● Normalización
● Codificación de datos categóricos
● Discretización
● Imputación de valores desconocidos
● Generación de características polinomiales
● Generación de características ad-hoc
● Reducción de la dimensionalidad
● Codificación de la variable objetivo
● Etc.

08/02/2022
Problemas en Datos clínicos

08/02/2022
Algunos datos no categorizados y heterogéneos
Toxin-age of
onset
(years)
Body mass
index
(kg/m2)
Hemoglobin
(g/dL)
Creatinine
(mg/dL)
Platelets
(u/mcL)
51 17.21 13.4 0.71 213000
49 24.5 14.2 0.55 252000
36 28.54 13.5 0.44 304000
26 36.14 13.1 0.66 218000
31 31.05 14.8 0.71 327000
65 41.07 16.2 0.74 327000

08/02/2022
“La cuestión de la calidad de la historia clínica (datos
erróneos, faltantes y ambiguos) y de los datos extraídos
de ella sigue siendo poco estudiada”
Cabitza et al., 2019
Cabitza, F., Ciucci, D. & Rasoini, R. A giant with feet of clay: on the validity of the data
that feed machine learning in medicine. In Organizing for the Digital World, pages
121–136. Springer, 2019.
Situación actual

08/02/2022
Ejemplo de atributos heterogéneos, continuos y
categorizados disponibles en los datos clínicos
Toxin-age of
onset (years)
Body mass
index (kg/m2)
Hemoglobin
(g/dL)
Creatinine
(mg/dL)
Platelets
(u/mcL)
51 17.21 13.4 0.71 213000
49 24.5 14.2 0.55 252000
36 28.54 13.5 0.44 304000
26 36.14 13.1 0.66 218000
31 31.05 14.8 0.71 327000
65 41.07 16.2 0.74 327000
[Vmin, µ-σ] (µ-σ, µ+σ] (µ+σ,Vmax]
1 2 3
Categorización basada en Media y std-deviation

08/02/2022
¿Qué son los datos faltantes (missing
data)?
• En la práctica, los
datos consisten en (a)
las observaciones
realmente realizadas
(donde '?' denota una
observación faltante):
• y (b) el patrón de
valores faltantes:
Variable
Unit 1 2 3 4 5 6 7
1 1 2 3.4 4.5 ? 10 1.2
2 1 3 ? ? B 12 ?
3 2 ? 2.6 ? C 15 0
Variable
Unit 1 2 3 4 5 6 7
1 1 1 1 1 0 1 1
2 1 1 0 0 1 1 0
3 1 0 1 0 1 1 1

08/02/2022
Completers analysis
• Los datos de la
derecha tienen una
observación faltante
en la variable 2,
unidad 10.
• Completers analysis
elimina todas las
unidades con datos
incompletos del
análisis (aquí la
unidad 10).
Variable
Unit 1 2
1 3.4 5.67
2 3.9 4.81
3 2.6 4.93
4 1.9 6.21
5 2.2 6.83
6 3.3 5.61
7 1.7 5.45
8 2.4 4.94
9 2.8 5.73
10 3.6 ?

08/02/2022
¿Qué tiene de malo el completers
analysis?
• Es ineficiente
• Es problemático en la regresión cuando faltan los
valores de covariables y es necesario comparar modelos
con varios conjuntos de variables explicativas.
– O seguimos cambiando el tamaño del dataset, a medida que
agregamos/eliminamos variables explicativas con missing
values,
– O usamos el subconjunto (potencialmente muy pequeño y no
representativo) de los datos sin missing values.
• Cuando las observaciones que faltan no son una
selección completamente aleatoria de los datos, un
completers analysis dará estimaciones sesgadas e
inferencias inválidas.

08/02/2022
Imputación de datos
• Se encarga de completar los datos que faltan con
algunos valores plausibles. Este ha sido un
método popular para manejar problemas de
missing values (Barnard 1999)
• Una vez que se completan los missing values, los
métodos estándar de minería de datos que operan
en conjuntos de datos completos pueden ser
aplicados fácilmente para obtener modelos
predictivos, y así evitar la complicación en el
manejo, cálculo y análisis de datos debido a
irregularidades en los modelos.

08/02/2022
Imputación de datos
Para tener un análisis basado en dataset
parcialmente imputados, se deben cumplir dos
requisitos:
1. El método o modelo de imputación debe capturar
razonablemente las relaciones distributivas
reales entre lo no observado y lo observado.
2. El análisis debe tener en cuenta la incertidumbre
en los valores imputados, porque no importa
cuánto esfuerzo se haga, los valores imputados
simplemente no son las observaciones reales.

08/02/2022
Imputación media simple
• Reemplazamos los
datos faltantes con
el promedio
aritmético de los
datos observados
para esa variable.
En la tabla de 10
casos será 5,58.
• Se usa la moda en
lugar del promedio para
las variables
categóricas
Variable
Unit 1 2
1 3.4 5.67
2 3.9 4.81
3 2.6 4.93
4 1.9 6.21
5 2.2 6.83
6 3.3 5.61
7 1.7 5.45
8 2.4 4.94
9 2.8 5.73
10 3.6 5.58

08/02/2022
Feature Selection: ¿Por qué?
Tiene algunos datos y desea usarlos para crear
un clasificador, de modo que pueda predecir
algo (por ejemplo, la probabilidad de cáncer)
Los datos tienen 10.000 campos (atributos)
debe reducirlo a 1000 campos antes de hacer uso de
técnicas de aprendizaje automático. ¿Cuáles 1000?
El proceso de elegir los 1000 campos que se van a utilizar se
denomina Selección de características (Feature Selection)

08/02/2022
Conjuntos de datos con muchos atributos
Gene expression datasets (~10,000 features)
http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds
Proteomics data (~20,000 features)
http://www.ebi.ac.uk/pride/

08/02/2022
Descripción general
• ¿Por qué necesitamos FS?:
1. Para mejorar el rendimiento (en términos de
velocidad, poder predictivo, simplicidad del
modelo).
2. Para visualizar los datos para la selección del
modelo.
3. Para reducir la dimensionalidad y eliminar el
ruido..
• Feature Selection es un proceso que elige un
subconjunto óptimo de atributos de acuerdo
a cierto criterio.

08/02/2022
Descripción general
• Las razones para realizar FS pueden
incluir…
– eliminar datos irrelevantes.
– aumentar la exactitud predictiva de los modelos
aprendidos.
– reducir el costo de los datos.
– mejorar la eficiencia del aprendizaje, como
reducir los requisitos de almacenamiento y el
costo computacional.
– reducir la complejidad de la descripción del
modelo resultante, mejorando la comprensión de
los datos y del modelo.

08/02/2022
The accuracy of all test Web URLs when chang the number of
top words for category file
74%
76%
78%
80%
82%
84%
86%
88%
90%
top10
top20
top30
top40
top50
top60
top70
top80
top90
top100
top110
top120
top130
top140
top150
top160
top170
top180
top190
top200
Number of top words for category file
Accuracy

08/02/2022
From http://elpub.scix.net/data/works/att/02-28.content.pdf
Bastante fácil de
encontrar muchos
más casos de
artículos, donde los
experimentos
muestran que la
exactitud se reduce
cuando usan más
atributos

08/02/2022
Feature selection methods

08/02/2022
Técnicas de minería de datos
• En el ámbito de la investigación las técnicas de data mining pueden
ayudar a los científicos a clasificar y segmentar datos y a formar
hipótesis.
• El data mining permite encontrar información escondida en los
datos que no siempre resulta aparente, ya que, dado el gigantesco
volumen de datos existentes, gran parte de ese volumen nunca será
analizado.
• Las técnicas de data mining pueden ser de dos tipos:
– Métodos descriptivos– Buscan patrones interpretables para
describir datos. Son los siguientes: clustering, descubrimiento de
reglas de asociación y descubrimiento de patrones
secuenciales.
• Los métodos descriptivos se han utilizado, por ejemplo, para ver que
productos suelen adquirirse conjuntamente en el supermercado.
– Métodos predictivos- Usan algunas variables para predecir
valores futuros o desconocidos de otras variables. Son los
siguientes: clasificación, regresión y detección de la desviación.

08/02/2022
Contenido
KDD

08/02/2022
Métodos de Clustering
• Muchos métodos y algoritmos diferentes:
– Para datos numéricos y / o simbólicos
– Determinista vs. probabilista
– Exclusivo vs. superpuesto
– Jerárquico vs. plano
– Top-down vs. bottom-up

08/02/2022
Clusters: exclusivo vs. superpuesto (overlapping)
Simple 2-D representation
Non-overlapping
Venn diagram
Overlapping
a
k
j
i
h
g
f
e
d
c
b
a
k
j
i
h
g
f
e
d
c
b

08/02/2022
Evaluación de Clusters
• Inspección manual
• Benchmarking de etiquetas existentes
• Medidas de calidad del clúster
– medidas de distancia
– alta similitud dentro de un grupo, baja entre
grupos

08/02/2022
La función de distancia
• Caso más simple: un atributo numérico A
– Distancia(X,Y) = A(X) – A(Y)
• Varios atributos numéricos:
– Distancia(X,Y) = distancia euclidea entre X,Y
• Atributos nominales: la distancia se establece
en 1 si los valores son diferentes, 0 si son
iguales
• ¿Son todos los atributos igualmente
importantes?
– Podría ser necesario ponderar los atributos

08/02/2022
Contenido
KDD

08/02/2022
Clasificación
Aprender un modelo para predecir la clase de una instancia a
partir de instancias previamente etiquetadas (clasificadas)
Muchos métodos:
Regresión,
Árboles de clasificación,
Redes bayesianas,
Redes neuronales,
...
Dado un conjunto de puntos de clases
cual es la clase de nuevo punto ?

08/02/2022
Sobreajuste (overfitting)
f2
f1

08/02/2022
67
El problema del clima
Outlook Temperature Humidity Windy Play
sunny 85 85 false no
sunny 80 90 true no
overcast 83 86 false yes
rainy 70 96 false yes
rainy 65 70 true no
overcast 64 65 true yes
sunny 72 95 false no
sunny 69 70 false yes
sunny 75 70 true yes
overcast 72 90 true yes
overcast 81 75 false yes
rainy 71 91 true no
Dados los datos históricos,
puedes obtener las reglas
para ¿Jugar / no jugar?
¿De qué va el juego?

08/02/2022
El problema del clima
• Condiciones para jugar al golf
Sunny Hot High False No
Sunny Hot High True No
Overcast Hot High False Yes
Rainy Mild Normal False Yes
… … … … …
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes

08/02/2022
Datos meteorológicos con atributos
mixtos
• Algunos atributos tienen valores numéricos
Sunny 85 85 False No
Sunny 80 90 True No
Overcast 83 86 False Yes
Rainy 75 80 False Yes
… … … … …
If outlook = sunny and humidity > 83 then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity < 85 then play = yes
If none of the above then play = yes

08/02/2022
Los datos de las lentes de contacto
Age Spectacle prescription Astigmatism Tear production rate Recommended
lenses
Young Myope No Reduced None
Young Myope No Normal Soft
Young Myope Yes Reduced None
Young Myope Yes Normal Hard
Young Hypermetrope No Reduced None
Young Hypermetrope No Normal Soft
Young Hypermetrope Yes Reduced None
Young Hypermetrope Yes Normal hard
Pre-presbyopic Myope No Reduced None
Pre-presbyopic Myope No Normal Soft
Pre-presbyopic Myope Yes Reduced None
Pre-presbyopic Myope Yes Normal Hard
Pre-presbyopic Hypermetrope No Reduced None
Pre-presbyopic Hypermetrope No Normal Soft
Pre-presbyopic Hypermetrope Yes Reduced None
Pre-presbyopic Hypermetrope Yes Normal None
Presbyopic Myope No Reduced None
Presbyopic Myope No Normal None
Presbyopic Myope Yes Reduced None
Presbyopic Myope Yes Normal Hard
Presbyopic Hypermetrope No Reduced None
Presbyopic Hypermetrope No Normal Soft
Presbyopic Hypermetrope Yes Reduced None
Presbyopic Hypermetrope Yes Normal None

08/02/2022
Un conjunto de reglas completo y
correcto
If tear production rate = reduced then recommendation = none
If age = young and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = pre-presbyopic and astigmatic = no
If age = presbyopic and spectacle prescription = myope
and astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = no
If spectacle prescription = myope and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age young and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age = pre-presbyopic
and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none

08/02/2022
Un árbol de clasificación para este
problema.

08/02/2022
Clasificación iris de flores
Sepal length Sepal width Petal length Petal width Type
1 5.1 3.5 1.4 0.2 Iris setosa
2 4.9 3.0 1.4 0.2 Iris setosa
…
51 7.0 3.2 4.7 1.4 Iris versicolor
52 6.4 3.2 4.5 1.5 Iris versicolor
…
101 6.3 3.3 6.0 2.5 Iris virginica
102 5.8 2.7 5.1 1.9 Iris virginica
…
If petal length < 2.45 then Iris setosa
If sepal width < 2.10 then Iris versicolor
...

08/02/2022
• Example: 209 different computer configurations
• Linear regression function
Predecir el rendimiento de la CPU
Cycle time
(ns)
Main memory
(Kb)
Cache
(Kb)
Channels Performance
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269
…
208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

08/02/2022
El papel del conocimiento del dominio
If leaf condition is normal
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
If leaf malformation is absent
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
Pero en este dominio, “leaf condition is normal” implica
“leaf malformation is absent”!

08/02/2022
Dividiendo el dataset (conjunto de datos)
+
+
-
-
+
Data
Training set
90%
Testing set
10%

08/02/2022
Entrenamiento de modelos
Training set
+
+
-
-
+
Data
Construcción del
modelo
Testing set

08/02/2022
Evaluación de modelos
Data
Predicciones
Y N
Training set
Testing set
+
+
-
-
+
Construcción del
modelo
Evaluar
+
-
+
-

08/02/2022
Clasificación: entrenamiento, validación, prueba
Data
Predicciones
Y N
Resultados Conocidos
Training set
Validation set
+
+
-
-
+
Construcción del modelo
Evaluar +
-
+
-
Final Model
Final Test Set
+
-
+
-
Final Evaluation
Construcció
n del modelo

08/02/2022
Evaluación sobre datasets
“INMENSOS”
• Si hay muchos (miles) de instancias
disponibles, incluidos varios cientos de
instancias de cada clase, una evaluación
simple es suficiente.
– Divida aleatoriamente los datos en conjuntos de
entrenamiento y prueba (generalmente 2/3 para
entrenamiento, 1/3 para prueba)
• Construya un clasificador usando el conjunto
de entrenamiento (training set) y evalúelo
usando el conjunto de prueba (test set)

08/02/2022
Métricas
TP FN
TN
FP
-
+
+ -
Predicted
class value
Actual
class
value
• Positive values: “high”
therapeutic response to
treatment
• Negative values: “low”
therapeutic response to
treatment

08/02/2022
▪ Matriz de confusión/contingencia (p.ej. para el conjunto de test):
abrir (p) cerrar (n)
ABRIR (P) TP FP
CERRAR (N) FN TN
Real
Predicho Diagonal
de los
aciertos
• A partir de aquí, se han definido una serie de métricas:
❖ True Positive Rate: TPR = TP / (TP + FN). (“recall” o ”sensitivity” o “positive accuracy”).
❖ False Negative Rate: FNR = FN / (TP + FN). (“positive error”)
❖ True Negative Rate: TNR = TN / (TN + FP). (”specificity” o ”negative accuracy”).
❖ False Positive Rate: FPR = FP / (TN + FP). (“negative error”)
❖ Positive Predictive Value: PPV = TP / (TP + FP). (”precision”).
❖ Negative Predictive Value: NPV = TN / (TN + FN).
❖ Macro-average = MEDIA(TPR, TNR). (La media puede ser aritmética, geométrica u
otra)
❖ BREAK-EVEN= (Precision + Recall) / 2 = (PPV + TPR) / 2
❖ F-MEASURE= (Precision * Recall) / BREAK-EVEN = 2*PPV*TPR / (PPV + TPR)

08/02/2022
• Ejemplo: (conjunto de test de 100.000 instancias)
c1 abrir cerrar
ABRIR 300 500
CERRAR 200 99000
Real
Pred
c3 abrir cerrar
ABRIR 400 5400
CERRAR 100 94100
Real
c2 abrir cerrar
ABRIR 0 0
CERRAR 500 99500
Real
ERROR: 0,7%
TPR= 300 / 500 = 60%
FNR= 200 / 500 = 40%
TNR= 99000 / 99500 = 99,5%
FPR= 500 / 99500 = 0,5%
PPV= 300 / 800 = 37,5%
NPV= 99000 / 99200 = 99,8%
Macromedia= (60 + 99,5 ) / 2 =
79,75%
ERROR: 0,5%
TPR= 0 / 500 = 0%
FNR= 500 / 500 = 100%
TNR= 99500 / 99500 = 100%
FPR= 0 / 99500 = 0%
PPV= 0 / 0 = INDEFINIDO
NPV= 99500 / 10000 = 99,5%
Macromedia= (0 + 100 ) / 2 =
50%
ERROR: 5,5%
TPR= 400 / 500 = 80%
FNR= 100 / 500 = 20%
TNR= 94100 / 99500 = 94,6%
FPR= 5400 / 99500 = 5,4%
PPV= 400 / 5800 = 6,9%
NPV= 94100 / 94200 = 99,9%
Macromedia= (80 + 94,6 ) / 2 =
87,3%
¿Qué clasificador es mejor?
Especificidad
Sensitividad
Recall
Precision

08/02/2022
▪ Evaluación sensible al coste:
▪ En muchas situaciones todos los errores producidos por un modelo
predictivo no tienen las mismas consecuencias:
▪ Ejemplo: Dejar cerrada una válvula en una central nuclear cuando es
necesario abrirla, puede provocar una explosión, mientras que abrir una
válvula cuando puede mantenerse cerrada, puede provocar una parada.
▪ Matriz de costes:
▪ Lo importante no es obtener un “clasificador” que yerre lo menos
posible sino que tenga un coste menor.
▪ A partir de la matriz se calcula el coste de un clasificador.
▪ Los clasificadores se evalúan con dichos costes.
▪ Se selecciona el clasificador de menos coste.
abrir cerrar
ABRIR 0 100€
CERRAR 2000€ 0
Real
Predicho

08/02/2022
▪ Ejemplos:
abrir cerrar
ABRIR 0 100€
CERRAR 2000€ 0
Real
Predicho
c1 abrir cerrar
ABRIR 300 500
CERRAR 200 99000
Real
Pred
c3 abrir cerrar
ABRIR 400 5400
CERRAR 100 94100
Real
c2 abrir cerrar
ABRIR 0 0
CERRAR 500 99500
Real
c1 abrir cerrar
ABRIR 0€ 50.000€
CERRAR 400.000€ 0€
c3 abrir cerrar
ABRIR 0€ 540.000€
CERRAR 200.000€ 0€
c2 abrir cerrar
ABRIR 0€ 0€
CERRAR 1.000.000€ 0€
COSTE TOTAL: 450.000€ COSTE TOTAL: 1.000.000€ COSTE TOTAL: 740.000€
Matrices de confusión
Matriz de
coste
Matrices resultado

08/02/2022
▪¿De qué depende el coste final?
▪ Para dos clases. Depende de un contexto (o skew):
▪ El coste de los falsos positivos y falsos negativos: FPcost y
FNcost
▪ El porcentaje de ejemplos de la clase negativa respecto de
ejemplos de la clase positiva. (Neg / Pos).
▪ Se calcula: (para el ejemplo anterior)
20
1
2000
100
=
=
FNcost
FPcost
199
500
99500
=
=
Pos
Neg
95
,
9
199
·
20
1
=
=
slope
– Para dos clases, el valor “slope” es suficiente para
determinar qué clasificador será mejor.
Clasifi. 1: FNR= 40%, FPR= 0,5%
Coste Unitario =
1 x 0,40 + 9,95 x 0,005 = 0,45
Clasifi. 2: FNR= 100%, FPR= 0%
Coste Unitario =
1 x 1 + 9,95 x 0 = 1
Clasifi. 3: FNR= 20%, FPR= 5,4%
Coste Unitario =
1 x 0,20 + 9,95 x 0,054 = 0,74

08/02/2022
87
▪ El clasificador con menor error no es, frecuentemente, el
mejor clasificador.
▪ El contexto (la distribución de clases y los costes de
cada error) determinan la bondad de los clasificadores.
▪ PROBLEMA:
▪ En muchas aplicaciones, hasta el momento de aplicación, no se
conoce la distribución de clases y/o es difícil estimar la matriz de
costes. P.ej. un clasificador de spam.
▪ Pero los modelos se aprenden antes generalmente.
▪ Análisis ROC (Receiver Operating Characteristic).
▪ Usado por primera vez para evaluar radares en la 2ª guerra mundial,
posteriormente se usó para el análisis de respuesta de transistores, se
desarrolló fundamentalmente para aplicaciones de diagnóstico médico a
partir de 1970 y comienza a popularizarse a finales de los 90 en minería
de datos.

08/02/2022
Espacio ROC
0,000
0,200
0,400
0,600
0,800
1,000
0,000 0,200 0,400 0,600 0,800 1,000
False Positives
True
Positives
▪El espacio ROC
▪ Se normaliza la matriz de confusión por columnas:
TPR, FNR TNR, FPR.
abrir cerrar
ABRIR 400 12000
CERRAR 100 87500
Real
Pred
abrir cerrar
ABRIR 0,8 0,121
CERRAR 0,2 0,879
Real
Pred
TPR= 400 / 500 = 80%
FNR= 100 / 500 = 20%
TNR= 87500 / 99500 = 87,9%
FPR= 12000 / 99500 = 12,1%

08/02/2022
▪Espacio ROC: buenos y malos clasificadores.
0 1
1
0
FPR
TPR
• Buen clasificador.
– Alto TPR.
– Bajo FPR.
0 1
1
0
FPR
TPR
0 1
1
0
FPR
TPR
• Mal clasificador.
– Bajo TPR.
– Alto FPR.
• Mal clasificador
(en realidad).

08/02/2022
▪La Curva ROC. Construcción.
ROC diagram
0 1
1
0
FPR
TPR
▪ Construimos el “casco convexo”
(convex hull) de sus puntos
(FPR,TPR) además de los dos
clasificadores triviales (0,0) y
(1,1).
▪ Los clasificadores que caen
debajo de la curva ROC se
descartan.
▪ El mejor clasificador de los que
quedan se seleccionará en el
momento de aplicación…
▪ Dados varios clasificadores:
Podemos descartar los que están por debajo porque no hay ninguna
combinación de distribución de clases / matriz de costes para la cual puedan
ser óptimos.
La diagonal
muestra por
tanto la peor
situación posible.

08/02/2022
Medición honesta: Cross-validation
• Cross-validation evita la superposición de
conjuntos de prueba
– Primer paso: los datos se dividen en k
subconjuntos de igual tamaño
– Segundo paso: cada subconjunto a su vez se
usa para pruebas y el resto para entrenamiento
• Eso es llamado k-fold cross-validation
• A menudo, los subconjuntos se estratifican
antes de que se realice la validación cruzada.
• Las estimaciones de error se promedian para
producir una estimación de error general

08/02/2022
Cross-validation: Ejemplo
— Divida los datos en grupos del mismo tamaño
—
—
— Mantenga a un lado un grupo para probar y use el resto para
construir el modelo
—
— Repetir
Test

08/02/2022
D4
D3
D2
D1
Classificatio
n algorithm
M
D4
D3
D2
D1
D4
D3
D2
D1
D4
D3 D2
D1
D4
D3
D2
D1
M1
M2
M3
M4
Accuracy1
Accuracy2
Accuracy3
Accuracy4
Classificatio
n algorithm
Classificatio
n algorithm
Classificatio
n algorithm
Classificatio
n
algorithm
K-fold cross validation (k=4, ej, didáctico)

08/02/2022
Diseño de un experimento
Entrenamiento
Evaluación
Validación
train
dev
test
Modelo
(parámetros)
Hiperparámetros
Análisis de
errores:
- de sesgo
- de varianza
Datos
Preprocesamiento
Rendimiento
real del
modelo

08/02/2022
Parámetros e hiperparámetros
Fuente: stanford.edu
Hiperparámetros:
Son los valores que tenemos a mano
para configurar el algoritmo de
aprendizaje automático (épocas, número
de capas, ratio de aprendizaje, etc.).
Se establecen manualmente o usando
un proceso de búsqueda y optimización
(AutoML)
Parámetros:
Son los valores numéricos que define el
modelo matemático aprendido (pesos,
umbrales, etc.).
Se calculan automáticamente (se
aprenden automáticamente).
Entrenamiento Modelo
(parámetros)
Hiperparámetros

08/02/2022
Análisis de errores
● Muestra aleatoria de errores (10, 20, 50, 100)
● Intentamos identificar tipos de causas de error
● Rediseñamos aprendizaje (algoritmo,
hiperparámetros...)
ID ejemplo Tipo de error Esperado Predicho Causa del error
1 I FALSE TRUE Peso incorrecto
34 II TRUE FALSE Categoría desconocida
54 I FALSE TRUE Peso incorrecto
345 II TRUE FALSE Valores próximos
534 II TRUE FALSE Valores próximos
6578 I FALSE TRUE Categoría desconocida

08/02/2022
Interpretación del error
Fuente: stanford.edu
● Error de sesgo (bias)
Error alto en train y dev
Soluciones:
- mayor complejidad en el
modelo
- más tiempo de entrenamiento
- …
● Error de varianza (variance)
Error bajo en train, alto en dev
Soluciones:
Generalización (más datos,
regularización, parada
temprana, menor complejidad
del modelo…)

08/02/2022
Contenido
KDD

08/02/2022
Clasificación: Regresión Lineal
▪ Regresión lineal
w0 + w1 x + w2 y >= 0
▪ Regresión calcula wi
de los datos para
minimizar el error al
cuadrado para
"ajustar" los datos
▪ No es suficientemente
flexible

08/02/2022
Clasificación: Reglas
X
Y
5
2
3
if X > 5 then purple
else if Y > 3 then purple
else if X > 2 then green
else purple

08/02/2022
Clasificación: Árboles de clasificación
X
Y
5
2
3
Es un modelo de clasificación supervisado que utiliza la estructura de árbol para
describir la relación entre las características del modelo y los probables resultados
X
>5
purple
Y
>3
purple
<= 5
X
<= 3
purple
>2
green
<= 2

08/02/2022
Clasificación: Redes bayesianas
P(X|Asia=yes,Smoker=yes,Dyspnea=yes)?

08/02/2022
Ej. Caso completo (“Robo
o terremoto”) [Pearl’88]
Alarm
Earthq.
Burglary
WatsonCalls
News

08/02/2022
Consultas: probabilidades posteriores
Dada alguna evidencia e (observaciones),
Probabilidad Posterior de una variable(s) objetivo X :
Otros nombres: propagación de probabilidad, actualización de
creencias o revisión …
Alarm
Earth.
Burgl.
WCalls
News
?
Vector

08/02/2022
Semánticamente, por cualquier tipo de razonamiento
Razonamiento predictivo o deductivo (inferencia causal): predice
efectos
Alarm
Earth.
Burgl.
WCalls
News
?
Razonamiento diagnóstico (inferencia diagnóstica): diagnosticar
las causas
Alarm
Earth.
Burgl.
WCalls
News
?
Sintomas|Enfermedad
Enfermedad|Sintomas
Variable objetivo es
usualmente una descendiente
de la evidencia
Variable objetivo es
usualmente un ancestro de la
evidencia

08/02/2022
… para cualquier tipo de razonamiento
Razonamiento intercausal: entre causas
de un efecto común
Alarm
Earth.
Burgl.
WCalls
News
?
B y E son independientes el uno del otro
Suponer que A=Yes → Esto aumenta la Prob. para ambas posibles
causas B y E
Suponer luego que B=Yes → Esto explica el A observado, que a su
vez baja la Prob. de E=Yes
Dos causas inicialmente independientes. Si el efecto es conocido,
la presencia de una causa explicativa hace que la causa
alternativa sea menos probable (Esto es alejamiento explicativo)

08/02/2022
… para cualquier tipo de razonamiento
La dirección del arco entre las variables no restringe el tipo de
consulta que se debe realizar: la inferencia probabilística puede
combinar evidencia de todas las partes de la red
Razonamiento bidirectional(inferencia mixta): combina 2 o mas de
las anteriores
Alarm
Earth.
Burgl.
WCalls
News
? Razonamiento diagnóstico y predictivo
Razonamiento diagnóstico e intercausal

08/02/2022
Más consultas: conjunta y verosimilitud
Conjunta posterior: prob. condicional de muchas
variables
El tamaño de la respuesta a la consulta es exponencial en
el número de variables en la conjunta
Verosimilitud de la evidencia: la consulta mas simple,
ej: la prob. de la evidencia

08/02/2022
Clasificación: Redes neuronales
▪ Puede seleccionar
regiones más
complejas
▪ Puede ser más precisa
▪ Además, puede
sobreajustar los datos
– encontrar patrones
en ruido aleatorio

08/02/2022
Clustering Simple: K-means
Funciona solo con datos numéricos
1) Elija un número (K) de centros de
clústers/grupos (al azar)
2) Asignar cada elemento a su centro de
grupo más cercano (por ejemplo, utilizando
la distancia euclidiana)
3) Mueva cada centro de clúster a la media de
sus elementos asignados
4) Repita los pasos 2, 3 hasta la convergencia
(cambio en las asignaciones de clúster por
debajo de un umbral)

08/02/2022
Ejemplo K-means, paso 1
k1
k2
k3
X
Y
Elija 3
centros de
grupo
iniciales
(al azar)

08/02/2022
k1
k2
k3
X
Y
Asignar
cada punto
al centro del
grupo más
cercano

08/02/2022
X
Y
Mueva
cada
centro de
grupo a la
media de
cada
grupo
k1
k2
k2
k1
k3
k3

08/02/2022
Discusión
• El resultado puede variar significativamente
según la elección inicial de semillas.
• Puede quedar atrapado en un mínimo local
– Ejemplo:
• Para aumentar la posibilidad de encontrar el
óptimo global: reinicie con diferentes semillas
aleatorias
instances
initial
cluster
centers

08/02/2022
Resumen de agrupación en clústeres por K-means
• Ventajas
– Simple, comprensible
– elementos asignados
automáticamente a
clústeres
• Desventajas
– Debe elegir el
número de grupos de
antemano
– Todos los elementos
forzados a agruparse
– Demasiado sensible
a los valores atípicos

08/02/2022
Variaciones de K-means
• K-medoids – en lugar de medias, usa las
medianas de cada grupo
– Media de 1, 3, 5, 7, 9 es
– Media de 1, 3, 5, 7, 1009 es
– Mediana de 1, 3, 5, 7, 1009 es
– Ventaja de la mediana: no afectado por
valores extremos
• Para bases de datos grandes, use
muestreo
5
205
5

08/02/2022
*Clustering jerárquico
• Bottom up
– Comience con clústeres de instancia única
– En cada paso, une los dos grupos más cercanos
– Decisión de diseño: distancia entre clústeres
• P.ej. dos instancias más cercanas en grupos
vs. distancia entre medias
• Top down
– Comience con un clúster universal
– Encuentra dos grupos
– Proceda de forma recursiva en cada subconjunto
– Puede ser muy rápido
• Ambos métodos producen un dendrograma.
g a c i e d k b j f h

08/02/2022
*Clustering incremental
• Enfoque heurístico (COBWEB/CLASSIT)
• Forma una jerarquía de clústeres de forma incremental
• Inicio:
– el árbol consta de un nodo raíz vacío
• Luego:
– agregar instancias una por una
– actualizar el árbol de manera apropiada en cada etapa
– para actualizar, busque la hoja correcta para una instancia
– Puede implicar la reestructuración del árbol.
• Basar las decisiones de actualización en la utilidad de la
categoría

08/02/2022
*Clusterizando datos meteorológicos
• 1
ID Outlook Temp. Humidity Windy
A Sunny Hot High False
B Sunny Hot High True
C Overcast Hot High False
D Rainy Mild High False
E Rainy Cool Normal False
F Rainy Cool Normal True
G Overcast Cool Normal True
H Sunny Mild High False
I Sunny Cool Normal False
J Rainy Mild Normal False
K Sunny Mild Normal True
L Overcast Mild High True
M Overcast Hot Normal False
N Rainy Mild High True
2
3
1

08/02/2022
*Clusterizando datos meteorológicos
• 4
E Rainy Cool Normal False
F Rainy Cool Normal True
G Overcast Cool Normal True
H Sunny Mild High False
I Sunny Cool Normal False
J Rainy Mild Normal False
K Sunny Mild Normal True
L Overcast Mild High True
M Overcast Hot Normal False
N Rainy Mild High True
3
Merge best host
and runner-up
5
Consider splitting the best
host if merging doesn’t help
4

08/02/2022
*Jerarquía final
Oops! a and b are
actually very similar

08/02/2022
*Ejemplo: los datos del iris (subconjunto)

08/02/2022
*Clustering con corte

08/02/2022
*Utilidad de la categoría
• Utilidad de la categoría: función de pérdida
cuadrática definida en probabilidades
condicionales:
• Cada instancia en una categoría diferente 
numerador se convierte en
k
v
a
C
v
a
C
C
C
C
CU l i j
ij
i
l
ij
i
l
k
  =
−
=
=
)
]
Pr[
]
|
(Pr[
]
Pr[
)
,...,
,
(
2
2
2
1
2
]
Pr[ ij
i v
a
m =
− maximum
number of attributes

08/02/2022
* Heurística para evitar sobreajuste
• Si cada instancia se coloca en una categoría
diferente, el numerador se convierte en (máximo):
• Donde n es el número de todos los posibles valores
de atributo.
• Entonces, sin k en el denominador de la fórmula UC,
¡cada grupo consistiría en una instancia!
 =
−
i j
ij
v
i
a
n 2
]
Pr[ Valor Máximo de UC

08/02/2022
Niveles de Clustering

08/02/2022
Clustering jerárquico
• Los clústeres se crean en niveles creando
realmente conjuntos de clústeres en cada nivel.
• Aglomerativo
– Inicialmente, cada elemento en su propio grupo
– Iterativamente, los clústeres se fusionan
– Bottom Up
• Divisivo
– Inicialmente, todos los elementos de un grupo
– Los grandes grupos se dividen sucesivamente
– Top Down

08/02/2022
Dendrograma
• Dendrograma: una
estructura de datos de
árbol que ilustra técnicas
de agrupamiento
jerárquico.
• Cada nivel muestra
grupos para ese nivel.
– Hojas – clusters
individuales
– Raiz – un cluster
• Un clúster en el nivel i es
la unión de sus clústeres
hijos en el nivel i + 1.
128

08/02/2022
Ejemplo Aglomerativo
A B C D E
A 0 1 2 2 3
B 1 0 2 4 3
C 2 2 0 1 5
D 2 4 1 0 3
E 3 3 5 3 0
B
A
E C
D
4
Umbral de
2 3 5
1
A B C D E

08/02/2022
Distancia entre Clústeres
• Single Link: menor distancia entre puntos
• Complete Link: mayor distancia entre puntos
• Average Link: distancia media entre puntos
• Centroid: distancia entre centroides

08/02/2022
Agrupación en clústeres de enlace único
(Single Link Clustering)

08/02/2022
Resúmen sobre Algoritmos de
Clustering
• Aprendizaje no supervisado
• Muchas metodologías
– K-means – simple, algunas veces es muy útil
• K-medoids es menos sensitive a valores extremos
– Clustering jerárquico – funciona para atributos
simbólicos
• La evaluación de clústeres es un
problema

08/02/2022
Minería de datos
Unidad 3
Final de la unidad

IN Unidad 3: Minería de datos

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to IN Unidad 3: Minería de datos

Similar to IN Unidad 3: Minería de datos (20)

More from Franklin Parrales Bravo

More from Franklin Parrales Bravo (20)

IN Unidad 3: Minería de datos