SlideShare a Scribd company logo
1 of 133
Ph.D. Franklin Parrales 1
08/02/2022
Inteligencia de Negocios Carrera de Software
Minería de datos
Unidad 3
Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo
para uso de los cursos de Inteligencia de Negocios
Ph.D. Franklin Parrales 2
08/02/2022
Inteligencia de Negocios Carrera de Software
Objetivo general de la Unidad 3
Aplicar técnicas y tecnologías que permiten explorar
grandes bases de datos, de manera automática o
semiautomática, con el objetivo de encontrar patrones
repetitivos que expliquen el comportamiento de estos
datos.
Ph.D. Franklin Parrales 3
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
Ph.D. Franklin Parrales 4
08/02/2022
Inteligencia de Negocios Carrera de Software
Ph.D. Franklin Parrales 5
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso de Descubrimiento del
conocimiento KDD
Se suele componer de cuatro etapas principales:
• Determinación de los objetivos. Trata de la delimitación de los objetivos
que el cliente desea bajo la orientación del especialista en minería de
datos.
• Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos.
Esta etapa consume generalmente alrededor del setenta por ciento del
tiempo total de un proyecto de minería de datos.
• Determinación del modelo. Se comienza realizando unos análisis
estadísticos de los datos, y después se lleva a cabo una visualización
gráfica de los mismos para tener una primera aproximación. Según los
objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse
algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
• Análisis de los resultados. Verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por los análisis estadísticos y de
visualización gráfica. El cliente determina si son novedosos y si le aportan
un nuevo conocimiento que le permita considerar sus decisiones.
Ph.D. Franklin Parrales 6
08/02/2022
Inteligencia de Negocios Carrera de Software
CRISP-DM
• CRISP-DM (del inglés Cross Industry
Standard Process for Data Mining)​ se trata
de un modelo estándar abierto del
proceso que describe los enfoques
comunes que utilizan los expertos en
minería de datos.
• La metodología CRISP-DM aborda el ciclo
de vida de un proyecto de minería de
datos
Ph.D. Franklin Parrales 7
08/02/2022
Inteligencia de Negocios Carrera de Software
CRISP-DM
Clinical
data
Comprender
los requisitos
Comprensión
de datos
Preprocesamiento
de datos
Modelado
Evaluación
Clinical
data
Data
Despliegue
Ph.D. Franklin Parrales 8
08/02/2022
Inteligencia de Negocios Carrera de Software
Comprender los
requisitos
Comprensión de
datos
Preprocesamiento
de datos
Modelado
Determinar los objetivos
médicos
• Antecedentes
• Objetivos
• Criterios de éxito
Evaluar la situación
• Inventario de recursos
• Requisitos, suposiciones y
restricciones
• Riesgos y Contingencias
• Terminología
• Costos y beneficios
Determinar
Objetivos de minería de
datos
• Objetivos de minería de
datos
• Criterios de éxito en
minería de datos
Producir el plan de proyecto
• Plan de proyecto
• Evaluación inicial de
herramientas y técnicas
Conjunto de datos
• Descripción del
conjunto de datos
Seleccionar datos
• Justificación para
la inclusión /
exclusión
Limpieza de datos
• Informe de
limpieza de datos
Construcción de
datos
• Atributos
derivados
• Registros
generados
Integrar datos
• Mezclar datos
Formato de datos
• Datos
reformateados
• Recoger datos
iniciales
• Describir datos
• Explorar datos
Seleccionar técnica
de modelado
• Técnica de
modelado
• Suposiciones de
modelado
Generar diseño de
prueba
• Diseño de prueba
Construir modelo
• Ajustes de
parámetros de
los modelos
• Descripción del
modelo
Modelo de
evaluación
• Evaluación del
modelo
• Ajustes de
parámetros
revisados
Ph.D. Franklin Parrales 9
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación Despliegue
Evaluar resultados
• Evaluación
resultados de
acuerdo a los
criterios de éxito.
Modelos aprobados
Proceso de revisión
• Revisión del
proceso
Determinar los
próximos pasos
• Lista de acciones
posibles
• Decisión
Implementación del
plan
• Plan de empleo
Plan de monitoreo
y mantenimiento
• Monitoreo y
mantenimiento
Producir informe
final
• Reporte final
• Presentación
final
Proyecto de
Revisión
• Documentación
de experiencias
Ph.D. Franklin Parrales 10
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del
conocimiento KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de
Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
Ph.D. Franklin Parrales 11
08/02/2022
Inteligencia de Negocios Carrera de Software
Minería de datos
• Es el proceso de hallar anomalías, patrones y
correlaciones en grandes conjuntos de datos para
predecir resultados.
• Empleando una amplia variedad de técnicas, se
puede utilizar esta información para incrementar
sus ingresos, recortar costos, mejorar sus
relaciones con clientes, reducir riesgos y más.
• La minería de datos es un método asistido por
ordenador que utiliza conceptos obtenidos de las
tecnologías de la información, estadísticas y
matemáticas para analizar datos.
Ph.D. Franklin Parrales 12
08/02/2022
Inteligencia de Negocios Carrera de Software
Ventajas aplicada a los negocios
• Permite descubrir información que no esperábamos obtener. Esto
se debe a su funcionamiento con algoritmos, ya que permite hacer
muchas combinaciones distintas.
• Es capaz de analizar bases de datos con una enorme cantidad de
datos.
• Los resultados son muy fáciles de interpretar y no es necesario
tener conocimientos en ingeniería informática.
• Permite encontrar, atraer y retener clientes.
• La empresa puede mejorar la atención al cliente a partir de la
información obtenida.
• Da a las empresas la posibilidad de ofrecer a los clientes los
productos o servicios que necesitan.
• Antes de usar los modelos, estos son comprobados mediante
estadísticas para verificar que las predicciones obtenidas son
válidas.
• Ahorra costes a la empresa y abre nuevas oportunidades de
negocio.
Ph.D. Franklin Parrales 13
08/02/2022
Inteligencia de Negocios Carrera de Software
Desventajas aplicada a los negocios
• Dependiendo del tipo de datos que se
quiera recopilar, nos puede llevar mucho
trabajo.
• La inversión inicial para obtener las
tecnologías necesarias para la
recopilación de datos puede tener un
coste elevado.
Ph.D. Franklin Parrales 14
08/02/2022
Inteligencia de Negocios Carrera de Software
Aplicación de la minería de datos
• 'Marketing'. El data mining en marketing predice también qué usuarios
pueden darse de baja de un servicio, qué les interesa según sus
búsquedas o qué debe incluir una lista de correo para lograr una tasa de
respuesta mayor.
• Comercio minorista. Los supermercados, por ejemplo, emplean los patrones
de compra conjunta para identificar asociaciones de productos y decidir
cómo situarlos en los diferentes pasillos y estanterías de los lineales. El data
mining detecta además qué ofertas son las más valoradas por los
clientes o incrementa la venta en la cola de caja.
• Banca. Los bancos recurren a la minería de datos para entender mejor los
riesgos del mercado. 
• Medicina. La minería de datos favorece diagnósticos más precisos. Al contar
con toda la información del paciente —historial, examen físico y patrones de
terapias anteriores— se pueden prescribir tratamientos más efectivos.
• Televisión y radio. Hay cadenas que aplican la minería de datos en tiempo
real a sus registros de audiencia en televisión online (IPTV) y radio. Estos
sistemas recaban y analizan sobre la marcha información anónima de las
visualizaciones, las retransmisiones y la programación de los canales.
Gracias al data mining se pueden emitir recomendaciones
personalizadas a los radioyentes y telespectadores.
Ph.D. Franklin Parrales 15
08/02/2022
Inteligencia de Negocios Carrera de Software
Tipos de datos que pueden ser minados
No todos los modelos de datos pueden ser minados.
• Datos almacenados en una base de datos
• Data warehouse
• Data transaccional
• Otros tipos de datos
– Datos de diseño de ingeniería
– Datos de secuencia
– Flujos de datos
– Datos de gráficos
– Datos espaciales
– Multimedia
Cualquier dato que tenga estructura, significados semánticos
Ph.D. Franklin Parrales 16
08/02/2022
Inteligencia de Negocios Carrera de Software
Diferencias entre minado de datos y
Big Data
• Aunque parezca lo mismo, el minado de datos y el Big
Data son conceptos diferentes, aunque con una
misma base.
• El Big Data es una tecnología que tiene la capacidad
de capturar, gestionar y procesar de forma veraz todo
tipo de datos, utilizando herramientas o softwares que
identifican patrones comunes.
• Cuando hablamos de Data Mining nos referimos al
análisis de los grandes datos.
• En resumen, Big Data y Minería de datos podrían ser
definidos como el “activo” y el “manejo”,
respectivamente.
• No hay minería de datos sin Big Data
Ph.D. Franklin Parrales 17
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
Ph.D. Franklin Parrales 18
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué es la ciencia de datos?
• La ciencia de datos es un campo
interdisciplinario que involucra métodos
científicos, procesos y sistemas para extraer
conocimiento o un mejor entendimiento de datos
en sus diferentes formas( estructurados/no
estructurados).
Ph.D. Franklin Parrales 19
08/02/2022
Inteligencia de Negocios Carrera de Software
¿quién es un científico de datos ?
• Es una persona formada en las ciencias
matemáticas y las estadísticas que
domina la programación y sus diferentes
lenguajes(Python, R, Scala, etc..),
ciencias de la computación y analítica.
• Además, debe saber comunicar sus
hallazgos a medida que los tiene, no sólo
al área de tecnología sino además al
sector de los negocios.
Ph.D. Franklin Parrales 20
08/02/2022
Inteligencia de Negocios Carrera de Software
¿quién es un científico de datos ?
Ph.D. Franklin Parrales 21
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué hace un científico de datos?
Masson y Wiggins (A taxonomy of Data
Science Mason and Wiggins, 2010) definen los
cinco pasos que realiza un científico de datos:
– Obtener datos
– Manipular datos
– Explorar datos
– Modelar datos
– Intepretar datos
Ph.D. Franklin Parrales 22
08/02/2022
Inteligencia de Negocios Carrera de Software
¿ quién es un científico de datos ?
• Trabajan en cualquier área, con el objetivo de obtener
respuestas fiables a problemas cotidianos como por
ejemplo:
– Saber cual es el mejor momento para comprar un boleto
de avión, hacer una reservación a un hotel (Bueno, Bonito
y Barato). Por ejemplo: Best Day, Trivago, etc..
– Predecir los gustos de los usuarios y mostrarle la mejor
opción y/o recomendación. Por ejemplo: Amazon, Netflix.
– Descubrir si una persona puede tener riesgo de padecer
una enfermedad. Por ejemplo: La secuenciación, mapeo
y análisis de los códigos ADN y ARN para, de esta
manera, comprender cómo los genes funcionan y qué
impacto tienen en las enfermedades.
Ph.D. Franklin Parrales 23
08/02/2022
Inteligencia de Negocios Carrera de Software
Recordando… ¿qué es big data?
• Big data (en español,
grandes datos o grandes
volúmenes de datos) es un
término evolutivo que
describe cualquier cantidad
voluminosa de datos
estructurados,
semiestructurados y no
estructurados que tienen
el potencial de ser extraídos
para obtener información.
Ph.D. Franklin Parrales 24
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué lo motiva?
• Los blogs generan cerca de
2 millones de entradas
nuevas.
• En Google se realizan más
de 5 millones de consultas.
• WhatsApp envía 25 millones
de mensajes.
• El número de correos
electrónicos que se envían
supera los 100 millones.
Ph.D. Franklin Parrales 25
08/02/2022
Inteligencia de Negocios Carrera de Software
Entonces, ¿cuál es la diferencia entre
ciencia de datos y big data?
El Big Data es parte de la Ciencia de Datos, y para hacer
Ciencia de Datos NO necesitas Big Data.
Ph.D. Franklin Parrales 26
08/02/2022
Inteligencia de Negocios Carrera de Software
Ciencia de Datos (Big Data) + Redes
Sociales
• Análisis de sentimiento o Minería de
opinión
– Ejemplo: Campaña de Barack Obama
• Sistemas de recomendación
– Ejemplo: Recomendación de amigos en
facebook
• Segmentación de clientes
– Ejemplo: Campañas dirigidas
Ph.D. Franklin Parrales 27
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
Ph.D. Franklin Parrales 28
08/02/2022
Inteligencia de Negocios Carrera de Software
A modo de introducción…
Id Age
Relatives with
cancer Stage Treatment
1 child yes I X
2 young no II Y
3 adult yes III Z
4 young yes II Y
5 adult no IV Z
… … … … …
Dataset
Instancia/Record
Atributos
Class
attribute
Etiqueta/Label
Ph.D. Franklin Parrales 29
08/02/2022
Inteligencia de Negocios Carrera de Software
Algoritmos
• Los algoritmos de minería de datos
revelan relaciones lógicas en forma de
patrones y tendencias.
• Son de gran ayuda para identificar
correlaciones, regularidades, problemas y
puntos débiles.
Ph.D. Franklin Parrales 30
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje Supervisado
• En el aprendizaje supervisado, los algoritmos
trabajan con datos “etiquetados” (labeled data)
• Intentan encontrar una función que, dadas las
variables de entrada (input data), les asigne la
etiqueta de salida adecuada.
• El algoritmo se entrena con un “histórico” de
datos y así “aprende” a asignar la etiqueta de
salida adecuada a un nuevo valor, es
decir, predice el valor de salida (Simeone,
2018)
Ph.D. Franklin Parrales 31
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje Supervisado
Las dos grandes familias de
algoritmos supervisados son:
• Los algoritmos de regresión
cuando el resultado a predecir
es un atributo numérico.
• Los algoritmos de clasificación
cuando el resultado a predecir
es un atributo categórico
Ph.D. Franklin Parrales 32
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje Supervisado
Documentos,
textos de
entrenamiento
, imágenes,
etc.
Etiquetas
Nuevo
documentos,
texto, imagen,
etc.
Algoritmo
de
aprendizaje
automático
Modelo
predictivo
Etiqueta
esperada
Vectores de
características
Vector de
características
Ph.D. Franklin Parrales 33
08/02/2022
Inteligencia de Negocios Carrera de Software
Clustering (agrupamiento)
Aprendizaje NO supervisado:
Encuentra agrupaciones
"naturales" de instancias con
datos no etiquetados.
Ph.D. Franklin Parrales 34
08/02/2022
Inteligencia de Negocios Carrera de Software
Aprendizaje No Supervisado
El aprendizaje no supervisado
está dedicado a las tareas de
agrupamiento, también
llamadas clustering o
segmentación, donde su
objetivo es encontrar grupos
similares en el conjunto de
datos.
Ph.D. Franklin Parrales 35
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación vs. Clustering (agrupamiento)
Clasificación: Aprendizaje supervizado:
Aprende un método para predecir la clase de instancia a partir de
instancias previamente etiquetadas (clasificadas)
Ph.D. Franklin Parrales 36
08/02/2022
Inteligencia de Negocios Carrera de Software
Modelos y algoritmos
ordenador
(algoritmo de
aprendizaje)
Datos de
entrada
Datos de
salida
Patrones
Datos de
entrenamiento
Modelo
x, y g() g(x, y) = f()
f(x) = y
^
^ ^
Ph.D. Franklin Parrales 37
08/02/2022
Inteligencia de Negocios Carrera de Software
Proceso
Obtención de
datos
Análisis de
datos
Preprocesamiento
Modelado
Análisis del
modelo
Integración
selección, extracción, captura, muestreo, observación, medición, sondeo, enriquecimiento…
estadística descriptiva, histograma, dispersión, valores atípicos, valores vacíos
interpretación, evaluación, validación, valoración, análisis de errores
aplicación, explotación, uso
aprendizaje automático (supervisado o no)
transformación, escalado, normalización, redimensionado...
Ph.D. Franklin Parrales 38
08/02/2022
Inteligencia de Negocios Carrera de Software
“Debemos sospechar de cualquier conjunto de
datos (grande o pequeño) que parezca perfecto.”
David J. Hand
Hand, David J. "Statistical challenges of administrative and transaction data." Journal
of the Royal Statistical Society: Series A (Statistics in Society) 181.3 (2018): 555-605.
Advertencia!
Ph.D. Franklin Parrales 39
08/02/2022
Inteligencia de Negocios Carrera de Software
Preprocesamiento
Preprocesamiento ● Extracción de características
● Estandarización
● Transformaciones no lineales
● Normalización
● Codificación de datos categóricos
● Discretización
● Imputación de valores desconocidos
● Generación de características polinomiales
● Generación de características ad-hoc
● Reducción de la dimensionalidad
● Codificación de la variable objetivo
● Etc.
Ph.D. Franklin Parrales 40
08/02/2022
Inteligencia de Negocios Carrera de Software
Problemas en Datos clínicos
Ph.D. Franklin Parrales 41
08/02/2022
Inteligencia de Negocios Carrera de Software
Problemas en Datos clínicos
Ph.D. Franklin Parrales 42
08/02/2022
Inteligencia de Negocios Carrera de Software
Algunos datos no categorizados y heterogéneos
Toxin-age of
onset
(years)
Body mass
index
(kg/m2)
Hemoglobin
(g/dL)
Creatinine
(mg/dL)
Platelets
(u/mcL)
51 17.21 13.4 0.71 213000
49 24.5 14.2 0.55 252000
36 28.54 13.5 0.44 304000
26 36.14 13.1 0.66 218000
31 31.05 14.8 0.71 327000
65 41.07 16.2 0.74 327000
Ph.D. Franklin Parrales 43
08/02/2022
Inteligencia de Negocios Carrera de Software
“La cuestión de la calidad de la historia clínica (datos
erróneos, faltantes y ambiguos) y de los datos extraídos
de ella sigue siendo poco estudiada”
Cabitza et al., 2019
Cabitza, F., Ciucci, D. & Rasoini, R. A giant with feet of clay: on the validity of the data
that feed machine learning in medicine. In Organizing for the Digital World, pages
121–136. Springer, 2019.
Situación actual
Ph.D. Franklin Parrales 44
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo de atributos heterogéneos, continuos y
categorizados disponibles en los datos clínicos
Toxin-age of
onset (years)
Body mass
index (kg/m2)
Hemoglobin
(g/dL)
Creatinine
(mg/dL)
Platelets
(u/mcL)
51 17.21 13.4 0.71 213000
49 24.5 14.2 0.55 252000
36 28.54 13.5 0.44 304000
26 36.14 13.1 0.66 218000
31 31.05 14.8 0.71 327000
65 41.07 16.2 0.74 327000
[Vmin, µ-σ] (µ-σ, µ+σ] (µ+σ,Vmax]
1 2 3
Categorización basada en Media y std-deviation
Ph.D. Franklin Parrales 45
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué son los datos faltantes (missing
data)?
• En la práctica, los
datos consisten en (a)
las observaciones
realmente realizadas
(donde '?' denota una
observación faltante):
• y (b) el patrón de
valores faltantes:
Variable
Unit 1 2 3 4 5 6 7
1 1 2 3.4 4.5 ? 10 1.2
2 1 3 ? ? B 12 ?
3 2 ? 2.6 ? C 15 0
Variable
Unit 1 2 3 4 5 6 7
1 1 1 1 1 0 1 1
2 1 1 0 0 1 1 0
3 1 0 1 0 1 1 1
Ph.D. Franklin Parrales 46
08/02/2022
Inteligencia de Negocios Carrera de Software
Completers analysis
• Los datos de la
derecha tienen una
observación faltante
en la variable 2,
unidad 10.
• Completers analysis
elimina todas las
unidades con datos
incompletos del
análisis (aquí la
unidad 10).
Variable
Unit 1 2
1 3.4 5.67
2 3.9 4.81
3 2.6 4.93
4 1.9 6.21
5 2.2 6.83
6 3.3 5.61
7 1.7 5.45
8 2.4 4.94
9 2.8 5.73
10 3.6 ?
Ph.D. Franklin Parrales 47
08/02/2022
Inteligencia de Negocios Carrera de Software
¿Qué tiene de malo el completers
analysis?
• Es ineficiente
• Es problemático en la regresión cuando faltan los
valores de covariables y es necesario comparar modelos
con varios conjuntos de variables explicativas.
– O seguimos cambiando el tamaño del dataset, a medida que
agregamos/eliminamos variables explicativas con missing
values,
– O usamos el subconjunto (potencialmente muy pequeño y no
representativo) de los datos sin missing values.
• Cuando las observaciones que faltan no son una
selección completamente aleatoria de los datos, un
completers analysis dará estimaciones sesgadas e
inferencias inválidas.
Ph.D. Franklin Parrales 48
08/02/2022
Inteligencia de Negocios Carrera de Software
Imputación de datos
• Se encarga de completar los datos que faltan con
algunos valores plausibles. Este ha sido un
método popular para manejar problemas de
missing values (Barnard 1999)
• Una vez que se completan los missing values, los
métodos estándar de minería de datos que operan
en conjuntos de datos completos pueden ser
aplicados fácilmente para obtener modelos
predictivos, y así evitar la complicación en el
manejo, cálculo y análisis de datos debido a
irregularidades en los modelos.
Ph.D. Franklin Parrales 49
08/02/2022
Inteligencia de Negocios Carrera de Software
Imputación de datos
Para tener un análisis basado en dataset
parcialmente imputados, se deben cumplir dos
requisitos:
1. El método o modelo de imputación debe capturar
razonablemente las relaciones distributivas
reales entre lo no observado y lo observado.
2. El análisis debe tener en cuenta la incertidumbre
en los valores imputados, porque no importa
cuánto esfuerzo se haga, los valores imputados
simplemente no son las observaciones reales.
Ph.D. Franklin Parrales 50
08/02/2022
Inteligencia de Negocios Carrera de Software
Imputación media simple
• Reemplazamos los
datos faltantes con
el promedio
aritmético de los
datos observados
para esa variable.
En la tabla de 10
casos será 5,58.
• Se usa la moda en
lugar del promedio para
las variables
categóricas
Variable
Unit 1 2
1 3.4 5.67
2 3.9 4.81
3 2.6 4.93
4 1.9 6.21
5 2.2 6.83
6 3.3 5.61
7 1.7 5.45
8 2.4 4.94
9 2.8 5.73
10 3.6 5.58
Ph.D. Franklin Parrales 51
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature Selection: ¿Por qué?
Tiene algunos datos y desea usarlos para crear
un clasificador, de modo que pueda predecir
algo (por ejemplo, la probabilidad de cáncer)
Los datos tienen 10.000 campos (atributos)
debe reducirlo a 1000 campos antes de hacer uso de
técnicas de aprendizaje automático. ¿Cuáles 1000?
El proceso de elegir los 1000 campos que se van a utilizar se
denomina Selección de características (Feature Selection)
Ph.D. Franklin Parrales 52
08/02/2022
Inteligencia de Negocios Carrera de Software
Conjuntos de datos con muchos atributos
Gene expression datasets (~10,000 features)
http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds
Proteomics data (~20,000 features)
http://www.ebi.ac.uk/pride/
Ph.D. Franklin Parrales 53
08/02/2022
Inteligencia de Negocios Carrera de Software
Descripción general
• ¿Por qué necesitamos FS?:
1. Para mejorar el rendimiento (en términos de
velocidad, poder predictivo, simplicidad del
modelo).
2. Para visualizar los datos para la selección del
modelo.
3. Para reducir la dimensionalidad y eliminar el
ruido..
• Feature Selection es un proceso que elige un
subconjunto óptimo de atributos de acuerdo
a cierto criterio.
Ph.D. Franklin Parrales 54
08/02/2022
Inteligencia de Negocios Carrera de Software
Descripción general
• Las razones para realizar FS pueden
incluir…
– eliminar datos irrelevantes.
– aumentar la exactitud predictiva de los modelos
aprendidos.
– reducir el costo de los datos.
– mejorar la eficiencia del aprendizaje, como
reducir los requisitos de almacenamiento y el
costo computacional.
– reducir la complejidad de la descripción del
modelo resultante, mejorando la comprensión de
los datos y del modelo.
Ph.D. Franklin Parrales 55
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature Selection: ¿Por qué?
The accuracy of all test Web URLs when chang the number of
top words for category file
74%
76%
78%
80%
82%
84%
86%
88%
90%
top10
top20
top30
top40
top50
top60
top70
top80
top90
top100
top110
top120
top130
top140
top150
top160
top170
top180
top190
top200
Number of top words for category file
Accuracy
Ph.D. Franklin Parrales 56
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature Selection: ¿Por qué?
From http://elpub.scix.net/data/works/att/02-28.content.pdf
Bastante fácil de
encontrar muchos
más casos de
artículos, donde los
experimentos
muestran que la
exactitud se reduce
cuando usan más
atributos
Ph.D. Franklin Parrales 57
08/02/2022
Inteligencia de Negocios Carrera de Software
Feature selection methods
Ph.D. Franklin Parrales 58
08/02/2022
Inteligencia de Negocios Carrera de Software
Técnicas de minería de datos
• En el ámbito de la investigación las técnicas de data mining pueden
ayudar a los científicos a clasificar y segmentar datos y a formar
hipótesis.
• El data mining permite encontrar información escondida en los
datos que no siempre resulta aparente, ya que, dado el gigantesco
volumen de datos existentes, gran parte de ese volumen nunca será
analizado.
• Las técnicas de data mining pueden ser de dos tipos:
– Métodos descriptivos– Buscan patrones interpretables para
describir datos. Son los siguientes: clustering, descubrimiento de
reglas de asociación y descubrimiento de patrones
secuenciales.
• Los métodos descriptivos se han utilizado, por ejemplo, para ver que
productos suelen adquirirse conjuntamente en el supermercado.
– Métodos predictivos- Usan algunas variables para predecir
valores futuros o desconocidos de otras variables. Son los
siguientes: clasificación, regresión y detección de la desviación.
Ph.D. Franklin Parrales 59
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
Ph.D. Franklin Parrales 60
08/02/2022
Inteligencia de Negocios Carrera de Software
Métodos de Clustering
• Muchos métodos y algoritmos diferentes:
– Para datos numéricos y / o simbólicos
– Determinista vs. probabilista
– Exclusivo vs. superpuesto
– Jerárquico vs. plano
– Top-down vs. bottom-up
Ph.D. Franklin Parrales 61
08/02/2022
Inteligencia de Negocios Carrera de Software
Clusters: exclusivo vs. superpuesto (overlapping)
Simple 2-D representation
Non-overlapping
Venn diagram
Overlapping
a
k
j
i
h
g
f
e
d
c
b
a
k
j
i
h
g
f
e
d
c
b
Ph.D. Franklin Parrales 62
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación de Clusters
• Inspección manual
• Benchmarking de etiquetas existentes
• Medidas de calidad del clúster
– medidas de distancia
– alta similitud dentro de un grupo, baja entre
grupos
Ph.D. Franklin Parrales 63
08/02/2022
Inteligencia de Negocios Carrera de Software
La función de distancia
• Caso más simple: un atributo numérico A
– Distancia(X,Y) = A(X) – A(Y)
• Varios atributos numéricos:
– Distancia(X,Y) = distancia euclidea entre X,Y
• Atributos nominales: la distancia se establece
en 1 si los valores son diferentes, 0 si son
iguales
• ¿Son todos los atributos igualmente
importantes?
– Podría ser necesario ponderar los atributos
Ph.D. Franklin Parrales 64
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
Ph.D. Franklin Parrales 65
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación
Aprender un modelo para predecir la clase de una instancia a
partir de instancias previamente etiquetadas (clasificadas)
Muchos métodos:
Regresión,
Árboles de clasificación,
Redes bayesianas,
Redes neuronales,
...
Dado un conjunto de puntos de clases
cual es la clase de nuevo punto ?
Ph.D. Franklin Parrales 66
08/02/2022
Inteligencia de Negocios Carrera de Software
Sobreajuste (overfitting)
f2
f1
Ph.D. Franklin Parrales 67
08/02/2022
Inteligencia de Negocios Carrera de Software
67
El problema del clima
Outlook Temperature Humidity Windy Play
sunny 85 85 false no
sunny 80 90 true no
overcast 83 86 false yes
rainy 70 96 false yes
rainy 68 80 false yes
rainy 65 70 true no
overcast 64 65 true yes
sunny 72 95 false no
sunny 69 70 false yes
rainy 75 80 false yes
sunny 75 70 true yes
overcast 72 90 true yes
overcast 81 75 false yes
rainy 71 91 true no
Dados los datos históricos,
puedes obtener las reglas
para ¿Jugar / no jugar?
¿De qué va el juego?
Ph.D. Franklin Parrales 68
08/02/2022
Inteligencia de Negocios Carrera de Software
El problema del clima
• Condiciones para jugar al golf
Outlook Temperature Humidity Windy Play
Sunny Hot High False No
Sunny Hot High True No
Overcast Hot High False Yes
Rainy Mild Normal False Yes
… … … … …
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
Ph.D. Franklin Parrales 69
08/02/2022
Inteligencia de Negocios Carrera de Software
Datos meteorológicos con atributos
mixtos
• Algunos atributos tienen valores numéricos
Outlook Temperature Humidity Windy Play
Sunny 85 85 False No
Sunny 80 90 True No
Overcast 83 86 False Yes
Rainy 75 80 False Yes
… … … … …
If outlook = sunny and humidity > 83 then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity < 85 then play = yes
If none of the above then play = yes
Ph.D. Franklin Parrales 70
08/02/2022
Inteligencia de Negocios Carrera de Software
Los datos de las lentes de contacto
Age Spectacle prescription Astigmatism Tear production rate Recommended
lenses
Young Myope No Reduced None
Young Myope No Normal Soft
Young Myope Yes Reduced None
Young Myope Yes Normal Hard
Young Hypermetrope No Reduced None
Young Hypermetrope No Normal Soft
Young Hypermetrope Yes Reduced None
Young Hypermetrope Yes Normal hard
Pre-presbyopic Myope No Reduced None
Pre-presbyopic Myope No Normal Soft
Pre-presbyopic Myope Yes Reduced None
Pre-presbyopic Myope Yes Normal Hard
Pre-presbyopic Hypermetrope No Reduced None
Pre-presbyopic Hypermetrope No Normal Soft
Pre-presbyopic Hypermetrope Yes Reduced None
Pre-presbyopic Hypermetrope Yes Normal None
Presbyopic Myope No Reduced None
Presbyopic Myope No Normal None
Presbyopic Myope Yes Reduced None
Presbyopic Myope Yes Normal Hard
Presbyopic Hypermetrope No Reduced None
Presbyopic Hypermetrope No Normal Soft
Presbyopic Hypermetrope Yes Reduced None
Presbyopic Hypermetrope Yes Normal None
Ph.D. Franklin Parrales 71
08/02/2022
Inteligencia de Negocios Carrera de Software
Un conjunto de reglas completo y
correcto
If tear production rate = reduced then recommendation = none
If age = young and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = pre-presbyopic and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = presbyopic and spectacle prescription = myope
and astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = no
and tear production rate = normal then recommendation = soft
If spectacle prescription = myope and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age young and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age = pre-presbyopic
and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
Ph.D. Franklin Parrales 72
08/02/2022
Inteligencia de Negocios Carrera de Software
Un árbol de clasificación para este
problema.
Ph.D. Franklin Parrales 73
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación iris de flores
Sepal length Sepal width Petal length Petal width Type
1 5.1 3.5 1.4 0.2 Iris setosa
2 4.9 3.0 1.4 0.2 Iris setosa
…
51 7.0 3.2 4.7 1.4 Iris versicolor
52 6.4 3.2 4.5 1.5 Iris versicolor
…
101 6.3 3.3 6.0 2.5 Iris virginica
102 5.8 2.7 5.1 1.9 Iris virginica
…
If petal length < 2.45 then Iris setosa
If sepal width < 2.10 then Iris versicolor
...
Ph.D. Franklin Parrales 74
08/02/2022
Inteligencia de Negocios Carrera de Software
• Example: 209 different computer configurations
• Linear regression function
Predecir el rendimiento de la CPU
Cycle time
(ns)
Main memory
(Kb)
Cache
(Kb)
Channels Performance
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269
…
208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
Ph.D. Franklin Parrales 75
08/02/2022
Inteligencia de Negocios Carrera de Software
El papel del conocimiento del dominio
If leaf condition is normal
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
If leaf malformation is absent
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
Pero en este dominio, “leaf condition is normal” implica
“leaf malformation is absent”!
Ph.D. Franklin Parrales 76
08/02/2022
Inteligencia de Negocios Carrera de Software
Dividiendo el dataset (conjunto de datos)
+
+
-
-
+
Data
Training set
90%
Testing set
10%
Ph.D. Franklin Parrales 77
08/02/2022
Inteligencia de Negocios Carrera de Software
Entrenamiento de modelos
Training set
+
+
-
-
+
Data
Construcción del
modelo
Testing set
Ph.D. Franklin Parrales 78
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación de modelos
Data
Predicciones
Y N
Training set
Testing set
+
+
-
-
+
Construcción del
modelo
Evaluar
+
-
+
-
Ph.D. Franklin Parrales 79
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: entrenamiento, validación, prueba
Data
Predicciones
Y N
Resultados Conocidos
Training set
Validation set
+
+
-
-
+
Construcción del modelo
Evaluar +
-
+
-
Final Model
Final Test Set
+
-
+
-
Final Evaluation
Construcció
n del modelo
Ph.D. Franklin Parrales 80
08/02/2022
Inteligencia de Negocios Carrera de Software
Evaluación sobre datasets
“INMENSOS”
• Si hay muchos (miles) de instancias
disponibles, incluidos varios cientos de
instancias de cada clase, una evaluación
simple es suficiente.
– Divida aleatoriamente los datos en conjuntos de
entrenamiento y prueba (generalmente 2/3 para
entrenamiento, 1/3 para prueba)
• Construya un clasificador usando el conjunto
de entrenamiento (training set) y evalúelo
usando el conjunto de prueba (test set)
Ph.D. Franklin Parrales 81
08/02/2022
Inteligencia de Negocios Carrera de Software
Métricas
TP FN
TN
FP
-
+
+ -
Predicted
class value
Actual
class
value
• Positive values: “high”
therapeutic response to
treatment
• Negative values: “low”
therapeutic response to
treatment
Ph.D. Franklin Parrales 82
08/02/2022
Inteligencia de Negocios Carrera de Software
▪ Matriz de confusión/contingencia (p.ej. para el conjunto de test):
abrir (p) cerrar (n)
ABRIR (P) TP FP
CERRAR (N) FN TN
Real
Predicho Diagonal
de los
aciertos
• A partir de aquí, se han definido una serie de métricas:
❖ True Positive Rate: TPR = TP / (TP + FN). (“recall” o ”sensitivity” o “positive accuracy”).
❖ False Negative Rate: FNR = FN / (TP + FN). (“positive error”)
❖ True Negative Rate: TNR = TN / (TN + FP). (”specificity” o ”negative accuracy”).
❖ False Positive Rate: FPR = FP / (TN + FP). (“negative error”)
❖ Positive Predictive Value: PPV = TP / (TP + FP). (”precision”).
❖ Negative Predictive Value: NPV = TN / (TN + FN).
❖ Macro-average = MEDIA(TPR, TNR). (La media puede ser aritmética, geométrica u
otra)
❖ BREAK-EVEN= (Precision + Recall) / 2 = (PPV + TPR) / 2
❖ F-MEASURE= (Precision * Recall) / BREAK-EVEN = 2*PPV*TPR / (PPV + TPR)
Ph.D. Franklin Parrales 83
08/02/2022
Inteligencia de Negocios Carrera de Software
• Ejemplo: (conjunto de test de 100.000 instancias)
c1 abrir cerrar
ABRIR 300 500
CERRAR 200 99000
Real
Pred
c3 abrir cerrar
ABRIR 400 5400
CERRAR 100 94100
Real
c2 abrir cerrar
ABRIR 0 0
CERRAR 500 99500
Real
ERROR: 0,7%
TPR= 300 / 500 = 60%
FNR= 200 / 500 = 40%
TNR= 99000 / 99500 = 99,5%
FPR= 500 / 99500 = 0,5%
PPV= 300 / 800 = 37,5%
NPV= 99000 / 99200 = 99,8%
Macromedia= (60 + 99,5 ) / 2 =
79,75%
ERROR: 0,5%
TPR= 0 / 500 = 0%
FNR= 500 / 500 = 100%
TNR= 99500 / 99500 = 100%
FPR= 0 / 99500 = 0%
PPV= 0 / 0 = INDEFINIDO
NPV= 99500 / 10000 = 99,5%
Macromedia= (0 + 100 ) / 2 =
50%
ERROR: 5,5%
TPR= 400 / 500 = 80%
FNR= 100 / 500 = 20%
TNR= 94100 / 99500 = 94,6%
FPR= 5400 / 99500 = 5,4%
PPV= 400 / 5800 = 6,9%
NPV= 94100 / 94200 = 99,9%
Macromedia= (80 + 94,6 ) / 2 =
87,3%
¿Qué clasificador es mejor?
Especificidad
Sensitividad
Recall
Precision
Ph.D. Franklin Parrales 84
08/02/2022
Inteligencia de Negocios Carrera de Software
▪ Evaluación sensible al coste:
▪ En muchas situaciones todos los errores producidos por un modelo
predictivo no tienen las mismas consecuencias:
▪ Ejemplo: Dejar cerrada una válvula en una central nuclear cuando es
necesario abrirla, puede provocar una explosión, mientras que abrir una
válvula cuando puede mantenerse cerrada, puede provocar una parada.
▪ Matriz de costes:
▪ Lo importante no es obtener un “clasificador” que yerre lo menos
posible sino que tenga un coste menor.
▪ A partir de la matriz se calcula el coste de un clasificador.
▪ Los clasificadores se evalúan con dichos costes.
▪ Se selecciona el clasificador de menos coste.
abrir cerrar
ABRIR 0 100€
CERRAR 2000€ 0
Real
Predicho
Ph.D. Franklin Parrales 85
08/02/2022
Inteligencia de Negocios Carrera de Software
▪ Ejemplos:
abrir cerrar
ABRIR 0 100€
CERRAR 2000€ 0
Real
Predicho
c1 abrir cerrar
ABRIR 300 500
CERRAR 200 99000
Real
Pred
c3 abrir cerrar
ABRIR 400 5400
CERRAR 100 94100
Real
c2 abrir cerrar
ABRIR 0 0
CERRAR 500 99500
Real
c1 abrir cerrar
ABRIR 0€ 50.000€
CERRAR 400.000€ 0€
c3 abrir cerrar
ABRIR 0€ 540.000€
CERRAR 200.000€ 0€
c2 abrir cerrar
ABRIR 0€ 0€
CERRAR 1.000.000€ 0€
COSTE TOTAL: 450.000€ COSTE TOTAL: 1.000.000€ COSTE TOTAL: 740.000€
Matrices de confusión
Matriz de
coste
Matrices resultado
Ph.D. Franklin Parrales 86
08/02/2022
Inteligencia de Negocios Carrera de Software
▪¿De qué depende el coste final?
▪ Para dos clases. Depende de un contexto (o skew):
▪ El coste de los falsos positivos y falsos negativos: FPcost y
FNcost
▪ El porcentaje de ejemplos de la clase negativa respecto de
ejemplos de la clase positiva. (Neg / Pos).
▪ Se calcula: (para el ejemplo anterior)
20
1
2000
100
=
=
FNcost
FPcost
199
500
99500
=
=
Pos
Neg
95
,
9
199
·
20
1
=
=
slope
– Para dos clases, el valor “slope” es suficiente para
determinar qué clasificador será mejor.
Clasifi. 1: FNR= 40%, FPR= 0,5%
Coste Unitario =
1 x 0,40 + 9,95 x 0,005 = 0,45
Clasifi. 2: FNR= 100%, FPR= 0%
Coste Unitario =
1 x 1 + 9,95 x 0 = 1
Clasifi. 3: FNR= 20%, FPR= 5,4%
Coste Unitario =
1 x 0,20 + 9,95 x 0,054 = 0,74
Ph.D. Franklin Parrales 87
08/02/2022
Inteligencia de Negocios Carrera de Software
87
▪ El clasificador con menor error no es, frecuentemente, el
mejor clasificador.
▪ El contexto (la distribución de clases y los costes de
cada error) determinan la bondad de los clasificadores.
▪ PROBLEMA:
▪ En muchas aplicaciones, hasta el momento de aplicación, no se
conoce la distribución de clases y/o es difícil estimar la matriz de
costes. P.ej. un clasificador de spam.
▪ Pero los modelos se aprenden antes generalmente.
▪ Análisis ROC (Receiver Operating Characteristic).
▪ Usado por primera vez para evaluar radares en la 2ª guerra mundial,
posteriormente se usó para el análisis de respuesta de transistores, se
desarrolló fundamentalmente para aplicaciones de diagnóstico médico a
partir de 1970 y comienza a popularizarse a finales de los 90 en minería
de datos.
Ph.D. Franklin Parrales 88
08/02/2022
Inteligencia de Negocios Carrera de Software
Espacio ROC
0,000
0,200
0,400
0,600
0,800
1,000
0,000 0,200 0,400 0,600 0,800 1,000
False Positives
True
Positives
▪El espacio ROC
▪ Se normaliza la matriz de confusión por columnas:
TPR, FNR TNR, FPR.
abrir cerrar
ABRIR 400 12000
CERRAR 100 87500
Real
Pred
abrir cerrar
ABRIR 0,8 0,121
CERRAR 0,2 0,879
Real
Pred
TPR= 400 / 500 = 80%
FNR= 100 / 500 = 20%
TNR= 87500 / 99500 = 87,9%
FPR= 12000 / 99500 = 12,1%
Ph.D. Franklin Parrales 89
08/02/2022
Inteligencia de Negocios Carrera de Software
▪Espacio ROC: buenos y malos clasificadores.
0 1
1
0
FPR
TPR
• Buen clasificador.
– Alto TPR.
– Bajo FPR.
0 1
1
0
FPR
TPR
0 1
1
0
FPR
TPR
• Mal clasificador.
– Bajo TPR.
– Alto FPR.
• Mal clasificador
(en realidad).
Ph.D. Franklin Parrales 90
08/02/2022
Inteligencia de Negocios Carrera de Software
▪La Curva ROC. Construcción.
ROC diagram
0 1
1
0
FPR
TPR
▪ Construimos el “casco convexo”
(convex hull) de sus puntos
(FPR,TPR) además de los dos
clasificadores triviales (0,0) y
(1,1).
▪ Los clasificadores que caen
debajo de la curva ROC se
descartan.
▪ El mejor clasificador de los que
quedan se seleccionará en el
momento de aplicación…
▪ Dados varios clasificadores:
Podemos descartar los que están por debajo porque no hay ninguna
combinación de distribución de clases / matriz de costes para la cual puedan
ser óptimos.
La diagonal
muestra por
tanto la peor
situación posible.
Ph.D. Franklin Parrales 91
08/02/2022
Inteligencia de Negocios Carrera de Software
Medición honesta: Cross-validation
• Cross-validation evita la superposición de
conjuntos de prueba
– Primer paso: los datos se dividen en k
subconjuntos de igual tamaño
– Segundo paso: cada subconjunto a su vez se
usa para pruebas y el resto para entrenamiento
• Eso es llamado k-fold cross-validation
• A menudo, los subconjuntos se estratifican
antes de que se realice la validación cruzada.
• Las estimaciones de error se promedian para
producir una estimación de error general
Ph.D. Franklin Parrales 92
08/02/2022
Inteligencia de Negocios Carrera de Software
Cross-validation: Ejemplo
— Divida los datos en grupos del mismo tamaño
—
—
— Mantenga a un lado un grupo para probar y use el resto para
construir el modelo
—
— Repetir
Test
Ph.D. Franklin Parrales 93
08/02/2022
Inteligencia de Negocios Carrera de Software
D4
D3
D2
D1
Classificatio
n algorithm
M
D4
D3
D2
D1
D4
D3
D2
D1
D4
D3 D2
D1
D4
D3
D2
D1
M1
M2
M3
M4
Accuracy1
Accuracy2
Accuracy3
Accuracy4
Classificatio
n algorithm
Classificatio
n algorithm
Classificatio
n algorithm
Classificatio
n
algorithm
K-fold cross validation (k=4, ej, didáctico)
Ph.D. Franklin Parrales 94
08/02/2022
Inteligencia de Negocios Carrera de Software
Diseño de un experimento
Entrenamiento
Evaluación
Validación
train
dev
test
Modelo
(parámetros)
Hiperparámetros
Análisis de
errores:
- de sesgo
- de varianza
Datos
Preprocesamiento
Rendimiento
real del
modelo
Ph.D. Franklin Parrales 95
08/02/2022
Inteligencia de Negocios Carrera de Software
Parámetros e hiperparámetros
Fuente: stanford.edu
Hiperparámetros:
Son los valores que tenemos a mano
para configurar el algoritmo de
aprendizaje automático (épocas, número
de capas, ratio de aprendizaje, etc.).
Se establecen manualmente o usando
un proceso de búsqueda y optimización
(AutoML)
Parámetros:
Son los valores numéricos que define el
modelo matemático aprendido (pesos,
umbrales, etc.).
Se calculan automáticamente (se
aprenden automáticamente).
Entrenamiento Modelo
(parámetros)
Hiperparámetros
Ph.D. Franklin Parrales 96
08/02/2022
Inteligencia de Negocios Carrera de Software
Análisis de errores
● Muestra aleatoria de errores (10, 20, 50, 100)
● Intentamos identificar tipos de causas de error
● Rediseñamos aprendizaje (algoritmo,
hiperparámetros...)
ID ejemplo Tipo de error Esperado Predicho Causa del error
1 I FALSE TRUE Peso incorrecto
34 II TRUE FALSE Categoría desconocida
54 I FALSE TRUE Peso incorrecto
345 II TRUE FALSE Valores próximos
534 II TRUE FALSE Valores próximos
6578 I FALSE TRUE Categoría desconocida
Ph.D. Franklin Parrales 97
08/02/2022
Inteligencia de Negocios Carrera de Software
Interpretación del error
Fuente: stanford.edu
● Error de sesgo (bias)
Error alto en train y dev
Soluciones:
- mayor complejidad en el
modelo
- más tiempo de entrenamiento
- …
● Error de varianza (variance)
Error bajo en train, alto en dev
Soluciones:
Generalización (más datos,
regularización, parada
temprana, menor complejidad
del modelo…)
Ph.D. Franklin Parrales 98
08/02/2022
Inteligencia de Negocios Carrera de Software
Contenido
• Proceso de Descubrimiento del conocimiento
KDD
• Minería de Datos
– Conceptos de Minería de Datos
– Definición de Ciencia de Datos
– Modelos, algoritmos y técnicas de Minería de Datos
– Modelo Descriptivo
– Modelo Predictivo
– Algoritmos de Minería de Datos
Ph.D. Franklin Parrales 99
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Regresión Lineal
▪ Regresión lineal
w0 + w1 x + w2 y >= 0
▪ Regresión calcula wi
de los datos para
minimizar el error al
cuadrado para
"ajustar" los datos
▪ No es suficientemente
flexible
Ph.D. Franklin Parrales 100
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Reglas
X
Y
5
2
3
if X > 5 then purple
else if Y > 3 then purple
else if X > 2 then green
else purple
Ph.D. Franklin Parrales 101
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Árboles de clasificación
X
Y
5
2
3
Es un modelo de clasificación supervisado que utiliza la estructura de árbol para
describir la relación entre las características del modelo y los probables resultados
X
>5
purple
Y
>3
purple
<= 5
X
<= 3
purple
>2
green
<= 2
Ph.D. Franklin Parrales 102
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
P(X|Asia=yes,Smoker=yes,Dyspnea=yes)?
Ph.D. Franklin Parrales 103
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Ej. Caso completo (“Robo
o terremoto”) [Pearl’88]
Alarm
Earthq.
Burglary
WatsonCalls
News
Ph.D. Franklin Parrales 104
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Consultas: probabilidades posteriores
Dada alguna evidencia e (observaciones),
Probabilidad Posterior de una variable(s) objetivo X :
Otros nombres: propagación de probabilidad, actualización de
creencias o revisión …
Alarm
Earth.
Burgl.
WCalls
News
?
Vector
Ph.D. Franklin Parrales 105
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Semánticamente, por cualquier tipo de razonamiento
Razonamiento predictivo o deductivo (inferencia causal): predice
efectos
Alarm
Earth.
Burgl.
WCalls
News
?
Razonamiento diagnóstico (inferencia diagnóstica): diagnosticar
las causas
Alarm
Earth.
Burgl.
WCalls
News
?
Sintomas|Enfermedad
Enfermedad|Sintomas
Variable objetivo es
usualmente una descendiente
de la evidencia
Variable objetivo es
usualmente un ancestro de la
evidencia
Ph.D. Franklin Parrales 106
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
… para cualquier tipo de razonamiento
Razonamiento intercausal: entre causas
de un efecto común
Alarm
Earth.
Burgl.
WCalls
News
?
B y E son independientes el uno del otro
Suponer que A=Yes → Esto aumenta la Prob. para ambas posibles
causas B y E
Suponer luego que B=Yes → Esto explica el A observado, que a su
vez baja la Prob. de E=Yes
Dos causas inicialmente independientes. Si el efecto es conocido,
la presencia de una causa explicativa hace que la causa
alternativa sea menos probable (Esto es alejamiento explicativo)
Ph.D. Franklin Parrales 107
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
… para cualquier tipo de razonamiento
La dirección del arco entre las variables no restringe el tipo de
consulta que se debe realizar: la inferencia probabilística puede
combinar evidencia de todas las partes de la red
Razonamiento bidirectional(inferencia mixta): combina 2 o mas de
las anteriores
Alarm
Earth.
Burgl.
WCalls
News
? Razonamiento diagnóstico y predictivo
Razonamiento diagnóstico e intercausal
Ph.D. Franklin Parrales 108
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes bayesianas
Más consultas: conjunta y verosimilitud
Conjunta posterior: prob. condicional de muchas
variables
El tamaño de la respuesta a la consulta es exponencial en
el número de variables en la conjunta
Verosimilitud de la evidencia: la consulta mas simple,
ej: la prob. de la evidencia
Ph.D. Franklin Parrales 109
08/02/2022
Inteligencia de Negocios Carrera de Software
Clasificación: Redes neuronales
▪ Puede seleccionar
regiones más
complejas
▪ Puede ser más precisa
▪ Además, puede
sobreajustar los datos
– encontrar patrones
en ruido aleatorio
Ph.D. Franklin Parrales 110
08/02/2022
Inteligencia de Negocios Carrera de Software
Clustering Simple: K-means
Funciona solo con datos numéricos
1) Elija un número (K) de centros de
clústers/grupos (al azar)
2) Asignar cada elemento a su centro de
grupo más cercano (por ejemplo, utilizando
la distancia euclidiana)
3) Mueva cada centro de clúster a la media de
sus elementos asignados
4) Repita los pasos 2, 3 hasta la convergencia
(cambio en las asignaciones de clúster por
debajo de un umbral)
Ph.D. Franklin Parrales 111
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo K-means, paso 1
k1
k2
k3
X
Y
Elija 3
centros de
grupo
iniciales
(al azar)
Ph.D. Franklin Parrales 112
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo K-means, paso 2
k1
k2
k3
X
Y
Asignar
cada punto
al centro del
grupo más
cercano
Ph.D. Franklin Parrales 113
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo K-means, paso 3
X
Y
Mueva
cada
centro de
grupo a la
media de
cada
grupo
k1
k2
k2
k1
k3
k3
Ph.D. Franklin Parrales 114
08/02/2022
Inteligencia de Negocios Carrera de Software
Discusión
• El resultado puede variar significativamente
según la elección inicial de semillas.
• Puede quedar atrapado en un mínimo local
– Ejemplo:
• Para aumentar la posibilidad de encontrar el
óptimo global: reinicie con diferentes semillas
aleatorias
instances
initial
cluster
centers
Ph.D. Franklin Parrales 115
08/02/2022
Inteligencia de Negocios Carrera de Software
Resumen de agrupación en clústeres por K-means
• Ventajas
– Simple, comprensible
– elementos asignados
automáticamente a
clústeres
• Desventajas
– Debe elegir el
número de grupos de
antemano
– Todos los elementos
forzados a agruparse
– Demasiado sensible
a los valores atípicos
Ph.D. Franklin Parrales 116
08/02/2022
Inteligencia de Negocios Carrera de Software
Variaciones de K-means
• K-medoids – en lugar de medias, usa las
medianas de cada grupo
– Media de 1, 3, 5, 7, 9 es
– Media de 1, 3, 5, 7, 1009 es
– Mediana de 1, 3, 5, 7, 1009 es
– Ventaja de la mediana: no afectado por
valores extremos
• Para bases de datos grandes, use
muestreo
5
205
5
Ph.D. Franklin Parrales 117
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clustering jerárquico
• Bottom up
– Comience con clústeres de instancia única
– En cada paso, une los dos grupos más cercanos
– Decisión de diseño: distancia entre clústeres
• P.ej. dos instancias más cercanas en grupos
vs. distancia entre medias
• Top down
– Comience con un clúster universal
– Encuentra dos grupos
– Proceda de forma recursiva en cada subconjunto
– Puede ser muy rápido
• Ambos métodos producen un dendrograma.
g a c i e d k b j f h
Ph.D. Franklin Parrales 118
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clustering incremental
• Enfoque heurístico (COBWEB/CLASSIT)
• Forma una jerarquía de clústeres de forma incremental
• Inicio:
– el árbol consta de un nodo raíz vacío
• Luego:
– agregar instancias una por una
– actualizar el árbol de manera apropiada en cada etapa
– para actualizar, busque la hoja correcta para una instancia
– Puede implicar la reestructuración del árbol.
• Basar las decisiones de actualización en la utilidad de la
categoría
Ph.D. Franklin Parrales 119
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clusterizando datos meteorológicos
• 1
ID Outlook Temp. Humidity Windy
A Sunny Hot High False
B Sunny Hot High True
C Overcast Hot High False
D Rainy Mild High False
E Rainy Cool Normal False
F Rainy Cool Normal True
G Overcast Cool Normal True
H Sunny Mild High False
I Sunny Cool Normal False
J Rainy Mild Normal False
K Sunny Mild Normal True
L Overcast Mild High True
M Overcast Hot Normal False
N Rainy Mild High True
2
3
1
Ph.D. Franklin Parrales 120
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clusterizando datos meteorológicos
• 4
ID Outlook Temp. Humidity Windy
A Sunny Hot High False
B Sunny Hot High True
C Overcast Hot High False
D Rainy Mild High False
E Rainy Cool Normal False
F Rainy Cool Normal True
G Overcast Cool Normal True
H Sunny Mild High False
I Sunny Cool Normal False
J Rainy Mild Normal False
K Sunny Mild Normal True
L Overcast Mild High True
M Overcast Hot Normal False
N Rainy Mild High True
3
Merge best host
and runner-up
5
Consider splitting the best
host if merging doesn’t help
4
Ph.D. Franklin Parrales 121
08/02/2022
Inteligencia de Negocios Carrera de Software
*Jerarquía final
ID Outlook Temp. Humidity Windy
A Sunny Hot High False
B Sunny Hot High True
C Overcast Hot High False
D Rainy Mild High False
Oops! a and b are
actually very similar
Ph.D. Franklin Parrales 122
08/02/2022
Inteligencia de Negocios Carrera de Software
*Ejemplo: los datos del iris (subconjunto)
Ph.D. Franklin Parrales 123
08/02/2022
Inteligencia de Negocios Carrera de Software
*Clustering con corte
Ph.D. Franklin Parrales 124
08/02/2022
Inteligencia de Negocios Carrera de Software
*Utilidad de la categoría
• Utilidad de la categoría: función de pérdida
cuadrática definida en probabilidades
condicionales:
• Cada instancia en una categoría diferente 
numerador se convierte en
k
v
a
C
v
a
C
C
C
C
CU l i j
ij
i
l
ij
i
l
k
  =
−
=
=
)
]
Pr[
]
|
(Pr[
]
Pr[
)
,...,
,
(
2
2
2
1
2
]
Pr[ ij
i v
a
m =
− maximum
number of attributes
Ph.D. Franklin Parrales 125
08/02/2022
Inteligencia de Negocios Carrera de Software
* Heurística para evitar sobreajuste
• Si cada instancia se coloca en una categoría
diferente, el numerador se convierte en (máximo):
• Donde n es el número de todos los posibles valores
de atributo.
• Entonces, sin k en el denominador de la fórmula UC,
¡cada grupo consistiría en una instancia!
 =
−
i j
ij
v
i
a
n 2
]
Pr[ Valor Máximo de UC
Ph.D. Franklin Parrales 126
08/02/2022
Inteligencia de Negocios Carrera de Software
Niveles de Clustering
Ph.D. Franklin Parrales 127
08/02/2022
Inteligencia de Negocios Carrera de Software
Clustering jerárquico
• Los clústeres se crean en niveles creando
realmente conjuntos de clústeres en cada nivel.
• Aglomerativo
– Inicialmente, cada elemento en su propio grupo
– Iterativamente, los clústeres se fusionan
– Bottom Up
• Divisivo
– Inicialmente, todos los elementos de un grupo
– Los grandes grupos se dividen sucesivamente
– Top Down
Ph.D. Franklin Parrales 128
08/02/2022
Inteligencia de Negocios Carrera de Software
Dendrograma
• Dendrograma: una
estructura de datos de
árbol que ilustra técnicas
de agrupamiento
jerárquico.
• Cada nivel muestra
grupos para ese nivel.
– Hojas – clusters
individuales
– Raiz – un cluster
• Un clúster en el nivel i es
la unión de sus clústeres
hijos en el nivel i + 1.
128
Ph.D. Franklin Parrales 129
08/02/2022
Inteligencia de Negocios Carrera de Software
Ejemplo Aglomerativo
A B C D E
A 0 1 2 2 3
B 1 0 2 4 3
C 2 2 0 1 5
D 2 4 1 0 3
E 3 3 5 3 0
B
A
E C
D
4
Umbral de
2 3 5
1
A B C D E
Ph.D. Franklin Parrales 130
08/02/2022
Inteligencia de Negocios Carrera de Software
Distancia entre Clústeres
• Single Link: menor distancia entre puntos
• Complete Link: mayor distancia entre puntos
• Average Link: distancia media entre puntos
• Centroid: distancia entre centroides
Ph.D. Franklin Parrales 131
08/02/2022
Inteligencia de Negocios Carrera de Software
Agrupación en clústeres de enlace único
(Single Link Clustering)
Ph.D. Franklin Parrales 132
08/02/2022
Inteligencia de Negocios Carrera de Software
Resúmen sobre Algoritmos de
Clustering
• Aprendizaje no supervisado
• Muchas metodologías
– K-means – simple, algunas veces es muy útil
• K-medoids es menos sensitive a valores extremos
– Clustering jerárquico – funciona para atributos
simbólicos
• La evaluación de clústeres es un
problema
Ph.D. Franklin Parrales 133
08/02/2022
Inteligencia de Negocios Carrera de Software
Minería de datos
Unidad 3
Final de la unidad

More Related Content

What's hot

Presentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoPresentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoRamón Hernández
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datosArnoldo Gil
 
Data warehouse
Data warehouseData warehouse
Data warehouseMarian C.
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datoslalopg
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosFranklin Parrales Bravo
 
Controles iso27002 2013
Controles iso27002 2013Controles iso27002 2013
Controles iso27002 2013lederzon
 
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negociosIN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negociosFranklin Parrales Bravo
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosCelestino Güemes Seoane
 
The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...Pieter De Leenheer
 
RWDG: Measuring Data Governance Performance
RWDG: Measuring Data Governance PerformanceRWDG: Measuring Data Governance Performance
RWDG: Measuring Data Governance PerformanceDATAVERSITY
 
Business Intelligence
Business Intelligence Business Intelligence
Business Intelligence Isairi Cab
 
DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?
DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?
DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?DATAVERSITY
 
How to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data QualityHow to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data QualityDATAVERSITY
 

What's hot (20)

Big data
Big dataBig data
Big data
 
Presentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoPresentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA México
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
gobierno de datos
gobierno de datosgobierno de datos
gobierno de datos
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negocios
 
Controles iso27002 2013
Controles iso27002 2013Controles iso27002 2013
Controles iso27002 2013
 
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negociosIN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
RWDG: Measuring Data Governance Performance
RWDG: Measuring Data Governance PerformanceRWDG: Measuring Data Governance Performance
RWDG: Measuring Data Governance Performance
 
Business Intelligence
Business Intelligence Business Intelligence
Business Intelligence
 
Business Analytics Overview
Business Analytics OverviewBusiness Analytics Overview
Business Analytics Overview
 
DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?
DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?
DAS Webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?
 
8 Steps to Creating a Data Strategy
8 Steps to Creating a Data Strategy8 Steps to Creating a Data Strategy
8 Steps to Creating a Data Strategy
 
How to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data QualityHow to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data Quality
 

Similar to IN Unidad 3: Minería de datos

Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big DataICEMD
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BIfabian fernandez
 
Entregable final Analítica de Datos
Entregable final Analítica de DatosEntregable final Analítica de Datos
Entregable final Analítica de Datosale sierra
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptChemyTacza
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptxJuanCarlosRomanPerez1
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datosSergio Salimbeni
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Pentaho
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Joaquín Borrego-Díaz
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datoselsemieni
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 

Similar to IN Unidad 3: Minería de datos (20)

Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
ppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdfppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdf
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Entregable final Analítica de Datos
Entregable final Analítica de DatosEntregable final Analítica de Datos
Entregable final Analítica de Datos
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Session01.pptx
Session01.pptxSession01.pptx
Session01.pptx
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
 
bi-180616123404 (1).pptx
bi-180616123404 (1).pptxbi-180616123404 (1).pptx
bi-180616123404 (1).pptx
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 

More from Franklin Parrales Bravo

Presentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en CuencaPresentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en CuencaFranklin Parrales Bravo
 
IW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería WebIW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería WebFranklin Parrales Bravo
 
IW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicuaIW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicuaFranklin Parrales Bravo
 
IW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelosIW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelosFranklin Parrales Bravo
 
IW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería WebIW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería WebFranklin Parrales Bravo
 
AD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuidaAD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuidaFranklin Parrales Bravo
 
AD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidasAD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidasFranklin Parrales Bravo
 
EP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgosEP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgosFranklin Parrales Bravo
 
AD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidosAD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidosFranklin Parrales Bravo
 
AD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidosAD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidosFranklin Parrales Bravo
 
EP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectosEP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectosFranklin Parrales Bravo
 
EP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestraEP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestraFranklin Parrales Bravo
 
GCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del SoftwareGCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del SoftwareFranklin Parrales Bravo
 
GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software Franklin Parrales Bravo
 
POO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivosPOO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivosFranklin Parrales Bravo
 
POO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilosPOO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilosFranklin Parrales Bravo
 
POO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a ObjetosPOO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a ObjetosFranklin Parrales Bravo
 
POO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a ObjetosPOO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a ObjetosFranklin Parrales Bravo
 
RD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y EnrutamientoRD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y EnrutamientoFranklin Parrales Bravo
 

More from Franklin Parrales Bravo (20)

Presentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en CuencaPresentacion del congreso ETCM del 2021 en Cuenca
Presentacion del congreso ETCM del 2021 en Cuenca
 
IW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería WebIW Unidad 1: Introducción a la Ingeniería Web
IW Unidad 1: Introducción a la Ingeniería Web
 
IW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicuaIW Unidad 4: Web accesible, semántica y ubicua
IW Unidad 4: Web accesible, semántica y ubicua
 
IW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelosIW Unidad 3: Ingeniería Web dirigida por modelos
IW Unidad 3: Ingeniería Web dirigida por modelos
 
MOD Unidad 2: Tipos de modelado
MOD Unidad 2: Tipos de modeladoMOD Unidad 2: Tipos de modelado
MOD Unidad 2: Tipos de modelado
 
IW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería WebIW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
IW Unidad 2: Metodologías y Técnicas de la Ingeniería Web
 
AD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuidaAD Unidad4: Programación paralela y distribuida
AD Unidad4: Programación paralela y distribuida
 
AD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidasAD Unidad3: Tecnologías de aplicaciones distribuidas
AD Unidad3: Tecnologías de aplicaciones distribuidas
 
EP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgosEP Unidad03: Planificación financiera y análisis de riesgos
EP Unidad03: Planificación financiera y análisis de riesgos
 
AD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidosAD Unidad2: Diseño de programas paralelos y distribuidos
AD Unidad2: Diseño de programas paralelos y distribuidos
 
AD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidosAD Unidad1: Fundamentos de sistemas paralelos y distribuidos
AD Unidad1: Fundamentos de sistemas paralelos y distribuidos
 
EP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectosEP Unidad01: Principios básicos de la metodología de proyectos
EP Unidad01: Principios básicos de la metodología de proyectos
 
EP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestraEP Unidad02: Conceptos para el alcance, tiempo y muestra
EP Unidad02: Conceptos para el alcance, tiempo y muestra
 
GCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del SoftwareGCSW Unidad1: Objetos de la Gestión de Configuración del Software
GCSW Unidad1: Objetos de la Gestión de Configuración del Software
 
GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software GCSW Unidad2: Actividades de la gestión de configuración del software
GCSW Unidad2: Actividades de la gestión de configuración del software
 
POO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivosPOO Unidad 4: Persistencia de objetos y manejo de archivos
POO Unidad 4: Persistencia de objetos y manejo de archivos
 
POO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilosPOO Unidad 3: Interfaz gráfica de usuario e hilos
POO Unidad 3: Interfaz gráfica de usuario e hilos
 
POO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a ObjetosPOO Unidad 2: Programación Orientada a Objetos
POO Unidad 2: Programación Orientada a Objetos
 
POO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a ObjetosPOO Unidad 1: Introducción a la Programación Orientada a Objetos
POO Unidad 1: Introducción a la Programación Orientada a Objetos
 
RD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y EnrutamientoRD Unidad 3: IPv6, Routers y Enrutamiento
RD Unidad 3: IPv6, Routers y Enrutamiento
 

IN Unidad 3: Minería de datos

  • 1. Ph.D. Franklin Parrales 1 08/02/2022 Inteligencia de Negocios Carrera de Software Minería de datos Unidad 3 Material docente compilado por el profesor Ph.D. Franklin Parrales Bravo para uso de los cursos de Inteligencia de Negocios
  • 2. Ph.D. Franklin Parrales 2 08/02/2022 Inteligencia de Negocios Carrera de Software Objetivo general de la Unidad 3 Aplicar técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.
  • 3. Ph.D. Franklin Parrales 3 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  • 4. Ph.D. Franklin Parrales 4 08/02/2022 Inteligencia de Negocios Carrera de Software
  • 5. Ph.D. Franklin Parrales 5 08/02/2022 Inteligencia de Negocios Carrera de Software Proceso de Descubrimiento del conocimiento KDD Se suele componer de cuatro etapas principales: • Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en minería de datos. • Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de minería de datos. • Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. • Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
  • 6. Ph.D. Franklin Parrales 6 08/02/2022 Inteligencia de Negocios Carrera de Software CRISP-DM • CRISP-DM (del inglés Cross Industry Standard Process for Data Mining)​ se trata de un modelo estándar abierto del proceso que describe los enfoques comunes que utilizan los expertos en minería de datos. • La metodología CRISP-DM aborda el ciclo de vida de un proyecto de minería de datos
  • 7. Ph.D. Franklin Parrales 7 08/02/2022 Inteligencia de Negocios Carrera de Software CRISP-DM Clinical data Comprender los requisitos Comprensión de datos Preprocesamiento de datos Modelado Evaluación Clinical data Data Despliegue
  • 8. Ph.D. Franklin Parrales 8 08/02/2022 Inteligencia de Negocios Carrera de Software Comprender los requisitos Comprensión de datos Preprocesamiento de datos Modelado Determinar los objetivos médicos • Antecedentes • Objetivos • Criterios de éxito Evaluar la situación • Inventario de recursos • Requisitos, suposiciones y restricciones • Riesgos y Contingencias • Terminología • Costos y beneficios Determinar Objetivos de minería de datos • Objetivos de minería de datos • Criterios de éxito en minería de datos Producir el plan de proyecto • Plan de proyecto • Evaluación inicial de herramientas y técnicas Conjunto de datos • Descripción del conjunto de datos Seleccionar datos • Justificación para la inclusión / exclusión Limpieza de datos • Informe de limpieza de datos Construcción de datos • Atributos derivados • Registros generados Integrar datos • Mezclar datos Formato de datos • Datos reformateados • Recoger datos iniciales • Describir datos • Explorar datos Seleccionar técnica de modelado • Técnica de modelado • Suposiciones de modelado Generar diseño de prueba • Diseño de prueba Construir modelo • Ajustes de parámetros de los modelos • Descripción del modelo Modelo de evaluación • Evaluación del modelo • Ajustes de parámetros revisados
  • 9. Ph.D. Franklin Parrales 9 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación Despliegue Evaluar resultados • Evaluación resultados de acuerdo a los criterios de éxito. Modelos aprobados Proceso de revisión • Revisión del proceso Determinar los próximos pasos • Lista de acciones posibles • Decisión Implementación del plan • Plan de empleo Plan de monitoreo y mantenimiento • Monitoreo y mantenimiento Producir informe final • Reporte final • Presentación final Proyecto de Revisión • Documentación de experiencias
  • 10. Ph.D. Franklin Parrales 10 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  • 11. Ph.D. Franklin Parrales 11 08/02/2022 Inteligencia de Negocios Carrera de Software Minería de datos • Es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos para predecir resultados. • Empleando una amplia variedad de técnicas, se puede utilizar esta información para incrementar sus ingresos, recortar costos, mejorar sus relaciones con clientes, reducir riesgos y más. • La minería de datos es un método asistido por ordenador que utiliza conceptos obtenidos de las tecnologías de la información, estadísticas y matemáticas para analizar datos.
  • 12. Ph.D. Franklin Parrales 12 08/02/2022 Inteligencia de Negocios Carrera de Software Ventajas aplicada a los negocios • Permite descubrir información que no esperábamos obtener. Esto se debe a su funcionamiento con algoritmos, ya que permite hacer muchas combinaciones distintas. • Es capaz de analizar bases de datos con una enorme cantidad de datos. • Los resultados son muy fáciles de interpretar y no es necesario tener conocimientos en ingeniería informática. • Permite encontrar, atraer y retener clientes. • La empresa puede mejorar la atención al cliente a partir de la información obtenida. • Da a las empresas la posibilidad de ofrecer a los clientes los productos o servicios que necesitan. • Antes de usar los modelos, estos son comprobados mediante estadísticas para verificar que las predicciones obtenidas son válidas. • Ahorra costes a la empresa y abre nuevas oportunidades de negocio.
  • 13. Ph.D. Franklin Parrales 13 08/02/2022 Inteligencia de Negocios Carrera de Software Desventajas aplicada a los negocios • Dependiendo del tipo de datos que se quiera recopilar, nos puede llevar mucho trabajo. • La inversión inicial para obtener las tecnologías necesarias para la recopilación de datos puede tener un coste elevado.
  • 14. Ph.D. Franklin Parrales 14 08/02/2022 Inteligencia de Negocios Carrera de Software Aplicación de la minería de datos • 'Marketing'. El data mining en marketing predice también qué usuarios pueden darse de baja de un servicio, qué les interesa según sus búsquedas o qué debe incluir una lista de correo para lograr una tasa de respuesta mayor. • Comercio minorista. Los supermercados, por ejemplo, emplean los patrones de compra conjunta para identificar asociaciones de productos y decidir cómo situarlos en los diferentes pasillos y estanterías de los lineales. El data mining detecta además qué ofertas son las más valoradas por los clientes o incrementa la venta en la cola de caja. • Banca. Los bancos recurren a la minería de datos para entender mejor los riesgos del mercado. • Medicina. La minería de datos favorece diagnósticos más precisos. Al contar con toda la información del paciente —historial, examen físico y patrones de terapias anteriores— se pueden prescribir tratamientos más efectivos. • Televisión y radio. Hay cadenas que aplican la minería de datos en tiempo real a sus registros de audiencia en televisión online (IPTV) y radio. Estos sistemas recaban y analizan sobre la marcha información anónima de las visualizaciones, las retransmisiones y la programación de los canales. Gracias al data mining se pueden emitir recomendaciones personalizadas a los radioyentes y telespectadores.
  • 15. Ph.D. Franklin Parrales 15 08/02/2022 Inteligencia de Negocios Carrera de Software Tipos de datos que pueden ser minados No todos los modelos de datos pueden ser minados. • Datos almacenados en una base de datos • Data warehouse • Data transaccional • Otros tipos de datos – Datos de diseño de ingeniería – Datos de secuencia – Flujos de datos – Datos de gráficos – Datos espaciales – Multimedia Cualquier dato que tenga estructura, significados semánticos
  • 16. Ph.D. Franklin Parrales 16 08/02/2022 Inteligencia de Negocios Carrera de Software Diferencias entre minado de datos y Big Data • Aunque parezca lo mismo, el minado de datos y el Big Data son conceptos diferentes, aunque con una misma base. • El Big Data es una tecnología que tiene la capacidad de capturar, gestionar y procesar de forma veraz todo tipo de datos, utilizando herramientas o softwares que identifican patrones comunes. • Cuando hablamos de Data Mining nos referimos al análisis de los grandes datos. • En resumen, Big Data y Minería de datos podrían ser definidos como el “activo” y el “manejo”, respectivamente. • No hay minería de datos sin Big Data
  • 17. Ph.D. Franklin Parrales 17 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  • 18. Ph.D. Franklin Parrales 18 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué es la ciencia de datos? • La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas( estructurados/no estructurados).
  • 19. Ph.D. Franklin Parrales 19 08/02/2022 Inteligencia de Negocios Carrera de Software ¿quién es un científico de datos ? • Es una persona formada en las ciencias matemáticas y las estadísticas que domina la programación y sus diferentes lenguajes(Python, R, Scala, etc..), ciencias de la computación y analítica. • Además, debe saber comunicar sus hallazgos a medida que los tiene, no sólo al área de tecnología sino además al sector de los negocios.
  • 20. Ph.D. Franklin Parrales 20 08/02/2022 Inteligencia de Negocios Carrera de Software ¿quién es un científico de datos ?
  • 21. Ph.D. Franklin Parrales 21 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué hace un científico de datos? Masson y Wiggins (A taxonomy of Data Science Mason and Wiggins, 2010) definen los cinco pasos que realiza un científico de datos: – Obtener datos – Manipular datos – Explorar datos – Modelar datos – Intepretar datos
  • 22. Ph.D. Franklin Parrales 22 08/02/2022 Inteligencia de Negocios Carrera de Software ¿ quién es un científico de datos ? • Trabajan en cualquier área, con el objetivo de obtener respuestas fiables a problemas cotidianos como por ejemplo: – Saber cual es el mejor momento para comprar un boleto de avión, hacer una reservación a un hotel (Bueno, Bonito y Barato). Por ejemplo: Best Day, Trivago, etc.. – Predecir los gustos de los usuarios y mostrarle la mejor opción y/o recomendación. Por ejemplo: Amazon, Netflix. – Descubrir si una persona puede tener riesgo de padecer una enfermedad. Por ejemplo: La secuenciación, mapeo y análisis de los códigos ADN y ARN para, de esta manera, comprender cómo los genes funcionan y qué impacto tienen en las enfermedades.
  • 23. Ph.D. Franklin Parrales 23 08/02/2022 Inteligencia de Negocios Carrera de Software Recordando… ¿qué es big data? • Big data (en español, grandes datos o grandes volúmenes de datos) es un término evolutivo que describe cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información.
  • 24. Ph.D. Franklin Parrales 24 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué lo motiva? • Los blogs generan cerca de 2 millones de entradas nuevas. • En Google se realizan más de 5 millones de consultas. • WhatsApp envía 25 millones de mensajes. • El número de correos electrónicos que se envían supera los 100 millones.
  • 25. Ph.D. Franklin Parrales 25 08/02/2022 Inteligencia de Negocios Carrera de Software Entonces, ¿cuál es la diferencia entre ciencia de datos y big data? El Big Data es parte de la Ciencia de Datos, y para hacer Ciencia de Datos NO necesitas Big Data.
  • 26. Ph.D. Franklin Parrales 26 08/02/2022 Inteligencia de Negocios Carrera de Software Ciencia de Datos (Big Data) + Redes Sociales • Análisis de sentimiento o Minería de opinión – Ejemplo: Campaña de Barack Obama • Sistemas de recomendación – Ejemplo: Recomendación de amigos en facebook • Segmentación de clientes – Ejemplo: Campañas dirigidas
  • 27. Ph.D. Franklin Parrales 27 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  • 28. Ph.D. Franklin Parrales 28 08/02/2022 Inteligencia de Negocios Carrera de Software A modo de introducción… Id Age Relatives with cancer Stage Treatment 1 child yes I X 2 young no II Y 3 adult yes III Z 4 young yes II Y 5 adult no IV Z … … … … … Dataset Instancia/Record Atributos Class attribute Etiqueta/Label
  • 29. Ph.D. Franklin Parrales 29 08/02/2022 Inteligencia de Negocios Carrera de Software Algoritmos • Los algoritmos de minería de datos revelan relaciones lógicas en forma de patrones y tendencias. • Son de gran ayuda para identificar correlaciones, regularidades, problemas y puntos débiles.
  • 30. Ph.D. Franklin Parrales 30 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje Supervisado • En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados” (labeled data) • Intentan encontrar una función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. • El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida (Simeone, 2018)
  • 31. Ph.D. Franklin Parrales 31 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje Supervisado Las dos grandes familias de algoritmos supervisados son: • Los algoritmos de regresión cuando el resultado a predecir es un atributo numérico. • Los algoritmos de clasificación cuando el resultado a predecir es un atributo categórico
  • 32. Ph.D. Franklin Parrales 32 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje Supervisado Documentos, textos de entrenamiento , imágenes, etc. Etiquetas Nuevo documentos, texto, imagen, etc. Algoritmo de aprendizaje automático Modelo predictivo Etiqueta esperada Vectores de características Vector de características
  • 33. Ph.D. Franklin Parrales 33 08/02/2022 Inteligencia de Negocios Carrera de Software Clustering (agrupamiento) Aprendizaje NO supervisado: Encuentra agrupaciones "naturales" de instancias con datos no etiquetados.
  • 34. Ph.D. Franklin Parrales 34 08/02/2022 Inteligencia de Negocios Carrera de Software Aprendizaje No Supervisado El aprendizaje no supervisado está dedicado a las tareas de agrupamiento, también llamadas clustering o segmentación, donde su objetivo es encontrar grupos similares en el conjunto de datos.
  • 35. Ph.D. Franklin Parrales 35 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación vs. Clustering (agrupamiento) Clasificación: Aprendizaje supervizado: Aprende un método para predecir la clase de instancia a partir de instancias previamente etiquetadas (clasificadas)
  • 36. Ph.D. Franklin Parrales 36 08/02/2022 Inteligencia de Negocios Carrera de Software Modelos y algoritmos ordenador (algoritmo de aprendizaje) Datos de entrada Datos de salida Patrones Datos de entrenamiento Modelo x, y g() g(x, y) = f() f(x) = y ^ ^ ^
  • 37. Ph.D. Franklin Parrales 37 08/02/2022 Inteligencia de Negocios Carrera de Software Proceso Obtención de datos Análisis de datos Preprocesamiento Modelado Análisis del modelo Integración selección, extracción, captura, muestreo, observación, medición, sondeo, enriquecimiento… estadística descriptiva, histograma, dispersión, valores atípicos, valores vacíos interpretación, evaluación, validación, valoración, análisis de errores aplicación, explotación, uso aprendizaje automático (supervisado o no) transformación, escalado, normalización, redimensionado...
  • 38. Ph.D. Franklin Parrales 38 08/02/2022 Inteligencia de Negocios Carrera de Software “Debemos sospechar de cualquier conjunto de datos (grande o pequeño) que parezca perfecto.” David J. Hand Hand, David J. "Statistical challenges of administrative and transaction data." Journal of the Royal Statistical Society: Series A (Statistics in Society) 181.3 (2018): 555-605. Advertencia!
  • 39. Ph.D. Franklin Parrales 39 08/02/2022 Inteligencia de Negocios Carrera de Software Preprocesamiento Preprocesamiento ● Extracción de características ● Estandarización ● Transformaciones no lineales ● Normalización ● Codificación de datos categóricos ● Discretización ● Imputación de valores desconocidos ● Generación de características polinomiales ● Generación de características ad-hoc ● Reducción de la dimensionalidad ● Codificación de la variable objetivo ● Etc.
  • 40. Ph.D. Franklin Parrales 40 08/02/2022 Inteligencia de Negocios Carrera de Software Problemas en Datos clínicos
  • 41. Ph.D. Franklin Parrales 41 08/02/2022 Inteligencia de Negocios Carrera de Software Problemas en Datos clínicos
  • 42. Ph.D. Franklin Parrales 42 08/02/2022 Inteligencia de Negocios Carrera de Software Algunos datos no categorizados y heterogéneos Toxin-age of onset (years) Body mass index (kg/m2) Hemoglobin (g/dL) Creatinine (mg/dL) Platelets (u/mcL) 51 17.21 13.4 0.71 213000 49 24.5 14.2 0.55 252000 36 28.54 13.5 0.44 304000 26 36.14 13.1 0.66 218000 31 31.05 14.8 0.71 327000 65 41.07 16.2 0.74 327000
  • 43. Ph.D. Franklin Parrales 43 08/02/2022 Inteligencia de Negocios Carrera de Software “La cuestión de la calidad de la historia clínica (datos erróneos, faltantes y ambiguos) y de los datos extraídos de ella sigue siendo poco estudiada” Cabitza et al., 2019 Cabitza, F., Ciucci, D. & Rasoini, R. A giant with feet of clay: on the validity of the data that feed machine learning in medicine. In Organizing for the Digital World, pages 121–136. Springer, 2019. Situación actual
  • 44. Ph.D. Franklin Parrales 44 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo de atributos heterogéneos, continuos y categorizados disponibles en los datos clínicos Toxin-age of onset (years) Body mass index (kg/m2) Hemoglobin (g/dL) Creatinine (mg/dL) Platelets (u/mcL) 51 17.21 13.4 0.71 213000 49 24.5 14.2 0.55 252000 36 28.54 13.5 0.44 304000 26 36.14 13.1 0.66 218000 31 31.05 14.8 0.71 327000 65 41.07 16.2 0.74 327000 [Vmin, µ-σ] (µ-σ, µ+σ] (µ+σ,Vmax] 1 2 3 Categorización basada en Media y std-deviation
  • 45. Ph.D. Franklin Parrales 45 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué son los datos faltantes (missing data)? • En la práctica, los datos consisten en (a) las observaciones realmente realizadas (donde '?' denota una observación faltante): • y (b) el patrón de valores faltantes: Variable Unit 1 2 3 4 5 6 7 1 1 2 3.4 4.5 ? 10 1.2 2 1 3 ? ? B 12 ? 3 2 ? 2.6 ? C 15 0 Variable Unit 1 2 3 4 5 6 7 1 1 1 1 1 0 1 1 2 1 1 0 0 1 1 0 3 1 0 1 0 1 1 1
  • 46. Ph.D. Franklin Parrales 46 08/02/2022 Inteligencia de Negocios Carrera de Software Completers analysis • Los datos de la derecha tienen una observación faltante en la variable 2, unidad 10. • Completers analysis elimina todas las unidades con datos incompletos del análisis (aquí la unidad 10). Variable Unit 1 2 1 3.4 5.67 2 3.9 4.81 3 2.6 4.93 4 1.9 6.21 5 2.2 6.83 6 3.3 5.61 7 1.7 5.45 8 2.4 4.94 9 2.8 5.73 10 3.6 ?
  • 47. Ph.D. Franklin Parrales 47 08/02/2022 Inteligencia de Negocios Carrera de Software ¿Qué tiene de malo el completers analysis? • Es ineficiente • Es problemático en la regresión cuando faltan los valores de covariables y es necesario comparar modelos con varios conjuntos de variables explicativas. – O seguimos cambiando el tamaño del dataset, a medida que agregamos/eliminamos variables explicativas con missing values, – O usamos el subconjunto (potencialmente muy pequeño y no representativo) de los datos sin missing values. • Cuando las observaciones que faltan no son una selección completamente aleatoria de los datos, un completers analysis dará estimaciones sesgadas e inferencias inválidas.
  • 48. Ph.D. Franklin Parrales 48 08/02/2022 Inteligencia de Negocios Carrera de Software Imputación de datos • Se encarga de completar los datos que faltan con algunos valores plausibles. Este ha sido un método popular para manejar problemas de missing values (Barnard 1999) • Una vez que se completan los missing values, los métodos estándar de minería de datos que operan en conjuntos de datos completos pueden ser aplicados fácilmente para obtener modelos predictivos, y así evitar la complicación en el manejo, cálculo y análisis de datos debido a irregularidades en los modelos.
  • 49. Ph.D. Franklin Parrales 49 08/02/2022 Inteligencia de Negocios Carrera de Software Imputación de datos Para tener un análisis basado en dataset parcialmente imputados, se deben cumplir dos requisitos: 1. El método o modelo de imputación debe capturar razonablemente las relaciones distributivas reales entre lo no observado y lo observado. 2. El análisis debe tener en cuenta la incertidumbre en los valores imputados, porque no importa cuánto esfuerzo se haga, los valores imputados simplemente no son las observaciones reales.
  • 50. Ph.D. Franklin Parrales 50 08/02/2022 Inteligencia de Negocios Carrera de Software Imputación media simple • Reemplazamos los datos faltantes con el promedio aritmético de los datos observados para esa variable. En la tabla de 10 casos será 5,58. • Se usa la moda en lugar del promedio para las variables categóricas Variable Unit 1 2 1 3.4 5.67 2 3.9 4.81 3 2.6 4.93 4 1.9 6.21 5 2.2 6.83 6 3.3 5.61 7 1.7 5.45 8 2.4 4.94 9 2.8 5.73 10 3.6 5.58
  • 51. Ph.D. Franklin Parrales 51 08/02/2022 Inteligencia de Negocios Carrera de Software Feature Selection: ¿Por qué? Tiene algunos datos y desea usarlos para crear un clasificador, de modo que pueda predecir algo (por ejemplo, la probabilidad de cáncer) Los datos tienen 10.000 campos (atributos) debe reducirlo a 1000 campos antes de hacer uso de técnicas de aprendizaje automático. ¿Cuáles 1000? El proceso de elegir los 1000 campos que se van a utilizar se denomina Selección de características (Feature Selection)
  • 52. Ph.D. Franklin Parrales 52 08/02/2022 Inteligencia de Negocios Carrera de Software Conjuntos de datos con muchos atributos Gene expression datasets (~10,000 features) http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds Proteomics data (~20,000 features) http://www.ebi.ac.uk/pride/
  • 53. Ph.D. Franklin Parrales 53 08/02/2022 Inteligencia de Negocios Carrera de Software Descripción general • ¿Por qué necesitamos FS?: 1. Para mejorar el rendimiento (en términos de velocidad, poder predictivo, simplicidad del modelo). 2. Para visualizar los datos para la selección del modelo. 3. Para reducir la dimensionalidad y eliminar el ruido.. • Feature Selection es un proceso que elige un subconjunto óptimo de atributos de acuerdo a cierto criterio.
  • 54. Ph.D. Franklin Parrales 54 08/02/2022 Inteligencia de Negocios Carrera de Software Descripción general • Las razones para realizar FS pueden incluir… – eliminar datos irrelevantes. – aumentar la exactitud predictiva de los modelos aprendidos. – reducir el costo de los datos. – mejorar la eficiencia del aprendizaje, como reducir los requisitos de almacenamiento y el costo computacional. – reducir la complejidad de la descripción del modelo resultante, mejorando la comprensión de los datos y del modelo.
  • 55. Ph.D. Franklin Parrales 55 08/02/2022 Inteligencia de Negocios Carrera de Software Feature Selection: ¿Por qué? The accuracy of all test Web URLs when chang the number of top words for category file 74% 76% 78% 80% 82% 84% 86% 88% 90% top10 top20 top30 top40 top50 top60 top70 top80 top90 top100 top110 top120 top130 top140 top150 top160 top170 top180 top190 top200 Number of top words for category file Accuracy
  • 56. Ph.D. Franklin Parrales 56 08/02/2022 Inteligencia de Negocios Carrera de Software Feature Selection: ¿Por qué? From http://elpub.scix.net/data/works/att/02-28.content.pdf Bastante fácil de encontrar muchos más casos de artículos, donde los experimentos muestran que la exactitud se reduce cuando usan más atributos
  • 57. Ph.D. Franklin Parrales 57 08/02/2022 Inteligencia de Negocios Carrera de Software Feature selection methods
  • 58. Ph.D. Franklin Parrales 58 08/02/2022 Inteligencia de Negocios Carrera de Software Técnicas de minería de datos • En el ámbito de la investigación las técnicas de data mining pueden ayudar a los científicos a clasificar y segmentar datos y a formar hipótesis. • El data mining permite encontrar información escondida en los datos que no siempre resulta aparente, ya que, dado el gigantesco volumen de datos existentes, gran parte de ese volumen nunca será analizado. • Las técnicas de data mining pueden ser de dos tipos: – Métodos descriptivos– Buscan patrones interpretables para describir datos. Son los siguientes: clustering, descubrimiento de reglas de asociación y descubrimiento de patrones secuenciales. • Los métodos descriptivos se han utilizado, por ejemplo, para ver que productos suelen adquirirse conjuntamente en el supermercado. – Métodos predictivos- Usan algunas variables para predecir valores futuros o desconocidos de otras variables. Son los siguientes: clasificación, regresión y detección de la desviación.
  • 59. Ph.D. Franklin Parrales 59 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  • 60. Ph.D. Franklin Parrales 60 08/02/2022 Inteligencia de Negocios Carrera de Software Métodos de Clustering • Muchos métodos y algoritmos diferentes: – Para datos numéricos y / o simbólicos – Determinista vs. probabilista – Exclusivo vs. superpuesto – Jerárquico vs. plano – Top-down vs. bottom-up
  • 61. Ph.D. Franklin Parrales 61 08/02/2022 Inteligencia de Negocios Carrera de Software Clusters: exclusivo vs. superpuesto (overlapping) Simple 2-D representation Non-overlapping Venn diagram Overlapping a k j i h g f e d c b a k j i h g f e d c b
  • 62. Ph.D. Franklin Parrales 62 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación de Clusters • Inspección manual • Benchmarking de etiquetas existentes • Medidas de calidad del clúster – medidas de distancia – alta similitud dentro de un grupo, baja entre grupos
  • 63. Ph.D. Franklin Parrales 63 08/02/2022 Inteligencia de Negocios Carrera de Software La función de distancia • Caso más simple: un atributo numérico A – Distancia(X,Y) = A(X) – A(Y) • Varios atributos numéricos: – Distancia(X,Y) = distancia euclidea entre X,Y • Atributos nominales: la distancia se establece en 1 si los valores son diferentes, 0 si son iguales • ¿Son todos los atributos igualmente importantes? – Podría ser necesario ponderar los atributos
  • 64. Ph.D. Franklin Parrales 64 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  • 65. Ph.D. Franklin Parrales 65 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación Aprender un modelo para predecir la clase de una instancia a partir de instancias previamente etiquetadas (clasificadas) Muchos métodos: Regresión, Árboles de clasificación, Redes bayesianas, Redes neuronales, ... Dado un conjunto de puntos de clases cual es la clase de nuevo punto ?
  • 66. Ph.D. Franklin Parrales 66 08/02/2022 Inteligencia de Negocios Carrera de Software Sobreajuste (overfitting) f2 f1
  • 67. Ph.D. Franklin Parrales 67 08/02/2022 Inteligencia de Negocios Carrera de Software 67 El problema del clima Outlook Temperature Humidity Windy Play sunny 85 85 false no sunny 80 90 true no overcast 83 86 false yes rainy 70 96 false yes rainy 68 80 false yes rainy 65 70 true no overcast 64 65 true yes sunny 72 95 false no sunny 69 70 false yes rainy 75 80 false yes sunny 75 70 true yes overcast 72 90 true yes overcast 81 75 false yes rainy 71 91 true no Dados los datos históricos, puedes obtener las reglas para ¿Jugar / no jugar? ¿De qué va el juego?
  • 68. Ph.D. Franklin Parrales 68 08/02/2022 Inteligencia de Negocios Carrera de Software El problema del clima • Condiciones para jugar al golf Outlook Temperature Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild Normal False Yes … … … … … If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity = normal then play = yes If none of the above then play = yes
  • 69. Ph.D. Franklin Parrales 69 08/02/2022 Inteligencia de Negocios Carrera de Software Datos meteorológicos con atributos mixtos • Algunos atributos tienen valores numéricos Outlook Temperature Humidity Windy Play Sunny 85 85 False No Sunny 80 90 True No Overcast 83 86 False Yes Rainy 75 80 False Yes … … … … … If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity < 85 then play = yes If none of the above then play = yes
  • 70. Ph.D. Franklin Parrales 70 08/02/2022 Inteligencia de Negocios Carrera de Software Los datos de las lentes de contacto Age Spectacle prescription Astigmatism Tear production rate Recommended lenses Young Myope No Reduced None Young Myope No Normal Soft Young Myope Yes Reduced None Young Myope Yes Normal Hard Young Hypermetrope No Reduced None Young Hypermetrope No Normal Soft Young Hypermetrope Yes Reduced None Young Hypermetrope Yes Normal hard Pre-presbyopic Myope No Reduced None Pre-presbyopic Myope No Normal Soft Pre-presbyopic Myope Yes Reduced None Pre-presbyopic Myope Yes Normal Hard Pre-presbyopic Hypermetrope No Reduced None Pre-presbyopic Hypermetrope No Normal Soft Pre-presbyopic Hypermetrope Yes Reduced None Pre-presbyopic Hypermetrope Yes Normal None Presbyopic Myope No Reduced None Presbyopic Myope No Normal None Presbyopic Myope Yes Reduced None Presbyopic Myope Yes Normal Hard Presbyopic Hypermetrope No Reduced None Presbyopic Hypermetrope No Normal Soft Presbyopic Hypermetrope Yes Reduced None Presbyopic Hypermetrope Yes Normal None
  • 71. Ph.D. Franklin Parrales 71 08/02/2022 Inteligencia de Negocios Carrera de Software Un conjunto de reglas completo y correcto If tear production rate = reduced then recommendation = none If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft If age = presbyopic and spectacle prescription = myope and astigmatic = no then recommendation = none If spectacle prescription = hypermetrope and astigmatic = no and tear production rate = normal then recommendation = soft If spectacle prescription = myope and astigmatic = yes and tear production rate = normal then recommendation = hard If age young and astigmatic = yes and tear production rate = normal then recommendation = hard If age = pre-presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none If age = presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none
  • 72. Ph.D. Franklin Parrales 72 08/02/2022 Inteligencia de Negocios Carrera de Software Un árbol de clasificación para este problema.
  • 73. Ph.D. Franklin Parrales 73 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación iris de flores Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 1.4 0.2 Iris setosa … 51 7.0 3.2 4.7 1.4 Iris versicolor 52 6.4 3.2 4.5 1.5 Iris versicolor … 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 5.1 1.9 Iris virginica … If petal length < 2.45 then Iris setosa If sepal width < 2.10 then Iris versicolor ...
  • 74. Ph.D. Franklin Parrales 74 08/02/2022 Inteligencia de Negocios Carrera de Software • Example: 209 different computer configurations • Linear regression function Predecir el rendimiento de la CPU Cycle time (ns) Main memory (Kb) Cache (Kb) Channels Performance MYCT MMIN MMAX CACH CHMIN CHMAX PRP 1 125 256 6000 256 16 128 198 2 29 8000 32000 32 8 32 269 … 208 480 512 8000 32 0 0 67 209 480 1000 4000 0 0 0 45 PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
  • 75. Ph.D. Franklin Parrales 75 08/02/2022 Inteligencia de Negocios Carrera de Software El papel del conocimiento del dominio If leaf condition is normal and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown then diagnosis is rhizoctonia root rot If leaf malformation is absent and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown then diagnosis is rhizoctonia root rot Pero en este dominio, “leaf condition is normal” implica “leaf malformation is absent”!
  • 76. Ph.D. Franklin Parrales 76 08/02/2022 Inteligencia de Negocios Carrera de Software Dividiendo el dataset (conjunto de datos) + + - - + Data Training set 90% Testing set 10%
  • 77. Ph.D. Franklin Parrales 77 08/02/2022 Inteligencia de Negocios Carrera de Software Entrenamiento de modelos Training set + + - - + Data Construcción del modelo Testing set
  • 78. Ph.D. Franklin Parrales 78 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación de modelos Data Predicciones Y N Training set Testing set + + - - + Construcción del modelo Evaluar + - + -
  • 79. Ph.D. Franklin Parrales 79 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: entrenamiento, validación, prueba Data Predicciones Y N Resultados Conocidos Training set Validation set + + - - + Construcción del modelo Evaluar + - + - Final Model Final Test Set + - + - Final Evaluation Construcció n del modelo
  • 80. Ph.D. Franklin Parrales 80 08/02/2022 Inteligencia de Negocios Carrera de Software Evaluación sobre datasets “INMENSOS” • Si hay muchos (miles) de instancias disponibles, incluidos varios cientos de instancias de cada clase, una evaluación simple es suficiente. – Divida aleatoriamente los datos en conjuntos de entrenamiento y prueba (generalmente 2/3 para entrenamiento, 1/3 para prueba) • Construya un clasificador usando el conjunto de entrenamiento (training set) y evalúelo usando el conjunto de prueba (test set)
  • 81. Ph.D. Franklin Parrales 81 08/02/2022 Inteligencia de Negocios Carrera de Software Métricas TP FN TN FP - + + - Predicted class value Actual class value • Positive values: “high” therapeutic response to treatment • Negative values: “low” therapeutic response to treatment
  • 82. Ph.D. Franklin Parrales 82 08/02/2022 Inteligencia de Negocios Carrera de Software ▪ Matriz de confusión/contingencia (p.ej. para el conjunto de test): abrir (p) cerrar (n) ABRIR (P) TP FP CERRAR (N) FN TN Real Predicho Diagonal de los aciertos • A partir de aquí, se han definido una serie de métricas: ❖ True Positive Rate: TPR = TP / (TP + FN). (“recall” o ”sensitivity” o “positive accuracy”). ❖ False Negative Rate: FNR = FN / (TP + FN). (“positive error”) ❖ True Negative Rate: TNR = TN / (TN + FP). (”specificity” o ”negative accuracy”). ❖ False Positive Rate: FPR = FP / (TN + FP). (“negative error”) ❖ Positive Predictive Value: PPV = TP / (TP + FP). (”precision”). ❖ Negative Predictive Value: NPV = TN / (TN + FN). ❖ Macro-average = MEDIA(TPR, TNR). (La media puede ser aritmética, geométrica u otra) ❖ BREAK-EVEN= (Precision + Recall) / 2 = (PPV + TPR) / 2 ❖ F-MEASURE= (Precision * Recall) / BREAK-EVEN = 2*PPV*TPR / (PPV + TPR)
  • 83. Ph.D. Franklin Parrales 83 08/02/2022 Inteligencia de Negocios Carrera de Software • Ejemplo: (conjunto de test de 100.000 instancias) c1 abrir cerrar ABRIR 300 500 CERRAR 200 99000 Real Pred c3 abrir cerrar ABRIR 400 5400 CERRAR 100 94100 Real c2 abrir cerrar ABRIR 0 0 CERRAR 500 99500 Real ERROR: 0,7% TPR= 300 / 500 = 60% FNR= 200 / 500 = 40% TNR= 99000 / 99500 = 99,5% FPR= 500 / 99500 = 0,5% PPV= 300 / 800 = 37,5% NPV= 99000 / 99200 = 99,8% Macromedia= (60 + 99,5 ) / 2 = 79,75% ERROR: 0,5% TPR= 0 / 500 = 0% FNR= 500 / 500 = 100% TNR= 99500 / 99500 = 100% FPR= 0 / 99500 = 0% PPV= 0 / 0 = INDEFINIDO NPV= 99500 / 10000 = 99,5% Macromedia= (0 + 100 ) / 2 = 50% ERROR: 5,5% TPR= 400 / 500 = 80% FNR= 100 / 500 = 20% TNR= 94100 / 99500 = 94,6% FPR= 5400 / 99500 = 5,4% PPV= 400 / 5800 = 6,9% NPV= 94100 / 94200 = 99,9% Macromedia= (80 + 94,6 ) / 2 = 87,3% ¿Qué clasificador es mejor? Especificidad Sensitividad Recall Precision
  • 84. Ph.D. Franklin Parrales 84 08/02/2022 Inteligencia de Negocios Carrera de Software ▪ Evaluación sensible al coste: ▪ En muchas situaciones todos los errores producidos por un modelo predictivo no tienen las mismas consecuencias: ▪ Ejemplo: Dejar cerrada una válvula en una central nuclear cuando es necesario abrirla, puede provocar una explosión, mientras que abrir una válvula cuando puede mantenerse cerrada, puede provocar una parada. ▪ Matriz de costes: ▪ Lo importante no es obtener un “clasificador” que yerre lo menos posible sino que tenga un coste menor. ▪ A partir de la matriz se calcula el coste de un clasificador. ▪ Los clasificadores se evalúan con dichos costes. ▪ Se selecciona el clasificador de menos coste. abrir cerrar ABRIR 0 100€ CERRAR 2000€ 0 Real Predicho
  • 85. Ph.D. Franklin Parrales 85 08/02/2022 Inteligencia de Negocios Carrera de Software ▪ Ejemplos: abrir cerrar ABRIR 0 100€ CERRAR 2000€ 0 Real Predicho c1 abrir cerrar ABRIR 300 500 CERRAR 200 99000 Real Pred c3 abrir cerrar ABRIR 400 5400 CERRAR 100 94100 Real c2 abrir cerrar ABRIR 0 0 CERRAR 500 99500 Real c1 abrir cerrar ABRIR 0€ 50.000€ CERRAR 400.000€ 0€ c3 abrir cerrar ABRIR 0€ 540.000€ CERRAR 200.000€ 0€ c2 abrir cerrar ABRIR 0€ 0€ CERRAR 1.000.000€ 0€ COSTE TOTAL: 450.000€ COSTE TOTAL: 1.000.000€ COSTE TOTAL: 740.000€ Matrices de confusión Matriz de coste Matrices resultado
  • 86. Ph.D. Franklin Parrales 86 08/02/2022 Inteligencia de Negocios Carrera de Software ▪¿De qué depende el coste final? ▪ Para dos clases. Depende de un contexto (o skew): ▪ El coste de los falsos positivos y falsos negativos: FPcost y FNcost ▪ El porcentaje de ejemplos de la clase negativa respecto de ejemplos de la clase positiva. (Neg / Pos). ▪ Se calcula: (para el ejemplo anterior) 20 1 2000 100 = = FNcost FPcost 199 500 99500 = = Pos Neg 95 , 9 199 · 20 1 = = slope – Para dos clases, el valor “slope” es suficiente para determinar qué clasificador será mejor. Clasifi. 1: FNR= 40%, FPR= 0,5% Coste Unitario = 1 x 0,40 + 9,95 x 0,005 = 0,45 Clasifi. 2: FNR= 100%, FPR= 0% Coste Unitario = 1 x 1 + 9,95 x 0 = 1 Clasifi. 3: FNR= 20%, FPR= 5,4% Coste Unitario = 1 x 0,20 + 9,95 x 0,054 = 0,74
  • 87. Ph.D. Franklin Parrales 87 08/02/2022 Inteligencia de Negocios Carrera de Software 87 ▪ El clasificador con menor error no es, frecuentemente, el mejor clasificador. ▪ El contexto (la distribución de clases y los costes de cada error) determinan la bondad de los clasificadores. ▪ PROBLEMA: ▪ En muchas aplicaciones, hasta el momento de aplicación, no se conoce la distribución de clases y/o es difícil estimar la matriz de costes. P.ej. un clasificador de spam. ▪ Pero los modelos se aprenden antes generalmente. ▪ Análisis ROC (Receiver Operating Characteristic). ▪ Usado por primera vez para evaluar radares en la 2ª guerra mundial, posteriormente se usó para el análisis de respuesta de transistores, se desarrolló fundamentalmente para aplicaciones de diagnóstico médico a partir de 1970 y comienza a popularizarse a finales de los 90 en minería de datos.
  • 88. Ph.D. Franklin Parrales 88 08/02/2022 Inteligencia de Negocios Carrera de Software Espacio ROC 0,000 0,200 0,400 0,600 0,800 1,000 0,000 0,200 0,400 0,600 0,800 1,000 False Positives True Positives ▪El espacio ROC ▪ Se normaliza la matriz de confusión por columnas: TPR, FNR TNR, FPR. abrir cerrar ABRIR 400 12000 CERRAR 100 87500 Real Pred abrir cerrar ABRIR 0,8 0,121 CERRAR 0,2 0,879 Real Pred TPR= 400 / 500 = 80% FNR= 100 / 500 = 20% TNR= 87500 / 99500 = 87,9% FPR= 12000 / 99500 = 12,1%
  • 89. Ph.D. Franklin Parrales 89 08/02/2022 Inteligencia de Negocios Carrera de Software ▪Espacio ROC: buenos y malos clasificadores. 0 1 1 0 FPR TPR • Buen clasificador. – Alto TPR. – Bajo FPR. 0 1 1 0 FPR TPR 0 1 1 0 FPR TPR • Mal clasificador. – Bajo TPR. – Alto FPR. • Mal clasificador (en realidad).
  • 90. Ph.D. Franklin Parrales 90 08/02/2022 Inteligencia de Negocios Carrera de Software ▪La Curva ROC. Construcción. ROC diagram 0 1 1 0 FPR TPR ▪ Construimos el “casco convexo” (convex hull) de sus puntos (FPR,TPR) además de los dos clasificadores triviales (0,0) y (1,1). ▪ Los clasificadores que caen debajo de la curva ROC se descartan. ▪ El mejor clasificador de los que quedan se seleccionará en el momento de aplicación… ▪ Dados varios clasificadores: Podemos descartar los que están por debajo porque no hay ninguna combinación de distribución de clases / matriz de costes para la cual puedan ser óptimos. La diagonal muestra por tanto la peor situación posible.
  • 91. Ph.D. Franklin Parrales 91 08/02/2022 Inteligencia de Negocios Carrera de Software Medición honesta: Cross-validation • Cross-validation evita la superposición de conjuntos de prueba – Primer paso: los datos se dividen en k subconjuntos de igual tamaño – Segundo paso: cada subconjunto a su vez se usa para pruebas y el resto para entrenamiento • Eso es llamado k-fold cross-validation • A menudo, los subconjuntos se estratifican antes de que se realice la validación cruzada. • Las estimaciones de error se promedian para producir una estimación de error general
  • 92. Ph.D. Franklin Parrales 92 08/02/2022 Inteligencia de Negocios Carrera de Software Cross-validation: Ejemplo — Divida los datos en grupos del mismo tamaño — — — Mantenga a un lado un grupo para probar y use el resto para construir el modelo — — Repetir Test
  • 93. Ph.D. Franklin Parrales 93 08/02/2022 Inteligencia de Negocios Carrera de Software D4 D3 D2 D1 Classificatio n algorithm M D4 D3 D2 D1 D4 D3 D2 D1 D4 D3 D2 D1 D4 D3 D2 D1 M1 M2 M3 M4 Accuracy1 Accuracy2 Accuracy3 Accuracy4 Classificatio n algorithm Classificatio n algorithm Classificatio n algorithm Classificatio n algorithm K-fold cross validation (k=4, ej, didáctico)
  • 94. Ph.D. Franklin Parrales 94 08/02/2022 Inteligencia de Negocios Carrera de Software Diseño de un experimento Entrenamiento Evaluación Validación train dev test Modelo (parámetros) Hiperparámetros Análisis de errores: - de sesgo - de varianza Datos Preprocesamiento Rendimiento real del modelo
  • 95. Ph.D. Franklin Parrales 95 08/02/2022 Inteligencia de Negocios Carrera de Software Parámetros e hiperparámetros Fuente: stanford.edu Hiperparámetros: Son los valores que tenemos a mano para configurar el algoritmo de aprendizaje automático (épocas, número de capas, ratio de aprendizaje, etc.). Se establecen manualmente o usando un proceso de búsqueda y optimización (AutoML) Parámetros: Son los valores numéricos que define el modelo matemático aprendido (pesos, umbrales, etc.). Se calculan automáticamente (se aprenden automáticamente). Entrenamiento Modelo (parámetros) Hiperparámetros
  • 96. Ph.D. Franklin Parrales 96 08/02/2022 Inteligencia de Negocios Carrera de Software Análisis de errores ● Muestra aleatoria de errores (10, 20, 50, 100) ● Intentamos identificar tipos de causas de error ● Rediseñamos aprendizaje (algoritmo, hiperparámetros...) ID ejemplo Tipo de error Esperado Predicho Causa del error 1 I FALSE TRUE Peso incorrecto 34 II TRUE FALSE Categoría desconocida 54 I FALSE TRUE Peso incorrecto 345 II TRUE FALSE Valores próximos 534 II TRUE FALSE Valores próximos 6578 I FALSE TRUE Categoría desconocida
  • 97. Ph.D. Franklin Parrales 97 08/02/2022 Inteligencia de Negocios Carrera de Software Interpretación del error Fuente: stanford.edu ● Error de sesgo (bias) Error alto en train y dev Soluciones: - mayor complejidad en el modelo - más tiempo de entrenamiento - … ● Error de varianza (variance) Error bajo en train, alto en dev Soluciones: Generalización (más datos, regularización, parada temprana, menor complejidad del modelo…)
  • 98. Ph.D. Franklin Parrales 98 08/02/2022 Inteligencia de Negocios Carrera de Software Contenido • Proceso de Descubrimiento del conocimiento KDD • Minería de Datos – Conceptos de Minería de Datos – Definición de Ciencia de Datos – Modelos, algoritmos y técnicas de Minería de Datos – Modelo Descriptivo – Modelo Predictivo – Algoritmos de Minería de Datos
  • 99. Ph.D. Franklin Parrales 99 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Regresión Lineal ▪ Regresión lineal w0 + w1 x + w2 y >= 0 ▪ Regresión calcula wi de los datos para minimizar el error al cuadrado para "ajustar" los datos ▪ No es suficientemente flexible
  • 100. Ph.D. Franklin Parrales 100 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Reglas X Y 5 2 3 if X > 5 then purple else if Y > 3 then purple else if X > 2 then green else purple
  • 101. Ph.D. Franklin Parrales 101 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Árboles de clasificación X Y 5 2 3 Es un modelo de clasificación supervisado que utiliza la estructura de árbol para describir la relación entre las características del modelo y los probables resultados X >5 purple Y >3 purple <= 5 X <= 3 purple >2 green <= 2
  • 102. Ph.D. Franklin Parrales 102 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas P(X|Asia=yes,Smoker=yes,Dyspnea=yes)?
  • 103. Ph.D. Franklin Parrales 103 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Ej. Caso completo (“Robo o terremoto”) [Pearl’88] Alarm Earthq. Burglary WatsonCalls News
  • 104. Ph.D. Franklin Parrales 104 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Consultas: probabilidades posteriores Dada alguna evidencia e (observaciones), Probabilidad Posterior de una variable(s) objetivo X : Otros nombres: propagación de probabilidad, actualización de creencias o revisión … Alarm Earth. Burgl. WCalls News ? Vector
  • 105. Ph.D. Franklin Parrales 105 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Semánticamente, por cualquier tipo de razonamiento Razonamiento predictivo o deductivo (inferencia causal): predice efectos Alarm Earth. Burgl. WCalls News ? Razonamiento diagnóstico (inferencia diagnóstica): diagnosticar las causas Alarm Earth. Burgl. WCalls News ? Sintomas|Enfermedad Enfermedad|Sintomas Variable objetivo es usualmente una descendiente de la evidencia Variable objetivo es usualmente un ancestro de la evidencia
  • 106. Ph.D. Franklin Parrales 106 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas … para cualquier tipo de razonamiento Razonamiento intercausal: entre causas de un efecto común Alarm Earth. Burgl. WCalls News ? B y E son independientes el uno del otro Suponer que A=Yes → Esto aumenta la Prob. para ambas posibles causas B y E Suponer luego que B=Yes → Esto explica el A observado, que a su vez baja la Prob. de E=Yes Dos causas inicialmente independientes. Si el efecto es conocido, la presencia de una causa explicativa hace que la causa alternativa sea menos probable (Esto es alejamiento explicativo)
  • 107. Ph.D. Franklin Parrales 107 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas … para cualquier tipo de razonamiento La dirección del arco entre las variables no restringe el tipo de consulta que se debe realizar: la inferencia probabilística puede combinar evidencia de todas las partes de la red Razonamiento bidirectional(inferencia mixta): combina 2 o mas de las anteriores Alarm Earth. Burgl. WCalls News ? Razonamiento diagnóstico y predictivo Razonamiento diagnóstico e intercausal
  • 108. Ph.D. Franklin Parrales 108 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes bayesianas Más consultas: conjunta y verosimilitud Conjunta posterior: prob. condicional de muchas variables El tamaño de la respuesta a la consulta es exponencial en el número de variables en la conjunta Verosimilitud de la evidencia: la consulta mas simple, ej: la prob. de la evidencia
  • 109. Ph.D. Franklin Parrales 109 08/02/2022 Inteligencia de Negocios Carrera de Software Clasificación: Redes neuronales ▪ Puede seleccionar regiones más complejas ▪ Puede ser más precisa ▪ Además, puede sobreajustar los datos – encontrar patrones en ruido aleatorio
  • 110. Ph.D. Franklin Parrales 110 08/02/2022 Inteligencia de Negocios Carrera de Software Clustering Simple: K-means Funciona solo con datos numéricos 1) Elija un número (K) de centros de clústers/grupos (al azar) 2) Asignar cada elemento a su centro de grupo más cercano (por ejemplo, utilizando la distancia euclidiana) 3) Mueva cada centro de clúster a la media de sus elementos asignados 4) Repita los pasos 2, 3 hasta la convergencia (cambio en las asignaciones de clúster por debajo de un umbral)
  • 111. Ph.D. Franklin Parrales 111 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo K-means, paso 1 k1 k2 k3 X Y Elija 3 centros de grupo iniciales (al azar)
  • 112. Ph.D. Franklin Parrales 112 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo K-means, paso 2 k1 k2 k3 X Y Asignar cada punto al centro del grupo más cercano
  • 113. Ph.D. Franklin Parrales 113 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo K-means, paso 3 X Y Mueva cada centro de grupo a la media de cada grupo k1 k2 k2 k1 k3 k3
  • 114. Ph.D. Franklin Parrales 114 08/02/2022 Inteligencia de Negocios Carrera de Software Discusión • El resultado puede variar significativamente según la elección inicial de semillas. • Puede quedar atrapado en un mínimo local – Ejemplo: • Para aumentar la posibilidad de encontrar el óptimo global: reinicie con diferentes semillas aleatorias instances initial cluster centers
  • 115. Ph.D. Franklin Parrales 115 08/02/2022 Inteligencia de Negocios Carrera de Software Resumen de agrupación en clústeres por K-means • Ventajas – Simple, comprensible – elementos asignados automáticamente a clústeres • Desventajas – Debe elegir el número de grupos de antemano – Todos los elementos forzados a agruparse – Demasiado sensible a los valores atípicos
  • 116. Ph.D. Franklin Parrales 116 08/02/2022 Inteligencia de Negocios Carrera de Software Variaciones de K-means • K-medoids – en lugar de medias, usa las medianas de cada grupo – Media de 1, 3, 5, 7, 9 es – Media de 1, 3, 5, 7, 1009 es – Mediana de 1, 3, 5, 7, 1009 es – Ventaja de la mediana: no afectado por valores extremos • Para bases de datos grandes, use muestreo 5 205 5
  • 117. Ph.D. Franklin Parrales 117 08/02/2022 Inteligencia de Negocios Carrera de Software *Clustering jerárquico • Bottom up – Comience con clústeres de instancia única – En cada paso, une los dos grupos más cercanos – Decisión de diseño: distancia entre clústeres • P.ej. dos instancias más cercanas en grupos vs. distancia entre medias • Top down – Comience con un clúster universal – Encuentra dos grupos – Proceda de forma recursiva en cada subconjunto – Puede ser muy rápido • Ambos métodos producen un dendrograma. g a c i e d k b j f h
  • 118. Ph.D. Franklin Parrales 118 08/02/2022 Inteligencia de Negocios Carrera de Software *Clustering incremental • Enfoque heurístico (COBWEB/CLASSIT) • Forma una jerarquía de clústeres de forma incremental • Inicio: – el árbol consta de un nodo raíz vacío • Luego: – agregar instancias una por una – actualizar el árbol de manera apropiada en cada etapa – para actualizar, busque la hoja correcta para una instancia – Puede implicar la reestructuración del árbol. • Basar las decisiones de actualización en la utilidad de la categoría
  • 119. Ph.D. Franklin Parrales 119 08/02/2022 Inteligencia de Negocios Carrera de Software *Clusterizando datos meteorológicos • 1 ID Outlook Temp. Humidity Windy A Sunny Hot High False B Sunny Hot High True C Overcast Hot High False D Rainy Mild High False E Rainy Cool Normal False F Rainy Cool Normal True G Overcast Cool Normal True H Sunny Mild High False I Sunny Cool Normal False J Rainy Mild Normal False K Sunny Mild Normal True L Overcast Mild High True M Overcast Hot Normal False N Rainy Mild High True 2 3 1
  • 120. Ph.D. Franklin Parrales 120 08/02/2022 Inteligencia de Negocios Carrera de Software *Clusterizando datos meteorológicos • 4 ID Outlook Temp. Humidity Windy A Sunny Hot High False B Sunny Hot High True C Overcast Hot High False D Rainy Mild High False E Rainy Cool Normal False F Rainy Cool Normal True G Overcast Cool Normal True H Sunny Mild High False I Sunny Cool Normal False J Rainy Mild Normal False K Sunny Mild Normal True L Overcast Mild High True M Overcast Hot Normal False N Rainy Mild High True 3 Merge best host and runner-up 5 Consider splitting the best host if merging doesn’t help 4
  • 121. Ph.D. Franklin Parrales 121 08/02/2022 Inteligencia de Negocios Carrera de Software *Jerarquía final ID Outlook Temp. Humidity Windy A Sunny Hot High False B Sunny Hot High True C Overcast Hot High False D Rainy Mild High False Oops! a and b are actually very similar
  • 122. Ph.D. Franklin Parrales 122 08/02/2022 Inteligencia de Negocios Carrera de Software *Ejemplo: los datos del iris (subconjunto)
  • 123. Ph.D. Franklin Parrales 123 08/02/2022 Inteligencia de Negocios Carrera de Software *Clustering con corte
  • 124. Ph.D. Franklin Parrales 124 08/02/2022 Inteligencia de Negocios Carrera de Software *Utilidad de la categoría • Utilidad de la categoría: función de pérdida cuadrática definida en probabilidades condicionales: • Cada instancia en una categoría diferente  numerador se convierte en k v a C v a C C C C CU l i j ij i l ij i l k   = − = = ) ] Pr[ ] | (Pr[ ] Pr[ ) ,..., , ( 2 2 2 1 2 ] Pr[ ij i v a m = − maximum number of attributes
  • 125. Ph.D. Franklin Parrales 125 08/02/2022 Inteligencia de Negocios Carrera de Software * Heurística para evitar sobreajuste • Si cada instancia se coloca en una categoría diferente, el numerador se convierte en (máximo): • Donde n es el número de todos los posibles valores de atributo. • Entonces, sin k en el denominador de la fórmula UC, ¡cada grupo consistiría en una instancia!  = − i j ij v i a n 2 ] Pr[ Valor Máximo de UC
  • 126. Ph.D. Franklin Parrales 126 08/02/2022 Inteligencia de Negocios Carrera de Software Niveles de Clustering
  • 127. Ph.D. Franklin Parrales 127 08/02/2022 Inteligencia de Negocios Carrera de Software Clustering jerárquico • Los clústeres se crean en niveles creando realmente conjuntos de clústeres en cada nivel. • Aglomerativo – Inicialmente, cada elemento en su propio grupo – Iterativamente, los clústeres se fusionan – Bottom Up • Divisivo – Inicialmente, todos los elementos de un grupo – Los grandes grupos se dividen sucesivamente – Top Down
  • 128. Ph.D. Franklin Parrales 128 08/02/2022 Inteligencia de Negocios Carrera de Software Dendrograma • Dendrograma: una estructura de datos de árbol que ilustra técnicas de agrupamiento jerárquico. • Cada nivel muestra grupos para ese nivel. – Hojas – clusters individuales – Raiz – un cluster • Un clúster en el nivel i es la unión de sus clústeres hijos en el nivel i + 1. 128
  • 129. Ph.D. Franklin Parrales 129 08/02/2022 Inteligencia de Negocios Carrera de Software Ejemplo Aglomerativo A B C D E A 0 1 2 2 3 B 1 0 2 4 3 C 2 2 0 1 5 D 2 4 1 0 3 E 3 3 5 3 0 B A E C D 4 Umbral de 2 3 5 1 A B C D E
  • 130. Ph.D. Franklin Parrales 130 08/02/2022 Inteligencia de Negocios Carrera de Software Distancia entre Clústeres • Single Link: menor distancia entre puntos • Complete Link: mayor distancia entre puntos • Average Link: distancia media entre puntos • Centroid: distancia entre centroides
  • 131. Ph.D. Franklin Parrales 131 08/02/2022 Inteligencia de Negocios Carrera de Software Agrupación en clústeres de enlace único (Single Link Clustering)
  • 132. Ph.D. Franklin Parrales 132 08/02/2022 Inteligencia de Negocios Carrera de Software Resúmen sobre Algoritmos de Clustering • Aprendizaje no supervisado • Muchas metodologías – K-means – simple, algunas veces es muy útil • K-medoids es menos sensitive a valores extremos – Clustering jerárquico – funciona para atributos simbólicos • La evaluación de clústeres es un problema
  • 133. Ph.D. Franklin Parrales 133 08/02/2022 Inteligencia de Negocios Carrera de Software Minería de datos Unidad 3 Final de la unidad