1. Data Miner& Data Scientist
Introduccióna Minería de Datos
Open Spaces
2. Mineríade Datos
SurgeKDD!!!
• “Descubrimientode Conocimientoimplícito en BasesdeDatos”(KDD, delinglés Knowledge
DiscoveryfromDatabases).
“procesonotrivialdeidentificarpatronesválidos,novedosos,potencialmenteútilesyenúltima
instanciacomprensiblesapartirdelosdatos”.Fayyad(1996)
• Diferenciaclaracon métodosestadísticos:la estadísticaseutilizaexclusivamente paravalidaro
parametrizarun modelosugeridoypreexistente, noparagenerarlo.
• Diferenciasutil “Análisis Inteligente de Datos”(IDA,del inglés Intelligent DataAnalysis) que
correspondíaconel usode técnicas deinteligencia artificialen el análisisde losdatos.
Open Spaces
3. Mineríade Datos
Ya existía el data Mining?
CualeslabasedelData Mining
Matemática
Estadística
TeoríadeSeñal
Teoríadelacomunicación
Teoríadelainformación
SabemosDataMining?
Probabilidad Condicional
Funcioneslineales
TeoremadeShannon
Open Spaces
4. Historia y Conceptos
Colección de Datos (1960).
Acceso de Datos (1980).
Almacén de Datos y Apoyo a las Decisiones (principios de la década de
1990).
Minería de Datos Inteligente.(finales de la década de 1990).
Open Spaces
5. Evolución
Nuevos Ecosistemas de información Data Scientist
Nuevas tecnologías? Sí
Nuevos Algoritmos? No
Nuevas Metodologías No
Como impacta las nuevas volumetrías Big Data?
Como impacta las nuevas tecnologías? Entornos menos expertos
Data Mining Procesos KDD Explorativo
Machine Learning??
Caso concreto de IA. No explorativo. DataScientist basado en Machine
Learning
Data Analytics??
Open Spaces
10. 10
Las técnicas demineríade datos crean modelos que son predictivos y/odescriptivos.
Unmodelo predictivo responde preguntas sobre datos futuros.
• ¿Cuálesseránlasventas el añopróximo?
• ¿Esesta transacciónfraudulenta?
• ¿Quétipodeseguro esmás probablequecontrateel cliente X?
Unmodelo descriptivo proporciona información sobre las relaciones entrelos datos ysus características. Genera
información del tipo:
• Losclientes quecompranpañalessuelen comprarcerveza.
• El tabacoy elalcoholson losfactoresmásimportantesen la enfermedadY.
• Losclientes sintelevisión y conbicicleta tienen característicasmuydiferenciadasdel resto.
Tipologíade Técnicas de Minería de Datos
Open Spaces
11. 11
Ejemplo deModelo Predictivo:
• Queremossabersijugaro nojugar estatardealtenis.
• Hemos recogidodatosdeexperienciasanteriores:
Tipologíade Técnicas de Minería de Datos
Example Sky Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
Open Spaces
12. 12
Ejemplo deModelo Predictivo:
• Pasamos estos ejemplos a unalgoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis”
como la clase (output).
• El resultado del algoritmo es el siguiente modelo:
• Ahorapodemos utilizar este modelo para predecir si esta tardejugamos o no al tenis. P.ej., la instancia:
(Outlook=sunny,Temperature=hot,Humidity= high,Wind =strong)
es NO.
Tipologíade Técnicas de Minería de Datos
Outlook?
YESHumidity?
Sunny
Overcast
Rain
Wind?
YES YESNONO
High Normal Strong Weak
Open Spaces
13. 13
Ejemplo de Modelo Descriptivo:
• Queremos categorizar nuestros empleados.
• Tenemos estos datos de los empleados:
Tipologíade Técnicas de Minería de Datos
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Prop Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Prop Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Prop Sí 2 6 M
9 20000 Sí Sí 3 Prop No 7 5 H
10 30000 Sí Sí 2 Prop No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Prop No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H
Open Spaces
14. 14
Ejemplo deModelo Descriptivo:
• Pasamosestos ejemplosa unalgoritmode clustering K-meams.
• Se creantresclusters,con lasiguiente descripción:
Tipologíade Técnicas de Minería de Datos
cluster 1: 5 examples
Sueldo : 22600
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
Sí -> 0.2
Bajas/Año : 8
Antigüedad : 8
Sexo : H -> 0.6
M -> 0.4
cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche : Sí -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0
Bajas/Año : 2
Antigüedad : 8
Sexo : H -> 0.25
M -> 0.75
cluster 3: 6 examples
Sueldo : 18833
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67
Sí -> 0.33
Bajas/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
Open Spaces
15. 15
Ejemplo deModelo Descriptivo:
Tipologíade Técnicas de Minería de Datos
cluster 1: 5 examples
Sueldo : 22600
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
Sí -> 0.2
Bajas/Año : 8
Antigüedad : 8
Sexo : H -> 0.6
M -> 0.4
cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche : Sí -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0
Bajas/Año : 2
Antigüedad : 8
Sexo : H -> 0.25
M -> 0.75
cluster 3: 6 examples
Sueldo : 18833
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67
Sí -> 0.33
Bajas/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
Open Spaces
16. 16
Tipos deconocimiento:
Asociaciones:Unaasociaciónentredos atributosocurrecuandolafrecuenciadeque se dendos valores
determinadosdecadaunoconjuntamentees relativamentealta.
Ejemplo,en unsupermercadoseanalizasilospañalesy los potitosdebebésecompran
conjuntamente.
Dependencias:Una dependenciafuncional(aproximadaoabsoluta)esunpatrónen el que seestablece
que unoo másatributosdeterminanel valordeotro.Ojo!Existenmuchasdependencias nadainteresantes
(causalidadesinversas).
Ejemplo: queunpacientehayasido ingresadoen maternidaddeterminasu sexo.
Labúsquedadeasociacionesydependenciasseconoceavecescomoanálisisexploratorio.
Tipologíade Técnicas de Minería de Datos
Open Spaces
17. 17
Tipos deconocimiento (cont.):
Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el
atributodependientepuedetomarun valorentrevariasclases,yaconocidas.
Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y
astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido
satisfactoria.
Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o
negativo apartirdeesosatributos.
Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos.
Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no
supervisado),con loqueel objetivoesdeterminargruposo racimos(clusters) diferenciadosdel resto.
Tipologíade Técnicas de Minería de Datos
Open Spaces
18. 18
Tipos deconocimiento (cont.):
Tendencias/Regresión (Predictor): El objetivo es predecir los valores de unavariable continuaa partir de
la evolución sobreotravariablecontinua,generalmenteel tiempo.
Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias,
costes,etc.apartirdelosresultadosdesemanas,meses oañosanteriores.
Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan
capacidadparaestablecerotrospatronesmásgenerales.
Tipologíade Técnicas de Minería de Datos
19. 19
TaxonomíaTécnicas de Mineríade Datos.
Data Mining
Discovery Driven DMVerification Driven DM
SQL SQL Generator
Query Tools
OLAP
Description Prediction
Classification Statistical
Regression
Decision Tree
Rule Induction
Neural Network
Visualization
Clustering
Association
Sequential Association
Distillation
Open Spaces
21. 21
Aprendizajeinductivo:Creamosmodelos deconceptosapartir de
generalizarejemplossimples.Buscamospatronescomunesque
expliquenlos ejemplos.
Aprendizajeanalítico odeductivo:Aplicamosladeducciónpara
obtenerdescripcionesgeneralesa partirdeunejemplo deconceptoy
su explicación.
Aprendizajegenético: Aplicaalgoritmosinspirados en lateoría dela
evolución paraencontrardescripcionesgenerales aconjuntosde
ejemplos.
Aprendizajeconexionista: Buscadescripciones generales mediante
el usodela capacidaddeadaptaciónderedesdeneuronasartificiales
MachineLearning
(caso concreto de DataMining)
Tiposde Aprendizajemás Usados
Open Spaces
22. 22
Los métodos más utilizados enaplicaciones provienen del aprendizaje inductivo supervisado
Inducción: Pasamos de loespecífico a logeneral
A partir de unconjuntode ejemplos etiquetados obtenemosun modelo
El modelo generaliza los ejemplos, representando los conceptos que definen las etiquetas
Pero….
Asumimos que un númerolimitado de ejemplos representa las características del concepto que queremos
aprender
Solo hace falta un contraejemplo para invalidar el resultado
MetodosInductivos
Open Spaces
23. 23
Tipos demétodos deaprendizaje inductivo supervisado
oModelos caja blanca (podemos inspeccionar el modelo)
•Árboles de decisión/reglas de inducción
•Modelos probabilísticos
oModelos caja negra
•Redes de neuronas artificiales
•Máquinas de soportevectorial SVM(vectores, grafos, hiperplanos)
Podemos plantear el problema como:
•Clasificación: unconjunto finito deconceptos
•Regresión: una función continua
Tiposde Métodos Inductivos (cont)
Open Spaces
24. 24
ÁrboldeDecisión
Unárbol dedecisión es una forma gráfica y analítica para poder llevar a cabo la clasificación de los datos utilizados,
mediante diferentes caminos posible.
El lenguaje de descripción de los árboles de decisión corresponde a las fórmulas en
FND (Forma Normal Disyuntiva)
combinaciones en FNC (Forma Normal Conjuntiva). cada una de las combinaciones
en FNC describen una parte del árbol que estemos formando
Esta representacion es equivalente a una FND (22n conceptos)
Open Spaces
25. 25
•Existen muchos algoritmos para aprender árboles de decisión
•El más simple es el denominado ID3
•Este algoritmo realiza una búsqueda por ascenso en el espacio de árboles
•Para cada nuevo nodo de decisión un atributo es elegido y los ejemplo son
distribuidos según sus valores
•Este procedimiento es repetido recursivamente hasta que todos los ejemplos son del
mismo concepto
•La selección de cada atributo es decidida mediante una función heurística que tiene
preferencia a formar árboles mínimos
ÁrboldeDecisiónID3
Open Spaces