Introduccion a Machine Learning

Data Miner& Data Scientist
Introduccióna Minería de Datos
Open Spaces

Mineríade Datos
SurgeKDD!!!
• “Descubrimientode Conocimientoimplícito en BasesdeDatos”(KDD, delinglés Knowledge
DiscoveryfromDatabases).
“procesonotrivialdeidentificarpatronesválidos,novedosos,potencialmenteútilesyenúltima
instanciacomprensiblesapartirdelosdatos”.Fayyad(1996)
• Diferenciaclaracon métodosestadísticos:la estadísticaseutilizaexclusivamente paravalidaro
parametrizarun modelosugeridoypreexistente, noparagenerarlo.
• Diferenciasutil “Análisis Inteligente de Datos”(IDA,del inglés Intelligent DataAnalysis) que
correspondíaconel usode técnicas deinteligencia artificialen el análisisde losdatos.
Open Spaces

Mineríade Datos
Ya existía el data Mining?
CualeslabasedelData Mining
Matemática
Estadística
TeoríadeSeñal
Teoríadelacomunicación
Teoríadelainformación
SabemosDataMining?
Probabilidad Condicional
Funcioneslineales
TeoremadeShannon
Open Spaces

Historia y Conceptos
Colección de Datos (1960).
Acceso de Datos (1980).
 Almacén de Datos y Apoyo a las Decisiones (principios de la década de
1990).
 Minería de Datos Inteligente.(finales de la década de 1990).
Open Spaces

Evolución
Nuevos Ecosistemas de información  Data Scientist
Nuevas tecnologías?  Sí
Nuevos Algoritmos?  No
Nuevas Metodologías  No
Como impacta las nuevas volumetrías Big Data?
Como impacta las nuevas tecnologías?  Entornos menos expertos
Data Mining  Procesos KDD Explorativo
Machine Learning??
Caso concreto de IA. No explorativo. DataScientist basado en Machine
Learning
Data Analytics??
Open Spaces

Data Science
(Visión Ptolemaica)
Open Spaces

Data Analyticsy Data Science
Estáde moda!!
Open Spaces

Introducción
Tipología de Técnicas de Minería de Datos
Open Spaces

10
Las técnicas demineríade datos crean modelos que son predictivos y/odescriptivos.
Unmodelo predictivo responde preguntas sobre datos futuros.
• ¿Cuálesseránlasventas el añopróximo?
• ¿Esesta transacciónfraudulenta?
• ¿Quétipodeseguro esmás probablequecontrateel cliente X?
Unmodelo descriptivo proporciona información sobre las relaciones entrelos datos ysus características. Genera
información del tipo:
• Losclientes quecompranpañalessuelen comprarcerveza.
• El tabacoy elalcoholson losfactoresmásimportantesen la enfermedadY.
• Losclientes sintelevisión y conbicicleta tienen característicasmuydiferenciadasdel resto.
Tipologíade Técnicas de Minería de Datos
Open Spaces

11
Ejemplo deModelo Predictivo:
• Queremossabersijugaro nojugar estatardealtenis.
• Hemos recogidodatosdeexperienciasanteriores:
Example Sky Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
Open Spaces

12
Ejemplo deModelo Predictivo:
• Pasamos estos ejemplos a unalgoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis”
como la clase (output).
• El resultado del algoritmo es el siguiente modelo:
• Ahorapodemos utilizar este modelo para predecir si esta tardejugamos o no al tenis. P.ej., la instancia:
(Outlook=sunny,Temperature=hot,Humidity= high,Wind =strong)
es NO.
Outlook?
YESHumidity?
Sunny
Overcast
Rain
Wind?
YES YESNONO
High Normal Strong Weak
Open Spaces

13
Ejemplo de Modelo Descriptivo:
• Queremos categorizar nuestros empleados.
• Tenemos estos datos de los empleados:
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Prop Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Prop Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Prop Sí 2 6 M
9 20000 Sí Sí 3 Prop No 7 5 H
10 30000 Sí Sí 2 Prop No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Prop No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H
Open Spaces

14
Ejemplo deModelo Descriptivo:
• Pasamosestos ejemplosa unalgoritmode clustering K-meams.
• Se creantresclusters,con lasiguiente descripción:
cluster 1: 5 examples
Sueldo : 22600
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
Sí -> 0.2
Bajas/Año : 8
Antigüedad : 8
Sexo : H -> 0.6
M -> 0.4
Sueldo : 22500
Casado : No -> 1.0
Coche : Sí -> 1.0
Hijos : 0
Prop -> 0.25
Sindic. : Sí -> 1.0
Bajas/Año : 2
Antigüedad : 8
Sexo : H -> 0.25
M -> 0.75
Sueldo : 18833
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Prop -> 0.83
Sindic. : No -> 0.67
Sí -> 0.33
Bajas/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
Open Spaces

15
Ejemplo deModelo Descriptivo:
Sueldo : 22600
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Sindic. : No -> 0.8
Sí -> 0.2
Bajas/Año : 8
Antigüedad : 8
Sexo : H -> 0.6
M -> 0.4
Sueldo : 22500
Casado : No -> 1.0
Coche : Sí -> 1.0
Hijos : 0
Prop -> 0.25
Sindic. : Sí -> 1.0
Bajas/Año : 2
Antigüedad : 8
Sexo : H -> 0.25
M -> 0.75
Sueldo : 18833
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Prop -> 0.83
Sindic. : No -> 0.67
Sí -> 0.33
Bajas/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
Open Spaces

16
Tipos deconocimiento:
 Asociaciones:Unaasociaciónentredos atributosocurrecuandolafrecuenciadeque se dendos valores
determinadosdecadaunoconjuntamentees relativamentealta.
 Ejemplo,en unsupermercadoseanalizasilospañalesy los potitosdebebésecompran
conjuntamente.
 Dependencias:Una dependenciafuncional(aproximadaoabsoluta)esunpatrónen el que seestablece
que unoo másatributosdeterminanel valordeotro.Ojo!Existenmuchasdependencias nadainteresantes
(causalidadesinversas).
 Ejemplo: queunpacientehayasido ingresadoen maternidaddeterminasu sexo.
Labúsquedadeasociacionesydependenciasseconoceavecescomoanálisisexploratorio.
Open Spaces

17
Tipos deconocimiento (cont.):
 Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el
atributodependientepuedetomarun valorentrevariasclases,yaconocidas.
 Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y
astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido
satisfactoria.
 Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o
negativo apartirdeesosatributos.
 Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos.
Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no
supervisado),con loqueel objetivoesdeterminargruposo racimos(clusters) diferenciadosdel resto.
Open Spaces

18
Tipos deconocimiento (cont.):
 Tendencias/Regresión (Predictor): El objetivo es predecir los valores de unavariable continuaa partir de
la evolución sobreotravariablecontinua,generalmenteel tiempo.
 Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias,
costes,etc.apartirdelosresultadosdesemanas,meses oañosanteriores.
 Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan
capacidadparaestablecerotrospatronesmásgenerales.

19
TaxonomíaTécnicas de Mineríade Datos.
Data Mining
Discovery Driven DMVerification Driven DM
SQL SQL Generator
Query Tools
OLAP
Description Prediction
Classification Statistical
Regression
Decision Tree
Rule Induction
Neural Network
Visualization
Clustering
Association
Sequential Association
Distillation
Open Spaces

21
Aprendizajeinductivo:Creamosmodelos deconceptosapartir de
generalizarejemplossimples.Buscamospatronescomunesque
expliquenlos ejemplos.
Aprendizajeanalítico odeductivo:Aplicamosladeducciónpara
obtenerdescripcionesgeneralesa partirdeunejemplo deconceptoy
su explicación.
Aprendizajegenético: Aplicaalgoritmosinspirados en lateoría dela
evolución paraencontrardescripcionesgenerales aconjuntosde
ejemplos.
Aprendizajeconexionista: Buscadescripciones generales mediante
el usodela capacidaddeadaptaciónderedesdeneuronasartificiales
MachineLearning
(caso concreto de DataMining)
Tiposde Aprendizajemás Usados
Open Spaces

22
Los métodos más utilizados enaplicaciones provienen del aprendizaje inductivo supervisado
Inducción: Pasamos de loespecífico a logeneral
A partir de unconjuntode ejemplos etiquetados obtenemosun modelo
El modelo generaliza los ejemplos, representando los conceptos que definen las etiquetas
Pero….
Asumimos que un númerolimitado de ejemplos representa las características del concepto que queremos
aprender
Solo hace falta un contraejemplo para invalidar el resultado
MetodosInductivos
Open Spaces

23
Tipos demétodos deaprendizaje inductivo supervisado
oModelos caja blanca (podemos inspeccionar el modelo)
•Árboles de decisión/reglas de inducción
•Modelos probabilísticos
oModelos caja negra
•Redes de neuronas artificiales
•Máquinas de soportevectorial SVM(vectores, grafos, hiperplanos)
Podemos plantear el problema como:
•Clasificación: unconjunto finito deconceptos
•Regresión: una función continua
Tiposde Métodos Inductivos (cont)
Open Spaces

24
ÁrboldeDecisión
Unárbol dedecisión es una forma gráfica y analítica para poder llevar a cabo la clasificación de los datos utilizados,
mediante diferentes caminos posible.
El lenguaje de descripción de los árboles de decisión corresponde a las fórmulas en
FND (Forma Normal Disyuntiva)
combinaciones en FNC (Forma Normal Conjuntiva). cada una de las combinaciones
en FNC describen una parte del árbol que estemos formando
Esta representacion es equivalente a una FND (22n conceptos)
Open Spaces

25
•Existen muchos algoritmos para aprender árboles de decisión
•El más simple es el denominado ID3
•Este algoritmo realiza una búsqueda por ascenso en el espacio de árboles
•Para cada nuevo nodo de decisión un atributo es elegido y los ejemplo son
distribuidos según sus valores
•Este procedimiento es repetido recursivamente hasta que todos los ejemplos son del
mismo concepto
•La selección de cada atributo es decidida mediante una función heurística que tiene
preferencia a formar árboles mínimos
ÁrboldeDecisiónID3
Open Spaces

Introduccion a Machine Learning

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to Introduccion a Machine Learning

Similar to Introduccion a Machine Learning (20)

More from Stratebi

More from Stratebi (20)

Recently uploaded

Recently uploaded (20)

Introduccion a Machine Learning