SlideShare a Scribd company logo
1 of 25
Data Miner& Data Scientist
Introduccióna Minería de Datos
Open Spaces
Mineríade Datos
SurgeKDD!!!
• “Descubrimientode Conocimientoimplícito en BasesdeDatos”(KDD, delinglés Knowledge
DiscoveryfromDatabases).
“procesonotrivialdeidentificarpatronesválidos,novedosos,potencialmenteútilesyenúltima
instanciacomprensiblesapartirdelosdatos”.Fayyad(1996)
• Diferenciaclaracon métodosestadísticos:la estadísticaseutilizaexclusivamente paravalidaro
parametrizarun modelosugeridoypreexistente, noparagenerarlo.
• Diferenciasutil “Análisis Inteligente de Datos”(IDA,del inglés Intelligent DataAnalysis) que
correspondíaconel usode técnicas deinteligencia artificialen el análisisde losdatos.
Open Spaces
Mineríade Datos
Ya existía el data Mining?
CualeslabasedelData Mining
Matemática
Estadística
TeoríadeSeñal
Teoríadelacomunicación
Teoríadelainformación
SabemosDataMining?
Probabilidad Condicional
Funcioneslineales
TeoremadeShannon
Open Spaces
Historia y Conceptos
Colección de Datos (1960).
Acceso de Datos (1980).
 Almacén de Datos y Apoyo a las Decisiones (principios de la década de
1990).
 Minería de Datos Inteligente.(finales de la década de 1990).
Open Spaces
Evolución
Nuevos Ecosistemas de información  Data Scientist
Nuevas tecnologías?  Sí
Nuevos Algoritmos?  No
Nuevas Metodologías  No
Como impacta las nuevas volumetrías Big Data?
Como impacta las nuevas tecnologías?  Entornos menos expertos
Data Mining  Procesos KDD Explorativo
Machine Learning??
Caso concreto de IA. No explorativo. DataScientist basado en Machine
Learning
Data Analytics??
Open Spaces
Data Science
(Visión Ptolemaica)
Open Spaces
Data Analyticsy Data Science
Estáde moda!!
Open Spaces
FASES
KDD
Open Spaces
Introducción
Tipología de Técnicas de Minería de Datos
Open Spaces
10
Las técnicas demineríade datos crean modelos que son predictivos y/odescriptivos.
Unmodelo predictivo responde preguntas sobre datos futuros.
• ¿Cuálesseránlasventas el añopróximo?
• ¿Esesta transacciónfraudulenta?
• ¿Quétipodeseguro esmás probablequecontrateel cliente X?
Unmodelo descriptivo proporciona información sobre las relaciones entrelos datos ysus características. Genera
información del tipo:
• Losclientes quecompranpañalessuelen comprarcerveza.
• El tabacoy elalcoholson losfactoresmásimportantesen la enfermedadY.
• Losclientes sintelevisión y conbicicleta tienen característicasmuydiferenciadasdel resto.
Tipologíade Técnicas de Minería de Datos
Open Spaces
11
Ejemplo deModelo Predictivo:
• Queremossabersijugaro nojugar estatardealtenis.
• Hemos recogidodatosdeexperienciasanteriores:
Tipologíade Técnicas de Minería de Datos
Example Sky Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
Open Spaces
12
Ejemplo deModelo Predictivo:
• Pasamos estos ejemplos a unalgoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis”
como la clase (output).
• El resultado del algoritmo es el siguiente modelo:
• Ahorapodemos utilizar este modelo para predecir si esta tardejugamos o no al tenis. P.ej., la instancia:
(Outlook=sunny,Temperature=hot,Humidity= high,Wind =strong)
es NO.
Tipologíade Técnicas de Minería de Datos
Outlook?
YESHumidity?
Sunny
Overcast
Rain
Wind?
YES YESNONO
High Normal Strong Weak
Open Spaces
13
Ejemplo de Modelo Descriptivo:
• Queremos categorizar nuestros empleados.
• Tenemos estos datos de los empleados:
Tipologíade Técnicas de Minería de Datos
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Prop Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Prop Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Prop Sí 2 6 M
9 20000 Sí Sí 3 Prop No 7 5 H
10 30000 Sí Sí 2 Prop No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Prop No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H
Open Spaces
14
Ejemplo deModelo Descriptivo:
• Pasamosestos ejemplosa unalgoritmode clustering K-meams.
• Se creantresclusters,con lasiguiente descripción:
Tipologíade Técnicas de Minería de Datos
cluster 1: 5 examples
Sueldo : 22600
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
Sí -> 0.2
Bajas/Año : 8
Antigüedad : 8
Sexo : H -> 0.6
M -> 0.4
cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche : Sí -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0
Bajas/Año : 2
Antigüedad : 8
Sexo : H -> 0.25
M -> 0.75
cluster 3: 6 examples
Sueldo : 18833
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67
Sí -> 0.33
Bajas/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
Open Spaces
15
Ejemplo deModelo Descriptivo:
Tipologíade Técnicas de Minería de Datos
cluster 1: 5 examples
Sueldo : 22600
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
Sí -> 0.2
Bajas/Año : 8
Antigüedad : 8
Sexo : H -> 0.6
M -> 0.4
cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche : Sí -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0
Bajas/Año : 2
Antigüedad : 8
Sexo : H -> 0.25
M -> 0.75
cluster 3: 6 examples
Sueldo : 18833
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67
Sí -> 0.33
Bajas/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
Open Spaces
16
Tipos deconocimiento:
 Asociaciones:Unaasociaciónentredos atributosocurrecuandolafrecuenciadeque se dendos valores
determinadosdecadaunoconjuntamentees relativamentealta.
 Ejemplo,en unsupermercadoseanalizasilospañalesy los potitosdebebésecompran
conjuntamente.
 Dependencias:Una dependenciafuncional(aproximadaoabsoluta)esunpatrónen el que seestablece
que unoo másatributosdeterminanel valordeotro.Ojo!Existenmuchasdependencias nadainteresantes
(causalidadesinversas).
 Ejemplo: queunpacientehayasido ingresadoen maternidaddeterminasu sexo.
Labúsquedadeasociacionesydependenciasseconoceavecescomoanálisisexploratorio.
Tipologíade Técnicas de Minería de Datos
Open Spaces
17
Tipos deconocimiento (cont.):
 Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el
atributodependientepuedetomarun valorentrevariasclases,yaconocidas.
 Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y
astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido
satisfactoria.
 Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o
negativo apartirdeesosatributos.
 Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos.
Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no
supervisado),con loqueel objetivoesdeterminargruposo racimos(clusters) diferenciadosdel resto.
Tipologíade Técnicas de Minería de Datos
Open Spaces
18
Tipos deconocimiento (cont.):
 Tendencias/Regresión (Predictor): El objetivo es predecir los valores de unavariable continuaa partir de
la evolución sobreotravariablecontinua,generalmenteel tiempo.
 Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias,
costes,etc.apartirdelosresultadosdesemanas,meses oañosanteriores.
 Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan
capacidadparaestablecerotrospatronesmásgenerales.
Tipologíade Técnicas de Minería de Datos
19
TaxonomíaTécnicas de Mineríade Datos.
Data Mining
Discovery Driven DMVerification Driven DM
SQL SQL Generator
Query Tools
OLAP
Description Prediction
Classification Statistical
Regression
Decision Tree
Rule Induction
Neural Network
Visualization
Clustering
Association
Sequential Association
Distillation
Open Spaces
20
Sistemas
Open Spaces
21
Aprendizajeinductivo:Creamosmodelos deconceptosapartir de
generalizarejemplossimples.Buscamospatronescomunesque
expliquenlos ejemplos.
Aprendizajeanalítico odeductivo:Aplicamosladeducciónpara
obtenerdescripcionesgeneralesa partirdeunejemplo deconceptoy
su explicación.
Aprendizajegenético: Aplicaalgoritmosinspirados en lateoría dela
evolución paraencontrardescripcionesgenerales aconjuntosde
ejemplos.
Aprendizajeconexionista: Buscadescripciones generales mediante
el usodela capacidaddeadaptaciónderedesdeneuronasartificiales
MachineLearning
(caso concreto de DataMining)
Tiposde Aprendizajemás Usados
Open Spaces
22
Los métodos más utilizados enaplicaciones provienen del aprendizaje inductivo supervisado
Inducción: Pasamos de loespecífico a logeneral
A partir de unconjuntode ejemplos etiquetados obtenemosun modelo
El modelo generaliza los ejemplos, representando los conceptos que definen las etiquetas
Pero….
Asumimos que un númerolimitado de ejemplos representa las características del concepto que queremos
aprender
Solo hace falta un contraejemplo para invalidar el resultado
MetodosInductivos
Open Spaces
23
Tipos demétodos deaprendizaje inductivo supervisado
oModelos caja blanca (podemos inspeccionar el modelo)
•Árboles de decisión/reglas de inducción
•Modelos probabilísticos
oModelos caja negra
•Redes de neuronas artificiales
•Máquinas de soportevectorial SVM(vectores, grafos, hiperplanos)
Podemos plantear el problema como:
•Clasificación: unconjunto finito deconceptos
•Regresión: una función continua
Tiposde Métodos Inductivos (cont)
Open Spaces
24
ÁrboldeDecisión
Unárbol dedecisión es una forma gráfica y analítica para poder llevar a cabo la clasificación de los datos utilizados,
mediante diferentes caminos posible.
El lenguaje de descripción de los árboles de decisión corresponde a las fórmulas en
FND (Forma Normal Disyuntiva)
combinaciones en FNC (Forma Normal Conjuntiva). cada una de las combinaciones
en FNC describen una parte del árbol que estemos formando
Esta representacion es equivalente a una FND (22n conceptos)
Open Spaces
25
•Existen muchos algoritmos para aprender árboles de decisión
•El más simple es el denominado ID3
•Este algoritmo realiza una búsqueda por ascenso en el espacio de árboles
•Para cada nuevo nodo de decisión un atributo es elegido y los ejemplo son
distribuidos según sus valores
•Este procedimiento es repetido recursivamente hasta que todos los ejemplos son del
mismo concepto
•La selección de cada atributo es decidida mediante una función heurística que tiene
preferencia a formar árboles mínimos
ÁrboldeDecisiónID3
Open Spaces

More Related Content

Viewers also liked

Data mining
Data miningData mining
Data miningmayimez
 
Open space Scrum - Agilidad en Proyectos
Open space Scrum - Agilidad en ProyectosOpen space Scrum - Agilidad en Proyectos
Open space Scrum - Agilidad en ProyectosStratebi
 
Referencias Stratebi
Referencias StratebiReferencias Stratebi
Referencias StratebiStratebi
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenSoftware Guru
 
Introduccion a Git
Introduccion a GitIntroduccion a Git
Introduccion a GitStratebi
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresStratebi
 
Introduccion a Cassandra
Introduccion a CassandraIntroduccion a Cassandra
Introduccion a CassandraStratebi
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 
Ejemplos de Cuadros de Mando Open Source
Ejemplos de Cuadros de Mando Open SourceEjemplos de Cuadros de Mando Open Source
Ejemplos de Cuadros de Mando Open SourceStratebi
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine LearningStratebi
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
Arquitectura y Funcionalidades Liferay Portal
Arquitectura y Funcionalidades Liferay PortalArquitectura y Funcionalidades Liferay Portal
Arquitectura y Funcionalidades Liferay PortalStratebi
 
Stratebi Big Data
Stratebi Big DataStratebi Big Data
Stratebi Big DataStratebi
 
Comparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceComparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceStratebi
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosRoberto Espinosa
 
Apache Storm: Introduccion
Apache Storm: IntroduccionApache Storm: Introduccion
Apache Storm: IntroduccionStratebi
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 

Viewers also liked (20)

Data mining
Data miningData mining
Data mining
 
Open space Scrum - Agilidad en Proyectos
Open space Scrum - Agilidad en ProyectosOpen space Scrum - Agilidad en Proyectos
Open space Scrum - Agilidad en Proyectos
 
Referencias Stratebi
Referencias StratebiReferencias Stratebi
Referencias Stratebi
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesen
 
Alfresco
AlfrescoAlfresco
Alfresco
 
Introduccion a Git
Introduccion a GitIntroduccion a Git
Introduccion a Git
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-Columnares
 
Introduccion a Cassandra
Introduccion a CassandraIntroduccion a Cassandra
Introduccion a Cassandra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 
Ejemplos de Cuadros de Mando Open Source
Ejemplos de Cuadros de Mando Open SourceEjemplos de Cuadros de Mando Open Source
Ejemplos de Cuadros de Mando Open Source
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Arquitectura y Funcionalidades Liferay Portal
Arquitectura y Funcionalidades Liferay PortalArquitectura y Funcionalidades Liferay Portal
Arquitectura y Funcionalidades Liferay Portal
 
Stratebi Big Data
Stratebi Big DataStratebi Big Data
Stratebi Big Data
 
Comparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceComparativa herramientas Business Intelligence
Comparativa herramientas Business Intelligence
 
Data Mining
Data MiningData Mining
Data Mining
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 
Apache Storm: Introduccion
Apache Storm: IntroduccionApache Storm: Introduccion
Apache Storm: Introduccion
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 

Similar to Introduccion a Machine Learning

Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónAplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónLuis Fernando Aguas Bucheli
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics Spain
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxAnonymousEoGAaTF
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuencialesMarilyn Jaramillo
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronalesVictor_lino
 
Mineria1 2010
Mineria1 2010Mineria1 2010
Mineria1 2010cristian
 
Webinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdf
Webinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdfWebinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdf
Webinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdfLourdes Pozueta Fernández
 
Webinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdf
Webinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdfWebinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdf
Webinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdfLourdes Pozueta Fernández
 
Datlas - Workshop Coloquio Industria 4.0 UANL
Datlas - Workshop Coloquio Industria 4.0 UANLDatlas - Workshop Coloquio Industria 4.0 UANL
Datlas - Workshop Coloquio Industria 4.0 UANLDatlas
 
Analisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAnalisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAntonioAlcoba1
 
mineria de datos
mineria  de datosmineria  de datos
mineria de datosKaty Tumpi
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdfhenry913654
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientistJesús Montes
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos SecuencialesMarilyn Jaramillo
 

Similar to Introduccion a Machine Learning (20)

Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónAplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
 
02 extraccion de conocimiento
02 extraccion de conocimiento02 extraccion de conocimiento
02 extraccion de conocimiento
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuenciales
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronales
 
Mineria1 2010
Mineria1 2010Mineria1 2010
Mineria1 2010
 
Webinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdf
Webinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdfWebinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdf
Webinar 1de3. Htas DESCRIPTIVAS, predictivas y causales (1de3).pdf
 
Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Webinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdf
Webinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdfWebinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdf
Webinar 2de3. Htas descriptivas, PREDICTIVAS y causales (2de3).pdf
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Datlas - Workshop Coloquio Industria 4.0 UANL
Datlas - Workshop Coloquio Industria 4.0 UANLDatlas - Workshop Coloquio Industria 4.0 UANL
Datlas - Workshop Coloquio Industria 4.0 UANL
 
Analisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAnalisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptx
 
mineria de datos
mineria  de datosmineria  de datos
mineria de datos
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientist
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 

More from Stratebi

Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentesStratebi
 
Azure Synapse
Azure SynapseAzure Synapse
Azure SynapseStratebi
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with PythonStratebi
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with PythonStratebi
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasStratebi
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup SpainStratebi
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)Stratebi
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integrationStratebi
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data MarketingStratebi
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works Stratebi
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data AnalyticsStratebi
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosStratebi
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports AnalyticsStratebi
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme AnalysisStratebi
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIStratebi
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overviewStratebi
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalleStratebi
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con TalendStratebi
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend IntroducionStratebi
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent AnalyticsStratebi
 

More from Stratebi (20)

Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentes
 
Azure Synapse
Azure SynapseAzure Synapse
Azure Synapse
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with Python
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with Python
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicas
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup Spain
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integration
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data Marketing
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y Cursos
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports Analytics
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme Analysis
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBI
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overview
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalle
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend Introducion
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent Analytics
 

Recently uploaded

tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxDIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxKaterin yanac tello
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...jhoecabanillas12
 

Recently uploaded (20)

tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxDIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...
 

Introduccion a Machine Learning

  • 1. Data Miner& Data Scientist Introduccióna Minería de Datos Open Spaces
  • 2. Mineríade Datos SurgeKDD!!! • “Descubrimientode Conocimientoimplícito en BasesdeDatos”(KDD, delinglés Knowledge DiscoveryfromDatabases). “procesonotrivialdeidentificarpatronesválidos,novedosos,potencialmenteútilesyenúltima instanciacomprensiblesapartirdelosdatos”.Fayyad(1996) • Diferenciaclaracon métodosestadísticos:la estadísticaseutilizaexclusivamente paravalidaro parametrizarun modelosugeridoypreexistente, noparagenerarlo. • Diferenciasutil “Análisis Inteligente de Datos”(IDA,del inglés Intelligent DataAnalysis) que correspondíaconel usode técnicas deinteligencia artificialen el análisisde losdatos. Open Spaces
  • 3. Mineríade Datos Ya existía el data Mining? CualeslabasedelData Mining Matemática Estadística TeoríadeSeñal Teoríadelacomunicación Teoríadelainformación SabemosDataMining? Probabilidad Condicional Funcioneslineales TeoremadeShannon Open Spaces
  • 4. Historia y Conceptos Colección de Datos (1960). Acceso de Datos (1980).  Almacén de Datos y Apoyo a las Decisiones (principios de la década de 1990).  Minería de Datos Inteligente.(finales de la década de 1990). Open Spaces
  • 5. Evolución Nuevos Ecosistemas de información  Data Scientist Nuevas tecnologías?  Sí Nuevos Algoritmos?  No Nuevas Metodologías  No Como impacta las nuevas volumetrías Big Data? Como impacta las nuevas tecnologías?  Entornos menos expertos Data Mining  Procesos KDD Explorativo Machine Learning?? Caso concreto de IA. No explorativo. DataScientist basado en Machine Learning Data Analytics?? Open Spaces
  • 7. Data Analyticsy Data Science Estáde moda!! Open Spaces
  • 9. Introducción Tipología de Técnicas de Minería de Datos Open Spaces
  • 10. 10 Las técnicas demineríade datos crean modelos que son predictivos y/odescriptivos. Unmodelo predictivo responde preguntas sobre datos futuros. • ¿Cuálesseránlasventas el añopróximo? • ¿Esesta transacciónfraudulenta? • ¿Quétipodeseguro esmás probablequecontrateel cliente X? Unmodelo descriptivo proporciona información sobre las relaciones entrelos datos ysus características. Genera información del tipo: • Losclientes quecompranpañalessuelen comprarcerveza. • El tabacoy elalcoholson losfactoresmásimportantesen la enfermedadY. • Losclientes sintelevisión y conbicicleta tienen característicasmuydiferenciadasdel resto. Tipologíade Técnicas de Minería de Datos Open Spaces
  • 11. 11 Ejemplo deModelo Predictivo: • Queremossabersijugaro nojugar estatardealtenis. • Hemos recogidodatosdeexperienciasanteriores: Tipologíade Técnicas de Minería de Datos Example Sky Temperature Humidity Wind PlayTennis 1 Sunny Hot High Weak No 2 Sunny Hot High Strong No 3 Overcast Hot High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cool Normal Weak Yes 6 Rain Cool Normal Strong No 7 Overcast Cool Normal Strong Yes 8 Sunny Mild High Weak No 9 Sunny Cool Normal Weak Yes 10 Rain Mild Normal Weak Yes 11 Sunny Mild Normal Strong Yes 12 Overcast Mild High Strong Yes 13 Overcast Hot Normal Weak Yes 14 Rain Mild High Strong No Open Spaces
  • 12. 12 Ejemplo deModelo Predictivo: • Pasamos estos ejemplos a unalgoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis” como la clase (output). • El resultado del algoritmo es el siguiente modelo: • Ahorapodemos utilizar este modelo para predecir si esta tardejugamos o no al tenis. P.ej., la instancia: (Outlook=sunny,Temperature=hot,Humidity= high,Wind =strong) es NO. Tipologíade Técnicas de Minería de Datos Outlook? YESHumidity? Sunny Overcast Rain Wind? YES YESNONO High Normal Strong Weak Open Spaces
  • 13. 13 Ejemplo de Modelo Descriptivo: • Queremos categorizar nuestros empleados. • Tenemos estos datos de los empleados: Tipologíade Técnicas de Minería de Datos #Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo 1 10000 Sí No 0 Alquiler No 7 15 H 2 20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí Sí 2 Prop Sí 5 10 H 4 30000 Sí Sí 1 Alquiler No 15 7 M 5 10000 Sí Sí 0 Prop Sí 1 6 H 6 40000 No Sí 0 Alquiler Sí 3 16 M 7 25000 No No 0 Alquiler Sí 0 8 H 8 20000 No Sí 0 Prop Sí 2 6 M 9 20000 Sí Sí 3 Prop No 7 5 H 10 30000 Sí Sí 2 Prop No 1 20 H 11 50000 No No 0 Alquiler No 2 12 M 12 8000 Sí Sí 2 Prop No 3 1 H 13 20000 No No 0 Alquiler No 27 5 M 14 10000 No Sí 0 Alquiler Sí 0 7 H 15 8000 No Sí 0 Alquiler No 3 2 H Open Spaces
  • 14. 14 Ejemplo deModelo Descriptivo: • Pasamosestos ejemplosa unalgoritmode clustering K-meams. • Se creantresclusters,con lasiguiente descripción: Tipologíade Técnicas de Minería de Datos cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 Open Spaces
  • 15. 15 Ejemplo deModelo Descriptivo: Tipologíade Técnicas de Minería de Datos cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 • GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. • GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. • GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres. Open Spaces
  • 16. 16 Tipos deconocimiento:  Asociaciones:Unaasociaciónentredos atributosocurrecuandolafrecuenciadeque se dendos valores determinadosdecadaunoconjuntamentees relativamentealta.  Ejemplo,en unsupermercadoseanalizasilospañalesy los potitosdebebésecompran conjuntamente.  Dependencias:Una dependenciafuncional(aproximadaoabsoluta)esunpatrónen el que seestablece que unoo másatributosdeterminanel valordeotro.Ojo!Existenmuchasdependencias nadainteresantes (causalidadesinversas).  Ejemplo: queunpacientehayasido ingresadoen maternidaddeterminasu sexo. Labúsquedadeasociacionesydependenciasseconoceavecescomoanálisisexploratorio. Tipologíade Técnicas de Minería de Datos Open Spaces
  • 17. 17 Tipos deconocimiento (cont.):  Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributodependientepuedetomarun valorentrevariasclases,yaconocidas.  Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria.  Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo apartirdeesosatributos.  Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado),con loqueel objetivoesdeterminargruposo racimos(clusters) diferenciadosdel resto. Tipologíade Técnicas de Minería de Datos Open Spaces
  • 18. 18 Tipos deconocimiento (cont.):  Tendencias/Regresión (Predictor): El objetivo es predecir los valores de unavariable continuaa partir de la evolución sobreotravariablecontinua,generalmenteel tiempo.  Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias, costes,etc.apartirdelosresultadosdesemanas,meses oañosanteriores.  Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan capacidadparaestablecerotrospatronesmásgenerales. Tipologíade Técnicas de Minería de Datos
  • 19. 19 TaxonomíaTécnicas de Mineríade Datos. Data Mining Discovery Driven DMVerification Driven DM SQL SQL Generator Query Tools OLAP Description Prediction Classification Statistical Regression Decision Tree Rule Induction Neural Network Visualization Clustering Association Sequential Association Distillation Open Spaces
  • 21. 21 Aprendizajeinductivo:Creamosmodelos deconceptosapartir de generalizarejemplossimples.Buscamospatronescomunesque expliquenlos ejemplos. Aprendizajeanalítico odeductivo:Aplicamosladeducciónpara obtenerdescripcionesgeneralesa partirdeunejemplo deconceptoy su explicación. Aprendizajegenético: Aplicaalgoritmosinspirados en lateoría dela evolución paraencontrardescripcionesgenerales aconjuntosde ejemplos. Aprendizajeconexionista: Buscadescripciones generales mediante el usodela capacidaddeadaptaciónderedesdeneuronasartificiales MachineLearning (caso concreto de DataMining) Tiposde Aprendizajemás Usados Open Spaces
  • 22. 22 Los métodos más utilizados enaplicaciones provienen del aprendizaje inductivo supervisado Inducción: Pasamos de loespecífico a logeneral A partir de unconjuntode ejemplos etiquetados obtenemosun modelo El modelo generaliza los ejemplos, representando los conceptos que definen las etiquetas Pero…. Asumimos que un númerolimitado de ejemplos representa las características del concepto que queremos aprender Solo hace falta un contraejemplo para invalidar el resultado MetodosInductivos Open Spaces
  • 23. 23 Tipos demétodos deaprendizaje inductivo supervisado oModelos caja blanca (podemos inspeccionar el modelo) •Árboles de decisión/reglas de inducción •Modelos probabilísticos oModelos caja negra •Redes de neuronas artificiales •Máquinas de soportevectorial SVM(vectores, grafos, hiperplanos) Podemos plantear el problema como: •Clasificación: unconjunto finito deconceptos •Regresión: una función continua Tiposde Métodos Inductivos (cont) Open Spaces
  • 24. 24 ÁrboldeDecisión Unárbol dedecisión es una forma gráfica y analítica para poder llevar a cabo la clasificación de los datos utilizados, mediante diferentes caminos posible. El lenguaje de descripción de los árboles de decisión corresponde a las fórmulas en FND (Forma Normal Disyuntiva) combinaciones en FNC (Forma Normal Conjuntiva). cada una de las combinaciones en FNC describen una parte del árbol que estemos formando Esta representacion es equivalente a una FND (22n conceptos) Open Spaces
  • 25. 25 •Existen muchos algoritmos para aprender árboles de decisión •El más simple es el denominado ID3 •Este algoritmo realiza una búsqueda por ascenso en el espacio de árboles •Para cada nuevo nodo de decisión un atributo es elegido y los ejemplo son distribuidos según sus valores •Este procedimiento es repetido recursivamente hasta que todos los ejemplos son del mismo concepto •La selección de cada atributo es decidida mediante una función heurística que tiene preferencia a formar árboles mínimos ÁrboldeDecisiónID3 Open Spaces