Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduccion a Machine Learning

5,461 views

Published on

Introduccion a Data Mining open source, con R, Pentaho Weka, Big Data, machine learning

Published in: Data & Analytics
  • Be the first to comment

Introduccion a Machine Learning

  1. 1. Data Miner& Data Scientist Introduccióna Minería de Datos Open Spaces
  2. 2. Mineríade Datos SurgeKDD!!! • “Descubrimientode Conocimientoimplícito en BasesdeDatos”(KDD, delinglés Knowledge DiscoveryfromDatabases). “procesonotrivialdeidentificarpatronesválidos,novedosos,potencialmenteútilesyenúltima instanciacomprensiblesapartirdelosdatos”.Fayyad(1996) • Diferenciaclaracon métodosestadísticos:la estadísticaseutilizaexclusivamente paravalidaro parametrizarun modelosugeridoypreexistente, noparagenerarlo. • Diferenciasutil “Análisis Inteligente de Datos”(IDA,del inglés Intelligent DataAnalysis) que correspondíaconel usode técnicas deinteligencia artificialen el análisisde losdatos. Open Spaces
  3. 3. Mineríade Datos Ya existía el data Mining? CualeslabasedelData Mining Matemática Estadística TeoríadeSeñal Teoríadelacomunicación Teoríadelainformación SabemosDataMining? Probabilidad Condicional Funcioneslineales TeoremadeShannon Open Spaces
  4. 4. Historia y Conceptos Colección de Datos (1960). Acceso de Datos (1980).  Almacén de Datos y Apoyo a las Decisiones (principios de la década de 1990).  Minería de Datos Inteligente.(finales de la década de 1990). Open Spaces
  5. 5. Evolución Nuevos Ecosistemas de información  Data Scientist Nuevas tecnologías?  Sí Nuevos Algoritmos?  No Nuevas Metodologías  No Como impacta las nuevas volumetrías Big Data? Como impacta las nuevas tecnologías?  Entornos menos expertos Data Mining  Procesos KDD Explorativo Machine Learning?? Caso concreto de IA. No explorativo. DataScientist basado en Machine Learning Data Analytics?? Open Spaces
  6. 6. Data Science (Visión Ptolemaica) Open Spaces
  7. 7. Data Analyticsy Data Science Estáde moda!! Open Spaces
  8. 8. FASES KDD Open Spaces
  9. 9. Introducción Tipología de Técnicas de Minería de Datos Open Spaces
  10. 10. 10 Las técnicas demineríade datos crean modelos que son predictivos y/odescriptivos. Unmodelo predictivo responde preguntas sobre datos futuros. • ¿Cuálesseránlasventas el añopróximo? • ¿Esesta transacciónfraudulenta? • ¿Quétipodeseguro esmás probablequecontrateel cliente X? Unmodelo descriptivo proporciona información sobre las relaciones entrelos datos ysus características. Genera información del tipo: • Losclientes quecompranpañalessuelen comprarcerveza. • El tabacoy elalcoholson losfactoresmásimportantesen la enfermedadY. • Losclientes sintelevisión y conbicicleta tienen característicasmuydiferenciadasdel resto. Tipologíade Técnicas de Minería de Datos Open Spaces
  11. 11. 11 Ejemplo deModelo Predictivo: • Queremossabersijugaro nojugar estatardealtenis. • Hemos recogidodatosdeexperienciasanteriores: Tipologíade Técnicas de Minería de Datos Example Sky Temperature Humidity Wind PlayTennis 1 Sunny Hot High Weak No 2 Sunny Hot High Strong No 3 Overcast Hot High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cool Normal Weak Yes 6 Rain Cool Normal Strong No 7 Overcast Cool Normal Strong Yes 8 Sunny Mild High Weak No 9 Sunny Cool Normal Weak Yes 10 Rain Mild Normal Weak Yes 11 Sunny Mild Normal Strong Yes 12 Overcast Mild High Strong Yes 13 Overcast Hot Normal Weak Yes 14 Rain Mild High Strong No Open Spaces
  12. 12. 12 Ejemplo deModelo Predictivo: • Pasamos estos ejemplos a unalgoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis” como la clase (output). • El resultado del algoritmo es el siguiente modelo: • Ahorapodemos utilizar este modelo para predecir si esta tardejugamos o no al tenis. P.ej., la instancia: (Outlook=sunny,Temperature=hot,Humidity= high,Wind =strong) es NO. Tipologíade Técnicas de Minería de Datos Outlook? YESHumidity? Sunny Overcast Rain Wind? YES YESNONO High Normal Strong Weak Open Spaces
  13. 13. 13 Ejemplo de Modelo Descriptivo: • Queremos categorizar nuestros empleados. • Tenemos estos datos de los empleados: Tipologíade Técnicas de Minería de Datos #Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo 1 10000 Sí No 0 Alquiler No 7 15 H 2 20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí Sí 2 Prop Sí 5 10 H 4 30000 Sí Sí 1 Alquiler No 15 7 M 5 10000 Sí Sí 0 Prop Sí 1 6 H 6 40000 No Sí 0 Alquiler Sí 3 16 M 7 25000 No No 0 Alquiler Sí 0 8 H 8 20000 No Sí 0 Prop Sí 2 6 M 9 20000 Sí Sí 3 Prop No 7 5 H 10 30000 Sí Sí 2 Prop No 1 20 H 11 50000 No No 0 Alquiler No 2 12 M 12 8000 Sí Sí 2 Prop No 3 1 H 13 20000 No No 0 Alquiler No 27 5 M 14 10000 No Sí 0 Alquiler Sí 0 7 H 15 8000 No Sí 0 Alquiler No 3 2 H Open Spaces
  14. 14. 14 Ejemplo deModelo Descriptivo: • Pasamosestos ejemplosa unalgoritmode clustering K-meams. • Se creantresclusters,con lasiguiente descripción: Tipologíade Técnicas de Minería de Datos cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 Open Spaces
  15. 15. 15 Ejemplo deModelo Descriptivo: Tipologíade Técnicas de Minería de Datos cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 • GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. • GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. • GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres. Open Spaces
  16. 16. 16 Tipos deconocimiento:  Asociaciones:Unaasociaciónentredos atributosocurrecuandolafrecuenciadeque se dendos valores determinadosdecadaunoconjuntamentees relativamentealta.  Ejemplo,en unsupermercadoseanalizasilospañalesy los potitosdebebésecompran conjuntamente.  Dependencias:Una dependenciafuncional(aproximadaoabsoluta)esunpatrónen el que seestablece que unoo másatributosdeterminanel valordeotro.Ojo!Existenmuchasdependencias nadainteresantes (causalidadesinversas).  Ejemplo: queunpacientehayasido ingresadoen maternidaddeterminasu sexo. Labúsquedadeasociacionesydependenciasseconoceavecescomoanálisisexploratorio. Tipologíade Técnicas de Minería de Datos Open Spaces
  17. 17. 17 Tipos deconocimiento (cont.):  Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributodependientepuedetomarun valorentrevariasclases,yaconocidas.  Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria.  Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo apartirdeesosatributos.  Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado),con loqueel objetivoesdeterminargruposo racimos(clusters) diferenciadosdel resto. Tipologíade Técnicas de Minería de Datos Open Spaces
  18. 18. 18 Tipos deconocimiento (cont.):  Tendencias/Regresión (Predictor): El objetivo es predecir los valores de unavariable continuaa partir de la evolución sobreotravariablecontinua,generalmenteel tiempo.  Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias, costes,etc.apartirdelosresultadosdesemanas,meses oañosanteriores.  Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan capacidadparaestablecerotrospatronesmásgenerales. Tipologíade Técnicas de Minería de Datos
  19. 19. 19 TaxonomíaTécnicas de Mineríade Datos. Data Mining Discovery Driven DMVerification Driven DM SQL SQL Generator Query Tools OLAP Description Prediction Classification Statistical Regression Decision Tree Rule Induction Neural Network Visualization Clustering Association Sequential Association Distillation Open Spaces
  20. 20. 20 Sistemas Open Spaces
  21. 21. 21 Aprendizajeinductivo:Creamosmodelos deconceptosapartir de generalizarejemplossimples.Buscamospatronescomunesque expliquenlos ejemplos. Aprendizajeanalítico odeductivo:Aplicamosladeducciónpara obtenerdescripcionesgeneralesa partirdeunejemplo deconceptoy su explicación. Aprendizajegenético: Aplicaalgoritmosinspirados en lateoría dela evolución paraencontrardescripcionesgenerales aconjuntosde ejemplos. Aprendizajeconexionista: Buscadescripciones generales mediante el usodela capacidaddeadaptaciónderedesdeneuronasartificiales MachineLearning (caso concreto de DataMining) Tiposde Aprendizajemás Usados Open Spaces
  22. 22. 22 Los métodos más utilizados enaplicaciones provienen del aprendizaje inductivo supervisado Inducción: Pasamos de loespecífico a logeneral A partir de unconjuntode ejemplos etiquetados obtenemosun modelo El modelo generaliza los ejemplos, representando los conceptos que definen las etiquetas Pero…. Asumimos que un númerolimitado de ejemplos representa las características del concepto que queremos aprender Solo hace falta un contraejemplo para invalidar el resultado MetodosInductivos Open Spaces
  23. 23. 23 Tipos demétodos deaprendizaje inductivo supervisado oModelos caja blanca (podemos inspeccionar el modelo) •Árboles de decisión/reglas de inducción •Modelos probabilísticos oModelos caja negra •Redes de neuronas artificiales •Máquinas de soportevectorial SVM(vectores, grafos, hiperplanos) Podemos plantear el problema como: •Clasificación: unconjunto finito deconceptos •Regresión: una función continua Tiposde Métodos Inductivos (cont) Open Spaces
  24. 24. 24 ÁrboldeDecisión Unárbol dedecisión es una forma gráfica y analítica para poder llevar a cabo la clasificación de los datos utilizados, mediante diferentes caminos posible. El lenguaje de descripción de los árboles de decisión corresponde a las fórmulas en FND (Forma Normal Disyuntiva) combinaciones en FNC (Forma Normal Conjuntiva). cada una de las combinaciones en FNC describen una parte del árbol que estemos formando Esta representacion es equivalente a una FND (22n conceptos) Open Spaces
  25. 25. 25 •Existen muchos algoritmos para aprender árboles de decisión •El más simple es el denominado ID3 •Este algoritmo realiza una búsqueda por ascenso en el espacio de árboles •Para cada nuevo nodo de decisión un atributo es elegido y los ejemplo son distribuidos según sus valores •Este procedimiento es repetido recursivamente hasta que todos los ejemplos son del mismo concepto •La selección de cada atributo es decidida mediante una función heurística que tiene preferencia a formar árboles mínimos ÁrboldeDecisiónID3 Open Spaces

×