Introduccion a Machine Learning

981 views

Published on

Introduccion a Machine Learning

Published in: Data & Analytics
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
981
On SlideShare
0
From Embeds
0
Number of Embeds
305
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Introduccion a Machine Learning

  1. 1. Introducción al Machine Learning o Aprendizaje Automático
  2. 2. Contenidos • Introducción • Técnicas – Clasificación – Clustering – Regresión • Casos de Uso y Herramientas 2
  3. 3. Introducción al Machine Learning
  4. 4. Introducción • Es un campo de la Inteligencia Artificial • Su nombre está derivado del concepto que trata con la construcción y estudio de sistemas que aprenden de los datos. • Es un concepto teórico en el que existen varias técnicas con múltiples implementaciones. • http://es.wikipedia.org/wiki/Machine_learning
  5. 5. En otras palabras… “Un programa de ordenador se dice que es capaz de aprender de la experiencia (E) con una serie de tareas (T) y una medida del rendimiento (P) si su desempeño en las tareas T mejora con E”
  6. 6. Terminología • Características/Rasgos – Nº de características o rasgos distintos que se pueden utilizar para describir cada elemento de una manera cuantitativa • Muestras/Ejemplos – Una muestra es un elemento a procesar (por ejemplo clasificar). Puede ser un documento, una foto, un vídeo, una fila en una base de datos o cualquier cosa que podamos describir con un número fijo de rasgos cuantitativos • Vector de características – Vector n-dimensional con características numéricas que representan un objeto • Extracción de Características – Preparación del vector de características – Transforma los datos en un espacio con alta dimensionalidad a un espacio con menos dimensiones • Conjunto de Entrenamiento/Evolución – Conjunto de datos destinado a descubrir relaciones predictivas.
  7. 7. Manzana Qué quieres decir con… Vamos a profundizar un poco…
  8. 8. Aprendizaje (Training) Características (Features): 1. Color: Rojo 2. Tipo: Fruta 3. Forma: Redonda 4. Comestible: Si etc… Características: 1. Azul cielo 2. Logotipo 3. Redondo 4. No etc… Características: 1. Verde 2. Fruta 3. Redonda 4. Si etc…
  9. 9. Flujo a) Entrenamiento: Conjunto de entrenamiento con datos etiquetados (variable objetivo conocida/etiquetada) b) Predicción: Conjunto de test con variable objetivo desconocida
  10. 10. Categorías • Aprendizaje Supervisado • Aprendizaje No Supervisado • Aprendizaje Semisupervisado • Aprendizaje por refuerzo
  11. 11. Aprendizaje Supervisado • Las clases correctas del conjunto de datos de entrenamiento son conocidas
  12. 12. Aprendizaje Supervisado • Secuencias de ADN con etiquetas binarias que indican si cada secuencia se centra en una zona de inicio de transcripción (TSS) o no.
  13. 13. Aprendizaje No Supervisado • Las clases correctas del conjunto de datos de entrenamiento no son conocidas
  14. 14. Aprendizaje Semisupervisado • Mezcla de aprendizaje Supervisado y No Supervisado
  15. 15. Aprendizaje por Refuerzo • Permite al programa o agente software aprender su comportamiento basado en la información que recibe del entorno. • Este comportamiento se puede aprender de una sola vez, o ir adaptándose con el paso del tiempo.
  16. 16. Técnicas de Machine Learning
  17. 17. Técnicas • Clasificación: predecir una clase con las observaciones • Clustering: agrupar las observaciones en grupos significativos • Regresión (predicción): predecir un valor con las observaciones
  18. 18. Clasificación • Clasificar un documento en una categoría predefinida • Los documentos pueden ser texto, imágenes Ejemplo: Clasificador Bayesiano Ingenuo. • Pasos: – Paso 1: Entrenar el programa (construir un modelo) usando el conjunto de entrenamiento con una categoría conocida por ejemplo : deportes, política, economía, sucesos … • El clasificador calculara la probabilidad de cada palabra, la probabilidad es lo que hará a un documento pertenecer a una de las categorías consideradas. – Paso 2: Probar el modelo construido con el conjunto de datos de test. • https://es.wikipedia.org/wiki/Clasificador_bayesiano_ingenuo
  19. 19. Clustering • Clustering es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo (llamado clúster) son más similares entre sí. • Por ejemplo con estas palabras clave – “zapatos de hombre” – “zapatos de mujer” – “camisetas de mujer” – “camisetas de hombre” – Pueden ser agrupadas en 2 categorías “zapatos” y “camisetas” o “hombre” y “mujer” • Los métodos más populares son clustering K-medias y clustering Jerárquico.
  20. 20. Clustering K-medias https://es.wikipedia.org/wiki/K-means • Tiene como objetivo la partición de un conjunto de n observaciones en k clusters en el que cada observación pertenece al grupo más cercano a la media.
  21. 21. Clustering Jerárquico • Método de análisis de grupos el cual busca construir una jerarquía de grupos. • Existen 2 estrategias: – Aglomerativas: • Enfoque ascendente: cada observación comienza en su propio grupo, y los pares de grupos son mezclados mientras uno sube en la jerarquía • Su complejidad temporal es de O(n^3) – Divisivas: • Aproximación descendente: todas las observaciones comienzan en un grupo, y se realizan particiones a medida que bajamos en la jerarquía. • Su complejidad temporal es de O(2^n) https://es.wikipedia.org/wiki/Agrupamiento_jerárquico
  22. 22. Regresión • Es una medida de la relación entre una variable dependiente (por ejemplo la salida) y los valores de una serie de variables independientes (por ejemplo: tiempo y coste) • El analisis de la regresión es un proceso estadístico para estimar las relaciones entre las variables. • Regresión significa predecir la salida o resultado usando los datos de entrenamiento. • Es popular la regresión logística (regresión binaria) • https://es.wikipedia.org/wiki/Regresión_logística
  23. 23. Clasificación vs Regresión • Clasificar significa agrupar la resultados de salida en una clase. • Usar clasificación para predecir el tipo de un tumor (maligno o benigno) a partir de los datos de entrenamiento • Si la variable es discreta/categórica, entonces estamos ante un problema de clasificación • Regresión significa predecir el valor de salida utilizando los datos de entrenamiento. • Usar regresión para predecir el precio de la vivienda a partir de los datos de entrenamiento • Si nuestra objetivo es un nº real/continuo, estamos ante un problema de regresión.
  24. 24. Clasificación vs Regresión
  25. 25. Casos de Uso y Herramientas
  26. 26. Casos de Uso • Detección de Spam: Hotmail, Yahoo, Gmail • Traducción Automática: Google Translate • Búsqueda de Imágenes Similares: Google Reverse image search • Clustering (KMeans) : Recomendaciones de Amazon • Clasificación: Google News Continúa..
  27. 27. Casos de Uso (continuación) • Resumen de textos- Google News • Puntuación de una crítica/comentario: Yelp • Detección de Fraude: Visa/MasterCard • Toma de decisiones: Banca/Seguros • Análisis de sentimientos: Twitter, Facebook • Reconocimiento de voz: Siri en iPhone • Reconocimiento Facial: Etiquetado en fotos de Facebook
  28. 28. Clasificación en Acción ¿No es fácil?
  29. 29. No, no es fácil (Carpeta de Correo no deseado) No es Spam No es Spam
  30. 30. Reconocimiento de nombres de entidades Idiomas soportados por herramienta: • NLTK: Inglés. • Stanford: Inglés, Español, Chino y Árabe. • OpenNLP: Inglés, Español, Alemán y Holandés. • Polyglot-NER: 40 principales idiomas (Inglés, Español, Francés, Ruso, Polaco, Portugués, Italiano, Holandés. Árabe, Hebreo, Japonés, Vietnamita, …)
  31. 31. Reconocimiento de nombres de entidades
  32. 32. Imágenes Similares/Duplicadas Recuerda ¿Características? Extracción de características: • Anchura • Altura • Contraste • Brillo • Posición • Matiz • Colores Información Extra: Librería LIRE (Lucene Image REtrieval) http://www.lire-project.net/
  33. 33. Recomendaciones
  34. 34. Gestión de Inventario • Serie temporal con las unidades vendidas de un determinado artículo. • Información disponible: 38 meses desde Junio 2012 – Agosto 2015
  35. 35. Gestión de Inventario • Descomponemos la serie original en componentes Y[t] = T[t] + S[t] + e[t] – Componente estacional (S[t])  Oscilaciones con periodicidad anual o submúltiplos del año – Componente Tendencial (T[t])  Recoge la parte de la variable vinculada principalmente con factores de largo plazo. – Componente de Irregular/Error (e[t])  Se determina al quitar los componentes estacional y el tendencial de la serie original
  36. 36. Gestión de Inventario • Predicción utilizando el método ARIMA . • ARIMA es un modelo estadístico que utiliza variaciones y regresiones de datos estadísticos con el fin de encontrar patrones para una predicción hacia el futuro.
  37. 37. Gestión de Inventario • Holt-Winters es un método de alisado exponencial que tiene en cuenta el componente de tendencia (método de Holt, extensión del método de alisado exponencial simple) y el componente estacional (extensión por Winters del método de Holt)
  38. 38. Gestión de Inventario La predicción de Holt-Winters incluye 3 series temporales: • Ajustada • Superior • Inferior
  39. 39. Diagnóstico del cáncer de pecho Redes Neuronales para el diagnóstico de tumores malignos o benignos.
  40. 40. Herramientas y Frameworks • Scikit-learn, Pandas, TensorFlow - Python • Weka – Herramienta con una colección de algoritmos • OpenNLP – Procesamiento del Lenguaje natural Java • LingPipe – Procesamiento de texto con lingüística computacional • Stanford NLP – Procesamiento del Lenguaje Natural • Mallet – Modelado de Temas • Gensim – Modelado de Temas - Python • LIBSVM : Máquinas de vectores de soporte - Python
  41. 41. Herramientas y Frameworks • Apache Mahout – Librerías ML Big Data designadas para ser escalables • MLib , Spark ML – ML Big Data con Apache Spark • forecast : Predicción con series temporales – R • nnet : Redes neuronales – R • arules – Reglas de asociación – R • randomForest – Clasificación y regresión utilizando bosques aleatorios – R • Carrot2 – Clustering de resultados de búsquedas
  42. 42. Machine Learning - Big Data
  43. 43. Machine Learning aplicado al Big Data
  44. 44. Conceptos Avanzados • Modelado de Temas • Búsqueda Semántica • Descomposición en valores singulares (SVD) • Resumen/Recapitulación
  45. 45. Sector Privado Referencias y Datos de Contacto
  46. 46. Sector Público Referencias y Datos de Contacto
  47. 47. www.TodoBI.com info@stratebi.com www.stratebi.com Mas información Tfno: 91.788.34.10 Madrid: Avenida de Brasil, 17, Planta 16 Barcelona: C/ Valencia, 63 Brasil: Av. Paulista, 37 4 andar

×