Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

53 Claves para conocer Machine Learning

29,769 views

Published on

53 Claves para conocer Machine Learning

Published in: Data & Analytics
  • Be the first to comment

53 Claves para conocer Machine Learning

  1. 1. Las 53 Claves para conocer Machine Learning… … desde las trincheras
  2. 2. #1 Machine Learning es un ‘subcampo’ de la Inteligencia Artificial
  3. 3. #2 El nombre de ‘Machine Learning’ deriva del ‘Estudio de sistemas que pueden aprender de los datos’
  4. 4. #3 Machine Learning es la capacidad de un sistema para generalizar usando la experiencia. Consiste en el uso de estas generalizaciones para dar respuesta a las ‘cuestiones del futuro’
  5. 5. #4 En Machine Learning existen algoritmos ‘supervisados’ que son transparentes para los seres humanos, en los que somos capaces de seguir el razonamiento detrás de la generalización
  6. 6. #5 Ejemplos de Algoritmos Supervisados: - Arboles de Decisión - Métodos basados en normas
  7. 7. #6 Algoritmos no transparentes para los humanos o de aprendizaje no supervisado serían las redes neuronales o Máquinas de vectores de soporte entre otros
  8. 8. #7 El primer indicio de Machine Learning viene de 1950, con el ‘Test de Turing’ para determinar si una máquina podía tener inteligencia real
  9. 9. #8 En 1967 se codifica el algoritmo del vecino más cercano, permitiendo a un computador a empezar a usar el reconocimiento de patrones, permitiendo resolver problemas como el del agente viajero
  10. 10. #9 En 2011 Google desarrolla Google Brain , su red neuronal es capaz de descubrir y categorizar objetos
  11. 11. #10 Machine Learning trata con problemas tales como la clasificación: reconocer las etiquetas de datos, dados dichos datos o predecir una clase dadas las observaciones
  12. 12. #11 Machine Learning resuelve problemas de agrupamiento de datos similares de forma conjunta, conocido como Clustering
  13. 13. #12 Machine Learning trata con problemas tales como la regresión, en la que se predice una característica dadas otras
  14. 14. #13 En Machine Learning se trabaja normalmente con un conjunto de datos de entrenamiento y otro de test
  15. 15. #14 En el aprendizaje supervisado, el número correcto de clases objetivo del conjunto de entrenamiento es conocido
  16. 16. #15 En el aprendizaje no supervisado el número correcto de clases objetivo del conjunto de entrenamiento es desconocido
  17. 17. #16 Dentro de la clasificación uno de los algoritmos más populares es el de ‘Bayes ingenuo’
  18. 18. #17 Dentro de la clasificación uno de los algoritmos más populares es el de ‘Bayes ingenuo’
  19. 19. #17 Existen 2 tipos de variable en Machine Learning: Variable objetivo o clase sobre la que se quiere realizar una predicción y variables explicativas de entrada que sirve para explicar el comportamiento de la variable objetivo
  20. 20. #18 La clasificación se puede utilizar para predecir un tipo de tumor dado un conjunto de datos de entrenamiento: benigno o maligno
  21. 21. #19 La regresión se utilizará por ejemplo para predecir el precio de una vivienda dado un juego de datos de entrenamiento
  22. 22. #20 Si nuestro objetivo es predecir un número real o variable de naturaleza continua entonces utilizaremos regresión
  23. 23. #21 Si nuestro problema tiene una variable objetivo discreta o categórica entonces se resolverá utilizando clasificación
  24. 24. #22 Weka (Pentaho Data Mining) es una herramienta open source basada para el aprendizaje automático que incluye muchos algoritmos predefinidos
  25. 25. #23 En Python existen paquetes orientados a machine learning: scikit-learn, pandas, Pylearn2…
  26. 26. #24 Si utilizamos R disponemos de varias librerías dedicadas a ML: e1071, rpart, igraph, nnet, randomForest, caret, kernlab, gbm, earth, mboost….
  27. 27. #25 Herramientas de Machine Learning con Big Data: Apache Mahout, MLib que opera sobre Apache Spark
  28. 28. #26 Las redes neuronales son un paradigma de aprendizaje automático inspirado en la forma en que funciona el sistema nervioso de los animales
  29. 29. #27 En 1957 Frank Rosenblatt diseña la primera red neuronal (el perceptrón) que simula los procesos de pensamiento del cerebro humano
  30. 30. #28 Amazon y Netflix usan sistemas de recomendación para acertar en los gustos de sus clientes. Uno de los algoritmos empleados en estos sistemas es el K-vecinos más cercanos
  31. 31. #29 Para el análisis de sentimientos se utilizan técnicas de procesamiento de lenguajes naturales
  32. 32. #30 Deep learning es la utilización de algoritmos para hacer representaciones abstractas de información y facilitar el aprendizaje automático.
  33. 33. #31 Esto permite que una máquina, a partir de esos patrones de datos, sea capaz de reconocer el habla, el movimiento, una señal o una imagen.
  34. 34. #32 En 1997 IBM’s Deep Blue gana al campeón mundial de ajedrez.
  35. 35. #33 Aplicaciones del Machine Learning: Medicina, Bioinformática, Marketing, Procesamiento del Lenguaje Natural, Procesamiento de imágenes, Visión artificial, Detección de Spam…
  36. 36. #34 En Machine Learning, para obtener un gran modelo, se deben elegir bien el método y los parámetros relacionados con él. Esto suele ser tarea de un Científico de datos
  37. 37. #35 Es fundamental comprender como traducir los problemas de negocio en algoritmos de Machine Learning
  38. 38. #36 Si hablamos de Machine Learning en la actualidad, R es el lenguaje de programación más popular en el campo académico y Python en la empresa privada
  39. 39. #37 Amazon lanza su propia plataforma de Machine Learning en 2015. Amazon Machine Learning
  40. 40. #38 El Machine Learning se apoya entre otros en los siguientes campos de las matemáticas: Álgebra lineal, cálculo , teoría de la probabilidad y teoría de grafos
  41. 41. #39 Es fundamental eliminar el ruido y el sesgo de nuestros juegos de datos para aplicar algoritmos Machine Learning
  42. 42. #40 C4.5 es un algoritmo utilizado para generar un árbol de decisión. Los árboles de decisión pueden ser usados para clasificación y, por esto, nos solemos referir a C4.5 como un clasificador estadístico
  43. 43. #41 Hay que ser cuidadoso de no realizar un sobreajuste de nuestro modelo al conjunto de entrenamiento , puesto que obtendríamos un rendimiento pobre en nuestras predicciones
  44. 44. #42 Top 10 algoritmos Machine Learning : C4.5, k-means, Support vector machines, Apriori, EM , PageRank, AdaBoost, k-nearest neighbours class, Naïve Bayes, CART
  45. 45. #43 PageRank es una familia de algoritmos utilizados para asignar de forma numérica la relevancia de las páginas web indexadas por un motor de búsqueda
  46. 46. #44 El Método de alisado exponencial es una forma de pronosticar la demanda de un producto en un periodo dado
  47. 47. #45 En esta técnica se estima que la demanda será igual a, por ejemplo, la media de los consumos históricos para un periodo dado, dando una mayor ponderación a los valores más cercanos en el tiempo
  48. 48. #46 El algoritmo apriori se usa para encontrar Reglas de asociación en un conjunto de datos. Este algoritmo se basa en el conocimiento previo o “a priori” de los conjuntos frecuentes, esto sirve para reducir el espacio de búsqueda y aumentar la eficiencia
  49. 49. #47 Lo mágico del Machine Learning es su capacidad de construir y adaptar un árbol de decisiones en base a los datos conocidos, y de aplicar además fórmulas heurísticas en cada nodo del árbol, construyendo un sistema de inferencias
  50. 50. #48 El algoritmo Adaptative Boosting (AdaBoost) propone entrenar iterativamente una serie de clasificadores base
  51. 51. #49 De tal modo que cada nuevo clasificador preste mayor atención a los datos clasificados erróneamente por los clasificadores anteriores, y combinarlos de tal modo que se obtenga un clasificador con elevadas prestaciones
  52. 52. #50 Una de las medidas más utilizadas para comparar la calidad de los algoritmos es la raíz del error cuadrático medio (RMSE) de la predicción sobre la variable a predecir
  53. 53. #51 Para visualizar los datos se utilizan librerías como AmCharts, Raphael, Protovis o Flare
  54. 54. #52 En el aprendizaje genético se aplican algoritmos inspirados en la teoría de la evolución para encontrar descripciones generales a conjuntos de ejemplos
  55. 55. #53 Se utilizan técnicas de Machine Learning para problemas tan distintos como el reconocimiento facial o la predicción de terremotos
  56. 56. Stratebi: Quiénes somos www.TodoBI.com info@stratebi.com www.stratebi.com Mas información Tfno: 91.770.68.50 Madrid: Pº de la Castellana, 164, 1º Barcelona: C/ Valencia, 63 Brasil: Av. Paulista, 37 4 andar

×