Este documento resume los conceptos clave de machine learning, incluyendo que es un subcampo de la inteligencia artificial, utiliza algoritmos supervisados y no supervisados para resolver problemas de clasificación, regresión y agrupamiento de datos, y tiene aplicaciones en diversos campos como medicina, marketing y procesamiento de imágenes.
3. #2
El nombre de ‘Machine Learning’
deriva del ‘Estudio de sistemas que
pueden aprender de los datos’
4. #3
Machine Learning es la capacidad de
un sistema para generalizar usando la
experiencia.
Consiste en el uso de estas
generalizaciones para dar respuesta a
las ‘cuestiones del futuro’
5. #4
En Machine Learning existen
algoritmos ‘supervisados’ que son
transparentes para los seres humanos,
en los que somos capaces de seguir el
razonamiento detrás de la
generalización
7. #6
Algoritmos no transparentes para los
humanos o de aprendizaje no
supervisado serían las redes
neuronales o Máquinas de vectores
de soporte entre otros
8. #7
El primer indicio de Machine Learning
viene de 1950, con el ‘Test de Turing’
para determinar si una máquina podía
tener inteligencia real
9. #8
En 1967 se codifica el algoritmo del
vecino más cercano, permitiendo a
un computador a empezar a usar el
reconocimiento de patrones,
permitiendo resolver problemas como
el del agente viajero
10. #9
En 2011 Google desarrolla Google
Brain , su red neuronal es capaz de
descubrir y categorizar objetos
11. #10
Machine Learning trata con
problemas tales como la clasificación:
reconocer las etiquetas de datos,
dados dichos datos o predecir una
clase dadas las observaciones
12. #11
Machine Learning resuelve problemas
de agrupamiento de datos similares
de forma conjunta, conocido como
Clustering
13. #12
Machine Learning trata con
problemas tales como la regresión, en
la que se predice una característica
dadas otras
14. #13
En Machine Learning se trabaja
normalmente con un conjunto de
datos de entrenamiento y otro de test
15. #14
En el aprendizaje supervisado, el
número correcto de clases objetivo
del conjunto de entrenamiento es
conocido
16. #15
En el aprendizaje no supervisado el
número correcto de clases objetivo
del conjunto de entrenamiento es
desconocido
17. #16
Dentro de la clasificación uno de los
algoritmos más populares es el de
‘Bayes ingenuo’
18. #17
Dentro de la clasificación uno de los
algoritmos más populares es el de
‘Bayes ingenuo’
19. #17
Existen 2 tipos de variable en Machine
Learning:
Variable objetivo o clase sobre la que
se quiere realizar una predicción y
variables explicativas de entrada que
sirve para explicar el comportamiento
de la variable objetivo
20. #18
La clasificación se puede utilizar para
predecir un tipo de tumor dado un
conjunto de datos de entrenamiento:
benigno o maligno
21. #19
La regresión se utilizará por ejemplo
para predecir el precio de una
vivienda dado un juego de datos de
entrenamiento
22. #20
Si nuestro objetivo es predecir un
número real o variable de naturaleza
continua entonces utilizaremos
regresión
23. #21
Si nuestro problema tiene una variable
objetivo discreta o categórica
entonces se resolverá utilizando
clasificación
24. #22
Weka (Pentaho Data Mining) es una
herramienta open source basada
para el aprendizaje automático que
incluye muchos algoritmos
predefinidos
25. #23
En Python existen paquetes orientados
a machine learning: scikit-learn,
pandas, Pylearn2…
26. #24
Si utilizamos R disponemos de varias
librerías dedicadas a ML: e1071, rpart,
igraph, nnet, randomForest, caret,
kernlab, gbm, earth, mboost….
28. #26
Las redes neuronales son un
paradigma de aprendizaje
automático inspirado en la forma en
que funciona el sistema nervioso de los
animales
29. #27
En 1957 Frank Rosenblatt diseña la
primera red neuronal (el perceptrón)
que simula los procesos de
pensamiento del cerebro humano
30. #28
Amazon y Netflix usan sistemas de
recomendación para acertar en los
gustos de sus clientes. Uno de los
algoritmos empleados en estos
sistemas es el K-vecinos más cercanos
31. #29
Para el análisis de sentimientos se
utilizan técnicas de procesamiento de
lenguajes naturales
32. #30
Deep learning es la utilización de
algoritmos para hacer
representaciones abstractas de
información y facilitar el aprendizaje
automático.
33. #31
Esto permite que una máquina, a
partir de esos patrones de datos, sea
capaz de reconocer el habla, el
movimiento, una señal o una imagen.
35. #33
Aplicaciones del Machine Learning:
Medicina, Bioinformática, Marketing,
Procesamiento del Lenguaje Natural,
Procesamiento de imágenes, Visión
artificial, Detección de Spam…
36. #34
En Machine Learning, para obtener un
gran modelo, se deben elegir bien el
método y los parámetros relacionados
con él. Esto suele ser tarea de un
Científico de datos
38. #36
Si hablamos de Machine Learning en
la actualidad, R es el lenguaje de
programación más popular en el
campo académico y Python en la
empresa privada
39. #37
Amazon lanza su propia plataforma
de Machine Learning en 2015.
Amazon Machine Learning
40. #38
El Machine Learning se apoya entre
otros en los siguientes campos de las
matemáticas: Álgebra lineal, cálculo ,
teoría de la probabilidad y teoría de
grafos
41. #39
Es fundamental eliminar el ruido y el
sesgo de nuestros juegos de datos
para aplicar algoritmos Machine
Learning
42. #40
C4.5 es un algoritmo utilizado para
generar un árbol de decisión. Los
árboles de decisión pueden ser usados
para clasificación y, por esto, nos
solemos referir a C4.5 como un
clasificador estadístico
43. #41
Hay que ser cuidadoso de no realizar
un sobreajuste de nuestro modelo al
conjunto de entrenamiento , puesto
que obtendríamos un rendimiento
pobre en nuestras predicciones
44. #42
Top 10 algoritmos Machine Learning :
C4.5, k-means, Support vector
machines, Apriori, EM , PageRank,
AdaBoost, k-nearest neighbours class,
Naïve Bayes, CART
45. #43
PageRank es una familia de
algoritmos utilizados para asignar de
forma numérica la relevancia de las
páginas web indexadas por un motor
de búsqueda
46. #44
El Método de alisado exponencial es
una forma de pronosticar la demanda
de un producto en un periodo dado
47. #45
En esta técnica se estima que la
demanda será igual a, por ejemplo, la
media de los consumos históricos para
un periodo dado, dando una mayor
ponderación a los valores más
cercanos en el tiempo
48. #46
El algoritmo apriori se usa para
encontrar Reglas de asociación en un
conjunto de datos. Este algoritmo se
basa en el conocimiento previo o “a
priori” de los conjuntos frecuentes,
esto sirve para reducir el espacio de
búsqueda y aumentar la eficiencia
49. #47
Lo mágico del Machine Learning es su
capacidad de construir y adaptar un
árbol de decisiones en base a los
datos conocidos, y de aplicar además
fórmulas heurísticas en cada nodo del
árbol, construyendo un sistema de
inferencias
50. #48
El algoritmo Adaptative Boosting
(AdaBoost) propone entrenar
iterativamente una serie de
clasificadores base
51. #49
De tal modo que cada nuevo
clasificador preste mayor atención a
los datos clasificados erróneamente
por los clasificadores anteriores, y
combinarlos de tal modo que se
obtenga un clasificador con elevadas
prestaciones
52. #50
Una de las medidas más utilizadas
para comparar la calidad de los
algoritmos es la raíz del error
cuadrático medio (RMSE) de la
predicción sobre la variable a
predecir
53. #51
Para visualizar los datos se utilizan
librerías como AmCharts, Raphael,
Protovis o Flare
54. #52
En el aprendizaje genético se aplican
algoritmos inspirados en la teoría de la
evolución para encontrar
descripciones generales a conjuntos
de ejemplos
55. #53
Se utilizan técnicas de Machine
Learning para problemas tan distintos
como el reconocimiento facial o la
predicción de terremotos