Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla

1,797 views

Published on

Introducción a deep learning

Published in: Data & Analytics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,797
On SlideShare
0
From Embeds
0
Number of Embeds
76
Actions
Shares
0
Downloads
37
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla

  1. 1. DEEP LEARNING GABRIEL ANTONIO VALVERDE CASTILLA BIG & OPEN DATA. ANÁLISIS Y PROGRAMACIÓN CON R. LICENCIADO EN MATEMÁTICAS Y ESTADÍSTICA EN UNEX ALUMNO MASTER INGENIERIA MATEMATICAS UCM
  2. 2. SUMARIO • Introducción Machine Learning • ¿Qué es Deep Learning? ¿Qué más aporta? • Clasificación de las técnicas de Deep Learning. • Ejemplos: • Autoencoders. • Stacking Autoencoders.
  3. 3. MACHINE LEARNING • Rama de la Inteligencia Artificial. • El objetivo es desarrollar técnicas que permitan a la máquina aprender. • Origen en datos desestructurados. • Se centra en la complejidad computacional. Por lo que se centra en encontrar algoritmos factibles para NP-hard. • Algunos ejemplos son: • GMM- Gaussian Mixture Model. • CRFs- Conditional Random Fields. • MaxEnt- Maximun entropy. • SVM- Support Vector Machines. • Logistic Regression. • Kernel regression. • Multilayer Perceptrons
  4. 4. ¿QUÉ ES DEEP LEARNING? • DeepLearning= NN+IA+GM+Optimización+PR+SP. Neuronal Inteligencia Graph Procesamiento Procesamiento Network Artificial Modeling Patrones Señales.
  5. 5. ¿QUÉ ES DEEP LEARNING? Vamos a analizar el camino seguido a partir de varias definiciones. Definición: Clase de técnicas de Machine Learning buscando la extracción y transformación de features referentes al procesamiento de la información. Ya sea de forma supervisada o no. Definición: Un campo dentro de Machine Learning basados en algoritmos para aprender varios niveles de representación buscando relaciones complejas. Tenemos por tanto features de alto y bajo nivel, jerarquizandolas, Deep arquitectura. Generalmente no supervisado. Definición: CONTINUACION. Las de bajo nivel pueden ayudar a definir las de alto nivel. Es a tener también en cuenta que algunas representaciones son mejores que otras para depende de que tareas. Definición: Deep Learning, nueva área creada para devolver a Machine Learning a uno de sus objetivos: Inteligencia Artificial. Buscar niveles de abstracción que nos permitan dar sentido a imagenes, sonidos y texto.
  6. 6. ¿QUÉ MÁS APORTA? JERARQUÍA. Son técnicas que reciben mayor cantidad de datos. Más capas que desarrollan estas jerarquías entre la información. - Nos permite obtener features de forma no supervisada. - Realizar clasificaciones.
  7. 7. PROBLEMAS • Muchos de los modelos -> REDES NEURONALES. DNN por ejemplo. • Los algoritmos de optimización usados hasta ahora fallan. Back Propagation. • Funciones no convexas. No funciona bien gradiente descendente. • Muchas capas y muchas neuronas-> Muchos recursos. • SOLUCIONES: • Gradiente Descendente Estocastico. • Hessian Free. • Kyrlov Suspace Methods. • SVM,CRF,MAXENT, funciones convexas.
  8. 8. SOLUCIONES ENTRENAMIENTO Si los modelos se preentrenan con anterioridad los pesos se acercan a los valores óptimos y hay menos posibilidades de mínimo local. • Considerar cada capa como un denoising autoencoders que se entrena a si mismo. • Usar autoencoders contractivos que son más robustos ante variaciones. • SESM Sparse Autoencoders Symmetric Machine (Ranzano) • Preentrenamientos no supervisado y supervisado. • MLP entrenada con un BP.
  9. 9. CLASIFICACIÓN No supervisadas: Captura patrones. Aprendizaje representativo. Generativos, buscan clases asociadas a distribuciones de probabilidad estimadas a partir de los datos observados. Para discriminar usando reglas de bayes. Generatición de features. Supervisadas: Buscan dicriminar patrones con objeto de clasificar. Conocerter las targets. Clasificar en importancia la información que discrimina nuestros objetivos. Llamado redes profundas discriminitivas. Hibrido: Los modelos no supervisados son utilizados como procesos de entrenamientos de los que si lo son. Pretraining con autoencoders sobre DNN.1 O el análisis discriminativo se utiliza para mejorar los no supervisados.
  10. 10. • Los primeros son mejores para entrenar y probar, con una construcción flexible, para aprendizaje de sistemas complejos. • Los segundos, más facilidad de interpretación, más fácil integrar conocimiento del dominio, mas sencillo componer, mas fácil manejar la incertidumbre, peor para inferencia y aprendizaje de sistemas complejos.
  11. 11. EJEMPLOS Deep Belief Network (DBN): modelos probabilísticos generativos compuestos por muchas capas, y variables ocultas. Boltzmann machine(BM): una red conectada de forma simétrica, con neuronas como unidades que toman la decision de estar conectadas o no. Restricted Boltzmann machine (RBM): tipo especial de BM donde no se permiten interrelación entre neuronas del mismo tipo. Deep Neural Network (DNN): perceptron multicapa con varias capas ocultas, cuyos pesos estan conectados y suelen ser iniciados usando por otro modelo supervisado o no de técnica de entrenamiento. Deep autoencoders: modelo discriminativo DNN que toma como salida los propios valores de entrada, se trata por tanto de un modelo no supervisado. Cuando el objetivo es eliminar ruido se comporta como un modelo generativo.
  12. 12. NO SUPERVISADOS: AUTOENCODERS. No tienen clases con los que comparar los indicadores. Funcionan como filtros. Creadores de features representativas. Muestreo de los datos. • Los conjuntos más comunes son los Energy-based. Siendo Deep autoencoders el más representativo. También tenemos otros con otras propiedades: • Transforming Autoencoders. Estos autoencoders lo que hacen es transformar nuestros input en output cuya destransformación nos devuelve verdaderos valores. • Predictive Sparse Coders- Los propuestos por Ranzano. • De-noising autoencoders- Estos autoencoders se encargan de limpiar de ruido los datos de entrada para que puedan ser evaluados por otros modelos de una forma más sencilla.
  13. 13. NO SUPERVISADOS: AUTOENCODERS. • Consideramos un conjunto de valores de entrada (input,target), • 𝐷 𝑛 = (𝑥(1), 𝑡(1)). . . , (𝑥(𝑛), 𝑡(𝑛)) i.i.d. Ejemplos de una distribución desconocida 𝑞 𝑋, 𝑇 𝑐𝑜𝑛 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙𝑒𝑠 𝑞(𝑥), 𝑞(𝑡). • Denotamos 𝑞⁰(𝑋, 𝑇)y q⁰(X) a las empíricas iniciales.
  14. 14. NO SUPERVISADOS: AUTOENCODERS. • 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 ∨ 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑡𝑖𝑎𝑙𝑒𝑛𝑡𝑟𝑜𝑝𝑦: 𝐼𝐻(𝑋) = 𝐼𝐻(𝑝) = 𝐸𝑝(𝑋)[−log𝑝(𝑋)]. • 𝐶𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛𝑎𝑙𝑒𝑛𝑡𝑟𝑜𝑝𝑦: 𝐼𝐻(𝑋 ∣ 𝑌) = 𝐸𝑝(𝑋, 𝑌)[−log𝑝(𝑋 ∣ 𝑌)] • 𝐾𝑢𝑙𝑙𝑏𝑎𝑐𝑘 − 𝐿𝑒𝑖𝑏𝑙𝑒𝑟𝑑𝑖𝑣𝑒𝑟𝑔𝑒𝑛𝑐𝑒: 𝐼𝐷 𝐾𝐿(𝑝 ∣ 𝑞) = 𝐸 𝑝(𝑥)[log𝑝 (𝑋) 𝑞 (𝑋)]. • 𝐶𝑟𝑜𝑠𝑠 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑦: 𝐼𝐻(𝑝 ∣ 𝑞) = 𝐸𝑝(𝑋)[−log𝑞(𝑋)] = 𝐼𝐻(𝑝) + 𝐼𝐷 𝑘𝑙(𝑝 ∣ 𝑞). • 𝑀𝑢𝑡𝑢𝑎𝑙𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛: 𝐼(𝑋; 𝑌) = 𝐼𝐻(𝑋) − 𝐼𝐻(𝑋 ∣ 𝑌)
  15. 15. NO SUPERVISADOS: AUTOENCODERS.
  16. 16. NO SUPERVISADOS: STACKING AUTOENCODERS.
  17. 17. APLICACIÓN. RESULTADOS.
  18. 18. APLICACIÓN. RESULTADOS.
  19. 19. BIBLIOGRAFIA deepLearning.net https://www.youtube.com/watch?v=n6hpQwq7Inw https://www.youtube.com/watch?v=dMVLd5URpvs#t=602 http://www.cs.ubc.ca/~nando/540-2013/lectures/l13.pdf http://www.cs.ubc.ca/~nando/540-2013/lectures.html http://es.wikipedia.org/wiki/Redes_neuronales_convolucionales#Neuronas_Convolucionales http://digital.csic.es/bitstream/10261/84753/1/RED%20NEURONAL.pdf http://books.google.es/books?id=4OgOJLGGrzcC&pg=PA145&lpg=PA145&dq=gato+barra+horizontal&source=bl&ots= Z4tEuFrkYF&sig=bWjETKt_2RPxLL8O3-B9DIORXYs&hl=es&sa=X&ei=uXTRU- SWLeOc0QXWzYCYDw&ved=0CFwQ6AEwCw#v=onepage&q&f=false http://vimeo.com/101582001 http://nbviewer.ipython.org/github/BVLC/caffe/blob/master/examples/filter_visualization.ipynb
  20. 20. GRACIAS

×