SlideShare a Scribd company logo
1 of 54
Deep reinforcement
learning
Oswaldo Andrés Ordóñez Bolaños
Tabla de contenido
▣ Contexto
▣ ¿ Qué es aprendizaje reforzado?
▣ Marco de trabajo
▣ Enfoques principales
▣ Q learning*
▣ Deep Q networks
▣ Bibliografia
“
“La búsqueda de la inteligencia artificial siempre
se ha entremezclado con otra lucha, más
filosófica, más romántica, menos tangible.
La comprensión de la inteligencia humana”
3
Y como aprendemos.
Aprendizaje automático
Aprendizaje supervisado: El maestro son los ejemplos.
▣ Hay algunos ejemplos etiquetados, se aprende patrones
basados en esos ejemplos.
Aprendizaje no supervisado: No hay maestro.
▣ Aprender desde ejemplos sin etiqueta.
Aprendizaje reforzado: El maestro es la experiencia.
“Aprendiendo con un critico”
▣ Hay un mundo, se aprende patrones explorándolo.
4
Turing
sistema de placer-dolor.
5
Intelligent Machinery,
1948
6
Thorndike realizo el experimento del gato en la jaula y
propuso la ley del efecto que establece que es probable que
se repita cualquier comportamiento seguido de
consecuencias agradables.
Mundo de prueba y error,
1989
7
¿ Cuál es la naturaleza del hombre ?
El hombre es Hedonista
8
Harry Klopf suponer que los humanos, después de
haber asegurado la homeostasis (la búsqueda de un
bien), buscan maximizar el placer, no estabilizarlo.
The Hedonistic Neuron — A Theory of
Memory, Learning, and Intelligence, 1982.
Se estaban perdiendo aspectos esenciales de la conducta
adaptativa a medida que los investigadores del aprendizaje
se centraron en el aprendizaje supervisado, ignorando
aspectos hedónicos del comportamiento,
controlar el entorno hacia fines deseados y lejos de fines no
deseados.
El modelo es una red neuronal convolucional,
entrenada con una variante de Q-learning, cuya
entrada son píxeles sin procesar y cuya salida es
una función de valor que estima recompensas
futuras.
9
Playing Atari 2600 with deep
reinforcement learning
Deep mind, 2013
Mano robótica parecida a un humano para
manipular objetos físicos con una destreza
sin precedentes (24 grados de libertad)
entrenada con Deep reinforcement learning.
10
Learning Dexterity
Open AI, 2018
OpenAI Five aprovecha las técnicas de
aprendizaje por refuerzo existentes, para
aprender de lotes de aproximadamente 2
millones de fotogramas cada 2 segundos.
11
Dota 2 with Large Scale Deep
Reinforcement Learning
Open AI, 2019
Herramientas
Librerias: TF-Agents, Stable-Baseline 2.0, TensorFlow
MineRL, Unity Ml.agents, OpenAI retro, GYM
12
🔨
13
La gran pintura
El hermano pequeño y un videojuego
El aprendizaje por refuerzo es un marco de trabajo
para resolver tareas de control (también
llamadas problemas de decisión) mediante la
construcción de agentes que aprenden del
entorno al interactuar con él a través de prueba y
error y recibir recompensas (positivas o
negativas) como retroalimentación única.
14
Aprendizaje reforzado
𝑆0 A0
R0
S1
Markov Decision Processes (MDPs)
Nuestro agente solo necesita el
estado actual para tomar una
decisión sobre qué acción tomar y
no la historia de todos los estados y
acciones que tomó antes.
Marco de trabajo
algunos conceptos
Estado (s)
Descripción completa del estado
del mundo (no hay información
oculta). Entorno completamente
observado.
Observación (O)
Descripción parcial del estado.
Entorno parcialmente
observado.
Espacio discreto
El número de acciones posibles
son finitas.
Action Space
El espacio Acción es el conjunto
de todas las acciones posibles en
un entorno.
Espacio Continuo
el número de acciones posibles
son infinitas.
16
Recompensas y descuentos
La recompensa es fundamental para el RL porque es la
única información para el agente. Gracias a ella,
nuestro agente sabe si la acción realizada fue buena o
no.
17
𝐺𝑇 = 𝑅 𝜏 = 𝑟𝑡+1 + 𝑟𝑡+2+ 𝑟𝑡+3 + 𝑟𝑡+4 + ⋯
Trayectoria: Secuencia de estados y
acciones.
Return: Recompensas acumuladas.
Rendimiento esperado
El objetivo del agente es
maximizar las recompensas
acumuladas
No solo las recompensas inmediatas
Recompensas y descuentos
19
Las recompensas que llegan antes son más probables ( Mayor
gamma, menor descuento) porque que son más predecibles que
la recompensa futura a largo plazo.
𝐺𝑇 = 𝑅 𝜏 = 𝑟𝑡+1 + 𝛾𝑟𝑡+2+ 𝛾2
𝑟𝑡+3 + 𝛾3
𝑟𝑡+4 + ⋯
Recompensas acumuladas esperadas con descuento
Expected discounted return of rewards.
Gamma: taza de descuento.
El objetivo del agente es maximizar
las recompensas esperadas
acumuladas con descuento
Tipos de tareas
▣ Tareas episódicas
En la tarea hay un punto de
inicio y un punto final (un
estado terminal). Esto crea un
episodio: una lista de estados,
acciones, recompensas y
nuevos estados.
▣ Tareas continuas
Tareas que continúan para
siempre (sin estado terminal).
El agente tiene que aprender a
elegir las mejores acciones y
simultáneamente interactuar
con el entorno.
21
Compensación de exploración y explotación
▣ Exploración
La exploración consiste en
explorar el medio ambiente
probando acciones aleatorias
para encontrar más
información sobre el medio
ambiente.
▣ Explotación
Exploitation is exploiting
known information to
maximize the reward.
22
¿Qué tan bueno es
un estado o una
acción?
23
La política (policy) π: el
cerebro del agente
Función que nos dice qué acción tomar dado el estado en el
que nos encontramos. Entonces define el
comportamiento del agente en un momento dado.
24
𝜋(a|s)
25
¿Qué tan probable es que un
agente seleccione una acción
desde un estado dado?
¿Qué tan buena es una acción
determinada o un estado
determinado para un agente?
Métodos basados en políticas
Se aprende directamente una función de política entrenada
26
Determinista
Una política en un estado dado
siempre devolverá la misma
acción.
Estocástico
Generar una distribución de
probabilidad sobre las acciones.
a = 𝜋(s)
Métodos basados en valores
En los métodos basados en valor, en lugar de entrenar una función de
política, entrenamos una función de valor (en términos de el
rendimiento esperado) que tan bueno es para el agente estar en el
estado dado, y dependiendo de ello, la política actúa.
27
Función de valor de estado
Qué tan bueno es un estado dado para
un agente que sigue la política π .
Función de valor de acción
Qué tan bueno es para el agente tomar una
acción determinada desde un estado dado
mientras sigue la política π.
𝑉
𝜋 𝑠 = 𝐸𝜋 𝐺𝑡|𝑆𝑡 = 𝑠 𝑄𝜋 𝑠, 𝑎 = 𝐸𝜋 𝐺𝑡|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎
Rendimiento esperado
Agente inicia en el
estado s
Rendimiento esperado
Agente inicia en el estado
s y elige acción a
Optimalidad
En términos de rendimiento, se considera que una política es mejor o
igual que otra política si el rendimiento esperado de la primera es
mayor o igual al rendimiento esperado de la otra.
Maximizar la recompensa que el agente espera acumular en su
recorrido.
28
Función de valor de estado
óptimo
Función de valor de acción
óptima
𝑉
∗ 𝑠 = 𝑚𝑎𝑥𝑉
𝜋 𝑠 𝑄∗ 𝑠, 𝑎 = 𝑚𝑎𝑥𝑄𝜋 𝑠, 𝑎
𝜋 𝜋
Ecuación de Bellman
Bellman en 1959 demostró que la manera de maximizar
la recompensa acumulada que el agente espera recibir al
escoger un determinado par estado-acción en un
instante t, es decir la política óptima, viene dada por la
elección del mayor valor 𝑄𝜋 𝑠, 𝑎 de entre todas las
acciones del siguiente estado en t+1, multiplicado por el
factor de descuento 𝛾, más su recompensa asociada.
29
𝑄∗ 𝑠, 𝑎 = 𝐸𝜋 𝑟𝑡+1+𝛾𝑚𝑎𝑥𝑄∗ 𝑠, 𝑎
Recompensa asociada al
siguiente estado
Recompensa máxima
acumulada
En resumen, la idea de la ecuación de Bellman es que en
lugar de calcular cada valor como la suma del
rendimiento esperado, se realiza su equivalente que es la
suma de la recompensa inmediata + el valor descontado
del estado que sigue.
¿ Como entrenar nuestra función de valor o nuestra función de política ?
Monte Carlo
Se actualiza la función de valor
de un episodio completo y
por lo tanto, se usa la
devolución con descuento
exacta real de este episodio.
Temporal Difference Learning
Se actualiza la función de valor
de un solo paso, por lo que
reemplaza 𝑮𝑻 con un retorno
estimado llamado TD target.
𝑉 𝑆𝑡 ← 𝑉 𝑆𝑡 + 𝛼 𝑮𝑻 − 𝑉 𝑆𝑡
𝑉 𝑆𝑡 ← 𝑉 𝑆𝑡 + 𝛼 𝑟𝑡+1+𝛾𝑉 𝑆𝑡+1 − 𝑉 𝑆𝑡
Anterior estimación del valor
de estado t
𝛼 = learning rate
TD target TD error
¿ Como entrenar nuestra función de valor o nuestra función de política ?
MC usa el retorno exacto 𝑮𝑻 para actualizar
el valor, mientras que TD usa la Ecuación
de Bellman para estimar el valor y luego
actualiza el valor estimado con el valor
objetivo.
Q - learning
Método basado en valores fuera de la política que
utiliza un enfoque TD para entrenar su función de valor
de acción
Dado un estado y una acción, nuestra Q-function genera un
valor de acción de estado (también llamado Q-value)
Q - table
Tabla donde cada celda corresponde a un valor de
acción-estado. La Q-table es la memoria o la hoja de
trucos de nuestra Q-function.
Q - learning
▣ Entrena la función Q, una función de valor de acción que contiene como
memoria interna una tabla Q que contiene todos los valores del par estado-
acción.
▣ Dado un estado y una acción, nuestra función Q buscará en su tabla Q el valor
correspondiente.
▣ Cuando se realiza el entrenamiento, tenemos una función Q óptima, por lo
que una tabla Q óptima.
▣ Y si tenemos una función Q óptima, tenemos una política óptima, ya que
sabemos para cada estado, cuál es la mejor acción a tomar.
𝜋∗ 𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑄∗ 𝑠, 𝑎
Q – learning
Ratón y el queso
Se inicializa la Q-table
Q – learning
Ratón y el queso
Se elije una acción usando la estrategia
de Epsilon Greedy
𝜖 − 𝑔𝑟𝑒𝑒𝑑𝑦
𝑝𝑜𝑙𝑖𝑡𝑖𝑐𝑎
𝑬𝒙𝒑𝒍𝒐𝒓𝒂𝒄𝒊ó𝒏 𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎 𝑙𝑎 𝑎𝑐𝑐𝑖ó𝑛 𝑔𝑟𝑒𝑒𝑑𝑦
𝑬𝒙𝒑𝒍𝒐𝒕𝒂𝒄𝒊ó𝒏 𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎 𝑢𝑛𝑎 𝑎𝑐𝑐𝑖ó𝑛 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜
1-𝜖
𝜖
Esta tasa de exploración es la probabilidad de que
nuestro agente explore el medio ambiente en lugar de
explotarlo
if random_num > epsilon:
# Elegir acción via explotación
else:
# Elegir acción via exploración
Q – learning
Ratón y el queso
𝐷𝑎𝑑𝑎 𝑙𝑎 𝑎𝑐𝑐𝑖ó𝑛 𝑨𝒕 𝑒𝑗𝑒𝑐𝑢𝑡𝑎𝑑𝑎 𝑝𝑜𝑟 𝑙𝑎 𝑝𝑜𝑙𝑖𝑡𝑖𝑐𝑎,
𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑚𝑜𝑠 𝑹𝒕+𝟏, 𝑺𝒕+𝟏
𝐴𝑐𝑡𝑢𝑎𝑙𝑖𝑧𝑎𝑚𝑜𝑠 𝑸 = 𝑺𝒕 , 𝑨𝒕 𝒄𝒐𝒏 𝑻𝑫
Q 𝑆𝑡, 𝐴𝑡 ← Q 𝑆𝑡, 𝐴𝑡 + 𝛼 𝑟𝑡+1+𝜸𝑚𝑎𝑥𝑄 𝑆𝑡+1, 𝑎 − Q 𝑆𝑡, 𝐴𝑡
Tasa de aprendizaje
TD target
Actualizar política
Actuación y actualización
▣ Fuera de política (Off-policy):
Utiliza una política diferente de
actuación y actualización.
▣ En política (On-policy):
Utiliza la misma política de
actuación y actualización
Q-Learning con Taxi-v3
El objetivo es capacitar a un agente de taxi
para que navegue en esta ciudad para
transportar a sus pasajeros desde el punto A al
punto B.
• Ambiente 5x5
• El taxi aparecerá de manera aleatoria
• El pasajero aparecerá de manera aleatoria
en (R, B, G, Y) y desea ir a algunos de los
lugares.
• 6 acciones (N,S,W,E,Recoger, dejar)
Sistema de recompensas:
• -1 por cada tiempo de paso
• +20 por entregar con éxito al pasajero
• -10 por acciones ilegales (recoger o dejar
al pasajero en el exterior del destino).
Q-Learning con Taxi-v3
Crear la Q-table e inicializarla
Q-Learning con Taxi-v3
Se define parámetros
Q-Learning con Taxi-v3
Se define la estrategia de Epsilon Greedy
Q-Learning con Taxi-v3
Se implementa el algoritmo de Q-learning y entrenamos el agente
Q-Learning con Taxi-v3
Taxi autónomo
Deep Q - learning
En el caso de que nuestro ambiente sea mucho más complejo
(millones de estados), la mejor idea es crear una red neuronal que
aproxime, dando un estado, los diferentes Q-values para cada
acción.
45
¿ Como funciona DQL ?
Pasos principales
46
La red neuronal toma una pila de fotogramas como entrada. Estos pasan a través
de su red y generan un vector de Q-values para cada acción posible en el estado
dado. Se toma el mejor valor de Q para encontrar nuestra acción más optima.
Pre-procesamiento
¿ Que variables aportan información al problema ?
*Blanco y negro
47
El problema de la limitación
temporal
• Redes neuronales recurrentes (Redes con bucles que permiten que la
información persista) El problema de las dependencias a largo plazo
• Redes de memoria a corto plazo (“LSTMs Networks”)
• Marcos apilados
48
Uso de redes de convolución
Se usa una capa completamente conectada con la función de
activación ELU y una capa de salida (una capa completamente
conectada con una función de activación lineal) que produce la
estimación del Q-value para cada acción.
Mosaicos de imágenes
superpuestas
Reducción con
el mejor valor de
cada cuadrícula
de nuestra matriz
▣ Evitar olvidar experiencias
anteriores
Para evitar olvidar experiencias
anteriores significativas, se debe crear
un "búfer de reproducción". Este es
como una carpeta donde cada hoja es
una tupla de experiencia que se
alimenta interactuando con el
ambiente. Para luego tomar una hoja al
azar para alimentar la red neuronal.
▣ Reducir las correlaciones
entre experiencias.
Tomando muestras del búfer de
reproducción al azar se puede romper
la correlación. Esto evita que los valores
de acción oscilen o diverjan
catastróficamente.
Una clase de aprendizaje
supervisado.
49
Experiencia de repetición
Hacer un uso más eficiente de la experiencia observada
Algoritmo Deep Q- learning
En los métodos basados en valor, en lugar de entrenar una función de
política, entrenamos una función de valor (en términos de el
rendimiento esperado) que tan bueno es para el agente estar en el
estado dado, y dependiendo de ello, la política actúa.
50
∆𝑤 = 𝛼 𝑟𝑡+1+𝛾𝑚𝑎𝑥Q 𝑠, 𝑎, 𝑤 − Q 𝑠, 𝑎, 𝑤 ∆𝑤Q 𝑠, 𝑎, 𝑤
Máximo Q-value para el
siguiente estado
Actual predicho
Q-value
Gradiente de
nuestro actual
Q-value predicho
Queremos actualizar los pesos de nuestras redes neuronales
para reducir el error.
51
Aprendizaje
reforzado
Model-Free Model-base RL
Aprender el
modelo
Dado el modelo
Q-learning
Policy
optimization
DQN
C51
HER
QR-DQN
Policy
gradient
A2C /A3C
PPO
TRPO
WM
I2A
MBMF
MBVE
Alpha zero
¡Mucho por
trabajar!
Bibliografia
▣ https://towardsdatascience.com/reinforcement-learning-the-naturalist-the-
hedonist-and-the-disciplined-fc335ac9289c
▣ https://www.freecodecamp.org/news/an-introduction-to-deep-q-learning-
lets-play-doom-54d02d8017d8/
▣ http://colah.github.io/posts/2015-08-Understanding-LSTMs/
▣ https://medium.com/@ageitgey/machine-learning-is-fun-part-3-deep-
learning-and-convolutional-neural-networks-f40359318721
52
Cursos
▣ Deep Reinforcement Learning Course – Thomas simonini
▣ Reinforcement Learning - Goal Oriented Intelligence – deeplizard
53
¡Gracias!
¿ Preguntas ?
Oswaldo Andrés Ordóñez Bolaños
Noviembre, 13
Oswaldordonez@unicauca.edu.co
54

More Related Content

Similar to Deep einforcement learning

Multi armed bandit
Multi armed banditMulti armed bandit
Multi armed banditJie-Han Chen
 
24.09.2021 Reinforcement Learning Algorithms.pptx
24.09.2021 Reinforcement Learning Algorithms.pptx24.09.2021 Reinforcement Learning Algorithms.pptx
24.09.2021 Reinforcement Learning Algorithms.pptxManiMaran230751
 
An efficient use of temporal difference technique in Computer Game Learning
An efficient use of temporal difference technique in Computer Game LearningAn efficient use of temporal difference technique in Computer Game Learning
An efficient use of temporal difference technique in Computer Game LearningPrabhu Kumar
 
Reinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine SweeperReinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine SweeperDataScienceLab
 
Lecture notes
Lecture notesLecture notes
Lecture notesbutest
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement LearningSalem-Kabbani
 
Demystifying deep reinforement learning
Demystifying deep reinforement learningDemystifying deep reinforement learning
Demystifying deep reinforement learning재연 윤
 
reinforcement-learning-141009013546-conversion-gate02.pptx
reinforcement-learning-141009013546-conversion-gate02.pptxreinforcement-learning-141009013546-conversion-gate02.pptx
reinforcement-learning-141009013546-conversion-gate02.pptxMohibKhan79
 
Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017
Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017
Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017MLconf
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning艾鍗科技
 
Reinfrocement Learning
Reinfrocement LearningReinfrocement Learning
Reinfrocement LearningNatan Katz
 
Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017
Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017
Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017MLconf
 
Intro to Reinforcement Learning
Intro to Reinforcement LearningIntro to Reinforcement Learning
Intro to Reinforcement LearningUtkarsh Garg
 
14_ReinforcementLearning.pptx
14_ReinforcementLearning.pptx14_ReinforcementLearning.pptx
14_ReinforcementLearning.pptxRithikRaj25
 
semi supervised Learning and Reinforcement learning (1).pptx
 semi supervised Learning and Reinforcement learning (1).pptx semi supervised Learning and Reinforcement learning (1).pptx
semi supervised Learning and Reinforcement learning (1).pptxDr.Shweta
 

Similar to Deep einforcement learning (20)

Finalver
FinalverFinalver
Finalver
 
Multi armed bandit
Multi armed banditMulti armed bandit
Multi armed bandit
 
24.09.2021 Reinforcement Learning Algorithms.pptx
24.09.2021 Reinforcement Learning Algorithms.pptx24.09.2021 Reinforcement Learning Algorithms.pptx
24.09.2021 Reinforcement Learning Algorithms.pptx
 
Introduction to Deep Reinforcement Learning
Introduction to Deep Reinforcement LearningIntroduction to Deep Reinforcement Learning
Introduction to Deep Reinforcement Learning
 
An efficient use of temporal difference technique in Computer Game Learning
An efficient use of temporal difference technique in Computer Game LearningAn efficient use of temporal difference technique in Computer Game Learning
An efficient use of temporal difference technique in Computer Game Learning
 
Reinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine SweeperReinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine Sweeper
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learning
 
Lecture notes
Lecture notesLecture notes
Lecture notes
 
Deep RL.pdf
Deep RL.pdfDeep RL.pdf
Deep RL.pdf
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
Demystifying deep reinforement learning
Demystifying deep reinforement learningDemystifying deep reinforement learning
Demystifying deep reinforement learning
 
reinforcement-learning-141009013546-conversion-gate02.pptx
reinforcement-learning-141009013546-conversion-gate02.pptxreinforcement-learning-141009013546-conversion-gate02.pptx
reinforcement-learning-141009013546-conversion-gate02.pptx
 
Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017
Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017
Ben Lau, Quantitative Researcher, Hobbyist, at MLconf NYC 2017
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
Reinfrocement Learning
Reinfrocement LearningReinfrocement Learning
Reinfrocement Learning
 
Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017
Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017
Matineh Shaker, Artificial Intelligence Scientist, Bonsai at MLconf SF 2017
 
Intro to Reinforcement Learning
Intro to Reinforcement LearningIntro to Reinforcement Learning
Intro to Reinforcement Learning
 
14_ReinforcementLearning.pptx
14_ReinforcementLearning.pptx14_ReinforcementLearning.pptx
14_ReinforcementLearning.pptx
 
Reinforcement Learning using OpenAI Gym
Reinforcement Learning using OpenAI GymReinforcement Learning using OpenAI Gym
Reinforcement Learning using OpenAI Gym
 
semi supervised Learning and Reinforcement learning (1).pptx
 semi supervised Learning and Reinforcement learning (1).pptx semi supervised Learning and Reinforcement learning (1).pptx
semi supervised Learning and Reinforcement learning (1).pptx
 

Recently uploaded

Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024BookNet Canada
 
Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Scott Keck-Warren
 
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphSIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphNeo4j
 
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupStreamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupFlorian Wilhelm
 
Human Factors of XR: Using Human Factors to Design XR Systems
Human Factors of XR: Using Human Factors to Design XR SystemsHuman Factors of XR: Using Human Factors to Design XR Systems
Human Factors of XR: Using Human Factors to Design XR SystemsMark Billinghurst
 
Presentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreterPresentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreternaman860154
 
Pigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions
 
Enhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for PartnersEnhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for PartnersThousandEyes
 
Unleash Your Potential - Namagunga Girls Coding Club
Unleash Your Potential - Namagunga Girls Coding ClubUnleash Your Potential - Namagunga Girls Coding Club
Unleash Your Potential - Namagunga Girls Coding ClubKalema Edgar
 
Beyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry InnovationBeyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry InnovationSafe Software
 
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...shyamraj55
 
Benefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other FrameworksBenefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other FrameworksSoftradix Technologies
 
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024BookNet Canada
 
APIForce Zurich 5 April Automation LPDG
APIForce Zurich 5 April  Automation LPDGAPIForce Zurich 5 April  Automation LPDG
APIForce Zurich 5 April Automation LPDGMarianaLemus7
 
Pigging Solutions in Pet Food Manufacturing
Pigging Solutions in Pet Food ManufacturingPigging Solutions in Pet Food Manufacturing
Pigging Solutions in Pet Food ManufacturingPigging Solutions
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking MenDelhi Call girls
 
How to convert PDF to text with Nanonets
How to convert PDF to text with NanonetsHow to convert PDF to text with Nanonets
How to convert PDF to text with Nanonetsnaman860154
 

Recently uploaded (20)

Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
 
Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024
 
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphSIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
 
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupStreamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project Setup
 
The transition to renewables in India.pdf
The transition to renewables in India.pdfThe transition to renewables in India.pdf
The transition to renewables in India.pdf
 
Human Factors of XR: Using Human Factors to Design XR Systems
Human Factors of XR: Using Human Factors to Design XR SystemsHuman Factors of XR: Using Human Factors to Design XR Systems
Human Factors of XR: Using Human Factors to Design XR Systems
 
Presentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreterPresentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreter
 
Pigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping Elbows
 
E-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptx
E-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptxE-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptx
E-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptx
 
Enhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for PartnersEnhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for Partners
 
Unleash Your Potential - Namagunga Girls Coding Club
Unleash Your Potential - Namagunga Girls Coding ClubUnleash Your Potential - Namagunga Girls Coding Club
Unleash Your Potential - Namagunga Girls Coding Club
 
Beyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry InnovationBeyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
 
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
 
Benefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other FrameworksBenefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other Frameworks
 
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
 
APIForce Zurich 5 April Automation LPDG
APIForce Zurich 5 April  Automation LPDGAPIForce Zurich 5 April  Automation LPDG
APIForce Zurich 5 April Automation LPDG
 
Pigging Solutions in Pet Food Manufacturing
Pigging Solutions in Pet Food ManufacturingPigging Solutions in Pet Food Manufacturing
Pigging Solutions in Pet Food Manufacturing
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
 
DMCC Future of Trade Web3 - Special Edition
DMCC Future of Trade Web3 - Special EditionDMCC Future of Trade Web3 - Special Edition
DMCC Future of Trade Web3 - Special Edition
 
How to convert PDF to text with Nanonets
How to convert PDF to text with NanonetsHow to convert PDF to text with Nanonets
How to convert PDF to text with Nanonets
 

Deep einforcement learning

  • 2. Tabla de contenido ▣ Contexto ▣ ¿ Qué es aprendizaje reforzado? ▣ Marco de trabajo ▣ Enfoques principales ▣ Q learning* ▣ Deep Q networks ▣ Bibliografia
  • 3. “ “La búsqueda de la inteligencia artificial siempre se ha entremezclado con otra lucha, más filosófica, más romántica, menos tangible. La comprensión de la inteligencia humana” 3 Y como aprendemos.
  • 4. Aprendizaje automático Aprendizaje supervisado: El maestro son los ejemplos. ▣ Hay algunos ejemplos etiquetados, se aprende patrones basados en esos ejemplos. Aprendizaje no supervisado: No hay maestro. ▣ Aprender desde ejemplos sin etiqueta. Aprendizaje reforzado: El maestro es la experiencia. “Aprendiendo con un critico” ▣ Hay un mundo, se aprende patrones explorándolo. 4
  • 6. 6 Thorndike realizo el experimento del gato en la jaula y propuso la ley del efecto que establece que es probable que se repita cualquier comportamiento seguido de consecuencias agradables. Mundo de prueba y error, 1989
  • 7. 7 ¿ Cuál es la naturaleza del hombre ? El hombre es Hedonista
  • 8. 8 Harry Klopf suponer que los humanos, después de haber asegurado la homeostasis (la búsqueda de un bien), buscan maximizar el placer, no estabilizarlo. The Hedonistic Neuron — A Theory of Memory, Learning, and Intelligence, 1982. Se estaban perdiendo aspectos esenciales de la conducta adaptativa a medida que los investigadores del aprendizaje se centraron en el aprendizaje supervisado, ignorando aspectos hedónicos del comportamiento, controlar el entorno hacia fines deseados y lejos de fines no deseados.
  • 9. El modelo es una red neuronal convolucional, entrenada con una variante de Q-learning, cuya entrada son píxeles sin procesar y cuya salida es una función de valor que estima recompensas futuras. 9 Playing Atari 2600 with deep reinforcement learning Deep mind, 2013
  • 10. Mano robótica parecida a un humano para manipular objetos físicos con una destreza sin precedentes (24 grados de libertad) entrenada con Deep reinforcement learning. 10 Learning Dexterity Open AI, 2018
  • 11. OpenAI Five aprovecha las técnicas de aprendizaje por refuerzo existentes, para aprender de lotes de aproximadamente 2 millones de fotogramas cada 2 segundos. 11 Dota 2 with Large Scale Deep Reinforcement Learning Open AI, 2019
  • 12. Herramientas Librerias: TF-Agents, Stable-Baseline 2.0, TensorFlow MineRL, Unity Ml.agents, OpenAI retro, GYM 12 🔨
  • 13. 13 La gran pintura El hermano pequeño y un videojuego El aprendizaje por refuerzo es un marco de trabajo para resolver tareas de control (también llamadas problemas de decisión) mediante la construcción de agentes que aprenden del entorno al interactuar con él a través de prueba y error y recibir recompensas (positivas o negativas) como retroalimentación única.
  • 15. Nuestro agente solo necesita el estado actual para tomar una decisión sobre qué acción tomar y no la historia de todos los estados y acciones que tomó antes.
  • 16. Marco de trabajo algunos conceptos Estado (s) Descripción completa del estado del mundo (no hay información oculta). Entorno completamente observado. Observación (O) Descripción parcial del estado. Entorno parcialmente observado. Espacio discreto El número de acciones posibles son finitas. Action Space El espacio Acción es el conjunto de todas las acciones posibles en un entorno. Espacio Continuo el número de acciones posibles son infinitas. 16
  • 17. Recompensas y descuentos La recompensa es fundamental para el RL porque es la única información para el agente. Gracias a ella, nuestro agente sabe si la acción realizada fue buena o no. 17 𝐺𝑇 = 𝑅 𝜏 = 𝑟𝑡+1 + 𝑟𝑡+2+ 𝑟𝑡+3 + 𝑟𝑡+4 + ⋯ Trayectoria: Secuencia de estados y acciones. Return: Recompensas acumuladas. Rendimiento esperado
  • 18. El objetivo del agente es maximizar las recompensas acumuladas No solo las recompensas inmediatas
  • 19. Recompensas y descuentos 19 Las recompensas que llegan antes son más probables ( Mayor gamma, menor descuento) porque que son más predecibles que la recompensa futura a largo plazo. 𝐺𝑇 = 𝑅 𝜏 = 𝑟𝑡+1 + 𝛾𝑟𝑡+2+ 𝛾2 𝑟𝑡+3 + 𝛾3 𝑟𝑡+4 + ⋯ Recompensas acumuladas esperadas con descuento Expected discounted return of rewards. Gamma: taza de descuento.
  • 20. El objetivo del agente es maximizar las recompensas esperadas acumuladas con descuento
  • 21. Tipos de tareas ▣ Tareas episódicas En la tarea hay un punto de inicio y un punto final (un estado terminal). Esto crea un episodio: una lista de estados, acciones, recompensas y nuevos estados. ▣ Tareas continuas Tareas que continúan para siempre (sin estado terminal). El agente tiene que aprender a elegir las mejores acciones y simultáneamente interactuar con el entorno. 21
  • 22. Compensación de exploración y explotación ▣ Exploración La exploración consiste en explorar el medio ambiente probando acciones aleatorias para encontrar más información sobre el medio ambiente. ▣ Explotación Exploitation is exploiting known information to maximize the reward. 22
  • 23. ¿Qué tan bueno es un estado o una acción? 23
  • 24. La política (policy) π: el cerebro del agente Función que nos dice qué acción tomar dado el estado en el que nos encontramos. Entonces define el comportamiento del agente en un momento dado. 24 𝜋(a|s)
  • 25. 25 ¿Qué tan probable es que un agente seleccione una acción desde un estado dado? ¿Qué tan buena es una acción determinada o un estado determinado para un agente?
  • 26. Métodos basados en políticas Se aprende directamente una función de política entrenada 26 Determinista Una política en un estado dado siempre devolverá la misma acción. Estocástico Generar una distribución de probabilidad sobre las acciones. a = 𝜋(s)
  • 27. Métodos basados en valores En los métodos basados en valor, en lugar de entrenar una función de política, entrenamos una función de valor (en términos de el rendimiento esperado) que tan bueno es para el agente estar en el estado dado, y dependiendo de ello, la política actúa. 27 Función de valor de estado Qué tan bueno es un estado dado para un agente que sigue la política π . Función de valor de acción Qué tan bueno es para el agente tomar una acción determinada desde un estado dado mientras sigue la política π. 𝑉 𝜋 𝑠 = 𝐸𝜋 𝐺𝑡|𝑆𝑡 = 𝑠 𝑄𝜋 𝑠, 𝑎 = 𝐸𝜋 𝐺𝑡|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎 Rendimiento esperado Agente inicia en el estado s Rendimiento esperado Agente inicia en el estado s y elige acción a
  • 28. Optimalidad En términos de rendimiento, se considera que una política es mejor o igual que otra política si el rendimiento esperado de la primera es mayor o igual al rendimiento esperado de la otra. Maximizar la recompensa que el agente espera acumular en su recorrido. 28 Función de valor de estado óptimo Función de valor de acción óptima 𝑉 ∗ 𝑠 = 𝑚𝑎𝑥𝑉 𝜋 𝑠 𝑄∗ 𝑠, 𝑎 = 𝑚𝑎𝑥𝑄𝜋 𝑠, 𝑎 𝜋 𝜋
  • 29. Ecuación de Bellman Bellman en 1959 demostró que la manera de maximizar la recompensa acumulada que el agente espera recibir al escoger un determinado par estado-acción en un instante t, es decir la política óptima, viene dada por la elección del mayor valor 𝑄𝜋 𝑠, 𝑎 de entre todas las acciones del siguiente estado en t+1, multiplicado por el factor de descuento 𝛾, más su recompensa asociada. 29 𝑄∗ 𝑠, 𝑎 = 𝐸𝜋 𝑟𝑡+1+𝛾𝑚𝑎𝑥𝑄∗ 𝑠, 𝑎 Recompensa asociada al siguiente estado Recompensa máxima acumulada En resumen, la idea de la ecuación de Bellman es que en lugar de calcular cada valor como la suma del rendimiento esperado, se realiza su equivalente que es la suma de la recompensa inmediata + el valor descontado del estado que sigue.
  • 30. ¿ Como entrenar nuestra función de valor o nuestra función de política ? Monte Carlo Se actualiza la función de valor de un episodio completo y por lo tanto, se usa la devolución con descuento exacta real de este episodio. Temporal Difference Learning Se actualiza la función de valor de un solo paso, por lo que reemplaza 𝑮𝑻 con un retorno estimado llamado TD target. 𝑉 𝑆𝑡 ← 𝑉 𝑆𝑡 + 𝛼 𝑮𝑻 − 𝑉 𝑆𝑡 𝑉 𝑆𝑡 ← 𝑉 𝑆𝑡 + 𝛼 𝑟𝑡+1+𝛾𝑉 𝑆𝑡+1 − 𝑉 𝑆𝑡 Anterior estimación del valor de estado t 𝛼 = learning rate TD target TD error
  • 31. ¿ Como entrenar nuestra función de valor o nuestra función de política ? MC usa el retorno exacto 𝑮𝑻 para actualizar el valor, mientras que TD usa la Ecuación de Bellman para estimar el valor y luego actualiza el valor estimado con el valor objetivo.
  • 32. Q - learning Método basado en valores fuera de la política que utiliza un enfoque TD para entrenar su función de valor de acción Dado un estado y una acción, nuestra Q-function genera un valor de acción de estado (también llamado Q-value)
  • 33. Q - table Tabla donde cada celda corresponde a un valor de acción-estado. La Q-table es la memoria o la hoja de trucos de nuestra Q-function.
  • 34. Q - learning ▣ Entrena la función Q, una función de valor de acción que contiene como memoria interna una tabla Q que contiene todos los valores del par estado- acción. ▣ Dado un estado y una acción, nuestra función Q buscará en su tabla Q el valor correspondiente. ▣ Cuando se realiza el entrenamiento, tenemos una función Q óptima, por lo que una tabla Q óptima. ▣ Y si tenemos una función Q óptima, tenemos una política óptima, ya que sabemos para cada estado, cuál es la mejor acción a tomar. 𝜋∗ 𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑄∗ 𝑠, 𝑎
  • 35. Q – learning Ratón y el queso Se inicializa la Q-table
  • 36. Q – learning Ratón y el queso Se elije una acción usando la estrategia de Epsilon Greedy 𝜖 − 𝑔𝑟𝑒𝑒𝑑𝑦 𝑝𝑜𝑙𝑖𝑡𝑖𝑐𝑎 𝑬𝒙𝒑𝒍𝒐𝒓𝒂𝒄𝒊ó𝒏 𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎 𝑙𝑎 𝑎𝑐𝑐𝑖ó𝑛 𝑔𝑟𝑒𝑒𝑑𝑦 𝑬𝒙𝒑𝒍𝒐𝒕𝒂𝒄𝒊ó𝒏 𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎 𝑢𝑛𝑎 𝑎𝑐𝑐𝑖ó𝑛 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜 1-𝜖 𝜖 Esta tasa de exploración es la probabilidad de que nuestro agente explore el medio ambiente en lugar de explotarlo if random_num > epsilon: # Elegir acción via explotación else: # Elegir acción via exploración
  • 37. Q – learning Ratón y el queso 𝐷𝑎𝑑𝑎 𝑙𝑎 𝑎𝑐𝑐𝑖ó𝑛 𝑨𝒕 𝑒𝑗𝑒𝑐𝑢𝑡𝑎𝑑𝑎 𝑝𝑜𝑟 𝑙𝑎 𝑝𝑜𝑙𝑖𝑡𝑖𝑐𝑎, 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑚𝑜𝑠 𝑹𝒕+𝟏, 𝑺𝒕+𝟏 𝐴𝑐𝑡𝑢𝑎𝑙𝑖𝑧𝑎𝑚𝑜𝑠 𝑸 = 𝑺𝒕 , 𝑨𝒕 𝒄𝒐𝒏 𝑻𝑫 Q 𝑆𝑡, 𝐴𝑡 ← Q 𝑆𝑡, 𝐴𝑡 + 𝛼 𝑟𝑡+1+𝜸𝑚𝑎𝑥𝑄 𝑆𝑡+1, 𝑎 − Q 𝑆𝑡, 𝐴𝑡 Tasa de aprendizaje TD target Actualizar política
  • 38. Actuación y actualización ▣ Fuera de política (Off-policy): Utiliza una política diferente de actuación y actualización. ▣ En política (On-policy): Utiliza la misma política de actuación y actualización
  • 39. Q-Learning con Taxi-v3 El objetivo es capacitar a un agente de taxi para que navegue en esta ciudad para transportar a sus pasajeros desde el punto A al punto B. • Ambiente 5x5 • El taxi aparecerá de manera aleatoria • El pasajero aparecerá de manera aleatoria en (R, B, G, Y) y desea ir a algunos de los lugares. • 6 acciones (N,S,W,E,Recoger, dejar) Sistema de recompensas: • -1 por cada tiempo de paso • +20 por entregar con éxito al pasajero • -10 por acciones ilegales (recoger o dejar al pasajero en el exterior del destino).
  • 40. Q-Learning con Taxi-v3 Crear la Q-table e inicializarla
  • 41. Q-Learning con Taxi-v3 Se define parámetros
  • 42. Q-Learning con Taxi-v3 Se define la estrategia de Epsilon Greedy
  • 43. Q-Learning con Taxi-v3 Se implementa el algoritmo de Q-learning y entrenamos el agente
  • 45. Deep Q - learning En el caso de que nuestro ambiente sea mucho más complejo (millones de estados), la mejor idea es crear una red neuronal que aproxime, dando un estado, los diferentes Q-values para cada acción. 45
  • 46. ¿ Como funciona DQL ? Pasos principales 46 La red neuronal toma una pila de fotogramas como entrada. Estos pasan a través de su red y generan un vector de Q-values para cada acción posible en el estado dado. Se toma el mejor valor de Q para encontrar nuestra acción más optima. Pre-procesamiento ¿ Que variables aportan información al problema ? *Blanco y negro
  • 47. 47 El problema de la limitación temporal • Redes neuronales recurrentes (Redes con bucles que permiten que la información persista) El problema de las dependencias a largo plazo • Redes de memoria a corto plazo (“LSTMs Networks”) • Marcos apilados
  • 48. 48 Uso de redes de convolución Se usa una capa completamente conectada con la función de activación ELU y una capa de salida (una capa completamente conectada con una función de activación lineal) que produce la estimación del Q-value para cada acción. Mosaicos de imágenes superpuestas Reducción con el mejor valor de cada cuadrícula de nuestra matriz
  • 49. ▣ Evitar olvidar experiencias anteriores Para evitar olvidar experiencias anteriores significativas, se debe crear un "búfer de reproducción". Este es como una carpeta donde cada hoja es una tupla de experiencia que se alimenta interactuando con el ambiente. Para luego tomar una hoja al azar para alimentar la red neuronal. ▣ Reducir las correlaciones entre experiencias. Tomando muestras del búfer de reproducción al azar se puede romper la correlación. Esto evita que los valores de acción oscilen o diverjan catastróficamente. Una clase de aprendizaje supervisado. 49 Experiencia de repetición Hacer un uso más eficiente de la experiencia observada
  • 50. Algoritmo Deep Q- learning En los métodos basados en valor, en lugar de entrenar una función de política, entrenamos una función de valor (en términos de el rendimiento esperado) que tan bueno es para el agente estar en el estado dado, y dependiendo de ello, la política actúa. 50 ∆𝑤 = 𝛼 𝑟𝑡+1+𝛾𝑚𝑎𝑥Q 𝑠, 𝑎, 𝑤 − Q 𝑠, 𝑎, 𝑤 ∆𝑤Q 𝑠, 𝑎, 𝑤 Máximo Q-value para el siguiente estado Actual predicho Q-value Gradiente de nuestro actual Q-value predicho Queremos actualizar los pesos de nuestras redes neuronales para reducir el error.
  • 51. 51 Aprendizaje reforzado Model-Free Model-base RL Aprender el modelo Dado el modelo Q-learning Policy optimization DQN C51 HER QR-DQN Policy gradient A2C /A3C PPO TRPO WM I2A MBMF MBVE Alpha zero ¡Mucho por trabajar!
  • 52. Bibliografia ▣ https://towardsdatascience.com/reinforcement-learning-the-naturalist-the- hedonist-and-the-disciplined-fc335ac9289c ▣ https://www.freecodecamp.org/news/an-introduction-to-deep-q-learning- lets-play-doom-54d02d8017d8/ ▣ http://colah.github.io/posts/2015-08-Understanding-LSTMs/ ▣ https://medium.com/@ageitgey/machine-learning-is-fun-part-3-deep- learning-and-convolutional-neural-networks-f40359318721 52
  • 53. Cursos ▣ Deep Reinforcement Learning Course – Thomas simonini ▣ Reinforcement Learning - Goal Oriented Intelligence – deeplizard 53
  • 54. ¡Gracias! ¿ Preguntas ? Oswaldo Andrés Ordóñez Bolaños Noviembre, 13 Oswaldordonez@unicauca.edu.co 54