Your SlideShare is downloading. ×
0
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Aprendizaje Refuerzo
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Aprendizaje Refuerzo

1,175

Published on

Una pequeña descripción de lo ques Aprendizaje Refuerzo

Una pequeña descripción de lo ques Aprendizaje Refuerzo

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,175
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
19
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Universidad Técnica particular de Loja Aprendizaje por Refuerzo Por: Alexandra Cueva E.
  • 2. Introducción <ul><li>El aprendizaje por refuerzo consiste en aprender a decidir ante una situación predeterminada que acción es la más adecuada para lograr el objetivo. </li></ul><ul><li>Figura 1 </li></ul><ul><li>1 </li></ul>Oficina Camino Dañado Camino libre
  • 3. Introducción <ul><li>Se utiliza los procesos de decisión de Markov que establece un marco matemático en el que se basa el aprendizaje por refuerzo. </li></ul>
  • 4. Aprendizaje por Refuerzo <ul><li>Un agente H/S está conectado a su entorno vía percepción y acción. En donde el agente recibe a través de sensores el estado en que se encuentra s , y el agente decide ejecutar la acción a , que genera una salida que cambia el estado del entorno s’, transmitiendo una señal de refuerzo r . </li></ul><ul><li>Figura 2 </li></ul>Entorno T(s,a) R(s,a) Agente π (s) a r s’ r s
  • 5. Aprendizaje por Refuerzo <ul><li>Se tienen que: </li></ul><ul><li>Π = Elige la acción que incrementa la suma de todas las señales de aprendizaje recibidas. </li></ul><ul><li>S = Conjunto de estados. </li></ul><ul><li>A = Conjunto de acciones. </li></ul><ul><li>R = Calcula el esfuerzo que recibe el agente. </li></ul><ul><li>T= Transiciones de estado. </li></ul>
  • 6. Proceso de decisión de Markov <ul><li>Nos dice que no importa las acciones que se hayan llevado a cabo para alcanzar el estado actual, ya que el estado actual es suficiente para decidir cuales son las acciones futuras. </li></ul><ul><li>Ejemplo de proceso markoviano sería el juego del tres en raya en el que la decisión de mover una determinada ficha, sólo depende de la configuración actual del tablero (estado) y no del conjunto de movimientos anteriores que he realizado . </li></ul>
  • 7. Proceso de decisión de Markov <ul><li>La importancia de la propiedad de Markov para los problemas de aprendizaje por refuerzo, es que no importa el camino que se a tomado para llegar al estado actual, si no que solo se rige al estado en que se encuentra para tomar una decisión. </li></ul>
  • 8. Proceso de Decisión de Markov <ul><ul><li>Proceso de Markov finito .-Si el número de estados y acciones definidas en un modelo son finitos. </li></ul></ul><ul><ul><li>Figura 3 </li></ul></ul>a1=0,1 a2=1 a1=0,9 a1=0,9 a3=0,5 a2=1 a3=0,5 a1=0,1 meta
  • 9. Proceso de Decisión de Markov <ul><li>La figura 3 se muestra una ilustración de un MPD. </li></ul><ul><li>En donde los círculos representan estados es estado sombreado es la meta. Las flechas entre los estados representan una probabilidad de transición a cada uno de los estados cuando se ejecuta una acción </li></ul>
  • 10. Descomposición de las cadenas de Markov <ul><li>Dadas dos clases comunicantes en una cadena de Markov, o bien son iguales, o bien son disjuntas. </li></ul><ul><li>Se puede escribir una cadena de Markov como la unión de una serie de clases comunicantes no coherentes. </li></ul>
  • 11. Descomposición de las cadenas de Markov <ul><li>Hay que tener cuidado con los conjuntos de estados cerrados, es decir, aquellos en los que desde ningún estado interno al conjunto es accesible ningún estado externo. </li></ul><ul><li>Cadena de Markov irreducible: si todos los pares de estados de la cadena se comunican, por tanto la cadena estará formada exactamente por una sola clase comunicante. </li></ul>
  • 12. Bibliografía <ul><li>Aprendizaje por Refuerzo en Tablas Disponible en WWW: http://www.cs.us.es/~delia/sia/html98-99/pag-alumnos/web10/indice.html . </li></ul><ul><li>Aprendizaje Automático conceptos básicos y avanzados. Autor: Basilio Sierra Araujo. </li></ul>

×