Por: Marvin Agila J .
<ul><ul><li>Presento algunas definiciones de personajes que exponen sus puntos de vista: </li></ul></ul><ul><li>“ Aprender...
<ul><li>Sistema que interactúa con un entorno o que lo observa. </li></ul><ul><li>Modificación del comportamiento del sist...
<ul><li>En este modelo de aprendizaje, los agentes aprenden comportamientos por medio de interacciones basadas en ensayo y...
<ul><li>Algunas de las características que proporciona el aprendizaje por refuerzo son: </li></ul><ul><li>El aprendizaje o...
<ul><li>Se requiere poco o ningún conocimiento previo. </li></ul><ul><li>Es incremental y puede usarse en línea. </li></ul...
<ul><li>No solo el agente y su medio son los que interactúan  en un RA, además de estos es posible identificar 4 subelemen...
<ul><li>La  política  define la forma en la que un agente se comportará en un momento dado; es decir, es el mapeo de estad...
<ul><li>La  función de valor   especifica lo que es bueno en el largo plazo; es decir, el  valor  de un estado es la suma ...
<ul><li>Los algoritmos de aprendizaje por refuerzo están basados en: </li></ul><ul><ul><li>Programación dinámica </li></ul...
<ul><li>Es un método de divide y vencerás. </li></ul><ul><li>Son algoritmos que se utilizan para calcular políticas óptima...
<ul><li>Caracterizar la estructura de una solución óptima. </li></ul><ul><li>Definir recursivamente los valores de una sol...
<ul><ul><li>Solucionar cada subproblema exactamente una sola vez. </li></ul></ul><ul><ul><li>Guarda soluciones parciales d...
<ul><li>La desventaja más notoria que se da a conocer en la ejecución de este algoritmo es en lo referente a la capacidad ...
 
<ul><li>Podemos partir el problema en etapas: </li></ul><ul><ul><li>Etapa 1: nodo A </li></ul></ul><ul><ul><li>Etapa 2: no...
<ul><li>Etapa 5 </li></ul><ul><ul><li>Donde  proporciona la distancia más corta del nodo S al destino J.  </li></ul></ul><...
<ul><li>Estos algoritmos no necesitan un modelo completo del medio. </li></ul><ul><li>Requieren de la experiencia: secuenc...
<ul><li>Un PDM se define por sus conjuntos de acciones y estados y por una dinámica del medio de un paso. </li></ul><ul><l...
<ul><li>Si no existen recompensas no pueden existir valores y el propósito de estimar valores es el de alcanzar mayor reco...
<ul><li>En procesos de toma de decisiones y planeación lo que interesa calcular son los valores. Sin embargo, este proceso...
<ul><ul><li>http://modelosrecuperacion.50webs.com/inferencia.htm </li></ul></ul><ul><ul><li>http://ficcte.unimoron.edu.ar/...
Upcoming SlideShare
Loading in...5
×

Aprendizaje Por Refuerzo Marvin

1,641

Published on

introduccion a aprendizaje por refuerzo

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,641
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
54
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Aprendizaje Por Refuerzo Marvin

  1. 1. Por: Marvin Agila J .
  2. 2. <ul><ul><li>Presento algunas definiciones de personajes que exponen sus puntos de vista: </li></ul></ul><ul><li>“ Aprender es construir o modificar representaciones de aquello con lo que se está experimentando” [McCarthy] </li></ul><ul><li>“ El aprendizaje denota cambios en el sistema que permiten que se realice la misma tarea más eficiente y eficazmente la próxima vez” [Simón] </li></ul><ul><li>“ Aprender es hacer cambios útiles en nuestra mente” [Minsky] </li></ul>
  3. 3. <ul><li>Sistema que interactúa con un entorno o que lo observa. </li></ul><ul><li>Modificación del comportamiento del sistema o de su representación interna. </li></ul><ul><li>Mejora del sistema de acuerdo a algún criterio de evaluación </li></ul>
  4. 4. <ul><li>En este modelo de aprendizaje, los agentes aprenden comportamientos por medio de interacciones basadas en ensayo y error, dentro de un medio dinámico. </li></ul><ul><li>Los agentes reactivos y adaptativos cuentan con una descripción del estado actual y tienen que seleccionar la siguiente acción, de un conjunto de posibles acciones, que maximice un refuerzo escalar proporcionado después de realizar la acción elegida </li></ul>
  5. 5. <ul><li>Algunas de las características que proporciona el aprendizaje por refuerzo son: </li></ul><ul><li>El aprendizaje ocurre a través de la experimentación basada en prueba y error con el medio ambiente. </li></ul><ul><li>La retroalimentación es a base de un pago escalar. </li></ul><ul><li>En tareas de toma de decisiones secuenciales, el pago puede repartirse y retrasarse. </li></ul>
  6. 6. <ul><li>Se requiere poco o ningún conocimiento previo. </li></ul><ul><li>Es incremental y puede usarse en línea. </li></ul><ul><li>Puede usarse para aprender tareas reactivas. </li></ul><ul><li>Se puede usar en ambientes no determinísticos. </li></ul><ul><li>Cuando se usa con métodos de diferencia temporal es eficiente en aprender tareas de toma de decisiones secuenciales. </li></ul>
  7. 7. <ul><li>No solo el agente y su medio son los que interactúan en un RA, además de estos es posible identificar 4 subelementos principales que son: </li></ul><ul><ul><li>una política </li></ul></ul><ul><ul><li>una función de recompensa </li></ul></ul><ul><ul><li>una función de valor </li></ul></ul><ul><ul><li>un modelo del medio </li></ul></ul>
  8. 8. <ul><li>La política define la forma en la que un agente se comportará en un momento dado; es decir, es el mapeo de estados percibidos del medio hacia acciones a ser tomadas cuando se encuentra en alguno de ellos. </li></ul><ul><li>La función de recompensa define la meta; es decir, mapea cada estado percibido del medio a un número que indica la deseabilidad de dicho estado. Un agente que utiliza el aprendizaje por refuerzo tiene el objetivo de maximizar el total de la recompensa recibida a largo plazo . </li></ul>
  9. 9. <ul><li>La función de valor especifica lo que es bueno en el largo plazo; es decir, el valor de un estado es la suma total de las recompensas que un agente puede esperar acumular en el futuro, iniciando en dicho estado. </li></ul><ul><li>El modelo del medio permite simular el comportamiento del mismo. Por ejemplo, dado un estado y una acción, el modelo puede predecir el estado y recompensa resultantes. </li></ul>
  10. 10. <ul><li>Los algoritmos de aprendizaje por refuerzo están basados en: </li></ul><ul><ul><li>Programación dinámica </li></ul></ul><ul><ul><li>Métodos Monte Carlo </li></ul></ul><ul><ul><li>Métodos de Diferencia temporal </li></ul></ul>
  11. 11. <ul><li>Es un método de divide y vencerás. </li></ul><ul><li>Son algoritmos que se utilizan para calcular políticas óptimas dado un modelo perfecto del medio como en los Procesos de Decisión de Markov (PDM). </li></ul><ul><li>Los algoritmos en sí son limitados para el aprendizaje por refuerzo debido a que se necesita un modelo perfecto del medio. </li></ul><ul><li>Se aplica a problemas de optimización. </li></ul>
  12. 12. <ul><li>Caracterizar la estructura de una solución óptima. </li></ul><ul><li>Definir recursivamente los valores de una solución óptima. </li></ul><ul><li>Calcular el valor de una solución óptima del estilo bottom-up. </li></ul><ul><li>Construir una solución óptima a partir de la información. </li></ul>
  13. 13. <ul><ul><li>Solucionar cada subproblema exactamente una sola vez. </li></ul></ul><ul><ul><li>Guarda soluciones parciales dentro de una tabla. </li></ul></ul><ul><ul><li>Tiene un menor costo de ejecución que los algoritmos recursivos. </li></ul></ul><ul><ul><li>Puede tomar ventaja del traslape de subproblemas. </li></ul></ul>
  14. 14. <ul><li>La desventaja más notoria que se da a conocer en la ejecución de este algoritmo es en lo referente a la capacidad de almacenamiento de cada computador: </li></ul><ul><li>Necesita memoria para almacenar sus datos, por lo que para problemas grandes, es necesaria una gran cantidad de memoria. </li></ul><ul><li>Existe la posibilidad de traslapar problemas. </li></ul>
  15. 16. <ul><li>Podemos partir el problema en etapas: </li></ul><ul><ul><li>Etapa 1: nodo A </li></ul></ul><ul><ul><li>Etapa 2: nodos B, C y D </li></ul></ul><ul><ul><li>Etapa 3: nodos E, F, y G </li></ul></ul><ul><ul><li>Etapa 4: nodos H e I </li></ul></ul><ul><ul><li>Etapa 5: nodo J </li></ul></ul><ul><ul><li>Nota: Los estados en cada etapa corresponden al nombre del nodo. </li></ul></ul>
  16. 17. <ul><li>Etapa 5 </li></ul><ul><ul><li>Donde proporciona la distancia más corta del nodo S al destino J. </li></ul></ul><ul><li>Etapa 4 </li></ul><ul><ul><li>Durante esta etapa, no hay decisiones reales que hacer, simplemente se va al estado destino, J. </li></ul></ul>
  17. 18. <ul><li>Estos algoritmos no necesitan un modelo completo del medio. </li></ul><ul><li>Requieren de la experiencia: secuencias de estados-acciones y recompensas. </li></ul><ul><li>Aprenden una función de estado-valor dada una política. </li></ul><ul><li>Se utilizan en tareas episódicas. </li></ul><ul><li>Al terminar un episodio se actualizan los valores estimados y la política. </li></ul>
  18. 19. <ul><li>Un PDM se define por sus conjuntos de acciones y estados y por una dinámica del medio de un paso. </li></ul><ul><li>Dado un estado y acción, s y a, la probabilidad de un estado s´ es: </li></ul>
  19. 20. <ul><li>Si no existen recompensas no pueden existir valores y el propósito de estimar valores es el de alcanzar mayor recompensa. </li></ul><ul><li>Sin embargo, cuando se realiza un proceso de proponer y evaluar decisiones, lo que utiliza el agente son los valores. Esto significa que un agente debe de buscar realizar las acciones que lo lleven a los estados con los valores más altos, no con la recompensa más alta, debido a que estas acciones obtienen la mayor recompensa en el largo plazo. </li></ul>
  20. 21. <ul><li>En procesos de toma de decisiones y planeación lo que interesa calcular son los valores. Sin embargo, este proceso es más difícil que asignar recompensas ya que estas se proporcionan inmediatamente por el medio y los valores se calculan y actualizan continuamente a partir de las secuencias de observaciones que realiza el agente durante su ejecución. </li></ul>
  21. 22. <ul><ul><li>http://modelosrecuperacion.50webs.com/inferencia.htm </li></ul></ul><ul><ul><li>http://ficcte.unimoron.edu.ar/wicc/Trabajos/I%20-%20asi/627-wicc_2006_AEs_DM.pdf </li></ul></ul><ul><ul><li>http://72.14.205.104/search?q=cache:l8a142XMAVIJ:www.ica.luz.ve/~dfinol/webMEsta/06-Clasificacion%2520no%2520Supervisada.pdf+clasificacion+no+supervisada&hl=es&ct=clnk&cd=2&gl=ec </li></ul></ul><ul><ul><li>http://www.um.es/geograf/sig/teledet/clasific.html </li></ul></ul>
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×