aprendizaje por refuerzo

  • 5,702 views
Uploaded on

aprendizaje por refuerzo, conceptos básicos y aplicación

aprendizaje por refuerzo, conceptos básicos y aplicación

More in: Travel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
5,702
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
3

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESCUELA DE LAS CIENCIAS DE LA COMPUTACIÓN
  • 2. INTELIGENCIA ARTIFICIAL
    • Aprendizaje por refuerzo
    • Prof: Ing. Janeth Chicaiza
    • Por: Diego Danilo Guamán L
    • Narciso Rodrigo Granda
  • 3. Aprendizaje por refuerzo
    • El aprendizaje por refuerzo consiste en aprender a decidir, ante una situación determinada, que acción es la más adecuada para lograr un objetivo.
  • 4. Introducción
    • El comportamiento inteligente es elemento que se presenta en muchos de los sistemas que se está acostumbrados a tratar en la vida diaria, desde aparatos muy sencillos como un reloj o aparatos muy complejos como una empresa de ensamblaje de carros.
  • 5.
    • Para dar inteligencia a éstos son definen dos características.
    • El aprendizaje de una tarea por parte del sistema o agente se realiza mediante un proceso iterativo de prueba y error en el entorno donde el interactúa
    • La forma en que el entorno informa al agente sobre si está haciendo bien o mal la tarea que está aprendiendo
  • 6. Modelo de Aprendizaje por Refuerzo.
  • 7.
    • El aprendizaje por refuerzo se basa en los siguientes elemento s para su desarrollo
    • 1. Un conjunto de estados, S;
    • 2. Un conjunto de acciones del agente, A;
    • 3. Un conjunto de señales de refuerzo escalares,R , típicamente R={0,1}.
  • 8.
    • El objetivo del agente es encontrar una política, que maximice alguna medida de refuerzo a largo plazo. Un inconveniente del aprendizaje por refuerzo es que se asume que el entorno debe estar redefinido, implica un orden entre los estados y almacenado. Esto obliga al uso de alguna técnica de discretización, que además limite el número de estados del entorno a un número viable, desde el punto de vista del almacenamiento de memoria y tamaño del conjunto de casos de prueba necesarios para hacer el aprendizaje. A esto último se le denomina generalización de los pares estado-acción.
  • 9. Métodos de resolución tradicionales
    • Se definen dos clases de problemas de aprendizaje en base al conocimiento que se tiene sobre el modelo a tratar. Si se tiene un conocimiento completo, se conocen los estados y acciones y la dinámica en el entorno donde se desarrollan con la función de transición de estados y la función de refuerzo, se pueden aplicar directamente técnicas de programación dinámica.
    • Al contrario, si no se dispone de ese conocimiento, se pueden seguir dos aproximaciones. La primera, se encamina a aprender el modelo, y luego aplicar las técnicas de programación dinámica. La segunda, se buscan técnicas alternativas que puedan aplicarse sin un conocimiento "a priori" del modelo, es decir, métodos libres de modelo.
  • 10. Aplicación Modelo del percepptron
  • 11.
    • Entradas
    • x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0];
    • x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0];
    • x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0];
    • x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0];
    • Test de Salida
    • T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
  • 12.
    • Codigo del Programa //MATLAB
    • clear all
    • clc
    • x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0];
    • x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0];
    • x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0];
    • x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0];
    • P=[x1;x2;x3;x4]
    • T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
    • net= newp([0 1;0 1;0 1;0 1],1); //estructura y parámetros del perceptrón
    • net = init(net);
    • net = train(net,P,T);
    • net.trainParam.epochs =10
    • net.trainParam.goal=0; //valor de error
    • net.trainParam.show=1; //valor de exito
    • Y = sim(net,P)
    • sw=net.IW{1,1}
    • a=net.b{1}
  • 13. Resultados La corrida nos indica, el perceptron tardará hasta 38 veces de entrenamiento para tener un aprendizaje óptimo.
  • 14. Conclusiones
    • El uso redes neuronales artificiales son un pilar fundamental en el futuro de la Inteligencia artificial las cuales se pueden aplicar en diferentes ramas de la ciencia actual y moderna, como la robótica, simulación de sistemas complejos.
    • Brindan soluciones en problemas o situaciones en las que intervienen muchas entradas y son difíciles de precisar.
    • Se ha demostrado que los patrones de entrada son una parte fundamental en el aprendizaje de las redes neuronales ya que permiten obtener resultados exactos o cercanos a ciertos tipos de objetos.
    • Mientras mayor sea el número de entranamiento, el algoritmo se vuelve más eficiente.
    • La integración del modelo de aprendizaje en un sistema, reduce la necesidad de reprogramar el cuerpo de conocimientos
    • El modelo de aprendizaje puede ser incorporado a sistemas expertos y dotarles capacidades adaptativas.