• Save
aprendizaje por refuerzo
Upcoming SlideShare
Loading in...5
×
 

aprendizaje por refuerzo

on

  • 8,265 views

aprendizaje por refuerzo, conceptos básicos y aplicación

aprendizaje por refuerzo, conceptos básicos y aplicación

Statistics

Views

Total Views
8,265
Views on SlideShare
8,214
Embed Views
51

Actions

Likes
3
Downloads
0
Comments
0

1 Embed 51

http://www.slideshare.net 51

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

aprendizaje por refuerzo aprendizaje por refuerzo Presentation Transcript

  • UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESCUELA DE LAS CIENCIAS DE LA COMPUTACIÓN
  • INTELIGENCIA ARTIFICIAL
    • Aprendizaje por refuerzo
    • Prof: Ing. Janeth Chicaiza
    • Por: Diego Danilo Guamán L
    • Narciso Rodrigo Granda
  • Aprendizaje por refuerzo
    • El aprendizaje por refuerzo consiste en aprender a decidir, ante una situación determinada, que acción es la más adecuada para lograr un objetivo.
  • Introducción
    • El comportamiento inteligente es elemento que se presenta en muchos de los sistemas que se está acostumbrados a tratar en la vida diaria, desde aparatos muy sencillos como un reloj o aparatos muy complejos como una empresa de ensamblaje de carros.
    • Para dar inteligencia a éstos son definen dos características.
    • El aprendizaje de una tarea por parte del sistema o agente se realiza mediante un proceso iterativo de prueba y error en el entorno donde el interactúa
    • La forma en que el entorno informa al agente sobre si está haciendo bien o mal la tarea que está aprendiendo
  • Modelo de Aprendizaje por Refuerzo.
    • El aprendizaje por refuerzo se basa en los siguientes elemento s para su desarrollo
    • 1. Un conjunto de estados, S;
    • 2. Un conjunto de acciones del agente, A;
    • 3. Un conjunto de señales de refuerzo escalares,R , típicamente R={0,1}.
    • El objetivo del agente es encontrar una política, que maximice alguna medida de refuerzo a largo plazo. Un inconveniente del aprendizaje por refuerzo es que se asume que el entorno debe estar redefinido, implica un orden entre los estados y almacenado. Esto obliga al uso de alguna técnica de discretización, que además limite el número de estados del entorno a un número viable, desde el punto de vista del almacenamiento de memoria y tamaño del conjunto de casos de prueba necesarios para hacer el aprendizaje. A esto último se le denomina generalización de los pares estado-acción.
  • Métodos de resolución tradicionales
    • Se definen dos clases de problemas de aprendizaje en base al conocimiento que se tiene sobre el modelo a tratar. Si se tiene un conocimiento completo, se conocen los estados y acciones y la dinámica en el entorno donde se desarrollan con la función de transición de estados y la función de refuerzo, se pueden aplicar directamente técnicas de programación dinámica.
    • Al contrario, si no se dispone de ese conocimiento, se pueden seguir dos aproximaciones. La primera, se encamina a aprender el modelo, y luego aplicar las técnicas de programación dinámica. La segunda, se buscan técnicas alternativas que puedan aplicarse sin un conocimiento "a priori" del modelo, es decir, métodos libres de modelo.
  • Aplicación Modelo del percepptron
    • Entradas
    • x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0];
    • x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0];
    • x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0];
    • x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0];
    • Test de Salida
    • T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
    • Codigo del Programa //MATLAB
    • clear all
    • clc
    • x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0];
    • x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0];
    • x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0];
    • x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0];
    • P=[x1;x2;x3;x4]
    • T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
    • net= newp([0 1;0 1;0 1;0 1],1); //estructura y parámetros del perceptrón
    • net = init(net);
    • net = train(net,P,T);
    • net.trainParam.epochs =10
    • net.trainParam.goal=0; //valor de error
    • net.trainParam.show=1; //valor de exito
    • Y = sim(net,P)
    • sw=net.IW{1,1}
    • a=net.b{1}
  • Resultados La corrida nos indica, el perceptron tardará hasta 38 veces de entrenamiento para tener un aprendizaje óptimo.
  • Conclusiones
    • El uso redes neuronales artificiales son un pilar fundamental en el futuro de la Inteligencia artificial las cuales se pueden aplicar en diferentes ramas de la ciencia actual y moderna, como la robótica, simulación de sistemas complejos.
    • Brindan soluciones en problemas o situaciones en las que intervienen muchas entradas y son difíciles de precisar.
    • Se ha demostrado que los patrones de entrada son una parte fundamental en el aprendizaje de las redes neuronales ya que permiten obtener resultados exactos o cercanos a ciertos tipos de objetos.
    • Mientras mayor sea el número de entranamiento, el algoritmo se vuelve más eficiente.
    • La integración del modelo de aprendizaje en un sistema, reduce la necesidad de reprogramar el cuerpo de conocimientos
    • El modelo de aprendizaje puede ser incorporado a sistemas expertos y dotarles capacidades adaptativas.