Q Learning Simulator
Upcoming SlideShare
Loading in...5
×
 

Q Learning Simulator

on

  • 842 views

Q Learning Simulator

Q Learning Simulator

Statistics

Views

Total Views
842
Views on SlideShare
840
Embed Views
2

Actions

Likes
0
Downloads
2
Comments
0

1 Embed 2

http://www.slideshare.net 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Q Learning Simulator Q Learning Simulator Presentation Transcript

    • Q-Learning Robolution
      Reinforcement Learning
      Simulação de um Robô Autónomo em problemas de labirintos
      David Jardim 8730
    • Motivação
      Simular um robô móvel que:
      Actue como um agente que possua aprendizagem.
      Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos.
      Obtenha informação sobre o ambiente, através de um sistema sensorial.
      Defina estados consoante a informação obtida.
      Machine Learning - David Jardim 2008/2009
      2
    • Dificuldades Encontradas
      Simular o movimento de um robô real.
      Desenhar os sensores com os ângulos pretendidos.
      Actualizar as posições de forma correcta.
      Definir os diferentes estados do robô.
      Atribuir recompensas de forma correcta a cada estado.
      Problemática dos becos sem saída.
      Machine Learning - David Jardim 2008/2009
      3
    • Descrição do Cenário
      As paredes são representadas por linhas amarelas.
      Machine Learning - David Jardim 2008/2009
      4
    • Descrição do Agente
      Machine Learning - David Jardim 2008/2009
      5
      Acções possíveis:
      Virar à esquerda.
      Virar à direita.
      Mover-se para a frente.
      Sistema Sensorial
      3 Sensores para a detecção de obstáculos.
      3 Sensores para obter o ângulo relativamente ao farol.
      Distância discreta em relação ao farol.
      Estados possíveis:
    • Simular o Movimento do Robô
      Matriz de Transformação:
      Translada o objecto.
      Roda o objecto em torno do seu centro.
      Para actualizar as coordenadas dos Sensores:
      Actualizar o ponto inicial (centro do robô).
      Actualizar o ponto final (extremidade do sensor).
      Machine Learning - David Jardim 2008/2009
      6
    • Definição do Estado
      Sensores de Contacto:
      Igual a 1 quando ocorre intersecção com uma parede.
      Igual a 0 quando não ocorre intersecção.
      Verifica intersecções apenas com as 4 paredes mais próximas.
      Sensores de Orientação:
      Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.
      Distância:
      Foi necessário tornar a distância discreta, de forma a reduzir o número de estados possíveis.
      Machine Learning - David Jardim 2008/2009
      7
    • Recompensa
      Atribuída consoante a acção efectuada:
      Rodar à esquerda ou à direita.
      Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.
      Deslocar-se para a frente.
      Depende do valor da distância discreta a que o robô se encontra do farol.
      A recompensa é calculada de forma distinta, para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.
      Machine Learning - David Jardim 2008/2009
      8
    • Becos sem saída
      Como escolher entre 2 caminhos que:
      Um conduz ao farol, mas com uma recompensa imediata inferior.
      O outro não leva ao farol, mas possui uma recompensa imediata superior.
      Solução:
      Foi atribuída uma recompensa suficientemente grande aos estados finais.
      Machine Learning - David Jardim 2008/2009
      9
    • Distâncias Discretas
      Machine Learning - David Jardim 2008/2009
      10
    • Funcionalidades da Aplicação
      Machine Learning - David Jardim 2008/2009
      11
    • Funcionalidades da Aplicação
      Machine Learning - David Jardim 2008/2009
      12
      O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.
    • Resultados
      Machine Learning - David Jardim 2008/2009
      13
    • Resultados
      Machine Learning - David Jardim 2008/2009
      14
    • Limitações
      A distância entre o robô e a parede não é calculada através da tensão do sensor (IR).
      O deslocamento não é efectuado tendo em conta as rodas do robô.
      Se o cenário for demasiado complexo, a convergência da solução é muito lenta.
      Machine Learning - David Jardim 2008/2009
      15
    • Questões
      Machine Learning - David Jardim 2008/2009
      16