Apresentação MDP
Upcoming SlideShare
Loading in...5
×
 

Apresentação MDP

on

  • 690 views

 

Statistics

Views

Total Views
690
Views on SlideShare
524
Embed Views
166

Actions

Likes
0
Downloads
6
Comments
0

6 Embeds 166

http://dbdias.blogspot.com.br 98
http://dbdias.blogspot.com 45
http://dbdias.blogspot.ru 20
http://dbdias.blogspot.pt 1
http://dbdias.blogspot.fr 1
http://dbdias.blogspot.de 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Apresentação MDP Apresentação MDP Presentation Transcript

  • Processos Markovianos de Decis˜o (MDPs) a Algoritmos Conclus˜o a Planejamento Probabil´ ısticoUma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP ca Daniel Baptista Dias Grupo de Planejamento, IME/USP 27 de julho de 2011 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Algoritmos Conclus˜o aAgenda 1 Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Modelo Formal Modelo Conceitual 2 Algoritmos Itera¸˜o de Valor ca RTDP 3 Conclus˜o a Bibliografia D´vidas? u Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualIntrodu¸˜o ca No planejamento cl´ssico, assumimos que as a¸˜es tˆm um a co e apenas um efeito, que pode ser predito; Por´m em alguns momentos isto n˜o ´ verdade. e a e Exemplo: sistema de manuseio de caixotes em um armaz´m. e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualIntrodu¸˜o ca A incerteza destas a¸˜es pode ocorrer devido: co Falha nas a¸˜es: instigada por um agente com a finalidade de co mudar o estado do sistema, a mesma n˜o foi bem sucedida; a ex: a garra n˜o segura a caixa corretamente; a Evento ex´geno: que ocorre no sistema sem o controle o o agente; ex: a caixa quebra devido a sua fragilidade, derrubando seu conte´do. u Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualUm exemplo: Navega¸˜o de robˆs ca o Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualNavega¸˜o de robˆs ca o Problema: Um robˆ deve ir do: o ponto de origem (1, 1) at´ e ponto de destino (6, 4) Ele pode se mover em quatro dire¸˜es: co norte, sul, leste e oeste. Devido a um defeito no mecanismo de locomo¸˜o: ca em 20% dos movimentos ele erra dire¸˜o em 90 graus, ca tornando-os incertos; Desafio: Como ir at´ o destino apesar das adversidades? e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - O que ´? e Uma forma de resolver o desafio ´ modelar e resolver ele como e um Processo Markoviano de Decis˜o (Markov Decision a Process, MDP); Um MDP ´ um sistema estoc´stico, que: e a Fica em um determinado estado em um ponto no tempo, podendo transitar para outros estados a medida que o sistema evolui; ´ E alterado em respostas a eventos (a¸˜es ou eventos co ex´genos); o Evolui em est´gios, transitando de um est´gio para outro ap´s a a o a ocorrˆncia de um evento. e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Formal Formalmente, ele pode ser definido como um tupla M = S, A, p, r , c , onde: S ´ um conjunto finito de estados poss´ e ıveis do ambiente; A ´ um conjunto finito de a¸˜es execut´veis pelo agente; e co a p : S × A × S → [0, 1] ´ uma fun¸˜o de transi¸˜o e ca ca probabil´ ıstica; r : S → + ´ uma fun¸˜o que associa uma recompensa a e ca cada estado; c :A→ + ´ uma fun¸˜o que associa um custo a cada a¸˜o; e ca ca Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Estados Um estado s representa uma configura¸˜o de como o ca sistema est´ em um per´ a ıodo de tempo; No nosso exemplo... O estado pode ser representado com a varia¸˜o da posi¸˜o do ca ca robˆ no campo; o Sendo assim, temos S = s1 , s2 , . . . , s18 , um conjunto com 18 estados, com s1 representando a posi¸˜o (1, 1), s2 a posi¸˜o ca ca (1, 2), etc. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Estados Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - A¸oes e Transi¸˜o de Estado c˜ ca Uma a¸˜o a, escolhida pelo agente, altera o sistema, fazendo-o ca transitar de um estado s para um estado s desejado; Essa transi¸˜o ´ incerta e est´ sujeita a uma probabilidade ca e a p(s, a, s ); Para cada a¸˜o, temos uma tabela de transi¸˜o entre estados, ca ca indicando as probabilidades de mudan¸a de um estado para c outro, respeitando que dado um estado s temos s ∈S p(s, a, s ) = 1. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - A¸oes e Transi¸˜o de Estado c˜ ca Ex: na navega¸˜o de robˆs, o robˆ escolhe a a¸˜o leste para ir ca o o ca de s11 para s14 com p(s11 , leste, s14) = 0.8 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Fun¸˜o Valor, Custo e Recompensa ca Para decidir qual tipo de a¸˜o o agente ir´ tomar e qual ca a estado ele ir´, ele precisa julgar a qualidade da decis˜o; a a Isto ´ feito definindo uma fun¸˜o valor V (·), que mapeia o e ca hist´rico do sistema (quais a¸˜es foram tomadas e quais o co estados foram visitados at´ o presente momento) em n´meros e u reais, i. e. V : Hs → ; Compondo esta medida, temos: a fun¸˜o custo, que associa um gasto a uma determinada ca a¸˜o, sendo subtraido de V (·); ca a fun¸˜o recompensa, que associa um incentivo ao se alcan¸ar ca c um determinado estado, sendo acrescentado a V (·); Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Horizonte Define quanto est´gios do sistema devem ser considerados a para avaliar o curso da a¸˜o. ca Horizonte finito: a performance do agente ´ avaliada em um e n´mero T finito de estados. u Neste caso a fun¸˜o valor ´ avaliada como: ca e T −1 V (h) = {R(s t ) − C (at )} + R(s T ) t=0 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Horizonte Horizonte infinito: a performance do agente ´ avaliada sob e uma evolu¸˜o infinita do sistema. ca Neste caso a fun¸˜o valor ´ avaliada considerando um fator de ca e desconto γ, que ´ fixado entre 0 e 1: e ∞ V (h) = γ t (R(s t ) − C (at )) t=0 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Pol´ ıticas Tamb´m conhecida como curso de a¸˜o ou plano, define qual e ca ser´ a a¸˜o a tomada pelo agente quando o mesmo se a ca encontrar em um determinado estado s; Ela ´ representada pela fun¸˜o π : S → A, que associa cada e ca estado a uma a¸˜o. ca Exemplo: π(s1 ) = norte ... π(s5 ) = leste ... π(s13 ) = sul ... Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Solu¸˜o ca Para solucionarmos um MDP, podemos encar´-lo como um a problema de otimiza¸˜o, onde devemos encontrar a fun¸˜o ca ca valor ´tima para cada estado. o Uma forma de se conseguir alcan¸ar este objetivo ´ atrav´s da c e e programa¸˜o dinˆmica, considerando o princ´ de ca a ıpio otimalidade de Bellman: Vt∗ (s) = R(s) + maxa∈A {−C (a) + ∗ p(s, a, s )Vt−1 (s )} s ∈S Uma pol´ıtica ´tima o ∗ πt (s) encontrada como solu¸˜o ser´ ca a aquela que satisfaz: Vt∗ (s) = R(s) + −C (πt (s)) + ∗ ∗ ∗ p(πt (s), a, s )Vt−1 (s ) s ∈S Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Quais a¸˜es s˜o poss´ co a ıveis? Que decis˜o tomar? a baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Decis˜o tomada ! a baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Sucesso ! baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Falha ! baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual O efeito da recompensa baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aAlgoritmos Para obter uma pol´ ıtica ´tima, alguns algoritmos conhecidos o baseados em programa¸˜o dinˆmica, utilizando a equa¸˜o de ca a ca Bellman, s˜o: a Itera¸˜o de Valor (IV); ca Itera¸˜o de Pol´ ca ıtica (IP); Programa¸˜o Dinˆmica em Tempo Real (Real Time Dynamic ca a Programming, RTDP). Iremos abordar nesta apresenta¸˜o o IV e o RTDP. ca Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aIV Utilizando a equa¸˜o de Bellman, para cada etapa t a fun¸˜o ca ca V ´ calculada para cada estado, considerando v0 (s) = R(s). e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aIV - Considera¸oes c˜ A complexidade do algoritmo ´: O(|A| |S|2 ); e Consideramos que o algoritmo encontrou um π ∗ quando todos os estados convergirem; Esta convergˆncia ´ alcan¸ada quando o res´ e e c ıduo (|vn (s) − vn−1 (s)|) para estes estado for menor que ; Problema: Por considerar todos os estados para executar o c´lculo, a inclusive aquele que n˜o s˜o alcan¸´veis pelo agente; a a ca Com o crescimento do conjunto S Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aRTDP Considerando um conjunto de estados iniciais e estados meta, o algoritmo realiza uma busca heur´ıstica, considerando apenas os estados relevantes para serem atualizados; Baseado na id´ia de execu¸˜o e simula¸˜o, executa uma s´rie e ca ca e de trials, simulando uma pol´ıtica gulosa iniciando no estado inicial e realizando um Bellman Backup nos estados visitados; Desta forma, os estados mais provav´is de serem visitados e convergem primeiro; A pol´ıtica encontrada no algoritmo ser´ parcial, obtendo a valores ´timos para os estados relevantes. o Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o aBibliografia Boutilier, Craig; Dean, Thomas; Hanks, Steve. Decision-Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999. Boutilier, Craig; Logical Representations and Computational Methods for Markov Decision Processes. Apresenta¸˜o em curso, 2007. ca Ghallab, Malik; Nau, Dana; Traverso, Paolo; Automated Planning: Theory and Practice. San Francisco, California: Morgan Kaufmann Publishers, 2004. Barros, Leliane Nunes de; Planejamento em Inteligˆncia Artifical - Planejamento e Probabilistico Slides de aula, 2011. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o aBibliografia Pereira, Silvio do Lago; Barros, Leliane Nunes de; Planejamento baseado em Processos de Decis˜o Markovianos a Relat´rio T´cnico do IME/USP (RT-MAC-2007-04), 2007. o e Russell, Stuart J.; Norvig, Peter; Artificial Intelligence: A Modern Approach. Englewood Cliffs, New Jersey: Prentice Hall, 1995. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o a Planejamento Probabil´ ısticoUma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP ca Daniel Baptista Dias Grupo de Planejamento, IME/USP 27 de julho de 2011 Daniel Baptista Dias Planejamento Probabil´ ıstico