Processos Markovianos de Decis˜o (MDPs)                              a                              Algoritmos            ...
Processos Markovianos de Decis˜o (MDPs)                                       a                                       Algo...
Processos Markovianos de Decis˜o (MDPs)                                     a             Introdu¸˜o                      ...
Processos Markovianos de Decis˜o (MDPs)                                     a             Introdu¸˜o                      ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                     a             Introdu¸˜o                      ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                     a             Introdu¸˜o                      ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                     a             Introdu¸˜o                      ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                    a             Introdu¸˜o                       ...
Processos Markovianos de Decis˜o (MDPs)                                      a             Introdu¸˜o                     ...
Processos Markovianos de Decis˜o (MDPs)                                     a             Introdu¸˜o                      ...
Processos Markovianos de Decis˜o (MDPs)                                      a             Introdu¸˜o                     ...
Processos Markovianos de Decis˜o (MDPs)                                      a             Introdu¸˜o                     ...
Processos Markovianos de Decis˜o (MDPs)                                     a             Introdu¸˜o                      ...
Processos Markovianos de Decis˜o (MDPs)                                     a                                             ...
Processos Markovianos de Decis˜o (MDPs)                                    a                                              ...
Processos Markovianos de Decis˜o (MDPs)                                     a                                             ...
Processos Markovianos de Decis˜o (MDPs)                                     a                                             ...
Processos Markovianos de Decis˜o (MDPs)                                     a                                             ...
Processos Markovianos de Decis˜o (MDPs)                                     a                                             ...
Processos Markovianos de Decis˜o (MDPs)                              a                                            Bibliogr...
Upcoming SlideShare
Loading in …5
×

Apresentação MDP

665 views
601 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
665
On SlideShare
0
From Embeds
0
Number of Embeds
264
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Apresentação MDP

  1. 1. Processos Markovianos de Decis˜o (MDPs) a Algoritmos Conclus˜o a Planejamento Probabil´ ısticoUma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP ca Daniel Baptista Dias Grupo de Planejamento, IME/USP 27 de julho de 2011 Daniel Baptista Dias Planejamento Probabil´ ıstico
  2. 2. Processos Markovianos de Decis˜o (MDPs) a Algoritmos Conclus˜o aAgenda 1 Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Modelo Formal Modelo Conceitual 2 Algoritmos Itera¸˜o de Valor ca RTDP 3 Conclus˜o a Bibliografia D´vidas? u Daniel Baptista Dias Planejamento Probabil´ ıstico
  3. 3. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualIntrodu¸˜o ca No planejamento cl´ssico, assumimos que as a¸˜es tˆm um a co e apenas um efeito, que pode ser predito; Por´m em alguns momentos isto n˜o ´ verdade. e a e Exemplo: sistema de manuseio de caixotes em um armaz´m. e Daniel Baptista Dias Planejamento Probabil´ ıstico
  4. 4. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualIntrodu¸˜o ca A incerteza destas a¸˜es pode ocorrer devido: co Falha nas a¸˜es: instigada por um agente com a finalidade de co mudar o estado do sistema, a mesma n˜o foi bem sucedida; a ex: a garra n˜o segura a caixa corretamente; a Evento ex´geno: que ocorre no sistema sem o controle o o agente; ex: a caixa quebra devido a sua fragilidade, derrubando seu conte´do. u Daniel Baptista Dias Planejamento Probabil´ ıstico
  5. 5. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualUm exemplo: Navega¸˜o de robˆs ca o Daniel Baptista Dias Planejamento Probabil´ ıstico
  6. 6. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualNavega¸˜o de robˆs ca o Problema: Um robˆ deve ir do: o ponto de origem (1, 1) at´ e ponto de destino (6, 4) Ele pode se mover em quatro dire¸˜es: co norte, sul, leste e oeste. Devido a um defeito no mecanismo de locomo¸˜o: ca em 20% dos movimentos ele erra dire¸˜o em 90 graus, ca tornando-os incertos; Desafio: Como ir at´ o destino apesar das adversidades? e Daniel Baptista Dias Planejamento Probabil´ ıstico
  7. 7. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - O que ´? e Uma forma de resolver o desafio ´ modelar e resolver ele como e um Processo Markoviano de Decis˜o (Markov Decision a Process, MDP); Um MDP ´ um sistema estoc´stico, que: e a Fica em um determinado estado em um ponto no tempo, podendo transitar para outros estados a medida que o sistema evolui; ´ E alterado em respostas a eventos (a¸˜es ou eventos co ex´genos); o Evolui em est´gios, transitando de um est´gio para outro ap´s a a o a ocorrˆncia de um evento. e Daniel Baptista Dias Planejamento Probabil´ ıstico
  8. 8. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Formal Formalmente, ele pode ser definido como um tupla M = S, A, p, r , c , onde: S ´ um conjunto finito de estados poss´ e ıveis do ambiente; A ´ um conjunto finito de a¸˜es execut´veis pelo agente; e co a p : S × A × S → [0, 1] ´ uma fun¸˜o de transi¸˜o e ca ca probabil´ ıstica; r : S → + ´ uma fun¸˜o que associa uma recompensa a e ca cada estado; c :A→ + ´ uma fun¸˜o que associa um custo a cada a¸˜o; e ca ca Daniel Baptista Dias Planejamento Probabil´ ıstico
  9. 9. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Estados Um estado s representa uma configura¸˜o de como o ca sistema est´ em um per´ a ıodo de tempo; No nosso exemplo... O estado pode ser representado com a varia¸˜o da posi¸˜o do ca ca robˆ no campo; o Sendo assim, temos S = s1 , s2 , . . . , s18 , um conjunto com 18 estados, com s1 representando a posi¸˜o (1, 1), s2 a posi¸˜o ca ca (1, 2), etc. Daniel Baptista Dias Planejamento Probabil´ ıstico
  10. 10. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Estados Daniel Baptista Dias Planejamento Probabil´ ıstico
  11. 11. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - A¸oes e Transi¸˜o de Estado c˜ ca Uma a¸˜o a, escolhida pelo agente, altera o sistema, fazendo-o ca transitar de um estado s para um estado s desejado; Essa transi¸˜o ´ incerta e est´ sujeita a uma probabilidade ca e a p(s, a, s ); Para cada a¸˜o, temos uma tabela de transi¸˜o entre estados, ca ca indicando as probabilidades de mudan¸a de um estado para c outro, respeitando que dado um estado s temos s ∈S p(s, a, s ) = 1. Daniel Baptista Dias Planejamento Probabil´ ıstico
  12. 12. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - A¸oes e Transi¸˜o de Estado c˜ ca Ex: na navega¸˜o de robˆs, o robˆ escolhe a a¸˜o leste para ir ca o o ca de s11 para s14 com p(s11 , leste, s14) = 0.8 Daniel Baptista Dias Planejamento Probabil´ ıstico
  13. 13. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Fun¸˜o Valor, Custo e Recompensa ca Para decidir qual tipo de a¸˜o o agente ir´ tomar e qual ca a estado ele ir´, ele precisa julgar a qualidade da decis˜o; a a Isto ´ feito definindo uma fun¸˜o valor V (·), que mapeia o e ca hist´rico do sistema (quais a¸˜es foram tomadas e quais o co estados foram visitados at´ o presente momento) em n´meros e u reais, i. e. V : Hs → ; Compondo esta medida, temos: a fun¸˜o custo, que associa um gasto a uma determinada ca a¸˜o, sendo subtraido de V (·); ca a fun¸˜o recompensa, que associa um incentivo ao se alcan¸ar ca c um determinado estado, sendo acrescentado a V (·); Daniel Baptista Dias Planejamento Probabil´ ıstico
  14. 14. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Horizonte Define quanto est´gios do sistema devem ser considerados a para avaliar o curso da a¸˜o. ca Horizonte finito: a performance do agente ´ avaliada em um e n´mero T finito de estados. u Neste caso a fun¸˜o valor ´ avaliada como: ca e T −1 V (h) = {R(s t ) − C (at )} + R(s T ) t=0 Daniel Baptista Dias Planejamento Probabil´ ıstico
  15. 15. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Horizonte Horizonte infinito: a performance do agente ´ avaliada sob e uma evolu¸˜o infinita do sistema. ca Neste caso a fun¸˜o valor ´ avaliada considerando um fator de ca e desconto γ, que ´ fixado entre 0 e 1: e ∞ V (h) = γ t (R(s t ) − C (at )) t=0 Daniel Baptista Dias Planejamento Probabil´ ıstico
  16. 16. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Pol´ ıticas Tamb´m conhecida como curso de a¸˜o ou plano, define qual e ca ser´ a a¸˜o a tomada pelo agente quando o mesmo se a ca encontrar em um determinado estado s; Ela ´ representada pela fun¸˜o π : S → A, que associa cada e ca estado a uma a¸˜o. ca Exemplo: π(s1 ) = norte ... π(s5 ) = leste ... π(s13 ) = sul ... Daniel Baptista Dias Planejamento Probabil´ ıstico
  17. 17. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Solu¸˜o ca Para solucionarmos um MDP, podemos encar´-lo como um a problema de otimiza¸˜o, onde devemos encontrar a fun¸˜o ca ca valor ´tima para cada estado. o Uma forma de se conseguir alcan¸ar este objetivo ´ atrav´s da c e e programa¸˜o dinˆmica, considerando o princ´ de ca a ıpio otimalidade de Bellman: Vt∗ (s) = R(s) + maxa∈A {−C (a) + ∗ p(s, a, s )Vt−1 (s )} s ∈S Uma pol´ıtica ´tima o ∗ πt (s) encontrada como solu¸˜o ser´ ca a aquela que satisfaz: Vt∗ (s) = R(s) + −C (πt (s)) + ∗ ∗ ∗ p(πt (s), a, s )Vt−1 (s ) s ∈S Daniel Baptista Dias Planejamento Probabil´ ıstico
  18. 18. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  19. 19. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Quais a¸˜es s˜o poss´ co a ıveis? Que decis˜o tomar? a baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  20. 20. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Decis˜o tomada ! a baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  21. 21. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Sucesso ! baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  22. 22. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual Falha ! baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  23. 23. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo ConceitualMDP - Modelo Conceitual O efeito da recompensa baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  24. 24. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aAlgoritmos Para obter uma pol´ ıtica ´tima, alguns algoritmos conhecidos o baseados em programa¸˜o dinˆmica, utilizando a equa¸˜o de ca a ca Bellman, s˜o: a Itera¸˜o de Valor (IV); ca Itera¸˜o de Pol´ ca ıtica (IP); Programa¸˜o Dinˆmica em Tempo Real (Real Time Dynamic ca a Programming, RTDP). Iremos abordar nesta apresenta¸˜o o IV e o RTDP. ca Daniel Baptista Dias Planejamento Probabil´ ıstico
  25. 25. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aIV Utilizando a equa¸˜o de Bellman, para cada etapa t a fun¸˜o ca ca V ´ calculada para cada estado, considerando v0 (s) = R(s). e Daniel Baptista Dias Planejamento Probabil´ ıstico
  26. 26. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aIV - Considera¸oes c˜ A complexidade do algoritmo ´: O(|A| |S|2 ); e Consideramos que o algoritmo encontrou um π ∗ quando todos os estados convergirem; Esta convergˆncia ´ alcan¸ada quando o res´ e e c ıduo (|vn (s) − vn−1 (s)|) para estes estado for menor que ; Problema: Por considerar todos os estados para executar o c´lculo, a inclusive aquele que n˜o s˜o alcan¸´veis pelo agente; a a ca Com o crescimento do conjunto S Daniel Baptista Dias Planejamento Probabil´ ıstico
  27. 27. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o aRTDP Considerando um conjunto de estados iniciais e estados meta, o algoritmo realiza uma busca heur´ıstica, considerando apenas os estados relevantes para serem atualizados; Baseado na id´ia de execu¸˜o e simula¸˜o, executa uma s´rie e ca ca e de trials, simulando uma pol´ıtica gulosa iniciando no estado inicial e realizando um Bellman Backup nos estados visitados; Desta forma, os estados mais provav´is de serem visitados e convergem primeiro; A pol´ıtica encontrada no algoritmo ser´ parcial, obtendo a valores ´timos para os estados relevantes. o Daniel Baptista Dias Planejamento Probabil´ ıstico
  28. 28. Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o aBibliografia Boutilier, Craig; Dean, Thomas; Hanks, Steve. Decision-Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999. Boutilier, Craig; Logical Representations and Computational Methods for Markov Decision Processes. Apresenta¸˜o em curso, 2007. ca Ghallab, Malik; Nau, Dana; Traverso, Paolo; Automated Planning: Theory and Practice. San Francisco, California: Morgan Kaufmann Publishers, 2004. Barros, Leliane Nunes de; Planejamento em Inteligˆncia Artifical - Planejamento e Probabilistico Slides de aula, 2011. Daniel Baptista Dias Planejamento Probabil´ ıstico
  29. 29. Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o aBibliografia Pereira, Silvio do Lago; Barros, Leliane Nunes de; Planejamento baseado em Processos de Decis˜o Markovianos a Relat´rio T´cnico do IME/USP (RT-MAC-2007-04), 2007. o e Russell, Stuart J.; Norvig, Peter; Artificial Intelligence: A Modern Approach. Englewood Cliffs, New Jersey: Prentice Hall, 1995. Daniel Baptista Dias Planejamento Probabil´ ıstico
  30. 30. Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o a Planejamento Probabil´ ısticoUma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP ca Daniel Baptista Dias Grupo de Planejamento, IME/USP 27 de julho de 2011 Daniel Baptista Dias Planejamento Probabil´ ıstico

×