Cs221 rl

CS 221: Artificial Intelligence Reinforcement Learning Peter Norvig and Sebastian Thrun Slide credit: Dan Klein, Stuart Russell, Andrew Moore

Review: Markov Decision Processes ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Value Iteration ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Reinforcement Learning ,[object Object]

Example: Backgammon ,[object Object],[object Object],[object Object]

Example: Animal Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What to Learn ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example +1 -1 0 0 0 0 0 0 0 0 0

Example +1 -1 0 0 0 0 0 0 0.9 0 0

Example +1 -1 0 0 0 0 0 0.8 0.92 0 0

Example +1 -1 -0.01 -.16 .12 -.12 .17 .28 .36 .20 -.2

Problem ,[object Object],[object Object],[object Object],[object Object],[object Object]

Quiz ,[object Object],[object Object]

Greedy TD-Agent ,[object Object],[object Object],[object Object]

Greedy Agent Results ,[object Object],[object Object],[object Object]

Exploratory Agent ,[object Object]

Alternative: Q-Learning ,[object Object],[object Object],[object Object],[object Object]

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ?? 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 .45 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 .33 .78 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning Properties ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],S E S E

Practical Q-Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Generalization Example ,[object Object],[object Object],[object Object]

Feature-Based Representations ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Linear Feature Functions ,[object Object],[object Object],[object Object]

Function Approximation ,[object Object],[object Object],[object Object],[object Object]

Summary: MDPs and RL ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Things we know how to do: Techniques:

Cs221 rl

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to Cs221 rl

Similar to Cs221 rl (20)

More from darwinrlo

More from darwinrlo (9)

Recently uploaded

Recently uploaded (20)

Cs221 rl