Сапин. Интеллектуальные агенты и обучение с подкреплением

Интеллектуальные агенты
и обучение с
подкреплением
Студент: Сапин А.С.
Руководитель: Большакова Е.И.

Содержание
● Интеллектуальные агенты
■ Термины и понятия
■ Обучение и агенты: разновидности
● Обучение с подкреплением и MDP
■ Марковская модель принятия решений (MDP)
■ Алгоритмы решения MDP
● Обучение без модели и Q-обучение
■ Пассивное обучение (по значениям)
■ Активное обучение (по q-значениям)
2

Термины
Агент - все, что может воспринимать среду и воздействовать на
неё.
Среда - окружение, в котором агент находится и совершает
действия.
Восприятие - полученные агентом сенсорные данные в некоторый
момент времени.
Действие - влияние, которое агент оказывает на среду.
Автономность - свойство агента, выбирать действия на основании
опыта, а не данных о среде, которые заложил разработчик.
3

Агент
● Наблюдает среду с
помощью датчиков
● Воздействует на
среду с помощью
исполнительных
механизмов
● Выбор действия
может зависит от
восприятия
4

Проблемная среда
Включает в себя задачу, которую должен решить агент.
Свойства среды:
● Детерминированная
● Стохастическая
● Статическая
● Динамическая
● Дискретная
● Непрерывная
● Полностью наблюдаемая
● Частично наблюдаемая
● Эпизодическая
● Не эпизодическая
5
● Одноагентная
● Мультиагентная

Примеры сред
6
Проблемная
среда
Наблюдае
мость
Детермини
рованность
Эпизодич
ность
Динамично
сть
Дискретно
сть
Кол-во
агентов
Игра в
шахматы
Полная Стохастичес
кая
Поледоват
ельная
Полудинами
ческая
Дискретная Мультиаген
тная
Игра в покер Частичная Стохастичес
кая
Последова
тельная
Статическая Дискретная Мультиагне
тная
Анализ
изображения
Полная Детерминир
ованная
Эпизодиче
ская
Полудинами
ческая
Непрерывн
ая
Одноагентн
ая
Сортировка
деталей
Частичная Стохастичес
кая
Эпизодиче
ская
Динамическ
ая
Непрерывн
ая
Одноагентн
ая

● Разновидность интеллектуального агента
● Агент, который для каждой возможной
последовательности актов восприятия выбирает
“правильное” действие
● “Правильное” действие - действие, которое позволяет
агенту действовать максимально успешно
Рациональность Всезнание
Рациональный агент
7

Обучающийся агент
● Разновидность
рационального
агента
● Автономен
● С каждым новым
актом восприятия
совершает более
рациональные
действия
8

Обучение агента
Обучение - это процесс, в результате которого агент
может принимать решения на основе накопленного опыта
и текущего восприятия.
Обучение бывает:
9
● контролируемым
● неконтролируемым
● с подкреплением

Виды обучения
Контролируемое
обучение
(обучение с
учителем)
Вход: набор
примеров
Цель:
восстановление
поведения на основе
примеров
Неконтролируемое
обучение
(обучение без
учителя)
Вход: набор
данных
Цель: выявление
закономерностей во
входных данных
Обучение с
подкреплением
Наиболее общая
категория обучения
Обучение на основе
вознаграждения.
Нет сведений о
входных данных.
10

Обучение с подкреплением
● Во многих задачах является единственным возможным способом
обучения.
● Обучение происходит автономно, на основании проб и ошибок.
● Для моделирования среды используется марковский процесс принятия
решения - Markov’s Decision Process (MDP).
Обучение бывает:
11
● Активное
● Пассивное
● На основе модели
● Безмодельное

Марковский процесс принятия решения(MDP)
● Состояния S0
,S1
, … , S6
.
○ Начальное S0
.
○ Конечные S2
и S3
(если есть).
● Действия (стрелки):
○ оранжевая;
○ пунктирная фиолетовая;
○ точечная голубая;
● Вероятностная функция:
T(s,a,s’) - красные числа.
● Функция наград:
R(s,a,s’) - зеленые числа.
12

Модель среды
● Стохастическая,
полностью
наблюдаемая,
одноагентная
● Двумерная среда, с
конечным числом
состояний
● Награды только в
конечных состояниях 13

Что значит решить MDP?
14
● Найти оптимальное
действие a для каждого
состояния s, т.е.
выработать стратегию.
● При этом найти значение
V каждого состояния
(отражает потенц.
полезность)
Оптимальная стратегия

Вероятностный минимакс
● Имеет схожесть с алгоритмами
решения MDP.
● Принцип, применяемый в
играх с неопределённостью.
● Минимизирующие узлы
заменены усредняющими.
15

Решение MDP: Обозначения
● (s) - оптимальное действие в состоянии s.
● V(s) - ожидаемое значение состояния, если
действовать оптимально из s.
● Q(s,a) - значение, которое будет получено, если
действовать оптимально, после действия a в s.
● γ - коэффициент обесценивания наград.
16

Уравнение Беллмана для решения MDP
17

Коэффициент обесценивания γ
● Описывает предпочтение агентом текущих
вознаграждений перед будущими вознаграждениями.
● γ ∊ [0;1].
● γ ≈ 0 : будущие вознаграждения малозначащие
● γ ≈ 1 : будущие вознаграждения равноценны текущим
18

Решение MDP: Итерация по значениям
0 1 2 3 n
V(s): ... 00 0 00
● Сложность O(n2
*len(A)).
● Итерационный процесс сходится из-за постоянного
влияния фактора γ.
19
Алгоритм

Решение MDP: Итерация по действиям
0 1 2 3 n
V(s): ... 00 0 00
0 1 2 3 n
(s): ... →→ → →→
● Сходится быстрее, чем итерация по значениям.
● Сразу получаем оптимальную стратегию. 20

Обучение без модели
● Предполагается марковская
модель решения, но неизвестны
T(s,a,s’) и R(s,a,s’)
● Обучение с подкреплением
(наградами)
● Опора на собственный опыт, а
не на модель
● Возможно пассивное и активное
обучение
21
Среда
Агент
Действие
Награда
Состояние

Пассивное обучение
● Задана некоторая стратегия действий
● Вместо T и R используем накопленный опыт
● sample - полученный опыт
● - коэффициент учета предыдущего опыта 22

Пассивное обучение: расчёт стратегии
● Для вычисления стратегии из значений состояний,
необходимо знать T(s,a,s’), но её нет!
● Фактически, можно проверить только предложенную
стратегию.
Выход: искать Q-значения сразу.
23

Активное обучение: Q - обучение
● Итерация не по V-значениям ,
а по Q-значениям.
● Нет необходимости хранить
V-значения и стратегию.
● Как и для пассивного
обучения, нет необходимости
строить модель -
безмодельное обучение.
0 1
2 3
n
V(s):
... 0
0
0
0
0
0
1
2
3
n
(s):
...
→
→
→
→
→
24

Q-обучение: алгоритм
25
Уравнение для Q-значений:
Вместо T и R используем опыт:

Q-обучение: особенности
0
50 0 0 0
0 10 0
0 0 0 0
0 0.1 0 0 0
0
-20
0
...
←
→
↑
↖
0 1 2 3 ... n
Состояния
...
...
Действия
26
● Хранятся только Q-
значения.
● Не требуется знать
T(s,a,s’)
● Не требуется знать
R(s,a,s’)
● Принцип выбора действия:
исследование или
применение опыта

Q-обучение: рандомизация
● Выгодные пути находятся достаточно быстро.
● Но что если существует нечто лучшее?
● Для полного изучения среды вводится фактор
рандомизации ε.
● В зависимости от ε, вместо более выгодного действия,
может выбираться новое.
27

Обучение с подкреплением: современное
состояние
● With deep learning
● Temporal Difference Learning (TD - learning)
● Double Q-learning
● Google Deep Mind
○ Mnih V. et al. Human-level control through deep reinforcement learning
//Nature. – 2015. – Т. 518. – №. 7540. – С. 529-533.
28

Спасибо за внимание!
29

Сапин. Интеллектуальные агенты и обучение с подкреплением

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (10)

Сапин. Интеллектуальные агенты и обучение с подкреплением