SlideShare a Scribd company logo
1 of 29
Download to read offline
Интеллектуальные агенты
и обучение с
подкреплением
Студент: Сапин А.С.
Руководитель: Большакова Е.И.
Содержание
● Интеллектуальные агенты
■ Термины и понятия
■ Обучение и агенты: разновидности
● Обучение с подкреплением и MDP
■ Марковская модель принятия решений (MDP)
■ Алгоритмы решения MDP
● Обучение без модели и Q-обучение
■ Пассивное обучение (по значениям)
■ Активное обучение (по q-значениям)
2
Термины
Агент - все, что может воспринимать среду и воздействовать на
неё.
Среда - окружение, в котором агент находится и совершает
действия.
Восприятие - полученные агентом сенсорные данные в некоторый
момент времени.
Действие - влияние, которое агент оказывает на среду.
Автономность - свойство агента, выбирать действия на основании
опыта, а не данных о среде, которые заложил разработчик.
3
Агент
● Наблюдает среду с
помощью датчиков
● Воздействует на
среду с помощью
исполнительных
механизмов
● Выбор действия
может зависит от
восприятия
4
Проблемная среда
Включает в себя задачу, которую должен решить агент.
Свойства среды:
● Детерминированная
● Стохастическая
● Статическая
● Динамическая
● Дискретная
● Непрерывная
● Полностью наблюдаемая
● Частично наблюдаемая
● Эпизодическая
● Не эпизодическая
5
● Одноагентная
● Мультиагентная
Примеры сред
6
Проблемная
среда
Наблюдае
мость
Детермини
рованность
Эпизодич
ность
Динамично
сть
Дискретно
сть
Кол-во
агентов
Игра в
шахматы
Полная Стохастичес
кая
Поледоват
ельная
Полудинами
ческая
Дискретная Мультиаген
тная
Игра в покер Частичная Стохастичес
кая
Последова
тельная
Статическая Дискретная Мультиагне
тная
Анализ
изображения
Полная Детерминир
ованная
Эпизодиче
ская
Полудинами
ческая
Непрерывн
ая
Одноагентн
ая
Сортировка
деталей
Частичная Стохастичес
кая
Эпизодиче
ская
Динамическ
ая
Непрерывн
ая
Одноагентн
ая
● Разновидность интеллектуального агента
● Агент, который для каждой возможной
последовательности актов восприятия выбирает
“правильное” действие
● “Правильное” действие - действие, которое позволяет
агенту действовать максимально успешно
Рациональность Всезнание
Рациональный агент
7
Обучающийся агент
● Разновидность
рационального
агента
● Автономен
● С каждым новым
актом восприятия
совершает более
рациональные
действия
8
Обучение агента
Обучение - это процесс, в результате которого агент
может принимать решения на основе накопленного опыта
и текущего восприятия.
Обучение бывает:
9
● контролируемым
● неконтролируемым
● с подкреплением
Виды обучения
Контролируемое
обучение
(обучение с
учителем)
Вход: набор
примеров
Цель:
восстановление
поведения на основе
примеров
Неконтролируемое
обучение
(обучение без
учителя)
Вход: набор
данных
Цель: выявление
закономерностей во
входных данных
Обучение с
подкреплением
Наиболее общая
категория обучения
Обучение на основе
вознаграждения.
Нет сведений о
входных данных.
10
Обучение с подкреплением
● Во многих задачах является единственным возможным способом
обучения.
● Обучение происходит автономно, на основании проб и ошибок.
● Для моделирования среды используется марковский процесс принятия
решения - Markov’s Decision Process (MDP).
Обучение бывает:
11
● Активное
● Пассивное
● На основе модели
● Безмодельное
Марковский процесс принятия решения(MDP)
● Состояния S0
,S1
, … , S6
.
○ Начальное S0
.
○ Конечные S2
и S3
(если есть).
● Действия (стрелки):
○ оранжевая;
○ пунктирная фиолетовая;
○ точечная голубая;
● Вероятностная функция:
T(s,a,s’) - красные числа.
● Функция наград:
R(s,a,s’) - зеленые числа.
12
Модель среды
● Стохастическая,
полностью
наблюдаемая,
одноагентная
● Двумерная среда, с
конечным числом
состояний
● Награды только в
конечных состояниях 13
Что значит решить MDP?
14
● Найти оптимальное
действие a для каждого
состояния s, т.е.
выработать стратегию.
● При этом найти значение
V каждого состояния
(отражает потенц.
полезность)
Оптимальная стратегия
Вероятностный минимакс
● Имеет схожесть с алгоритмами
решения MDP.
● Принцип, применяемый в
играх с неопределённостью.
● Минимизирующие узлы
заменены усредняющими.
15
Решение MDP: Обозначения
● (s) - оптимальное действие в состоянии s.
● V(s) - ожидаемое значение состояния, если
действовать оптимально из s.
● Q(s,a) - значение, которое будет получено, если
действовать оптимально, после действия a в s.
● γ - коэффициент обесценивания наград.
16
Уравнение Беллмана для решения MDP
17
Коэффициент обесценивания γ
● Описывает предпочтение агентом текущих
вознаграждений перед будущими вознаграждениями.
● γ ∊ [0;1].
● γ ≈ 0 : будущие вознаграждения малозначащие
● γ ≈ 1 : будущие вознаграждения равноценны текущим
18
Решение MDP: Итерация по значениям
0 1 2 3 n
V(s): ... 00 0 00
● Сложность O(n2
*len(A)).
● Итерационный процесс сходится из-за постоянного
влияния фактора γ.
19
Алгоритм
Решение MDP: Итерация по действиям
0 1 2 3 n
V(s): ... 00 0 00
0 1 2 3 n
(s): ... →→ → →→
● Сходится быстрее, чем итерация по значениям.
● Сразу получаем оптимальную стратегию. 20
Обучение без модели
● Предполагается марковская
модель решения, но неизвестны
T(s,a,s’) и R(s,a,s’)
● Обучение с подкреплением
(наградами)
● Опора на собственный опыт, а
не на модель
● Возможно пассивное и активное
обучение
21
Среда
Агент
Действие
Награда
Состояние
Пассивное обучение
● Задана некоторая стратегия действий
● Вместо T и R используем накопленный опыт
● sample - полученный опыт
● - коэффициент учета предыдущего опыта 22
Пассивное обучение: расчёт стратегии
● Для вычисления стратегии из значений состояний,
необходимо знать T(s,a,s’), но её нет!
● Фактически, можно проверить только предложенную
стратегию.
Выход: искать Q-значения сразу.
23
Активное обучение: Q - обучение
● Итерация не по V-значениям ,
а по Q-значениям.
● Нет необходимости хранить
V-значения и стратегию.
● Как и для пассивного
обучения, нет необходимости
строить модель -
безмодельное обучение.
0 1
2 3
n
V(s):
... 0
0
0
0
0
0
1
2
3
n
(s):
...
→
→
→
→
→
24
Q-обучение: алгоритм
25
Уравнение для Q-значений:
Вместо T и R используем опыт:
Q-обучение: особенности
0
50 0 0 0
0 10 0
0 0 0 0
0 0.1 0 0 0
0
-20
0
...
←
→
↑
↖
0 1 2 3 ... n
Состояния
...
...
Действия
26
● Хранятся только Q-
значения.
● Не требуется знать
T(s,a,s’)
● Не требуется знать
R(s,a,s’)
● Принцип выбора действия:
исследование или
применение опыта
Q-обучение: рандомизация
● Выгодные пути находятся достаточно быстро.
● Но что если существует нечто лучшее?
● Для полного изучения среды вводится фактор
рандомизации ε.
● В зависимости от ε, вместо более выгодного действия,
может выбираться новое.
27
Обучение с подкреплением: современное
состояние
● With deep learning
● Temporal Difference Learning (TD - learning)
● Double Q-learning
● Google Deep Mind
○ Mnih V. et al. Human-level control through deep reinforcement learning
//Nature. – 2015. – Т. 518. – №. 7540. – С. 529-533.
28
Спасибо за внимание!
29

More Related Content

Viewers also liked

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentationiwan_rg
 
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»Mail.ru Group
 
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»Mail.ru Group
 

Viewers also liked (20)

Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentation
 
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
 
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (10)

Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

Сапин. Интеллектуальные агенты и обучение с подкреплением

  • 1. Интеллектуальные агенты и обучение с подкреплением Студент: Сапин А.С. Руководитель: Большакова Е.И.
  • 2. Содержание ● Интеллектуальные агенты ■ Термины и понятия ■ Обучение и агенты: разновидности ● Обучение с подкреплением и MDP ■ Марковская модель принятия решений (MDP) ■ Алгоритмы решения MDP ● Обучение без модели и Q-обучение ■ Пассивное обучение (по значениям) ■ Активное обучение (по q-значениям) 2
  • 3. Термины Агент - все, что может воспринимать среду и воздействовать на неё. Среда - окружение, в котором агент находится и совершает действия. Восприятие - полученные агентом сенсорные данные в некоторый момент времени. Действие - влияние, которое агент оказывает на среду. Автономность - свойство агента, выбирать действия на основании опыта, а не данных о среде, которые заложил разработчик. 3
  • 4. Агент ● Наблюдает среду с помощью датчиков ● Воздействует на среду с помощью исполнительных механизмов ● Выбор действия может зависит от восприятия 4
  • 5. Проблемная среда Включает в себя задачу, которую должен решить агент. Свойства среды: ● Детерминированная ● Стохастическая ● Статическая ● Динамическая ● Дискретная ● Непрерывная ● Полностью наблюдаемая ● Частично наблюдаемая ● Эпизодическая ● Не эпизодическая 5 ● Одноагентная ● Мультиагентная
  • 6. Примеры сред 6 Проблемная среда Наблюдае мость Детермини рованность Эпизодич ность Динамично сть Дискретно сть Кол-во агентов Игра в шахматы Полная Стохастичес кая Поледоват ельная Полудинами ческая Дискретная Мультиаген тная Игра в покер Частичная Стохастичес кая Последова тельная Статическая Дискретная Мультиагне тная Анализ изображения Полная Детерминир ованная Эпизодиче ская Полудинами ческая Непрерывн ая Одноагентн ая Сортировка деталей Частичная Стохастичес кая Эпизодиче ская Динамическ ая Непрерывн ая Одноагентн ая
  • 7. ● Разновидность интеллектуального агента ● Агент, который для каждой возможной последовательности актов восприятия выбирает “правильное” действие ● “Правильное” действие - действие, которое позволяет агенту действовать максимально успешно Рациональность Всезнание Рациональный агент 7
  • 8. Обучающийся агент ● Разновидность рационального агента ● Автономен ● С каждым новым актом восприятия совершает более рациональные действия 8
  • 9. Обучение агента Обучение - это процесс, в результате которого агент может принимать решения на основе накопленного опыта и текущего восприятия. Обучение бывает: 9 ● контролируемым ● неконтролируемым ● с подкреплением
  • 10. Виды обучения Контролируемое обучение (обучение с учителем) Вход: набор примеров Цель: восстановление поведения на основе примеров Неконтролируемое обучение (обучение без учителя) Вход: набор данных Цель: выявление закономерностей во входных данных Обучение с подкреплением Наиболее общая категория обучения Обучение на основе вознаграждения. Нет сведений о входных данных. 10
  • 11. Обучение с подкреплением ● Во многих задачах является единственным возможным способом обучения. ● Обучение происходит автономно, на основании проб и ошибок. ● Для моделирования среды используется марковский процесс принятия решения - Markov’s Decision Process (MDP). Обучение бывает: 11 ● Активное ● Пассивное ● На основе модели ● Безмодельное
  • 12. Марковский процесс принятия решения(MDP) ● Состояния S0 ,S1 , … , S6 . ○ Начальное S0 . ○ Конечные S2 и S3 (если есть). ● Действия (стрелки): ○ оранжевая; ○ пунктирная фиолетовая; ○ точечная голубая; ● Вероятностная функция: T(s,a,s’) - красные числа. ● Функция наград: R(s,a,s’) - зеленые числа. 12
  • 13. Модель среды ● Стохастическая, полностью наблюдаемая, одноагентная ● Двумерная среда, с конечным числом состояний ● Награды только в конечных состояниях 13
  • 14. Что значит решить MDP? 14 ● Найти оптимальное действие a для каждого состояния s, т.е. выработать стратегию. ● При этом найти значение V каждого состояния (отражает потенц. полезность) Оптимальная стратегия
  • 15. Вероятностный минимакс ● Имеет схожесть с алгоритмами решения MDP. ● Принцип, применяемый в играх с неопределённостью. ● Минимизирующие узлы заменены усредняющими. 15
  • 16. Решение MDP: Обозначения ● (s) - оптимальное действие в состоянии s. ● V(s) - ожидаемое значение состояния, если действовать оптимально из s. ● Q(s,a) - значение, которое будет получено, если действовать оптимально, после действия a в s. ● γ - коэффициент обесценивания наград. 16
  • 18. Коэффициент обесценивания γ ● Описывает предпочтение агентом текущих вознаграждений перед будущими вознаграждениями. ● γ ∊ [0;1]. ● γ ≈ 0 : будущие вознаграждения малозначащие ● γ ≈ 1 : будущие вознаграждения равноценны текущим 18
  • 19. Решение MDP: Итерация по значениям 0 1 2 3 n V(s): ... 00 0 00 ● Сложность O(n2 *len(A)). ● Итерационный процесс сходится из-за постоянного влияния фактора γ. 19 Алгоритм
  • 20. Решение MDP: Итерация по действиям 0 1 2 3 n V(s): ... 00 0 00 0 1 2 3 n (s): ... →→ → →→ ● Сходится быстрее, чем итерация по значениям. ● Сразу получаем оптимальную стратегию. 20
  • 21. Обучение без модели ● Предполагается марковская модель решения, но неизвестны T(s,a,s’) и R(s,a,s’) ● Обучение с подкреплением (наградами) ● Опора на собственный опыт, а не на модель ● Возможно пассивное и активное обучение 21 Среда Агент Действие Награда Состояние
  • 22. Пассивное обучение ● Задана некоторая стратегия действий ● Вместо T и R используем накопленный опыт ● sample - полученный опыт ● - коэффициент учета предыдущего опыта 22
  • 23. Пассивное обучение: расчёт стратегии ● Для вычисления стратегии из значений состояний, необходимо знать T(s,a,s’), но её нет! ● Фактически, можно проверить только предложенную стратегию. Выход: искать Q-значения сразу. 23
  • 24. Активное обучение: Q - обучение ● Итерация не по V-значениям , а по Q-значениям. ● Нет необходимости хранить V-значения и стратегию. ● Как и для пассивного обучения, нет необходимости строить модель - безмодельное обучение. 0 1 2 3 n V(s): ... 0 0 0 0 0 0 1 2 3 n (s): ... → → → → → 24
  • 25. Q-обучение: алгоритм 25 Уравнение для Q-значений: Вместо T и R используем опыт:
  • 26. Q-обучение: особенности 0 50 0 0 0 0 10 0 0 0 0 0 0 0.1 0 0 0 0 -20 0 ... ← → ↑ ↖ 0 1 2 3 ... n Состояния ... ... Действия 26 ● Хранятся только Q- значения. ● Не требуется знать T(s,a,s’) ● Не требуется знать R(s,a,s’) ● Принцип выбора действия: исследование или применение опыта
  • 27. Q-обучение: рандомизация ● Выгодные пути находятся достаточно быстро. ● Но что если существует нечто лучшее? ● Для полного изучения среды вводится фактор рандомизации ε. ● В зависимости от ε, вместо более выгодного действия, может выбираться новое. 27
  • 28. Обучение с подкреплением: современное состояние ● With deep learning ● Temporal Difference Learning (TD - learning) ● Double Q-learning ● Google Deep Mind ○ Mnih V. et al. Human-level control through deep reinforcement learning //Nature. – 2015. – Т. 518. – №. 7540. – С. 529-533. 28