Нейросетевые методы в
задачах обучения с
подкреплением
Михаил Бурцев, к.ф.-м.н.,
НИЦ "Курчатовский институт", МФТИ
ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ
ПОСТАНОВКА ЗАДАЧИ
ОСНОВНЫЕ ПОНЯТИЯ
ВЫЧИСЛЕНИЕ ПОЛЕЗНОСТИ
ПРОБЛЕМА “ПРОКЛЯТЬЯ РАЗМЕРНОСТИ”
НЕЙРОСЕТЬ, КАК УНИВЕРСАЛЬНЫЙ
АППРОКСИМАТОР
ИГРА - МОДЕЛЬ РЕАЛЬНОСТИ
ГЛУБОКОЕ Q-ОБУЧЕНИЕ
ПРОБЛЕМА
что-то не сходится…
ПРОИГРЫВАНИЕ ОПЫТА
ЗАМОРОЗКА Q-СЕТИ
ОГРАНИЧЕНИЕ АМПЛИТУДЫ НАГРАДЫ
АРХИТЕКТУРА ГЛУБОКОЙ СЕТИ
SEAQUEST
ЧТО ОБЪЕДИНЯЕТ ЭТИХ ДВУХ ЛЮДЕЙ?
ALPHAGO
ПОИСК ПО ДЕРЕВУ
DeepMind AlphaGo vs Lee Sedol
СПАСИБО ЗА ВНИМАНИЕ!