В своем выступлении я опишу наш текущий проект в Interaction Lab, на факультете математики и компьютерных наук университета Херриот-Ватт, Шотландия. Наше исследование посвящено разработке голосовой интерактивной системы, которая может эффективно и адаптивно взаимодействовать с людьми. Такие системы часто используют обучение с подкреплением (Reinforcement Learning), вычислительную модель, которая методом проб и ошибок выучивает сложные модели поведения. Недостатком таких систем является ограниченная масштабируемость, т.е. трудности при работе с большим пространством возможностей и паралелльными задачами. Я опишу три возможных решения этой проблемы: использование предыдущих знаний, повторное использование выученных стратегий и гибкое взаимодействие. Все три подхода будут проиллюстрированы действующими системами, которые тестировались на реальных пользователях. В конце я обсужу возможные направления будущей работы, нацеленной на использование систем Reinforcement Learning в реальных (неэкспериментальных) системах.