2. Про проект
Задача:
упростить процесс взаимодействия клиента с банком.
2
добавим к "кнопочному" чат-боту NLU+DM
и получим автоответчик-консультант?
Текущий статус:
пилот на части сотрудников Банка.
MEMBER OF
THE PPF GROUP
4. Основные этапы проекта
1. Сбор и разметка данных
генерили сами + собирали из логов собственных веб чатов
2. Обучение моделей для NLU
open source и никакого волшебства (scikit-learn,scipy)
3. Создание диалогового движка
retrieval based question-answering system,
dialog manager, slot filling
4. Интеграция с «кнопочным» чат-движком
(который уже связан с остальными системами)
AI движок = контейнер с REST сервисом
5. Основная часть разработки велась в течение 3.5х месяцев
4
MEMBER OF
THE PPF GROUP
5. Основные ТТХ
• 300+ распознаваемых тематик высказываний
в т. ч. определение факта наличия проблемы и её тематики
• 10+ кнопочных команд
Команда на русском языке инициирует процесс аналогично
нажатию на кнопку в чат-боте
• Slot filling
Использует механизм заполнения форм для запроса доп. данных,
если выполнение команды этого требует
• Entity recognition
Распознаёт 20+ domain-specific сущностей: карты, договора,
Ф.И.О, даты, суммы, валюты, …
• Специализация на банковском домене знаний
5
MEMBER OF
THE PPF GROUP
6. Что даст?
• Новый UI/UX
• Подключение к остальным чат-каналам
- формирование автоответов
- подсказки агентам КЦ
- маршрутизация на правильную скилл-группу
- аналитика и мониторинг по тематикам обращений
• Выпуск на клиентскую аудиторию позволяет
собрать новые данные
6
MEMBER OF
THE PPF GROUP
8. Боль
Мало данных пригодных для обучения
• исторически накапливаемые диалоги с клиентами не совсем
подходят по смыслу (другая специфика, контекст)
• чат диалоги человек-человек требуют трудоёмкой предобработки
(связки акция-реакция) размеченных данных нет совсем
Слишком много «хайпа»
Много шума на рынке.
8
MEMBER OF
THE PPF GROUP
9. Боль
Надо собирать информацию так, чтобы
потом не было мучительно больно её использовать
за неимением лучшего
как минимум делайте функциональность reply-to в чат каналах:
и людям удобно и датасаентисты спасибо скажут
9
MEMBER OF
THE PPF GROUP
10. Статистика по темам
• 6% выполнить действие
(оформление жалобы, блокировка карты,
инициировать звонок,...)
• 5% пообщаться
(привет, пока, что ты умеешь,...)
• 5% проблемная ситуация
(банкомат не работает, "скушал" карту,...)
• 4% информация об объектах банка
(где банкомат, отделение, расписание работы,...)
• 2% курсы валют
• 2% выполнить платёж
• 22% другие запросы
10
• 16% информация о том, как
выполнить действие
(как открыть, закрыть вклад,
кредит,...)
• 15% статус оформленного
продукта
(остатки, выписки, когда платить,
какой платёж,...)
• 12% общая информация
(куда звонить, какой сайт, ...)
• 12% информация о продуктах и
условиях по ним
(какие есть кредиты, депозиты, ...)
MEMBER OF
THE PPF GROUP
12. Про проект
12
Задачи:
1. Упростить процесс решения в хелп-деск.
2. Понять проблему и найти того, кто должен её решить.
Возьмем "мозги" от чат-бота и посадим их на
обработку обращений в хелп-деске?
Текущий статус:
Опытно-промышленная эксплуатация
MEMBER OF
THE PPF GROUP
13. Основные этапы проекта
1. Сбор данных
- данные по своей природе уже размечены
- тысячи текстов обращений в сервис деск с реквизитами создателя,
историей маршрутизации и финальным обработчиком
2. Обучение моделей, решение специфических проблем
пропуски в данных
3. Интеграция с системой
обученный "AI" это REST сервис, фактически готовый
к упаковке в контейнер и деплою
13
MEMBER OF
THE PPF GROUP
14. Основные ТТХ
• Начальник отдела оперативной
технической поддержки:
«Он работает на уровне человека прошедшего
трёхмесячное обучение»
• Sensitivity 85%
• Specificity 95%
14
MEMBER OF
THE PPF GROUP
15. Что даст?
• Снижает необходимость формально описывать проблему -
что ускоряет как и её фиксирование в системе,
так и её решение
• Со временем позволит обрабатывать большее количество
типов обращений
• Дедушка для «Help desk bot»?
15
MEMBER OF
THE PPF GROUP
16. Боль и радость.
• Почему разработчики Service Management систем
до сих пор не продают такую функциональность из
коробки?
¯_(ツ)_/¯
• Относительно удачный кейс применения ML:
специфика процесса такова что разметка данных -
в основном качественная
16
MEMBER OF
THE PPF GROUP
18. Про проект
Задача:
Ускорить процесс анализа бумажной корреспонденции
Понять набор тематик, определить обработчика
Сформировать ответ автоматически
Поставим OCR перед NLU?
18
Текущий статус:
WIP
MEMBER OF
THE PPF GROUP
19. Основные этапы проекта
1. Выбор OCR
Tesseract (open source)
2. Интеграция
3. Сбор данных
- десятки тысяч сканов писем
- тексты + тематики проставленные специалистами
4. Обучение моделей
250+ тематик
19
MEMBER OF
THE PPF GROUP
20. Основные ТТХ
• End-to-end время 10-40 сек.
• Среднее качество распознавания печатных текстов 78%
• Качество распознавания рукописных текстов 0%
• Специализация на банковском домене знаний
• В основном тексты «юридического стиля»
• Словарь ~100К слов (ненормализованных)
20
20
MEMBER OF
THE PPF GROUP
21. Фичи:
• one-hot по «сырым» словам + усредненная позиция (1..2) (~50к фичей)
• SVD (300) (var explained = 0.65, max=0.043)
Письма
21
MEMBER OF
THE PPF GROUP