Машинное обучение можно использовать при сегментации клиентов, активности использования цифровых сервисов, разработке персональных финансовых менеджеров и создании индивидуальных рекомендаций для клиентов…
2. Машинное обучение в задачах сегментации клиентов:
активность использования цифровых сервисов (1/2)
Экономически активные клиенты
уходят в мобильный интернет
Новые каналы – мессенджеры
ШАГ III
Выявление
характерных черт
Идентификация
ШАГ II
Группа Особенности
Хотят казаться более
продвинутыми
Ограниченный
пользовательский опыт
Потребители цифровых
технологий
Используют цифровые
технологии в быту,
но не на работе
Люди, вовлеченные
в цифровую экономику
Наиболее экономически
и социально активные
2
1
ШАГ I
Сегментация
с использованием
нелинейных методов
СЕГМЕНТАЦИЯ КЛИЕНТОВ НА ОСНОВЕ ОТВЕТОВ
В ЗАВИСИМОСТИ ОТ СЕГМЕНТА
МОЖНО ОПРЕДЕЛИТЬ
ПРИОРИТЕТНЫЕ КАНАЛЫ
И ПОТРЕБНОСТИ
МЕТОДЫ визуализация данных большой
размерности с использованием LargeVis
Выводы
3
19
3. По Вашему мнению, какой процент наиболее экономически
активных людей в России – агентов цифровой экономики –
регулярно используют мобильный интернет?
A. 15%
B. 30%
C. 45%
D. 70%
20
4. 2
активно используют интернет
в работе 80%
регулярно пользуются
проводным интернетом 35%
регулярно пользуются
мобильным интернетом 30%
регулярно используют
мессенджеры 15%
регулярно пользуются
электронной почтой 25%
активно используют интернет в работе 40%
пользователи домашнего интернета 60%
регулярно пользуются проводным интернетом 45%
регулярно пользуются электронной почтой 10%
Активные агенты цифровой экономики
Потребители
цифровых технологий
последний раз пользовались
интернетом вчера 20%
регулярно пользуются
поисковыми сервисами 10%
Последователи трендов
1
3
Машинное обучение в задачах сегментации клиентов:
активность использования цифровых сервисов (2/2)
21
5. Персональный финансовый менеджер (PFM):
Как может выглядеть (1/2)
2019 2022 2025 20252028
Получена новая
рекомендация!
Запланированные
события
1. Покупка авто ХV
+
2019
2. Покупка дома ХV
2022
3. Свадьба ХV
2025
4. Рождение
ребенка
ХV
2028
Жизнь
Год
Профиль Рекомендации
Подписка Настройки
СЕГОДНЯ
19.09.2016
22:59
22
6. События/цели 2016 2017 2018 2019 …2022
800 т.р. 100%
4 800 т.р. 7,7% 11,4% 15% 18,6%
Первый взнос
в размере 28%
1 500 т.р. 2,8% 4% 5,3% 6,7%
Накоплено 10,2%
от суммы
Подтвердить исполнение рекомендации
1. Открыть вклад на сумму 1 250 000 рублей (списание с VISA **** 2567). Вид вклада «Цифровой». Срок 36 месяцев. Процент – 7,7% в год
2. Оформить поручение на ежемесячное перечисление на вклад «Цифровой» свободного остатка в размере 15 000 руб. с зарплатной карты Visa **** 2567
при зачислении зарплаты
V
Посмотреть детали
Эффект от выполнения рекомендации
Актуально на 19.09.2019
Предлагаем
Рекомендация Х Отказаться от рекомендацииХ
23
Персональный финансовый менеджер (PFM):
Индивидуальные рекомендации для клиента (2/2)
7. Рекуррентные нейросети (RNN):
Постановка и формализация задачи (1/2)
АРХИТЕКТУРА
слой представлений
категория транзакции → векторное представление
рекуррентный слой(-и)
последовательность представлений →
последовательность внутренних состояний
полносвязный слой
последнее внутреннее представление →
вектор предсказаний
БИЗНЕС ЗАДАЧА реализовать классификатор,
позволяющий автоматически выделять пользователей
с определенными шаблонами поведения
ШАБЛОН ПОВЕДЕНИЯ категории транзакций,
которые пользователь совершит в ближайшее время
ФОРМАЛИЗАЦИЯ ЗАДАЧИ
Исходные данные
• лог транзакций 66 451 пользователей, транзакция: дата, mcc-код, тип, сумма, валюта, страна и пр.
• классификация транзакций на 28 категорий по mcc-коду и типу
Предобработанные данные (объекты)
• последовательности из 100 категорий подряд идущих транзакций одного пользователя
Задача предсказания
• предсказать вероятности всех 28 категорий для следующих 3-х транзакций пользователя
Критерий качества
• площадь под кривой точность-полнота, усредненная по всем категориям и по редким категориям
24
8. Рекуррентные нейросети (RNN):
Результаты (2/2)
РЕЗУЛЬТАТЫ
после выбора архитектуры
сети, подбора гиперпараметров
и экспериментов по работе
с редкими классами
качество на отложенной
по времени выборке
АЛГОРИТМ
AUC ПО ВСЕМ
КЛАССАМ
AUC ПО РЕДКИМ
КЛАССАМ
Рекуррентная нейросеть 0.1885 0.1091
Random Forest 0.1766 0.1011
AUC ПО КЛАССАМ
Рекуррентная сеть
RandomForest
25
9. Исходные данныеПостановка задачи (матем. интерпретация)
Оптимизация наличного денежного обращения:
Постановка задачи. Модели (1/2)
имеются временные ряды X(t) по снятию наличности
с каждого банкомата, с дневной периодичностью
необходимо предсказать выдачу наличности
на 30 дней вперед
большое количество выбросов
изменение трендов временного ряда, после нулевых значений
небольшая глубина данных
Используемые модели
1. Baseline Model
Строилась на среднем
за 3 недели (по дню недели)
2. Random Forest
Признаки:
Лаги
День недели
Дни до зарплаты
3. Facebook Prophet 4. Holt-Winters Model
26
10. Оптимизация наличного денежного обращения:
Кластеризация. Результаты (2/2)
Кластеризация
Итоговая модель (Blending моделей)
MAPE ≈ 70%
27
11. Идентификация мошенников физических лиц:
Графовые методы
ШАГ III
Выявление признаков
мошеннического
окружения (графы)
ШАГ IIШАГ I
Сбор обучающей
выборки: заявки
с мошенничеством
МЕТОДЫ: графовая аналитика, деревья решений,
логистическая регрессия
Обучение модели
и тестирование
на потоке новых заявок
РЕЗУЛЬТАТЫ ПИЛОТА
При тестировании на потоке модель
выявила 8 заявок с признаками
мошенничества, по результатам
детального анализа заявок
по 5 из них мошенничество
подтвердилось
ВНЕДРЕНИЕ – 1 КВАРТАЛ 2018
Связи с другими заемщиками
Связи
с работодателями
Связи по общей
информации:
место жительство,
адреса, телефоны
Связи
с другими
продуктами
28
12. Пример:
«Билетов на рейс Москва-Анапа нет, может, Вам
подойдут билеты на рейс Пекин-Мадрид?»
Recurrent NN (LSTM, seq2seq), Convolutional NN, Feed Forward Networks, Memory Networks
Трансформация чего-либо в вектора: word2vec, char2vec, sence2vec, mood2vec, persona2vec etc
К чему приводит? Неклиенториентированность
«Сколько у меня денег на счету?»
«У вас нет денег»
Критерии оценки чат-бота:
Понял правильно и ответил
Не понял и отправил на человека
Решил, что понял и ответил глупость >15% (по факту)
Нейросетевой искусственный интеллект iPavlov:
Современные технологии (1/3)
29
13. Нейросетевой искусственный интеллект iPavlov:
Данные (2/3)
Источники данных
Открытая информация из интернета (форумы о банках, порталы банков, порталы вопросов/ответов)
Публично доступная информация для клиентов Сбербанка
Актуальная информация Сбербанка (локации банкоматов)
Анонимизированные данные расшифровок звонков в call-center
Внутренняя документация Сбербанка
Генерация данных для обучения DeepMind
Amazon Turk для английского языка
Яндекс Толока для русского языка
Проведение хакатонов
Создание публичных геймифицированных чатботов
Включение чатботов в комп. игры (например, Minecraft)
Запланированные наборы данных
Данные аналог SQuAD для банков на англ.
Банковские форумы на англ. языке
Sberbank QuAD
Банковские форумы на русском языке
Банковская документация на англ./русс.
Анонимизированные данные Банка
30
14. Нейросетевой искусственный интеллект iPavlov.
Проблемы и решения (3/3)
Проблемы Решения
Чистая нейросетка выдает то, что придется
Стандартные ответы не всегда подходят, скрипты
писать долго
Нет выборки для обучения
Неясно как тестировать качество, необходимо
анализировать каждый диалог вручную
Устаревающая информация в обучающей выборке
Например, сегодня отделение банка, которое
рекомендовали вчера, уже закрыто в связи с переездом
Непротиворечивость поведения и имитация
личности, некоторые звонят просто поболтать
Оторванность от реальных условий бизнеса
Отвечать нужно быстро, есть несвязанные темы
Не только нейросети (rule-based, онтология, фильтры и пр.)
Учим вопросы, отвечаем шаблонами
Решения на графах, как использует Google Translate для
выбора наиболее подходящего варианта из предложенных
(Beam Search)
Датасеты. Принцип: As the tree so the fruit
Новая система оценки качества – имитация асессоров
Knowledge storages. Комбинация с Information Retrieval
и Wiki системой (актуальность)
Граф RDF диалога, память модель личности,
в т.ч. через persona2vec и dialog2vec
Тесная связь с реальными задачами
31