Возможности почтовой инфраструктуры Украины для развития бизнеса дистанционны...
Применение технологии data mining для решения задач клиентской аналитики
1. ПРИМЕНЕНИЕ ТЕХНОЛОГИИ
DATA MINING
ДЛЯ РЕШЕНИЯ ЗАДАЧ
КЛИЕНТСКОЙ АНАЛИТИКИ
Пацера Константин
kostya.patsera@gmail.com
+38 067 220 77 16
2. ВОЗНИКНОВЕНИЕ DATA MINING
Тенденции в бизнесе, которые привели к возникновению Data mining
Ò Возникновение задачи кредитных рисков
Ò Сдвиг ориентации бизнеса от транзакционного маркетинга к маркетингу
взаимоотношений (возникновение CRM)
Ò Постепенное понимание, что клиенты являются активом бизнеса
Ò Признание выгод от использования информации для предсказания событий, а не только
следования за ними
Ò Более широкое использование технологий для управления информацией и
максимизации её ценности
Ò Признание необходимости компромисса между обслуживанием клиентов и получения от
них прибыли
Ò Развитие индивидуальных маркетинговых подходов
2
3. ТЕХНОЛОГИЯ DATA MINING
Data mining – это процесс выявления в сырых данных ранее неизвестных,
нетривиальных, практически полезных и доступных к интерпретации знаний,
необходимых для принятия решений в различных сферах человеческой
деятельности.
Неочевидных – это обозначает, что
найденные закономерности не
находятся стандартными методами
обработки информации или Прикладная
экспериментальным путём. статистика
Объективных – это обозначает, что
найденные закономерности будут Data mining
полностью отвечать действительности, в
отличие от экспертной точки зрения,
которая всегда субъективна. Теория баз Машинное
Практически полезных – это данных обучение
обозначает, что результаты имеют
практическое применение.
3
4. ЭТАПЫ РАЗВИТИЯ АНАЛИТИКИ ПРОГРАММ
ЛОЯЛЬНОСТИ
Этап №1. Создание методологии
É Понятие нового клиента
É Понятие активного клиента
É Понятие ушедшего клиента
É Понятие вернувшегося клиента
É …
Этап №2. Создание отчётности
Этап №3. Сегментация и создание клиентской стратегии
Этап №4. Прогностическая аналитика
É Задача удержания; задача возвращения; задача привлечения
É Задача cross- и up-selling’а
É Задача выявления мошенничества
É Задача выбора каналов контакта с клиентами и времени контакта
É …
Оценка эффективности маркетинговых кампаний
4
5. СЕГМЕНТАЦИЯ КЛИЕНТОВ
Сегментация клиентов – процесс разделения клиентской базы на
сегменты (кластеры), которые не похожи между собой, но клиенты в
сегментах (кластерах) – однородные.
Типы сегментирования:
Ò С точки зрения цели сегментирования:
É …
É …
É …
Ò С точки зрения процесса сегментирования: (данных для
сегментирования!)
É Географические характеристики
É Социально-демографические характеристики
É Поведенческие характеристики
É Характеристики стиля жизни
5
6. ХАРАКТЕРИСТИКИ СЕГМЕНТИРОВАНИЯ
Географические характеристики: Поведенческие характеристики:
Ò регионы/области Ò Использование продукта
Ò город/село Ò Частота использования
Ò размер населённого пункта Ò Динамические KPIs
Ò “равнины”/“горы” Ò Участие в акциях
Ò … Ò …
Социально-демографические Характеристики стиля жизни:
характеристики: Ò Жизненные цели/позиции
Ò пол Ò Ценностный ряд
Ò возраст Ò Предпочтения в работе/отдыхе
Ò образование Ò Получаемая ценность от
Ò семейное положение использования продукта
Ò количество детей Ò …
Ò доход Как правило
Ò наличие жилья/авто есть! J
Ò … Если и есть, то
качество… А нужно ли ?..
Географические, социально-демографические и поведенческие характеристики -
базах данных есть!
Характеристики стиля жизни – необходимо дополнительно собирать! 6
7. ЦЕННОСТЬ СЕГМЕНТАЦИИ
Два глобальных результата сегментации:
1. Понимание клиентов
2. Отслеживание изменений в клиентских сегментах
Сегментация НЕ РЕШАЕТ:
Ò проблему Оттока клиентов, но позволит понять причины!
Ò Задачу cross-selling’а и up-selling’а для каждого клиента
Ò Проблему выявления мошенников, но позволит выделить характеристики, которые могут
быть отличными предикторами для нахождения их в клиентских базах
Ò …
Ò И конечно же, не увеличивает долю рынка, не уничтожает конкурента, не увеличивает
доход компании в N раз (и не решает прочие проблемы информационного спама!)
Ò А также проблемы личной жизни руководства J
Сегментация клиентов должна быть в каждой компании, если речь идёт о CRM.
Сегментация – основа клиентской стратегии.
7
8. ПРОГНОЗИРОВАНИЕ ПОВЕДЕНИЯ КЛИЕНТОВ
Задача удержания клиентов (Churn prediction) состоит в определении
клиентов склонных к оттоку.
Задача cross-selling’а состоит в определение клиентов склонных купить продукт,
который не покупается в данный момент.
Задача up-selling’а состоит в определении клиентов склонных покупать продукт в
большем объёме либо чаще, чем в данный момент.
Задача выявление мошенничества (fraud detection) состоит в определении
клиентов, которые занимаются мошенничеством.
8
9. ПРОЦЕСС ПОСТРОЕНИЯ ПРОГНОСТИЧЕСКИХ МОДЕЛЕЙ
Логистическая регрессия
Деревья решений
id X1, X2, …, Xk Y Нейронные сети
Дискриминантный анализ
1 1 …
2 0
… 0
… 0 X1, X2, …, Xk Y X1, X2, …, Xk Y Tr
… 0 0 0 Tr
… 1 Выборка “0” 0 Выборка “0” 0 Tr
… 0 0 0 T
… 0
База данных 1 1 Tr
… 0
Выборка “1” 1 Выборка “1” 1 T
… 1
1 1 Tr
… 0
… 0
… 1 Построение
… 0 Балансировка
обучающей (Tr) и
данных
… 1 тестовой (T) выборки
n 0
= , ,…
9
10. КАКИЕ БИЗНЕС-ЗАДАЧИ РЕШАЕТ DATA MINING?
Ò Сегментация клиентов
Ò Удержание клиентов; Возвращение клиентов; Привлечение клиентов
Ò Развитие клиентов и продуктов: cross- and up-selling
Ò Увеличение отдачи от инвестиций и сокращение затрат на продвижение товаров и услуг
Ò Идентификация клиентов, которые приносят прибыль
Ò Оценка кредитных рисков (составление скоринговых карт и разработка скоринговых
моделей)
Ò Выявление случаев мошенничества, утрат и злоупотреблений
Ò Анализ деятельности интернет-сайта
Ò Оптимальный выбор каналов контакта с клиентом
Ò …
10
11. СФЕРЫ ПРИМЕНЕНИЯ DATA MINING
Ò Для решения бизнес-задач:
Основные направления: телекоммуникационные компании, банки и финансовые
учреждения, страховые компании, продуктовые и непродуктовые сети, компании с
программами лояльности и/или CRM, производство, электронная коммерция,
маркетинг, фондовые рынок и т.д.
Ò Для решения государственных задач:
Основные направления: поиск улиц, поиск людей, которые уклоняются от налогов,
проверка таможенных грузов и т.д.
Ò Для решения научных задач:
Основные направления: медицина, биология, молекулярная генетика и генная
инженерия, биоинформатика, астрономия и т.д.
Ò Для решения Web-задач:
Основные направления: поисковые системы.
11
12. ЧТО ПРЕДСТАВЛЯЕТ СОБОЙ ПРОЦЕСС DATA MINING?
Data mining базируется на методологии CRISP-DM – (стандартных
межотраслевой процесс data mining / Cross-Industry Standard
Process for Data mining).
Фазы CRISP-DM:
1. Понимание бизнеса: обеспечение чёткого понимания
бизнес-проблем.
2. Понимание данных: определение доступных
для исследования данных.
3. Подготовка данных: подготовка данных
в необходимом формате для получения
ответов на бизнес-вопросы.
4. Моделирование: разработка моделей, которые
отвечают поставленным задачам.
5. Оценивание: тестирование результатов
на соответствие целям проекта.
6. Внедрение: предоставление результатов проекта
тем, кто на их основе будет принимать решения.
7. Мониторинг качества.
12
13. АНАЛИТИЧЕСКИЕ МЕТОДЫ DATA MINING
Ò Кластерный анализ
Ò Факторный анализ
Ò Регрессия (линейная, логистическая, порядковая)
Ò Деревья решений
Ò Нейронные сети
Ò Дискриминантный анализ
Ò Правила ассоциаций
Ò Правила индукций
Ò Выявление последовательностей (последовательные ассоциации)
Ò Поиск аномалий 13
14. ПРОГРАММНЫЕ ОБЕСПЕЧЕНИЯ, КОТОРЫЕ
ПОДДЕРЖИВАЮТ ТЕХНОЛОГИЮ DATA MINING
Ò IBM SPSS Modeler – для работы с
базами данных, для задач бизнес-
анализа, бизнес-прогнозирования и
задач Data mining.
Ò SAS Enterprise Miner – для
работы с базами данных, для задач
бизнес-анализа, бизнес-
прогнозирования и задач Data mining.
Ò Teraminer - для работы с базами
данных и задач Data mining.
Ò KXEN – для задач Data mining.
14
15. СЛОЖНОСТИ ВНЕДРЕНИЯ DATA MINING
Ò Человеческий фактор:
É Квалификация пользователя и бизнес-клиентов
É Понимание бизнеса и понимание данных пользователем
É Сложность интерпретации результатов
Ò Технологический фактор:
É Возможен большой процент неправильных, недостоверных или бессмысленных
результатов
Ò Технический фактор:
É Сложность подготовки данных
É Наличие достаточного количества репрезентативных данных
Ò Ценовой фактор:
É Высокая стоимость построения хранилища данных и программного обеспечения
15