19. Operational Database Хранилище данных ( data warehouse) CRM Database Витрина данных настройка классификация результаты эффективность Источник 1 Источник … Источник N Хранилище моделей Server Client CRM Server CRM Software Marketing Server Marketing Client Импорт данных настройка моделей классификация данных мониторинг эффективности Внешняя система ( front office ) Заявка на классификацию
20.
Editor's Notes
Добрый вечер, меня зовут Гуз Иван, я являюсь операционным директором компании «Форексис». Сегодня я, вместе с моим коллегой Константином Воронцовым, который является заместителем директора по науке компании «Форексис» расскажем вам о том, как повысить доходность и лояльность клиентов с помощью поиска логических закономерностей в данных. Пару слов о том кто мы такие и что это за компания такая «Форексис». Первое – мы не играем на биржах и «Форексис» не имеет к «Форексу» никакого отношения! Наша компания основана более 10 лет назад на базе научной школы академика РАН Юрия Ивановича Журавлева и занимается разработкой и внедрением собственного программного обеспечения в области анализа данных. Материал нашей лекции основан на опыте проектов нашей компании, связанных с клиентской аналитикой, в основном в телекомах и банках. Константин расскажет про математические основы поиска логических закономерностей – краткую выжимку из курса лекций, который он читает для студентов МФТИ и МГУ. Я же расскажу про то, как мы успешно использовали эту теорию на практике. В своем рассказе я буду приводить различные примеры из нашей практики, однако, надеюсь, что вы отнесетесь с пониманием, если не во всех местах я назову конкретные компании, на основе которых построен пример.
Итак, вначале пару слов о структуре нашего выступления. Вначале мы расскажем о том, как предсказывать поведение и потребности клиентов. Мы расскажем на основании какой информации и каким конкретно способом можно рассчитать насколько сильно в данный момент времени клиент хочет приобрести конкретную услугу или продукт. Также мы покажем как рассчитать насколько сильно клиент склонен к прекращению использования услугами компании, то есть насколько сильно он склонен к уходу. ( NEXT ) После этого мы расскажем как именно использовать эти рассчитанные склонности для того, чтобы повысить доходность и лояльность клиентов. ( NEXT ) И в заключении я расскажу про архитектуру решения, которое было разработано нашей компанией. Решение позволяет автоматизировать большую часть работы по повышению доходности и лояльности клиентов.
Для начала рассмотрим простой пример из жизни российских банков, демонстрирующий механизм повышения доходности клиентов за счет предсказания их потребностей : Представьте себе сотни тысяч клиентов банка, у которых есть зарплатная карта. Как повысить их доходность ? – Попробуем предложить им овердрафт на эту карту, то есть возможность уходить в минус. То есть, грубо говоря, наделим такую карточку возможностями кредитки. Проведем тестовую маркетинговую кампанию на небольшой, но представительной группе клиентов. Результаты кампании следующие : Всего 2.4% клиентов соглашаются на это предложение, при этом стоимость контакта с клиентом в среднем составляет 250 рублей (то есть позвонить ему, обслужить его оформление в отделении и т. д.), а средняя прибыль с одного клиента за всю историю взаимодействия с ним более 10 000 рублей. Посчитаем, может ли такая кампания быть прибыльной : (NEXT) Оказывается что нет! Вопрос – а можно ли здесь что-то изменить ? Что если мы научимся ранжировать всех клиентов по склонности к согласию на это предложение. Насколько сильно нам это поможет ? (NEXT) Допустим мы смогли отобрать 10 000 клиентов, среди которых процент отклика гораздо больше и составляет уже 9%. Видим, что в этом случае вся затея становится выгодной. И это не предел прибыльности этого предложения. Его можно пытаться повторять каждый месяц и отбирать все новых и новых клиентов, которые к этому моменту времени созрели к нему. Более того, на оставшихся 90% клиентах тоже можно зарабатывать, нужно лишь придумать для них другое предложение : кредит наличными, автокредит, что-то другое.
Теперь рассмотрим процесс определения склонности клиента к совершению определенного действия. На основе этой информации можно в дальнейшем принимать различные решения по повышению его доходности.
Какая же информация нужна для такого предсказания и где ее брать ? Основная часть необходимой информации хранится в корпоративных хранилищах данных, таких как биллинговые системы в телекоме, процессинговые системы в финансовых учреждениях и прочие. ( NEXT ) Информация, описывающая клиента, разделяется на несколько групп. Выделяют такие группы данных как социально-демографическую информацию, которую клиент заполняет с помощью анкет, информацию по участию в различных маркетинговых акциях, информацию по использованию продуктов и услуг и прочие. В приведенном примере с банком без этих данных не получилось бы ранжировать клиентов и повысить их доходность. ( NEXT ) Другая часть необходимой информации берется из головы экспертов. Именно на основе экспертных знаний происходит формирование предложений клиентам. Действительно, в приведенном примере с зарплатными карточками без наличия самой идеи примера бы вообще не существовало и повысить доходность клиентов мы бы не смогли. ( NEXT ) На основе экспертных предложений или гипоз, а также данных о клиентах будет проводится расчет склонности клиента к отклику на это предложение или выполнении определенного действия. Как же это делается ? Идея простая – представим себе, чтобы мы хотим прогнозировать отклик на некоторое предложение и в прошлом мы уже делали аналогичное предложение. Тогда мы возьмем состояние клиентов на момент когда мы делали им предложение, и разделим их на две группы – тех кто согласился и тех, кто не согласился. Задача состоит в том, чтобы построить математическую модель, которая бы на основе исходного описания клиентов как можно лучше разделяла бы эти две группы клиентов. Где еще можно взять эти исторические данные ? В случае конкретного предложения это могут быть клиенты, которые уже раньше откликались на аналогичное предложения или самостоятельно покупали предлагаемый продукт. Если предлагается что-то принципиально новое, то вначале проводят тестовую кампанию, и далее полагаются на ее результаты. Рассмотрим теперь, как можно описать состояние клиентов. Покажем как можно это сделать, на примере группы данных о платежах клиента.
Чтобы описать состояние клиента необходимо понимать как хранятся данные в хранилищах. Физическая модель данных в хранилищах представляет собой специальный вид реляционной модели, называющийся dimensional model , таблицы которой построены по схеме звезда или снежинка, как в данном примере с платежами. В центре звезды лежит таблица фактов, содержащая несколько мер и измерения, по которым эта мера измеряется. В данном примере Сумма платежа является измеряемой мерой, которая измеряется по таким измерениям как клиенты, Время суток, Дата, Способ платежа и место платежа. Каждое измерение может иметь одну или несколько иерархий. Например, места платежа могут группироваться в регионы, а также по типу места. Даты могут группироваться по неделям, а недели по месяцам. Теперь покажем, как на основе информации о платежах можно описать состояние клиентов на заданный момент времени.
Итак, мы хотим посчитать суммарное или среднее значение меры, то есть платежа в нашем случае, агрегированное по различным измерениям. Основное измерение, которое обязательно следует учитывать это, конечно же, время, поскольку мы описываем состояние клиента на заданный момент времени. Можно считать агрегат за последнюю неделю, за вторую последнюю неделю, третью, за последний месяц и т. д. Но, понятно, что заглядывать на годы назад смысла не имеет, поскольку раньше клиент мог себя вести сильно иначе, а мы хотим описать его состояние на заданный момент времени. Также можно агрегировать по любому другому измерению : Типу дня, Времени суток и т. д. В результате будут получаться признаки, описывающие клиента, вида : “ Суммарный размер платежа за 1 последний месяц по рабочим дням через POS -терминалы ” Замечательно – мы научились описывать состояние клиента, но сколько будет таких признаков для одной меры ? Посмотрим, что получается в нашем примере : (NEXT) Если посчитать полное декартово произведение, то получится 2 возможных агрегата * 10 разумных агрегаций по времени * 4 типа дня * .. = 600 000 признаков!!! – Это очень много. Причем мы сейчас описали только простейшие признаки. А ведь могут быть еще и производные, например : Любимое время суток платежа. А если вспомним, то клиенты описываются не одной мерой, то получится, что каждый клиент описывается миллионами или десятками миллионов признаков!!! Что же делать ? (NEXT) Обычно есть экспертное понимание, какие иерархии рассматривать вообще не стоит (например, тип дня оплаты может совершенно ни на что не влиять), а какие размерности можно существенно сократить. Например, для клиентов банка, совершающих покупки, рассматривать недельную детализацию достаточно бессмысленно, поскольку человек максимум делает несколько покупок в неделю и в данных будет очень много шума. Другая возможность для удаления признаков – расчет их информативности. Об этом подробнее расскажет Константин. Что делать дальше ? Умея описывать состояние клиента на заданный момент времени можно подготовить обучающую выборку данных. Если интересующее нас событие определяется просто, то подготовить эту выборку также просто. Например если нас интересует, склонность клиента к отклику на предложение, которое уже делалось в прошлом, то следует взять всех клиентов, на момент, когда им делалось предложение и определить, какие их них откликнулись, а какие – нет. Но это простейший случай, на практике встречаются куда более сложные ситуации. На следующем слайде приведен пример подготовки обучающей выборки для определения склонности клиентов к уходу, который был применен нами в НСС.
Хватаем мел и идем к доске рассказывать. Как определить целевое событие для уходящих клиентов ? Сначала поймем, кто такие ушедшие клиенты – все их определяют по-разному. Положим что это такие клиенты, у которых 3 месяца подряд не было ни одной транзакции. Прогнозировать для каждого клиента время ухода точно не получится – все клиенты слишком сильно различны. Гораздо проще прогнозировать менее точные события. Например, мы, обычно, рассчитываем вероятность того, что клиент уйдет через месяц в течении еще одного месяца. Этой информации достаточно, чтобы определить, что клиент собрался уходить и у нас достаточно времени, чтобы его постараться удержать. Давайте изобразим, как формировать обучающую выборку : Очень важно – вероятности должны быть согласованы, то есть нельзя в обучающую выборку искусственно включить побольше уходящих, так как мы хотим, чтобы модель клиента, которую мы построим, предсказывала нам именно числа в соответствии с реальным распределением уходящих клиентов.
На выходе всех процедур подготовки данных у нас получается так называемая матрица «объекты - признаки». По строкам этой матрицы расположены клиенты, а по столбцам – их признаки. При этом в таблицу могут входить как базовые признаки, так и производные, характеризующие психологию поведения клиентов. В данном примере приведен пример производного признака «Онлайнер» - это клиент, который более 90% своих платежей совершает через Интернет. В зависимости от имеющихся данных могут быть выделены другие профили. Например, в телекомах, если человек совершает и дневные и ночные звонки из одного и того же места, то можно сказать, что он Домоседа. И самое основное, что должно быть в этой таблице – это целевой признак, в простейшем случае принимающий 2 значения. Именно целевой признак позволит строить математические модели клиентов, склонных к отклику на предложение или к совершению определенного действия, а также определять их качество. Сейчас я передаю слово Константину Воронцову, который расскажет как именно с математической точки зрения это делается.
Показываем на доске как оценивать качество моделей с помощью коэф. Джини.
Показываем на доске, как оценивать качество моделей с помощью Lift Chart
Построив несколько моделей и выбрав для каждого предложения самую лучшую, мы можем регулярно рассчитывать для каждого клиента вероятность согласия на конкретное предложение. Причем, в зависимости от имеющихся данных, можно рассчитывать не только одну вероятность отклика на предложение, но и вероятность отклика на предложения для различных каналов коммуникации ( SMS, Call – центр). Как это можно дальше использовать ? При звонках в колцентр, клиенту можно предлагать тот продукт, который он больше всего хочет. -На веб сайте можно выводить в рекомендациях top3 услуги, которые больше всего подходят. -Можно брать определенный продукт и проводить с его помощью кампании прямого маркетинга.
Отлично, теперь мы умеем определять вероятности покупки клиентом определенной услуги или отклика на определенное предложение, а также уже знаем как можно их использовать для пассивного повышения лояльности и доходности клиентов. Давайте посмотрим, как эффективно организовывать кампании прямого маркетинга на основе этой информации. В чем основной вопрос – каких клиентов нужно брать в кампанию, то есть вероятность отклика должна быть больше какого значения, чтобы клиенту стоило делать предложение ?
Ключевую роль здесь играют 2 числа : Прибыль, которую мы получим если клиент примет наше предложение Стоимость контакта, то есть наши затраты на то, чтобы сделать клиенту предложение ( NEXT ) На основе этой информации можно рассчитать приведенную ценность клиента : вероятность отклика умноженная на прибыль – вероятность несогласия * стоимость контакта В кампанию следует брать всех клиентов, у которых приведенная ценность положительна. На рисунке приведен график прибыльности компании, в зависимости от порога вероятности, начиная с которого мы включаем в кампанию клиентов. На основе этой оценки можно прогнозировать результаты будущих кампаний, а также определять, какие кампании вообще прибыльные. Также можно ранжировать продукты для клиента по прибыльности, тем самым максимально эффективным способом повышая его доходность. Далее рассмотрим, как же оценивать эффективность таких кампаний.
Наша задача - понять насколько хороша наша предиктивная модель и насколько хороша наша маркетинговая идея по отдельности. Да, идея может быть неэффективной. Например, на кампанию прямого маркетинга была потрачена куча денег, но клиенты и так на нее откликнулись бы, так как параллельно проводилась масс маркетинговая реклама того же продукта. Итак, выделяют 3 выборки клиентов – Основная группа – лучшие с точки зрения модели, которым будет сделано предложение. Контрольная группа – лучшие с точки зрения модели клиенты, но им предложение сделано не будет. Тестовая группа – случайный выбор клиентов, для которых будет проведена кампания. Разница между процентами отклика между основной и контрольной групп и есть качество маркетинговой идеи. Разница между процентами отклика в тестовой и основной группах есть качество нашей модели.