SlideShare a Scribd company logo
1 of 31
Download to read offline
C
om
pleted
Вейнберг Роман Рафаилович
Моделирование процессов выявления и
формирования предпочтений потребителей
телекоммуникационного предприятия
Диссертация на соискание учёной степени
кандидата экономических наук
Научный руководитель:
д.т.н., профессор
Романов Виктор Петрович
Москва 2013
Специальность 08.00.13
Математические и инструментальные методы экономики
C
om
pleted Слайд 2
1. Последние 2-3 года в мире наблюдается удвоение объема передаваемой
информации через информационно-телекоммуникационную инфраструктуру;
2. Происходит дифференциация спектра предоставляемых сервисов (до 100
комбинаций услуг на отдельно взятых локальных рынках), с имеющимся
повышением динамики изменения предоставляемых услуг связи;
3. Наблюдается рост объемов клиентской базы - показатели общемирового
количества пользователей сотовой связи прогнозируются на уровне 14
миллиардов абонентов к 2020 году.
Актуальность диссертационного исследования
Повышение конкуренции на телекоммуникационном рынке
Необходимость усовершенствования существующей концепции
взаимоотношения с клиентами (CRM)
Разработка комплекса методов и моделей, представляющих собой
инструмент эффективного управления и анализа потребительской базы,
ядром которой должно стать наличие гибкой интеллектуальной
информационной системы поддержки принятия решений, позволяющей
автоматизировано формировать клиентские предпочтения и подбирать
рациональные пакеты услуг связи
C
om
pleted Слайд 3
Разработка комплексной модели и совокупности программно-
инструментальных средств мониторинга предпочтений и
формирования структуры клиентской базы телекоммуникационной
компании с использованием интеллектуального анализа данных и
системы управления бизнес-правилами в рамках бизнес-процесса
взаимодействия субъектов телекоммуникационного рынка для
подбора рационального набора услуг связи в зависимости от
клиентских характеристик.
Цель диссертационного исследования
C
om
pleted Слайд 4
1. Сформировать систему качественных и количественных характеристик,
определяющих активность потребителей рынка телекоммуникационных услуг и
отражающих их личные данные;
2. Формализовать информационно-логическую схему выявления и формирования
клиентских предпочтений с учетом обратной связи и набора потребительских
(профиля потребления) и личностных клиентских характеристик (личного
профиля);
3. Разработать методику выявления клиентских предпочтений с учетом профиля
потребления и набора личностных клиентских характеристик на основе
применения методов интеллектуального анализа данных.
4. Провести компьютерные эксперименты для подтверждения практической
эффективности разработанной методики выявления клиентских предпочтений на
основе кластеризации данных потребления услуг связи, с последующей
классификацией полученных кластеров с учетом набора личностных клиентских
характеристик.
5. Построить модель подбора необходимых наборов услуг связи и формализации
применения результатов ИАД на основе системы управления бизнес-правилами.
6. Разработать структуру интеллектуальной информационной системы поддержки
принятия решений (ИИСППР) с модулем ИАД, необходимым для анализа и
выявления предпочтений клиентов, и модулем BRMS, обеспечивающим
формализацию применения результатов кластеризации и классификации
клиентских предпочтений.
Задачи диссертационного исследования
C
om
pleted Слайд 5
 Объект исследования: предпочтения потребителей
телекоммуникационных услуг, характеризующиеся разнородными
количественными и качественными характеристиками;
 Предмет исследования: инструментальные методы и средства
выявления и формирования предпочтений потребителей услуг связи,
базирующиеся на анализе активности клиентов телекоммуникационной
компании и телекоммуникационного рынка Российской Федерации;
 Методы исследования: системный анализ, визуализация данных
(метод главных компонент, метод Сэммона и нечеткий метод Сэммона),
четкая и нечеткая кластеризация «без учителя» на основе Эвклидова
расстояния, классификация данных «с учителем», на основе машины
опорных векторов и обучающих функций ядра, EDM-метод, метод поиска
оптимального количества кластеров с помощью вычисления «седловой
точки», методы математической логики;
 Используемое ПО: программно-инструментальный комплекс IBM
SPSS, JPM SAS, R-project, XL-Stat, Matlab, программный пакет
визуального программирования Visual Rules Suite (модуль BRMS Visual
Rules Modeler, компании Bosh), комплекс автоматизированного
проектирования и моделирования бизнес-процессов Microsoft Visio, база
данных MySQL Server и СУБД dbForge Studio.
C
om
pleted Слайд 6
 состоит в разработке целостной методики выявления и
формирования клиентских предпочтений, а также построении
структуры интеллектуальной информационной системы поддержки
принятия решений на основе применения комплекса методов
интеллектуального анализа данных и их интеграции с системой
управления бизнес-правилами, позволяющей осуществлять в
результате компьютерного эксперимента подбор рационального
набора услуг мобильной связи.
Научная новизна исследования
Информационная база исследования
 данные компании ОАО Мобильные ТелеСистемы, официальный
сайт компании ОАО МТС, материалы специальных периодических
печатных и электронных изданий в области CRM и сотовой связи,
материалы научных и научно-практических конференций,
публикуемые данные информационных агентств, отчеты
аналитических и консалтинговых компаний.
C
om
pleted Слайд 7
1. Создана информационно-логическая схема (ИЛС) реализации процесса
выявления и формирования клиентских предпочтений с учетом обратной связи
между субъектами рынка и формализацией применения полученных результатов
интеллектуального анализа данных (ИАД) с помощью системы управления бизнес-
правилами в рамках бизнес-процесса подбора рационального набора услуг в
зависимости от клиентских характеристик;
2. Предложен рациональный набор характеристик клиентов и их активности на
телекоммуникационном рынке, включающий в себя данные по потреблению услуг
связи и набор личностных данных, реализованные в виде древовидной структуры
системы показателей;
3. Разработана методика выявления клиентских предпочтений, реализованная c
помощью компьютерного эксперимента в рамках модельных данных изучаемой
совокупности клиентов и основанная на методологии ИАД;
4. Разработана модель на основе системы управления бизнес-правилами для
автоматизации процесса подбора телекоммуникационных услуг через
последовательное и параллельное выполнение блоков правил;
5. Разработана структура интеллектуальной информационной системы поддержки
принятия решений на основе средств интеллектуального анализа данных и
формализации применения его результатов в системе управления бизнес-
правилами.
Наиболее существенные научные результаты
C
om
pleted
РЕЗУЛЬТАТ 1: создана информационно-логическая схема (ИЛС) реализации процесса
выявления и формирования клиентских предпочтений в рамках управления
взаимоотношениями с клиентами
C
om
pleted 9
РЕЗУЛЬТАТ 2: предложен набор характеристик о клиентах и их активности на
телекоммуникационном рынке реализованный в виде древовидной структуры системы
показателей
C
om
pleted Слайд 10
РЕЗУЛЬТАТ 3: разработана методика выявления клиентских предпочтений,
реализованная c помощью компьютерного эксперимента (слайды 11-22)
 Данная методика характеризуется комплексным подходом к формированию
предпочтений клиентов необходимым в условиях динамического развития и
изменения рынка телекоммуникационных услуг связи.
C
om
pleted
Этапы методики выявления клиентских предпочтений
3.1. Выбор и обоснование методов кластеризации данных (без учителя и предварительной классификации)
Слайд 11
C
om
pleted
3.2. Поиск оптимального количества кластеров на примере алгоритма k-
средних (k-means) с помощью метода изгиба (Elbow Criterion)
Примечание*
• коэффициент распределения (PC) = 1,
• классификационная энтропия (CE) = «NaN (Not-a-Number)».
Это связано с тем, что эти две меры предназначены
для методов нечеткого разбиения.
 Объединять в кластеры данные для различных значений центров кластеров «с» и проверять правильность
разбиения полученных кластеров, используя методы проверки, путем определения коэффициентов и
индексов c учетом их графической интерпретации (изогнутости графика):
1. Индекс Данна (DI)
2. Альтернативный индекс Данна (ADI)
3. Коэффициент распределения (PC)*
4. Классификационная энтропия (CE)*
5. Индекс распределения (PI)
6. Индекс разделения (SI)
7. Индекс Си-Бени (XB)
Критерий изгиба - необходимо выбрать такое количество
кластеров, чтобы добавление других кластеров не
приводило к добавлению соответствующей информации [R.
L. Thorndike, 1953].
Графическая демонстрация метода изгиба и поиска оптимального
количества кластеров для алгоритма К-средних (фрагмент), трех индексов (PI, SI, XB)
Слайд 12
C
om
pleted
1. Процесс проверки выбора оптимального количества кластеров повторяется и для других алгоритмов
кластеризации: Гюстафсон-Кессель, К-медоид, Гаф-Гева и С-средних;
2. Определено, что для алгоритмов K-средних, К-медоид и Гаф-Гева оптимальное число кластеров
равняется четырем (с = 4). Для алгоритмов нечетких С-средних и Густафсона-Кесселя, исходя из
графического представления метода изгиба, оптимальное количество кластеров равняется шести (с = 6).
3. Для визуализации данных были выбраны следующие методы понижения размерности (без большой
потери качества исходных данных, в связи с определением и расчётом главных компонент в области
высокой дисперсии исходных данных):
3.3. Окончательный выбор оптимального количества кластеров и
визуализация результатов кластеризации
Метод главных
компонент [K. Pearson, (1901)].
Сохранение дисперсии в данных при
визуализации для алгоритма K-
средних .
Метод Сэммона [Sammon J.W.
(1969)].
Сохранение расстояний между
образами при визуализации для
алгоритма К-медойд.
Fuzzy метод Сэммона
[Sammon J.W. (1969)].
Сохранение расстояния
между точками данных и
центрами кластеров при
визуализации для С-
средних, Густафсона-
Кесселя и Гаф-Гева.
Слайд 13
C
om
pleted
С помощью результатов использования методов проверки и визуализации кластеризации
можно сделать вывод о том, что существуют два возможных наилучших решения для
изучаемой совокупности данных: алгоритм Гаф-Гева при с = 4 и алгоритм Густафсона-
Кесселя при с = 6.
3.4. Окончательный выбор методов кластеризации для изучаемой
совокупности клиентов и построение клиентcких профилей потребления
Слайд 14
C
om
pleted
3.5. Построение профиля потребления по среднему значению по всем линиям
(эквивалент центра кластера, c = 4)
Профили центров кластеров для с = 4
(алгоритм кластеризации Гаф-Гева).
• в случае с четырьмя кластерами, в кластере
1 присутствуют клиенты, которые, по
сравнению с другими кластерами, обладают
минимальными значениями в каждой
категории. В кластере 2 наблюдаются
высокие значения в позициях 6, в то время
как кластер 3 содержит пиковые
значения характеристик в 10, 11 и 12.
Четвертый и заключительный кластер имеет
высокие значения характеристик почти по
всем категориям, кроме 6-го, 10-го, 11-го и
12-го значения характеристик.
Профиль потребления 1:
MIN значения всех характеристик,
Потенциал внутреннего развития:
«объем SMS-трафика» - VAS
«объем MMS-трафика» - VAS
1 2
3 4
Профиль потребления 2:
Потенциал внутреннего развития:
«звонки на мобильные телефоны» - CSD
«междугородный роуминг» - CSD
«мобильный Интернет» - VAS
«мобильный контент» - VAS
Профиль потребления 2:
MAX «международный роуминг» - CSD
(средняя продолжительность
вызова в секундах, в день)
Профиль потребления 3:
MAX «Мобильный контент» - VAS
MAX «Продолжительность входящего вызова»
MAX «Количество телефонных вызовов в день»
MAX потребление по большинству услуг связи
(от повседневных CSD, до высокотехнологичных VAS
услуг):
1. звонки по домашнему региону,
2. звонки внутри сети, звонки на стационарные телефоны,
3. звонки на мобильные телефоны,
4. междугородний роуминг, международный роуминг,
5. объем SMS-трафика, объем MMS-трафика,
6. использование мобильного Интернета
Слайд 15
C
om
pleted
 Этап обучения SVM с помощью К-кратной перекрестной проверки:
3.6. Классификация полученных кластеров с помощью метода опорных
векторов и использования обучающих функций ядра
Определение точки остановки обучения SVM.
 Данные обучения будут использоваться
для обучения SVM.
 Тестовые данные будут применяться для
оценки ошибок во время обучения SVM.
 Проверочные данные будут
использоваться для определения
реальной эффективности SVM после
завершения его обучения.
 SVM будет остановлено, когда ошибка,
оцениваемая с помощью тестовых
данных, достигнет локального
минимума,
 K-кратное разбиение данных, K = 10
 Для каждого из K экспериментов, K-1 будут
использоваться для обучения, а оставшийся
один эксперимент – для тестирования.
 Метод: «один против одного», в котором
создаются модели k (k – 1)/2, где k –
число классов.
Количество проводимых экспериментов обучения
Слайд 16
C
om
pleted
 Линейная функция ядра K (xi, xj) = xi
T xj
 Полиномиальная функций ядра степени d : K (xi, xj) = (xi
T xj + с0)d
 Сигмоидальная функция ядра K (xi, xj) = tanh (xi
T xj + с0)
 Радиальная базисная функция ядра K (xi, xj) = ехр (– | | хi – хj | |2)
3.7. Проверка эффективности функций ядра как уникального
классификатора с разными вычисляемыми параметрами*
6
4 Радиальная базисная функция
Повышение размерности данных с помощью кернелфункций:
*Составлена лично автором на основе экспериментальных данных и расчётов Слайд 17
C
om
pleted Слайд 18
РЕЗУЛЬТАТ 4: разработана модель на основе системы управления бизнес-
правилами для автоматизации процесса подбора телекоммуникационных
услуг через последовательное и параллельное выполнение блоков правил
Глобальный поток правил модели Telecom Project 1 в BRMS-системе Visual Rules
Modeler
Элементы
обновления
экспорта и
импорта во
внешнюю базу
данных (MySQL)
Элементы
вложенного
потока правил
Алгоритм выполнения
внутренних потоков правил
модели
C
om
pleted 14
РЕЗУЛЬТАТ 5: разработана структура интеллектуальной информационной системы поддержки принятия решений в виде
совокупности функционально и информационно связанных модулей (ИАД и BRMS) обеспечивающих формирование
клиентских предпочтений и подбор адекватных им наборов услуг связи
C
om
pleted
 Результаты диссертационного исследования внедрены в ОАО «Основа
Телеком» и ООО «Бизнес Аналитические Системы» (БАС);
 Полученные теоретические результаты и инструментальные решения могут
быть использованы в процессе выявления, формирования и управления
клиентскими предпочтениями в рамках телекоммуникационного сектора
Российской Федерации;
 Фрагментарно практические результаты диссертационного исследования
интегрированы в учебный процесс в рамках подготовки бакалавров
образовательного направления 080500.62 – Бизнес – информатика по
дисциплине «Системы управления бизнес-правилами»;
 Результаты могут быть использованы предприятиями телекоммуникационной
сферы, сферы услуг, фирмами, занимающимися созданием аналитических и
колаборационных CRM и т.д.
Практическое значение диссертационного исследования
Опубликованные работы и выступления на конференциях
 Основные положения работы представлялись и докладывались на 12-ти
международных научно-практических конференциях;
 По материалам диссертации опубликовано 16 работ общим объемом 5,8 п.л., в
том числе авторских 3,7 п.л., из них 1,06 п.л. – 4 статьи в журналах ВАК
Минобрнауки России.
Слайд 20
C
om
pleted
1. Разработанная информационно-логическая схема взаимоотношения потребителей и
поставщиков услуг связи с использованием совокупности инструментальных методов
интеллектуального анализа данных и системы управления бизнес-правилами, обеспечивает
корректное и адекватное моделирование процесса выявления и формирования клиентских
предпочтений;
2. Показатели, определяющие потребителя услуг связи целесообразно разделить на «профиль
потребления» (с учетом услуг, приносящих дополнительный доход - VAS и услуг голосовой
связи - CSD) и «личный профиль клиента» (набор социально-демографических
характеристик: возраст, пол, образ жизни), что в совокупности отражает целостную модель
типичного клиента телекоммуникационного предприятия;
3. Применение разработанной методики выявления клиентских предпочтений показало, что в
рамках динамических условий развития и изменения рынка услуг связи целесообразно для
моделирования процессов выявления клиентских предпочтений в телекоммуникационной
сфере применять алгоритмы нечеткой кластеризации;
4. Применение моделей и системы управления бизнес правилами дает возможность
проведения корректной формализации результатов интеллектуального анализа данных с
дальнейшей возможностью их автоматического тестирования и выполнения;
5. В результате интеграции модуля интеллектуального анализа данных и системы управления
бизнес правилами была разработана структура интеллектуальной информационная системы
поддержки принятия решений, функционально обеспечивающая автоматизацию процессов
подбора рационального набора услуг связи для клиентов исходя из набора их
количественных и качественных характеристик. Работоспособность системы доказана
проведенным тестами и выполненными потоками правил, с занесением результатов в базу
данных клиентов, а также эффективностью ее внедрения и использования на реальном
телекоммуникационном предприятии.
Выводы диссертационного исследования
Слайд 21
C
om
pleted
Благодарю за внимание!
C
om
pleted
Дополнительный материал:
визуализация алгоритмов
кластеризации
C
om
pleted
1. Визуализация четкого алгоритма кластеризации k-средних и k-medoids*
методы четкой кластеризации
позволяют
проанализировать данные
клиентского профиля
потребления и построить
надлежащие кластеры.
Примечание*
•Во избежание проблем, связанных с построением диаграммы (использование слишком большого количества
значений приведет к отображению большого облака точек), из двумерного множества данных было выбрано
500 значений, соответствующих 500 клиентам (потреблению ими услуг связи по 12-ти значениям характеристик)
ни один из кластеров не
содержит
существенно большее или
меньшее
число клиентов, чем другие
кластеры.
У данного метода кластеризации есть
проблемы с интерпретацией динамических
данных
C
om
pleted
2. Визуализация нечеткого алгоритма кластеризации нечеткое c-среднее
(fuzzy c-means) и fuzzy Густафсон-Кессель (GK)
Для ситуации с 4 кластерами
видны только два хорошо
заметных кластера. При
более детальном
рассмотрении графика можно
увидеть, что на самом деле
имеются 4 центра кластеров, и
что центры кластеров
находится практически на
одном месте.
Для ситуации с 6 кластерами
можно увидеть три больших
кластера с одним небольшим
кластером в одном из больших
кластеров. Двух других
центров кластеров почти не
видно. Это означает, что
алгоритм нечетких С-средних
не позволяет обнаружить
надлежащие кластеры для
этого множества данных.
В обоих случаях кластеры
хорошо разделены.
Кластер в левом нижнем углу и
кластер в правом верхнем углу присутствуют в случае с 4 и 6 кластерами.
Это может свидетельствовать о том, что точки в этих кластерах
представляют клиентов, у которых имеются отличия от других клиентов МТС по нескольким полям.
C
om
pleted
3. Визуализация нечеткого алгоритма кластеризации Гаф-Гева (GG)
Результат использования
алгоритма Гаф-Гева для с = 4
схож с результатом
применения алгоритма
Густафсона-Кесселя для с = 4
(предыдущий слайд).
Результат для с = 6 является
примечательным. В данном
случае появляются кластеры
в других кластерах.
Оценка оптимальности
показателей и индексов
кластеризации
C
om
pleted
 1 - звонки по домашнему региону (средняя продолжительность вызова в секундах в день), 2 – звонки внутри сети (среднее количество
вызовов в день), 3 – звонки на стационарные телефоны (среднее количество вызовов в день), 4 – звонки на мобильные телефоны (%), 5 –
междугородний роуминг (средняя продолжительность вызова в секундах, в день), 6 – международный роуминг (средняя продолжительность
вызова в секундах, в день), 7 – объем SMS-трафика (измеряется в процентах, в день), 8 – объем MMS-трафика (измеряется в процентах, в
день), 9 – использование мобильного Интернета (измеряется в процентах, в день), 10 – использование мобильного контента (измеряется в
процентах, в день), 11 – продолжительность входящего вызова (средняя # в секундах в день), 12 - количество телефонных вызовов в день.
4. Построение профиля потребления по среднему значению по всем линиям
(эквивалент центра кластера, c = 6)
Профили центров кластеров для с = 6
(алгоритм кластеризации Густафсон-Кессель).
Результаты кластеризации по 12-ти нормированным
значениям характеристик клиентов для двух
алгоритмов кластеризации.
1 2
3 4
5 6
Числовые характеристики показателей
C
om
pleted
Модель на основе
бизнес-правил
C
om
pleted
Примеры вложенных потоков бизнес-правил и их выполнение в Visual Rules Modeler
(модель Telecom Project 1)
«Сluster's attachment» - формализация через правила
принадлежности клиента к кластеру и отслеживание его
динамического изменения и движения
«Age» - формализация показателя «возраст
клиента»
набор БП: Business Rules
IF Cluster’s_attachment = 1 THEN set
client_profile = «1», set description =
«max_cons=sms, max_ cons=mms,
PID = inside_calls»;
IF Age = «<25» AND
Cluster’s_attachment = 1
THEN
set status = «student», set description
= «max_cons=sms, max_ cons=mms,
PID = inside_calls».
набор БП: Business Rules
IF Cluster’s_attachment = 3 THEN set
client_profile = «3»;
IF Age = «25-40» AND
Cluster’s_attachment = 3 THEN set
status = «middle_age», set description
=«average_consumption»
ELSE
IF Age = «>50» AND
Cluster’s_attachment = 4
THEN
set status = «old», set description =
«low_consumption».
C
om
pleted
 Для экспериментальной проверки было разработано 120 записей с данными условных потребителей телекоммуникационных
услуг. Данные вводятся через СУБД dbForge (MySQL).
 В исследовании разработано 100 вариаций правил в рамках модели ГПП (на языке программирования Rule Language),
обработано, выполнено и протестировано 7 вложенных потоков правил.
Работа с тестовыми результатами и получение рекомендаций для клиентов
Тестовые данные клиентов
Поля БД с результатами
исполнения правил
Структура авторской БД
Тестирование правил
C
om
pleted
Оценка эффективности использования и внедрения авторских разработок в рамках
деятельности телекоммуникационного предприятия РФ.
• Внедрение основных научных результатов было произведено в телекоммуникационную компанию ОАО
«Основа Телеком», что отражено в заключении комиссии ООО «АйКомИнвест», а также в части
маркетинговых предложений для консалтинговой компании ООО «Бизнес Аналитические Системы»
(БАС), что также отражено в соответствующих документах о внедрении.
• В таблице указываются основные ключевые показатели эффективности и укрупненно показана
предполагаемая эффективность внедрения авторских разработок на вышеназванных предприятиях.

More Related Content

Similar to phd thesis presentation

Cxp analyzer-mix-5
Cxp analyzer-mix-5Cxp analyzer-mix-5
Cxp analyzer-mix-5
Mag0s
 
Математическая модель расчета нормативной численности
Математическая модель расчета нормативной численностиМатематическая модель расчета нормативной численности
Математическая модель расчета нормативной численности
ECOPSY Consulting
 
Smart guide rus_v2
Smart guide rus_v2Smart guide rus_v2
Smart guide rus_v2
it-park
 
семенова
семеновасеменова
семенова
vip_yuna
 

Similar to phd thesis presentation (20)

Cxp analyzer-mix-5
Cxp analyzer-mix-5Cxp analyzer-mix-5
Cxp analyzer-mix-5
 
поставщик софта Site
поставщик софта Siteпоставщик софта Site
поставщик софта Site
 
Статья «Анализ, проектирование и разработка корпоративных информационных сист...
Статья «Анализ, проектирование и разработка корпоративных информационных сист...Статья «Анализ, проектирование и разработка корпоративных информационных сист...
Статья «Анализ, проектирование и разработка корпоративных информационных сист...
 
Математическая модель расчета нормативной численности
Математическая модель расчета нормативной численностиМатематическая модель расчета нормативной численности
Математическая модель расчета нормативной численности
 
Концепция применения онтологических структур в ERP-системах
Концепция применения онтологических структур в ERP-системахКонцепция применения онтологических структур в ERP-системах
Концепция применения онтологических структур в ERP-системах
 
Smart guide rus_v2
Smart guide rus_v2Smart guide rus_v2
Smart guide rus_v2
 
НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"
 
семенова
семеновасеменова
семенова
 
Политика выбора ИТ решений
Политика выбора ИТ решений Политика выбора ИТ решений
Политика выбора ИТ решений
 
Защищенная веб-аналитика для ОГВ и ОМСУ
Защищенная веб-аналитика для ОГВ и ОМСУЗащищенная веб-аналитика для ОГВ и ОМСУ
Защищенная веб-аналитика для ОГВ и ОМСУ
 
BIS DE
BIS DEBIS DE
BIS DE
 
рейтинговая система отбора (1)
рейтинговая система отбора (1)рейтинговая система отбора (1)
рейтинговая система отбора (1)
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russia
 
SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 
Методика проведения оценочных испытаний и нормы на показатели качества услу...
 Методика проведения оценочных испытаний  и нормы на показатели качества услу... Методика проведения оценочных испытаний  и нормы на показатели качества услу...
Методика проведения оценочных испытаний и нормы на показатели качества услу...
 
Aeg 2005t 1 (Vg)
Aeg 2005t 1 (Vg)Aeg 2005t 1 (Vg)
Aeg 2005t 1 (Vg)
 
KPI MONITOR (Информационно-аналитическое обеспечение управленческой деятельно...
KPI MONITOR (Информационно-аналитическое обеспечение управленческой деятельно...KPI MONITOR (Информационно-аналитическое обеспечение управленческой деятельно...
KPI MONITOR (Информационно-аналитическое обеспечение управленческой деятельно...
 
Фабрика Автоматизированных Продаж - система оптимизации бизнес-процессов
Фабрика Автоматизированных Продаж - система оптимизации бизнес-процессовФабрика Автоматизированных Продаж - система оптимизации бизнес-процессов
Фабрика Автоматизированных Продаж - система оптимизации бизнес-процессов
 
«гособлакj» и план-график
«гособлакj» и план-график «гособлакj» и план-график
«гособлакj» и план-график
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
 

phd thesis presentation

  • 1. C om pleted Вейнберг Роман Рафаилович Моделирование процессов выявления и формирования предпочтений потребителей телекоммуникационного предприятия Диссертация на соискание учёной степени кандидата экономических наук Научный руководитель: д.т.н., профессор Романов Виктор Петрович Москва 2013 Специальность 08.00.13 Математические и инструментальные методы экономики
  • 2. C om pleted Слайд 2 1. Последние 2-3 года в мире наблюдается удвоение объема передаваемой информации через информационно-телекоммуникационную инфраструктуру; 2. Происходит дифференциация спектра предоставляемых сервисов (до 100 комбинаций услуг на отдельно взятых локальных рынках), с имеющимся повышением динамики изменения предоставляемых услуг связи; 3. Наблюдается рост объемов клиентской базы - показатели общемирового количества пользователей сотовой связи прогнозируются на уровне 14 миллиардов абонентов к 2020 году. Актуальность диссертационного исследования Повышение конкуренции на телекоммуникационном рынке Необходимость усовершенствования существующей концепции взаимоотношения с клиентами (CRM) Разработка комплекса методов и моделей, представляющих собой инструмент эффективного управления и анализа потребительской базы, ядром которой должно стать наличие гибкой интеллектуальной информационной системы поддержки принятия решений, позволяющей автоматизировано формировать клиентские предпочтения и подбирать рациональные пакеты услуг связи
  • 3. C om pleted Слайд 3 Разработка комплексной модели и совокупности программно- инструментальных средств мониторинга предпочтений и формирования структуры клиентской базы телекоммуникационной компании с использованием интеллектуального анализа данных и системы управления бизнес-правилами в рамках бизнес-процесса взаимодействия субъектов телекоммуникационного рынка для подбора рационального набора услуг связи в зависимости от клиентских характеристик. Цель диссертационного исследования
  • 4. C om pleted Слайд 4 1. Сформировать систему качественных и количественных характеристик, определяющих активность потребителей рынка телекоммуникационных услуг и отражающих их личные данные; 2. Формализовать информационно-логическую схему выявления и формирования клиентских предпочтений с учетом обратной связи и набора потребительских (профиля потребления) и личностных клиентских характеристик (личного профиля); 3. Разработать методику выявления клиентских предпочтений с учетом профиля потребления и набора личностных клиентских характеристик на основе применения методов интеллектуального анализа данных. 4. Провести компьютерные эксперименты для подтверждения практической эффективности разработанной методики выявления клиентских предпочтений на основе кластеризации данных потребления услуг связи, с последующей классификацией полученных кластеров с учетом набора личностных клиентских характеристик. 5. Построить модель подбора необходимых наборов услуг связи и формализации применения результатов ИАД на основе системы управления бизнес-правилами. 6. Разработать структуру интеллектуальной информационной системы поддержки принятия решений (ИИСППР) с модулем ИАД, необходимым для анализа и выявления предпочтений клиентов, и модулем BRMS, обеспечивающим формализацию применения результатов кластеризации и классификации клиентских предпочтений. Задачи диссертационного исследования
  • 5. C om pleted Слайд 5  Объект исследования: предпочтения потребителей телекоммуникационных услуг, характеризующиеся разнородными количественными и качественными характеристиками;  Предмет исследования: инструментальные методы и средства выявления и формирования предпочтений потребителей услуг связи, базирующиеся на анализе активности клиентов телекоммуникационной компании и телекоммуникационного рынка Российской Федерации;  Методы исследования: системный анализ, визуализация данных (метод главных компонент, метод Сэммона и нечеткий метод Сэммона), четкая и нечеткая кластеризация «без учителя» на основе Эвклидова расстояния, классификация данных «с учителем», на основе машины опорных векторов и обучающих функций ядра, EDM-метод, метод поиска оптимального количества кластеров с помощью вычисления «седловой точки», методы математической логики;  Используемое ПО: программно-инструментальный комплекс IBM SPSS, JPM SAS, R-project, XL-Stat, Matlab, программный пакет визуального программирования Visual Rules Suite (модуль BRMS Visual Rules Modeler, компании Bosh), комплекс автоматизированного проектирования и моделирования бизнес-процессов Microsoft Visio, база данных MySQL Server и СУБД dbForge Studio.
  • 6. C om pleted Слайд 6  состоит в разработке целостной методики выявления и формирования клиентских предпочтений, а также построении структуры интеллектуальной информационной системы поддержки принятия решений на основе применения комплекса методов интеллектуального анализа данных и их интеграции с системой управления бизнес-правилами, позволяющей осуществлять в результате компьютерного эксперимента подбор рационального набора услуг мобильной связи. Научная новизна исследования Информационная база исследования  данные компании ОАО Мобильные ТелеСистемы, официальный сайт компании ОАО МТС, материалы специальных периодических печатных и электронных изданий в области CRM и сотовой связи, материалы научных и научно-практических конференций, публикуемые данные информационных агентств, отчеты аналитических и консалтинговых компаний.
  • 7. C om pleted Слайд 7 1. Создана информационно-логическая схема (ИЛС) реализации процесса выявления и формирования клиентских предпочтений с учетом обратной связи между субъектами рынка и формализацией применения полученных результатов интеллектуального анализа данных (ИАД) с помощью системы управления бизнес- правилами в рамках бизнес-процесса подбора рационального набора услуг в зависимости от клиентских характеристик; 2. Предложен рациональный набор характеристик клиентов и их активности на телекоммуникационном рынке, включающий в себя данные по потреблению услуг связи и набор личностных данных, реализованные в виде древовидной структуры системы показателей; 3. Разработана методика выявления клиентских предпочтений, реализованная c помощью компьютерного эксперимента в рамках модельных данных изучаемой совокупности клиентов и основанная на методологии ИАД; 4. Разработана модель на основе системы управления бизнес-правилами для автоматизации процесса подбора телекоммуникационных услуг через последовательное и параллельное выполнение блоков правил; 5. Разработана структура интеллектуальной информационной системы поддержки принятия решений на основе средств интеллектуального анализа данных и формализации применения его результатов в системе управления бизнес- правилами. Наиболее существенные научные результаты
  • 8. C om pleted РЕЗУЛЬТАТ 1: создана информационно-логическая схема (ИЛС) реализации процесса выявления и формирования клиентских предпочтений в рамках управления взаимоотношениями с клиентами
  • 9. C om pleted 9 РЕЗУЛЬТАТ 2: предложен набор характеристик о клиентах и их активности на телекоммуникационном рынке реализованный в виде древовидной структуры системы показателей
  • 10. C om pleted Слайд 10 РЕЗУЛЬТАТ 3: разработана методика выявления клиентских предпочтений, реализованная c помощью компьютерного эксперимента (слайды 11-22)  Данная методика характеризуется комплексным подходом к формированию предпочтений клиентов необходимым в условиях динамического развития и изменения рынка телекоммуникационных услуг связи.
  • 11. C om pleted Этапы методики выявления клиентских предпочтений 3.1. Выбор и обоснование методов кластеризации данных (без учителя и предварительной классификации) Слайд 11
  • 12. C om pleted 3.2. Поиск оптимального количества кластеров на примере алгоритма k- средних (k-means) с помощью метода изгиба (Elbow Criterion) Примечание* • коэффициент распределения (PC) = 1, • классификационная энтропия (CE) = «NaN (Not-a-Number)». Это связано с тем, что эти две меры предназначены для методов нечеткого разбиения.  Объединять в кластеры данные для различных значений центров кластеров «с» и проверять правильность разбиения полученных кластеров, используя методы проверки, путем определения коэффициентов и индексов c учетом их графической интерпретации (изогнутости графика): 1. Индекс Данна (DI) 2. Альтернативный индекс Данна (ADI) 3. Коэффициент распределения (PC)* 4. Классификационная энтропия (CE)* 5. Индекс распределения (PI) 6. Индекс разделения (SI) 7. Индекс Си-Бени (XB) Критерий изгиба - необходимо выбрать такое количество кластеров, чтобы добавление других кластеров не приводило к добавлению соответствующей информации [R. L. Thorndike, 1953]. Графическая демонстрация метода изгиба и поиска оптимального количества кластеров для алгоритма К-средних (фрагмент), трех индексов (PI, SI, XB) Слайд 12
  • 13. C om pleted 1. Процесс проверки выбора оптимального количества кластеров повторяется и для других алгоритмов кластеризации: Гюстафсон-Кессель, К-медоид, Гаф-Гева и С-средних; 2. Определено, что для алгоритмов K-средних, К-медоид и Гаф-Гева оптимальное число кластеров равняется четырем (с = 4). Для алгоритмов нечетких С-средних и Густафсона-Кесселя, исходя из графического представления метода изгиба, оптимальное количество кластеров равняется шести (с = 6). 3. Для визуализации данных были выбраны следующие методы понижения размерности (без большой потери качества исходных данных, в связи с определением и расчётом главных компонент в области высокой дисперсии исходных данных): 3.3. Окончательный выбор оптимального количества кластеров и визуализация результатов кластеризации Метод главных компонент [K. Pearson, (1901)]. Сохранение дисперсии в данных при визуализации для алгоритма K- средних . Метод Сэммона [Sammon J.W. (1969)]. Сохранение расстояний между образами при визуализации для алгоритма К-медойд. Fuzzy метод Сэммона [Sammon J.W. (1969)]. Сохранение расстояния между точками данных и центрами кластеров при визуализации для С- средних, Густафсона- Кесселя и Гаф-Гева. Слайд 13
  • 14. C om pleted С помощью результатов использования методов проверки и визуализации кластеризации можно сделать вывод о том, что существуют два возможных наилучших решения для изучаемой совокупности данных: алгоритм Гаф-Гева при с = 4 и алгоритм Густафсона- Кесселя при с = 6. 3.4. Окончательный выбор методов кластеризации для изучаемой совокупности клиентов и построение клиентcких профилей потребления Слайд 14
  • 15. C om pleted 3.5. Построение профиля потребления по среднему значению по всем линиям (эквивалент центра кластера, c = 4) Профили центров кластеров для с = 4 (алгоритм кластеризации Гаф-Гева). • в случае с четырьмя кластерами, в кластере 1 присутствуют клиенты, которые, по сравнению с другими кластерами, обладают минимальными значениями в каждой категории. В кластере 2 наблюдаются высокие значения в позициях 6, в то время как кластер 3 содержит пиковые значения характеристик в 10, 11 и 12. Четвертый и заключительный кластер имеет высокие значения характеристик почти по всем категориям, кроме 6-го, 10-го, 11-го и 12-го значения характеристик. Профиль потребления 1: MIN значения всех характеристик, Потенциал внутреннего развития: «объем SMS-трафика» - VAS «объем MMS-трафика» - VAS 1 2 3 4 Профиль потребления 2: Потенциал внутреннего развития: «звонки на мобильные телефоны» - CSD «междугородный роуминг» - CSD «мобильный Интернет» - VAS «мобильный контент» - VAS Профиль потребления 2: MAX «международный роуминг» - CSD (средняя продолжительность вызова в секундах, в день) Профиль потребления 3: MAX «Мобильный контент» - VAS MAX «Продолжительность входящего вызова» MAX «Количество телефонных вызовов в день» MAX потребление по большинству услуг связи (от повседневных CSD, до высокотехнологичных VAS услуг): 1. звонки по домашнему региону, 2. звонки внутри сети, звонки на стационарные телефоны, 3. звонки на мобильные телефоны, 4. междугородний роуминг, международный роуминг, 5. объем SMS-трафика, объем MMS-трафика, 6. использование мобильного Интернета Слайд 15
  • 16. C om pleted  Этап обучения SVM с помощью К-кратной перекрестной проверки: 3.6. Классификация полученных кластеров с помощью метода опорных векторов и использования обучающих функций ядра Определение точки остановки обучения SVM.  Данные обучения будут использоваться для обучения SVM.  Тестовые данные будут применяться для оценки ошибок во время обучения SVM.  Проверочные данные будут использоваться для определения реальной эффективности SVM после завершения его обучения.  SVM будет остановлено, когда ошибка, оцениваемая с помощью тестовых данных, достигнет локального минимума,  K-кратное разбиение данных, K = 10  Для каждого из K экспериментов, K-1 будут использоваться для обучения, а оставшийся один эксперимент – для тестирования.  Метод: «один против одного», в котором создаются модели k (k – 1)/2, где k – число классов. Количество проводимых экспериментов обучения Слайд 16
  • 17. C om pleted  Линейная функция ядра K (xi, xj) = xi T xj  Полиномиальная функций ядра степени d : K (xi, xj) = (xi T xj + с0)d  Сигмоидальная функция ядра K (xi, xj) = tanh (xi T xj + с0)  Радиальная базисная функция ядра K (xi, xj) = ехр (– | | хi – хj | |2) 3.7. Проверка эффективности функций ядра как уникального классификатора с разными вычисляемыми параметрами* 6 4 Радиальная базисная функция Повышение размерности данных с помощью кернелфункций: *Составлена лично автором на основе экспериментальных данных и расчётов Слайд 17
  • 18. C om pleted Слайд 18 РЕЗУЛЬТАТ 4: разработана модель на основе системы управления бизнес- правилами для автоматизации процесса подбора телекоммуникационных услуг через последовательное и параллельное выполнение блоков правил Глобальный поток правил модели Telecom Project 1 в BRMS-системе Visual Rules Modeler Элементы обновления экспорта и импорта во внешнюю базу данных (MySQL) Элементы вложенного потока правил Алгоритм выполнения внутренних потоков правил модели
  • 19. C om pleted 14 РЕЗУЛЬТАТ 5: разработана структура интеллектуальной информационной системы поддержки принятия решений в виде совокупности функционально и информационно связанных модулей (ИАД и BRMS) обеспечивающих формирование клиентских предпочтений и подбор адекватных им наборов услуг связи
  • 20. C om pleted  Результаты диссертационного исследования внедрены в ОАО «Основа Телеком» и ООО «Бизнес Аналитические Системы» (БАС);  Полученные теоретические результаты и инструментальные решения могут быть использованы в процессе выявления, формирования и управления клиентскими предпочтениями в рамках телекоммуникационного сектора Российской Федерации;  Фрагментарно практические результаты диссертационного исследования интегрированы в учебный процесс в рамках подготовки бакалавров образовательного направления 080500.62 – Бизнес – информатика по дисциплине «Системы управления бизнес-правилами»;  Результаты могут быть использованы предприятиями телекоммуникационной сферы, сферы услуг, фирмами, занимающимися созданием аналитических и колаборационных CRM и т.д. Практическое значение диссертационного исследования Опубликованные работы и выступления на конференциях  Основные положения работы представлялись и докладывались на 12-ти международных научно-практических конференциях;  По материалам диссертации опубликовано 16 работ общим объемом 5,8 п.л., в том числе авторских 3,7 п.л., из них 1,06 п.л. – 4 статьи в журналах ВАК Минобрнауки России. Слайд 20
  • 21. C om pleted 1. Разработанная информационно-логическая схема взаимоотношения потребителей и поставщиков услуг связи с использованием совокупности инструментальных методов интеллектуального анализа данных и системы управления бизнес-правилами, обеспечивает корректное и адекватное моделирование процесса выявления и формирования клиентских предпочтений; 2. Показатели, определяющие потребителя услуг связи целесообразно разделить на «профиль потребления» (с учетом услуг, приносящих дополнительный доход - VAS и услуг голосовой связи - CSD) и «личный профиль клиента» (набор социально-демографических характеристик: возраст, пол, образ жизни), что в совокупности отражает целостную модель типичного клиента телекоммуникационного предприятия; 3. Применение разработанной методики выявления клиентских предпочтений показало, что в рамках динамических условий развития и изменения рынка услуг связи целесообразно для моделирования процессов выявления клиентских предпочтений в телекоммуникационной сфере применять алгоритмы нечеткой кластеризации; 4. Применение моделей и системы управления бизнес правилами дает возможность проведения корректной формализации результатов интеллектуального анализа данных с дальнейшей возможностью их автоматического тестирования и выполнения; 5. В результате интеграции модуля интеллектуального анализа данных и системы управления бизнес правилами была разработана структура интеллектуальной информационная системы поддержки принятия решений, функционально обеспечивающая автоматизацию процессов подбора рационального набора услуг связи для клиентов исходя из набора их количественных и качественных характеристик. Работоспособность системы доказана проведенным тестами и выполненными потоками правил, с занесением результатов в базу данных клиентов, а также эффективностью ее внедрения и использования на реальном телекоммуникационном предприятии. Выводы диссертационного исследования Слайд 21
  • 24. C om pleted 1. Визуализация четкого алгоритма кластеризации k-средних и k-medoids* методы четкой кластеризации позволяют проанализировать данные клиентского профиля потребления и построить надлежащие кластеры. Примечание* •Во избежание проблем, связанных с построением диаграммы (использование слишком большого количества значений приведет к отображению большого облака точек), из двумерного множества данных было выбрано 500 значений, соответствующих 500 клиентам (потреблению ими услуг связи по 12-ти значениям характеристик) ни один из кластеров не содержит существенно большее или меньшее число клиентов, чем другие кластеры. У данного метода кластеризации есть проблемы с интерпретацией динамических данных
  • 25. C om pleted 2. Визуализация нечеткого алгоритма кластеризации нечеткое c-среднее (fuzzy c-means) и fuzzy Густафсон-Кессель (GK) Для ситуации с 4 кластерами видны только два хорошо заметных кластера. При более детальном рассмотрении графика можно увидеть, что на самом деле имеются 4 центра кластеров, и что центры кластеров находится практически на одном месте. Для ситуации с 6 кластерами можно увидеть три больших кластера с одним небольшим кластером в одном из больших кластеров. Двух других центров кластеров почти не видно. Это означает, что алгоритм нечетких С-средних не позволяет обнаружить надлежащие кластеры для этого множества данных. В обоих случаях кластеры хорошо разделены. Кластер в левом нижнем углу и кластер в правом верхнем углу присутствуют в случае с 4 и 6 кластерами. Это может свидетельствовать о том, что точки в этих кластерах представляют клиентов, у которых имеются отличия от других клиентов МТС по нескольким полям.
  • 26. C om pleted 3. Визуализация нечеткого алгоритма кластеризации Гаф-Гева (GG) Результат использования алгоритма Гаф-Гева для с = 4 схож с результатом применения алгоритма Густафсона-Кесселя для с = 4 (предыдущий слайд). Результат для с = 6 является примечательным. В данном случае появляются кластеры в других кластерах. Оценка оптимальности показателей и индексов кластеризации
  • 27. C om pleted  1 - звонки по домашнему региону (средняя продолжительность вызова в секундах в день), 2 – звонки внутри сети (среднее количество вызовов в день), 3 – звонки на стационарные телефоны (среднее количество вызовов в день), 4 – звонки на мобильные телефоны (%), 5 – междугородний роуминг (средняя продолжительность вызова в секундах, в день), 6 – международный роуминг (средняя продолжительность вызова в секундах, в день), 7 – объем SMS-трафика (измеряется в процентах, в день), 8 – объем MMS-трафика (измеряется в процентах, в день), 9 – использование мобильного Интернета (измеряется в процентах, в день), 10 – использование мобильного контента (измеряется в процентах, в день), 11 – продолжительность входящего вызова (средняя # в секундах в день), 12 - количество телефонных вызовов в день. 4. Построение профиля потребления по среднему значению по всем линиям (эквивалент центра кластера, c = 6) Профили центров кластеров для с = 6 (алгоритм кластеризации Густафсон-Кессель). Результаты кластеризации по 12-ти нормированным значениям характеристик клиентов для двух алгоритмов кластеризации. 1 2 3 4 5 6 Числовые характеристики показателей
  • 29. C om pleted Примеры вложенных потоков бизнес-правил и их выполнение в Visual Rules Modeler (модель Telecom Project 1) «Сluster's attachment» - формализация через правила принадлежности клиента к кластеру и отслеживание его динамического изменения и движения «Age» - формализация показателя «возраст клиента» набор БП: Business Rules IF Cluster’s_attachment = 1 THEN set client_profile = «1», set description = «max_cons=sms, max_ cons=mms, PID = inside_calls»; IF Age = «<25» AND Cluster’s_attachment = 1 THEN set status = «student», set description = «max_cons=sms, max_ cons=mms, PID = inside_calls». набор БП: Business Rules IF Cluster’s_attachment = 3 THEN set client_profile = «3»; IF Age = «25-40» AND Cluster’s_attachment = 3 THEN set status = «middle_age», set description =«average_consumption» ELSE IF Age = «>50» AND Cluster’s_attachment = 4 THEN set status = «old», set description = «low_consumption».
  • 30. C om pleted  Для экспериментальной проверки было разработано 120 записей с данными условных потребителей телекоммуникационных услуг. Данные вводятся через СУБД dbForge (MySQL).  В исследовании разработано 100 вариаций правил в рамках модели ГПП (на языке программирования Rule Language), обработано, выполнено и протестировано 7 вложенных потоков правил. Работа с тестовыми результатами и получение рекомендаций для клиентов Тестовые данные клиентов Поля БД с результатами исполнения правил Структура авторской БД Тестирование правил
  • 31. C om pleted Оценка эффективности использования и внедрения авторских разработок в рамках деятельности телекоммуникационного предприятия РФ. • Внедрение основных научных результатов было произведено в телекоммуникационную компанию ОАО «Основа Телеком», что отражено в заключении комиссии ООО «АйКомИнвест», а также в части маркетинговых предложений для консалтинговой компании ООО «Бизнес Аналитические Системы» (БАС), что также отражено в соответствующих документах о внедрении. • В таблице указываются основные ключевые показатели эффективности и укрупненно показана предполагаемая эффективность внедрения авторских разработок на вышеназванных предприятиях.