2. “Мы тонем в информации, но
задыхаемся от нехватки знаний”
Джон Нейсбит
3. Информации много не бывает?
Ежедневно:
• отправляется более 144.8 млрд. email;
• пользователи Twitter публикуют более 340,000 твитов;
• пользователи Youtube загружают видео-материалы длительностью более 72
часов;
• люди тратят более 272, 000 долларов США на онлайн-шопинг ;
Каждую минуту:
• блогеры Tumblr публикуют более 27 ,000 новых постов;
• пользователи Instagram публикуют более 3,600 новых фотографий;
• в Интернете создается более чем 571 новых web-сайтов;
Каждую секунду:
• держатели VISA проводят более 2,500 транзакций.
Транзакционная база клиентов Walmart насчитывает более 2.5
петабайт информации, объем которой растет с каждой минутой!
Данные о данных
4. “ Когда данных становится слишком
много, меняется отношение к ним.
И проблема именно в этом – в смене
вычислительной парадигмы, в
изменении подходов”
Сергей Карелов
5. Информация как основной бизнес-ресурс
Что делать с этой информацией?
Варианты:
a) Ничего. Хранить и не допускать утечки
b) А что с ней делать?
c) Не стоит хранить лишнее
d) Ждать, когда эта информация понадобится
e) Анализировать информацию с целью получения новых знаний
Деятельность в любой отрасли бизнеса сопровождается регистрацией и
записью всех подробностей ее деятельности. Как результат, компании
накапливают огромные массивы данных.
7. Сначала было слово…
…или все-таки интерес к анализу данных?
1995 год…
Двое студентов-докторантов
Стэнфордского Университета Ларри
Пейдж и Сергей Брин увлечены
исследованиями в области анализа
данных в больших неструктурированных
массивах информации.
Молодые ученые приходят к выводу о
необходимости нового подхода к поиску
информации в огромных базах данных.
Особенный интерес вызывает новая область знаний, объединяющая
статистику и информационные технологии, которая называется Data Mining.
Начинаются исследования.
8. 8
Что такое Data Mining (DM)?
Статистика
Информационные
технологии
Data Mining
Data Mining - это метод
интеллектуального анализа данных с
целью извлечения неочевидных или
скрытых закономерностей из
больших массивов данных.
Методы Data Mining получили
широкое распространение в бизнесе,
маркетинге, менеджменте, финансах,
образовании, науке, анализе
мультимедийной информации в
Интернете и пр.
9. Рождение эпохи
Так родилась новая технология поиска
Google, а Ларри Пейдж и Сергей
Брин основали одну из крупнейших в
мире компаний, с именем которой
ассоциируется целая эпоха свободной
информации, а также поколение
людей с нестандартным мышлением
и новыми подходами к решению
проблем.
И это поколение людей, которые
делают бизнес используя
информацию и современные
технологии, или бизнес в стиле
10. Преимущества Data Mining
• нахождение неявных, скрытых закономерностей в больших массивах данных
и извлечение неочевидной, скрытой информации;
• классические методы анализа данных уже не соответствуют современным
реалиям. Например, в классической статистике применяются методы
выдвижения гипотез, тогда как Data Mining выявляет объективно
существующие классы;
• Data Mining является смежной дисциплиной, объединяющей статистику,
анализ данных и IT. Поэтому не предполагает глубокой математической
подготовки специалистов. Ранее отсутствие соответствующей подготовки
специалиста приводило к поверхностному анализу данных, а важные
неочевидные закономерности в данных «ускользали» от его внимания;
• методы Data Mining развиваются стремительными темпами. Каждый год
совершенствуются программные продукты в этом направлении.
11. Классические стат. методы анализа данных vs. Data
Mining
Человеку, который не знаком с технологией Data Mining, может показаться,
что она ничем не отличается от обыкновенной статистики. Но это только на
первый взгляд.
На самом деле имеется ряд существенных концептуальных различий.
Например, математическая статистика предполагает усреднение значений по
произведенной выборке, вследствие чего работа будет осуществляться с
приблизительными показателями. Здесь, несомненно, есть и свои плюсы,
особенно если требуется осуществить “грубый” анализ или проверить
заранее сформулированную гипотезу. Однако для принятия управленческих
решений такой метод подходит не всегда.
В отличие от математической статистики в основу концепции Data Mining
положен принцип шаблонов (паттернов) — обнаруженных в процессе сбора
информации закономерностей, свойственных тем или иным подвыборкам
данных.
13. Специалисты в сфере Data Mining и Data Analysis пользуются
огромным спросом на Западе
“Аналитик данных (Data Scientist): самая
«горячая» профессия 21-го века”
Harvard Business Review
“Аналитики данных (Data Scientists)
зарабатывают $300,000 в год“
Wall Street Journal
Развитие Data Mining и спрос на специалистов
области анализа данных
14. Перспективные направления Data Mining в
казахстанском бизнесе
Основные направления казахстанского бизнеса, где
использование инструментов Data Mining обеспечит
конкурентное преимущество:
• Маркетинг
• Банковский сектор
• Страхование
• и многие другие
15. • Анализ покупательской корзины (анализ сходства). Выявление товаров,
которые покупатели стремятся приобретать вместе. Знание покупательской
корзины необходимо для улучшения рекламы, выработки стратегии создания
запасов товаров и способов раскладки в торговых залах.
• Исследование временных шаблонов помогает принимать решения о
создании товарных запасов. Оно дает ответы на вопросы типа "Если сегодня
покупатель приобрел видеокамеру, то через какое время он вероятнее всего
купит новые батарейки и пленку?
• Создание прогнозных моделей дает возможность узнавать характер
потребностей различных категорий клиентов с определенным поведением,
например, покупающих товары известных дизайнеров или посещающих
распродажи. Эти знания нужны для разработки точно направленных,
экономичных мероприятий по продвижению товаров.
Методы Data Mining: Маркетинг
16. Традиционные маркетинговые исследования предполагают сбор новых
данных о клиенте с помощью опросов, фокус-групп и пр. с целью узнать
определения факторов, влияющих на потребительское поведение.
Отличие инструментов KDD в том, что выявляются скрытые закономерности
потребительской активности, самые глубокие пласты знаний о поведении
клиента на основе уже имеющихся баз данных. Метод также позволяет
сегментировать клиентов, находить клиентов с общими интересами и строить
модели, прогнозирующие поведение клиента, что позволяет принимать
более эффективные управленческие решения.
Пример: Интернет-магазин активно использует инструменты
Data Mining, благодаря которым сайт автоматически предлагает своим
клиентам новые товары на основе анализа базы истории покупок. Этот же
алгоритм использует Facebook, Linkedin прочие.
Традиционные маркетинговые исследования
vs. Data Mining
17. Методы Data Mining: Банковский сектор
• Управление кредитными рисками банка. Скоринговые модели для
прогнозирования дефолта заемщика: application scoring, behavior scoring и пр.
Данные модели строятся на данных о кредитной истории действующих
клиентов.
• Выявление мошенничества с кредитными карточками (fraud detection).
Путем анализа прошлых транзакций, которые впоследствии оказались
мошенническими, банк выявляет некоторые стереотипы такого
мошенничества.
• Сегментация клиентов. Разбивая клиентов на различные категории, банки
делают свою маркетинговую политику более целенаправленной и
результативной, предлагая различные виды услуг разным группам клиентов.
• Прогнозирование изменений клиентуры. Data Mining помогает банкам
строить прогнозные модели ценности своих клиентов, и соответствующим
образом обслуживать каждую категорию.
18. • Выявление мошенничества. Страховые компании могут снизить уровень
мошенничества, отыскивая определенные стереотипы в заявлениях о
выплате страхового возмещения, характеризующих взаимоотношения между
юристами, врачами и заявителями.
• Анализ риска. Путем выявления сочетаний факторов, связанных с
оплаченными заявлениями, страховщики могут уменьшить свои потери по
обязательствам.
Известен случай, когда в США крупная страховая компания обнаружила, что
суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое
превышает суммы по заявлениям одиноких людей. Компания отреагировала
на это новое знание пересмотром своей общей политики предоставления
скидок семейным клиентам.
Методы Data Mining: Страхование
19. Другие приложения Data Mining в бизнесе
• выявление лояльности клиентов. Определение характеристик клиентов,
которые, один раз воспользовавшись услугами данной компании, с большой
долей вероятности останутся ей верными;
• развитие автомобильной промышленности. При сборке автомобилей
производители должны учитывать требования каждого клиента, поэтому им
нужен прогноз популярности определенных характеристик и знание того,
какие характеристики обычно заказываются вместе;
• политика гарантий. Производителям нужно предсказывать число клиентов,
которые подадут гарантийные заявки, и среднюю стоимость заявок;
• поощрение часто летающих клиентов. Авиакомпании могут обнаружить
группу клиентов, которых поощрительными мерами можно побудить летать
больше.
Например, одна авиакомпания обнаружила категорию клиентов, которые
совершали много полетов на короткие расстояния, не накапливая достаточно
миль для вступления в их клубы. Поэтому были изменены правила приема в
клуб, чтобы поощрять число полетов так же, как и мили.
21. Программные продукты для анализа с применением
методов Data Mining
• SAS Enterprise Miner (very expensive);
• R (free);
• WEKA - Waikato Environment for Knowledge Analysis (free);
• Rapid Miner (free);
• SPSS Clementine;
• Statistica Data Miner;
• MS SQL Server;
• KnowledgeMiner;
• Polyanalyst;
• KnowledgeSTUDIO;
• и прочие.
22. Data Mining в Казахстане
• Недостаточная осведомленность и недоверие Компаний
“Главное препятствие на пути Больших Данных – разруха в головах”
Сергей Карелов
• Нехватка специалистов. Университеты пока не готовят специалистов в
данном направлении. Кроме того, нет соответствующих курсов, тренингов и
семинаров по данной тематике.
• Отсутствие качественных БД. Не у всех компаний существуют возможности и
соответствующее ПО для хранения больших массивов данных.
• Необходимость интеграции. Для полноценного и качественного внедрения
методов Data Mining необходима интеграция с инструментами Business
Intelligence (BI), что может привести к дополнительным затратам.
В Казахстане технология анализа данных Data Mining не пользуется
популярностью. Причины могут быть следующие:
23. 1. Обучение. Существует огромное многообразие тренингов, но нет
курсов по прикладной статистике, Data Mining и статистическому
программированию в R. Необходимо обучение как для менеджмента
компаний, так и для сотрудников соответствующих отделов.
2. Консалтинг. Назрела необходимость в консалтинге компаний, где
накапливаются крупные массивы данных, по вопроса анализа данных,
в том числе и с применением технологии Data Mining.
3. Внедрение. Внедрение методов Data Mining на базе отдельных
программных продуктов, а в последующем - интеграция с
инструментами BI.
Внедрение Data Mining в Казахстане