Как извлечь пользу из больших данных.
Инструменты бизнес-аналитики для анализа и исследования больших данных
Мероприятие:
День Науки НИУ ВШЭ 2015
Фото: http://vk.com/album-66011151_214023156
Большие данные и бизнес-аналитика: как найти пользу?
1. Большие данные и бизнес-
аналитика:
как найти пользу?
Андрей Краснопольский
Генеральный директор
Консультационная Группа АТК
НИУ ВШЭ
2 апреля 2015
2. Консультационная Группа АТК: BI-портфель
Business
Discovery BI
Партнер с 2008
Qlik Elite Partner
№1
Традиционный BI
Партнер с 2003
Gold Partner
Предиктивный BI
Партнер с 2013
Prognoz System
Integrator
Big Data
Партнер с 2014
Эксклюзивный
статус в России
3. Консультационная Группа АТК: достижения
21.500+
пользователей
аналитической отчетности,
разработанной АТК
160+
проектов
по внедрению
BI-систем
350+
обученных
специалистов
BI-тренерами
АТК
Лучший
Мобильное
BI-приложение
(по версии Qlik)
#1
АТК входит в ТОП-10 BI-компаний России, 2010 – 2014 гг.
Лучший
BI-проект:
QlikView в INCITY
(по версии
GlobalCIO)
95,6%
удовлетворенность
заказчиков
BI-проектами АТК
4. Консультационная Группа АТК: крупнейшие BI-проекты
1’560 пользователей
15+ источников данных
1’020 пользователей
10+ источников данных
400 пользователей
30+ источников данных
230 пользователей
12+ источников данных
150 пользователей
30+ источников данных
130 пользователей
20+ источников данных
5. Содержание:
1. Что такое Big Data?
2. Концепция «3V»
3. Технологии Big Data
4. Big Data и BI
5. QlikView для анализа больших данных
6. Конкурс АТК QlikView Olympics 2015
7. История появления термина «Big Data»
• Клиффорд Линч, редактор журнала Nature, в 2008 году впервые упомянул о
термине BIG DATA в специальном номере журнала.
• В 2009 году термин широко распространился в деловой прессе, а к 2010 году
относят появление первых продуктов и решений, относящихся исключительно и
непосредственно к проблеме обработки больших данных.
• В 2011 году Gartner отмечает большие данные как
тренд номер два в информационно-
технологической инфраструктуре
(после виртуализации и как более существенный,
чем энергосбережение и мониторинг).
8. Что же такое «Big Data»?
• Big Data – серия подходов, инструментов и методов обработки
структурированных и неструктурированных данных огромных объёмов
и значительного многообразия для получения воспринимаемых
человеком результатов, эффективных в условиях непрерывного
прироста, распределения по многочисленным узлам вычислительной
сети, сформировавшихся в конце 2000-х годов
• Big Data — это наборы данных такого объема,
что традиционные инструменты не способны
осуществлять их интеграцию, управление и
обработку за приемлемое для последующего
анализа время.
9. Что такое «Big Data»?
Структурированные и неструктурированные данные
Неструктурированные Структурированные
Текст
• Твиты
• Посты социальных
сетей
Изображения
• Фотографии
• Данные спутников
Полуструкутированные
• JSON
• XML
Поля и записи
• Финансовые данные
• Данные продаж
11. Big Data: концепция 3V
Выгрузка
Таблица
База данных
Веб XML
Аудио
Видео
Социальные
сети
Мб
Гб
Тб
Пб
Периодическая
Near Real
Time
Real
Time
Velocity
(Скорость)
Volume
(Объем)
Variety
(Многообразие)
12. Volume: объем данных корпораций по отраслям
0 1000 2000 3000 4000 5000
Энергетика
Коммуникации и медиа
Страхование
Правительство
Энергетика
Медицина
Банкинг
Ценные бумаги
Объем данных в Тб
Источник данных:
McKinsey, 2012
15. хранилища
системы хранения
данных
облака
EMC
IBM
Amazon
Cloudera
хранить уже
дорого
зачем столько
собираем?
кибербезопасность
передача данных, политики,
контроль
как обрабатывать?
контуры данных
контроль за
копированием
права доступа
утечки
шифрование/дешифрование
потоки данных
коммуникации
человек-человек
человек-компьютер-
человек
человек-компьютер
компьютер-человек
(напоминалки, автодозвон
)
компьютер-компьютер
пропускная способность
ограничивающий фактор
жизненный цикл данных
создание
обработка
анализ
систематизация
озарения
визуализация
отчёты
уничтожение
захоронения, как
ядерные отходы
хранить дорого
а что хранить,
что удалять?
вычисления на узлах, где данные
собраны
готовые
технологии
обработки
Google FS
Hadoop
MapReduce
Big Data: что это на самом деле?
17. Hadoop меняет правила игры
• Создан в 2005
• Большим данным нужны Yahoo и Google
• Основные характеристики:
• Распределенная файловая система/база данных
• Горизонтальная масштабируемость
• Структурированные/неструктурированные данные
• Стандартные аппаратные средства:
• Недорогие сервера
• Отказоустойчивая инфраструктура
• Open Source
• В семейство Hadoop входят:
Apache
Zookeeper
18. Подход Map Reduce
• Задача: Посчитать частоту появления слов во входных данных
20. Big Data и BI: добавляем четвертую «V»
Выгрузка
Таблица
База данных
Веб XML
Аудио
Видео
Социальные
сети
Мб
Гб
Тб
Пб
Периодическая
Near Real
Time
Real
Time
Velocity
(Скорость)
Volume
(Объем)
Variety
(Многообразие)
Value
(Ценность)$ $$ $$$ $$$$
21. Value в Big Data: трудность №1
Gartner (сентябрь 2013)
23. Пробел в аналитике Big Data закрывает BI
Большинство современных
решений Big Data solutions –
фабрики по обработке больших
массивов данных.
Необходимо: доступ для бизнес-
пользователей к Big Data “плюс”
для анализа и поиска инсайтов*
* Big Data “плюс” – это данные из Hadoop или других источников Big Data объединенные с
данными CRM, ERP, локальными Excel-файлами и базами данных, данными облачных
систем и т.д.
24. Инсайты возникают только в контексте
Операционные
системы
web-данные, облачные
данные
Кластер
Hadoop
Хранилище
данных
Google
BigQuery
26. 3 класса BI-систем по
Gartner-2014:
• Business Discovery
• Data Visualization
• Traditional BI
QlikView: Лидер квадранта Gartner
27. Ценностьдлябизнеса
QlikView в классе-лидере BI-систем
Время
Traditional BI:
Самое длительное время
внедрения, низкий бизнес-
эффект
Data Visualization:
Максимальный ‘Wow’-
фактор при внедрении,
непродолжительный эффект
Business Discovery:
Быстрое внедрение, быстрое и
продолжительное получение
бизнес-результатов
28. QlikView: преимущества аналитики на всех уровнях
• Глобальный поиск по приложениям
• Ассоциативная аналитика
• Продвинутое исследование данных
Исследование данных
Визуализация данных
Создание аналитики, ориентированное на пользователя
Задавайте вопросы и
анализируйте, что
происходит и почему
Используйте разные
форматы визуализации,
чтобы понять бизнес-
значение и связи данных
Постройте новые
представления данных
при помощи BI self-
service
• Богатые возможности по созданию
графиков
• Интерактивный анализ
• «Умная» визуализация
• Быстрое создание (в том числе Drag-
and-Drop)
• Библиотеки и ‘продвинутая’ разработка
• Быстрая загрузка данных в модель
29. Как работают
традиционные BI
инструменты
Как работает Qlik
• Линейная структура и жесткая иерархия
• Сложно «докопаться» до нужной
информации
• Недели и месяцы на изменение модели
• В центре - данные
• Пользователь определяет алгоритм работы с
данными
• Полная картина в любой момент
• Минуты или часы на изменения
• В центре - пользователь
Уникальная ассоциативная модель данных
31. King.com: QlikView и Big Data
• 1.6 млрд. строк данных в день в Hadoop — 211 млн. cтрок извлекается
для анализа в QlikView
• Анализ поведения игроков, взаимодействие с каждой игрой и более
100 различных метрик
• Результат: ROI маркетинговых кампаний достигнут (кол-во игроков, кол-
во сыгранных раундов, кол-во покупок, продолжительность игры и т.д.)
32. • 35 млн. записей в день,
• 500+ магазинов
• Внедрение QlikView позволило:
– Ежедневно отслеживать эффективность акций и корректировать их
– Снимать неуспешные акции до их планируемого завершения
– Контроль «оптовых» продаж в промо
– Рост вовлеченности покупателей в акции на 20 процентных пунктов
– Рост точности прогнозирования акций на 20 процентных пунктов
Анализ маркетинговых акций
Одна из ведущих продуктовых розничных компаний в России
33. • Универсального рецепта нет – нужна комплексная аналитика
«с головой»
• Из жизни-1: 22 тонны «бракованных» банан
• Из жизни-2: 3 iPad-а по 2.000 рублей в Липецке
• Из жизни-3: Оперативное вычисление мошенничеств
продавцов с накопительными картами магазинов
Bonus
Борьба с мошенничествами
34. Спасибо за внимание!
21087, Россия, Москва, ул. Барклая, д. 6,
стр. 3, бизнес-центр «Барклай-Плаза»,
оф. 202
Телефон: +7 (495) 937 16 50
Факс: +7 (495) 937 16 57
Email: consult@atkcg.ru