Технология KeyBunch упрощает процедуру связки данных, полученных из разных источников. С KeyBunch аналитики могут повысить качество своих предиктивных моделей за счет использования дополнительных сведениий о клиенте, не затрачивая много времени на подготовку данных. Работает с SQL и NoSQL-базами.
2. Аналитика Big Data —
это просто…
Визуализация в несколько кликов
Прогноз в 16 строк кода
3. … если у вас
подготовлены
все данные
Машинное обучение
Визуализация
Систематизация
данных
Связывание данных
Приведение к единому
формату
Устранение ошибок
Удаление дублей
5. Чем больше таблиц, тем сложнее процесс
Время
Количество таблиц
2 3-4 5-6 7-8 9-10
Запрос
к базе
Запрос
посложнее
Нужно писать
скрипты
Проект
на неделю
Проект
на месяц
15 таблиц - предел
для средней команды
6. Почему так происходит?
Так выглядят исходные таблицы с данными
300645... 175.654
... ...
№ счета ID на сайте
853565... 543.654
ivan1983 134
... ...
Логин Число друзей
dayryamm 295
986.442 Клик по ссылке
ID на сайте Тип события
175.654 Логин в VK
http://www...
Данные события
ivan1983
Ключи
Данные CRM
Данные веб-аналитики
Данные соцсетей
7. Почему так происходит?
Обычный подход: объединить все в одну большую таблицу
986.442 Клик по ссылке
ID на сайте Тип события
... ...
http://www...
Данные события
...
ivan1983 134
Логин Число друзей
... ...
300645... 175.654
№ счета ID на сайте
... ...
8. Как работает KeyBunch
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
10. Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Если у пользователя по несколько
ключей в каждой таблице
2 аккаунта, 3 счета, заходит на сайт
с компьютера и телефона
Обычный подход
Строка-клон на каждую комбинацию
ключей (2 x 3 x 2)
KeyBunch
Каждый ключ помещается находит
свое место в пользовательской истории,
дублирования не происходит
1
11. Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Нет ни одного типа ключей, который
бы был у каждого пользователя2
Часть пользователей была на сайте,
но не открыла счет, часть открыла
счет, но не была на сайте
Обычный подход
Собрать несколько таблиц, 1 пользователь может
быть сразу в нескольких таблицах:
Веб-пользователи Пользователи, открывшие счет
KeyBunch
По каждому человеку собираются все доступные
ключи, 1 пользователь = 1 пользовательская история
12. Данные по пользователю в одной
таблице потеряны3
Не успели загрузить данные из CRM,
не сработали скрипты веб-аналитики
Обычный подход
В лучшем случае - отсутствующие данные будут
заполнены мусором (NULL, пустые строки, нули)
В худшем случае - все данные по пользователю
будут потеряны
KeyBunch
В лучшем случае - будет проведена склейка данных
по другим ключам
В худшем случае - пользовательской истории будет
присвоен ярлык “Отсутствуют данные по ключу X”.
Остальные данные будут на месте
13. В чем разница?
Итог
Обычный подход
1. Взять данные из нескольких таблиц
2. Очистить от дублей внутри таблиц
3. Очистить от дублей между таблицами
4. Обработать случаи отсутствующих данных
5. Агрегировать строки, относящиеся
к одному пользователю
6. Сделать нужные вычисления
KeyBunch
1. Взять данные из пользовательской истории
2. Сделать нужные вычисления
15. Что это дает
бизнесу?
Для анализа доступно больше
информации о пользователе —
точность предиктивной аналитики
повышается
16. Схема работы
Ваше хранилище данных
KeyBunch
KeyBunch генерирует
скрипты предобработки
Склейка производится
отдельным расширением
к СУБД
17. Уже готово
Ядро системы
Прототип пользовательского интерфейса
Расширения для СУБД:
MS SQL Server
PostgreSql
BigQuery
В разработке
Модули для СУБД
Vertica
ClickHouse
Веб-интерфейс
Состояние проекта