SlideShare a Scribd company logo
1 of 18
Download to read offline
KeyBunch
Технология
объединения
данных
Аналитика Big Data —
это просто…
Визуализация в несколько кликов
Прогноз в 16 строк кода
… если у вас
подготовлены
все данные
Машинное обучение
Визуализация
Систематизация
данных
Связывание данных
Приведение к единому
формату
Устранение ошибок
Удаление дублей
Обычно схема предобработки данных выглядит так:
Чем больше таблиц, тем сложнее процесс
Время
Количество таблиц
2 3-4 5-6 7-8 9-10
Запрос
к базе
Запрос
посложнее
Нужно писать
скрипты
Проект
на неделю
Проект
на месяц
15 таблиц - предел
для средней команды
Почему так происходит?
Так выглядят исходные таблицы с данными
300645... 175.654
... ...
№ счета ID на сайте
853565... 543.654
ivan1983 134
... ...
Логин Число друзей
dayryamm 295
986.442 Клик по ссылке
ID на сайте Тип события
175.654 Логин в VK
http://www...
Данные события
ivan1983
Ключи
Данные CRM
Данные веб-аналитики
Данные соцсетей
Почему так происходит?
Обычный подход: объединить все в одну большую таблицу
986.442 Клик по ссылке
ID на сайте Тип события
... ...
http://www...
Данные события
...
ivan1983 134
Логин Число друзей
... ...
300645... 175.654
№ счета ID на сайте
... ...
Как работает KeyBunch
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
В чем разница?
Разбор ситуаций
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Если у пользователя по несколько
ключей в каждой таблице
2 аккаунта, 3 счета, заходит на сайт
с компьютера и телефона
Обычный подход
Строка-клон на каждую комбинацию
ключей (2 x 3 x 2)
KeyBunch
Каждый ключ помещается находит
свое место в пользовательской истории,
дублирования не происходит
1
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Пользовательская история #4356454546
Иванов
Петр Андреевич
Идентификаторы на сайте:
> 175.654
> 652.942
Счета:
> 2989302384929230430
Телефоны:
> +7 (926) 948-24-54
> +7 (922) 246-43-64
Логины в соцсетях:
> ivan1983
> vanya_vanya
Нет ни одного типа ключей, который
бы был у каждого пользователя2
Часть пользователей была на сайте,
но не открыла счет, часть открыла
счет, но не была на сайте
Обычный подход
Собрать несколько таблиц, 1 пользователь может
быть сразу в нескольких таблицах:
Веб-пользователи Пользователи, открывшие счет
KeyBunch
По каждому человеку собираются все доступные
ключи, 1 пользователь = 1 пользовательская история
Данные по пользователю в одной
таблице потеряны3
Не успели загрузить данные из CRM,
не сработали скрипты веб-аналитики
Обычный подход
В лучшем случае - отсутствующие данные будут
заполнены мусором (NULL, пустые строки, нули)
В худшем случае - все данные по пользователю
будут потеряны
KeyBunch
В лучшем случае - будет проведена склейка данных
по другим ключам
В худшем случае - пользовательской истории будет
присвоен ярлык “Отсутствуют данные по ключу X”.
Остальные данные будут на месте
В чем разница?
Итог
Обычный подход
1. Взять данные из нескольких таблиц
2. Очистить от дублей внутри таблиц
3. Очистить от дублей между таблицами
4. Обработать случаи отсутствующих данных
5. Агрегировать строки, относящиеся
к одному пользователю
6. Сделать нужные вычисления
KeyBunch
1. Взять данные из пользовательской истории
2. Сделать нужные вычисления
Результат: сложность растет линейно
Время
Количество таблиц
2 3-4 5-6 7-8 9-10
Обычный
подход
KeyBunch
Что это дает
бизнесу?
Для анализа доступно больше
информации о пользователе —
точность предиктивной аналитики
повышается
Схема работы
Ваше хранилище данных
KeyBunch
KeyBunch генерирует
скрипты предобработки
Склейка производится
отдельным расширением
к СУБД
Уже готово
Ядро системы
Прототип пользовательского интерфейса
Расширения для СУБД:
MS SQL Server
PostgreSql
BigQuery
В разработке
Модули для СУБД
Vertica
ClickHouse
Веб-интерфейс
Состояние проекта
Спасибо за внимание
KeyBunch Технология объединения данных

More Related Content

Viewers also liked

5. Олег Рудаков - Моделирование атрибуции на коленке
5. Олег Рудаков - Моделирование атрибуции на коленке5. Олег Рудаков - Моделирование атрибуции на коленке
5. Олег Рудаков - Моделирование атрибуции на коленкеADLABS
 
Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...
Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...
Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...ADLABS
 
2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...
2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...
2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...ADLABS
 
Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...
Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...
Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...Real Time Agency
 
Performance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTA
Performance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTAPerformance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTA
Performance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTAReal Time Agency
 
Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...
Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...
Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...Real Time Agency
 
Почему идти в мобайл не поздно!? Кейс profi.ru
Почему идти в мобайл не поздно!? Кейс profi.ruПочему идти в мобайл не поздно!? Кейс profi.ru
Почему идти в мобайл не поздно!? Кейс profi.ruLyudmila Aleksandrova
 
Beeline. Digital–революция на рынке Mobile Programmatic
Beeline. Digital–революция на рынке Mobile ProgrammaticBeeline. Digital–революция на рынке Mobile Programmatic
Beeline. Digital–революция на рынке Mobile ProgrammaticHybridRussia
 
Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."
Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."
Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."Осенняя Сессия по контекстной рекламе
 
Media Mobile Advertising, Екатерина Курносова
Media Mobile Advertising, Екатерина КурносоваMedia Mobile Advertising, Екатерина Курносова
Media Mobile Advertising, Екатерина КурносоваAdTechRussia
 
Media Mobile Advertising, Евгений Стрекаловский
 Media Mobile Advertising, Евгений Стрекаловский Media Mobile Advertising, Евгений Стрекаловский
Media Mobile Advertising, Евгений СтрекаловскийAdTechRussia
 
Реклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABS
Реклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABSРеклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABS
Реклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABSADLABS
 
#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"
#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"
#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"Комплето
 

Viewers also liked (14)

5. Олег Рудаков - Моделирование атрибуции на коленке
5. Олег Рудаков - Моделирование атрибуции на коленке5. Олег Рудаков - Моделирование атрибуции на коленке
5. Олег Рудаков - Моделирование атрибуции на коленке
 
Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...
Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...
Мария Горшкова - Новинки в системах контекстной рекламы и практические советы...
 
2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...
2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...
2. Алексей Авдеев - Как нагонять левые звонки, чтобы выполнить KPI и заработа...
 
Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...
Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...
Performance Marketing Day от RTA на RIW2014 // Презентация Павла Кесадо-Алонс...
 
Performance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTA
Performance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTAPerformance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTA
Performance Marketing Day от RTA на RIW2014 // Презентация Полины Старковой, RTA
 
Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...
Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...
Performance Marketing Day от RTA на RIW2014 // Презентация Михаила Балакина, ...
 
Почему идти в мобайл не поздно!? Кейс profi.ru
Почему идти в мобайл не поздно!? Кейс profi.ruПочему идти в мобайл не поздно!? Кейс profi.ru
Почему идти в мобайл не поздно!? Кейс profi.ru
 
Beeline. Digital–революция на рынке Mobile Programmatic
Beeline. Digital–революция на рынке Mobile ProgrammaticBeeline. Digital–революция на рынке Mobile Programmatic
Beeline. Digital–революция на рынке Mobile Programmatic
 
Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."
Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."
Полина Старкова (RTA) - "Контекстная реклама для бренда. Стратегический подход."
 
Media Mobile Advertising, Екатерина Курносова
Media Mobile Advertising, Екатерина КурносоваMedia Mobile Advertising, Екатерина Курносова
Media Mobile Advertising, Екатерина Курносова
 
Денис Девятых (CallTouch) - "Телефонные обращения. Способы узнать и сделать б...
Денис Девятых (CallTouch) - "Телефонные обращения. Способы узнать и сделать б...Денис Девятых (CallTouch) - "Телефонные обращения. Способы узнать и сделать б...
Денис Девятых (CallTouch) - "Телефонные обращения. Способы узнать и сделать б...
 
Media Mobile Advertising, Евгений Стрекаловский
 Media Mobile Advertising, Евгений Стрекаловский Media Mobile Advertising, Евгений Стрекаловский
Media Mobile Advertising, Евгений Стрекаловский
 
Реклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABS
Реклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABSРеклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABS
Реклама с оплатой за действие: партнерский маркетинг, Мария Горшкова, РА ADLABS
 
#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"
#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"
#EMB2B Николай Федянин: "Три беды интернет маркетинга в B2B"
 

Similar to KeyBunch. Технология объединения данных

Поисковое продвижение через блог (подробная инструкция)
Поисковое продвижение через блог (подробная инструкция)Поисковое продвижение через блог (подробная инструкция)
Поисковое продвижение через блог (подробная инструкция)Anastasia Solntseva
 
QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...Irina Vinogradova
 
109 retail rocket_eretailforum2014
109 retail rocket_eretailforum2014109 retail rocket_eretailforum2014
109 retail rocket_eretailforum2014InSales
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis CleverDATA
 
Клуб анонимных аналитиков 02.09.2016
Клуб анонимных аналитиков 02.09.2016Клуб анонимных аналитиков 02.09.2016
Клуб анонимных аналитиков 02.09.2016Alexey Kolokolov
 
Алексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRАлексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRIT-Доминанта
 
МРТ для данных / Анастасия Горячева (Avito)
МРТ для данных / Анастасия Горячева (Avito)МРТ для данных / Анастасия Горячева (Avito)
МРТ для данных / Анастасия Горячева (Avito)Ontico
 
МРТ для данных, Frontend Conf 2016
МРТ для данных, Frontend Conf 2016МРТ для данных, Frontend Conf 2016
МРТ для данных, Frontend Conf 2016Anastasia Goryacheva
 
Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataRoman Zykov
 
Аналитика для больших проектов
Аналитика для больших проектовАналитика для больших проектов
Аналитика для больших проектовVit Cheremisinov
 
Познай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tv
Познай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tvПознай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tv
Познай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tvДмитрий Севальнев
 
Яндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачи
Яндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачиЯндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачи
Яндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачиСергей Мочалов
 
О общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайтеО общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайтеAnton Kovalenko
 
Как разработчику обеспечить безопасность пользователей и данных в мобильном м...
Как разработчику обеспечить безопасность пользователей и данных в мобильном м...Как разработчику обеспечить безопасность пользователей и данных в мобильном м...
Как разработчику обеспечить безопасность пользователей и данных в мобильном м...Andrey Beshkov
 
8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...
8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...
8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...Ringostat
 
IT-Task. Дмитрий Ильин. "Привилегированные пользователи. Что делать, чтобы о...
IT-Task. Дмитрий Ильин. "Привилегированные пользователи.  Что делать, чтобы о...IT-Task. Дмитрий Ильин. "Привилегированные пользователи.  Что делать, чтобы о...
IT-Task. Дмитрий Ильин. "Привилегированные пользователи. Что делать, чтобы о...Expolink
 
Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)
Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)
Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)Дмитрий Севальнев
 

Similar to KeyBunch. Технология объединения данных (20)

Поисковое продвижение через блог (подробная инструкция)
Поисковое продвижение через блог (подробная инструкция)Поисковое продвижение через блог (подробная инструкция)
Поисковое продвижение через блог (подробная инструкция)
 
QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...
 
109 retail rocket_eretailforum2014
109 retail rocket_eretailforum2014109 retail rocket_eretailforum2014
109 retail rocket_eretailforum2014
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis
 
Akavita Tutejshyja
Akavita TutejshyjaAkavita Tutejshyja
Akavita Tutejshyja
 
Клуб анонимных аналитиков 02.09.2016
Клуб анонимных аналитиков 02.09.2016Клуб анонимных аналитиков 02.09.2016
Клуб анонимных аналитиков 02.09.2016
 
Алексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRАлексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HR
 
МРТ для данных / Анастасия Горячева (Avito)
МРТ для данных / Анастасия Горячева (Avito)МРТ для данных / Анастасия Горячева (Avito)
МРТ для данных / Анастасия Горячева (Avito)
 
МРТ для данных, Frontend Conf 2016
МРТ для данных, Frontend Conf 2016МРТ для данных, Frontend Conf 2016
МРТ для данных, Frontend Conf 2016
 
Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your data
 
Аналитика для больших проектов
Аналитика для больших проектовАналитика для больших проектов
Аналитика для больших проектов
 
10 ideas - isell
10 ideas -  isell 10 ideas -  isell
10 ideas - isell
 
Познай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tv
Познай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tvПознай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tv
Познай ТОП, выпуск 3. Севальнев Дмитрий и Юрков Сергей на MegaIndex.tv
 
top 3
top 3top 3
top 3
 
Яндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачи
Яндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачиЯндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачи
Яндекс.Поиск для сайта. HTML+CSS: новые возможности дизайна выдачи
 
О общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайтеО общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайте
 
Как разработчику обеспечить безопасность пользователей и данных в мобильном м...
Как разработчику обеспечить безопасность пользователей и данных в мобильном м...Как разработчику обеспечить безопасность пользователей и данных в мобильном м...
Как разработчику обеспечить безопасность пользователей и данных в мобильном м...
 
8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...
8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...
8p 2017 / Константин червяков / 7 самых распространенных ошибок при работе с ...
 
IT-Task. Дмитрий Ильин. "Привилегированные пользователи. Что делать, чтобы о...
IT-Task. Дмитрий Ильин. "Привилегированные пользователи.  Что делать, чтобы о...IT-Task. Дмитрий Ильин. "Привилегированные пользователи.  Что делать, чтобы о...
IT-Task. Дмитрий Ильин. "Привилегированные пользователи. Что делать, чтобы о...
 
Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)
Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)
Познай ТОП, выпуск 2. Севальнев Дмитрий (Пиксель Плюс)
 

KeyBunch. Технология объединения данных

  • 2. Аналитика Big Data — это просто… Визуализация в несколько кликов Прогноз в 16 строк кода
  • 3. … если у вас подготовлены все данные Машинное обучение Визуализация Систематизация данных Связывание данных Приведение к единому формату Устранение ошибок Удаление дублей
  • 4. Обычно схема предобработки данных выглядит так:
  • 5. Чем больше таблиц, тем сложнее процесс Время Количество таблиц 2 3-4 5-6 7-8 9-10 Запрос к базе Запрос посложнее Нужно писать скрипты Проект на неделю Проект на месяц 15 таблиц - предел для средней команды
  • 6. Почему так происходит? Так выглядят исходные таблицы с данными 300645... 175.654 ... ... № счета ID на сайте 853565... 543.654 ivan1983 134 ... ... Логин Число друзей dayryamm 295 986.442 Клик по ссылке ID на сайте Тип события 175.654 Логин в VK http://www... Данные события ivan1983 Ключи Данные CRM Данные веб-аналитики Данные соцсетей
  • 7. Почему так происходит? Обычный подход: объединить все в одну большую таблицу 986.442 Клик по ссылке ID на сайте Тип события ... ... http://www... Данные события ... ivan1983 134 Логин Число друзей ... ... 300645... 175.654 № счета ID на сайте ... ...
  • 8. Как работает KeyBunch Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya
  • 10. Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Если у пользователя по несколько ключей в каждой таблице 2 аккаунта, 3 счета, заходит на сайт с компьютера и телефона Обычный подход Строка-клон на каждую комбинацию ключей (2 x 3 x 2) KeyBunch Каждый ключ помещается находит свое место в пользовательской истории, дублирования не происходит 1
  • 11. Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Пользовательская история #4356454546 Иванов Петр Андреевич Идентификаторы на сайте: > 175.654 > 652.942 Счета: > 2989302384929230430 Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64 Логины в соцсетях: > ivan1983 > vanya_vanya Нет ни одного типа ключей, который бы был у каждого пользователя2 Часть пользователей была на сайте, но не открыла счет, часть открыла счет, но не была на сайте Обычный подход Собрать несколько таблиц, 1 пользователь может быть сразу в нескольких таблицах: Веб-пользователи Пользователи, открывшие счет KeyBunch По каждому человеку собираются все доступные ключи, 1 пользователь = 1 пользовательская история
  • 12. Данные по пользователю в одной таблице потеряны3 Не успели загрузить данные из CRM, не сработали скрипты веб-аналитики Обычный подход В лучшем случае - отсутствующие данные будут заполнены мусором (NULL, пустые строки, нули) В худшем случае - все данные по пользователю будут потеряны KeyBunch В лучшем случае - будет проведена склейка данных по другим ключам В худшем случае - пользовательской истории будет присвоен ярлык “Отсутствуют данные по ключу X”. Остальные данные будут на месте
  • 13. В чем разница? Итог Обычный подход 1. Взять данные из нескольких таблиц 2. Очистить от дублей внутри таблиц 3. Очистить от дублей между таблицами 4. Обработать случаи отсутствующих данных 5. Агрегировать строки, относящиеся к одному пользователю 6. Сделать нужные вычисления KeyBunch 1. Взять данные из пользовательской истории 2. Сделать нужные вычисления
  • 14. Результат: сложность растет линейно Время Количество таблиц 2 3-4 5-6 7-8 9-10 Обычный подход KeyBunch
  • 15. Что это дает бизнесу? Для анализа доступно больше информации о пользователе — точность предиктивной аналитики повышается
  • 16. Схема работы Ваше хранилище данных KeyBunch KeyBunch генерирует скрипты предобработки Склейка производится отдельным расширением к СУБД
  • 17. Уже готово Ядро системы Прототип пользовательского интерфейса Расширения для СУБД: MS SQL Server PostgreSql BigQuery В разработке Модули для СУБД Vertica ClickHouse Веб-интерфейс Состояние проекта
  • 18. Спасибо за внимание KeyBunch Технология объединения данных