SlideShare a Scribd company logo
1 of 30
От больших к очень
большим данным - зачем
нужна нормализация в
Big Data?
Николай Голов
Avito
Безусловный лидер в РФ
Moscow
St. Petersburg
Novosibirsk
N. Novgorod
Kazan
Samara
Rostov
Volgograd
Voronezh
Ufa
Chelyabinsk
Omsk
Krasnoyarsk
Vladivostok
Yakutsk
Irkutsk
Khabarovsk
1.6x2
от всего рынка
объявления РФ
Почти 50%
Просмотров с
мобильных устройств
40%
Подержанных машин
РФ в 2014 были
проданы на Авито
250K – 300K
Новых авторов в день.
7.9млрд.
Просмотров в Декабре
2014, 27млн уникальных
посетителей
9,500+
Платных магазинов
24.5млн.
Активных объявлений
в конце 2014
Эволюция Avito
0
400
800
1,200
1,600
2,000
2,400
Jan-09 Jul-09 Jan-10 Jul-10 Jan-11 Jul-11 Jan-12 Jul-12 Jan-13 Jul-13 Jan-14 Jul-14 Jan-15
Q1 2010
Фокус на Москве и
СПБ
Сентябрь 2010
13 новых
городов
Август 2011
28 городов
Q2 2013
Поглощение Slando
и Olx зафиксировало
лидирующую
позицию Авито
Январь
2012
Националь
ное
покрытие
Откуда у Avito
большие данные?
Первый источник
данных - изменения
01.01.20
15• 1000$
• MacBook
01.02.2015
• 100$
• MacBook, XXX
videos, cal
+1****
02.02.2015
• 500$
• MacBook Air
11
Web server 01
Web server 02
Web server 03
Log 01
Log 02
Log 03
search
view
help
pay
comment
Второй источник –
clickstream
Результаты 2013
 Август 2013: ELT инфраструктура для Vertica.
 Сентябрь 2013: Click Stream из MongoDB
 Октябрь 2013: Данные BackOffice из PostgreSQL
9 Backoffice DB Clickstream
• ~200 млн. Соб/день
• Каждые 15 минут
• Все изменения
• Раз в час
ClickStream tables
~ 30 tables
~ 50 bln. of records
Tables of Backoffice
~ 300 tables
~ up to 1 bln of records
Daily sync
Live connection
Analysts
Результаты 2013
4 servers, 11Tb of raw data
Откуда у Avito
еще больше больших
данных?
Automatic filtering of
illicit content
data samples
for competition
Users
Adverts
Payment
Clicks
Searches
Device
Cookie
Хранилище Avito -
эволюция
Illicit content detection
Fraud estimation
Основные принципы
аналитики Авито
 Все данные хранятся согласованными в HP Vertica
 Команды Data Scientists (по 1-2 человека) занимаются
прогнозированием, классификацией, сегментацией и т.п.
 Data scientists знают SQL и самостоятельно работают
в хранилище
 Большинство видов анализа занимает от минут до 2
часов
 Если анализ требует больше 2 часов – зовут Platform
Team
 Platform team занимается добавлением данных,
исправлением ошибок и созданием витрин.
Рост вовлеченности пользователей
Самостоятельная работа с
данными
Назначение цен на услуги
Прогнозирование трендов
Jan-14 Dec-14 Nov-15
Operating Metric
Forecast
Качество контента
Система искусственного
интеллекта для на 80%
автоматизированного:
 Поиска мошеннических действий
 Поиска нелегального контента
 Поиска дубликатов
 Построения ценовых моделей
 Обнаружения ботов
Оптимизация рекламы
• Отслеживание интересов
пользователей в реальном
времени для оптимального
подбора рекламных
предложений.
Back office
Click stream
BI
Team
Antifraud
MDM
CRM
16 Backoffice DB Clickstream
• ~200 млн. Соб/день
• Каждые 15 минут
• Все изменения
• Каждый час
ClickStream tables
~ 30 tables
~ 50 bln. of records
Tables of Backoffice
~ 300 tables
~ up to 1 bln of records
Daily sync
Live connection
Analysts
Результаты
2013
4 servers, 11Tb of raw data
17 Backoffice DB Clickstream
• ~600 млн. Соб/день
• Каждые 15 минут
• Все изменения
• Каждый час
ClickStream tables
~ 70 tables
~ 150 bln. of records
Tables of Backoffice
~ 600 tables
~ up to 2 bln of records
Daily sync
Live connection
Analysts
Сейчас
12 servers, 51Tb of raw data
Эволюция кластера Авито
4
10
15
0
2
4
6
8
10
12
14
16
Размер
кластера
(сервера)
2013 2014 2015
11
26
51
0
10
20
30
40
50
60
Размер
кластера
(TB)
2013 2014 2015
300
560
740
0
100
200
300
400
500
600
700
800
Размер
ClickStream
(млн.
Соб/день)
2013 2014 2015
3
14
23
0
5
10
15
20
25
Количество
интегрирован
ных
систем
2013 2014 2015
Почему мы можем там
быстро расти?
ANCHOR (HUB)
• Anchor – entity, сущность, существительное
• Пример – товар, клиент, магазин
• Хранит суррогатный ключ (в нашем случае – еще и
бизнес ключ)
• Дополнительно хранит систему-источник и дату загрузки
• Не меняется
H_User:
-user_id
-load_date
-source_sys
H_Advert:
-advert_id
-load_date
-source_sys
H_Referer:
-shop_id
-load_date
-source_sys
TIE (LINK)
• Tie – связка, глагол
• Пример – продажа товара клиенту
• Хранит сурр. ключи связываемых сущностей
• Дополнительно хранит систему-источник и дату
• Может связывать ТОЛЬКО Anchor-ы
• SCD 2, actual_date
H_Advert:
-adverts_id
-load_date
-source_sys
H_User:
-user_id
-load_date
-source_sys
T_Controls:
-(fk) user_id
-(fk) advert_id
-actual_date
-load_date
-source_sys
23
• ATTRIBUTE – свойство, прилагательное
• Пример – свойство клиента
• Хранит один атрибут и ключ только анкора
• Анкор может иметь произвольное количество атрибутов
• SCD 2 , actual_date
ATTRIBUTE (SATTELITE)
S_User_Name:
-user_id
-name
-actual_date
H_User:
-customer_id
-load_date
-source_sys
S_User_INN:
-user_id
-inn
-actual_date S_User_Gender:
-user_id
-gender
-actual_date
Users
Adverts
Payment
Back office
Clicks
Searches
Device
Cookie
Хранилище Avito - начало
Users
Adverts
Payment
Clicks
Searches
Device
Cookie
Преимущество 1 –
автоматизированное
расширение Phone
Bot Net
Geo point
Payment
system
Is Human
Преимущество 2 –
единообразная
сегментация
Преимущество 3.1:
экономия места
Преимущество 3.2:
экономия места
Преимущество 4: шаг
наружу
URL
Referer
UserAgent
Cookie
URL
Referer
UserAgent
Cookie
• Полуавтоматическое расширение модели
• Универсальный подход к выбору сегментации/сортировки
для таблиц
• Эффективная логическая компрессия данных
• Существующая версия оптимизатора запросов не умеет
генерировать эффективные планы запросов для высоко
нормализованной модели. Требуется свой механизм
генерации планов.
Преимущества и
недостатки нормализации
в MPP база данных

More Related Content

What's hot

maps.sputnik.ru #highload2014
maps.sputnik.ru #highload2014maps.sputnik.ru #highload2014
maps.sputnik.ru #highload2014Maxim Dementyev
 
Путь к Go на конкретном примере
Путь к Go на конкретном примереПуть к Go на конкретном примере
Путь к Go на конкретном примереSergey Xek
 
Серверный JavaScript: NodeJS и CouchDB
Серверный JavaScript: NodeJS и CouchDBСерверный JavaScript: NodeJS и CouchDB
Серверный JavaScript: NodeJS и CouchDBStepan Stolyarov
 
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
 Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектовForkConf
 
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...Pavel Dovbush
 
SphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricksSphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricksRoman Pavlushko
 
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событийShadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событийVyacheslav Nikulin
 
«Взломать за 60 секунд», Артем Кулаков, Redmadrobot
«Взломать за 60 секунд», Артем Кулаков, Redmadrobot«Взломать за 60 секунд», Артем Кулаков, Redmadrobot
«Взломать за 60 секунд», Артем Кулаков, RedmadrobotMail.ru Group
 
Andrey Varenyk "Neo4j for resolving graph-based problems"
Andrey Varenyk "Neo4j for resolving graph-based problems"Andrey Varenyk "Neo4j for resolving graph-based problems"
Andrey Varenyk "Neo4j for resolving graph-based problems"Fwdays
 
Платформа Skewer
Платформа SkewerПлатформа Skewer
Платформа SkewerTabtabusconf
 
Ускорение сайта на стороне клиента
Ускорение сайта на стороне клиентаУскорение сайта на стороне клиента
Ускорение сайта на стороне клиентаrusonyx
 
СПСР
СПСРСПСР
СПСРBDA
 
Доклад "React under the hood"
Доклад "React under the hood"Доклад "React under the hood"
Доклад "React under the hood"Kateryna Porshnieva
 
Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"Yandex
 
DevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCity
DevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCityDevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCity
DevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCityJetBrains Russia
 

What's hot (17)

Современные Single Page Application
Современные Single Page ApplicationСовременные Single Page Application
Современные Single Page Application
 
maps.sputnik.ru #highload2014
maps.sputnik.ru #highload2014maps.sputnik.ru #highload2014
maps.sputnik.ru #highload2014
 
Путь к Go на конкретном примере
Путь к Go на конкретном примереПуть к Go на конкретном примере
Путь к Go на конкретном примере
 
Серверный JavaScript: NodeJS и CouchDB
Серверный JavaScript: NodeJS и CouchDBСерверный JavaScript: NodeJS и CouchDB
Серверный JavaScript: NodeJS и CouchDB
 
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
 Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
 
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
 
SphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricksSphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricks
 
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событийShadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
 
"Обзор Tarantool DB"
"Обзор Tarantool DB""Обзор Tarantool DB"
"Обзор Tarantool DB"
 
«Взломать за 60 секунд», Артем Кулаков, Redmadrobot
«Взломать за 60 секунд», Артем Кулаков, Redmadrobot«Взломать за 60 секунд», Артем Кулаков, Redmadrobot
«Взломать за 60 секунд», Артем Кулаков, Redmadrobot
 
Andrey Varenyk "Neo4j for resolving graph-based problems"
Andrey Varenyk "Neo4j for resolving graph-based problems"Andrey Varenyk "Neo4j for resolving graph-based problems"
Andrey Varenyk "Neo4j for resolving graph-based problems"
 
Платформа Skewer
Платформа SkewerПлатформа Skewer
Платформа Skewer
 
Ускорение сайта на стороне клиента
Ускорение сайта на стороне клиентаУскорение сайта на стороне клиента
Ускорение сайта на стороне клиента
 
СПСР
СПСРСПСР
СПСР
 
Доклад "React under the hood"
Доклад "React under the hood"Доклад "React under the hood"
Доклад "React under the hood"
 
Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"
 
DevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCity
DevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCityDevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCity
DevOps в команде TeamCity. Евгений Кошкин, Senior Software Developer, TeamCity
 

Viewers also liked

Описание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP VerticaОписание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP VerticaAndrey Karpov
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaVolha Banadyseva
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцMikhail Tabunov
 
Консолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSMКонсолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSMi-Teco & Vitte Consulting
 
PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012Jos van Dongen
 
Short Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe VerticaShort Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe VerticaAndrey Karpov
 
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Ontico
 
Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)Ontico
 
NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014NOW! Innovations
 
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...Ontico
 
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...Ontico
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
 
NOW! Billing and Payment Solutions for EV Charging
NOW! Billing and Payment Solutions for EV ChargingNOW! Billing and Payment Solutions for EV Charging
NOW! Billing and Payment Solutions for EV ChargingNOW! Innovations
 
Airflow - a data flow engine
Airflow - a data flow engineAirflow - a data flow engine
Airflow - a data flow engineWalter Liu
 
Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...
Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...
Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...AvitoTech
 
Airflow - An Open Source Platform to Author and Monitor Data Pipelines
Airflow - An Open Source Platform to Author and Monitor Data PipelinesAirflow - An Open Source Platform to Author and Monitor Data Pipelines
Airflow - An Open Source Platform to Author and Monitor Data PipelinesDataWorks Summit
 

Viewers also liked (20)

Описание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP VerticaОписание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP Vertica
 
Обзор HP Vertica
Обзор HP VerticaОбзор HP Vertica
Обзор HP Vertica
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. Vertica
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
 
Консолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSMКонсолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSM
 
PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012
 
Short Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe VerticaShort Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe Vertica
 
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
 
Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)
 
Обзор компонентов HP BSM
Обзор компонентов HP BSMОбзор компонентов HP BSM
Обзор компонентов HP BSM
 
NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014
 
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
 
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...
 
Devconf15
Devconf15Devconf15
Devconf15
 
pgconf.ru 2015 avito postgresql
pgconf.ru 2015 avito postgresqlpgconf.ru 2015 avito postgresql
pgconf.ru 2015 avito postgresql
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
 
NOW! Billing and Payment Solutions for EV Charging
NOW! Billing and Payment Solutions for EV ChargingNOW! Billing and Payment Solutions for EV Charging
NOW! Billing and Payment Solutions for EV Charging
 
Airflow - a data flow engine
Airflow - a data flow engineAirflow - a data flow engine
Airflow - a data flow engine
 
Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...
Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...
Кортунов Никита. Как ускорить разработку приложений или есть ли жизнь после P...
 
Airflow - An Open Source Platform to Author and Monitor Data Pipelines
Airflow - An Open Source Platform to Author and Monitor Data PipelinesAirflow - An Open Source Platform to Author and Monitor Data Pipelines
Airflow - An Open Source Platform to Author and Monitor Data Pipelines
 

Similar to От больших к очень большим данным — зачем нужна нормализация в Big Data / Голов Николай (Авито)

Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Ontico
 
Перспективные направления исследований робототехники. Сколково
Перспективные направления исследований робототехники. СколковоПерспективные направления исследований робототехники. Сколково
Перспективные направления исследований робототехники. СколковоSkolkovo Robotics Center
 
Роман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в сутки
Роман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в суткиРоман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в сутки
Роман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в суткиNaZapad
 
Ishounkina akmr 16022016
Ishounkina akmr 16022016Ishounkina akmr 16022016
Ishounkina akmr 16022016tns_ru
 
2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне...
 2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне... 2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне...
2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне...АКМР Corpmedia.ru
 
TNS: "Реальные жители виртуального мира"
TNS: "Реальные жители виртуального мира"TNS: "Реальные жители виртуального мира"
TNS: "Реальные жители виртуального мира"sersnick
 
100 percent-ecommerce-club-11.02
100 percent-ecommerce-club-11.02100 percent-ecommerce-club-11.02
100 percent-ecommerce-club-11.02Alexey Petrovsky
 
Воронка продаж для интернет магазина. Методы оптимизации и наращивания продаж
Воронка продаж для интернет магазина. Методы оптимизации и наращивания продажВоронка продаж для интернет магазина. Методы оптимизации и наращивания продаж
Воронка продаж для интернет магазина. Методы оптимизации и наращивания продажE-commerce Solutions
 
Yandex. Digital Future. 2012
Yandex. Digital Future. 2012 Yandex. Digital Future. 2012
Yandex. Digital Future. 2012 Nikolay Shestakov
 
Ксения Ачкасова, директор по ТВ исследованиям Mediascope
Ксения Ачкасова, директор по ТВ исследованиям MediascopeКсения Ачкасова, директор по ТВ исследованиям Mediascope
Ксения Ачкасова, директор по ТВ исследованиям Mediascopetns_ru
 
Региональный Рунет: аудитория и деньги
Региональный Рунет: аудитория и деньгиРегиональный Рунет: аудитория и деньги
Региональный Рунет: аудитория и деньгиVi_presentations
 
«Региональный Рунет: аудитория и деньги»
«Региональный Рунет: аудитория и деньги»«Региональный Рунет: аудитория и деньги»
«Региональный Рунет: аудитория и деньги»Vi_presentations
 
Облака в России UIC 2012
Облака в России UIC 2012Облака в России UIC 2012
Облака в России UIC 2012LogneX
 
Автоматизировать Автобизнес выгодно!
Автоматизировать Автобизнес выгодно!Автоматизировать Автобизнес выгодно!
Автоматизировать Автобизнес выгодно!PartnerSB
 
Ольга Хмеленко "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.ua
Ольга Хмеленко  "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.uaОльга Хмеленко  "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.ua
Ольга Хмеленко "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.uaSEO.UA
 

Similar to От больших к очень большим данным — зачем нужна нормализация в Big Data / Голов Николай (Авито) (20)

Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
 
A romanenkov begun
A romanenkov begunA romanenkov begun
A romanenkov begun
 
Перспективные направления исследований робототехники. Сколково
Перспективные направления исследований робототехники. СколковоПерспективные направления исследований робототехники. Сколково
Перспективные направления исследований робототехники. Сколково
 
Роман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в сутки
Роман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в суткиРоман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в сутки
Роман рыбальченко - веб аналитика при посещаемости от 100 000 до 2 млн в сутки
 
Ishounkina akmr 16022016
Ishounkina akmr 16022016Ishounkina akmr 16022016
Ishounkina akmr 16022016
 
2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне...
 2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне... 2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне...
2016.02.16 Конференция Digital. Презентация, И. Ишунькина. Аудитория интерне...
 
Basic strategy2012
Basic strategy2012Basic strategy2012
Basic strategy2012
 
TNS: "Реальные жители виртуального мира"
TNS: "Реальные жители виртуального мира"TNS: "Реальные жители виртуального мира"
TNS: "Реальные жители виртуального мира"
 
100 percent-ecommerce-club-11.02
100 percent-ecommerce-club-11.02100 percent-ecommerce-club-11.02
100 percent-ecommerce-club-11.02
 
Воронка продаж для интернет магазина. Методы оптимизации и наращивания продаж
Воронка продаж для интернет магазина. Методы оптимизации и наращивания продажВоронка продаж для интернет магазина. Методы оптимизации и наращивания продаж
Воронка продаж для интернет магазина. Методы оптимизации и наращивания продаж
 
Yandex. Digital Future. 2012
Yandex. Digital Future. 2012 Yandex. Digital Future. 2012
Yandex. Digital Future. 2012
 
Yandex forstaff
Yandex forstaffYandex forstaff
Yandex forstaff
 
Ксения Ачкасова, директор по ТВ исследованиям Mediascope
Ксения Ачкасова, директор по ТВ исследованиям MediascopeКсения Ачкасова, директор по ТВ исследованиям Mediascope
Ксения Ачкасова, директор по ТВ исследованиям Mediascope
 
Mobio keynote
Mobio keynoteMobio keynote
Mobio keynote
 
Rif1205 presentation
Rif1205 presentationRif1205 presentation
Rif1205 presentation
 
Региональный Рунет: аудитория и деньги
Региональный Рунет: аудитория и деньгиРегиональный Рунет: аудитория и деньги
Региональный Рунет: аудитория и деньги
 
«Региональный Рунет: аудитория и деньги»
«Региональный Рунет: аудитория и деньги»«Региональный Рунет: аудитория и деньги»
«Региональный Рунет: аудитория и деньги»
 
Облака в России UIC 2012
Облака в России UIC 2012Облака в России UIC 2012
Облака в России UIC 2012
 
Автоматизировать Автобизнес выгодно!
Автоматизировать Автобизнес выгодно!Автоматизировать Автобизнес выгодно!
Автоматизировать Автобизнес выгодно!
 
Ольга Хмеленко "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.ua
Ольга Хмеленко  "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.uaОльга Хмеленко  "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.ua
Ольга Хмеленко "С 0 до 8 млн в месяц за 2 года" - опыт Bigl.ua
 

More from Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 

More from Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

От больших к очень большим данным — зачем нужна нормализация в Big Data / Голов Николай (Авито)

  • 1. От больших к очень большим данным - зачем нужна нормализация в Big Data? Николай Голов
  • 3. Безусловный лидер в РФ Moscow St. Petersburg Novosibirsk N. Novgorod Kazan Samara Rostov Volgograd Voronezh Ufa Chelyabinsk Omsk Krasnoyarsk Vladivostok Yakutsk Irkutsk Khabarovsk 1.6x2 от всего рынка объявления РФ Почти 50% Просмотров с мобильных устройств 40% Подержанных машин РФ в 2014 были проданы на Авито 250K – 300K Новых авторов в день. 7.9млрд. Просмотров в Декабре 2014, 27млн уникальных посетителей 9,500+ Платных магазинов 24.5млн. Активных объявлений в конце 2014
  • 4. Эволюция Avito 0 400 800 1,200 1,600 2,000 2,400 Jan-09 Jul-09 Jan-10 Jul-10 Jan-11 Jul-11 Jan-12 Jul-12 Jan-13 Jul-13 Jan-14 Jul-14 Jan-15 Q1 2010 Фокус на Москве и СПБ Сентябрь 2010 13 новых городов Август 2011 28 городов Q2 2013 Поглощение Slando и Olx зафиксировало лидирующую позицию Авито Январь 2012 Националь ное покрытие
  • 6. Первый источник данных - изменения 01.01.20 15• 1000$ • MacBook 01.02.2015 • 100$ • MacBook, XXX videos, cal +1**** 02.02.2015 • 500$ • MacBook Air 11
  • 7. Web server 01 Web server 02 Web server 03 Log 01 Log 02 Log 03 search view help pay comment Второй источник – clickstream
  • 8. Результаты 2013  Август 2013: ELT инфраструктура для Vertica.  Сентябрь 2013: Click Stream из MongoDB  Октябрь 2013: Данные BackOffice из PostgreSQL
  • 9. 9 Backoffice DB Clickstream • ~200 млн. Соб/день • Каждые 15 минут • Все изменения • Раз в час ClickStream tables ~ 30 tables ~ 50 bln. of records Tables of Backoffice ~ 300 tables ~ up to 1 bln of records Daily sync Live connection Analysts Результаты 2013 4 servers, 11Tb of raw data
  • 10. Откуда у Avito еще больше больших данных?
  • 11. Automatic filtering of illicit content data samples for competition
  • 13. Основные принципы аналитики Авито  Все данные хранятся согласованными в HP Vertica  Команды Data Scientists (по 1-2 человека) занимаются прогнозированием, классификацией, сегментацией и т.п.  Data scientists знают SQL и самостоятельно работают в хранилище  Большинство видов анализа занимает от минут до 2 часов  Если анализ требует больше 2 часов – зовут Platform Team  Platform team занимается добавлением данных, исправлением ошибок и созданием витрин.
  • 14. Рост вовлеченности пользователей Самостоятельная работа с данными Назначение цен на услуги Прогнозирование трендов Jan-14 Dec-14 Nov-15 Operating Metric Forecast Качество контента Система искусственного интеллекта для на 80% автоматизированного:  Поиска мошеннических действий  Поиска нелегального контента  Поиска дубликатов  Построения ценовых моделей  Обнаружения ботов Оптимизация рекламы • Отслеживание интересов пользователей в реальном времени для оптимального подбора рекламных предложений.
  • 16. 16 Backoffice DB Clickstream • ~200 млн. Соб/день • Каждые 15 минут • Все изменения • Каждый час ClickStream tables ~ 30 tables ~ 50 bln. of records Tables of Backoffice ~ 300 tables ~ up to 1 bln of records Daily sync Live connection Analysts Результаты 2013 4 servers, 11Tb of raw data
  • 17. 17 Backoffice DB Clickstream • ~600 млн. Соб/день • Каждые 15 минут • Все изменения • Каждый час ClickStream tables ~ 70 tables ~ 150 bln. of records Tables of Backoffice ~ 600 tables ~ up to 2 bln of records Daily sync Live connection Analysts Сейчас 12 servers, 51Tb of raw data
  • 18. Эволюция кластера Авито 4 10 15 0 2 4 6 8 10 12 14 16 Размер кластера (сервера) 2013 2014 2015 11 26 51 0 10 20 30 40 50 60 Размер кластера (TB) 2013 2014 2015 300 560 740 0 100 200 300 400 500 600 700 800 Размер ClickStream (млн. Соб/день) 2013 2014 2015 3 14 23 0 5 10 15 20 25 Количество интегрирован ных систем 2013 2014 2015
  • 19. Почему мы можем там быстро расти?
  • 20.
  • 21. ANCHOR (HUB) • Anchor – entity, сущность, существительное • Пример – товар, клиент, магазин • Хранит суррогатный ключ (в нашем случае – еще и бизнес ключ) • Дополнительно хранит систему-источник и дату загрузки • Не меняется H_User: -user_id -load_date -source_sys H_Advert: -advert_id -load_date -source_sys H_Referer: -shop_id -load_date -source_sys
  • 22. TIE (LINK) • Tie – связка, глагол • Пример – продажа товара клиенту • Хранит сурр. ключи связываемых сущностей • Дополнительно хранит систему-источник и дату • Может связывать ТОЛЬКО Anchor-ы • SCD 2, actual_date H_Advert: -adverts_id -load_date -source_sys H_User: -user_id -load_date -source_sys T_Controls: -(fk) user_id -(fk) advert_id -actual_date -load_date -source_sys
  • 23. 23 • ATTRIBUTE – свойство, прилагательное • Пример – свойство клиента • Хранит один атрибут и ключ только анкора • Анкор может иметь произвольное количество атрибутов • SCD 2 , actual_date ATTRIBUTE (SATTELITE) S_User_Name: -user_id -name -actual_date H_User: -customer_id -load_date -source_sys S_User_INN: -user_id -inn -actual_date S_User_Gender: -user_id -gender -actual_date
  • 30. • Полуавтоматическое расширение модели • Универсальный подход к выбору сегментации/сортировки для таблиц • Эффективная логическая компрессия данных • Существующая версия оптимизатора запросов не умеет генерировать эффективные планы запросов для высоко нормализованной модели. Требуется свой механизм генерации планов. Преимущества и недостатки нормализации в MPP база данных

Editor's Notes

  1. Each advert produces list of versions. If one wants to understand it’s data – all changes have to be stored
  2. Clickstream - all actions of users on a web-pages
  3. 2013 – data are loaded from main data sources, first reports are implemented.
  4. Main feature – DWH is constantly loading data, delay is no more than 2 hours.
  5. Vertica supports SQL Data samples can be easily generated, checked Data scientists don’t need to have Big Data skills They need to know SQL
  6. System for illicit content detection uses data from data warehouse to operate, and produces its own data, that have to be added to DWH and linked to existing entities.
  7. Here is a full list of BI applications, created above the data warehouse. Each applications uses some data from DWH and produces new data for it.
  8. Data sources and data receivers at the end of 2014 Some sources are also data receivers.
  9. Main feature – DWH is constantly loading data, delay is no more than 2 hours.
  10. Anchor Modeling – brand new data warehouse modeling methodology. It’s similar to Data Vault, but requires higher level of normalization – 6th normal formal.
  11. Animated slide. Vertica is relational database, so it supports high level of normalization Data are stored as graph of linked objects (tables), so new objects, new entities, can be easily added and linked to old ones. At the beginning ETL for adverts, users and payments were implemented. After it – clicks and searches were loaded and linked to adverts.
  12. Examples of DWH expanding: -loading of geo location points for web events (searches and clicks) from mobile devices. -support of phone verification for users -support of multiple payment systems -support of bot detection services -detection of fraud (non-human) clicks
  13. – all DWH was implemented and supported by 2-4 persons. - approach guarantees scaling of data loading tasks by adding new servers to cluster (this feature is not guaranteed by HP Vertica if tables were not efficiently designed). - normalization helps to store only unique values for such values as URL, Referer or Cookie. - (drawback) Ordinary reports require up to dozen of joins of tables with more with 100 billion of rows. Query optimizer generates plans, that are too heavy for RAM, even for RAM of MPP cluster.