Аналитика над петабайтами в реальном времени

Александр
Демидко,

So2ware
engineer
@
Metamarkets

Аналитика
над
петабайтами

в
реальном
времени

Откуда
данные?
{!
“type”: “ad impression”,!
“country”: “Canada”,!
“age”: 30,!
“gender”: “M”,!
“adsize”: “320x100”,!
“device”: “iPhone 7”,!
“site”: “bestbooze.com”,!
!
…!
}!
{!
“type”: “ad click”,!
…!
}!

Запросы

-‐
Процент
платящих
из
Китая
за
декабрь,
пришедших
с
сайтов

автомобильной
тематики?

-‐
Процент
кликов
в
рекламной
кампании
XXXXXXXX
от
пользователей
iPhone

5
и
выше?

-‐
Какая
страница
чаще
всего
редактировалась
в
эту
неделю?

-‐
Сколько
гигабайт
на
вход
прокачал
10.5.160.201
за
вчера?

-‐
Число
уникальных
пользователей
за
последний
час?

Big
Data

Ad-‐hoc
Queries

Low
Latency
Querying

$$$$

Big
Data

Ad-‐hoc

Queries

Low

Latency

Querying

WAT?

No
free
lunch

Цифры,
цифры,
цифры

Процессинг

Входящих
событий
поточно:
25Tb/день,
23Gb/мин
в
пике

Входящих
событий
батчем:
160Tb/день

1
событие
≈
1Kb

Хранилище

400Tb
сжатых
данных
(≈
50-‐100Pb
сырых)

1000
запросов/мин
в
пике

90%
<1
сек,
95%
<2
сек,
99%
<10
сек

Стоимость

на
три
порядка
меньше
за
событие,

чем
у
“обычной”
платформы
аналитики

Где
храним

Druid
(h†p://druid.io)

In-‐house,
open-‐source
(Apache
License,
Yay!)

✔
Распределение
запросов
и
данных

✔
Колоночное
хранение

✘Ограничиваем
число
уникальных
рядков
(UUID)

✘
После
записи
данные
не
меняются

✘
Нет
джойнов

Обработка
потоковых
данных

API

Logic

map,
ﬁlter,

union,
join,

…

?
Обновление
логики
на
новую
версию

?
Как
запроцессить
данные
еще
раз

Druid

Обработка
потоковых
данных
II

API
Logic

Apache
Ka‘a

-‐
Топики
(показы,
клики,
конверсии)

-‐
N
разделов
на
топик

-‐
Сообщения
в
разделе
упорядочены

-‐
Клиент
управляет
чтением

-‐
Храним
неделю
данных

-‐
Реплицируем
2x

Ka‘a
Druid

Pipeline
logic

map

Ka‘a

read

filter

filter

Ka‘a

read

join

map

Druid

save

Druid

save

filter

Guaranteed
delivery

map

Ka‘a

read

filter

filter

Ka‘a

read

join

map

Druid

save

Druid

save

filter

Пофейлились:

-‐
Забить:
at
most
once

-‐
Повторить:
at
least
once

-‐
???:
Exactly
once

Обработка
потоковых
данных
III

API

Ka‘a
Druid

Apache

Storm

Redis

keyA,
keyC
keyB,keyD,keyE

Это
все?

API

?
Опоздавшие
на
join
события

?
Отсутствие
exactly
once

?
Хотим
запроцессить
данные
старше
7ми
дней
(буфер
в
Ka‘a)

Ka‘a
Druid

Storm

Redis

λ-‐архитектура

API

Ka‘a
Druid

Storm

Redis

HDFS

–
2x
hardware

–
2x
code

Storm

-‐
Закрытый
код

-‐
Открытые
аналоги:

Twi†er
Summingbird,
Spark/Spark
Streaming

Теперь
все?

Не-‐а

Сложности
Storm:

-‐
Сильная
связанность

-‐
Чувствителен
к
потерям
пакетов

-‐
Неочевидно,
где
узкое
место
в
производительности

и
какой
уровень
параллелизма
выставлять

Слишком
много
тонкой
настройки
L

Apache
Samza

Ka‘a

-‐
Пишем
промежуточные
результаты
на
диск
в
Ka‘у

-‐
Узкое
место
там,
где
отстаем
по
чтению
из
Ka‘и

-‐
Join/group
by
без
Redis

API

Ka‘a

Druid

Ka‘a
Junior

HDFS

Метрики

Репортим:

байт/событий
обработано

отставание
от
Ka‘и

использовано
памяти
в
Druidе

…

С
параметрами:

версия

пайплайн

хост

…

Спасибо!

P.S.
Изоляция
и
автоскейлинг
не
вошли:

для
интересующихся
можно
поймать
меня
после
доклада

Аналитика над петабайтами в реальном времени

More Related Content

What's hot

Similar to Аналитика над петабайтами в реальном времени

More from CodeFest

Аналитика над петабайтами в реальном времени