Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Как мы считали трафик на Вертике, Николай Голов (Avito)

2,536 views

Published on

Доклад Николая Голова на HIghLoad++ 2014.

Published in: Internet
  • Be the first to comment

Как мы считали трафик на Вертике, Николай Голов (Avito)

  1. 1. Как мы считали трафик на Вертике Голов Николай
  2. 2. Что такое Avito.ru? #1 сайт объявлений в России* –3.9 млрд просмотров в месяц –40 млн посетителей в месяц
  3. 3. Уникальные посетители Avito.ru 46 млн
  4. 4. Активные объявления Avito.ru 20 млн
  5. 5. Что такое Avito.ru? Более 150млн просмотров в день – один из крупнейших сайтов объявлений в мире 20 млн активных объявлений**: Недвижимость, Транспорт, Работа, Услуги, Товары для дома и т. д.
  6. 6. Big data инсталляция Авито Daily sync Live connection (10-серверный кластер) Таблицы действий посетителей ~ 50 таблиц ~ 100 млрд. записей • ~500 млн. событий /день • Загрузк а раз в 15 минут Таблицы Backoffice ~ 300 таблиц ~ до 2 млрд. записей Backoffice DB Clickstream Внешние данные Analysts ~26TB несжатых данных • Загрузк а раз в 20 мин. • Все изменения
  7. 7. Отчет о трафике – задача Месяц Июль Неделя Регион Краснодарский край Город Мастер категория … Сочи Краснодар Категория Автомобили Новые Подержанные День 07.07.2014 07.07.2014 08.07.2014 09.07.2014 Меры: • Количество просмотров • Количество сессий • Количество уникальных посетителей
  8. 8. Отчет о трафике - размерность Регион Краснодарский край Город Мастер категория Сочи Краснодар Категория Количество сочетаний: 5000*67*3*3*… >3mln Автомобили Новые Подержанные 85 ~5000 11 67 Малые измерения: • 3+ типа действий • 3 платформы (api, desc, mobile) • …
  9. 9. Отчет о трафике - размерность 250 mln/day Select count(...), … From T Group by … 250 mln.  3 mln. groups
  10. 10. Неаддитивные меры …. Сочи, Новые авто, 1.1.1.127, 13:09 07.08.2014 …. Российская федерация, все Краснодарский край, Авто Сочи, Авто Сочи, Новые авто Все авито 250 mln.  ~20*250mln.=5 bln. 3 mln. groups
  11. 11. Размерность с учетом неаддитивности 5 bln/day 250 mln/day 3 mln/day Day = 5 bln. Week = 150 bln. Month = 1.5 trln.
  12. 12. Задача сложна =>шардирование Тонкость – шардирование возможно только по результирующим данным, не по входящим.
  13. 13. Шардирование по аггрегатным группам Сочи, подержанные авто Сочи, новые авто Краснодар, новые авто Краснодарский край, авто Уникальные непустые сочетания входных измерений Уникальные непустые сочетания целевых измерений
  14. 14. Инициализация метаданных Исходные события Уникальные непустые сочетания целевых измерений Уникальные непустые входные сочетания Красн. край, авто Кранодар, авто Сочи, авто Сочи, подерж. авто Матрица соответствия входных и целевых сочетаний
  15. 15. Рассчет шарда Выделение целевой группы по остатку от деления уникального ключа Красн. край, авто Кранодар, авто Сочи, авто Сочи, подерж. авто Отбор входных групп по матрице соответствия Размножение записей отобранных входных групп Select count(distinct...), … From T Group by … Аггрегация
  16. 16. Алгоритм: реализация Select count(distinct...), … From T Group by … Выделение фрагмента, отбор целевых групп, оркестровка 07.07.2014 08.07.2014 09.07.2014 Параллельный запуск SQL запросов по дням
  17. 17. Результаты • Сутки: ~250 млн. на вход, 7 фрагментов, 1-2 часа. • Неделя: ~2 млрд. на вход, 14 фрагментов, 4-5 часов. • Месяц: ~7 млрд. на вход, 21 фрагмент, 16-18 часов.

×