Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Артем Маринов "Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP"

68 views

Published on

Каждый день пользователи совершают миллионы действий в Интернете. Нам в FACETz DMP необходимо структурировать эти данные и проводить сегментацию для выявления предпочтений пользователей.

Хочу рассказать, как мы:
- Сегментируем в реальном времени 600 миллионов пользователей ежедневно;
- Поставляем данные партнерам, DSP, Google с минимальной задержкой;
- Храним статистику по количеству уникальных пользователей в сегменте при потоковой обработке;
- Отслеживаем влияние изменения параметров сегментации;
- Ведем подсчет аффинитивности домена к сегменту для аналитики аудиторий.

Published in: Education
  • Be the first to comment

  • Be the first to like this

Артем Маринов "Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP"

  1. 1. Что такое Facetz DMP • Data Management Platform • 600 млн пользователей
  2. 2. • Data Management Platform • 600 млн пользователей 5.5 млрд / сутки Что такое Facetz DMP
  3. 3. • Прямые установки пикселя • Поток данных от партнеров • Оффлайн выгрузки DMP Механизмы получения данных
  4. 4. Ключевые показатели • Горизонтальная масштабируемость • Оценка объема аудитории • Удобство мониторинга и разработки • Хорошая скорость реакции на события
  5. 5. Как было раньше
  6. 6. Как было раньше Loader
  7. 7. Как было раньше Loader Analytic Engine statistics Partners
  8. 8. Ключевые показатели • Горизонтальная масштабируемость • Оценка объема аудитории • Удобство мониторинга и разработки • Хорошая скорость реакции на события
  9. 9. Ключевые показатели • Горизонтальная масштабируемость • Оценка объема аудитории • Удобство мониторинга и разработки • Хорошая скорость реакции на события
  10. 10. Ключевые показатели • Горизонтальная масштабируемость • Оценка объема аудитории • Удобство мониторинга и разработки • Хорошая скорость реакции на события
  11. 11. Чего мы хотим? • Писать данные в HBase сразу • Реагировать на события мгновенно • Удобство мониторинга и разработки
  12. 12. Начинаем сегментировать сразу • готовимся к random read • смена workload • максимальная плотность хранения Loader bulk_load
  13. 13. Начинаем сегментировать сразу • готовимся к random read • смена workload • максимальная плотность хранения • увеличиваем нагрузку Loader Segmentator trigger bulk_load
  14. 14. Начинаем сегментировать сразу Loader Segmentator trigger bulk_load / GOOGLEPartners • готовимся к random read • смена workload • максимальная плотность хранения • увеличиваем нагрузку
  15. 15. Kafka — прекрасный инструмент • Topic — набор partition • Partition — файл(ы) partition 1 partition 2 partition N
  16. 16. • Producers — пишут в конец • Consumer Group — независимы partition 1 partition 2 partition N Producers • Topic — набор partition • Partition — файл(ы) Kafka — прекрасный инструмент
  17. 17. • Producers — пишут в конец • Consumer Group — независимы partition 1 partition 2 partition N Producers Group AA: 7 A: 5 • Topic — набор partition • Partition — файл(ы) Kafka — прекрасный инструмент
  18. 18. • Producers — пишут в конец • Consumer Group — независимы partition 1 partition 2 partition N Producers Group A Group B A: 7 A: 5 • Topic — набор partition • Partition — файл(ы) B: 3 B: 8 Kafka — прекрасный инструмент
  19. 19. • Producers — пишут в конец • Consumer Group — независимы partition 1 partition 2 partition N Producers Consumer A • Topic — набор partition • Partition — файл(ы) A: 7 A: 5 B: 3 B: 8 Group A Consumer BGroup B Kafka — прекрасный инструмент
  20. 20. Пишем данные в реальном времени • подготовка к random write Loader
  21. 21. Пишем данные в реальном времени • подготовка к random write • все пошло не так • самомасштабирование Stream-loaderLoader
  22. 22. Боты — зло
  23. 23. Планы • Утилизация ресурсов hadoop кластера • Точные средства хранения статистики в потоке • Различные оптимизации по CPU
  24. 24. Facetz.DCA Спасибо! Вопросы? Ответы? Маринов Артем a.marinov@datacentric.ru

×