Процессинг данных
на lambda-архитектуре
Препарируем Data Management Platform
ЮКОН 2016
Анатолий Никулин
Коротко об AdTech
● Advertiser Technology -
технологии для рекламодателей.
● Это $60 B (только в США)
● Это десятки-сотни тысяч событий
в секунду
● Как следствие большие объемы
данных и нагрузки.
Что нужно рекламодателям, чтобы быть
эффективными
● Надо продать удочки
● Можно показать рекламу
Всему честному люду
● Но лучше выделить
определенную
группу - “Рыбаки”
● Их на порядок меньше,
экономия на порядок больше
Как им в этом помочь?
● Сбор и анализ пользовательской активности.
● Формирование профиля пользователя (интересы, увлечения,
профессиональная деятельность)*
● Группировка пользователей по заданным критериям, чтобы
можно было более точно и эффективно настраивать рекламные
кампании.
● Сделать рекламу более релевантной для пользователя, и
эффективной для рекламодателя.
*Анонимно
Как следствие требования
● Обработка и хранение больших объемов
исторических данных
● Оперативность принятия решений
● Устойчивость к отказам
● Горизонтальная масштабируемость
Трекинг входящих событий
ESB как единая точка входа данных
Spark как маршрутизатор данных
HDFS как хранилище сырых данных
● Распределенная файловая система
● Поддержка репликации
(надежность, ускорение вычислений)
● Файлы в формате Parquet
(компактное хранение, эффективный
последовательный доступ)
● Храним очень долго
HBase как хранилище консолидированных
профилей
● Распределенное колонко-ориентированное
хранилище
● Структура не фиксирована. 10 000 колонок - это
нормально
● Позволяет обособленно хранить сложные структуры
данных. Поддерживает версионность
● Отлично интегрирована с фреймворками
распределенных вычислений (Spark, MapReduce)
HBase как хранилище консолидированных
профилей
Внешние поставщики данных (3rd party data
providers)
● Соц. дем. (возраст, пол, семейное положение,
наличие детей)
● Интересы (хобби, увлечения)
● Профессиональная деятельность. (Организация,
отрасль, годовой оборот)
ASE сегментация пользователей.
Взять всех, да и поделить!
● Разбить профили на группы (сегменты). Чтобы
показывать релевантную рекламу.
● Сегментов может быть произвольное количество
● У сегмента есть
Правило и время жизни
Пример:
Сегмент: Охотники и рыбаки
Мужчины, 30-45, Сибирь,
Visits: www.hunters.ru
ASE как функция
Это и есть лямбда?
Плюсы
● Оперативность принятия решений
● Хранение сырых данных ( immutable, append-only)
● Возможность анализа всего исторического датасета
● Возможность репроцессинга всего исторического датасета
● Горизонтальная масштабируемость
● Отказоустойчивость
Минусы
● Сложность реализации
● Дороговизна реализации и владения
Вопросы?

Конференция Юкон. Процессинг данных на лямбда архитектуре.

  • 1.
    Процессинг данных на lambda-архитектуре ПрепарируемData Management Platform ЮКОН 2016 Анатолий Никулин
  • 2.
    Коротко об AdTech ●Advertiser Technology - технологии для рекламодателей. ● Это $60 B (только в США) ● Это десятки-сотни тысяч событий в секунду ● Как следствие большие объемы данных и нагрузки.
  • 3.
    Что нужно рекламодателям,чтобы быть эффективными ● Надо продать удочки ● Можно показать рекламу Всему честному люду ● Но лучше выделить определенную группу - “Рыбаки” ● Их на порядок меньше, экономия на порядок больше
  • 4.
    Как им вэтом помочь? ● Сбор и анализ пользовательской активности. ● Формирование профиля пользователя (интересы, увлечения, профессиональная деятельность)* ● Группировка пользователей по заданным критериям, чтобы можно было более точно и эффективно настраивать рекламные кампании. ● Сделать рекламу более релевантной для пользователя, и эффективной для рекламодателя. *Анонимно
  • 5.
    Как следствие требования ●Обработка и хранение больших объемов исторических данных ● Оперативность принятия решений ● Устойчивость к отказам ● Горизонтальная масштабируемость
  • 6.
  • 7.
    ESB как единаяточка входа данных
  • 8.
  • 9.
    HDFS как хранилищесырых данных ● Распределенная файловая система ● Поддержка репликации (надежность, ускорение вычислений) ● Файлы в формате Parquet (компактное хранение, эффективный последовательный доступ) ● Храним очень долго
  • 10.
    HBase как хранилищеконсолидированных профилей ● Распределенное колонко-ориентированное хранилище ● Структура не фиксирована. 10 000 колонок - это нормально ● Позволяет обособленно хранить сложные структуры данных. Поддерживает версионность ● Отлично интегрирована с фреймворками распределенных вычислений (Spark, MapReduce)
  • 11.
    HBase как хранилищеконсолидированных профилей
  • 12.
    Внешние поставщики данных(3rd party data providers) ● Соц. дем. (возраст, пол, семейное положение, наличие детей) ● Интересы (хобби, увлечения) ● Профессиональная деятельность. (Организация, отрасль, годовой оборот)
  • 13.
    ASE сегментация пользователей. Взятьвсех, да и поделить! ● Разбить профили на группы (сегменты). Чтобы показывать релевантную рекламу. ● Сегментов может быть произвольное количество ● У сегмента есть Правило и время жизни Пример: Сегмент: Охотники и рыбаки Мужчины, 30-45, Сибирь, Visits: www.hunters.ru
  • 14.
  • 17.
    Это и естьлямбда?
  • 18.
    Плюсы ● Оперативность принятиярешений ● Хранение сырых данных ( immutable, append-only) ● Возможность анализа всего исторического датасета ● Возможность репроцессинга всего исторического датасета ● Горизонтальная масштабируемость ● Отказоустойчивость Минусы ● Сложность реализации ● Дороговизна реализации и владения
  • 19.