Для того чтобы таргетировать рекламу по поведению интернет-пользователей, DMP ежедневно оценивает терабайты данных. В докладе расскажу, как при помощи алгоритмов потоковой обработки данных можно быстро оценить большой объем статистики и формы распределения различных характеристик.
+ Что будем оценивать?
Будем оценивать функции распределения различных случайных величин. На практике это может понадобиться, например, как инструмент первичного анализа трафика или как данные, необходимые для принятия решений в RTB.
+ Распределения параметров пользователей и их поведения.
+ Метод Манро-Патерсона, метод Канна-Гринвальда.
В этой части я расскажу о методе Манро-Патерсона — алгоритме оценки медианы, и о методе Канна-Гринвальда, который позволяет оценить функцию распределения.
+ Мотивирующий пример.
Расскажу о том, как применяю описанные методы на наших данных для составления портрета целевой аудитории наших клиентов.
9. 9
Потокововые
алгоритмы — зачем?
Хотим отслеживать показатели
здоровья системы:
качество прогнозов
характеристики
пользовательского трафика
… и другие
Хотим прямо сейчас
50. 50
Статьи
Selection and sorting with limited storage, Манро Дж., Патерсон М. (1980) —
://polylogblog.files.wordpress.com/2009/08/80munro-median.pdf
Space-Efficient Online Computation of Quantile Summaries, Канна С.,
Гринвальд М. (2001)
http://infolab.stanford.edu/~datar/courses/cs361a/papers/quantiles.pdf