Во вступлении мы рассмотрим, какие виды фрода существуют в RTB (bots, ad stacking, spoof sites).
Далее поговорим о том, что из вышеперечисленного мы умеем ловить алгоритмически, и дадим общее описание подхода к кластеризации бид-реквестов на "хорошие" (люди) и "плохие" (боты) с использованием методов machine learning. Обсудим, какой из способов обучения лучше подходит для данной задачи, по каким ключевым признакам кластеризуем, каким методом.
В технической части обсудим область параметров, при которых решалась задача, а именно: размер learning sample 200 млрд. строк бид запросов, при реализации на Hadoop расчет велся в GCE на 140 машинах класса n1-highmem-8 и занимал 22 расчетных часа. Реализация достаточно ресурсозатратная как с точки зрения времени, так и денег, поэтому встал запрос на вычислительную оптимизацию.
В оптимизационной части мы обсудим, как при переходе на Spark framework уже на первой фазе получилось достигнуть выигрыша в производительности в 3 раза по сравнению с Hadoop framework и это далеко не предел. Сейчас проект перехода в активной фазе и к моменту доклада мы ожидаем довести этот показатель до ~10 раз.
2. Anti-fraud solutions in RTB
I. ВступлениеI. Вступление
II. Алгоритмический подходII. Алгоритмический подход
III. Техническая реализация расчетаIII. Техническая реализация расчета
IV. ЗаключениеIV. Заключение
3.
I. ВступлениеI. Вступление
− виды фрода в RTB;виды фрода в RTB;
− экономический эффект фрода;экономический эффект фрода;
− борьба с фродом: short term vs long term effectsборьба с фродом: short term vs long term effects
II. Алгоритмический подходII. Алгоритмический подход
III. Техническая реализацияIII. Техническая реализация
IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
4. Anti-fraud solutions in RTB
Зачем боремся?
Рекламодатели платят за viewability и конверсии
(к этому мы еще вернемся)
С чем боремся?
(1) Боты - программы, в автоматическом режиме
выполняющие действия, похожие на действия человека
(просмотры, клики, конверсии);
(2) Ad Stacking - несколько баннеров
один поверх другого;
(3) Сайты-"пустышки" – создаваемые
специально для показа рекламы;
(4) Domain URL spoofing (via IFrames);
5. Anti-fraud solutions in RTB
Где граница между “добром” и “злом”?
Incentivised traffic?
Display to video arbitrage?
6. Anti-fraud solutions in RTB
Экономический эффект от фрода
Бюджет городского строительства Москвы
Оценка Эффект per annum
Консервативная (WhiteOps) $7.2 млрд. (@ 15% fraud rate)
Умеренно-агрессивная $10-50 млрд.
Маргинальная “сверху”
(2/3 * US GDP * 10% * 20%)
$200 млрд.
Официальные данные $30 млрд (за 2016-19 гг.)
7. Anti-fraud solutions in RTB
Зачем боремся конкретно мы (вы)?
..оборот трафика в экосистеме – это же хорошо?
- да, но..
8.
I. ВступлениеI. Вступление
II. Алгоритмический подходII. Алгоритмический подход
− эксперт или алгоритм?эксперт или алгоритм?
− there is no single magic pill feature;there is no single magic pill feature;
− cascade waterfall;cascade waterfall;
− feature selection for machine learning clusteringfeature selection for machine learning clustering
III. Техническая реализация расчетаIII. Техническая реализация расчета
IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
9. Anti-fraud solutions in RTB
Эксперт:
Может принимать
решение “case by case”
на основе различных
комбинаций внутренних
и внешних источников
данных;
“Оut of the box” thinking
Алгоритм:
Масштабируем
(*) cайт: cnn.com dr-license.com
время на сайте: 3:40 12:45
страниц за посещение: 2.24 36
bounce rate: 58% 7%
good site obvious fraud?
(*) больше примеров в игре “Бот или Человек” на стенде IOW
10. Anti-fraud solutions in RTBКаскадная фильтрация бид-реквестов в IOW
I. Экспертные фильтры:
(domains, publishers)
II. Автоматические фильтры
на основе простых правил:
(datacenters IPs,
domains traffic spikes,
low cookie age publishers)
III. Вероятностная оценка, кластеризация
методами машинного обучения
(p_good > threshold)
11. Anti-fraud solutions in RTB
Автоматическая фильтрация на основе “простых” правил
1) block a bid request if user_IP identified to belong to a datacenter;
2) block sites with swinging traffic patterns:
3) block spikes of traffic from particular IP;
4) block high frequency UUIDs traffic;
5) block publishers with significant share of traffic where bid user_ip != imp user_ip;
12. Anti-fraud solutions in RTB
Кластеризация бид-реквестов методами машинного обучения (1)
[Expectation maximization and other math stays in brackets]
Feature selection:
(1) user_ip
- PII (personally identifiable information) issues;
- 4 bytes or 3 bytes IPs?
- what to do with proxies?
(2) user agent
- old browsers contains known security breaches;
- easy to forge, but still adds value;
(3) site
- “clever” bots visit good sites;
- good in combination with publisher data
13. Anti-fraud solutions in RTB
Кластеризация бид-реквестов методами машинного обучения (2)
Построение “карты” | Применение “карты”
14.
I. ВступлениеI. Вступление
II. Алгоритмический подходII. Алгоритмический подход
III. Техническая реализация расчетаIII. Техническая реализация расчета
− Learning sample;Learning sample;
− The framework choice;The framework choice;
− Room for optimization?Room for optimization?
IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
15. Anti-fraud solutions in RTB
А теперь мы попробуем со всем этим взлететь:
Learning sample: 230 Bn bids requests (~40Tb of data);
Hadoop framework;
GCE, 140 машинах класса n1-highmem-8;
=> 22 расчетных часа
Room for optimization?
- Hadoop vs Spark?
- Python vs Scala?
16.
I. ВступлениеI. Вступление
II. Алгоритмический подходII. Алгоритмический подход
III. Техническая реализация расчетаIII. Техническая реализация расчета
IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
17. Anti-fraud solutions in RTB
Summing it up
(1) Economically, it does make sense to fight fraud if your business
horizon is over half year;
(2) Each individual metric can be gamed relatively easy. Use various
metrics and multi-level blocking logic;
(3) Update your filters on a biweekly / monthly scale;
(4) Calibrate your results against the industry.