Anti-fraud solutions in RTB
Vadim Antonyuk
IPONWEB
Anti-fraud solutions in RTB

I. ВступлениеI. Вступление

II. Алгоритмический подходII. Алгоритмический подход

III. Техническая реализация расчетаIII. Техническая реализация расчета

IV. ЗаключениеIV. Заключение

I. ВступлениеI. Вступление
− виды фрода в RTB;виды фрода в RTB;
− экономический эффект фрода;экономический эффект фрода;
− борьба с фродом: short term vs long term effectsборьба с фродом: short term vs long term effects

II. Алгоритмический подходII. Алгоритмический подход

III. Техническая реализацияIII. Техническая реализация

IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
Anti-fraud solutions in RTB
Зачем боремся?

Рекламодатели платят за viewability и конверсии
(к этому мы еще вернемся)
С чем боремся?
(1) Боты - программы, в автоматическом режиме
выполняющие действия, похожие на действия человека
(просмотры, клики, конверсии);
(2) Ad Stacking - несколько баннеров
один поверх другого;
(3) Сайты-"пустышки" – создаваемые
специально для показа рекламы;
(4) Domain URL spoofing (via IFrames);
Anti-fraud solutions in RTB
Где граница между “добром” и “злом”?

Incentivised traffic?

Display to video arbitrage?
Anti-fraud solutions in RTB
Экономический эффект от фрода
Бюджет городского строительства Москвы
Оценка Эффект per annum
Консервативная (WhiteOps) $7.2 млрд. (@ 15% fraud rate)
Умеренно-агрессивная $10-50 млрд.
Маргинальная “сверху”
(2/3 * US GDP * 10% * 20%)
$200 млрд.
Официальные данные $30 млрд (за 2016-19 гг.)
Anti-fraud solutions in RTB
Зачем боремся конкретно мы (вы)?
..оборот трафика в экосистеме – это же хорошо?
- да, но..

I. ВступлениеI. Вступление

II. Алгоритмический подходII. Алгоритмический подход
− эксперт или алгоритм?эксперт или алгоритм?
− there is no single magic pill feature;there is no single magic pill feature;
− cascade waterfall;cascade waterfall;
− feature selection for machine learning clusteringfeature selection for machine learning clustering

III. Техническая реализация расчетаIII. Техническая реализация расчета

IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
Anti-fraud solutions in RTB
Эксперт:

Может принимать
решение “case by case”
на основе различных
комбинаций внутренних
и внешних источников
данных;

“Оut of the box” thinking
Алгоритм:

Масштабируем
(*) cайт: cnn.com dr-license.com
время на сайте: 3:40 12:45
страниц за посещение: 2.24 36
bounce rate: 58% 7%
good site obvious fraud?
(*) больше примеров в игре “Бот или Человек” на стенде IOW
Anti-fraud solutions in RTBКаскадная фильтрация бид-реквестов в IOW
I. Экспертные фильтры:
(domains, publishers)
II. Автоматические фильтры
на основе простых правил:
(datacenters IPs,
domains traffic spikes,
low cookie age publishers)
III. Вероятностная оценка, кластеризация
методами машинного обучения
(p_good > threshold)
Anti-fraud solutions in RTB
Автоматическая фильтрация на основе “простых” правил
1) block a bid request if user_IP identified to belong to a datacenter;
2) block sites with swinging traffic patterns:
3) block spikes of traffic from particular IP;
4) block high frequency UUIDs traffic;
5) block publishers with significant share of traffic where bid user_ip != imp user_ip;
Anti-fraud solutions in RTB
Кластеризация бид-реквестов методами машинного обучения (1)

[Expectation maximization and other math stays in brackets]

Feature selection:
(1) user_ip
- PII (personally identifiable information) issues;
- 4 bytes or 3 bytes IPs?
- what to do with proxies?
(2) user agent
- old browsers contains known security breaches;
- easy to forge, but still adds value;
(3) site
- “clever” bots visit good sites;
- good in combination with publisher data
Anti-fraud solutions in RTB
Кластеризация бид-реквестов методами машинного обучения (2)
Построение “карты” | Применение “карты”

I. ВступлениеI. Вступление

II. Алгоритмический подходII. Алгоритмический подход

III. Техническая реализация расчетаIII. Техническая реализация расчета
− Learning sample;Learning sample;
− The framework choice;The framework choice;
− Room for optimization?Room for optimization?

IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
Anti-fraud solutions in RTB
А теперь мы попробуем со всем этим взлететь:

Learning sample: 230 Bn bids requests (~40Tb of data);

Hadoop framework;

GCE, 140 машинах класса n1-highmem-8;
=> 22 расчетных часа
Room for optimization?
- Hadoop vs Spark?
- Python vs Scala?

I. ВступлениеI. Вступление

II. Алгоритмический подходII. Алгоритмический подход

III. Техническая реализация расчетаIII. Техническая реализация расчета

IV. ЗаключениеIV. Заключение
Anti-fraud solutions in RTB
Anti-fraud solutions in RTB
Summing it up
(1) Economically, it does make sense to fight fraud if your business
horizon is over half year;
(2) Each individual metric can be gamed relatively easy. Use various
metrics and multi-level blocking logic;
(3) Update your filters on a biweekly / monthly scale;
(4) Calibrate your results against the industry.
Anti-fraud solutions in RTB
Questions?

Anti-fraud solutions in RTB / Вадим Антонюк (IPONWEB)

  • 1.
    Anti-fraud solutions inRTB Vadim Antonyuk IPONWEB
  • 2.
    Anti-fraud solutions inRTB  I. ВступлениеI. Вступление  II. Алгоритмический подходII. Алгоритмический подход  III. Техническая реализация расчетаIII. Техническая реализация расчета  IV. ЗаключениеIV. Заключение
  • 3.
     I. ВступлениеI. Вступление −виды фрода в RTB;виды фрода в RTB; − экономический эффект фрода;экономический эффект фрода; − борьба с фродом: short term vs long term effectsборьба с фродом: short term vs long term effects  II. Алгоритмический подходII. Алгоритмический подход  III. Техническая реализацияIII. Техническая реализация  IV. ЗаключениеIV. Заключение Anti-fraud solutions in RTB
  • 4.
    Anti-fraud solutions inRTB Зачем боремся?  Рекламодатели платят за viewability и конверсии (к этому мы еще вернемся) С чем боремся? (1) Боты - программы, в автоматическом режиме выполняющие действия, похожие на действия человека (просмотры, клики, конверсии); (2) Ad Stacking - несколько баннеров один поверх другого; (3) Сайты-"пустышки" – создаваемые специально для показа рекламы; (4) Domain URL spoofing (via IFrames);
  • 5.
    Anti-fraud solutions inRTB Где граница между “добром” и “злом”?  Incentivised traffic?  Display to video arbitrage?
  • 6.
    Anti-fraud solutions inRTB Экономический эффект от фрода Бюджет городского строительства Москвы Оценка Эффект per annum Консервативная (WhiteOps) $7.2 млрд. (@ 15% fraud rate) Умеренно-агрессивная $10-50 млрд. Маргинальная “сверху” (2/3 * US GDP * 10% * 20%) $200 млрд. Официальные данные $30 млрд (за 2016-19 гг.)
  • 7.
    Anti-fraud solutions inRTB Зачем боремся конкретно мы (вы)? ..оборот трафика в экосистеме – это же хорошо? - да, но..
  • 8.
     I. ВступлениеI. Вступление  II.Алгоритмический подходII. Алгоритмический подход − эксперт или алгоритм?эксперт или алгоритм? − there is no single magic pill feature;there is no single magic pill feature; − cascade waterfall;cascade waterfall; − feature selection for machine learning clusteringfeature selection for machine learning clustering  III. Техническая реализация расчетаIII. Техническая реализация расчета  IV. ЗаключениеIV. Заключение Anti-fraud solutions in RTB
  • 9.
    Anti-fraud solutions inRTB Эксперт:  Может принимать решение “case by case” на основе различных комбинаций внутренних и внешних источников данных;  “Оut of the box” thinking Алгоритм:  Масштабируем (*) cайт: cnn.com dr-license.com время на сайте: 3:40 12:45 страниц за посещение: 2.24 36 bounce rate: 58% 7% good site obvious fraud? (*) больше примеров в игре “Бот или Человек” на стенде IOW
  • 10.
    Anti-fraud solutions inRTBКаскадная фильтрация бид-реквестов в IOW I. Экспертные фильтры: (domains, publishers) II. Автоматические фильтры на основе простых правил: (datacenters IPs, domains traffic spikes, low cookie age publishers) III. Вероятностная оценка, кластеризация методами машинного обучения (p_good > threshold)
  • 11.
    Anti-fraud solutions inRTB Автоматическая фильтрация на основе “простых” правил 1) block a bid request if user_IP identified to belong to a datacenter; 2) block sites with swinging traffic patterns: 3) block spikes of traffic from particular IP; 4) block high frequency UUIDs traffic; 5) block publishers with significant share of traffic where bid user_ip != imp user_ip;
  • 12.
    Anti-fraud solutions inRTB Кластеризация бид-реквестов методами машинного обучения (1)  [Expectation maximization and other math stays in brackets]  Feature selection: (1) user_ip - PII (personally identifiable information) issues; - 4 bytes or 3 bytes IPs? - what to do with proxies? (2) user agent - old browsers contains known security breaches; - easy to forge, but still adds value; (3) site - “clever” bots visit good sites; - good in combination with publisher data
  • 13.
    Anti-fraud solutions inRTB Кластеризация бид-реквестов методами машинного обучения (2) Построение “карты” | Применение “карты”
  • 14.
     I. ВступлениеI. Вступление  II.Алгоритмический подходII. Алгоритмический подход  III. Техническая реализация расчетаIII. Техническая реализация расчета − Learning sample;Learning sample; − The framework choice;The framework choice; − Room for optimization?Room for optimization?  IV. ЗаключениеIV. Заключение Anti-fraud solutions in RTB
  • 15.
    Anti-fraud solutions inRTB А теперь мы попробуем со всем этим взлететь:  Learning sample: 230 Bn bids requests (~40Tb of data);  Hadoop framework;  GCE, 140 машинах класса n1-highmem-8; => 22 расчетных часа Room for optimization? - Hadoop vs Spark? - Python vs Scala?
  • 16.
     I. ВступлениеI. Вступление  II.Алгоритмический подходII. Алгоритмический подход  III. Техническая реализация расчетаIII. Техническая реализация расчета  IV. ЗаключениеIV. Заключение Anti-fraud solutions in RTB
  • 17.
    Anti-fraud solutions inRTB Summing it up (1) Economically, it does make sense to fight fraud if your business horizon is over half year; (2) Each individual metric can be gamed relatively easy. Use various metrics and multi-level blocking logic; (3) Update your filters on a biweekly / monthly scale; (4) Calibrate your results against the industry.
  • 18.