Criteo 1TiB Benchmark

Дмитрий Носов
Математик-программист
Тестируем Vowpal Wabbit, XGBoost и Spark.ML на больших данных
Criteo 1 TiB benchmark

Мотивация
• Появилась задача, не укладывающаяся в традиционную
схему “Local fit + Distributed apply” – предсказание CTR
• В открытых источниках не существует полноценного
(распределенного) теста Spark.ML

Данные
• Открытый датасет – логи показов рекламы Criteo
• 1 TiB, около 4 млрд строк, 24 дня
• 40 колонок:
зависимая переменная (факт клика – {0, 1})
13 числовых фичей
26 категориальных фичей (хэши)

Данные

Подготовка данных
• Сэмплы для обучения – , строк, n ∈ {4, 5, …, 9},
все дни кроме последнего
• Сэмпл для теста – 1 млн строк, последний день
• Criteo → LibSVM (для XGBoost) → VW (для Vowpal Wabbit)
↳DataFrame (для Spark.ML)
3⋅10
n
10
n

План эксперимента
1.Взять сэмпл 10000 строк и обучить модель с настройками
по-умолчанию
2.Повторять, увеличивая сэмпл, пока хватает терпения
ждать результат
3.Сделать пункты 1, 2 для VW и XGBoost, замеряя время
обучения, качество модели, используемые ресурсы
4.Сделать пункты 1, 2 для моделей Spark.ML и сравнить с VW
и XGBoost

Модели
• Vowpal Wabbit
• XGBoost in-memory
(exact greedy algorithm)
• XGBoost out-of-core
(approximate algorithm)
• Spark.ML classifiers:
• Logistic regression
• Decision tree
• Random forest
• Gradient-boosted trees
• Multilayer perceptron
• Naive Bayes

Но...

“Но” №1 – XGBoost

У XGBoost по-умолчанию всего 10 деревьев!

Нужно делать оптимизацию гиперпараметров моделей:
• Сэмпл в 1 млн строк
• 5-fold cross-validation
• Случайная выборка из сетки значений параметров

“Но” №2 – Spark.ML
Spark.ML:
• Gradient-boosted trees
• Multilayer perceptron
– нет предсказания вероятности классов, только {0, 1}
⇒ не подходят для предсказания CTR

Spark.ML – оставили только:
• Binomial logistic regression
• Random forest

Часть 1
Локальное обучение VW & XGBoost

VW & XGBoost – качество

VW & XGBoost – время

VW & XGBoost – ресурсы

VW & XGBoost – выводы
• XGBoost out-of-core ≈ in-memory по качеству, но на
порядок медленнее
• XGBoost in-memory на порядок медленнее VW
• XGBoost ≈ VW по качеству на большем на порядок
сэмпле

Часть 2
Распределенное обучение Spark.ML

Spark.ML – данные
• Binomial logistic regression – one-hot-encoding (*) hashing
trick, 100k hashes
• Random forest – данные как есть, 39 фичей (так как даже
на 1000 hashes очень долго обучается)
(*) – очень высокая кардинальность категориальных фичей

Почему 100k hashes?

Spark.ML – настройки
Кластер:
• 4 ядра и 16 GiB памяти на executor
• (сэмпл < строк) 64 executors – всего 256 ядер и 1 TiB
памяти
• (сэмпл ⩾ строк) 128 executors – всего 512 ядер и 2 TiB
памяти
10
9
10
9

Spark.ML – качество

Spark.ML – время

Spark.ML – time vs. cores
• Сэмпл
• Число ядер от 5 до 50
10
7

Spark.ML – выводы
• Random forest – медленный, а с большим числом фичей
очень медленный
• Logistic regression нельзя хорошо приготовить
одновременно на всем диапазоне сэмплов
• Не стоит выделять слишком много ресурсов на
небольшие задачи

Сравнение
Локальные и распределенные модели

Качество

Время

Выводы
• На больших данных Spark.ML быстрее, чем и XGBoost, и VW
• Но есть нюансы:
медленная работа с большими векторами
высокие побочные затраты на параллельные вычисления
для мелких задач
• В целом: для разных объемов данных – разные инструменты

Мы на Github
https://git.io/v9sNz

Спасибо!

Criteo 1TiB Benchmark

Recommended

Recommended

More Related Content

Similar to Criteo 1TiB Benchmark

Similar to Criteo 1TiB Benchmark (20)

More from RamblerML

More from RamblerML (9)

Criteo 1TiB Benchmark