Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache Spark"

Пайплайн машинного обучения на
Apache Spark

A long time ago in a galaxy far, far away
Отдел машинного обучения AdTech 1/40

Поставку данных сложно
мониторить и отлаживать

Со стримингом сложно
вообще все...

Со стримингом сложно вообще все...
INSERT OVERWRITE TABLE predict
SELECT TRANSFORM(line)
FROM features_table
USING 'umworld_caller.py apply -f model.vw'
AS ruid, label, probability;

Мониторить тоже сложно

Joblocker

Интерфейс мониторинга

Программировать
непросто

+ Эксперименты в Jupyter notebook и
продакшен код разделены
+ Отлаживать стриминг очень сложно
+ Трейны готовятся на лету, поэтому
экспериментировать с новыми фичами
долго
+ Тесты написать практически невозможно
+ Деплоить код на кластер непросто
(внешние библиотеки)

Наше решение
+ Kafka
+ Camus
+ Spark
+ Hive
+ Airﬂow
+ Graphite
+ Aerospike
+ Jenkins
+ Slack
+ XGBoost
+ Vowpal Wabbit
+ Keras

Новая архитектура

Кафка + мониторинг

Так почему Spark?

Speed
Run programs up to 100x
faster than Hadoop
MapReduce in memory, or
10x faster on disk

Ease of use
text_file = spark.textFile("hdfs://...")
text_file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)

Generality

Runs everywhere

Витрина фич
+ Разнести обучение и напил фич
+ Фичи пилятся независимо (если что-то
упало, остальное работает)
+ Эксперимент: просто набираешь фич как
в магазине

Витрина фич

ML. Мы поддержали интерфейс spark.ml и sklearn
from pyspark.ml.pipeline import Transformer
class BaseTransformer(Transformer):
def __init__(self, day=None)
def fit(self, df)
def _transform(self, df)
def load(self, timestamp)
def save(self, timestamp)

Зачем нужны load и save?
+ Есть трансформеры, состояние которых
надо сохранять (напр. LDA)
+ Pyspark поддерживает сериализацию
только pickle
+ Кастомная сериализация позволяет
поддержать версионирование витрины
фич

Как выглядит обучение?
class SparkXGBoostClassifier(SparkSklearnClassifier):
def _fit(self, X_train, y_train, weight_train,
X_validate, y_validate, weight_validate):
xgb_options = self.model.get_xgb_params()
n_classes = len(np.unique(y_train)
...
self.model.fit(X_train, y_train, **fit_params)

Сериализация модели - боль
+ XGBoost сериализуется из коробки
+ Vowpal Wabbit сериализуется через
уникальный :) механизм записи бинарной
модели в байтовый массив

Как выглядит применение?
class SparkXGBoostClassifier(SparkSklearnClassifier):
def predict_proba(self, df):
rdd = df.map(self._create_dataset)
df = rdd.toDF()[['uid', 'feature']]
v_model = df._sc.broadcast(self.model)
res = df.rdd.mapPartitionsWithIndex(
partial(apply_model, v_model=v_model))
return res

В Airﬂow все видно

Timing (100 executors: 8gb, 2 vcores)
Подзадача Время вычислений
Data load and merge 0:08:49
Conversion to Pandas 0:07:43
Local ﬁt 0:01:44
Evaluation 0:04:44
Apply 0:46:07
Transform to class 0:02:24
Total 1:13:05

А деплой в Jenkins

А Jenkins пишет в Slack

И Airﬂow тоже

В сухом остатке
- C Airﬂow постоянно возникают проблемы
- Python API Spark отстает от Scala API
- Python API заметно медленней в
некоторых задачах (конвертация
объектов)
- Частые проблемы с сериализацией
объектов
- Требуется время на подбор ресурсов
Spark-задач

- Spark не поддерживает бакеты Hive
- Память драйвера инициализируется
только через конфиг
- Большой Spark DataFrame можно
сохранить локально только через HDFS
- При чтении из Hive число партиций Spark
определяется числом бакетов
- persist - неявный сборщик мусора?

+ Единая шина данных (Kafka)
+ Единый мониторинг для всего (Graphite)
+ Удобный и красивый интерфейс
мониторинга (Grafana + Airflow)
+ Удобный workflow-менеджер с мощным
визуальным интерфейсом (Airflow)
+ Витрина фич
+ Эксперименты и продакшен в Jupyter
notebook

+ Число и скорость проведения
экспериментов возросли значительно
+ Простое и удобное тестирование
(текущее покрытие кода 60%)
+ Простая и удобная отладка (Airﬂow +
Sentry)
+ Деплой одной кнопкой (Jenkins +
SaltStack)
+ Своевременные оповещения о
проблемах (Airﬂow + Jenkins + Slack)

Вопросы?

Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache Spark"

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

Similar to Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache Spark"

Similar to Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache Spark" (20)

Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache Spark"