Минуты из жизни со Spark

Минуты из жизни с Apache Spark
Шорин Александр
Инженер-разработчик DevOps
Apache Spark Meetup / 2017-04-27
Минуты из жизни
с Apache Spark

• OC FreeBSD 10.2
• Apache Hadoop YARN
2.6.0
• ~65 нод
• ~10TiB memory
• ~2000 vcores
• ~1PiB data
Фантастический Spark и где он обитает

Ожидание: 1.6.1 → 2.0.1
Реальность: 1.6.1 → 2.1.0
Как мы обновляли Apache Spark

Основные поломки:
• SPARK-13594: DataFrame.map → DataFrame.rdd.map
• SPARK-16033: DataFrameWriter.partitionBy() can't be
used together with DataFrameWriter.insertInto()
Полный список: SPARK-11806
В остальном существующий код продолжает работать.
Как мы обновляли Apache Spark

>>> df.collect()
Traceback (most recent call last):
...
Py4JError: An error occurred while calling o79.setCallSite
Падение Spark-драйвера

Архитектура PySpark

А что случится, если драйвер упадет?

Тем временем в stderr:
ERROR:py4j.java_gateway:An error occurred while trying to connect to the
Java server (127.0.0.1:40083)
File "/usr/local/lib/python2.7/site-packages/py4j/java_gateway.py", line 963,
in start
self.socket.connect((self.address, self.port))
File "/usr/local/lib/python2.7/socket.py", line 224, in meth
return getattr(self._sock,name)(*args)
error: [Errno 61] Connection refused

>>> sc.stop()
...
Py4JNetworkError: An error occurred while trying to connect
to the Java server (127.0.0.1:40083)
Нельзя просто так взять
и остановить SparkContext

• Любые операции будут приводить к ConnectionRefused
• Попытка остановить SparkContext - ConnectionRefused
• Попытка запустить SparkContext - RuntimeError
• Безысходность, тлен и потеря

C 2.1.0: SPARK-18523
>>> df.collect()
...
Py4JError: An error occurred while calling o79.setCallSite
>>> sc.stop()
pyspark/context.py:386: RuntimeWarning: Unable to cleanly shutdown Spark
JVM process. It is possible that the process has crashed, been killed or may
also be in a zombie state.
RuntimeWarning
Падение Spark-драйвера [FIXED]

До 2.1.0:
• Инициализация SparkConf инициализировала драйвер;
• Нельзя было задать настройки драйвера без костылей
(SPARK_DRIVER_MEMORY,
PYSPARK_SUBMIT_ARGS, etc.);
С 2.1.0: SPARK-17387
>>> conf = SparkConf().set("spark.driver.memory", "4g")
>>> sc = SparkContext(conf=conf)
SparkConf и spark-submit

>>> rdd = sc.parallelize(range(10))
>>> rdd.toDF
File "<stdin>", line 1, in <module>
AttributeError: 'RDD' object has no attribute 'toDF'
>>> spark0 = SparkSession(sc)
>>> rdd.toDF
<bound method RDD.toDF of ParallelCollectionRDD[0] at parallelize at
PythonRDD.scala:475>
>>> spark1 = spark0.newSession()
>>> spark1.stop() # что произойдет?
Архитектура PySpark

• До 2.1.0:
• Одноразовые метрики вида spark.application_*
• Как среди них находить метрики периодических задач?
• C 2.1.0:
• Появился spark.metrics.namespace SPARK-5847
• Каждая задача имеет свой понятный namespace
• Все spark.application_* отправляем в /dev/null
Мониторинг Apache Spark c Graphite

Мониторинг Apache Spark c Sentry

Что такое sentry?
• Удобный инструмент для Bug Driven Development;
• Продвинутый баг-треккер;
• Умеет группировать похожие ошибки, следить за
регрессиями;
• Разбирает трейсы и показывает из-за чего именно все
пошло не так;

Apache Spark:
• Интегрируется с log4j;
• Перехватывает все ERROR / WARNING сообщения;
• Можно отслеживать частоту ошибок и исправлять
самые критичные / массовые;

Python:
• Перехватывает исключения;
• Проходит по стектрейсу и извлекает контекст каждого;
• Можно понять из-за чего произошла ошибка и ее
исправить;

Python UDF:
• Поскольку код исполняется удаленно, нужно
прокидывать клиент Sentry в каждую функцию;
• Либо пропатчить pyspark.worker SPARK-20368;

1.Read http://spark.apache.org/contributing.html
2.Fork https://github.com/apache/spark
3.Patch && commit && push
4.Submit New Pull Request
5.…
6.PROFIT!!1
Как пропатчить Apache Spark под
FreeBSD

Спрашивайте свои ответы!
Спасибо за внимание!

Минуты из жизни со Spark

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Минуты из жизни со Spark

Similar to Минуты из жизни со Spark (20)

Минуты из жизни со Spark