Spark: нетипичные примеры использования

•

2 likes•1,084 views

faithlessfriend

Как использовать Spark на полную, и как при этом не отстрелить себе ногу

Engineering

О чём пойдёт речь
● что можно выжать из Spark
● с чем могут быть проблемы
● ничего сверхъестественного
● это есть в документации
(но кто читает дальше первой страницы?)

DISCLAIMER
Теперь не верьте моим словам только
потому, что их сказал Будда, но проверяйте
их как следует
Будда Шакьямуни

Типичный пример
rdd.map(processor)
.reduce(reducer)
rdd = sc.textFile(“hdfs://...”)
stream = KafkaUtils.createStream(...)
rdd.saveAsTextFile(...)

Обращение ко внешним сервисам
data
enrichment

Обращение ко внешним сервисам (2)
data
enrichment

dstream.foreachRDD { rdd =>
// executed at the driver
val connection =
createNewConnection()
rdd.foreach { record =>
// executed at the worker
connection.send(record)
}
}
Важно: соединения не сереализуемы
НЕПРАВИЛЬНО!

dstream.foreachRDD { rdd =>
rdd.foreachPartition { partitionOfRecords =>
// connection per partition, i.e. per worker
machine
val connection = createNewConnection()
partitionOfRecords.foreach(record => connection.
send(record))
connection.close()
}
}
Правильный вариант
Worker Worker Worker
connection
connection
connection

Процессы без входных данных
worker worker worker worker
Driver

Процессы без входных данных (2)
def runSimulation(workerId: Int): Unit = {
...
}
sc.parallelize(1 to NWorkers, NWorkers)
.map(runSimulation)
.collect()
numSlices -
количество партиций

Обратная связь
worker worker worker worker
Driver BadFormatException

Обратная связь (2)
worker worker worker worker
Driver RabbitMQ
BadFormatException

Обратная связь (Ninja level)
worker worker worker worker
Driver Akka
SparkContext.env.actorSystem
BadFormatException

Одновременные джобы
Что будет, если…
(1) val sourceRdd = sc.textFile(...)
(2) sourceRdd.filter(x => x == 42).map(...).collect()
(3) sourceRdd.filter(x => x != 42).map(...).collect()
(2) и (3) выполнятся параллельно или
последовательно?

Одновременные джобы (2)
Что будет, если…
(1) val sourceRdd = sc.textFile(...)
(2) sourceRdd.filter(x => x == 42).map(...).collect()
(3) sourceRdd.filter(x => x != 42).map(...).collect()
(2) и (3) выполнятся параллельно или
последовательно?
Блокер - сам драйвер

Одновременные джобы (3)
(1) val sourceRdd = sc.textFile(...)
(2) val rdd1 = sourceRdd.filter(x => x == 42).map(...)
(3) val rdd2 = sourceRdd.filter(x => x != 42).map(...)
(4) List(rdd1, rdd2).par.foreach { rdd =>
rdd.collect()
}

Пример: SQL-сервер
Server
(Driver)
Query (Job)
Query (Job)
Query (Job)
val conf = new SparkConf()
// conf.set("spark.scheduler.mode",
"FIFO")
conf.set("spark.scheduler.mode", "FAIR")
val sc = new SparkContext(conf)

Перебалансировка партиций
много файлов = много партиций
rdd.coalesce(4)

Перебалансировка партиций (2)
gzip - неделимый формат
rdd.repartition(10)
split ‘em, Shura, they are golden!

$Сэмплирование данных val rdd = sc.parallelize(1 to 1000) // takeSample(withReplacement, num) rdd.takeSample(false, 10) // ⇒ array of 10 elements, but calls .count() // sample(withReplacement, fraction) rdd.sample(false, 0.01).collect() // ⇒ array of 7 elements rdd.sample(false, 0.01).collect() // ⇒ array of 14 elements rdd.sample(false, 0.01).collect() // ⇒ array of 13 elements$

Thank you!
andrei.zhabinski@adform.com
dfdx.github.io

What's hot

Путь от монолита на PHP к микросервисам на Scala / Денис Иванов (2GIS)Ontico

09 - Hadoop. PigRoman Brovko

Дмитрий Новиков - Tarantool в BadooMail.ru Group

13 - Hadoop. Парадигма SparkRoman Brovko

06 - Hadoop. Java API и Hadoop StreamingRoman Brovko

Всеволод Поляков "История одного мониторинга"Fwdays

My talk at Highload++ 2015Alex Chistyakov

Разработка real-time приложений с RethinkDB / Илья Вербицкий (Независимый кон...Ontico

MyRocks Табличный Движок для MySQL / Алексей Майков (Facebook) / Сергей Петру...Ontico

Асинхронная репликация без цензуры, Олег Царёв (Mail.ru Group)Ontico

Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"Fwdays

Scala, Play Framework и SBT для быстрого прототипирования и разработки веб-пр...Magneta AI

Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)Ontico

Современная операционная система: что надо знать разработчику / Александр Кри...Ontico

Tempesta FW: challenges, internals, use cases / Александр Крижановский (Tempe...Ontico

Движок LMDB — особенный чемпион / Юрьев Леонид (Петер-Сервис R&D)Ontico

08 - Hadoop. Алгоритмы на графах в MapReduceRoman Brovko

Сага о кластере. Все что вы хотели знать про горизонтальное масштабирование в...Ontico

PostgreSQL: практические примеры оптимизации SQL-запросов / Иван Фролков (Po...Ontico

Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)Ontico

What's hot (20)

Путь от монолита на PHP к микросервисам на Scala / Денис Иванов (2GIS)

09 - Hadoop. Pig

Дмитрий Новиков - Tarantool в Badoo

13 - Hadoop. Парадигма Spark

06 - Hadoop. Java API и Hadoop Streaming

Всеволод Поляков "История одного мониторинга"

My talk at Highload++ 2015

Разработка real-time приложений с RethinkDB / Илья Вербицкий (Независимый кон...

MyRocks Табличный Движок для MySQL / Алексей Майков (Facebook) / Сергей Петру...

Асинхронная репликация без цензуры, Олег Царёв (Mail.ru Group)

Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"

Scala, Play Framework и SBT для быстрого прототипирования и разработки веб-пр...

Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)

Современная операционная система: что надо знать разработчику / Александр Кри...

Tempesta FW: challenges, internals, use cases / Александр Крижановский (Tempe...

Движок LMDB — особенный чемпион / Юрьев Леонид (Петер-Сервис R&D)

08 - Hadoop. Алгоритмы на графах в MapReduce

Сага о кластере. Все что вы хотели знать про горизонтальное масштабирование в...

PostgreSQL: практические примеры оптимизации SQL-запросов / Иван Фролков (Po...

Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)

Similar to Spark: нетипичные примеры использования

Expert Fridays Spark JobProvectus

Apache Spark — Егор ПахомовYandex

Дмитрий Грошев, Фёдор Гоголев. Erlang и Haskell в production: проблемы и решенияFProg

20130429 dynamic c_c++_program_analysis-alexey_samsonovComputer Science Club

directxDmitry Andreev

Software Transactional MemoryVadim Tsesko

Scala for androidAlexander Rusin

Олексій Андрусевич “Прискорення робочого процесу в Adobe Photoshop за допомог...Lviv Startup Club

Архитектура Apache SparkRamblerML

DirectX12 Graphics and PerformanceDevGAMM Conference

Clojure: Lisp for the modern world (русская версия)Alex Ott

Правильная организация клиент-карточного взаимодействия — Антон КорзуновYandex

Лекция 12 (часть 1): Языки программирования семейства PGAS: Cray ChapelMikhail Kurnosov

New Android NDK & JNIStfalcon Meetups

2013-01-05 01 Леонид Евдокимов. Web scale. Взорвется всеОмские ИТ-субботники

Valgrindium13

Android: Как написать приложение, которое не тормозитElena Kotina

Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...yaevents

Использование Java Native Interface (JNI) и кросплатформенных C/C++ реализаци...Stfalcon Meetups

Леонид Васильев "Python в инфраструктуре поиска"Yandex

Similar to Spark: нетипичные примеры использования (20)

Expert Fridays Spark Job

Apache Spark — Егор Пахомов

Дмитрий Грошев, Фёдор Гоголев. Erlang и Haskell в production: проблемы и решения

20130429 dynamic c_c++_program_analysis-alexey_samsonov

directx

Software Transactional Memory

Scala for android

Олексій Андрусевич “Прискорення робочого процесу в Adobe Photoshop за допомог...

Архитектура Apache Spark

DirectX12 Graphics and Performance

Clojure: Lisp for the modern world (русская версия)

Правильная организация клиент-карточного взаимодействия — Антон Корзунов

Лекция 12 (часть 1): Языки программирования семейства PGAS: Cray Chapel

New Android NDK & JNI

2013-01-05 01 Леонид Евдокимов. Web scale. Взорвется все

Valgrind

Android: Как написать приложение, которое не тормозит

Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...

Использование Java Native Interface (JNI) и кросплатформенных C/C++ реализаци...

Леонид Васильев "Python в инфраструктуре поиска"

Spark: нетипичные примеры использования

1. Spark: нетипичные примеры использования

2. О чём пойдёт речь ● что можно выжать из Spark ● с чем могут быть проблемы ● ничего сверхъестественного ● это есть в документации (но кто читает дальше первой страницы?)

3. DISCLAIMER Теперь не верьте моим словам только потому, что их сказал Будда, но проверяйте их как следует Будда Шакьямуни

4. Типичный пример rdd.map(processor) .reduce(reducer) rdd = sc.textFile(“hdfs://...”) stream = KafkaUtils.createStream(...) rdd.saveAsTextFile(...)

5. Обращение ко внешним сервисам data enrichment

6. Обращение ко внешним сервисам (2) data enrichment

7. dstream.foreachRDD { rdd => // executed at the driver val connection = createNewConnection() rdd.foreach { record => // executed at the worker connection.send(record) } } Важно: соединения не сереализуемы НЕПРАВИЛЬНО!

8. dstream.foreachRDD { rdd => // executed at the driver val connection = createNewConnection() rdd.foreach { record => // executed at the worker connection.send(record) } } Важно: соединения не сереализуемы НЕПРАВИЛЬНО! dstream.foreachRDD { rdd => rdd.foreach { record => val connection = createNewConnection() connection.send(record) connection.close() } } НЕЭФФЕКТИВНО!

9. dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => // connection per partition, i.e. per worker machine val connection = createNewConnection() partitionOfRecords.foreach(record => connection. send(record)) connection.close() } } Правильный вариант Worker Worker Worker connection connection connection

10. Процессы без входных данных worker worker worker worker Driver

11. Процессы без входных данных (2) def runSimulation(workerId: Int): Unit = { ... } sc.parallelize(1 to NWorkers, NWorkers) .map(runSimulation) .collect() numSlices - количество партиций

12. Обратная связь worker worker worker worker Driver BadFormatException

13. Обратная связь (2) worker worker worker worker Driver RabbitMQ BadFormatException

14. Обратная связь (Ninja level) worker worker worker worker Driver Akka SparkContext.env.actorSystem BadFormatException

15. Одновременные джобы Что будет, если… (1) val sourceRdd = sc.textFile(...) (2) sourceRdd.filter(x => x == 42).map(...).collect() (3) sourceRdd.filter(x => x != 42).map(...).collect() (2) и (3) выполнятся параллельно или последовательно?

16. Одновременные джобы (2) Что будет, если… (1) val sourceRdd = sc.textFile(...) (2) sourceRdd.filter(x => x == 42).map(...).collect() (3) sourceRdd.filter(x => x != 42).map(...).collect() (2) и (3) выполнятся параллельно или последовательно? Блокер - сам драйвер

17. Одновременные джобы (3) (1) val sourceRdd = sc.textFile(...) (2) val rdd1 = sourceRdd.filter(x => x == 42).map(...) (3) val rdd2 = sourceRdd.filter(x => x != 42).map(...) (4) List(rdd1, rdd2).par.foreach { rdd => rdd.collect() }

18. Пример: SQL-сервер Server (Driver) Query (Job) Query (Job) Query (Job) val conf = new SparkConf() // conf.set("spark.scheduler.mode", "FIFO") conf.set("spark.scheduler.mode", "FAIR") val sc = new SparkContext(conf)

19. Перебалансировка партиций много файлов = много партиций rdd.coalesce(4)

20. Перебалансировка партиций (2) gzip - неделимый формат rdd.repartition(10) split ‘em, Shura, they are golden!

21. Сэмплирование данных val rdd = sc.parallelize(1 to 1000) // takeSample(withReplacement, num) rdd.takeSample(false, 10) // ⇒ array of 10 elements, but calls .count() // sample(withReplacement, fraction) rdd.sample(false, 0.01).collect() // ⇒ array of 7 elements rdd.sample(false, 0.01).collect() // ⇒ array of 14 elements rdd.sample(false, 0.01).collect() // ⇒ array of 13 elements

22. Thank you! andrei.zhabinski@adform.com dfdx.github.io

Spark: нетипичные примеры использования

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Spark: нетипичные примеры использования

Similar to Spark: нетипичные примеры использования (20)

Spark: нетипичные примеры использования