Spark: нетипичные примеры использования

•

2 likes•1,084 views

faithlessfriend

Как использовать Spark на полную, и как при этом не отстрелить себе ногу

Engineering

О чём пойдёт речь
● что можно выжать из Spark
● с чем могут быть проблемы
● ничего сверхъестественного
● это есть в документации
(но кто читает дальше первой страницы?)

DISCLAIMER
Теперь не верьте моим словам только
потому, что их сказал Будда, но проверяйте
их как следует
Будда Шакьямуни

Типичный пример
rdd.map(processor)
.reduce(reducer)
rdd = sc.textFile(“hdfs://...”)
stream = KafkaUtils.createStream(...)
rdd.saveAsTextFile(...)

Обращение ко внешним сервисам
data
enrichment

Обращение ко внешним сервисам (2)
data
enrichment

dstream.foreachRDD { rdd =>
// executed at the driver
val connection =
createNewConnection()
rdd.foreach { record =>
// executed at the worker
connection.send(record)
}
}
Важно: соединения не сереализуемы
НЕПРАВИЛЬНО!

dstream.foreachRDD { rdd =>
rdd.foreachPartition { partitionOfRecords =>
// connection per partition, i.e. per worker
machine
val connection = createNewConnection()
partitionOfRecords.foreach(record => connection.
send(record))
connection.close()
}
}
Правильный вариант
Worker Worker Worker
connection
connection
connection

Процессы без входных данных
worker worker worker worker
Driver

Процессы без входных данных (2)
def runSimulation(workerId: Int): Unit = {
...
}
sc.parallelize(1 to NWorkers, NWorkers)
.map(runSimulation)
.collect()
numSlices -
количество партиций

Обратная связь
worker worker worker worker
Driver BadFormatException

Обратная связь (2)
worker worker worker worker
Driver RabbitMQ
BadFormatException

Обратная связь (Ninja level)
worker worker worker worker
Driver Akka
SparkContext.env.actorSystem
BadFormatException

Одновременные джобы
Что будет, если…
(1) val sourceRdd = sc.textFile(...)
(2) sourceRdd.filter(x => x == 42).map(...).collect()
(3) sourceRdd.filter(x => x != 42).map(...).collect()
(2) и (3) выполнятся параллельно или
последовательно?

Одновременные джобы (2)
Что будет, если…
(1) val sourceRdd = sc.textFile(...)
(2) sourceRdd.filter(x => x == 42).map(...).collect()
(3) sourceRdd.filter(x => x != 42).map(...).collect()
(2) и (3) выполнятся параллельно или
последовательно?
Блокер - сам драйвер

Одновременные джобы (3)
(1) val sourceRdd = sc.textFile(...)
(2) val rdd1 = sourceRdd.filter(x => x == 42).map(...)
(3) val rdd2 = sourceRdd.filter(x => x != 42).map(...)
(4) List(rdd1, rdd2).par.foreach { rdd =>
rdd.collect()
}

Пример: SQL-сервер
Server
(Driver)
Query (Job)
Query (Job)
Query (Job)
val conf = new SparkConf()
// conf.set("spark.scheduler.mode",
"FIFO")
conf.set("spark.scheduler.mode", "FAIR")
val sc = new SparkContext(conf)

Перебалансировка партиций
много файлов = много партиций
rdd.coalesce(4)

Перебалансировка партиций (2)
gzip - неделимый формат
rdd.repartition(10)
split ‘em, Shura, they are golden!

$Сэмплирование данных val rdd = sc.parallelize(1 to 1000) // takeSample(withReplacement, num) rdd.takeSample(false, 10) // ⇒ array of 10 elements, but calls .count() // sample(withReplacement, fraction) rdd.sample(false, 0.01).collect() // ⇒ array of 7 elements rdd.sample(false, 0.01).collect() // ⇒ array of 14 elements rdd.sample(false, 0.01).collect() // ⇒ array of 13 elements$

Thank you!
andrei.zhabinski@adform.com
dfdx.github.io

Денис рассказал о трех кейсах использования Tarantool в Mail.Ru Group - это система аутентификации пользователей, система нотификаций для мобильных приложений и система показа рекламы. Во всех трех кейсах Tarantool является краеугольным камнем распределенной серверной инфраструктуры, которая обслуживает суммарно порядка 100 миллионов пользователей в месяц.

Архитектура HAWQ / Алексей Грищенко (Pivotal)

Ontico

HAWQ — один из лучших на рынке движков SQL-on-Hadoop, который не раз доказывал свою лидирующую позицию в открытых тестированиях. Что еще более интересно, в конце сентября этого года Pivotal открыл его исходный код под лицензией Apache, а также разместил сам проект в инкубаторе Apache (http://hawq.incubator.apache.org), что делает этот инструмент доступным большому кругу пользователей и намного более привлекательным для компаний — лидеров интернет-индустрии. Работая в Pivotal, я участвовал в развитии и внедрении этого продукта с первого дня его существования. В этой презентации я раскрою следующие темы: + Что такое HAWQ и зачем он был создан. + Кластерная архитектура HAWQ. + Принципы работы HAWQ. + Внутреннее устройство процессов HAWQ. + Интеграция с внешними системами. + Альтернативные решения.

nginx.CHANGES.2015 / Игорь Сысоев, Валентин Бартенев (Nginx)

Ontico

14 - Hadoop. Фреймворк Spark

Roman Brovko

В своём проекте мы решали следующие задачи: + Скорость разработки задачи; + Стоимость поддержки задачи; + Возможность распараллеливать вычисления и задачи; + Возможность максимально просто масштабировать приложение; + CI/CD с минимальными усилиями. Я расскажу о том, как мы решали эти задачи, на какие грабли мы наступали, что из этого всего получилось, и что делать дальше. Что получили в итоге: + Мощь JVM под капотом Scala; + 15 минут от нажатия на кнопку "Merge request" до продакшена в 3 датацентра и 6 серверов с прохождением тестов (юнит + функциональные + интеграционные + нагрузочные); + 6 нод с приложениями вместо 18 (по 2 в каждом датацентре для отказоустойчивости) с запасом прочности в 60%; + Независимые пофичные релизы без даунтайма всех компонентов приложения; + Масштабирование только того функционала и в том количестве, которое необходимо данному сервису.

09 - Hadoop. Pig

Roman Brovko

Дмитрий Новиков - Tarantool в Badoo

Mail.ru Group

13 - Hadoop. Парадигма Spark

Roman Brovko

06 - Hadoop. Java API и Hadoop Streaming

Roman Brovko

Всеволод Поляков "История одного мониторинга"

Fwdays

«Мир изменился… Я чувствую это в воде… Я чувствую это в земле…» Галадриэль «Какой-то отсталый у неё мониторинг» Сева Поляков В этом докладе я хочу рассказать вам историю о современном мониторинге, на примере выбора для моего текущего проекта. Когда нужен prometheus, когда нужен SaaS и почему графит не умрёт. Также я постараюсь пройтись по всем новинкам и важным изменениям в современном мире мониторинга.

My talk at Highload++ 2015

Alex Chistyakov

Разработка real-time приложений с RethinkDB / Илья Вербицкий (Независимый кон...

Ontico

RethinkDB - это распределенное документо-ориентированное хранилище данных с открытым исходным кодом. Данная система ориентирована на разработку систем обработки данных реального времени, позволяя клиентскому приложению подписываться на изменение тех или иных данных. В данном докладе я бы хотел осветить не только вопросы разработки приложений на базе RethinkDB, но и поговорить о том, как все это работает. Мы поговорим о ReQL (язык запросов), “changefeeds”, индексах, шардинге, репликациях, а также затронем вопросы особенностей проектирования баз данных под данную платформу.

MyRocks Табличный Движок для MySQL / Алексей Майков (Facebook) / Сергей Петру...

Ontico

Facebook использует MySQL в качестве основного хранилища данных. MySQL работает на десятках тысяч серверов в нескольких ЦОДах. В качестве дисков используются Flash-накопители. Они дают большую производительность, но дорогой ценой — MySQL хранит данные на диске в структуре B-tree, которая использует flash-диск неоптимальным образом. В масштабах Facebook'a цена вопроса измеряется миллионами долларов. Для оптимального использования Flash-дисков в Facebook была разработана библиотека RocksDB. Она основана на LSM-деревьях и оптимизирована для работы в условиях высокой загрузки. Чтобы использовать ее из MySQL, [совместно с MariaDB] был разработан табличный движок — MyRocks. Данный доклад посвящен RocksDB и MyRocks. Мы расскажем о принципах их работы и преимуществах, как их настраивать, и какие возможны подводные камни. Авторы доклада — ведущие разработчики MyRocks от Facebook и MariaDB. RocksDB и MyRocks доступны на GitHub для свободного использования, участие в разработке также приветствуется.

Асинхронная репликация без цензуры, Олег Царёв (Mail.ru Group)

Ontico

Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"

Fwdays

- как ошибка выбора идентификатора пользователя, обнаруженная после запуска проекта, чуть не стоила 2 лет разработки - как мы боролись с перегруженным mysql когда даже включение binlog убивает сервер - почистил партицию mysql под нагрузкой - получи мертвый сервер - как верстальщик поменял верстку серча и уложил продукт на 4 часа - ошибка в ядре php которая привела даунтайм на несколько часов - как незнание особенностей работы GC у redis обошлось в $50к чистой прибыли - добавлением или удалением серверов из пула memcached инвалидировали весь кэш (кривые настройки php клиента Memcache/Memcached) - как поправив тест потерять 2 миллиона пользовательских писем - как релиз одного проекта крэшил хелсчеки соседнего проекта - самый большой фейл с системами очередей и статистикой: ивенты терялись годами

Scala, Play Framework и SBT для быстрого прототипирования и разработки веб-пр...

Magneta AI

Антон Кириллов, Zeptolab (Москва) Доклад посвящен обзору ключевых технологий стека Typesafe и анализу ключевых преимуществ и недостатков на примере реального проекта: * Действительно ли Scala - “более лучшая” Java? Что следует знать, начиная внедрять Scala. * Play Framework: больше чем просто контейнер. Архитектура и возможности. * Доступ к базам данных: библиотеки и подходы, эволюция схемы БД во времени * Actors: безболезненная многопоточность! * Simple Build Tool: не совсем simple, но крайне функциональный инструмент автоматической сборки. Рассматриваемые технологии позволяют “из коробки” начать создавать прототипы веб-приложений за очень короткое время и в дальнейшем наращивать их функционал. Тем не менее, из-за молодости стека существует большое количество “граблей”, о которых следует знать, принимая решение об использовании данного набора технологий.

Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)

Ontico

Tarantool - отечественная Opensource NoSQL база данных. В докладе мы обсудим: - Какое место занимают NoSQL базы данных в highload проектах? Почему и для чего вам стоит NoSQL решения? Какие NoSQL решения вы можете использовать? - Рассмотрим, что из себя представляет Tarantool 1.6 - база данных и сервер приложений в одном лице. Какие основные особенности Tarantool как NoSQL базы данных? Lua как встроенный язык сервера приложений. - Посмотрим, как можно начать использовать Tarantool в своих проектах, и сделаем первые шаги. Как установить Tarantool. Первый запуск и основы конфигурирования. Модель данных. Как создавать и работать с хранилищем данных. Как использовать пакеты tarantool. - Узнаем об интересных модулях и фичах Tarantool Чем полезен application server Tarantool http Tarantool queue - Познакомимся с сообществом Tarantool opensource Почему сообщество - это важно? Чем полезны opensource проекты начинающему разработчику?

Современная операционная система: что надо знать разработчику / Александр Кри...

Ontico

Мы проговорим про связь приложения и ОС, какие компоненты есть в современной ОС на примере Linux, как настройки этих компонент могут повлиять на приложение. Я расскажу про планировщик процессов, дисковый и сетевой ввод-вывод и соответствующие планировщики, управление памятью - как это все в общих чертах работает и как его потюнить.

Tempesta FW: challenges, internals, use cases / Александр Крижановский (Tempe...

Ontico

Tempesta FW — это Open Source гибрид Web-акселератора и файервола, специально разработанный для высокопроизводительной доставки контента вне зависимости от DDoS или наплыва посетителей. В докладе будет рассказано про задачи, которые ставились при разработке проекта и пути их решения. Рассмотрим проблемы современных операционных систем в приложении к Web-стеку (система фильтрации, Web-сервер, application слой, БД), и как они решаются в Tempesta — некоторые уже решены, некоторые еще в процессе работы. И самое главное — у нас появился рабочий прототип, и я расскажу про типовые примеры инсталляции, фичи и конфигурацию, а также покажу бенчмарки.

Движок LMDB — особенный чемпион / Юрьев Леонид (Петер-Сервис R&D)

Ontico

Lightning Memory-Mapped Database (LMDB) представляет собой интересный, во многом уникальный движок базы данных класса Berkeley DB и Level DB с ребус-подобным исходным кодом. Будучи относительно малоизвестным, LMDB показывает ЧЕМПИОНСКУЮ производительность по чтению. Однако при интенсивной записи всё не так радужно… Было ещё несколько проблем и недостатков, которые нам пришлось устранить, разбираясь в ребусах исходного кода. Доклад точно будет интересен разработчикам, интересующимся внутренностями баз данных или характеристиками отдельных движков. Проект реализуется силами компании Петер-Сервис R&D, резидента Сколково, для применения в телеком-проектах федерального масштаба. Информация о нашем проекте https://github.com/ReOpen/ReOpenLDAP/wiki, об исходной версии LMDB http://symas.com/mdb/.

08 - Hadoop. Алгоритмы на графах в MapReduce

Roman Brovko

Сага о кластере. Все что вы хотели знать про горизонтальное масштабирование в...

Ontico

Популярность постгреса в мире и России растет, с каждым новым релизом появляется все новая и новая функциональность, постгрес становится реальной угрозой монополии Оракл, уже подвинул Монго на поле свободных NoSQL СУБД, однако мировое сообщество ждет решения для горизонтального масштабирования. Создание постгресового кластера является крайне трудной задачей, так как постгрес является базой данных, ориентированной на целостность данных, а используемый алгоритм обеспечения конкурентности транзакций ставит серьезные челленджи перед разработчиками алгоритмов распределенных транзакций. Оказывается, уже целых пять групп работает над этой задачей, и мы расскажем про их подходы, трудности, в том числе, и политические. Отдельно остановимся на российском опыте и нашем вкладе в решение этой задачи.

PostgreSQL: практические примеры оптимизации SQL-запросов / Иван Фролков (Po...

Ontico

Довольно часто как адинистраторы, так и разработчики жалуются на низкую производительность приложений, работающих с базой данных, и нередко при этом ищут решения возникших проблем с помощью различных настроек как СУБД, так и операционной системы, пренебрегая при этом самым действенным способом - оптимизацией запросов к собственно БД. Тому, как понимать, где же узкие места, и как их можно попробовать избежать на примере PostgreSQL и посвящен этот доклад.

Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)

Ontico

Вы когда-нибудь плакали, открывая Amazon EC2 калькулятор? Мучились ли вы над тем, куда поставить сервер — на балкон или в кладовку? Готовились ли вы морально платить по 100-200 тысяч рублей за самый примитивный вариант сервера? Из этой ситуации есть выход и это — Android-планшеты :) Как установить Linux на ваш Android-планшет, как развернуть LAMP, MEAN stack, сколько RPS могут выдать Android-планшеты, как хорошо они масштабируются, map/reduce, готовы ли Android-планшеты для production? Все это и многое другое вы узнаете из этого доклада.

Expert Fridays Spark Job

Provectus

Apache Spark — Егор Пахомов

Yandex

Мы поговорим об Apache Spark — более быстром, универсальном и user friendly аналоге Hadoop как инструменте для batch-обработки больших данных. Рассмотрим архитектуру Spark и его главного строительного блока — RDD. Сравним код в MapReduce и RDD моделях. Обсудим развитие других Apache top-level проектов и плавный отход индустрии от MapReduce модели к Spark.

What's hot

Путь от монолита на PHP к микросервисам на Scala / Денис Иванов (2GIS)

Ontico

09 - Hadoop. Pig

Roman Brovko

Дмитрий Новиков - Tarantool в Badoo

Mail.ru Group

13 - Hadoop. Парадигма Spark

Roman Brovko

06 - Hadoop. Java API и Hadoop Streaming

Roman Brovko

Всеволод Поляков "История одного мониторинга"

Fwdays

My talk at Highload++ 2015

Alex Chistyakov

Разработка real-time приложений с RethinkDB / Илья Вербицкий (Независимый кон...

Ontico

MyRocks Табличный Движок для MySQL / Алексей Майков (Facebook) / Сергей Петру...

Ontico

Асинхронная репликация без цензуры, Олег Царёв (Mail.ru Group)

Ontico

Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"

Fwdays

Scala, Play Framework и SBT для быстрого прототипирования и разработки веб-пр...

Magneta AI

Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)

Ontico

Современная операционная система: что надо знать разработчику / Александр Кри...

Ontico

Tempesta FW: challenges, internals, use cases / Александр Крижановский (Tempe...

Ontico

Движок LMDB — особенный чемпион / Юрьев Леонид (Петер-Сервис R&D)

Ontico

08 - Hadoop. Алгоритмы на графах в MapReduce

Roman Brovko

Сага о кластере. Все что вы хотели знать про горизонтальное масштабирование в...

Ontico

PostgreSQL: практические примеры оптимизации SQL-запросов / Иван Фролков (Po...

Ontico

Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)

Ontico

What's hot (20)