Архитектура Apache Spark

•Download as PPTX, PDF•

0 likes•301 views

RamblerML

Краткое введение в архитектуру фреймворка Apache Spark

Data & Analytics

Архитектура Apache Spark
Архитектура Apache Spark
Владимир Штанько, Rambler&Co
v.shtanko@rambler-co.ru

Архитектура Apache Spark
Resilient
Distributed
Dataset
rdd1.join(rdd2)
.groupby(...)
.filter(...)

Архитектура Apache Spark
• RDD – низкоуровневый API без оптимизаций
• DataSet – RDD с организацией данных в поименованные колонки
• DataFrame – DataSet[Row]
• Tungsten Execution Backend

Архитектура Apache Spark
Transformations:
.map
.filter
.distinct
.reduceByKey
.union
.intersection
.cartesian
Actions:
.save
.collect
.take
.count

Архитектура Apache Spark
rdd1 = sc.parallelize(["one", "two",
"three", 'five'])
rdd2 = sc.parallelize(["two", "three",
"four", 'five'])
rdd1 = rdd1.map(lambda x: (x, len(x)))
rdd2 = rdd2.map(lambda x: (x, len(x)))
rdd1 = rdd1.filter(lambda x: x[1] > 3)
rdd2 = rdd2.filter(lambda x: x[1] > 3)
rdd1 = rdd1.join(rdd2)
rdd1 = rdd1.filter(lambda x: len(x[0]) > 4)
rdd1.collect()

What's hot

Вячеслав БахмутовCodeFest

Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)Ontico

Alexandr Serbul "The Rust language for a high-load network service - a quick ...Fwdays

Zabbix и миллионы метрик: наилучший опыт масштабного мониторинга / Алексей Вл...Ontico

Юрий Насретдинов, BadooOntico

Apache Kafka and stream processing peculiarities [ru]Vsevolod Solovyov

Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)Ontico

Облако в Badoo год спустяYuriy Nasretdinov

Релиз инжиниринг Mail.ru, взгляд изнутри / Максим Глеков (Mail.Ru Group)Ontico

Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...Anton Baranov

Антон ТурецкийCodeFest

Подходы и технологии, используемые в разработке iOS-клиента Viber, Кирилл Лаш...Yandex

Архитектура хранения фотографий в BadooBadoo Development

Алексей ФедоровCodeFest

Продуктовые проблемы при создании очередной Docker PaaS / Владимир Ярцев (Cas...Ontico

2021.09.04 PHP FWDays. Our experience of transferring Laravel microservices t...Yehor Herasymchuk

Микросервисы: опыт использования в нагруженном проекте / Вадим Мадисон (М-Тех)Ontico

SDN & DEVOPS ?= ❤: Практики использования SDN / Александр Шалимов (ЦПИКС, МГУ)Ontico

Apache Ignite.NET в действииMikhail Shcherbakov

Drupal 8 и хостингDrupalSPB

What's hot (20)

Вячеслав Бахмутов

Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Alexandr Serbul "The Rust language for a high-load network service - a quick ...

Zabbix и миллионы метрик: наилучший опыт масштабного мониторинга / Алексей Вл...

Юрий Насретдинов, Badoo

Apache Kafka and stream processing peculiarities [ru]

Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)

Облако в Badoo год спустя

Релиз инжиниринг Mail.ru, взгляд изнутри / Максим Глеков (Mail.Ru Group)

Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...

Антон Турецкий

Подходы и технологии, используемые в разработке iOS-клиента Viber, Кирилл Лаш...

Архитектура хранения фотографий в Badoo

Алексей Федоров

Продуктовые проблемы при создании очередной Docker PaaS / Владимир Ярцев (Cas...

2021.09.04 PHP FWDays. Our experience of transferring Laravel microservices t...

Микросервисы: опыт использования в нагруженном проекте / Вадим Мадисон (М-Тех)

SDN & DEVOPS ?= ❤: Практики использования SDN / Александр Шалимов (ЦПИКС, МГУ)

Apache Ignite.NET в действии

Drupal 8 и хостинг

Similar to Архитектура Apache Spark

Expert Fridays Spark JobProvectus

Spark overview (18.06.2015)bddmoscow

14 - Hadoop. Фреймворк SparkRoman Brovko

Apache sparkAnton Anokhin

Лекция 12. SparkTechnopark

13 - Hadoop. Парадигма SparkRoman Brovko

BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)Ontico

AlaSQL библиотека для обработки JavaScript данных (презентация для ForntEnd 2...Andrey Gershun

DF1 - BD - Baranov - Mining Large Datasets with Apache SparkMoscowDataFest

мифы о спарке Evgeny Borisov

Spark: нетипичные примеры использованияfaithlessfriend

Apache Spark — Егор ПахомовYandex

OpenACC short reviewAndrei Poliakov

Scala, SBT & Play! for Rapid Application DevelopmentAnton Kirillov

Scala, Play Framework и SBT для быстрого прототипирования и разработки веб-пр...Magneta AI

Alasql.js - SQL база данных на JavaScript / Андрей Гершун (МАГ КОНСАЛТИНГ)Ontico

Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)Ontico

3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )Shamim bhuiyan

Расширение библиотеки SlickАрсений Жижелев

Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Ontico

Similar to Архитектура Apache Spark (20)

Expert Fridays Spark Job

Spark overview (18.06.2015)

14 - Hadoop. Фреймворк Spark

Apache spark

Лекция 12. Spark

13 - Hadoop. Парадигма Spark

BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)

AlaSQL библиотека для обработки JavaScript данных (презентация для ForntEnd 2...

DF1 - BD - Baranov - Mining Large Datasets with Apache Spark

мифы о спарке

Spark: нетипичные примеры использования

Apache Spark — Егор Пахомов

OpenACC short review

Scala, SBT & Play! for Rapid Application Development

Scala, Play Framework и SBT для быстрого прототипирования и разработки веб-пр...

Alasql.js - SQL база данных на JavaScript / Андрей Гершун (МАГ КОНСАЛТИНГ)

Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)

3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )

Расширение библиотеки Slick

Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...