SlideShare a Scribd company logo
Не Spark’ом единым
“Если у вас в руках Spark, то всё вокруг - RDD”
О чем сегодня поговорим
● Везде ли нужен Spark Streaming?
● Зачем дата инженеру другие инструменты?
● В каких случаях их лучше использовать?
Дата инженерам нужны инструменты
кроме Apache Spark
Есть случаи, когда NiFi и
StreamSets удобнее
Есть случаи, когда нужны
потоковые фреймворки
Есть случаи, когда Spark
незаменим
Первый плохой пример
● Нам нужно положить данные из топика А в таблицу Б
● Мы пишем Spark Streaming джобу, которая состоит из двух
шагов: взять и положить с минимальными трансформациями
● Дальше мы пишем для неё тесты, отдельный CI, кастомный
мониторинг
● ...
Что не так?
● Возникает много “кастомных” джоб
● Поддержка зоопарка коннекторов
● Решение типовых задач разными способами
● Джуны нервничают
Альтернативы - Apache NiFi
Альтернативы - StreamSets Data Collector
В чем плюсы?
● Стандартные “кирпичики” для сбора
пайплайнов
● Централизация и визуализация процессов
● Низкий порог вхождения
● Джуны радуются
А может и хватит?
Данные инструменты не могут полностью
заменить фреймворки
● Иногда кастомизация все же нужна
● Нет никаких инструментов для описания
домена
Второй плохой пример
Мы стараемся запихнуть в Spark несвойственные ему паттерны
● Low-latency processing
● Stateful stream processing
● Обработка потоков со сложной топологией
Но Spark же всё это умеет?!
Да, но недавно и не в полной мере
Две разные модели
MapReduce model
● Всё есть batch
● А всё что не batch -
мелко покрошить и будет
mini batch
Представители:
● MapReduce
● Spark
Dataflow model
● Всё есть stream
● Batch - просто конечный
stream
Представители:
● Flink
● Beam (Google Dataflow)
Хорошая добавка в инструментарий
Один из комплиментарных Spark’у фреймворков
● Apache Flink
● Apache Beam (Google Dataflow)
● Kafka Streams
● Apache Samza
И все же - нужен ли Spark Streaming?
● Аналитика на больших потоках
● SQL-подобные запросы
● Обслуживание моделей из MLlib
Полезные ссылки
● Open Source ETL: Apache NiFi vs Streamsets
● Streaming 101: The world beyond batch
● The Dataflow Model: A Practical Approach to Balancing
Correctness, Latency, and Cost in Massive-Scale,
Unbounded, Out-of-Order Data Processing
Это всё
Буду рад вопросам и
конструктивной критике :)
Егор Матешук
egor@mateshuk.com
https://t.me/Egorios

More Related Content

Similar to Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для систем потоковой обработки данных

Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)
Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)
Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)
Ontico
 
CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...
CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...
CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...CodeFest
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
antishmanti
 
"Мы два месяца долбались, а потом построили индекс" (c) Аксенов
"Мы два месяца долбались, а потом построили индекс" (c) Аксенов"Мы два месяца долбались, а потом построили индекс" (c) Аксенов
"Мы два месяца долбались, а потом построили индекс" (c) Аксенов
Alex Chistyakov
 
Работа с Big Data
Работа с Big Data Работа с Big Data
Работа с Big Data
MATLAB
 
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Mail.ru Group
 
Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014
Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014
Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014it-people
 
Spark overview (18.06.2015)
Spark overview (18.06.2015)Spark overview (18.06.2015)
Spark overview (18.06.2015)
bddmoscow
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Alexey Zinoviev
 
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
Омские ИТ-субботники
 
История небольшого успеха с PostgreSQL
История небольшого успеха с PostgreSQLИстория небольшого успеха с PostgreSQL
История небольшого успеха с PostgreSQL
dev1ant
 
My talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPConMy talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPCon
Alex Chistyakov
 
Thumbtack Expertise Days # 5 - Dataset
Thumbtack Expertise Days # 5 - DatasetThumbtack Expertise Days # 5 - Dataset
Thumbtack Expertise Days # 5 - Dataset
Alexey Remnev
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)Andrew Panfilov
 
Hadoop > cascading -> cascalog (short version)
Hadoop  > cascading -> cascalog (short version)Hadoop  > cascading -> cascalog (short version)
Hadoop > cascading -> cascalog (short version)
Andrew Panfilov
 
Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...
Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...
Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...
Ontico
 
My talk on Salt and Ansible from DevConf 2014
My talk on Salt and Ansible from DevConf 2014My talk on Salt and Ansible from DevConf 2014
My talk on Salt and Ansible from DevConf 2014
Alex Chistyakov
 
Там, где Rails не справляются
Там, где Rails не справляютсяТам, где Rails не справляются
Там, где Rails не справляются
Max Lapshin
 
Говорим о СУБД языком HR
Говорим о СУБД языком HRГоворим о СУБД языком HR
Говорим о СУБД языком HR
Konstantin Osipov
 

Similar to Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для систем потоковой обработки данных (20)

Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)
Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)
Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)
 
CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...
CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...
CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
"Мы два месяца долбались, а потом построили индекс" (c) Аксенов
"Мы два месяца долбались, а потом построили индекс" (c) Аксенов"Мы два месяца долбались, а потом построили индекс" (c) Аксенов
"Мы два месяца долбались, а потом построили индекс" (c) Аксенов
 
Работа с Big Data
Работа с Big Data Работа с Big Data
Работа с Big Data
 
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
 
Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014
Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014
Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014
 
Operden1
Operden1Operden1
Operden1
 
Spark overview (18.06.2015)
Spark overview (18.06.2015)Spark overview (18.06.2015)
Spark overview (18.06.2015)
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
 
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
 
История небольшого успеха с PostgreSQL
История небольшого успеха с PostgreSQLИстория небольшого успеха с PostgreSQL
История небольшого успеха с PostgreSQL
 
My talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPConMy talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPCon
 
Thumbtack Expertise Days # 5 - Dataset
Thumbtack Expertise Days # 5 - DatasetThumbtack Expertise Days # 5 - Dataset
Thumbtack Expertise Days # 5 - Dataset
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)
 
Hadoop > cascading -> cascalog (short version)
Hadoop  > cascading -> cascalog (short version)Hadoop  > cascading -> cascalog (short version)
Hadoop > cascading -> cascalog (short version)
 
Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...
Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...
Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...
 
My talk on Salt and Ansible from DevConf 2014
My talk on Salt and Ansible from DevConf 2014My talk on Salt and Ansible from DevConf 2014
My talk on Salt and Ansible from DevConf 2014
 
Там, где Rails не справляются
Там, где Rails не справляютсяТам, где Rails не справляются
Там, где Rails не справляются
 
Говорим о СУБД языком HR
Говорим о СУБД языком HRГоворим о СУБД языком HR
Говорим о СУБД языком HR
 

More from Global Innovation Labs

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Global Innovation Labs
 
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийОльга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Global Innovation Labs
 
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Global Innovation Labs
 
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Global Innovation Labs
 
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Global Innovation Labs
 
Евгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхЕвгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данных
Global Innovation Labs
 
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceПетр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Global Innovation Labs
 
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Global Innovation Labs
 
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Global Innovation Labs
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Global Innovation Labs
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Global Innovation Labs
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Global Innovation Labs
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Global Innovation Labs
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Global Innovation Labs
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Global Innovation Labs
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Global Innovation Labs
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Global Innovation Labs
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Global Innovation Labs
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Global Innovation Labs
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Global Innovation Labs
 

More from Global Innovation Labs (20)

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
 
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийОльга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
 
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
 
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
 
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
 
Евгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхЕвгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данных
 
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceПетр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
 
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
 
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
 

Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для систем потоковой обработки данных

  • 1. Не Spark’ом единым “Если у вас в руках Spark, то всё вокруг - RDD”
  • 2. О чем сегодня поговорим ● Везде ли нужен Spark Streaming? ● Зачем дата инженеру другие инструменты? ● В каких случаях их лучше использовать?
  • 3. Дата инженерам нужны инструменты кроме Apache Spark Есть случаи, когда NiFi и StreamSets удобнее Есть случаи, когда нужны потоковые фреймворки Есть случаи, когда Spark незаменим
  • 4. Первый плохой пример ● Нам нужно положить данные из топика А в таблицу Б ● Мы пишем Spark Streaming джобу, которая состоит из двух шагов: взять и положить с минимальными трансформациями ● Дальше мы пишем для неё тесты, отдельный CI, кастомный мониторинг ● ...
  • 5. Что не так? ● Возникает много “кастомных” джоб ● Поддержка зоопарка коннекторов ● Решение типовых задач разными способами ● Джуны нервничают
  • 8. В чем плюсы? ● Стандартные “кирпичики” для сбора пайплайнов ● Централизация и визуализация процессов ● Низкий порог вхождения ● Джуны радуются
  • 9. А может и хватит? Данные инструменты не могут полностью заменить фреймворки ● Иногда кастомизация все же нужна ● Нет никаких инструментов для описания домена
  • 10. Второй плохой пример Мы стараемся запихнуть в Spark несвойственные ему паттерны ● Low-latency processing ● Stateful stream processing ● Обработка потоков со сложной топологией Но Spark же всё это умеет?! Да, но недавно и не в полной мере
  • 11. Две разные модели MapReduce model ● Всё есть batch ● А всё что не batch - мелко покрошить и будет mini batch Представители: ● MapReduce ● Spark Dataflow model ● Всё есть stream ● Batch - просто конечный stream Представители: ● Flink ● Beam (Google Dataflow)
  • 12. Хорошая добавка в инструментарий Один из комплиментарных Spark’у фреймворков ● Apache Flink ● Apache Beam (Google Dataflow) ● Kafka Streams ● Apache Samza
  • 13. И все же - нужен ли Spark Streaming? ● Аналитика на больших потоках ● SQL-подобные запросы ● Обслуживание моделей из MLlib
  • 14. Полезные ссылки ● Open Source ETL: Apache NiFi vs Streamsets ● Streaming 101: The world beyond batch ● The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing
  • 15. Это всё Буду рад вопросам и конструктивной критике :) Егор Матешук egor@mateshuk.com https://t.me/Egorios