Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для систем потоковой обработки данных

1. Везде ли нужен Spark Streaming? 2. Зачем data engineer другие инструменты? 3. В каких случаях их лучше использовать?

Data & Analytics

Не Spark’ом единым
“Если у вас в руках Spark, то всё вокруг - RDD”

О чем сегодня поговорим
● Везде ли нужен Spark Streaming?
● Зачем дата инженеру другие инструменты?
● В каких случаях их лучше использовать?

Дата инженерам нужны инструменты
кроме Apache Spark
Есть случаи, когда NiFi и
StreamSets удобнее
Есть случаи, когда нужны
потоковые фреймворки
Есть случаи, когда Spark
незаменим

Первый плохой пример
● Нам нужно положить данные из топика А в таблицу Б
● Мы пишем Spark Streaming джобу, которая состоит из двух
шагов: взять и положить с минимальными трансформациями
● Дальше мы пишем для неё тесты, отдельный CI, кастомный
мониторинг
● ...

Что не так?
● Возникает много “кастомных” джоб
● Поддержка зоопарка коннекторов
● Решение типовых задач разными способами
● Джуны нервничают

Альтернативы - StreamSets Data Collector

В чем плюсы?
● Стандартные “кирпичики” для сбора
пайплайнов
● Централизация и визуализация процессов
● Низкий порог вхождения
● Джуны радуются

А может и хватит?
Данные инструменты не могут полностью
заменить фреймворки
● Иногда кастомизация все же нужна
● Нет никаких инструментов для описания
домена

Второй плохой пример
Мы стараемся запихнуть в Spark несвойственные ему паттерны
● Low-latency processing
● Stateful stream processing
● Обработка потоков со сложной топологией
Но Spark же всё это умеет?!
Да, но недавно и не в полной мере

Две разные модели
MapReduce model
● Всё есть batch
● А всё что не batch -
мелко покрошить и будет
mini batch
Представители:
● MapReduce
● Spark
Dataflow model
● Всё есть stream
● Batch - просто конечный
stream
Представители:
● Flink
● Beam (Google Dataflow)

Хорошая добавка в инструментарий
Один из комплиментарных Spark’у фреймворков
● Apache Flink
● Apache Beam (Google Dataflow)
● Kafka Streams
● Apache Samza

И все же - нужен ли Spark Streaming?
● Аналитика на больших потоках
● SQL-подобные запросы
● Обслуживание моделей из MLlib

Полезные ссылки
● Open Source ETL: Apache NiFi vs Streamsets
● Streaming 101: The world beyond batch
● The Dataflow Model: A Practical Approach to Balancing
Correctness, Latency, and Cost in Massive-Scale,
Unbounded, Out-of-Order Data Processing

Это всё
Буду рад вопросам и
конструктивной критике :)
Егор Матешук
egor@mateshuk.com
https://t.me/Egorios

В процессе доклада напишем приложение, использующее Kafka Streams и Spring, в реальном времени обрабатывающее данные датчика погоды Raspberry Pi. Разберёмся как течёт время в Kafka Streams и почему это грозит вам бессонными ночами debug’a. Вы узнаете как обрабатывать потоки данных в Kafka c помощью библиотеки Kafka Streams и абстракций Spring Cloud. Мы обсудим окна, агрегации, графы обработки данных и топологии. Напоследок, обсудим нюансы деплоя Kafka Streams приложений.

SmartMonitoring - мониторинг бизнес-логики в Одноклассниках / Сергей Шарапов ...

Самым критичным в мониторинге бизнес-логики является этап выяснения сути инцидента, зачастую он занимает значительное время и требует высокой квалификации сотрудника, так как основные показатели работы сайта и сервисов представлены более чем 100 тысячами графиков, и нахождение первоисточника - не самое простое дело. Поэтому была создана система мониторинга (SmartMonitoring), которая умеет находить аномалии в работе портала и показывать связь между ними, что значительно упрощает работу как администраторам, так и программистам. Такая система помогает в случае инцидента понять, какой именно среди десятков наших сервисов засбоил первым и, соответственно, ускоряет распутывание «клубка» в процессе расследования инцидента и помогает быстро находить сервис, который во всем виноват. В этом докладе я расскажу, как мы создали такую систему, как она работает, и с какими трудностями мы столкнулись.

My talk on DevOps engineer's adventures in the Windows world at UWDC 2017

CodeFest 2013. Зиновьев А. — MyBatis & Hibernate, давайте жить дружно!CodeFest

В докладе рассмотрим нашу старую архитектуру пайплайна машинного обучения, обратим внимание на ее недостатки как с точки зрения инфраструктуры и автоматизации, так и с точки зрения настройки моделей машинного обучения и проведения экспериментов. Разберемся с архитектурой Apache Spark, и почему мы решили его использовать. Подробно ознакомимся с новой архитектурой нашего пайплайна и тем, как она позволила оптимизировать обнаружение и устранение проблем, ускорила и упростила работу data scientist'ов по проведению экспериментов и доведения их до продакшена. Также затронем вопросы написания тестов и процесса разработки ПО на больших данных.

CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...CodeFest

2 bdw.key

antishmanti

"Мы два месяца долбались, а потом построили индекс" (c) Аксенов

Работа с Big Data

MATLAB

Мы покажем, как можно перенести разработанные алгоритмы для работы с Big Data с минимальными изменениями исходных программ. Рассмотрим возможности по распараллеливанию счета на многоядерных процессорах (вычислительных кластерах) и графических процессорах, поддерживающих CUDA.

Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...

Mail.ru Group

H2O — интересная и многообещающая платформа машинного обучения. Она может порадовать аналитика скоростью работы с большими объемами данных, набором алгоритмов, наличием API для нескольких языков программирования, и, конечно же, красивыми и подробными отчетами по построенным моделям. H2O написана на Java, поэтому работает везде (tm), в том числе на кластере Spark. В докладе спикер поделился своим опытом использования H2O на Spark и YARN, а также причинами отказа от использования H2O в production-окружении, не смотря на все ее положительные качества.

Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014it-people

Operden1Dmitry Zuikov

Spark overview (18.06.2015)

bddmoscow

Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"

Alexey Zinoviev

Alexey Zinoviev Алексей Зиновьев рассказывает о выборе одной из следующих баз данных CouchDB, Neo4j, Mongo, Cassandra, HBase, Riak на Happydev 2013 Article "Choice of NoSQL database for your project: Don't bite off more than you can chew" presented on HappyDev 2013 (IT-conference in Omsk) by Alexey Zinoviev The main idea of this article is comparison of the most popular NoSQL databases: CouchDB, Cassandra, Mongodb, Riak, Neo4j, HBase

2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных

Омские ИТ-субботники

История небольшого успеха с PostgreSQL

dev1ant

My talk on Hadoop stack operations engineering at OSPCon

Thumbtack Expertise Days # 5 - Dataset

Alexey Remnev

Hadoop > cascading -> cascalog (very short)Andrew Panfilov

Hadoop > cascading -> cascalog (short version)

Andrew Panfilov

Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...

My talk on Salt and Ansible from DevConf 2014

Там, где Rails не справляются

Max Lapshin

Говорим о СУБД языком HR

Konstantin Osipov

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...

Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций

Similar to Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для систем потоковой обработки данных

Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)

CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...CodeFest

2 bdw.key

antishmanti

"Мы два месяца долбались, а потом построили индекс" (c) Аксенов

Работа с Big Data

MATLAB

Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...

Mail.ru Group

Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014it-people

Operden1Dmitry Zuikov

Spark overview (18.06.2015)

bddmoscow

Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"

Alexey Zinoviev

2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных

Омские ИТ-субботники

История небольшого успеха с PostgreSQL

dev1ant

My talk on Hadoop stack operations engineering at OSPCon

Thumbtack Expertise Days # 5 - Dataset

Alexey Remnev

Hadoop > cascading -> cascalog (very short)Andrew Panfilov

Hadoop > cascading -> cascalog (short version)

Andrew Panfilov

Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...

My talk on Salt and Ansible from DevConf 2014

Там, где Rails не справляются

Max Lapshin

Говорим о СУБД языком HR

Konstantin Osipov

Similar to Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для систем потоковой обработки данных (20)

Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)

CodeFest 2014. Каплуновский Б. — Использование асинхронного I/O для снижения ...

2 bdw.key

"Мы два месяца долбались, а потом построили индекс" (c) Аксенов

Работа с Big Data

Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...

Я. Садовская "Управление конфигурациями и тестовой средой", DUMP-2014

Operden1

Spark overview (18.06.2015)

Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"

2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных

История небольшого успеха с PostgreSQL

My talk on Hadoop stack operations engineering at OSPCon

Thumbtack Expertise Days # 5 - Dataset

Hadoop > cascading -> cascalog (very short)

Hadoop > cascading -> cascalog (short version)

Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николо...

My talk on Salt and Ansible from DevConf 2014

Там, где Rails не справляются

Говорим о СУБД языком HR

More from Global Innovation Labs

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...

Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций

Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...

О проблемах использования эмбеддинговых моделей (в т.ч. BERT, XLNet) для анализа научно-технических текстов. Рассмотрены способы оценки их эффективности и кейс расширения базы знаний на примере одного научно-технологического направления.

Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...

Нейросеть должна не только правильно классифицировать корректные запросы, но также отфильтровывать заведомо неправильные. Необходимо, чтобы обученная сеть на нерелевантные запросы давала ответ «не знаю», а не предлагала наиболее подходящую услугу. Например, на вопрос «где получить паспорт?», сетка должна назвать номер кабинета и услугу, а на вопрос «где получить паспорт пирата?» ответить «не знаю».

Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...

Вы знали, что в следствии цифрофизации бизнес процессов нефтяные компании стали создавать петабайты данных и сегодня 70% проектов направленных на повышение эффективности зависят от качества данных? Как устроен процесс управления качеством данных и какие инструменты для этого используются расскажет Александр Ерофеев CDO блока разведки и добычи компании Газпром нефть.

Евгений Линник. БКС. GIGO — секреты очистки данных

Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce

Пальто с 300 кОрманами, или как искать ошибки. LAMODA — это один из основных игроков онлайн-торговли в России с более чем 5 миллионами товаров в каталоге. И это не только сайт. Это - свои склады размером с футбольные поля, свои курьеры и парк автомобилей, свой отдел e-production с фото-студией и моделями. Компания не только делает свои фотографии товаров, но и сама создает описание и заполняет атрибуты. К сожалению, ручной процесс не исключает ошибок. Как автоматизировать поиск ошибок в контенте и как методы анализа данных в этом помогают?

Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...

Когда стоит выбирать ClickHouse. 1. Когда у вас много фактов без обновлений: - web-аналитика - реклама - e-commerce and finance - мониторинг - телеком, анализ логов 2. Витрины данных: - нет JOIN со спилами - очень хорошо переносит клиентскую нагрузку - легко масштабируется - быстрая агрегация витрин - OBDC, JDBC, HTTP клиентские интерфейсы

Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...

Как правильно ставить цели в план по развитию маркетинг-аналитики — определить дальнейшие шаги развития маркетинг-аналитики в компании. Обзор главных технологий и компетенций, о которых стоит помнить на каждом из этапов плана. Вы будете заранее готовы и сможете забюджетировать нужные ресурсы. К чему стоит быть готовым при внедрении прогнозов в маркетинг аналитике? Вы сможете составить план развития маркетинг-аналитики, учитывая возможные проблемы на этом пути. Какие источники данных позволяют наиболее точно прогнозировать выполнение маркетинг-плана? Вы сможете контролировать процесс выполнения плана и понимать в каких сегментах ваши зоны роста, а где - риски.

Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...

Вредные советы о лучших способах убить производительность аналитической СУБД. 1. Передавайте много данных по сети. 2. Обрабатывайте лишние объемы данных. 3. Пренебрегайте мониторингом. 4. Никогда не используйте сжатие данных! 5. И, конечно же, забывайте про резервирование

Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни

1. Потребности бизнеса, клиентов и рынка в массовом скоринге 2. Первый технологический стек, первый прототип 3. Полезные новейшие возможности облаков для скоринга и других применений ML 4. Выбор фич 5. Несбалансированные данные - как не сойти с ума 6. Оптимизация моделей скоринга 7. Внедрение скоринга в продукт

Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...

Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...

1. Большие данные о действиях пользователей в продуктах можно превратить в траектории и обрабатывать с помощью ML 2. ML позволяет быстро получать поведенческую сегментацию и строить наглядные интерпретируемые карты 3. Сегменты с проблемным поведением позволяют локализовать точки роста бизнеса и разместить их в клиентском пути 4. Касания и клики в рекламных каналах могут быть обработаны тем же пайплайном, чтобы точнее оценить качество трафика и эффективнее бюджетировать каналы.

Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины

Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...

О том, как корпорации "следят" за нами. Обработка BigData требует средств, технологий и кадров. В первую очередь деньги вложат те, кто сможет быстро продать анализ вашей персональной информации: Google, Яндекс, Facebook, Сбербанк и т.д. Государство - всегда догоняющий игрок. Правительственные идеи тотального контроля лишь клонируют или расширяют корпоративные разработки.

Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...

Каким образом решить задачу увеличения конверсии CRM-кампаний по банковскому продукту для среднего и малого бизнеса. Как собрать внутренние и внешние источники данных. Какой использовать инструментарий. Какой выбрать алгоритм и оптимизацию гиперпараметров для максимизации прогнозирующей производительности конечной модели.

Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...

Треть рабочего времени сотрудников теряется в попытках помочь друг друга. Люди одной микрогруппы хорошо понимают друг друга и плохо понимают людей из других микрогрупп. При внедрении ИИ текучка среди специалистов в первый месяц снизилась с 30% в месяц до 20%. Производительность увеличилась в 8 раз.

Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний

Как сделать лингвистический анализ судебных споров, в которых участвует компания, и вычислить, какие дополнительные активы или обязательства возникнут у нее в качестве дисконтированной на срок судебного разбирательства суммы потенциального выигрыша или проигрыша, вероятность которого вычисляется на основе аналогичных исков в том же суде с тем же предметом спора.

Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...

Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...