Докладчик:
Александр Сапронов
Описание:
Мы вместе пройдем по популярным задачам — от парсинга сайтов до научных вычислений и рассмотрим мощь языка Python
JavaFest. Дмитрий Сергеев. Data processing with Kafka Streams and Spring Fram...FestGroup
В процессе доклада напишем приложение, использующее Kafka Streams и Spring, в реальном времени обрабатывающее данные датчика погоды Raspberry Pi. Разберёмся как течёт время в Kafka Streams и почему это грозит вам бессонными ночами debug’a. Вы узнаете как обрабатывать потоки данных в Kafka c помощью библиотеки Kafka Streams и абстракций Spring Cloud. Мы обсудим окна, агрегации, графы обработки данных и топологии. Напоследок, обсудим нюансы деплоя Kafka Streams приложений.
SmartMonitoring - мониторинг бизнес-логики в Одноклассниках / Сергей Шарапов ...Ontico
Самым критичным в мониторинге бизнес-логики является этап выяснения сути инцидента, зачастую он занимает значительное время и требует высокой квалификации сотрудника, так как основные показатели работы сайта и сервисов представлены более чем 100 тысячами графиков, и нахождение первоисточника - не самое простое дело. Поэтому была создана система мониторинга (SmartMonitoring), которая умеет находить аномалии в работе портала и показывать связь между ними, что значительно упрощает работу как администраторам, так и программистам. Такая система помогает в случае инцидента понять, какой именно среди десятков наших сервисов засбоил первым и, соответственно, ускоряет распутывание «клубка» в процессе расследования инцидента и помогает быстро находить сервис, который во всем виноват.
В этом докладе я расскажу, как мы создали такую систему, как она работает, и с какими трудностями мы столкнулись.
Докладчик:
Александр Сапронов
Описание:
Мы вместе пройдем по популярным задачам — от парсинга сайтов до научных вычислений и рассмотрим мощь языка Python
JavaFest. Дмитрий Сергеев. Data processing with Kafka Streams and Spring Fram...FestGroup
В процессе доклада напишем приложение, использующее Kafka Streams и Spring, в реальном времени обрабатывающее данные датчика погоды Raspberry Pi. Разберёмся как течёт время в Kafka Streams и почему это грозит вам бессонными ночами debug’a. Вы узнаете как обрабатывать потоки данных в Kafka c помощью библиотеки Kafka Streams и абстракций Spring Cloud. Мы обсудим окна, агрегации, графы обработки данных и топологии. Напоследок, обсудим нюансы деплоя Kafka Streams приложений.
SmartMonitoring - мониторинг бизнес-логики в Одноклассниках / Сергей Шарапов ...Ontico
Самым критичным в мониторинге бизнес-логики является этап выяснения сути инцидента, зачастую он занимает значительное время и требует высокой квалификации сотрудника, так как основные показатели работы сайта и сервисов представлены более чем 100 тысячами графиков, и нахождение первоисточника - не самое простое дело. Поэтому была создана система мониторинга (SmartMonitoring), которая умеет находить аномалии в работе портала и показывать связь между ними, что значительно упрощает работу как администраторам, так и программистам. Такая система помогает в случае инцидента понять, какой именно среди десятков наших сервисов засбоил первым и, соответственно, ускоряет распутывание «клубка» в процессе расследования инцидента и помогает быстро находить сервис, который во всем виноват.
В этом докладе я расскажу, как мы создали такую систему, как она работает, и с какими трудностями мы столкнулись.
Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)Ontico
В докладе рассмотрим нашу старую архитектуру пайплайна машинного обучения, обратим внимание на ее недостатки как с точки зрения инфраструктуры и автоматизации, так и с точки зрения настройки моделей машинного обучения и проведения экспериментов. Разберемся с архитектурой Apache Spark, и почему мы решили его использовать. Подробно ознакомимся с новой архитектурой нашего пайплайна и тем, как она позволила оптимизировать обнаружение и устранение проблем, ускорила и упростила работу data scientist'ов по проведению экспериментов и доведения их до продакшена. Также затронем вопросы написания тестов и процесса разработки ПО на больших данных.
Мы покажем, как можно перенести разработанные алгоритмы для работы с Big Data с минимальными изменениями исходных программ. Рассмотрим возможности по распараллеливанию счета на многоядерных процессорах (вычислительных кластерах) и графических процессорах, поддерживающих CUDA.
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Mail.ru Group
H2O — интересная и многообещающая платформа машинного обучения. Она может порадовать аналитика скоростью работы с большими объемами данных, набором алгоритмов, наличием API для нескольких языков программирования, и, конечно же, красивыми и подробными отчетами по построенным моделям. H2O написана на Java, поэтому работает везде (tm), в том числе на кластере Spark. В докладе спикер поделился своим опытом использования H2O на Spark и YARN, а также причинами отказа от использования H2O в production-окружении, не смотря на все ее положительные качества.
Spark overview presentation by Vsevolod Grabelnikov on Big Data Developers in Moscow meetup. Slides has basical information about Spark and IBM strategy in this direction.
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
Alexey Zinoviev Алексей Зиновьев рассказывает о выборе одной из следующих баз данных CouchDB, Neo4j, Mongo, Cassandra, HBase, Riak на Happydev 2013
Article "Choice of NoSQL database for your project: Don't bite off more than you can chew" presented on HappyDev 2013 (IT-conference in Omsk) by Alexey Zinoviev
The main idea of this article is comparison of the most popular NoSQL databases: CouchDB, Cassandra, Mongodb, Riak, Neo4j, HBase
My talk on Hadoop stack operations engineering at OSPConAlex Chistyakov
My talk on Hadoop stack operations engineering at OSPCon Nov 2015 (http://www.ospcon.ru/event/prakticheskaya-konferentsiya-tekhnologii-bolshikh-dannykh_130.html)
Рельсы прекрасный инструмент, но в некоторых ситуациях они не справляются.
В этом докладе рассказывается о таких ситуациях и одном из вариантов решения
Анализ данных для распознавания коронарных сосудов и предсказания ишемической болезни сердца. Созданное ПО увеличивает процесс распознавания до 76%. Время распознавания одного сета - 295 секунд.
Пайплайн машинного обучения на Apache Spark / Павел Клеменков (Rambler&Co)Ontico
В докладе рассмотрим нашу старую архитектуру пайплайна машинного обучения, обратим внимание на ее недостатки как с точки зрения инфраструктуры и автоматизации, так и с точки зрения настройки моделей машинного обучения и проведения экспериментов. Разберемся с архитектурой Apache Spark, и почему мы решили его использовать. Подробно ознакомимся с новой архитектурой нашего пайплайна и тем, как она позволила оптимизировать обнаружение и устранение проблем, ускорила и упростила работу data scientist'ов по проведению экспериментов и доведения их до продакшена. Также затронем вопросы написания тестов и процесса разработки ПО на больших данных.
Мы покажем, как можно перенести разработанные алгоритмы для работы с Big Data с минимальными изменениями исходных программ. Рассмотрим возможности по распараллеливанию счета на многоядерных процессорах (вычислительных кластерах) и графических процессорах, поддерживающих CUDA.
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Mail.ru Group
H2O — интересная и многообещающая платформа машинного обучения. Она может порадовать аналитика скоростью работы с большими объемами данных, набором алгоритмов, наличием API для нескольких языков программирования, и, конечно же, красивыми и подробными отчетами по построенным моделям. H2O написана на Java, поэтому работает везде (tm), в том числе на кластере Spark. В докладе спикер поделился своим опытом использования H2O на Spark и YARN, а также причинами отказа от использования H2O в production-окружении, не смотря на все ее положительные качества.
Spark overview presentation by Vsevolod Grabelnikov on Big Data Developers in Moscow meetup. Slides has basical information about Spark and IBM strategy in this direction.
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
Alexey Zinoviev Алексей Зиновьев рассказывает о выборе одной из следующих баз данных CouchDB, Neo4j, Mongo, Cassandra, HBase, Riak на Happydev 2013
Article "Choice of NoSQL database for your project: Don't bite off more than you can chew" presented on HappyDev 2013 (IT-conference in Omsk) by Alexey Zinoviev
The main idea of this article is comparison of the most popular NoSQL databases: CouchDB, Cassandra, Mongodb, Riak, Neo4j, HBase
My talk on Hadoop stack operations engineering at OSPConAlex Chistyakov
My talk on Hadoop stack operations engineering at OSPCon Nov 2015 (http://www.ospcon.ru/event/prakticheskaya-konferentsiya-tekhnologii-bolshikh-dannykh_130.html)
Рельсы прекрасный инструмент, но в некоторых ситуациях они не справляются.
В этом докладе рассказывается о таких ситуациях и одном из вариантов решения
Анализ данных для распознавания коронарных сосудов и предсказания ишемической болезни сердца. Созданное ПО увеличивает процесс распознавания до 76%. Время распознавания одного сета - 295 секунд.
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Global Innovation Labs
О проблемах использования эмбеддинговых моделей (в т.ч. BERT, XLNet) для анализа научно-технических текстов. Рассмотрены способы оценки их эффективности и кейс расширения базы знаний на примере одного научно-технологического направления.
Нейросеть должна не только правильно классифицировать корректные запросы, но также отфильтровывать заведомо неправильные. Необходимо, чтобы обученная сеть на нерелевантные запросы давала ответ «не знаю», а не предлагала наиболее подходящую услугу. Например, на вопрос «где получить паспорт?», сетка должна назвать номер кабинета и услугу, а на вопрос «где получить паспорт пирата?» ответить «не знаю».
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Global Innovation Labs
Вы знали, что в следствии цифрофизации бизнес процессов нефтяные компании стали создавать петабайты данных и сегодня 70% проектов направленных на повышение эффективности зависят от качества данных?
Как устроен процесс управления качеством данных и какие инструменты для этого используются расскажет Александр Ерофеев CDO блока разведки и добычи компании Газпром нефть.
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceGlobal Innovation Labs
Пальто с 300 кОрманами, или как искать ошибки.
LAMODA — это один из основных игроков онлайн-торговли в России с более чем 5 миллионами товаров в каталоге. И это не только сайт. Это - свои склады размером с футбольные поля, свои курьеры и парк автомобилей, свой отдел e-production с фото-студией и моделями. Компания не только делает свои фотографии товаров, но и сама создает описание и заполняет атрибуты. К сожалению, ручной процесс не исключает ошибок.
Как автоматизировать поиск ошибок в контенте и как методы анализа данных в этом помогают?
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Global Innovation Labs
Когда стоит выбирать ClickHouse.
1. Когда у вас много фактов без обновлений:
- web-аналитика
- реклама
- e-commerce and finance
- мониторинг
- телеком, анализ логов
2. Витрины данных:
- нет JOIN со спилами
- очень хорошо переносит клиентскую нагрузку
- легко масштабируется
- быстрая агрегация витрин
- OBDC, JDBC, HTTP клиентские интерфейсы
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Global Innovation Labs
Как правильно ставить цели в план по развитию маркетинг-аналитики — определить дальнейшие шаги развития маркетинг-аналитики в компании.
Обзор главных технологий и компетенций, о которых стоит помнить на каждом из этапов плана. Вы будете заранее готовы и сможете забюджетировать нужные ресурсы.
К чему стоит быть готовым при внедрении прогнозов в маркетинг аналитике? Вы сможете составить план развития маркетинг-аналитики, учитывая возможные проблемы на этом пути.
Какие источники данных позволяют наиболее точно прогнозировать выполнение маркетинг-плана? Вы сможете контролировать процесс выполнения плана и понимать в каких сегментах ваши зоны роста, а где - риски.
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Global Innovation Labs
Вредные советы о лучших способах убить производительность аналитической СУБД.
1. Передавайте много данных по сети.
2. Обрабатывайте лишние объемы данных.
3. Пренебрегайте мониторингом.
4. Никогда не используйте сжатие данных!
5. И, конечно же, забывайте про резервирование
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
1. Потребности бизнеса, клиентов и рынка в массовом скоринге
2. Первый технологический стек, первый прототип
3. Полезные новейшие возможности облаков для скоринга и других применений ML
4. Выбор фич
5. Несбалансированные данные - как не сойти с ума
6. Оптимизация моделей скоринга
7. Внедрение скоринга в продукт
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Global Innovation Labs
Как построить эффективный медийный продукт на основе данных.
При грамотной настройке "умной выдачи" и "умной рекламы" рост эффективности РК по сегментам показывает до 40%.
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Global Innovation Labs
1. Большие данные о действиях пользователей в продуктах можно превратить в траектории и обрабатывать с помощью ML
2. ML позволяет быстро получать поведенческую сегментацию и строить наглядные интерпретируемые карты
3. Сегменты с проблемным поведением позволяют локализовать точки роста бизнеса и разместить их в клиентском пути
4. Касания и клики в рекламных каналах могут быть обработаны тем же пайплайном, чтобы точнее оценить качество трафика и эффективнее бюджетировать каналы.
Исследование ценностей и целей российских женщин при помощи нейросетей.
Как определить динамику изменения целей и ценностей, создать новые продукты и скорректировать имеющиеся.
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Global Innovation Labs
О том, как корпорации "следят" за нами. Обработка BigData требует средств, технологий и кадров. В первую очередь деньги вложат те, кто сможет быстро продать анализ вашей персональной информации: Google, Яндекс, Facebook, Сбербанк и т.д.
Государство - всегда догоняющий игрок.
Правительственные идеи тотального контроля лишь клонируют или расширяют корпоративные разработки.
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Global Innovation Labs
Каким образом решить задачу увеличения конверсии CRM-кампаний по банковскому продукту для среднего и малого бизнеса. Как собрать внутренние и внешние источники данных. Какой использовать инструментарий. Какой выбрать алгоритм и оптимизацию гиперпараметров для максимизации прогнозирующей производительности конечной модели.
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Global Innovation Labs
Треть рабочего времени сотрудников теряется в попытках помочь друг друга.
Люди одной микрогруппы хорошо понимают друг друга и плохо понимают людей из других микрогрупп.
При внедрении ИИ текучка среди специалистов в первый месяц снизилась с 30% в месяц до 20%. Производительность увеличилась в 8 раз.
Как сделать лингвистический анализ судебных споров, в которых участвует компания, и вычислить, какие дополнительные активы или обязательства возникнут у нее в качестве дисконтированной на срок судебного разбирательства суммы потенциального выигрыша или проигрыша, вероятность которого вычисляется на основе аналогичных исков в том же суде с тем же предметом спора.
2. О чем сегодня поговорим
● Везде ли нужен Spark Streaming?
● Зачем дата инженеру другие инструменты?
● В каких случаях их лучше использовать?
3. Дата инженерам нужны инструменты
кроме Apache Spark
Есть случаи, когда NiFi и
StreamSets удобнее
Есть случаи, когда нужны
потоковые фреймворки
Есть случаи, когда Spark
незаменим
4. Первый плохой пример
● Нам нужно положить данные из топика А в таблицу Б
● Мы пишем Spark Streaming джобу, которая состоит из двух
шагов: взять и положить с минимальными трансформациями
● Дальше мы пишем для неё тесты, отдельный CI, кастомный
мониторинг
● ...
5. Что не так?
● Возникает много “кастомных” джоб
● Поддержка зоопарка коннекторов
● Решение типовых задач разными способами
● Джуны нервничают
8. В чем плюсы?
● Стандартные “кирпичики” для сбора
пайплайнов
● Централизация и визуализация процессов
● Низкий порог вхождения
● Джуны радуются
9. А может и хватит?
Данные инструменты не могут полностью
заменить фреймворки
● Иногда кастомизация все же нужна
● Нет никаких инструментов для описания
домена
10. Второй плохой пример
Мы стараемся запихнуть в Spark несвойственные ему паттерны
● Low-latency processing
● Stateful stream processing
● Обработка потоков со сложной топологией
Но Spark же всё это умеет?!
Да, но недавно и не в полной мере
11. Две разные модели
MapReduce model
● Всё есть batch
● А всё что не batch -
мелко покрошить и будет
mini batch
Представители:
● MapReduce
● Spark
Dataflow model
● Всё есть stream
● Batch - просто конечный
stream
Представители:
● Flink
● Beam (Google Dataflow)
12. Хорошая добавка в инструментарий
Один из комплиментарных Spark’у фреймворков
● Apache Flink
● Apache Beam (Google Dataflow)
● Kafka Streams
● Apache Samza
13. И все же - нужен ли Spark Streaming?
● Аналитика на больших потоках
● SQL-подобные запросы
● Обслуживание моделей из MLlib
14. Полезные ссылки
● Open Source ETL: Apache NiFi vs Streamsets
● Streaming 101: The world beyond batch
● The Dataflow Model: A Practical Approach to Balancing
Correctness, Latency, and Cost in Massive-Scale,
Unbounded, Out-of-Order Data Processing
15. Это всё
Буду рад вопросам и
конструктивной критике :)
Егор Матешук
egor@mateshuk.com
https://t.me/Egorios