Druid is one useful and popular tool in the Big Data world. It is this OLAP system that allows you to efficiently process, store and query data. Which confirms the demand for Druid among tools in the Big Data processing environment.
With Vladimir Iordanov we will talk about how Druid works, what it consists of and what its capabilities are. Vladimir will introduce us to the Druid components, talk about the cluster architecture, how data processing is going on.
Azure web apps - designing and debuggingAlexey Bokov
Проектирование и отладка веб приложений с использованием облака Microsoft Azure. Технологии для повышения отказоустойчивости и надежности веб приложений, в том числе при использовании своего хостинга.
Всеволод Поляков "История одного мониторинга"Fwdays
«Мир изменился… Я чувствую это в воде… Я чувствую это в земле…»
Галадриэль
«Какой-то отсталый у неё мониторинг»
Сева Поляков
В этом докладе я хочу рассказать вам историю о современном мониторинге, на примере выбора для моего текущего проекта. Когда нужен prometheus, когда нужен SaaS и почему графит не умрёт. Также я постараюсь пройтись по всем новинкам и важным изменениям в современном мире мониторинга.
Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"Fwdays
- как ошибка выбора идентификатора пользователя, обнаруженная после запуска проекта, чуть не стоила 2 лет разработки
- как мы боролись с перегруженным mysql когда даже включение binlog убивает сервер
- почистил партицию mysql под нагрузкой - получи мертвый сервер
- как верстальщик поменял верстку серча и уложил продукт на 4 часа
- ошибка в ядре php которая привела даунтайм на несколько часов
- как незнание особенностей работы GC у redis обошлось в $50к чистой прибыли
- добавлением или удалением серверов из пула memcached инвалидировали весь кэш (кривые настройки php клиента Memcache/Memcached)
- как поправив тест потерять 2 миллиона пользовательских писем
- как релиз одного проекта крэшил хелсчеки соседнего проекта
- самый большой фейл с системами очередей и статистикой: ивенты терялись годами
Андрей Зайчиков "Архитектура распределенных кластеров NoSQL на AWS"IT Event
Мы рассмотрим важные особенности построения архитектуры распреденных кластеров NoSQL с использованием ресурсов Amazon Web Services, мы затронем такие аспекты как: архитектура гео распределенных кластеров, оптимизация производительности, выбор основных опций для деплоймента и ряд других аспектов. В докладе мы сконцентрируемся на таких популярных базах данных, как Cassandra, MongoDB и некоторых других.
Azure web apps - designing and debuggingAlexey Bokov
Проектирование и отладка веб приложений с использованием облака Microsoft Azure. Технологии для повышения отказоустойчивости и надежности веб приложений, в том числе при использовании своего хостинга.
Всеволод Поляков "История одного мониторинга"Fwdays
«Мир изменился… Я чувствую это в воде… Я чувствую это в земле…»
Галадриэль
«Какой-то отсталый у неё мониторинг»
Сева Поляков
В этом докладе я хочу рассказать вам историю о современном мониторинге, на примере выбора для моего текущего проекта. Когда нужен prometheus, когда нужен SaaS и почему графит не умрёт. Также я постараюсь пройтись по всем новинкам и важным изменениям в современном мире мониторинга.
Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"Fwdays
- как ошибка выбора идентификатора пользователя, обнаруженная после запуска проекта, чуть не стоила 2 лет разработки
- как мы боролись с перегруженным mysql когда даже включение binlog убивает сервер
- почистил партицию mysql под нагрузкой - получи мертвый сервер
- как верстальщик поменял верстку серча и уложил продукт на 4 часа
- ошибка в ядре php которая привела даунтайм на несколько часов
- как незнание особенностей работы GC у redis обошлось в $50к чистой прибыли
- добавлением или удалением серверов из пула memcached инвалидировали весь кэш (кривые настройки php клиента Memcache/Memcached)
- как поправив тест потерять 2 миллиона пользовательских писем
- как релиз одного проекта крэшил хелсчеки соседнего проекта
- самый большой фейл с системами очередей и статистикой: ивенты терялись годами
Андрей Зайчиков "Архитектура распределенных кластеров NoSQL на AWS"IT Event
Мы рассмотрим важные особенности построения архитектуры распреденных кластеров NoSQL с использованием ресурсов Amazon Web Services, мы затронем такие аспекты как: архитектура гео распределенных кластеров, оптимизация производительности, выбор основных опций для деплоймента и ряд других аспектов. В докладе мы сконцентрируемся на таких популярных базах данных, как Cassandra, MongoDB и некоторых других.
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят.
Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
https://bit.ly/2X6Domb
В нашу эпоху головокружительных достижений в области искусственного интеллекта, облачных вычислений и передовой аналитики, как ни странно, многие организации по-прежнему полагаются на архитектуры данных, построенные в прошлом веке. Однако, ситуация быстро меняется с ростом применения виртуализации данных в реальном времени для обеспечения безопасного, логического доступа к информации. Данный подход позволяет отказаться от физической трансформации и перемещения данных в хранилище, прежде чем они могут быть использованы бизнесом.
Посетите этот новый вебинар на русском языке, чтобы узнать:
- Что такое виртуализация данных?
- Чем данный подход отличается от других корпоративных технологий интеграции данных, таких как ETL
- Почему крупнейшие организации используют виртуализацию в масштабах всего предприятия
Узнайте больше о проблемах интеграции данных, решаемых с помощью виртуализации и вариантах применения этой динамично развивающейся технологии.
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
BigData Dive in Minsk / Altoros conference /
Windows Azure and BigData- autoscale, Linux, HDInsigh.
Options for developers and startups - BizSpark, msdn subscriptions, seed fund
- Как начать развивать систему аналитики в компании, не имея армию data-инженеров.
- Как перейти из состояния «я не понимаю какие квадратики на этой схеме нужны для моих задач» и при этом не уйти в R&D на несколько месяцев.
- Как реализовать потоковую обработку данных на PHP (~40К записей в минуту).
- Какие технические решения применяли в нашем решении и какие факторы учитывали в принятии решений.
Презентация с мероприятия https://habr.com/ru/company/tuturu/blog/426059/
Debugging Microservices - key challenges and techniques - Microservices Odesa...Lohika_Odessa_TechTalks
Microservice architecture is widespread our days. It comes with a lot of benefits and challenges to solve. Main goal of this talk is to go through troubleshooting and debugging in the distributed micro-service world. Topic would cover:
main aspects of the logging,
monitoring,
distributed tracing,
debugging services on the cluster.
About speaker:
Andrеy Kolodnitskiy is Staff engineer in the Lohika and his primary focus is around distributed systems, microservices and JVM based languages.
Majority of time engineers spend debugging and fixing the issues. This talk will be dedicated to best practicies and tools Andrеys team uses on its project which do help to find issues more efficiently.
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят.
Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
https://bit.ly/2X6Domb
В нашу эпоху головокружительных достижений в области искусственного интеллекта, облачных вычислений и передовой аналитики, как ни странно, многие организации по-прежнему полагаются на архитектуры данных, построенные в прошлом веке. Однако, ситуация быстро меняется с ростом применения виртуализации данных в реальном времени для обеспечения безопасного, логического доступа к информации. Данный подход позволяет отказаться от физической трансформации и перемещения данных в хранилище, прежде чем они могут быть использованы бизнесом.
Посетите этот новый вебинар на русском языке, чтобы узнать:
- Что такое виртуализация данных?
- Чем данный подход отличается от других корпоративных технологий интеграции данных, таких как ETL
- Почему крупнейшие организации используют виртуализацию в масштабах всего предприятия
Узнайте больше о проблемах интеграции данных, решаемых с помощью виртуализации и вариантах применения этой динамично развивающейся технологии.
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
BigData Dive in Minsk / Altoros conference /
Windows Azure and BigData- autoscale, Linux, HDInsigh.
Options for developers and startups - BizSpark, msdn subscriptions, seed fund
- Как начать развивать систему аналитики в компании, не имея армию data-инженеров.
- Как перейти из состояния «я не понимаю какие квадратики на этой схеме нужны для моих задач» и при этом не уйти в R&D на несколько месяцев.
- Как реализовать потоковую обработку данных на PHP (~40К записей в минуту).
- Какие технические решения применяли в нашем решении и какие факторы учитывали в принятии решений.
Презентация с мероприятия https://habr.com/ru/company/tuturu/blog/426059/
Debugging Microservices - key challenges and techniques - Microservices Odesa...Lohika_Odessa_TechTalks
Microservice architecture is widespread our days. It comes with a lot of benefits and challenges to solve. Main goal of this talk is to go through troubleshooting and debugging in the distributed micro-service world. Topic would cover:
main aspects of the logging,
monitoring,
distributed tracing,
debugging services on the cluster.
About speaker:
Andrеy Kolodnitskiy is Staff engineer in the Lohika and his primary focus is around distributed systems, microservices and JVM based languages.
Majority of time engineers spend debugging and fixing the issues. This talk will be dedicated to best practicies and tools Andrеys team uses on its project which do help to find issues more efficiently.
Wide adoption of Microservice Architecture presents a whole new set of challenges for us as developers. Some of them are well-known and understood. About others we do not think until they strike us out of the blue and we spend a lot of sleepless nights trying to figure them out. And communication between services in distributed system is one of the latter.
During this Microservice Architecture Odesa #TechTalk we will talk about how to prevent your microservices from becoming a modern-world Tower of Babel. We will discuss how to select appropriate communication mechanisms for most common cases in a distributed system, how should we define API contracts for each of them and what tools are available for us to keep them consistent and evolve them over time.
We will touch following topics:
REST vs RPC vs Messaging and how not to get lost with your options.
Contract First development and how it can save time in multi-team environment.
SwaggerHub as a single Point of truth for REST API
Best practices for gRPC contracts and how to deal with changes in them.
About speaker:
Andrii Barsukov is Senior .NET developer at Lohika, with 5+ years of commercial experience in development of microservice applications. Currently participating in development of microservice-based financial system, which includes 20+ microservices developed by 10 separate development teams. And some of the challenges that we faced during its development I'd like to share.
На JavaScript Odesa #TechTalks мы поговорили о микрофронтендах как о современном архитектурном стиле проектирования для фронтенд разработки, который облегчает поддержку и деплой обновлений для крупных проектов.
Также мы обсудили:
Что такое микрофронтенды?
Как использовать их с старым проектом?
Монорепа vs мультирепа и почему?
О спикере:
Максим Белкин, Senior Software Engineer с 10-летним опытом коммерческой разработки веб-приложений. У Максима большой опыт в создании одностраничных приложений с использованием современных фреймворков и инструментов, а также большой опыт в области серверной разработки и создания REST API. Он также обладает глубокими знаниями в области объектно-ориентированной разработки, алгоритмов, кодирования и шаблонов тестирования и имеет опыт в гибкой разработке программного обеспечения, включая роли SCRUM Master и Team Lead.
There are a lot of things in multi-threading world, which we, as engineers, have to consider while developing applications. During Golang Odesa #TechTalks we will talk about three main problems – data races, race conditions, and deadlocks. Also, we will discuss how to avoid fantom bugs and do not shoot yourself in the foot while developing Golang applications
About speaker:
Oleksandr Karlov is Golang Team Lead at Lohika. Currently, Oleksandr is working on SLO project, which helps engineers to control reliability of their services. Before that he worked on CDN and statistics platform.
Jenkins до сих пор один из лидеров CI/CD продуктов. Поэтому стоит понимать, что он может и как этим правильно пользоваться. К тому же, этот проект всё ещё обновляется и нам желательно следить за новыми возможностями, которые он нам даёт.
В этот раз мы поговорим:
– о Jenkins pipelines and shared libraries
– какими они бывают, как и когда их надо использовать,.
– отличиях scripted и declarative вариантов.
– когда необходимо использовать shared library
– как легко настроить и начать пользоваться Jenkins в Kubernetes с использованием Jenkins configuration as code.
Доклад будет актуален для: DevOps engineers, Configuration managers, Developers who are tired of their jobs and they decided to make some Jenkins)
О спикере: Дмитрий Кулешов – DevOps Engineer с 10-летним опытом работы в области информационных технологий.
Я поделюсь с вами опытом разработки конвейерных скриптов Jenkins для организации процессов непрерывной интеграции и развертывания микросервисов. Акцент будет сделан на применении средств Jenkins для разделяемых библиотек. Я продемонстрирую подходы к созданию модульных, тестируемых и повторно используемых компонентов для сборки и развертывания. Доклад будет полезен каждому, кто так или иначе связан с автоматизацией непрерывной интеграции и развертывания ПО, будь то разработчик или же DevOps
Prometheus: infrastructure and application monitoring in kubernetes clusterLohika_Odessa_TechTalks
Доклад будет интересен тем, кто хочет воспользоваться одним из самых популярных инструментов для мониторинга с минимальными затратами времени и усилий, и без предыдущего опыта внедрения систем мониторинга . Мы рассмотрим конкретный случай внедрения на проекте "с нуля", расширение базового функционала и обсудим возможные "подводные камни" дальнейшей поддержки
Тема доклада «React и его архитектурная периферия»
React - мощнейшая библиотека для создания технических интерфейсов, но порой одного реакта не достаточно для полноценной и гибкой разработки. Мы будем обсуждать и сравнивать разные подходы для разработки современных React приложений.
В программе: React&Redux, React&Meteor, React&Relay, React&MobX, React&PRPL
Congratulations, you have been promoted to a manager role. You`ve got new pro...Lohika_Odessa_TechTalks
“In my presentation I’ll try to list the first steps that you should make on a new project in your new role. Also we will review different types of projects and challenges that you may have. I hope that my experience and suggestions, I’m about to share, will help you dive into management role quickly and painlessly. “
This presentation will be useful for everyone who wants to be a manager, to grow in this direction and who is absolutely sure that one day he or she will be promoted. It might be useful for everyone who has been promoted recently and still feels that he/she doesn’t have enough experience with different projects.
"Don't touch me and give me my money" or how motivate people who can but don...Lohika_Odessa_TechTalks
“The core of every successful project is motivated and professional team, but what can be done when the comfort zone has been reached and nothing makes your team work with the same enthusiasm? In this session, we would like to discuss with you the cause of the syndrome "weary professional“ , why it is bad and which non-standard approaches can be used for solving this problem.
Presentation will be particularly useful for those who are somehow connected with the management staff or aspire to be Team Leaders.
3. Немного истории
• Druid вышел в свет в 2011 году как продукт компании Metamarket
• Исходный текст был открыт в 2012 году под лицензией GPL
• В 2015 году его создатели отделились от Metamarket, организовали
компанию Imply и он перешел под патронат Apache
• В 2019 году в компанию Imply было инвестировано $30M в рамках
этапа финансирования Series B, а сам Druid был оценен в $350M
4. Что такое Apache Druid?
Apache Druid - это колоночная база данных семейства OLAP (On-
Line Analytical Processing). Druid спроектирован с целью быстрой
обработки больших, редко изменяющихся массивов данных и
немедленного предоставления доступа к ним.
Druid чаще всего используется в качестве базы данных для случаев
использования, когда важны:
обработка в режиме реального времени
быстрая обработка запросов
высокая работоспособность и отказоустойчивость
Druid лучше всего работает с данными, ориентированными на события.
6. Apache Druid и САР теорема
CAP теорема:
Consistency - клиент получит консистентные данные или ошибку
Availability - клиент всегда получит результат, хотя бы не консистентный
Partition tolerance - система функционирует, несмотря на потерю сообщений по
сети
A
PС
Druid ?
7. Особенности Apache Druid
Колоночное хранение данных
Мощная параллельная обработка данных
Возможность работы в режиме реального времени или в
пакетном режиме
Облачная отказоустойчивая архитектура
Быстрая фильтрация
Точные и аппроксимированные вычисления
Интеграция с существующими сервисами обработки больших
данных
8. Возможности Apache Druid
Собственная реализация индекса поиска. Реализует обратный
индекс
Колоночное хранение данных
Гибкая схема данных
Разбиение данных в кластере по временной метке. Ускоряет
запросы с временным параметром
Поддержка SQL
Горизонтальное масштабирование
9. Функционирование Apache Druid
Репликация данных
Независимые сервисы
Автоматическое резервирование данных
Инкрементные обновления
10. Типы узлов по ответственности
Мастер:
• Overlord - координирует обработку входных данных
• Coordinator - координирует распределение данных в кластере
Узлы запросов:
• Brokers - обрабатывают запросы чтения данных
• Routers* - единая точка входа для кластера (опционально)
Узлы данных:
• Historicals - хранят данные для запросов
• MiddleManagers - обрабатывают входные данные
11. Сторонние сервисы
• Metastore - хранилище служебной информации. Реляционная БД:
MySQL или PostgreSQL.
• Apache Zookeeper - сервис координации узлов Druid. Еще
используется как Service Discovery и хранилище метаданных.
• Deep Storage - распределенная файловая система для хранения
данных Druid.
18. Типы Datasource
• Table - создающийся при загрузке данных
• Lookup - соответствует объекту lookup (ключ-значение) и
хранится в специальной схеме lookup
• Union - получается на основе объединения нескольких table
Datasource
• Inline - получается на основе данных, встроенных в запрос
• Query - получается на основе вложенного запроса
• Join - объединение разных типов Datasource
20. Структура сегмента
• Timestamp – каждая строка в Друиде обязана содержать поле времени. Данные
оптимально распределяются по кластеру используя это поле. Запросы чтения
тоже могут быть разбиты по временным интервалам: минуты, часы, дни, и т.д.
• Dimensions – колонки, которые хранятся в неизменном виде. Во время запросов
их можно группировать, фильтровать или применять агрегаторы.
Поддерживаемые типы: одиночные строки, массивы строк, Long, Double или
Float
• Metrics – колонки хранимые в агрегированном состоянии. Они вычисляются во
время Свертки (Rollup). Простые агрегирующие функции: count, sum, min, max,
first, last, и т.д. И приближенные (approximate) структуры: Count distinct
(HyperLogLog, Theta Sketch, Cardinality, HyperUnique), Histograms (Fixed Buckets
Histogram, Approximate Histogram), Quantiles (Quantiles Sketch, Moments Sketch).
Соответственно метрики должны быть целыми или с плавающей точкой числами.
25. Применение Apache Druid
Аналитика интернет серфинга (сlickstream web and mobile)
Аналитика сетевой телеметрии (мониторинг
производительности)
Хранилище серверных метрик
Аналитика цепочек поставок (manufacturing metrics)
Метрики приложений
Анализ цифрового маркетинга или рекламы
Различный BI (business intelligence) / OLAP (online analytical
processing)
26. Когда использовать Apache Druid?
• Основная операция - добавление данных. Обновления данных происходят
очень редко
• Основной тип запросов – группировка данных. Также есть поддержка
запросов поиска и сканирования
• Ожидаемое время выполнения запроса от 100 мс до нескольких секунд
• Данные содержат временной компонент
• Каждый запрос делается в пределах одной большой таблицы
• Большое количество уникальных данных (high cardinality), по которым
нужны быстрые запросы
• Данные должны быть загружены с больших файлов или источников
больших данных как Kafka, HDFS, Flink, Amazon S3, Amazon Kinesis и т.д.
29. Apache Druid и САР теорема
CAP теорема:
Consistency - клиент получит консистентные данные или ошибку
Availability - клиент всегда получит результат, хотя бы не консистентный
Partition tolerance - система функционирует, несмотря на потерю сообщений по
сети
A
PС
Druid