Защита датацентров и данных от катастроф на базе технологий Nutanix / Максим ...Ontico
* RTO - Recovery Time Objective - максимальное время, за которое все ваши бизнес-задачи должны полностью быть восстановлены в работоспособное состояние после полной катастрофы ДЦ
RPO - Recovery Point Objective - максимально приемлемый для ваших задач промежуток времени, за который вы готовы потерять данные.
* Стратегии защиты и репликации ДЦ (1 to 1, 1 to many, many to many).
далее см. - http://rootconf.ru/2015/abstracts/1817
Велосипед уже изобретен. Что умеют промышленные СХД? / Антон Жбанков (Nutanix)Ontico
Зачем мы каждый раз изобретаем велосипед, только потому что можем? Корпоративные СХД существуют более 25 лет и умеют очень многое.
Защита данных, качество обслуживания, многоуровневое хранение и кэширование на флэш-памяти. Система хранения данных - это не только гигабайт по минимальной цене, но так же и гарантированная производительность и отказоустойчивость.
Вы узнаете, как можно обеспечить своим данным высокую степень защиты, значительно сократив время реализации проекта. Или, наоборот, убедитесь в том, что СХД корпоративного класса вашему проекту не подходят.
AWS и GCP: трудная жизнь в облаках / Максим Пугачев (IPONWEB)Ontico
Разница между “несколько серверов в облаках” и “вся инфраструктура в облаках“ огромна. С одной стороны, мы перекладываем миллион забот на гигантские плечи Amazon и Google. С другой стороны, к сожалению, обретаем много новых и порой необычных проблем.
Как жить в облаках двух самых популярных провайдеров? Что это за проблемы и как их решать? В чем особенности облаков, если вы живете в мире highload? Как выжимать максимум из того, что предоставляют провайдеры?
Я попытаюсь рассказать о наиболее важных, на мой взгляд, особенностях:
- Почему не стоит полагаться на заявленные характеристики виртуальных машин.
- Почему нет разницы между загрузкой CPU в 85% и 100%.
- Всевозможные аномалии и неожиданные "спайки" в метриках.
- "Облачные" диски и их особенности.
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
Андрей Николаенко, системный архитектор в IBS, выступил на конференции HighLoad++ 2016.
Тезисы
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
Настройка kubernetes: tips and tricks / Михаил Прокопчук (Avito)Ontico
HighLoad++ 2017
Зал «Пекин+Шанхай», 7 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2967.html
Мы в Avito уже более года используем Kubernetes в качестве платформы для микросервисов.
За это время мы столкнулись с рядом проблем, с которыми может столкнуться каждый, кто использует эту платформу.
В докладе поделюсь опытом решения проблем и настройки кластера для обеспечения его эффективной работы (низкий и стабильный latency для сервисов, использование ресурсов CPU, RAM): настройки аппаратного обеспечения (сеть, CPU), ОС, настройки самих инфраструктурных компонентов kubernetes и о том, что и как необходимо мониторить.
Защита датацентров и данных от катастроф на базе технологий Nutanix / Максим ...Ontico
* RTO - Recovery Time Objective - максимальное время, за которое все ваши бизнес-задачи должны полностью быть восстановлены в работоспособное состояние после полной катастрофы ДЦ
RPO - Recovery Point Objective - максимально приемлемый для ваших задач промежуток времени, за который вы готовы потерять данные.
* Стратегии защиты и репликации ДЦ (1 to 1, 1 to many, many to many).
далее см. - http://rootconf.ru/2015/abstracts/1817
Велосипед уже изобретен. Что умеют промышленные СХД? / Антон Жбанков (Nutanix)Ontico
Зачем мы каждый раз изобретаем велосипед, только потому что можем? Корпоративные СХД существуют более 25 лет и умеют очень многое.
Защита данных, качество обслуживания, многоуровневое хранение и кэширование на флэш-памяти. Система хранения данных - это не только гигабайт по минимальной цене, но так же и гарантированная производительность и отказоустойчивость.
Вы узнаете, как можно обеспечить своим данным высокую степень защиты, значительно сократив время реализации проекта. Или, наоборот, убедитесь в том, что СХД корпоративного класса вашему проекту не подходят.
AWS и GCP: трудная жизнь в облаках / Максим Пугачев (IPONWEB)Ontico
Разница между “несколько серверов в облаках” и “вся инфраструктура в облаках“ огромна. С одной стороны, мы перекладываем миллион забот на гигантские плечи Amazon и Google. С другой стороны, к сожалению, обретаем много новых и порой необычных проблем.
Как жить в облаках двух самых популярных провайдеров? Что это за проблемы и как их решать? В чем особенности облаков, если вы живете в мире highload? Как выжимать максимум из того, что предоставляют провайдеры?
Я попытаюсь рассказать о наиболее важных, на мой взгляд, особенностях:
- Почему не стоит полагаться на заявленные характеристики виртуальных машин.
- Почему нет разницы между загрузкой CPU в 85% и 100%.
- Всевозможные аномалии и неожиданные "спайки" в метриках.
- "Облачные" диски и их особенности.
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
Андрей Николаенко, системный архитектор в IBS, выступил на конференции HighLoad++ 2016.
Тезисы
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
Настройка kubernetes: tips and tricks / Михаил Прокопчук (Avito)Ontico
HighLoad++ 2017
Зал «Пекин+Шанхай», 7 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2967.html
Мы в Avito уже более года используем Kubernetes в качестве платформы для микросервисов.
За это время мы столкнулись с рядом проблем, с которыми может столкнуться каждый, кто использует эту платформу.
В докладе поделюсь опытом решения проблем и настройки кластера для обеспечения его эффективной работы (низкий и стабильный latency для сервисов, использование ресурсов CPU, RAM): настройки аппаратного обеспечения (сеть, CPU), ОС, настройки самих инфраструктурных компонентов kubernetes и о том, что и как необходимо мониторить.
Как и зачем создавать NginX-модуль — теория, практика, профит. Часть 2 / Васи...Ontico
HighLoad++ 2017
Зал Дели + Калькутта, 7 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2940.html
Почти год назад я выступил с докладом 'Как и зачем создавать NginX-модуль - теория, практика, профит'. У меня не получилось рассказать обо всех возможностях Nginx и, уверяю вас, в этом докладе у меня это тоже не получится - тема слишком большая!
Сразу перейдем к делу. "Так что нового будет в этом докладе?" - спросите вы. В нем будут ответы на вопросы, на которые я не успел ответить в прошлом году, а именно:
- Как и зачем создавать upstream-модули?
...
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)Ontico
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)Ontico
Сегодня много дискуссий о том, что лучше - MySQL или PostgreSQL? Однако перед тем, как выбирать именно реляционную базу данных для своего проекта, стоит понять, является ли реляционная база данных наилучшим решением для него.
В рамках этого доклада мы сравним наиболее популярную реляционную базу данных с открытым кодом с наиболее популярным хранилищем документов с открытым кодом. Мы определим, в каких случаях эффективнее всего работает MySQL, а в каких - MongoDB. Мы также рассмотрим ситуации, в которых ни одна из этих баз данных не будет лучшим решением и в которых целесообразно остановить свой выбор на других технологиях.
Вебинар «EMC VNX: преображение во флеш» http://www.croc.ru/action/detail/23755/
Презентация Александра Овчинникова, эксперта группы внедрения и эксплуатации СХД компании КРОК
HDD, SSD, RAM, RAID, и кого на ком кэшировать / Михаил Конюхов (Perfect Solut...Ontico
Рассуждение, опыт, практика и примеры на тему производительности ввода-вывода.
Мы будем сравнивать "дефолтное" поведение SSD и HDD, сравним "недефолтное" поведение после тюнинга HDD. Я расскажу о плюсах и минусах в надежности HDD и SSD, о проблемах восстановления SSD и HDD после сбоев. Многие моменты будут посвящены кэшированию ввода-вывода, что очень помогает в реальных проектах.
Отдельная тема - оптимизация ФС и сервера для снижения количества операций ввода-вывода (IOPS), попробую оценить, что можно сделать с каким-нибудь проектом-примером.
Будут показаны и рассказаны реальные примеры из моего опыта оптимизации IO, я даже нарисую "карту принятия решения" для выбора накопителей для Вашего проекта.
Защита данных и датацентров от катастроф. Подход Nutanix / Максим Шапошников ...Ontico
+ Защита данных — это не "одна кнопка", нет годного любому единого решения. Задача всегда диктует выбор средств и решений.
+ RTO — Recovery Time Objective — максимальное время, за которое все ваши бизнес-задачи должны полностью быть восстановлены в работоспособное состояние после полной катастрофы ДЦ.
+ RPO — Recovery Point Objective — максимально приемлемый для ваших задач промежуток времени, за который вы готовы потерять данные.
+ Защита на уровне приложений. Приложение лучше всех знает, как защищать и реплицировать свои данные.
+ Асинхронная репликация — наилучший выход с точки зрения производительности, единственно возможный вариант в случае значительного географического разнесения дата-центров (сотни и более километров). Работает на уровне виртуальных машин.
+ Метро / "растянутые" кластеры и синхронная репликация — нулевой RPO, минимальный RTO, большие потери производительности и множество ограничений. Но иногда — единственный выход, если уровень приложения не умеет реплицировать данные.
+ Лучший подход — комбинация из репликации на уровне приложений, асинхронной и синхронной репликации средствами хранилища.
+ Что есть у Nutanix для решения подобных задач: DR (Async replication), Metro availability cluster, Timestream Backup.
+ Реализация решения с использованием Nutanix на примере FBI: крупнейший VDI в США. Защищенная, mission-critical инфраструктура на 70 тысяч виртуальных десктопов. Асинхронная репликация дата-центров на 1500 миль, защита данных от катастроф.
SAM за 7 шагов. Рецепт для небольших компанийValery Bychkov
21 июня в сообществе Смартсорсинг прошел вебинар «SAM за 7 шагов. Рецепт для небольших компаний» на котором Дмитрий Исайченко (Cleverics), рассказал о том, как организовать процесс управления активами ПО в небольшой компании. Весь вебинар – рассказ о том, как в компании Cleverics решали задачи учёта ПО, инвентаризации, управления лицензионными соглашениями и т.д. Так что, никаких абстрактных теорий и рекомендаций – только практический опыт.
Контейнеры в OpenStack: простое решение сложных проблемYandex
В настоящее время в OpenStack есть хорошая поддержка гипервизорной виртуализации, но пока нет работающего решения для использования контейнеров. Я расскажу, почему так получилось, сравню гипервизорную и контейнерную технологии в контексте OpenStack и рассмотрю, насколько проще будет выполнять некоторые операции в OpenStack при использовании контейнеров, а также какие новые возможности появятся в OpenStack при использовании этого типа виртуализации.
Современные флэш-технологии – от концепции к преимуществам использования // А...IBS
Конференция "InterLab Forum. Системная интеграция нового поколения" прошла в октябре 2015 года. В центре внимания форума были новые решения в области ИТ-инфраструктуры и информационной безопасности, недавно появившиеся на российском рынке и прошедшие апробацию в IBS.
Подробности: http://www.ibs.ru
Как мы готовим MySQL / Николай Королёв (Badoo)Ontico
* Исторический экскурс, введение понятия спота, принцип функционального деления баз на группы (споты / не споты), шардирование как способ масштабирования спотов.
* Возникновение второго датацентра на другом континенте, создание самодельной репликации, позволяющей работать по схеме много -> много, краткая схема (структура спотов, схема репликации, служебные базы - очереди, репликация, мониторинг), плюсы и минусы этого решения, инструменты диагностики.
* Альтеры шадрированых спотов - первый вариант утилиты для этой задачи: схема его работы и возникшие проблемы; вторая версия утилиты - улучшения, а также, что осталось неисправленным.
* “Температура” спота, трудности её определения, проблемы, возникающие из-за его “перегрева”, наш способ решения и возникновение проекта “кладбище”.
* Деплой и около - почему мы используем MySQL в chroot, как мы его собираем и как деплоим.
* Бэкапы спотовых данных - первоначальное решение (ленточные хранилища), работа над ошибками, текущая схема.
* Query sampling: проект Minba.
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...Ontico
В докладе поделимся опытом построения комплексного процесса последовательного улучшения производительности информационных систем мобильного оператора, расскажем об используемых инструментах и компонентах (Oracle, Tarantool, Java, Jmeter и т.д.).
Особенность нашего оператора в том, что основной канал взаимодействия с клиентом - это мобильное приложение или web Личный кабинет, а не USSD команды и СМС, как у основной массы операторов. Данная особенность создает высокие требования к времени отклика и доступности сервисов и ставит перед нами целый ряд вопросов:
- Как достичь приемлемого времени отрисовки страниц (не более 2х секунд) и не "уронить" backend при увеличении кол-ва абонентов в несколько раз за год до 4х миллионов?
- Как обеспечить приемлемую производительность при наличии сложных оркестрирующих процессов на ESB и достаточно медленного, основанного на Oracle биллинга?
- Как контролировать и улучшать производительность и доступность постоянно и на упреждение, а не когда "жареный петух клюнет"?
Мы расскажем о том, как мы отвечаем на выше обозначенные вопросы. В частности, расскажем о внедрении двух БД - inmemory БД на чтение и Oracle на запись с соответствующей синхронизацией, о технике кэширования на нескольких уровнях, оптимизации синхронных и асинхронных процессов, о постоянном выявлении узких мест на тестировании, о кластеризации и других аспектах улучшения общей и частной производительности и доступности при быстро растущей абонентской базе и беспощадной креативности бизнеса.
За счет чего Tarantool такой оптимальный / Денис Аникин (Mail.Ru)Ontico
Многие из вас, наверное, видели результаты тестов сравнения Tarantool с остальными СУБД, которые показывают, что Tarantool быстрее всех, оптимальней по памяти, обрабатывает наибольшее количество транзакций в секунду.
И, несмотря на то, что исходные коды всех тестов полностью открыты и хорошо откомментированы, позволяя всем желающим повторить тесты, все равно остаются вопросы - за счет чего Tarantool такой быстрый и оптимальный?
Я решил суммировать мои ответы на эти вопросы в докладе на Highload++.
Итак, почему Tarantool такой быстрый?
Краткий ответ: потому что он с самого начала разрабатывался и до сих пор разрабатывается во главе угла с производительностью/оптимальностью/минимальным потреблением всех ресурсов системы.
Более полный ответ я раскрою в своем выступлении. Приходите, будет интересно! :)
Сегментируем 600 млн. пользователей в режиме реального времени каждый день. H...Ontico
Каждый день пользователи совершают миллионы действий в Интернете. Нам в FACETz DMP необходимо структурировать эти данные и проводить сегментацию для выявления предпочтений пользователей.
Хочу рассказать, как мы:
- Сегментируем в реальном времени 600 миллионов пользователей ежедневно;
- Поставляем данные партнерам, DSP, Google с минимальной задержкой;
- Храним статистику по количеству уникальных пользователей в сегменте при потоковой обработке;
- Отслеживаем влияние изменения параметров сегментации;
- Ведем подсчет аффинитивности домена к сегменту для аналитики аудиторий.
Chronicle Map — key-value хранилище для трейдинга на Java / Левентов Роман (C...Ontico
Сфера финансовых приложений и трейдинга выдвигает особые требования к системам обработки данных: ультракороткие задержки, конкурентные обновления (в т.ч. из разных процессов), репликация высокочастотных обновлений.
Существовавшие открытые key-value хранилища не справлялись, поэтому мы сделали свое — Chronicle Map.
В докладе я отвечу на вопросы:
+ Почему бывает эффективнее разбить систему, работающую с общим состоянием, на несколько отдельных процессов?
+ Зачем вам может захотеться распилить JVM на несколько частей?
+ Как добиться от key-value хранилища медианной latency меньше 1 микросекунды?
+ Как сделать репликацию, если она упирается в пропускную способность сети из-за слишком частых обновлений?
Развею миф о том, что Java — это медленно :)
Также, в докладе будет сравнение Chronicle Map с redis, one-nio и ConcurrentHashMap.
Nutanix - IT инфраструктура ЦОД нового поколенияKonstantin Vanin
NUTANIX предоставляет технологии для создания прозрачных корпоративных IT инфраструктур нового поколения, путем объединения функций обработки, хранения данных и виртуализации в готовое "под ключ" гиперконвергентное решение на базе процессоров x86, объединенных в горизонтально-масштабируемые кластера. За счет этого значительно сокращается потребление электроэнергии и места в ЦОД-ах, нивелируются проблемы традиционных подходов к хранению данных. Наиболее передовые дата-центры в мире полагаются на веб-масштабируемые облачные технологии Nutanix для поддержки своих критически важных приложений любого масштаба и уровня сложности.
Объединяя функции хранения и виртуализации в едином решении, устраняется зависимость от устаревших "раздутых" гипервизоров, обеспечивается прозрачность виртуализации. Спроектированный для работы поверх распределенной, интеллектуальной, ориентированной на виртуализацию технологии хранения данных, встроенный бесплатный гипервизор ACROPOLIS обеспечивает быструю, стабильную, безопасную виртуализацию, а интегрированная платформа управления PRISM обеспечивает реальное управление инфраструктурой "одним щелчком", включая аналитику и автоматическое устранение сбоев.
Бизнес-преимущества
Снижение капитальных и эксплуатационных расходов на 40-60%.
Безграничное и предсказуемое масштабирование инфраструктуры.
Ввод в эксплуатацию при покупке, развертывании и управлении происходит в 8 раз быстрее.
Снижение энергопотребления, охлаждения и уменьшение места в серверной стойке с форм-фактором 2U до 90%.
Исследования IDC
Возврат 510% инвестиций за 5 лет ROI, Экономия до 58% за 5 лет на совокупной стоимости в�
Arista Networks - Открытая коммутационная платформа Konstantin Vanin
Arista Networks - надежный, отказоустойчивый коммутатор с высокой производительностью и низкой задержкой коммутации. Оборудование Arista оптимизировано для работы в ЦОД и серверных сегментах предприятий.
При этом коммутаторы Arista представляют собой гибкую платформу и легко адаптируются под изменение требований бизнеса. Автоматизация рутинных операций и интеграция с существующими системами управления экономят ресурсы и средства компании, а также позволяют быстрее реагировать на возникновение проблем в ИТ инфраструктуре и исправлять эти проблемы максимально быстро и эффективно.
Arista Networks Recognized by Gartner as a Leader in its 2016 Magic Quadrant for Data Center Networking
Как и зачем создавать NginX-модуль — теория, практика, профит. Часть 2 / Васи...Ontico
HighLoad++ 2017
Зал Дели + Калькутта, 7 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2940.html
Почти год назад я выступил с докладом 'Как и зачем создавать NginX-модуль - теория, практика, профит'. У меня не получилось рассказать обо всех возможностях Nginx и, уверяю вас, в этом докладе у меня это тоже не получится - тема слишком большая!
Сразу перейдем к делу. "Так что нового будет в этом докладе?" - спросите вы. В нем будут ответы на вопросы, на которые я не успел ответить в прошлом году, а именно:
- Как и зачем создавать upstream-модули?
...
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)Ontico
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)Ontico
Сегодня много дискуссий о том, что лучше - MySQL или PostgreSQL? Однако перед тем, как выбирать именно реляционную базу данных для своего проекта, стоит понять, является ли реляционная база данных наилучшим решением для него.
В рамках этого доклада мы сравним наиболее популярную реляционную базу данных с открытым кодом с наиболее популярным хранилищем документов с открытым кодом. Мы определим, в каких случаях эффективнее всего работает MySQL, а в каких - MongoDB. Мы также рассмотрим ситуации, в которых ни одна из этих баз данных не будет лучшим решением и в которых целесообразно остановить свой выбор на других технологиях.
Вебинар «EMC VNX: преображение во флеш» http://www.croc.ru/action/detail/23755/
Презентация Александра Овчинникова, эксперта группы внедрения и эксплуатации СХД компании КРОК
HDD, SSD, RAM, RAID, и кого на ком кэшировать / Михаил Конюхов (Perfect Solut...Ontico
Рассуждение, опыт, практика и примеры на тему производительности ввода-вывода.
Мы будем сравнивать "дефолтное" поведение SSD и HDD, сравним "недефолтное" поведение после тюнинга HDD. Я расскажу о плюсах и минусах в надежности HDD и SSD, о проблемах восстановления SSD и HDD после сбоев. Многие моменты будут посвящены кэшированию ввода-вывода, что очень помогает в реальных проектах.
Отдельная тема - оптимизация ФС и сервера для снижения количества операций ввода-вывода (IOPS), попробую оценить, что можно сделать с каким-нибудь проектом-примером.
Будут показаны и рассказаны реальные примеры из моего опыта оптимизации IO, я даже нарисую "карту принятия решения" для выбора накопителей для Вашего проекта.
Защита данных и датацентров от катастроф. Подход Nutanix / Максим Шапошников ...Ontico
+ Защита данных — это не "одна кнопка", нет годного любому единого решения. Задача всегда диктует выбор средств и решений.
+ RTO — Recovery Time Objective — максимальное время, за которое все ваши бизнес-задачи должны полностью быть восстановлены в работоспособное состояние после полной катастрофы ДЦ.
+ RPO — Recovery Point Objective — максимально приемлемый для ваших задач промежуток времени, за который вы готовы потерять данные.
+ Защита на уровне приложений. Приложение лучше всех знает, как защищать и реплицировать свои данные.
+ Асинхронная репликация — наилучший выход с точки зрения производительности, единственно возможный вариант в случае значительного географического разнесения дата-центров (сотни и более километров). Работает на уровне виртуальных машин.
+ Метро / "растянутые" кластеры и синхронная репликация — нулевой RPO, минимальный RTO, большие потери производительности и множество ограничений. Но иногда — единственный выход, если уровень приложения не умеет реплицировать данные.
+ Лучший подход — комбинация из репликации на уровне приложений, асинхронной и синхронной репликации средствами хранилища.
+ Что есть у Nutanix для решения подобных задач: DR (Async replication), Metro availability cluster, Timestream Backup.
+ Реализация решения с использованием Nutanix на примере FBI: крупнейший VDI в США. Защищенная, mission-critical инфраструктура на 70 тысяч виртуальных десктопов. Асинхронная репликация дата-центров на 1500 миль, защита данных от катастроф.
SAM за 7 шагов. Рецепт для небольших компанийValery Bychkov
21 июня в сообществе Смартсорсинг прошел вебинар «SAM за 7 шагов. Рецепт для небольших компаний» на котором Дмитрий Исайченко (Cleverics), рассказал о том, как организовать процесс управления активами ПО в небольшой компании. Весь вебинар – рассказ о том, как в компании Cleverics решали задачи учёта ПО, инвентаризации, управления лицензионными соглашениями и т.д. Так что, никаких абстрактных теорий и рекомендаций – только практический опыт.
Контейнеры в OpenStack: простое решение сложных проблемYandex
В настоящее время в OpenStack есть хорошая поддержка гипервизорной виртуализации, но пока нет работающего решения для использования контейнеров. Я расскажу, почему так получилось, сравню гипервизорную и контейнерную технологии в контексте OpenStack и рассмотрю, насколько проще будет выполнять некоторые операции в OpenStack при использовании контейнеров, а также какие новые возможности появятся в OpenStack при использовании этого типа виртуализации.
Современные флэш-технологии – от концепции к преимуществам использования // А...IBS
Конференция "InterLab Forum. Системная интеграция нового поколения" прошла в октябре 2015 года. В центре внимания форума были новые решения в области ИТ-инфраструктуры и информационной безопасности, недавно появившиеся на российском рынке и прошедшие апробацию в IBS.
Подробности: http://www.ibs.ru
Как мы готовим MySQL / Николай Королёв (Badoo)Ontico
* Исторический экскурс, введение понятия спота, принцип функционального деления баз на группы (споты / не споты), шардирование как способ масштабирования спотов.
* Возникновение второго датацентра на другом континенте, создание самодельной репликации, позволяющей работать по схеме много -> много, краткая схема (структура спотов, схема репликации, служебные базы - очереди, репликация, мониторинг), плюсы и минусы этого решения, инструменты диагностики.
* Альтеры шадрированых спотов - первый вариант утилиты для этой задачи: схема его работы и возникшие проблемы; вторая версия утилиты - улучшения, а также, что осталось неисправленным.
* “Температура” спота, трудности её определения, проблемы, возникающие из-за его “перегрева”, наш способ решения и возникновение проекта “кладбище”.
* Деплой и около - почему мы используем MySQL в chroot, как мы его собираем и как деплоим.
* Бэкапы спотовых данных - первоначальное решение (ленточные хранилища), работа над ошибками, текущая схема.
* Query sampling: проект Minba.
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...Ontico
В докладе поделимся опытом построения комплексного процесса последовательного улучшения производительности информационных систем мобильного оператора, расскажем об используемых инструментах и компонентах (Oracle, Tarantool, Java, Jmeter и т.д.).
Особенность нашего оператора в том, что основной канал взаимодействия с клиентом - это мобильное приложение или web Личный кабинет, а не USSD команды и СМС, как у основной массы операторов. Данная особенность создает высокие требования к времени отклика и доступности сервисов и ставит перед нами целый ряд вопросов:
- Как достичь приемлемого времени отрисовки страниц (не более 2х секунд) и не "уронить" backend при увеличении кол-ва абонентов в несколько раз за год до 4х миллионов?
- Как обеспечить приемлемую производительность при наличии сложных оркестрирующих процессов на ESB и достаточно медленного, основанного на Oracle биллинга?
- Как контролировать и улучшать производительность и доступность постоянно и на упреждение, а не когда "жареный петух клюнет"?
Мы расскажем о том, как мы отвечаем на выше обозначенные вопросы. В частности, расскажем о внедрении двух БД - inmemory БД на чтение и Oracle на запись с соответствующей синхронизацией, о технике кэширования на нескольких уровнях, оптимизации синхронных и асинхронных процессов, о постоянном выявлении узких мест на тестировании, о кластеризации и других аспектах улучшения общей и частной производительности и доступности при быстро растущей абонентской базе и беспощадной креативности бизнеса.
За счет чего Tarantool такой оптимальный / Денис Аникин (Mail.Ru)Ontico
Многие из вас, наверное, видели результаты тестов сравнения Tarantool с остальными СУБД, которые показывают, что Tarantool быстрее всех, оптимальней по памяти, обрабатывает наибольшее количество транзакций в секунду.
И, несмотря на то, что исходные коды всех тестов полностью открыты и хорошо откомментированы, позволяя всем желающим повторить тесты, все равно остаются вопросы - за счет чего Tarantool такой быстрый и оптимальный?
Я решил суммировать мои ответы на эти вопросы в докладе на Highload++.
Итак, почему Tarantool такой быстрый?
Краткий ответ: потому что он с самого начала разрабатывался и до сих пор разрабатывается во главе угла с производительностью/оптимальностью/минимальным потреблением всех ресурсов системы.
Более полный ответ я раскрою в своем выступлении. Приходите, будет интересно! :)
Сегментируем 600 млн. пользователей в режиме реального времени каждый день. H...Ontico
Каждый день пользователи совершают миллионы действий в Интернете. Нам в FACETz DMP необходимо структурировать эти данные и проводить сегментацию для выявления предпочтений пользователей.
Хочу рассказать, как мы:
- Сегментируем в реальном времени 600 миллионов пользователей ежедневно;
- Поставляем данные партнерам, DSP, Google с минимальной задержкой;
- Храним статистику по количеству уникальных пользователей в сегменте при потоковой обработке;
- Отслеживаем влияние изменения параметров сегментации;
- Ведем подсчет аффинитивности домена к сегменту для аналитики аудиторий.
Chronicle Map — key-value хранилище для трейдинга на Java / Левентов Роман (C...Ontico
Сфера финансовых приложений и трейдинга выдвигает особые требования к системам обработки данных: ультракороткие задержки, конкурентные обновления (в т.ч. из разных процессов), репликация высокочастотных обновлений.
Существовавшие открытые key-value хранилища не справлялись, поэтому мы сделали свое — Chronicle Map.
В докладе я отвечу на вопросы:
+ Почему бывает эффективнее разбить систему, работающую с общим состоянием, на несколько отдельных процессов?
+ Зачем вам может захотеться распилить JVM на несколько частей?
+ Как добиться от key-value хранилища медианной latency меньше 1 микросекунды?
+ Как сделать репликацию, если она упирается в пропускную способность сети из-за слишком частых обновлений?
Развею миф о том, что Java — это медленно :)
Также, в докладе будет сравнение Chronicle Map с redis, one-nio и ConcurrentHashMap.
Nutanix - IT инфраструктура ЦОД нового поколенияKonstantin Vanin
NUTANIX предоставляет технологии для создания прозрачных корпоративных IT инфраструктур нового поколения, путем объединения функций обработки, хранения данных и виртуализации в готовое "под ключ" гиперконвергентное решение на базе процессоров x86, объединенных в горизонтально-масштабируемые кластера. За счет этого значительно сокращается потребление электроэнергии и места в ЦОД-ах, нивелируются проблемы традиционных подходов к хранению данных. Наиболее передовые дата-центры в мире полагаются на веб-масштабируемые облачные технологии Nutanix для поддержки своих критически важных приложений любого масштаба и уровня сложности.
Объединяя функции хранения и виртуализации в едином решении, устраняется зависимость от устаревших "раздутых" гипервизоров, обеспечивается прозрачность виртуализации. Спроектированный для работы поверх распределенной, интеллектуальной, ориентированной на виртуализацию технологии хранения данных, встроенный бесплатный гипервизор ACROPOLIS обеспечивает быструю, стабильную, безопасную виртуализацию, а интегрированная платформа управления PRISM обеспечивает реальное управление инфраструктурой "одним щелчком", включая аналитику и автоматическое устранение сбоев.
Бизнес-преимущества
Снижение капитальных и эксплуатационных расходов на 40-60%.
Безграничное и предсказуемое масштабирование инфраструктуры.
Ввод в эксплуатацию при покупке, развертывании и управлении происходит в 8 раз быстрее.
Снижение энергопотребления, охлаждения и уменьшение места в серверной стойке с форм-фактором 2U до 90%.
Исследования IDC
Возврат 510% инвестиций за 5 лет ROI, Экономия до 58% за 5 лет на совокупной стоимости в�
Arista Networks - Открытая коммутационная платформа Konstantin Vanin
Arista Networks - надежный, отказоустойчивый коммутатор с высокой производительностью и низкой задержкой коммутации. Оборудование Arista оптимизировано для работы в ЦОД и серверных сегментах предприятий.
При этом коммутаторы Arista представляют собой гибкую платформу и легко адаптируются под изменение требований бизнеса. Автоматизация рутинных операций и интеграция с существующими системами управления экономят ресурсы и средства компании, а также позволяют быстрее реагировать на возникновение проблем в ИТ инфраструктуре и исправлять эти проблемы максимально быстро и эффективно.
Arista Networks Recognized by Gartner as a Leader in its 2016 Magic Quadrant for Data Center Networking
The document discusses the role of hyperconvergence and web-scale technologies in the enterprise datacenter. It provides an overview of Nutanix as a leader in the hyperconverged market with over 1750 customers worldwide. Nutanix offers a web-scale architecture that converges compute and storage resources to eliminate traditional SAN/NAS storage arrays and deliver linear scalability. The document also outlines some of Nutanix's key products and solutions like Prism management and Acropolis hypervisor that help make infrastructure invisible and allow customers to focus on applications.
Ceph is an open-source distributed storage system that provides object storage, block storage, and file storage functionality. It uses a technique called CRUSH to automatically distribute data across clusters of commodity servers and provide fault tolerance. Ceph block storage (RBD) can be used as reliable virtual disk images for virtual machines and containers, enabling features like live migration. RBD integration is currently being improved for better performance and compatibility with virtualization platforms like Xen and OpenStack.
Ceph является одной из мнообещающих архитектур для построения облачных хранилищ данных. В презентации приведены основные возможности, описана архитектура, дан краткий обзор команд CLI
Nutanix - Web-Scale IT, Web-scale IT is a new approach to designing, deploying and managing infrastructure
Find out more: www.unitiv.com/nutanix
What Nutanix does is bring the simplicity, agility and rapid scale that web-scale technologies deliver but as a turnkey enterprise solution. Nutanix is building the bridge for enterprise IT to embrace web-scale IT without completely overhauling the way they do things
At its core, web-scale IT is about bringing simplicity back to every aspect of deploying and managing a data center.
Готовые решения Cisco для построения «частного облака»Cisco Russia
Что делать с рутинными операциями над инфраструктурой ЦОД, которые администраторам инфраструктуры приходится выполнять чаще чем один раз в три месяца? Ответ простой – автоматизировать при помощи IaaS-платформы. Что делать с такими же рутинными операциями, которые администраторы приложений вынуждены в свою очередь снова и снова повторять на элементах инфраструктуры, подготовленных с нуля их коллегами "инфраструктурщиками"? Ответ такой же простой – автоматизировать при помощи PaaS платформы. В презентации речь пойдет о готовом решении Cisco, которое позволяет реализовать IaaS и PaaS сценарии автоматизации при помощи продуктов Cisco UCS Director (UCS-D) и Cisco Prime Service Catalog (PSC). Изюминкой готового решения является механизм изящной и бесшовной интеграции между IaaS (UCS-D) и PaaS (PSC) платформами Cisco, которая драматически упрощает процесс развертывания и сокращает затраты на внедрение и адаптацию.
Эволюция High availability: Windows Server 2016 Failover ClusteringYuriy Denisov
Вспомним, как все начиналось и развивалось
Посмотрим, что появилось нового и изменилось
Узнаем, как обновиться, да так, чтобы без простоя
И немножко про то, чем многие не пользуются: Cluster-Aware Updating
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...Tanya Denisyuk
"Контейнеры могут динамически появляться и исчезать, являются легковесными, не резервируют все необходимые ресурсы при старте, потому их оркестрация дается не простой ценой. Каждый из виртуальных контейнеров в один момент времени может потребовать максимум доступных ему ресурсов и это может привести к тому, что закончатся все ресурсы на физическом сервере, на котором они размещаются. В докладе мы поговорим о механизме, который решает эту непростую задачу, и умеет проводить непрерывную балансировку нагрузки, перемещать контейнеры с одного физического сервера на другие для проведения технических работ без простоя приложений - умная живая миграция (Smart Live Migration).
Многие считают, что контейнеры не подходят для хранения важных данных, т.к. в любой момент они могут упасть и все данные пропадут навсегда. Мы расскажем как этого избежать с помощью технологии Software-defined-storage."
Similar to Nutanix Acropolis - облако на базе KVM под ключ, Максим Шапошников (Nutanix) (20)
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2964.html
Одноклассники состоят из более чем восьми тысяч железных серверов, расположенных в нескольких дата-центрах. Каждая из этих машин была специализированной под конкретную задачу - как для обеспечения изоляции отказов, так и для обеспечения автоматизированного управления инфраструктурой.
...
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/3032.html
Протокол DNS на семь лет старше, чем Всемирная паутина. Стандарты RFC 882 и 883, определяющие основную функциональность системы доменных имён, появились в конце 1983 года, а первая реализация последовала уже годом позже. Естественно, что у технологии столь старой и при этом по сей день активнейшим образом используемой просто не могли не накопиться особенности, неочевидные обыкновенным пользователям.
...
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/3010.html
В этом докладе я расскажу, как BigData-платформа помогает трансформировать Почту России, как мы управляем построением и развитием платформы. Расскажу про найденные удачные решения, например, как разбиение на продукты с понятными SLA и интерфейсами между ними помогло нам сохранять управляемость с ростом масштабов проекта.
...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 10:00
Тезисы:
http://www.highload.ru/2017/abstracts/2914.html
Казалось бы, что нужно для организации тестового окружения? Тестовая железка и копия боевого окружения - и тестовый сервер готов. Но как быть, когда проект сложный? А когда большой? А если нужно тестировать одновременно много версий? А если все это вместе?
Организация тестирования большого развивающегося проекта, где одновременно в разработке и тестировании около полусотни фич - достаточно непростая задача. Ситуация обычно осложняется тем, что иногда есть желание потрогать еще не полностью готовый функционал. В таких ситуациях часто возникает вопрос: "А куда это можно накатить и где покликать?"
...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2854.html
Из этого доклада вы узнаете о возможностях репликации и автофейловера PostgreSQL, в том числе о возможностях, ставших доступных в PostgreSQL 10.
Среди прочих, будет затронуты следующие темы:
* Виды репликации и решаемые с ее помощью проблемы.
* Настройка потоковой репликации.
* Настройка логической репликации.
* Настройка автофейловера / HA средствами Stolon и Consul.
После прослушивания доклада вы сможете самостоятельно настраивать репликацию и автофейловер PostgreSQL.
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 17:00
Тезисы:
http://www.highload.ru/2017/abstracts/3096.html
PostgreSQL is the world’s most advanced open source database. Indeed! With around 270 configuration parameters in postgresql.conf, plus all the knobs in pg_hba.conf, it is definitely ADVANCED!
How many parameters do you tune? 1? 8? 32? Anyone ever tuned more than 64?
No tuning means below par performance. But how to start? Which parameters to tune? What are the appropriate values? Is there a tool --not just an editor like vim or emacs-- to help users manage the 700-line postgresql.conf file?
Join this talk to understand the performance advantages of appropriately tuning your postgresql.conf file, showcase a new free tool to make PostgreSQL configuration possible for HUMANS, and learn the best practices for tuning several relevant postgresql.conf parameters.
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/3115.html
During this session we will cover the last development in ProxySQL to support regular expressions (RE2 and PCRE) and how we can use this strong technique in correlation with ProxySQL's query rules to anonymize live data quickly and transparently. We will explain the mechanism and how to generate these rules quickly. We show live demo with all challenges we got from the Community and we finish the session by an interactive brainstorm testing queries from the audience.
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2957.html
Расскажем о нашем опыте разработки модуля межсетевого экрана для MySQL с использованием генератора парсеров ANTLR и языка Kotlin.
Подробно рассмотрим следующие вопросы:
— когда и почему целесообразно использовать ANTLR;
— особенности разработки ANTLR-грамматики для MySQL;
— сравнение производительности рантаймов для ANTLR в рамках задачи синтаксического анализа MySQL (C#, Java, Kotlin, Go, Python, PyPy, C++);
— вспомогательные DSL;
— микросервисная архитектура модуля экранирования SQL;
— полученные результаты.
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/3114.html
ProxySQL aims to be the most powerful proxy in the MySQL ecosystem. It is protocol-aware and able to provide high availability (HA) and high performance with no changes in the application, using several built-in features and integration with clustering software. During this session we will quickly introduce its main features, so to better understand how it works. We will then describe multiple use case scenarios in which ProxySQL empowers large MySQL installations to provide HA with zero downtime, read/write split, query rewrite, sharding, query caching, and multiplexing using SSL across data centers.
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/2954.html
MySQL Replication is powerful and has added a lot of advanced features through the years. In this presentation we will look into replication technology in MySQL 5.7 and variants focusing on advanced features, what do they mean, when to use them and when not, Including.
When should you use STATEMENT, ROW or MIXED binary log format?
What is GTID in MySQL and MariaDB and why do you want to use them?
What is semi-sync replication and how is it different from lossless semi-sync?
...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/3120.html
Количество разработчиков мобильных приложений Сбербанк Онлайн с начала 2016 года выросло на порядок. Для того чтобы продолжать выпускать качественный продукт, мы кардинально перестраиваем процесс разработки.
Количество внутренних заказчиков тех или иных доработок в какой-то момент выросло настолько, что разработчики стали узким местом. Мы внедрили культуру разработки, которую можно условно назвать "внутренним open-source", сохранив за собой контроль над архитектурой и качеством проекта, но позволив разрабатывать новые фичи всем желающим.
...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2836.html
При использовании Eventually Consistent распределенных баз данных нет гарантий, что чтение возвращает результаты последних изменений данных, если чтение и запись производятся на разных узлах. Это ограничивает пропускную способность системы. Поддержка свойства Causal Consistency снимает это ограничение, что позволяет улучшить масштабируемость, не требуя изменений в коде приложения.
...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/2858.html
Аудитория Одноклассников превышает 73 миллиона человек в России, СНГ и странах дальнего зарубежья. При этом ОК.ru - первая социальная сеть по просмотрам видео в рунете и крупнейшая сервисная платформа.
Качественный и количественный рост DDoS-атак за последние годы превращает их в одну из первоочередных проблем для крупнейших интернет-ресурсов. В зависимости от вектора атаки “узким” местом становится та или иная часть инфраструктуры. В частности, при SYN-flood первый удар приходится на систему балансировки трафика. От ее производительности зависит успех в противостоянии атаке.
...
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/3008.html
Никогда не было и вот снова случилось! Компания Google в результате перенаправления трафика сделала недостпуными в Японии несколько тысяч различных сервисов, большинство из которых никак не связано с самой компанией Google. Однако, подобные инциденты происходят с завидной регулярностью, вот только не всегда попадают в большие СМИ. У таких инцидентов могут быть разные причины, начиная от ошибок сетевых инженеров и заканчивая государственным регулированием.
...
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/2925.html
Облака и виртуализация – современные тренды развития IT-технологий. Операторы связи строят свои TelcoClouds на стандартах NFV (Network Functions Virtualization) и SDN (Software-Defined Networking). В докладе начнем с основ виртуализации, далее разберемся, для чего используются NFV и SDN, потом полетим к облакам и вернемся на землю для решения практических задач!
...
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 10:00
Тезисы:
http://www.highload.ru/2017/abstracts/3045.html
Как мы заставили Druid работать в Одноклассниках.
«Druid is a high-performance, column-oriented, distributed data store» http://druid.io.
Мы расскажем о том, как, внедрив Druid, мы справились с ситуацией, когда MSSQL-based система статистики на 50 терабайт стала:
- медленной: средняя скорость ответа была в разы меньше требуемой (и увеличилась в 20 раз);
- нестабильной: в час пик статистика отставала до получаса (теперь ничего не отстает);
- дорогой: изменилась политика лицензирования Microsoft, расходы на лицензии могли составить миллионы долларов.
...
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2905.html
Прошло более года с того момента, как Microsoft выпустила первую версию своего нового фреймворка для разработки web-приложений ASP.NET Core, и с каждым днем он находит все больше поклонников. ASP.NET Core базируется на платформе .NET Core, кроссплатформенной версии платформы .NET c открытым исходным кодом. Теперь у С#-разработчиков появилась возможность использовать Mac в качестве среды разработки, и запускать приложения на Linux или внутри Docker-контейнеров.
...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/2913.html
Изначально будут раскрыты базовые причины, которые заставили появиться такой части механизма СУБД, как кэш результатов, и почему в ряде СУБД он есть или отсутствует.
Будут рассмотрены различные варианты кэширования результатов как sql-запросов, так и результатов хранимой в БД бизнес-логики. Произведено сравнение способов кэширования (программируемые вручную кэши, стандартный функционал) и даны рекомендации, когда и в каких случаях данные способы оптимальны, а порой опасны.
...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/2947.html
Apache Ignite — Open Source платформа для высокопроизводительной распределенной работы с большими данными с применением SQL или Java/.NET/C++ API. Ignite используют в самых разных отраслях. Сбербанк, ING, RingCentral, Microsoft, e-Therapeutics — все эти компании применяют решения на основе Ignite. Размеры кластеров разнятся от всего одного узла до нескольких сотен, узлы могут быть расположены в одном ЦОД-е или в нескольких геораспределенных.
...
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/3005.html
Когда мы говорим о нагруженных системах и базах данных с большим числом параллельных коннектов, особый интерес представляет практика эксплуатации и сопровождения таких проектов. В том числе инструменты и механизмы СУБД, которые могут быть использованы DBA и DevOps-инженерами для решения задач мониторинга жизнедеятельности базы данных и ранней диагностики возможных проблем.
...
3. Проблемы традиционных ДЦ
1. Сложность (множество
вендоров, различных
коммуникаций)
2. Неэффективность (место и
энергопотребление)
3. Непредсказуемое
расширение (нелинейность)
4. Цели WebScale дизайна ДЦ
• Массивное снижение энергопотребления и
прогнозируемое масштабирование
• Нет единой точки отказа
• Распределять все
• Всегда работает
• Полная автоматизация и мощная аналитика
Фундаментальные аксиомы
• Стандартные однотипные x86 сервера:
«отказало -> заменил»
• Нет специализированных аппаратных средств
• Весь интеллект и сервис в ПО
• Линейный, предсказуемый рост
Web-Scale IT
5. Openstack? Ха-ха три раза.
• Не решает проблем низкого уровня (ввод-вывод данных)
• Рабочие коммерческие варианты по факту очень дороги и
несовместимы
• Масса (зачастую) лишнего функционала, вносящего нестабильность.
• Очень высокий порог вхождения - требуются специалисты экстра-
класса для запуска и поддержки.
• Чаще всего реально требуется не создание IaaS или PaaS, но
внутренняя облачная инфраструктура.
• Есть существенные проблемы масштабируемости.
7. Не путать проект и продукт
Ceph, GlusterFS – отличные проекты
• Крайне сложный запуск
• Ограниченный или отсутствующий UI
• Практически любое «железо»
• Уникальные протоколы (эмуляция стандартных при необходимости)
• Только ФС, не решает вопросов управления виртуализацией
• Фактически, только KVM (ESXi / HyperV – говорить несерьезно)
• Не создавались и не затачивались под виртуализацию.
• Отсутствует взаимная интеграция гипервизора и СХД (локализация
ввода-вывода)
8. Не путать проект и продукт
Nutanix Acropolis – законченное решение
• «Под ключ» с запуском за 15-30 минут
• HTML5 UI
• Ограниченный, но 100% протестированный набор оборудования
(Supermicro, Dell) – полная интеграция IPMI / аппаратного
мониторинга
• Использование стандартных протоколов (iSCSI, NFS, SMB3)
• BigData технологии (Cassandra, Zookeeper, etc), все распределенное
• Комплексное решение
• Не завязан на KVM
9. Proxmox?
• Все проблемы стандартных решений
• Копии конфигураций всех VM на каждом ноде
• 16 нодов в кластере (2014 год!)
• Попытка скопировать Look’n’Feel VMware vCenter (который уже
устарел сам по себе)
• Только KVM
• Серьезнейшие проблемы производительности при большом количестве
VM
10. Традиционные СХД
• Архаичные RAID системы, не рассчитанные на масштабируемость и
отказоустойчивость
• Время “ребилда” современной СХД при отказе одного диска может быть
часами или сутками.
• RAID6 - потеря данных в течении года (при достаточно больших
датасторах) - практически гарантирована
• На рынок выходят диски 10TB, что несет в себе множество
дополнительных проблем (Теперь мы идем к вам (с)! Сутки ребилда?
Легко!)
• Упор в количество интерфейсов ввода-вывода и производительность
контроллеров.
11. Nutanix – все в одном
• Отсутствуют все вышеназванные узкие места.
• Безлимитное масштабирование (как по производительности, так и
размеру кластера). Миллионы IOPS, тысячи VM на стойку
• Использование по максимуму open-source компонент с существенной
доработкой (Cassandra NoSQL, Apache ZooKeeper, Linux Kernel, EXT4,
KVM).
• Полностью программная реализация.
• Распределенная файловая система NDFS и система управления
облаком Acropolis.
• Поддержка стандартной версии KVM (Centos 6.5+) через libvirt, но
полностью своя реализация управления кластером - aCLI, HTML5 UI,
RESTful API.
12. Nutanix – все в одном
• Нет RAID или JBOD (на всех уровнях)
• 2-я или 3-я защита данных
• Disaster Recovery (репликация датацентров)
• Метаданные файловой системы и кластера хранятся в NoSQL DB
Cassandra.
• Конфигурация кластера - Apache Zookeeper.
• Активное применение SSD как полноценного уровня хранения (не
кэширования).
14. Nutanix
Google
Facebook
Microsoft
Другие
решения VSAN Старые
Архитектуры
Гипер-конвергентные решения на x86 –
интеграция компьютинга и СХД
Все в программном обеспечении – 100%
«только ПО»
Распределение всего – кластеризация
данных и сервисов
Самоизлечение – изоляция сбоев и
распределенное восстановление
API автоматизация и мощная аналитика
Множство различных приложений
одновременно
17. Компоненты кластера
Arithmos: Публикация и получение статистики гипервизора
Cassandra: Конфигурация VM, файловая система NDFS. 3 или 5 копий.
Stargate: подготовка и работа с виртуальными дисками, отдача по
протоколам iSCSI / NFS / SMB3
Zookeeper: конфигурация кластера (одна из наиболее устойчивых к
partitioning систем хранения кластерных конфигураций)
Prism: UI / CLI / API
18. CAP Теорема – «умный в гору»
В любой реализации распределённых вычислений возможно обеспечить не
более двух из трёх следующих свойств (WikiPedia):
• Согласованность данных (англ. Consistency) — во всех вычислительных
узлах в один момент времени данные не противоречат друг другу;
• Доступность (англ. Availability) — любой запрос к распределённой
системе завершается корректным откликом;
• Устойчивость к разделению (англ. Partition tolerance) — расщепление
распределённой системы на несколько изолированных секций не
приводит к некорректности отклика от каждой из секций.”
19. …обойдет
Значительная доработка Кассандры, многократное дублирование (3 – 5
копий метаданных) с реализацией Paxos алгоритма.
• CAP -> CAP
• Практически мгновенная сходимость файловой системы – суровая
необходимость
• Доступность – без вариантов
• Устойчивость к партиционированию – делаем множество копий
20. Резервирование данных
Динамическая
настройка различных уровней
защиты для разных приложений
в одном кластере
100% программно
RF-3 защищает от одновременного
выхода из строя двух дисков, нодов
и сетевых карт
Переключайтесь между RF-2 и RF-3
Уровень репликации (защиты)
выставляется на уровне контейнера
RF-2 контейнер (2 копии данных)
RF-3 контейнер (3 копии данных)
21. Умное распределение
Распределение данных
между аппаратными
блоками
V1: Защищает от потери
блока целиком (4 нода /
контроллера одновременно)
Доступно начиная с трех
блоков
Блок Блок Блок
22. CLI / API : Управление VM
• CPU and memory.
• Disk and NIC (hot-plug).
• Boot order configuration.
• Power operations.
• Live migration.
• Crash-consistent snapshot, restore, clone.
23. CLI / API: управление сетью
• OpenvSwitch (для KVM)
• VLAN
• IPAM (перехват DHCP / ARP на уровне хоста)
25. Prism Central
Управление множеством
кластеров по всему миру
из единой точки
Агрегация статусов кластеров
Единая точка входа
Накапливание исторических
данных для глубокого анализа
Упрощение рабочих процессов
26. Интегрированная защита
Локальные и «на расстоянии»
снапшоты для целей резервного
копирования и восстановления
из аварий через Prism
Безлимитные локальные
снапшоты на основном
кластере с Time Stream
Восстановление данных «одним
кликом»
WAN-оптимизированная
репликация для DR
Снапшоты в другом ДЦ
vdisk Локальные
снапшоты
DR Кластер
Основной кластер
Он-сайт вторичные
Локальные бэкапы
(вне кластера)
27. High End нагрузки и задачи
• High End решение
• Практически
любые
применения
• Государство,
Военные,
Медицина,
Корпорации,
Сервис
провайдеры
Purpose of the Slide:
Talk about the big challenges enterprise customers face today. Establish a baseline that everyone can agree to.
Key Points:
- Datacenters have become increasingly complex over the years. Every part of the infrastructure lifecycle is complex, from buying and deploying to configuring, managing and scaling infrastructure.
- As infrastructure became more complex, IT organizations also became more siloed. You needed storage experts to manage complex network storage and networking experts to manage enterprise network topologies. ITIL processes emerged to deal with the complexity. All this significantly slowed down the pace of IT deployment. Orgs have to trade off doing it right with doing it fast.
- As demand for resources (compute, network, storage) goes up, organizations want to be able to add capacity incrementally and predictably. Scale-up (big iron) infrastructure makes it difficult to scale in small increments when needed.
Purpose: Talk about where and how web-scale IT originated, and what some of the common are between different web-scale data centers
Key Points:
Web companies like Google and Facebook started pushing the limits of existing infrastructure systems and processes in ways that traditional businesses did not. They needed infrastructure that could support their business requirements (rapid application development cycles, scale on demand, cost containment). They tried using existing infrastructure solutions, but quickly realized that legacy infra was a poor fit for their needs.
Over time, these companies developed an alternate approach to IT that enabled them to get past limitations in infrastructure. Some common traits of web-scale IT:
Infrastructure built from commodity server hardware pooled together using intelligent software. This allows customers to start small and scale one server at a time – true scale-out
The software in the system is distributed across all the nodes. You don’t have central metadata servers or name nodes. You don’t see controller bottlenecks
Embarrassingly parallel operations – everything in the system, including storage functions like deduplication and metadata management and system cleanup, is distributed across all nodes. There are no hotspots or bottlenecks, allowing for massive scale
Compute and storage sit very close to each other. Data does not have to go back and forth between storage and compute over a network. Data has gravity, so co-locating storage and compute eliminates network bottlenecks and system slowdown
Heavy automation eliminates the need for expensive, error-prone manual operations. You don’t
Hyper-converged on x86 servers
Compute and storage integrated in a single server with no network in between
Eliminate network bottlenecks,
All intelligence in software
No reliance on hardware for data services, performance, resilience, etc.
Distributed everything
Data is intelligently distributed in all the nodes in the cluster so that no single node becomes a data access hotspot
Services are distributed across the cluster so that as new nodes are added the processing capacity for data services scales out
No single point of failure
Redundancy in data (through replication, erasure coding, etc.) allows for component failure without loss of data
Redundancy of controllers and control path enables recovery from failure of individual controllers
API-driven automation and rich analytics
- Programmatic interface and data-driven decision making in the system