Обеспечение доступности — это сложная задача, которая требует совместной работы специалистов по проектированию и администрированию сетей, разработчиков приложений, тестировщиков и специалистов по IT-безопасности.
В этом докладе мы поговорим о том, какие области науки о данных применимы при защите от DDoS, взглянем на машинное обучение с позиций злоумышленников, специалистов по обеспечению доступности и по защите информации.
Рассмотрим в этом контексте обучение с обратной связью:
+ от окружающей среды (теория управления/control theory),
+ от данных (кластеризация, unsupervised learning),
+ от внешнего источника (обучение с учителем/supervised learning — классификация и регрессия).
Сделаем акцент на сложности алгоритмов и времени, необходимом для обучения. Машинное обучение нельзя просто включить по щелчку пальцев: чтобы всё работало хорошо, нужно заблаговременно подготовить данные, настроить и обучить механизмы защиты.
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
Мы в Авито часто сталкиваемся с ситуацией, когда нужно быстро придумать алгоритм, решающий некоторую бизнес задачу на основе анализа больших объёмов данных. Придумать какой-то алгоритм не сложно, но каждый раз возникает вопрос — а вдруг можно решить эту же задачу в разы более качественно. Исследования можно вести годами, но это рискованно — лучшего решения может и не быть, и будет затрачено много времени.
На помощь приходят конкурсы по анализу данных. Мы устраивали конкурсы на построение алгоритмов, работающих с совершенно различными типами и объемами данных:
+ Выявление запрещенных объявлений.
+ Прогнозирование вероятности клика на рекламное объявление.
+ Обнаружение телефонов на изображениях.
+ Прогнозирование инкрементального эффекта от скидочных акций.
Какие-то были более удачными, какие-то — менее. Расскажем про основные этапы подготовки задач к конкурсу, а также про основные трюки, используемые для победы в таких конкурсах
Системы класса SIEM могут быть вполне применимы не только для информационной безопасности, но и ИТ персоналом, разработчиками для своевременного обнаружения и предотвращения инцидентов
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
Мы в Авито часто сталкиваемся с ситуацией, когда нужно быстро придумать алгоритм, решающий некоторую бизнес задачу на основе анализа больших объёмов данных. Придумать какой-то алгоритм не сложно, но каждый раз возникает вопрос — а вдруг можно решить эту же задачу в разы более качественно. Исследования можно вести годами, но это рискованно — лучшего решения может и не быть, и будет затрачено много времени.
На помощь приходят конкурсы по анализу данных. Мы устраивали конкурсы на построение алгоритмов, работающих с совершенно различными типами и объемами данных:
+ Выявление запрещенных объявлений.
+ Прогнозирование вероятности клика на рекламное объявление.
+ Обнаружение телефонов на изображениях.
+ Прогнозирование инкрементального эффекта от скидочных акций.
Какие-то были более удачными, какие-то — менее. Расскажем про основные этапы подготовки задач к конкурсу, а также про основные трюки, используемые для победы в таких конкурсах
Системы класса SIEM могут быть вполне применимы не только для информационной безопасности, но и ИТ персоналом, разработчиками для своевременного обнаружения и предотвращения инцидентов
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Несколько...IT-Portfolio
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Несколько кейсов из жизни "больших" проектов", Виталий Гаврилов (технический директор "Ленвендо")
Аннотация
Команда разработчиков «Ленвендо» реализовала сотни проектов, среди которых были сайты и интернет-магазины для компаний: Эльдорадо, Газпромбанк, Связной, SUP media, Эхо Москвы в Петербурге, Банк БФА и другие. Специалисты компании в совершенстве владеют языками программирования от низкоуровневого C++ до высокоуровневых PHP, Perl, Bash и умею разрабатывать проекты с многомиллионной посещаемостью.
В рамках презентации будет рассмотрено несколько интересных кейсов из практики «Ленвендо». Мы поговорим об особенностях построения высоконагруженных проектов с использованием БД PostgreSQL, о резервном копировании и особенностях его организации в высоконагруженных проектах с большими объемами данных. Также остановимся на специфике проектов, размещенных в 2-х и более датацентрах, и тех инструментах, которые мы используем для построения таких проектов (csync2, MySQL Multi-Master Replication и т.д.).
Особое внимание будет уделено теме управляемого статического кеширования, позволяющего существенно (от 30% до нескольких раз) снизить нагрузку на backend-сервера с сохранением актуальности отображаемой на сайте информации (с помощью RabbitMQ, RedisDB, Nginx embedded Perl).
И напоследок - короткое «лирическое» отступление о том, когда и для чего имеет смысл использовать СУБД Oracle.
О компании
Компания «Ленвендо» - профессионал в области разработки, внедрения и технической поддержки высоконагруженных Интернет-решений. Компания была признана одной из лидеров по разработке Highload-систем (рейтинг Best in Digital 2013).
SETCON'18 - Dzmitry Nichyparuk - Designing reliable softwareNadzeya Pus
По-настоящему надежное программное обеспечение всегда скептически настроено и готово к отказам. Другие системы оно держит на расстоянии, так как слишком тесное взаимодействие может быть небезопасным. Оно не доверяет даже себе устанавливая внутренние барьеры для защиты от сбоев.
Практические особенности внедрения систем класса DLPDialogueScience
В рамках вебинара "Практические особенности внедрения систем класса DLP" вы узнаете:
- цели и задачи, которые заказчик обычно ставит перед DLP, его ожидания;
- часто допускаемые ошибки;
- цели проекта по внедрению DLP;
- этапы проекта по внедрению DLP;
- описание этапов проекта;
- каких ошибок удается избежать при правильном подходе;
- преимущества и недостатки;
- ответы на вопросы.
Спикер: Роман Ванерке, руководитель отдела технических решений АО «ДиалогНаука»
Какие бывают провайдеры услуг дата-центров и как выбрать оптимальный? / Игорь...Ontico
Все знают поговорку "два переезда равны одному пожару" и все понимают, что значит "перенос highload проекта с одного провайдера хостинга на другого с обеспечением непрерывности функционирования сервисов для пользователей".
Выбор "правильного" провайдера услуг дата-центров очень важен, но есть две проблемы:
1) "Все лгут" - маркетинг провайдера и реальность далеко не всегда совпадают, все провайдеры рассказывают о своих сильных сторонах и умалчивают о слабых;
2) "когда у вас в руках молоток - все вокруг превращается в гвозди" - все провайдеры услуг имеют свою специализацию и любую задачу клиента они стремятся решить так, как умеют, а не так как надо клиенту.
В своем докладе я постараюсь рассмотреть все аспекты вопроса выбора провайдера/провайдеров услуг хостинга/дата-центров.
Данный доклад ориентирован на широкую аудиторию и будет полезен всем, кому надо выбирать провайдера услуг хостинга/дата-центров для внутренних и/или внешних проектов.
В рамках доклада будут рассмотрены следующие вопросы:
1) формализация ТЗ на оказание услуг провайдерами или "а что нам надо";
2) классификация провайдеров дата-центров по спектру оказываемых услуг;
3) SLA - что это? какие SLA бывают? что подразумевают провайдеры и чего ожидаете вы в документе под названием Service Level Agreement;
4) магическое слово compliance, или что хочет государство;
5) чем отличаются одни провайдеры от других;
6) как проверить провайдера - uptime/связанность/рейтинги/спектр услуг;
7) пишем RFP - как сформулировать потребности так, чтобы потом результат не разочаровал.
Особенности использования машинного обучения при защите от DDoS-атакQrator Labs
В докладе мы взглянем на проблему DDOS, с одной стороны, более широко — как на проблему обеспечения доступности ресурса, с другой стороны более конкретно — как на проблему информационной безопасности.
Поговорим о том, как автоматизировать борьбу с DDOS-атаками при помощи машинного обучения, и чем такая автоматизация может быть опасна.
Наконец, рассмотрим пару примеров и обсудим, с чего начинать строить систему защиты от DDOS.
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Несколько...IT-Portfolio
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Несколько кейсов из жизни "больших" проектов", Виталий Гаврилов (технический директор "Ленвендо")
Аннотация
Команда разработчиков «Ленвендо» реализовала сотни проектов, среди которых были сайты и интернет-магазины для компаний: Эльдорадо, Газпромбанк, Связной, SUP media, Эхо Москвы в Петербурге, Банк БФА и другие. Специалисты компании в совершенстве владеют языками программирования от низкоуровневого C++ до высокоуровневых PHP, Perl, Bash и умею разрабатывать проекты с многомиллионной посещаемостью.
В рамках презентации будет рассмотрено несколько интересных кейсов из практики «Ленвендо». Мы поговорим об особенностях построения высоконагруженных проектов с использованием БД PostgreSQL, о резервном копировании и особенностях его организации в высоконагруженных проектах с большими объемами данных. Также остановимся на специфике проектов, размещенных в 2-х и более датацентрах, и тех инструментах, которые мы используем для построения таких проектов (csync2, MySQL Multi-Master Replication и т.д.).
Особое внимание будет уделено теме управляемого статического кеширования, позволяющего существенно (от 30% до нескольких раз) снизить нагрузку на backend-сервера с сохранением актуальности отображаемой на сайте информации (с помощью RabbitMQ, RedisDB, Nginx embedded Perl).
И напоследок - короткое «лирическое» отступление о том, когда и для чего имеет смысл использовать СУБД Oracle.
О компании
Компания «Ленвендо» - профессионал в области разработки, внедрения и технической поддержки высоконагруженных Интернет-решений. Компания была признана одной из лидеров по разработке Highload-систем (рейтинг Best in Digital 2013).
SETCON'18 - Dzmitry Nichyparuk - Designing reliable softwareNadzeya Pus
По-настоящему надежное программное обеспечение всегда скептически настроено и готово к отказам. Другие системы оно держит на расстоянии, так как слишком тесное взаимодействие может быть небезопасным. Оно не доверяет даже себе устанавливая внутренние барьеры для защиты от сбоев.
Практические особенности внедрения систем класса DLPDialogueScience
В рамках вебинара "Практические особенности внедрения систем класса DLP" вы узнаете:
- цели и задачи, которые заказчик обычно ставит перед DLP, его ожидания;
- часто допускаемые ошибки;
- цели проекта по внедрению DLP;
- этапы проекта по внедрению DLP;
- описание этапов проекта;
- каких ошибок удается избежать при правильном подходе;
- преимущества и недостатки;
- ответы на вопросы.
Спикер: Роман Ванерке, руководитель отдела технических решений АО «ДиалогНаука»
Какие бывают провайдеры услуг дата-центров и как выбрать оптимальный? / Игорь...Ontico
Все знают поговорку "два переезда равны одному пожару" и все понимают, что значит "перенос highload проекта с одного провайдера хостинга на другого с обеспечением непрерывности функционирования сервисов для пользователей".
Выбор "правильного" провайдера услуг дата-центров очень важен, но есть две проблемы:
1) "Все лгут" - маркетинг провайдера и реальность далеко не всегда совпадают, все провайдеры рассказывают о своих сильных сторонах и умалчивают о слабых;
2) "когда у вас в руках молоток - все вокруг превращается в гвозди" - все провайдеры услуг имеют свою специализацию и любую задачу клиента они стремятся решить так, как умеют, а не так как надо клиенту.
В своем докладе я постараюсь рассмотреть все аспекты вопроса выбора провайдера/провайдеров услуг хостинга/дата-центров.
Данный доклад ориентирован на широкую аудиторию и будет полезен всем, кому надо выбирать провайдера услуг хостинга/дата-центров для внутренних и/или внешних проектов.
В рамках доклада будут рассмотрены следующие вопросы:
1) формализация ТЗ на оказание услуг провайдерами или "а что нам надо";
2) классификация провайдеров дата-центров по спектру оказываемых услуг;
3) SLA - что это? какие SLA бывают? что подразумевают провайдеры и чего ожидаете вы в документе под названием Service Level Agreement;
4) магическое слово compliance, или что хочет государство;
5) чем отличаются одни провайдеры от других;
6) как проверить провайдера - uptime/связанность/рейтинги/спектр услуг;
7) пишем RFP - как сформулировать потребности так, чтобы потом результат не разочаровал.
Особенности использования машинного обучения при защите от DDoS-атакQrator Labs
В докладе мы взглянем на проблему DDOS, с одной стороны, более широко — как на проблему обеспечения доступности ресурса, с другой стороны более конкретно — как на проблему информационной безопасности.
Поговорим о том, как автоматизировать борьбу с DDOS-атаками при помощи машинного обучения, и чем такая автоматизация может быть опасна.
Наконец, рассмотрим пару примеров и обсудим, с чего начинать строить систему защиты от DDOS.
В данной сессии мы подробно рассмотрим архитектурные принципы построения защищённого корпоративного периметра, с разбором решения некоторых частных задач, характерных для периметра: контроль доступа пользователей в сеть Интернет, борьба с целенаправленными (APT) угрозами, защита web и email-трафика, средства объективного контроля сетевых процессов.
Обзор применения искусственного интеллекта в кибербезопасности как с позитивной, так и с негативной стороны. Как ИИ используют безопасники. Как ИИ используют хакеры. Какие угрозы могут быть для ИИ.
Анатомия DDoS-атак, или Как предупредить и обезвредить нападения злоумышленниковКРОК
Вебинар «Анатомия DDoS-атак, или Как предупредить и обезвредить нападения злоумышленников» http://www.croc.ru/action/webinars/41850/
Презентация Данила Дрожжина, эксперта по сетевой безопасности компании КРОК
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2964.html
Одноклассники состоят из более чем восьми тысяч железных серверов, расположенных в нескольких дата-центрах. Каждая из этих машин была специализированной под конкретную задачу - как для обеспечения изоляции отказов, так и для обеспечения автоматизированного управления инфраструктурой.
...
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/3032.html
Протокол DNS на семь лет старше, чем Всемирная паутина. Стандарты RFC 882 и 883, определяющие основную функциональность системы доменных имён, появились в конце 1983 года, а первая реализация последовала уже годом позже. Естественно, что у технологии столь старой и при этом по сей день активнейшим образом используемой просто не могли не накопиться особенности, неочевидные обыкновенным пользователям.
...
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/3010.html
В этом докладе я расскажу, как BigData-платформа помогает трансформировать Почту России, как мы управляем построением и развитием платформы. Расскажу про найденные удачные решения, например, как разбиение на продукты с понятными SLA и интерфейсами между ними помогло нам сохранять управляемость с ростом масштабов проекта.
...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 10:00
Тезисы:
http://www.highload.ru/2017/abstracts/2914.html
Казалось бы, что нужно для организации тестового окружения? Тестовая железка и копия боевого окружения - и тестовый сервер готов. Но как быть, когда проект сложный? А когда большой? А если нужно тестировать одновременно много версий? А если все это вместе?
Организация тестирования большого развивающегося проекта, где одновременно в разработке и тестировании около полусотни фич - достаточно непростая задача. Ситуация обычно осложняется тем, что иногда есть желание потрогать еще не полностью готовый функционал. В таких ситуациях часто возникает вопрос: "А куда это можно накатить и где покликать?"
...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2854.html
Из этого доклада вы узнаете о возможностях репликации и автофейловера PostgreSQL, в том числе о возможностях, ставших доступных в PostgreSQL 10.
Среди прочих, будет затронуты следующие темы:
* Виды репликации и решаемые с ее помощью проблемы.
* Настройка потоковой репликации.
* Настройка логической репликации.
* Настройка автофейловера / HA средствами Stolon и Consul.
После прослушивания доклада вы сможете самостоятельно настраивать репликацию и автофейловер PostgreSQL.
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 17:00
Тезисы:
http://www.highload.ru/2017/abstracts/3096.html
PostgreSQL is the world’s most advanced open source database. Indeed! With around 270 configuration parameters in postgresql.conf, plus all the knobs in pg_hba.conf, it is definitely ADVANCED!
How many parameters do you tune? 1? 8? 32? Anyone ever tuned more than 64?
No tuning means below par performance. But how to start? Which parameters to tune? What are the appropriate values? Is there a tool --not just an editor like vim or emacs-- to help users manage the 700-line postgresql.conf file?
Join this talk to understand the performance advantages of appropriately tuning your postgresql.conf file, showcase a new free tool to make PostgreSQL configuration possible for HUMANS, and learn the best practices for tuning several relevant postgresql.conf parameters.
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/3115.html
During this session we will cover the last development in ProxySQL to support regular expressions (RE2 and PCRE) and how we can use this strong technique in correlation with ProxySQL's query rules to anonymize live data quickly and transparently. We will explain the mechanism and how to generate these rules quickly. We show live demo with all challenges we got from the Community and we finish the session by an interactive brainstorm testing queries from the audience.
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2957.html
Расскажем о нашем опыте разработки модуля межсетевого экрана для MySQL с использованием генератора парсеров ANTLR и языка Kotlin.
Подробно рассмотрим следующие вопросы:
— когда и почему целесообразно использовать ANTLR;
— особенности разработки ANTLR-грамматики для MySQL;
— сравнение производительности рантаймов для ANTLR в рамках задачи синтаксического анализа MySQL (C#, Java, Kotlin, Go, Python, PyPy, C++);
— вспомогательные DSL;
— микросервисная архитектура модуля экранирования SQL;
— полученные результаты.
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/3114.html
ProxySQL aims to be the most powerful proxy in the MySQL ecosystem. It is protocol-aware and able to provide high availability (HA) and high performance with no changes in the application, using several built-in features and integration with clustering software. During this session we will quickly introduce its main features, so to better understand how it works. We will then describe multiple use case scenarios in which ProxySQL empowers large MySQL installations to provide HA with zero downtime, read/write split, query rewrite, sharding, query caching, and multiplexing using SSL across data centers.
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/2954.html
MySQL Replication is powerful and has added a lot of advanced features through the years. In this presentation we will look into replication technology in MySQL 5.7 and variants focusing on advanced features, what do they mean, when to use them and when not, Including.
When should you use STATEMENT, ROW or MIXED binary log format?
What is GTID in MySQL and MariaDB and why do you want to use them?
What is semi-sync replication and how is it different from lossless semi-sync?
...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/3120.html
Количество разработчиков мобильных приложений Сбербанк Онлайн с начала 2016 года выросло на порядок. Для того чтобы продолжать выпускать качественный продукт, мы кардинально перестраиваем процесс разработки.
Количество внутренних заказчиков тех или иных доработок в какой-то момент выросло настолько, что разработчики стали узким местом. Мы внедрили культуру разработки, которую можно условно назвать "внутренним open-source", сохранив за собой контроль над архитектурой и качеством проекта, но позволив разрабатывать новые фичи всем желающим.
...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2836.html
При использовании Eventually Consistent распределенных баз данных нет гарантий, что чтение возвращает результаты последних изменений данных, если чтение и запись производятся на разных узлах. Это ограничивает пропускную способность системы. Поддержка свойства Causal Consistency снимает это ограничение, что позволяет улучшить масштабируемость, не требуя изменений в коде приложения.
...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/2858.html
Аудитория Одноклассников превышает 73 миллиона человек в России, СНГ и странах дальнего зарубежья. При этом ОК.ru - первая социальная сеть по просмотрам видео в рунете и крупнейшая сервисная платформа.
Качественный и количественный рост DDoS-атак за последние годы превращает их в одну из первоочередных проблем для крупнейших интернет-ресурсов. В зависимости от вектора атаки “узким” местом становится та или иная часть инфраструктуры. В частности, при SYN-flood первый удар приходится на систему балансировки трафика. От ее производительности зависит успех в противостоянии атаке.
...
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/3008.html
Никогда не было и вот снова случилось! Компания Google в результате перенаправления трафика сделала недостпуными в Японии несколько тысяч различных сервисов, большинство из которых никак не связано с самой компанией Google. Однако, подобные инциденты происходят с завидной регулярностью, вот только не всегда попадают в большие СМИ. У таких инцидентов могут быть разные причины, начиная от ошибок сетевых инженеров и заканчивая государственным регулированием.
...
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/2925.html
Облака и виртуализация – современные тренды развития IT-технологий. Операторы связи строят свои TelcoClouds на стандартах NFV (Network Functions Virtualization) и SDN (Software-Defined Networking). В докладе начнем с основ виртуализации, далее разберемся, для чего используются NFV и SDN, потом полетим к облакам и вернемся на землю для решения практических задач!
...
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 10:00
Тезисы:
http://www.highload.ru/2017/abstracts/3045.html
Как мы заставили Druid работать в Одноклассниках.
«Druid is a high-performance, column-oriented, distributed data store» http://druid.io.
Мы расскажем о том, как, внедрив Druid, мы справились с ситуацией, когда MSSQL-based система статистики на 50 терабайт стала:
- медленной: средняя скорость ответа была в разы меньше требуемой (и увеличилась в 20 раз);
- нестабильной: в час пик статистика отставала до получаса (теперь ничего не отстает);
- дорогой: изменилась политика лицензирования Microsoft, расходы на лицензии могли составить миллионы долларов.
...
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2905.html
Прошло более года с того момента, как Microsoft выпустила первую версию своего нового фреймворка для разработки web-приложений ASP.NET Core, и с каждым днем он находит все больше поклонников. ASP.NET Core базируется на платформе .NET Core, кроссплатформенной версии платформы .NET c открытым исходным кодом. Теперь у С#-разработчиков появилась возможность использовать Mac в качестве среды разработки, и запускать приложения на Linux или внутри Docker-контейнеров.
...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/2913.html
Изначально будут раскрыты базовые причины, которые заставили появиться такой части механизма СУБД, как кэш результатов, и почему в ряде СУБД он есть или отсутствует.
Будут рассмотрены различные варианты кэширования результатов как sql-запросов, так и результатов хранимой в БД бизнес-логики. Произведено сравнение способов кэширования (программируемые вручную кэши, стандартный функционал) и даны рекомендации, когда и в каких случаях данные способы оптимальны, а порой опасны.
...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/2947.html
Apache Ignite — Open Source платформа для высокопроизводительной распределенной работы с большими данными с применением SQL или Java/.NET/C++ API. Ignite используют в самых разных отраслях. Сбербанк, ING, RingCentral, Microsoft, e-Therapeutics — все эти компании применяют решения на основе Ignite. Размеры кластеров разнятся от всего одного узла до нескольких сотен, узлы могут быть расположены в одном ЦОД-е или в нескольких геораспределенных.
...
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/3005.html
Когда мы говорим о нагруженных системах и базах данных с большим числом параллельных коннектов, особый интерес представляет практика эксплуатации и сопровождения таких проектов. В том числе инструменты и механизмы СУБД, которые могут быть использованы DBA и DevOps-инженерами для решения задач мониторинга жизнедеятельности базы данных и ранней диагностики возможных проблем.
...
Как подготовиться к гигабитной DDoS-атаке при помощи машинного обучения / Игнатов Константин (Qrator Labs)
1. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Как подготовиться к гигабитной DDoS-атаке
при помощи машинного обучения
Константин Игнатов
Qrator Labs
3.11.2015
@podshumok Qrator
Machine learning for DDoS mitigation
4. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
5. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Информационная безопасность
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
6. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Информационная безопасность
Обеспечение доступности
Процесс противодействия злоумышленнику
наша цель — 100% доступность
цель злоумышленника — наш даунтайм
Основные принципы:
"мыслить как преступник"
спрашивать (не только) себя: "что здесь может пойти
не так?"
@podshumok Qrator
Machine learning for DDoS mitigation
7. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Информационная безопасность
Обеспечение доступности
Процесс противодействия злоумышленнику
наша цель — 100% доступность
цель злоумышленника — наш даунтайм
Основные принципы:
"мыслить как преступник"
спрашивать (не только) себя: "что здесь может пойти
не так?"
@podshumok Qrator
Machine learning for DDoS mitigation
8. Если что-то плохое может произойти, оно произойдёт...
по чьей-то злой воле
9. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Процесс DDoS mitigation
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
10. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Процесс DDoS mitigation
Защищаем ограниченные ресурсы
DDoS атака, как правило, направлена на их исчерпывание
Требуется совместная работа многих отделов
сетевые инженеры, архитекторы: канал
разработчики приложения: память, CPU, IOPS
специалисты по ИБ: защищаемый IP
@podshumok Qrator
Machine learning for DDoS mitigation
12. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Объяснимость и устойчивость к манипуляциям
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
13. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Объяснимость и устойчивость к манипуляциям
Machine learning для автоматизации
Machine learning — это просто набор алгоритмов
Два этапа работы алгоритмов:
подготовка (настройка, выбор модели, обучение)
предсказание
Три типа алгоритмов:
с обратной связью от среды
теория управления (control systems)
с обратной связью от человека
обучение с учителем (supervised learning)
с обратной связью от данных
обучение без учителя (unsupervised learning)
@podshumok Qrator
Machine learning for DDoS mitigation
14.
15. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Объяснимость и устойчивость к манипуляциям
Требования к алгоритмам
Алгоритмы дают оценку, например, матожидания E [ω|X]
ω — случайная величина (что мы хотим «предсказать»)
X — известные данные
Мы хотим:
На первом этапе работы: игнорировать аномалии при
обучении (в обратной связи)
На втором: иметь возможность понять, почему было принято
именно такое решение
@podshumok Qrator
Machine learning for DDoS mitigation
16. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Что захочет сделать злоумышленник
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
17. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Что захочет сделать злоумышленник
Кто учит машину?
Данные для
обучения = поведение
пользователей
То есть частично
контролируемы
злоумышленником
И тут у злоумышленника появляется одна идея...
научить наш алгоритм «вместо нас»
Это плохо. И может случиться. Что делать?
@podshumok Qrator
Machine learning for DDoS mitigation
18. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Что захочет сделать злоумышленник
Кто учит машину?
Данные для
обучения = поведение
пользователей
То есть частично
контролируемы
злоумышленником
И тут у злоумышленника появляется одна идея...
научить наш алгоритм «вместо нас»
Это плохо. И может случиться. Что делать?
@podshumok Qrator
Machine learning for DDoS mitigation
19. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Что захочет сделать злоумышленник
Кто учит машину?
Данные для
обучения = поведение
пользователей
То есть частично
контролируемы
злоумышленником
И тут у злоумышленника появляется одна идея...
научить наш алгоритм «вместо нас»
Это плохо. И может случиться. Что делать?
@podshumok Qrator
Machine learning for DDoS mitigation
20. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Что захочет сделать злоумышленник
Кто учит машину?
Данные для
обучения = поведение
пользователей
То есть частично
контролируемы
злоумышленником
И тут у злоумышленника появляется одна идея...
научить наш алгоритм «вместо нас»
Это плохо. И может случиться. Что делать?
@podshumok Qrator
Machine learning for DDoS mitigation
22. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Что захочет сделать злоумышленник
Робастная оценка
Робастность — мера того, насколько просто повлиять на
предсказываемую оценку
Breaking point — количество образцов в обучающей выборке,
достаточное для того, чтобы исказить оценку
Чем выше Breaking Point, тем сложнее злоумышленнику
повлиять на работу алгоритма ML
Что означает «сложнее»?
@podshumok Qrator
Machine learning for DDoS mitigation
23. Деталь, которая не ломается, отличается от детали,
которая ломается, тем, что, если деталь, которая не
ломается, сломается, то её нельзя будет починить.
24. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Что захочет сделать злоумышленник
Объяснимость
Помогает «приглядывать» за автоматизированным
процессом.
Как иначе понять, что что-то пошло не так?
Помогает при тестировании и отладке.
Помогает при расследовании инцидентов.
@podshumok Qrator
Machine learning for DDoS mitigation
26. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Откуда брать данные для обучения?
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
27. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Откуда брать данные для обучения?
Что хранить
Необходимо (и легко)
Данные о состояния
сервера
(«телеметрию»):
статистика
соединений
объём трафика
свободная память
загрузка ЦПУ
прочие замеры
исчерпываемых
ресурсов
Полезно (но тяжело)
Логи
желательно,
подробные
в основном, access.log
в более-менее
удобном для машины
формате
@podshumok Qrator
Machine learning for DDoS mitigation
28. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Откуда брать данные для обучения?
Что хранить
Необходимо (и легко)
Данные о состояния
сервера
(«телеметрию»):
статистика
соединений
объём трафика
свободная память
загрузка ЦПУ
прочие замеры
исчерпываемых
ресурсов
Полезно (но тяжело)
Логи
желательно,
подробные
в основном, access.log
в более-менее
удобном для машины
формате
@podshumok Qrator
Machine learning for DDoS mitigation
29. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Откуда брать данные для обучения?
Логи
Нужен хотя бы небольшой образец логов «чистого
поведения»
Нужно иметь возможность сохранить хотя бы часть логов
за время атаки
Что здесь может пойти не так?
Можно хранить только подмножество логов
Важно: правильно организовать выборку
например, можно хранить только запросы с
MurmurHash(IP) mod 1024 ∈ B, где B ⊂ 0, 1023
@podshumok Qrator
Machine learning for DDoS mitigation
30. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Откуда брать данные для обучения?
Логи
Нужен хотя бы небольшой образец логов «чистого
поведения»
Нужно иметь возможность сохранить хотя бы часть логов
за время атаки
Что здесь может пойти не так?
Можно хранить только подмножество логов
Важно: правильно организовать выборку
например, можно хранить только запросы с
MurmurHash(IP) mod 1024 ∈ B, где B ⊂ 0, 1023
@podshumok Qrator
Machine learning for DDoS mitigation
31. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Откуда брать данные для обучения?
Логи
Нужен хотя бы небольшой образец логов «чистого
поведения»
Нужно иметь возможность сохранить хотя бы часть логов
за время атаки
Что здесь может пойти не так?
Можно хранить только подмножество логов
Важно: правильно организовать выборку
например, можно хранить только запросы с
MurmurHash(IP) mod 1024 ∈ B, где B ⊂ 0, 1023
@podshumok Qrator
Machine learning for DDoS mitigation
32. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Откуда брать данные для обучения?
Логи
Нужен хотя бы небольшой образец логов «чистого
поведения»
Нужно иметь возможность сохранить хотя бы часть логов
за время атаки
Что здесь может пойти не так?
Можно хранить только подмножество логов
Важно: правильно организовать выборку
например, можно хранить только запросы с
MurmurHash(IP) mod 1024 ∈ B, где B ⊂ 0, 1023
@podshumok Qrator
Machine learning for DDoS mitigation
33. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Чему учиться, что искать?
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
34. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Чему учиться, что искать?
Что даёт сбор данных?
«Телеметрия»
Фиксируем, когда
серверу «плохо»
Прогнозируем
проблемы
Логи
Чем отличается
зловредное поведение,
от
«доброкачественного»?
Какая группа
пользователей вызывает
основную нагрузку?
@podshumok Qrator
Machine learning for DDoS mitigation
35. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Чему учиться, что искать?
Что даёт сбор данных?
«Телеметрия»
Фиксируем, когда
серверу «плохо»
Прогнозируем
проблемы
Логи
Чем отличается
зловредное поведение,
от
«доброкачественного»?
Какая группа
пользователей вызывает
основную нагрузку?
@podshumok Qrator
Machine learning for DDoS mitigation
36. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Предсказание нагрузки
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
37. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Предсказание нагрузки
Цепочки задач
1. Какая ожидается нагрузка?
1.1 А какая бывает?
1.2 На что похоже то, что наблюдаем сейчас?
2. Нужно ли что-то делать?
2.1 Какое количество запросов приводит к сбоям сервера?
2.2 Сколько нужно «зарезать» запросов, чтобы стало легче
жить?
2.3 Нужно ли заблокировать часть легитимных запросов?
3. Какие запросы более важны?
@podshumok Qrator
Machine learning for DDoS mitigation
38. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Предсказание нагрузки
Исходные данные
@podshumok Qrator
Machine learning for DDoS mitigation
39. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Предсказание нагрузки
Общие замечания
Использование абсолютных отклонений (L1)
Робастная нормализация
Нелинейные обратимые преобразования (sigmoid)
"Тяжёлые хвосты", когда нужно предположение о
распределении
Сэмплирование уменьшает вероятность попадания
Как правило, можно принять:
В алгоритмах, основанных на деревьях,
breaking point<минимальный размер листка
При кластеризации breaking point<минимальный размер
кластера
@podshumok Qrator
Machine learning for DDoS mitigation
40. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Предсказание нагрузки
Подготовка
@podshumok Qrator
Machine learning for DDoS mitigation
41.
42.
43. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Предсказание нагрузки
Кластеризация
@podshumok Qrator
Machine learning for DDoS mitigation
44. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Предсказание нагрузки
Классификация + регрессия
@podshumok Qrator
Machine learning for DDoS mitigation
45. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Поиск групп запросов
План
Процессы информационной безопасности
Информационная безопасность
Процесс DDoS mitigation
Machine learning
Объяснимость и устойчивость к манипуляциям
Что захочет сделать злоумышленник
Сбор данных
Откуда брать данные для обучения?
Чему учиться, что искать?
Примеры задач
Предсказание нагрузки
Поиск групп запросов
@podshumok Qrator
Machine learning for DDoS mitigation
46. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Поиск групп запросов
Примеры признаков запросов/сессий
Пользуется ли посетитель последней версией браузера?
Читает ли на там же языке, который используется в его
системной локали?
Загружает ли статику? Сколько раз запросил
favicon.ico?
Заходил ли на страницу /buy?
@podshumok Qrator
Machine learning for DDoS mitigation
47. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Поиск групп запросов
Pattern discovery
Как выделить признаки запросов/сессий
Дано: всплеск на 50k запросов.
Преобразуем запрос в набор элементарных признаков
@podshumok Qrator
Machine learning for DDoS mitigation
49. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Поиск групп запросов
Pattern discovery
Наиболее популярные:
подмножества (элементарных признаков)
подпоследовательности (запросов)
подграфы (переходов)
@podshumok Qrator
Machine learning for DDoS mitigation
50. Процессы ИБ Machine learning Сбор данных Примеры задач Самое важное
Итого: готовиться нужно заранее
Защита как процесс
Нужно время на поиск и/или подготовку специалистов
Нужно время на сбор данных
Нужно время на ручной анализ, выбор и настройку
алгоритмов
Нужно время на обучение алгоритмов
К размышлению:
Документирование процесса защиты.
Связь с бизнес-аналитикой.
Стандартизация собираемой информации.
@podshumok Qrator
Machine learning for DDoS mitigation
52. Запасные слайды
Защита, прозрачная для пользователей
Почему нельзя просто...
Full browser stack
Completely Automated Public Turing test to tell Computers
and Humans Apart
простые — взломаны
сложные — вызывают боль у пользователей
automated humans
@podshumok Qrator
Machine learning for DDoS mitigation
53. Запасные слайды
Схема защиты
Availability network
Подключение по DNS
клиент получает IP, пользователи используют его,
reverse-proxy перенаправляет чистые запросы на старый
адрес
самый простой и быстрый, но конфиденциальность
защищаемого IP нужно беречь как зеницу ока
Выделенный VPN канал
BGP анонс
@podshumok Qrator
Machine learning for DDoS mitigation