Искусственный интеллект в ИБ -
это вам не квантовая связность!
20 февраля 2019
Дичь или волшебный фонарь, освещающий путь?!
© 2018 Cisco and/or its affiliates. All rights reserved.
Искусственный
интеллект
© 2018 Cisco and/or its affiliates. All rights reserved.
Нормальная
активность
Непонятная активностьВредоносная
активность
Почему это так важно сегодня?
БелыеСморчки, дождевики,
сыроежки…
Мухоморы
© 2018 Cisco and/or its affiliates. All rights reserved.
Когда вы
думаете об
ИИ в ИБ?
Вы строите
свою ИБ
Вы оцениваете
чужую ИБ
Вам
интересно
© 2018 Cisco and/or its affiliates. All rights reserved.© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Confidential
При традиционном
подходе мы
распознаем и
заранее заносим в
«черные списки»
вредоносное что-то
Любая проблема, которая
может быть «оцифрована» и
имеет большие объемы
собранных данных является
кандидатом для машинного
обучения
«Живые»
данные
Программа
Вывод
101000 0110 00 01
11000011100 01110
1001 1101 111 0011
101000 0110 00 01
11000011100 01110
1001 1101 111 0011
Традиционный подход
© 2018 Cisco and/or its affiliates. All rights reserved.© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Confidential
ML фундаментально
отличается от
обычной разработки
– вы даете машине
ответы и она пишет
по ним код (модель)
и затем дает ответы
на новые данные
Машинное обучение
наиболее эффективно для
новых и неизвестных данных
Обучающие
данные
Вывод
Программа
(модель)
Машинное обучение
© 2018 Cisco and/or its affiliates. All rights reserved.
© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public#CLUS
4 Types of Analytics
8BRKSEC-1007
© 2018 Cisco and/or its affiliates. All rights reserved.
Аналитика на примере «Игр престолов»
deathtimeline.com
Анализ каждой
смерти во всех
сезонах –
жертва, убийца и
время
Отличный набор
данных по 200+
смертям сериала
© 2018 Cisco and/or its affiliates. All rights reserved.
Разобьем серии на 15-тиминутные интервалы
Смерти
происходят
преимущественно
к концу эпизода
© 2018 Cisco and/or its affiliates. All rights reserved.
Проанализируем каждый эпизод
Смерти чаще
всего происходят
в конце сезона,
чем в начале
© 2018 Cisco and/or its affiliates. All rights reserved.
Строим модель
Если (просмотр эпизода в последние 15 минут)
И (эпизод в конце сезона)
И если (Дейнерис Таргариен на экране)
вероятность увидеть убитого = ?
© 2018 Cisco and/or its affiliates. All rights reserved.
• Описательная
Когда чаще всего умирают герои?
• Диагностическая
В какое время лучше всего
смотреть «Игры престолов»,
чтобы увидеть меньше всего
смертей?
• Предсказательная
В начале 8-го сезона будет
меньше смертей, чем в его конце
• Предписывающая
Избегайте просмотра последних
15 минут каждого эпизода;
особенно к концу сезона
Делаем выводы: 4 типа аналитики
© 2018 Cisco and/or its affiliates. All rights reserved.
Исполнение
Обучение
Классификатор Предсказание
© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public
Обучающие данные
Машинное обучение
Новые данные
Машинное обучение и машинное обучение –
это как гриб и мухомор J
© 2018 Cisco and/or its affiliates. All rights reserved.
1. Загрузка данных и их предварительная обработка
2. Извлечение признаков. Один из самых важных этапов машинного
обучения, который превращает сырые данные в информацию, которую
может обрабатывать алгоритм машинного обучения
3. Тренировка модели, используя признаки
4. Повтор для поиска лучшей модели. Мы можем упростить модель,
снижая число признаков, или усложнить ее, добавив новые признаки,
новые источники данных или скомбинировав модели
5. Интеграция лучшей модели или моделей в «боевую» систему
6. Подача на вход модели боевой системы реальные, а не обучающие
данные
Как работает вся схема с машинным обучением
© 2018 Cisco and/or its affiliates. All rights reserved.
3 компонента машинного обучения
Данные
(датасет)
Признаки Алгоритмы
© 2018 Cisco and/or its affiliates. All rights reserved.
Обучающие
данные
© 2018 Cisco and/or its affiliates. All rights reserved.
Датасеты – основная проблема (сегодня)
Каков объем и
характер?
Чем больше данных для
анализа, тем выше
эффективность алгоритмов ML
Кто и как
подготовил?
Чтобы модель ML хорошо
сработала, датасет должен
быть правильно подготовлен и,
в ряде случаев, размечен
Есть ли в свободном
доступе?
Можете ли вы проверить
эффективность приобретаемой
или строящейся системы сами? А
как сравнивать разные решения?
Пора копить свой
датасет
У вас есть преимущество – вы
можете собрать данные именно
по вашей инфраструктуре. Но
вы должны начать и вам нужно
хранилище
© 2018 Cisco and/or its affiliates. All rights reserved.
Пример: мониторинг DNS
NB: сложно сравнивать алгоритмы между собой
© 2018 Cisco and/or its affiliates. All rights reserved.
Пример: 2 российских поставщика TI
По данным презентации Владимира Бенгина, Positive Technologies
IP-адреса
Домены
5907
(активных 563)
305351
(активных 4682)
Данные по C2C-фидам
за 01.02.2019-07.02.2019
760
(активных 10)
2568
(активных 24)
32
IP-адреса
44
домена
Пересечение
© 2018 Cisco and/or its affiliates. All rights reserved.
Примеры датасетов по ИБ: неполны, неточны и
разноформаты
1
2
3
4
5
Netresec (PCAP)
KDD Cup 1999
Web Attack Payloads
DARPA IDS Dataset
Stratosphere IPS
Dataset
6
7
8
9
10
Aktaion (Bro, phishing,
ransomware и др.)
Malicious URL Dataset
(Sysnet)
Malware Training Set
Ember (для malware)
NSA CDX
NB: Сisco обещает выложить свои датасеты в 2019–м году
© 2018 Cisco and/or its affiliates. All rights reserved.
Интересно, где датасеты с PHDays?
CTF – это
отличный
способ собрать
свой начальный
датасет
© 2018 Cisco and/or its affiliates. All rights reserved.
Антиспам
Чтобы научиться определять спам, нам нужны
десятки и сотни тысяч электронных сообщений
для анализа
UEBA
Чтобы научиться предсказывать поведение
пользователя, нужно отслеживать все его
действия в течение нескольких недель (и еще
делать контрольное обучение в атипичное время
- предотпускное, послеотпускное, перед
корпоративом и т.п.).
Разнообразие
это ключ к эффективности
машинного обучения
© 2018 Cisco and/or its affiliates. All rights reserved.
Разные данные требуют разной
обработки
Машинное обучение не понимает
разницы между шумом и полезными
данными
В датасеты могут быть
целенаправленно внесены
некорректные или обманные данные
Предварительная обработка датасета
© 2018 Cisco and/or its affiliates. All rights reserved.
Признаки
© 2018 Cisco and/or its affiliates. All rights reserved.
Домен
верхнего
уровня
Домен
второго
уровня
Домен
третьего
уровня
FQDN
www.cisco.com
© 2018 Cisco and/or its affiliates. All rights reserved.
На что обращать внимание при мониторинге
DNS с точки зрения безопасности?
1
2
3
4
5
В какое количество IP
резолвится домен?
Число стран в которых
размещаются IP домена?
Длина имени домена?
Минимальный, средний и
максимальный TTL домена?
Как часто за сутки менялись
IP домена?
6
7
8
Каков возраст домена
Насколько равномерно
распределены символы в домене?
Насколько осмыслен
домен?
© 2018 Cisco and/or its affiliates. All rights reserved.
Признаки для DNS-трафика: уровень I
Тип записи Значение
A или AAAA IP-адрес (IPv4 или IPv6)
NS Отвечающий за домен сервер имен
TXT Описание домена
MX Почтовый обменник
CNAME Альтернативное имя для ресурса (для
перенаправления на другое имя)
SOA Ключевые данные о зоне (например, TTL или
контакты владельца)
© 2018 Cisco and/or its affiliates. All rights reserved.
Признаки для DNS-трафика: уровень II
Протокол DNS IP/Сеть Регистрация домена
Длина FQDN Лексические
данные FQDN
IP-адреса ASN Контакты:
регистратор и
владелец
Дата создания
Длина домена
2-го/n-го
уровня
Лексические
данные
доменов 2-
го/n-го
уровня
Запаркованные
домены
CNAME, NS,
SOA, MX
Дата
окончания
Последнее
обновление
Значения TTL Коды ответов Страна /
геолокация
Временная
информация
© 2018 Cisco and/or its affiliates. All rights reserved.
Признаки для DNS-трафика: уровень III
• Энтропия / распределение символов в
FQDN
• Взаимосвязи между доменами / IP-
адресами / e-mail владельцев /
автономными системами (ASN)
• Вредоносная активность, связанная с
доменом / IP / e-mail владельцев /
автономными системами (ASN)
Кто нас атакует?
Какова инфраструктура
нападающих?
Специфические детали
угроз
© 2018 Cisco and/or its affiliates. All rights reserved.
Пример: разметка по длине домена
0
45
90
135
180
0 2250 4500 6750 9000
Число субдоменов
Фишинг
YouTube, Amazon
AWS, CDN, anti-virus,
anti-spam
slack-msgs.com
Средняядлина
© 2018 Cisco and/or its affiliates. All rights reserved.
Нормальное распределение длин поддоменов Аномалии в названии поддоменов
log.nu6timjqgq4dimbuhe.3ikfsb---отредактировано---cg3.7s3bnxqmavqy7sec.dojfgj.com
log.nu6timjqgq4dimbuhe.otlz5y---отредактировано---ivc.v55pgwcschs3cbee.dojfgj.com
Что скрывается в этой строке на 231 символ?
Утечка номеров кредитных карт через DNS
© 2018 Cisco and/or its affiliates. All rights reserved.
Acc. FDR
SPLT+BD+TLS+HTTP+DNS 99.993% 99.978%
TLS 94.836% 50.406%
DNS 99.496% 94.654%
HTTP 99.945% 98.996%
TLS+DNS 99.883% 96.551%
TLS+HTTP 99.955% 99.660%
HTTP+DNS 99.985% 99.956%
SPLT+BD+TLS 99.933% 70.351%
SPLT+BD+TLS+DNS 99.968% 98.043%
SPLT+BD+TLS+HTTP 99.983% 99.956%
TLS DNS
HTTP SPLT+BD
Признаки в сетевом трафике для детекта
зашифрованной малвари
На примере Cisco ETA
© 2018 Cisco and/or its affiliates. All rights reserved.
• Общие – длина, коды статуса, типы mime
• HTTP – URL, referrers, распределение символов
• HTTPS – аномальные значения, временные
параметры, контекст
• Глобальные – популярность домена/AS
• Внешние – whois, сертификаты TLS
600 признаков на один (!) Web-запрос
© 2018 Cisco and/or its affiliates. All rights reserved.
• Обычно анализируется более 800 атрибутов, полученных в
процессе выполнения анализируемого файла
• Сетевые подключения? Сканирование?
• Нестандартные протоколы?
• Использование интерфейсов API (каких)?
• Обращение к реестру?
• Работа с памятью?
• Изменения в файловой системе?
• Самокопирование или захват файлов
• Запуск других процессов?
• Окружение файла (например, e-mail, в котором он был)
• Шифрование и энтропия
Признаки у файла
© 2018 Cisco and/or its affiliates. All rights reserved.
Алгоритмы
© 2018 Cisco and/or its affiliates. All rights reserved.
Простые шаблоны
(сигнатуры, IoC…)
Статистические
методы
Правила
Почему нельзя по старинке?
© 2018 Cisco and/or its affiliates. All rights reserved.
Проверим вашу наблюдательность
katherinelangford.net
kyt6ea4ak4bvo35lrw.net
vs
© 2018 Cisco and/or its affiliates. All rights reserved.
Да, вы правы в 100% случаев! Наверное J
Rovnix Malware DGA-домен
katherinelangford.net kyt6ea4ak4bvo35lrw.net
vs
© 2018 Cisco and/or its affiliates. All rights reserved.
Пример: какой это домен?
© 2018 Cisco and/or its affiliates. All rights reserved.
Проверим вашу наблюдательность
christinepatterson.net
christinekirkpatrick.net
vs
© 2018 Cisco and/or its affiliates. All rights reserved.
Пример: какой это домен?
Suppobox Malware DGA-домен
christinekirkpatrick.net christinepatterson.net
vs
© 2018 Cisco and/or its affiliates. All rights reserved.
• Rovnix использует текст Декларации
независимости США как входные
данные для Domain Generation
Algorithm (DGA):
• kingwhichtotallyadminis.biz
• thareplunjudiciary.net
• townsunalienable.net
• taxeslawsmockhigh.net
• transientperfidythe.biz
• inhabitantslaindourmock.cn
• thworldthesuffer.biz
• Ботнет Matsnu выстраивает DGA на
базе словаря из 1300
существительных и глаголов (домены
состоят из 24 символов)
• scoreadmireluckapplyfitcouple.com
• plentyclubplatewatermiss.com
• benefitnarrowtowersliphabit.com
• accountmoveseemsmartconcert.com
• drawermodelattemptreview.com
• carecommitshineshiftchip.com
Злоумышленники не стоят на месте: NGDGA
© 2018 Cisco and/or its affiliates. All rights reserved.
Вся правда об алгоритмах/моделях
1
2
3
4
5
Нет универсального алгоритма для всех задач ИБ. Разные алгоритмы
помогают решать разные задачи для разных данных.
Вспоминаем – обучение и исполнение. В процессе исполнения модель не
учится! Машинное обучение итеративно и требует регулярного
переобучения! «Машинное обучение не требует обновления» – лукавство!
Выбор алгоритма – это баланс между скоростью работы, аккуратностью
предсказания и сложностью модели.
Исходную задачу можно решить разными способами (алгоритмами). От их
выбора зависит точность и скорость решения
Если датасет неполон или некачественный, то никакой алгоритм не
поможет!
© 2018 Cisco and/or its affiliates. All rights reserved.
Основные алгоритмы машинного обучения
Входные данные Классификация Вывод
Выделение
признаков
Собака
Машинное
обучение
с учителем
75%
Собака
Машинное
обучение
без учителя
25%
© 2018 Cisco and/or its affiliates. All rights reserved.
Идентификация подозрительных DNS
Норма
Непонятно
Аномалия
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
DNS
Request
Десятки миллиардов DNS-
запросов в сутки
Различные алгоритмы
обнаружения аномалий
Агрегированный рейтинг угрозы
позволяет разделять трафик
© 2018 Cisco and/or its affiliates. All rights reserved.
Модель всплесков активности для определения
вредоносных доменов
y.com
ДНИ
DNSЗАПРОСЫ
Огромное
количество
запросов DNS
собирается и
анализируется
Объем запросов DNS соответствует
известному шаблону, характерному для
exploit kit и предсказывает будущие атаки
DGA MALWARE EXPLOIT KIT PHISHING
y.com заблокирован до
того как атака началась
© 2018 Cisco and/or its affiliates. All rights reserved.
• Опираясь на значения по
каждому из проанализированных
атрибутов и следуя имеющемуся
дереву принятия решения
делается вердикт о
вредоносности того или иного
файла
• Предварительно необходимо
определить пороговые значения для
каждого параметра, означающие
переход из одного статуса («чистый») в
другой («зараженный»)
А в анализе файлов используются деревья
решений
Дерево принятия решений
Возможно,
чистый файл
Возможно,
ВПО
Да, ВПО
Да,
«чистый»
Да.
чистый
Да, ВПО
© 2018 Cisco and/or its affiliates. All rights reserved.
Классификация vs кластеризация
• Классификация – машинное обучение с учителем, то
есть обучение с помощью примеров. При известных
входе и выходе, неизвестна зависимость между ними.
Машинное обучение позволяет обнаружить эту
зависимость
Примеры: DGA, фишинг, спам, DNS-угрозы, загрузка вредоноса, фрод
• Кластеризация – машинное обучение без учителя, то
есть обучение, при котором испытуемая система
спонтанно обучается выполнять поставленную задачу
без вмешательства со стороны экспериментатора
Примеры: утечки данных, lateral movements, подбор учеток и т.п.
© 2018 Cisco and/or its affiliates. All rights reserved.
Обнаружение скомпрометированных учеток
© 2018 Cisco and/or its affiliates. All rights reserved.
А вот есть еще нейросети…
На примере бета-проекта в Cisco
• Классификация обычно
используется для
простых датасетов -
цифр, текстов, табличных
данных
• Для более сложных
данных (картинки, видео,
голос) лучше
использовать нейросети
• Анализ биометрии
сегодня делается обычно
с помощью нейросетей
© 2018 Cisco and/or its affiliates. All rights reserved.
Миллиарды
Netflow
• Statistical Methods
• Information-Theoretical Methods
• 70+ Unsupervised Anomaly Detectors
• Dynamic Adaptive Ensemble Creation
• Multiple-Instance Learning
• Neural Networks
• Rule Mining
• Random Forests
• Boosting
• ML: Supervised Learning
• Probabilistic Threat Propagation
• Graph-Statistical Methods
• Random Graphs
• Graph Methods
• Supervised Classifier Training
Обнаружение аномалий и
моделирование доверия
Классификация событий и
моделирование сущностей
Моделирование
взаимоотношений
© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public
Пример: множество алгоритмов для
мониторинга Netflow
© 2018 Cisco and/or its affiliates. All rights reserved.
Где взять людей?
• У вас есть нужные данные, но нет
правильных моделей. У вас есть
правильные модели, но нет
нужных данных
CISO Summit, начало 2000-х годов
• Сегодня у вас есть нужные
данные (и их слишком много) и
правильные (наверное) модели…
но нет аналитиков, которые могут
свести все это вместе
Антон Чувакин, VP Gartner
© 2018 Cisco and/or its affiliates. All rights reserved.
ИИ – это тоже
объект защиты
© 2018 Cisco and/or its affiliates. All rights reserved.
Три типа атак на искусственный интеллект
Извлечение
• Нарушитель
крадет
модели и
данные для
обучения
Уклонение
• Белые пятна
или обман
моделей
Отравление
• Манипуляция
обучающими
данными для
модификации
поведения и
принятия
решений
© 2018 Cisco and/or its affiliates. All rights reserved.
Искусственный интеллект тоже нуждается в
защите
Обучающие
данные
Обучение
Модели
Нарушитель
Принятиерешений
Эксперты
Безопасность
данных
Безопасность
моделей
Безопасность
операций
© 2018 Cisco and/or its affiliates. All rights reserved.
Подводим
итоги
© 2018 Cisco and/or its affiliates. All rights reserved.
1. Ползать Создание реальных ML приложений — Быть стабильным
2. Ходить Построить множество приложений — Быть повторяемым
3. Бегать Построить множество приложений для многих заказчиков —
Быть автоматизируемым
4. Летать Позволить клиентам делать это самим — Быть разработчиком
Большинство
вендоров тут
Путь к искусственному интеллекту в ИБ
© 2018 Cisco and/or its affiliates. All rights reserved.
Сигнатуры и IoC
IDS, AV, NGIPS, EDR,
TIP
Правила
NGFW, WSA, SIEM, ESA
Статистические модели
Netflow
Алгоритмы ИИ
© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public
Поэтому: комбинация защитных технологий
© 2018 Cisco and/or its affiliates. All rights reserved.
Какие данные вам нужны?
Прежде чем идти в машинное обучение по ИБ
Что вы хотите в них увидеть?
Как и где это «что» будет применено?
© 2018 Cisco and/or its affiliates. All rights reserved.
Вопросы вендору
1
2
3
4
5
Какие алгоритмы используются для обнаружения?
Какие наборы данных используются в алгоритме
Где запускаются алгоритмы (на узле, в ЦОДе, в облаке)?
Могут быть алгоритмы обучены на ваших данных?
Как много обучающих данных требуется?
Стремные вопросы
для большинства
вендоров
© 2018 Cisco and/or its affiliates. All rights reserved.
Если вы решились сами делать ИИ в ИБ
1
2
3
4
5
У вас есть необходимые датасеты?
У вас есть квалифицированные аналитики?
Какие алгоритмы вы будете использовать?
Вы можете использовать open source модели?
Как вы будете проверять качество своих моделей?
© 2018 Cisco and/or its affiliates. All rights reserved.
Cisco iCAM –
Intelligent Context
Aware Monitoring
(UEBA + DLP)
Cisco TIP –
внутренняя
платформа Big Data
Threat Intelligence
and Security Analytics
40 Billion
Файлов Cisco
защищено
16,000+
серверов
мониторится
10 секунд
на детект риска
200 TB
ElasticSearch
Cluster
2,2 PB
Hadoop Cluster
27 TB
памяти
2848
ядер
Users-to-Ops
100,000 : 1
NERD ALERT
Мы это не продаем!
Опыт внутренней разработки Cisco
© 2018 Cisco and/or its affiliates. All rights reserved.
• Решение iCAM
разрабатывалось
внутри службы ИБ
Cisco для
мониторинга
утечек
информации и
анализа поведения
пользователей
• Готового решения
мы не нашли
Часто приходится создавать системы ИИ
самостоятельно
© 2018 Cisco and/or its affiliates. All rights reserved.
iCAM People
Data
Identity
Policy
Identity
Data
Center
Lab
End
Points
Public
Cloud
User
Identity
Device
Identity
Applications
& Data
InfoSec
End User
HR/Legal
Manager
Raw Events
Corrective Action
Alert
Feedback
CPR
HRMS
LDAP
OnRamp
DCE
ISE
EMANCES
PSIRT
BI
DI
DLP
GDM
ARTCEPM
DSPL
iCAM: внутренняя разработка Cisco
© 2018 Cisco and/or its affiliates. All rights reserved.
Topic
(Services)
Behavior
Rules
События
пользователей
Box
Jive
SFDC
End-User’s
Manager
Уведомление
1
Behavior DB
4
Аномальное
поведение
6
7
Обратная связь
с менеджером
8
Анализ
поведения
5
Determine and Log the Cisco data at risk
Анализ событий3
Behavior Reconstruction
Balance
Security and
Productivity
Public Cloud
Обеспечение
контекста
User Identity: DSX, CES, HRMS, CPR
Data Identity: Symantec DLP, DSPL, PSIRT
Device Identity: ISE, DCE, GDM
Network Identity: EMAN
2
iCAM in green
Others in violet
ENG DC
Topic
Alfresco
Private Cloud
CITEIS
ENG Lab
Data Lake
…
…
Процесс работы iCAM в Cisco
© 2018 Cisco and/or its affiliates. All rights reserved.
• 10 секунд на детектирование
риска
• 24 часа на устранение риска
Скорость
• 4+ миллиардов событий
ежедневно
• 2000 инцидентов в квартал
Объемы
• 40+ миллиардов файлов Cisco
были защищены
• 16,000+ серверов мониторится
Ценность
для бизнеса
• User-To-Ops: 100,000 : 1
• 90% сигналов тревоги
управляются автоматически
• Только 1% инцидентов требует
ручной поддержки от Ops
Качество
операций
Эффект от iCAM в Cisco
15,2 миллиона долларов ежегодной экономии / сохранности
© 2018 Cisco and/or its affiliates. All rights reserved.
Раньше люди покупали
SIEM, чтобы не писать
сигнатуры для IDS.
Сегодня люди покупают
машинное обучение,
чтобы не писать правила
для SIEM.
Что дальше?
Вопросы?
alukatsk@cisco.com
NERD ALERT
#солнечноебанное! Ура!

Машинное обучение в кибербезопасности

  • 1.
    Искусственный интеллект вИБ - это вам не квантовая связность! 20 февраля 2019 Дичь или волшебный фонарь, освещающий путь?!
  • 2.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Искусственный интеллект
  • 3.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Нормальная активность Непонятная активностьВредоносная активность Почему это так важно сегодня? БелыеСморчки, дождевики, сыроежки… Мухоморы
  • 4.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Когда вы думаете об ИИ в ИБ? Вы строите свою ИБ Вы оцениваете чужую ИБ Вам интересно
  • 5.
    © 2018 Ciscoand/or its affiliates. All rights reserved.© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Confidential При традиционном подходе мы распознаем и заранее заносим в «черные списки» вредоносное что-то Любая проблема, которая может быть «оцифрована» и имеет большие объемы собранных данных является кандидатом для машинного обучения «Живые» данные Программа Вывод 101000 0110 00 01 11000011100 01110 1001 1101 111 0011 101000 0110 00 01 11000011100 01110 1001 1101 111 0011 Традиционный подход
  • 6.
    © 2018 Ciscoand/or its affiliates. All rights reserved.© 2018 Cisco and/or its affiliates. All rights reserved. Cisco Confidential ML фундаментально отличается от обычной разработки – вы даете машине ответы и она пишет по ним код (модель) и затем дает ответы на новые данные Машинное обучение наиболее эффективно для новых и неизвестных данных Обучающие данные Вывод Программа (модель) Машинное обучение
  • 7.
    © 2018 Ciscoand/or its affiliates. All rights reserved. © 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public#CLUS 4 Types of Analytics 8BRKSEC-1007
  • 8.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Аналитика на примере «Игр престолов» deathtimeline.com Анализ каждой смерти во всех сезонах – жертва, убийца и время Отличный набор данных по 200+ смертям сериала
  • 9.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Разобьем серии на 15-тиминутные интервалы Смерти происходят преимущественно к концу эпизода
  • 10.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Проанализируем каждый эпизод Смерти чаще всего происходят в конце сезона, чем в начале
  • 11.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Строим модель Если (просмотр эпизода в последние 15 минут) И (эпизод в конце сезона) И если (Дейнерис Таргариен на экране) вероятность увидеть убитого = ?
  • 12.
    © 2018 Ciscoand/or its affiliates. All rights reserved. • Описательная Когда чаще всего умирают герои? • Диагностическая В какое время лучше всего смотреть «Игры престолов», чтобы увидеть меньше всего смертей? • Предсказательная В начале 8-го сезона будет меньше смертей, чем в его конце • Предписывающая Избегайте просмотра последних 15 минут каждого эпизода; особенно к концу сезона Делаем выводы: 4 типа аналитики
  • 13.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Исполнение Обучение Классификатор Предсказание © 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public Обучающие данные Машинное обучение Новые данные Машинное обучение и машинное обучение – это как гриб и мухомор J
  • 14.
    © 2018 Ciscoand/or its affiliates. All rights reserved. 1. Загрузка данных и их предварительная обработка 2. Извлечение признаков. Один из самых важных этапов машинного обучения, который превращает сырые данные в информацию, которую может обрабатывать алгоритм машинного обучения 3. Тренировка модели, используя признаки 4. Повтор для поиска лучшей модели. Мы можем упростить модель, снижая число признаков, или усложнить ее, добавив новые признаки, новые источники данных или скомбинировав модели 5. Интеграция лучшей модели или моделей в «боевую» систему 6. Подача на вход модели боевой системы реальные, а не обучающие данные Как работает вся схема с машинным обучением
  • 15.
    © 2018 Ciscoand/or its affiliates. All rights reserved. 3 компонента машинного обучения Данные (датасет) Признаки Алгоритмы
  • 16.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Обучающие данные
  • 17.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Датасеты – основная проблема (сегодня) Каков объем и характер? Чем больше данных для анализа, тем выше эффективность алгоритмов ML Кто и как подготовил? Чтобы модель ML хорошо сработала, датасет должен быть правильно подготовлен и, в ряде случаев, размечен Есть ли в свободном доступе? Можете ли вы проверить эффективность приобретаемой или строящейся системы сами? А как сравнивать разные решения? Пора копить свой датасет У вас есть преимущество – вы можете собрать данные именно по вашей инфраструктуре. Но вы должны начать и вам нужно хранилище
  • 18.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Пример: мониторинг DNS NB: сложно сравнивать алгоритмы между собой
  • 19.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Пример: 2 российских поставщика TI По данным презентации Владимира Бенгина, Positive Technologies IP-адреса Домены 5907 (активных 563) 305351 (активных 4682) Данные по C2C-фидам за 01.02.2019-07.02.2019 760 (активных 10) 2568 (активных 24) 32 IP-адреса 44 домена Пересечение
  • 20.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Примеры датасетов по ИБ: неполны, неточны и разноформаты 1 2 3 4 5 Netresec (PCAP) KDD Cup 1999 Web Attack Payloads DARPA IDS Dataset Stratosphere IPS Dataset 6 7 8 9 10 Aktaion (Bro, phishing, ransomware и др.) Malicious URL Dataset (Sysnet) Malware Training Set Ember (для malware) NSA CDX NB: Сisco обещает выложить свои датасеты в 2019–м году
  • 21.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Интересно, где датасеты с PHDays? CTF – это отличный способ собрать свой начальный датасет
  • 22.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Антиспам Чтобы научиться определять спам, нам нужны десятки и сотни тысяч электронных сообщений для анализа UEBA Чтобы научиться предсказывать поведение пользователя, нужно отслеживать все его действия в течение нескольких недель (и еще делать контрольное обучение в атипичное время - предотпускное, послеотпускное, перед корпоративом и т.п.). Разнообразие это ключ к эффективности машинного обучения
  • 23.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Разные данные требуют разной обработки Машинное обучение не понимает разницы между шумом и полезными данными В датасеты могут быть целенаправленно внесены некорректные или обманные данные Предварительная обработка датасета
  • 24.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Признаки
  • 25.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Домен верхнего уровня Домен второго уровня Домен третьего уровня FQDN www.cisco.com
  • 26.
    © 2018 Ciscoand/or its affiliates. All rights reserved. На что обращать внимание при мониторинге DNS с точки зрения безопасности? 1 2 3 4 5 В какое количество IP резолвится домен? Число стран в которых размещаются IP домена? Длина имени домена? Минимальный, средний и максимальный TTL домена? Как часто за сутки менялись IP домена? 6 7 8 Каков возраст домена Насколько равномерно распределены символы в домене? Насколько осмыслен домен?
  • 27.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Признаки для DNS-трафика: уровень I Тип записи Значение A или AAAA IP-адрес (IPv4 или IPv6) NS Отвечающий за домен сервер имен TXT Описание домена MX Почтовый обменник CNAME Альтернативное имя для ресурса (для перенаправления на другое имя) SOA Ключевые данные о зоне (например, TTL или контакты владельца)
  • 28.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Признаки для DNS-трафика: уровень II Протокол DNS IP/Сеть Регистрация домена Длина FQDN Лексические данные FQDN IP-адреса ASN Контакты: регистратор и владелец Дата создания Длина домена 2-го/n-го уровня Лексические данные доменов 2- го/n-го уровня Запаркованные домены CNAME, NS, SOA, MX Дата окончания Последнее обновление Значения TTL Коды ответов Страна / геолокация Временная информация
  • 29.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Признаки для DNS-трафика: уровень III • Энтропия / распределение символов в FQDN • Взаимосвязи между доменами / IP- адресами / e-mail владельцев / автономными системами (ASN) • Вредоносная активность, связанная с доменом / IP / e-mail владельцев / автономными системами (ASN) Кто нас атакует? Какова инфраструктура нападающих? Специфические детали угроз
  • 30.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Пример: разметка по длине домена 0 45 90 135 180 0 2250 4500 6750 9000 Число субдоменов Фишинг YouTube, Amazon AWS, CDN, anti-virus, anti-spam slack-msgs.com Средняядлина
  • 31.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Нормальное распределение длин поддоменов Аномалии в названии поддоменов log.nu6timjqgq4dimbuhe.3ikfsb---отредактировано---cg3.7s3bnxqmavqy7sec.dojfgj.com log.nu6timjqgq4dimbuhe.otlz5y---отредактировано---ivc.v55pgwcschs3cbee.dojfgj.com Что скрывается в этой строке на 231 символ? Утечка номеров кредитных карт через DNS
  • 32.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Acc. FDR SPLT+BD+TLS+HTTP+DNS 99.993% 99.978% TLS 94.836% 50.406% DNS 99.496% 94.654% HTTP 99.945% 98.996% TLS+DNS 99.883% 96.551% TLS+HTTP 99.955% 99.660% HTTP+DNS 99.985% 99.956% SPLT+BD+TLS 99.933% 70.351% SPLT+BD+TLS+DNS 99.968% 98.043% SPLT+BD+TLS+HTTP 99.983% 99.956% TLS DNS HTTP SPLT+BD Признаки в сетевом трафике для детекта зашифрованной малвари На примере Cisco ETA
  • 33.
    © 2018 Ciscoand/or its affiliates. All rights reserved. • Общие – длина, коды статуса, типы mime • HTTP – URL, referrers, распределение символов • HTTPS – аномальные значения, временные параметры, контекст • Глобальные – популярность домена/AS • Внешние – whois, сертификаты TLS 600 признаков на один (!) Web-запрос
  • 34.
    © 2018 Ciscoand/or its affiliates. All rights reserved. • Обычно анализируется более 800 атрибутов, полученных в процессе выполнения анализируемого файла • Сетевые подключения? Сканирование? • Нестандартные протоколы? • Использование интерфейсов API (каких)? • Обращение к реестру? • Работа с памятью? • Изменения в файловой системе? • Самокопирование или захват файлов • Запуск других процессов? • Окружение файла (например, e-mail, в котором он был) • Шифрование и энтропия Признаки у файла
  • 35.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Алгоритмы
  • 36.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Простые шаблоны (сигнатуры, IoC…) Статистические методы Правила Почему нельзя по старинке?
  • 37.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Проверим вашу наблюдательность katherinelangford.net kyt6ea4ak4bvo35lrw.net vs
  • 38.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Да, вы правы в 100% случаев! Наверное J Rovnix Malware DGA-домен katherinelangford.net kyt6ea4ak4bvo35lrw.net vs
  • 39.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Пример: какой это домен?
  • 40.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Проверим вашу наблюдательность christinepatterson.net christinekirkpatrick.net vs
  • 41.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Пример: какой это домен? Suppobox Malware DGA-домен christinekirkpatrick.net christinepatterson.net vs
  • 42.
    © 2018 Ciscoand/or its affiliates. All rights reserved. • Rovnix использует текст Декларации независимости США как входные данные для Domain Generation Algorithm (DGA): • kingwhichtotallyadminis.biz • thareplunjudiciary.net • townsunalienable.net • taxeslawsmockhigh.net • transientperfidythe.biz • inhabitantslaindourmock.cn • thworldthesuffer.biz • Ботнет Matsnu выстраивает DGA на базе словаря из 1300 существительных и глаголов (домены состоят из 24 символов) • scoreadmireluckapplyfitcouple.com • plentyclubplatewatermiss.com • benefitnarrowtowersliphabit.com • accountmoveseemsmartconcert.com • drawermodelattemptreview.com • carecommitshineshiftchip.com Злоумышленники не стоят на месте: NGDGA
  • 43.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Вся правда об алгоритмах/моделях 1 2 3 4 5 Нет универсального алгоритма для всех задач ИБ. Разные алгоритмы помогают решать разные задачи для разных данных. Вспоминаем – обучение и исполнение. В процессе исполнения модель не учится! Машинное обучение итеративно и требует регулярного переобучения! «Машинное обучение не требует обновления» – лукавство! Выбор алгоритма – это баланс между скоростью работы, аккуратностью предсказания и сложностью модели. Исходную задачу можно решить разными способами (алгоритмами). От их выбора зависит точность и скорость решения Если датасет неполон или некачественный, то никакой алгоритм не поможет!
  • 44.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Основные алгоритмы машинного обучения Входные данные Классификация Вывод Выделение признаков Собака Машинное обучение с учителем 75% Собака Машинное обучение без учителя 25%
  • 45.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Идентификация подозрительных DNS Норма Непонятно Аномалия DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request DNS Request Десятки миллиардов DNS- запросов в сутки Различные алгоритмы обнаружения аномалий Агрегированный рейтинг угрозы позволяет разделять трафик
  • 46.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Модель всплесков активности для определения вредоносных доменов y.com ДНИ DNSЗАПРОСЫ Огромное количество запросов DNS собирается и анализируется Объем запросов DNS соответствует известному шаблону, характерному для exploit kit и предсказывает будущие атаки DGA MALWARE EXPLOIT KIT PHISHING y.com заблокирован до того как атака началась
  • 47.
    © 2018 Ciscoand/or its affiliates. All rights reserved. • Опираясь на значения по каждому из проанализированных атрибутов и следуя имеющемуся дереву принятия решения делается вердикт о вредоносности того или иного файла • Предварительно необходимо определить пороговые значения для каждого параметра, означающие переход из одного статуса («чистый») в другой («зараженный») А в анализе файлов используются деревья решений Дерево принятия решений Возможно, чистый файл Возможно, ВПО Да, ВПО Да, «чистый» Да. чистый Да, ВПО
  • 48.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Классификация vs кластеризация • Классификация – машинное обучение с учителем, то есть обучение с помощью примеров. При известных входе и выходе, неизвестна зависимость между ними. Машинное обучение позволяет обнаружить эту зависимость Примеры: DGA, фишинг, спам, DNS-угрозы, загрузка вредоноса, фрод • Кластеризация – машинное обучение без учителя, то есть обучение, при котором испытуемая система спонтанно обучается выполнять поставленную задачу без вмешательства со стороны экспериментатора Примеры: утечки данных, lateral movements, подбор учеток и т.п.
  • 49.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Обнаружение скомпрометированных учеток
  • 50.
    © 2018 Ciscoand/or its affiliates. All rights reserved. А вот есть еще нейросети… На примере бета-проекта в Cisco • Классификация обычно используется для простых датасетов - цифр, текстов, табличных данных • Для более сложных данных (картинки, видео, голос) лучше использовать нейросети • Анализ биометрии сегодня делается обычно с помощью нейросетей
  • 51.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Миллиарды Netflow • Statistical Methods • Information-Theoretical Methods • 70+ Unsupervised Anomaly Detectors • Dynamic Adaptive Ensemble Creation • Multiple-Instance Learning • Neural Networks • Rule Mining • Random Forests • Boosting • ML: Supervised Learning • Probabilistic Threat Propagation • Graph-Statistical Methods • Random Graphs • Graph Methods • Supervised Classifier Training Обнаружение аномалий и моделирование доверия Классификация событий и моделирование сущностей Моделирование взаимоотношений © 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public Пример: множество алгоритмов для мониторинга Netflow
  • 52.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Где взять людей? • У вас есть нужные данные, но нет правильных моделей. У вас есть правильные модели, но нет нужных данных CISO Summit, начало 2000-х годов • Сегодня у вас есть нужные данные (и их слишком много) и правильные (наверное) модели… но нет аналитиков, которые могут свести все это вместе Антон Чувакин, VP Gartner
  • 53.
    © 2018 Ciscoand/or its affiliates. All rights reserved. ИИ – это тоже объект защиты
  • 54.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Три типа атак на искусственный интеллект Извлечение • Нарушитель крадет модели и данные для обучения Уклонение • Белые пятна или обман моделей Отравление • Манипуляция обучающими данными для модификации поведения и принятия решений
  • 55.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Искусственный интеллект тоже нуждается в защите Обучающие данные Обучение Модели Нарушитель Принятиерешений Эксперты Безопасность данных Безопасность моделей Безопасность операций
  • 56.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Подводим итоги
  • 57.
    © 2018 Ciscoand/or its affiliates. All rights reserved. 1. Ползать Создание реальных ML приложений — Быть стабильным 2. Ходить Построить множество приложений — Быть повторяемым 3. Бегать Построить множество приложений для многих заказчиков — Быть автоматизируемым 4. Летать Позволить клиентам делать это самим — Быть разработчиком Большинство вендоров тут Путь к искусственному интеллекту в ИБ
  • 58.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Сигнатуры и IoC IDS, AV, NGIPS, EDR, TIP Правила NGFW, WSA, SIEM, ESA Статистические модели Netflow Алгоритмы ИИ © 2018 Cisco and/or its affiliates. All rights reserved. Cisco Public Поэтому: комбинация защитных технологий
  • 59.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Какие данные вам нужны? Прежде чем идти в машинное обучение по ИБ Что вы хотите в них увидеть? Как и где это «что» будет применено?
  • 60.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Вопросы вендору 1 2 3 4 5 Какие алгоритмы используются для обнаружения? Какие наборы данных используются в алгоритме Где запускаются алгоритмы (на узле, в ЦОДе, в облаке)? Могут быть алгоритмы обучены на ваших данных? Как много обучающих данных требуется? Стремные вопросы для большинства вендоров
  • 61.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Если вы решились сами делать ИИ в ИБ 1 2 3 4 5 У вас есть необходимые датасеты? У вас есть квалифицированные аналитики? Какие алгоритмы вы будете использовать? Вы можете использовать open source модели? Как вы будете проверять качество своих моделей?
  • 62.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Cisco iCAM – Intelligent Context Aware Monitoring (UEBA + DLP) Cisco TIP – внутренняя платформа Big Data Threat Intelligence and Security Analytics 40 Billion Файлов Cisco защищено 16,000+ серверов мониторится 10 секунд на детект риска 200 TB ElasticSearch Cluster 2,2 PB Hadoop Cluster 27 TB памяти 2848 ядер Users-to-Ops 100,000 : 1 NERD ALERT Мы это не продаем! Опыт внутренней разработки Cisco
  • 63.
    © 2018 Ciscoand/or its affiliates. All rights reserved. • Решение iCAM разрабатывалось внутри службы ИБ Cisco для мониторинга утечек информации и анализа поведения пользователей • Готового решения мы не нашли Часто приходится создавать системы ИИ самостоятельно
  • 64.
    © 2018 Ciscoand/or its affiliates. All rights reserved. iCAM People Data Identity Policy Identity Data Center Lab End Points Public Cloud User Identity Device Identity Applications & Data InfoSec End User HR/Legal Manager Raw Events Corrective Action Alert Feedback CPR HRMS LDAP OnRamp DCE ISE EMANCES PSIRT BI DI DLP GDM ARTCEPM DSPL iCAM: внутренняя разработка Cisco
  • 65.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Topic (Services) Behavior Rules События пользователей Box Jive SFDC End-User’s Manager Уведомление 1 Behavior DB 4 Аномальное поведение 6 7 Обратная связь с менеджером 8 Анализ поведения 5 Determine and Log the Cisco data at risk Анализ событий3 Behavior Reconstruction Balance Security and Productivity Public Cloud Обеспечение контекста User Identity: DSX, CES, HRMS, CPR Data Identity: Symantec DLP, DSPL, PSIRT Device Identity: ISE, DCE, GDM Network Identity: EMAN 2 iCAM in green Others in violet ENG DC Topic Alfresco Private Cloud CITEIS ENG Lab Data Lake … … Процесс работы iCAM в Cisco
  • 66.
    © 2018 Ciscoand/or its affiliates. All rights reserved. • 10 секунд на детектирование риска • 24 часа на устранение риска Скорость • 4+ миллиардов событий ежедневно • 2000 инцидентов в квартал Объемы • 40+ миллиардов файлов Cisco были защищены • 16,000+ серверов мониторится Ценность для бизнеса • User-To-Ops: 100,000 : 1 • 90% сигналов тревоги управляются автоматически • Только 1% инцидентов требует ручной поддержки от Ops Качество операций Эффект от iCAM в Cisco 15,2 миллиона долларов ежегодной экономии / сохранности
  • 67.
    © 2018 Ciscoand/or its affiliates. All rights reserved. Раньше люди покупали SIEM, чтобы не писать сигнатуры для IDS. Сегодня люди покупают машинное обучение, чтобы не писать правила для SIEM. Что дальше? Вопросы?
  • 68.