Омар Ганиев (Россия). Обзор атак на модели машинного обучения

Обзор атак на модели
машинного обучения
Омар Ганиев

Мен
● Никнейм Beched
● Деятельность и интересы:
○ Consulting & Security assessment
○ Penetration testing & Security monitoring
○ Red team & Bug bounty
○ Social engineering & Training
○ Code audit & Secure development
○ DDoS testing & Performance audit

Вводные
● Машинное обучение (ML) и искусственный интеллект – широкая область
● Для этих технологий есть специфичные угрозы и атаки
● В последние годы был опубликован ряд материалов и инструментов
● Исследования касались как обхода средств защиты, так и уязвимостей
различных прикладных систем
● Всё больше потребительских устройств оснащается технологиями ML
● Бытовая техника, смартфоны, автомобили, медицинское оборудование

Вводные
● Машинное обучение – это в основном про статистику
● Наиболее продвинутые модели используют нейронные сети
● Идея нейронных сетей позаимствована у природы
● Но так ли защищена нейронная сеть у нас в голове?
● . . .

Вводные
● . . . А у нас в компьютере?
● Похоже, что нет.

Проблемы и грабли в ML
● Мало данных для обучения или они плохие
● Ненормализованные данные разной природы
● Непонимание данных, неправильный подбор признаков
● Неправильный выбор функции потерь, дисбаланс цены ошибок
● Автокорреляция признаков, переобучение

Роль атакующего
● Последствия неправильного построения моделей – ошибки 1 и 2 рода
● Как атакующий может «помочь» модели ошибиться?
● Подумаем над моделью нарушителя и угроз
● Что атакующий может знать, что он может делать, чего он хочет?

Что может знать атакующий?
● Обучающая или тестовая выборка (training/testing dataset)
● Используемые признаки (features)
● Используемый алгоритм обучения

Что может делать атакующий?
● Модифицировать и отравлять данные
● Получать результат классификации для любого входного вектора
● Получать результат функции алгоритма (расстояние от разделяющей
гиперплоскости)
● Взаимодействовать с моделью как по основному протоколу, так и по
сторонним каналам (недостатки программной реализации)

Что может хотеть атакующий?
● Получить информацию о данных (нарушить конфиденциальность)
● Сделать невозможной работу пользователей (нарушить доступность)
● Обойти механизмы защиты (нарушить целостность)
● Целью атаки может быть как конкретный результат классификации
(targeted adversarial attack), так и произвольный некорректный (non-targeted,
indiscriminative)

Последствия
● В результате атак возникает множество угроз
● ML используется для различных бизнес-задач, и атаки могут разрушить их
функцию
● Обход авторизации и аутентификации
● Кража интеллектуальной собственности
● Утечка конфиденциальных данных
● Ошибки экономических и торговых стратегий

Линейные модели
● Модели с простыми решающими функциями часто легко сломать
● Зная вычисляемые признаки, атакующий может их непрерывно менять,
сдвигая вектор
● В простейшем случае, независимо сдвигая координаты в пространстве
признаков, можно пересечь разделяющую плоскость

Нейронные сети
● В последние 2-3 года бум различных статей и разработок на тему
Adversarial Machine Learning
● Большинство примеров касается компьютерного зрения
● Генеративно-состязательные сети (Generative Adversarial Networks)
● Решают оптимизационную задачу – максимизировать ошибку
дискриминации
● Результаты порой поражают – у нейронных сетей могут быть
галлюцинации и воспоминания!

● Главный инструмент этих техник – градиентный спуск
● Имея доступ к модели и возможности подсчитывать градиент, можно
минимизировать расстояние от определённого класса или значение функции
решения
● В результат, начав со случайного изображения, можно получить
изображение, которое классифицируется как кот

● Эти алгоритмы легли в основу таких техник как Artistic style transfer и Deep
mind
● Приложение Prisma и другие
● В свёрточных нейронных сетях слои отвечают за распознавание
различных уровней абстракции в изображении
● Это может быть стиль или содержание изображения
● Оптимизируя определённые слои, можно «скрестить» изображения или
сделать их похожими на котов

Чёрный ящик
● Что если у атакующего нет доступа к модели?
● Он не может локально посчитать градиент и оптимизировать нужную
функцию
● Но он может обращаться к модели и получать результат классификации

● Иногда при blackbox-атаке можно получить значение решающей функции
(score)
● В таком случае можно численно оценить градиент и провести примерно
такую же атаку, как и ранее
● Есть также иные подходы, включая генетические алгоритмы
● Пример: EvadeML https://evademl.org/

● Но часто есть возможность только получить только результат
классификации (без raw-значения или вероятности)
● Такой подход также предлагался как защита от атак с использованием
градиента

● Сразу возникает идея построить аппроксимирующую модель и провести
градиентный спуск на ней
● Это означает, что мы используем blackbox-классификацию для разметки
выборки
● Затем мы обучаем свою суррогатную модель на этой выборке
● Затем мы атакуем свою суррогатную модель и пробуем использовать
результат атаки на оригинальной модели
● Пример: MalGAN https://arxiv.org/pdf/1702.05983.pdf

Отравление обучения
● Если атакующий может влиять на выборку, он может её отравить
● Это касается IPS/IDS/WAF, антиспама, поисковых систем и т.д.
● Задача отравления – это задача максимизации функции потерь
● Вместо градиентного спуска производится градиентный подъём
● Пример для SVM: https://arxiv.org/pdf/1206.6389.pdf

Извлечение данных
● Зачастую обучающая выборка содержит секретные данные
● При помощи описанных выше и других атак они могут быть извлечены или
аппроксимированы
● Это могут быть медицинские данные или закрытые финансовые
показатели
● Пример исследования: https://arxiv.org/pdf/1306.4447.pdf

Извлечение данных
● Доказана неэффективность Differential Privacy для защиты от утечек
● Более того, абсолютно не защищено даже недецентрализованное
обучение (collaborative learning): https://arxiv.org/pdf/1702.07464.pdf

Применение ML в ИБ
● Применений ML очень много
● Рассмотрим некоторые типы ИБ-решений, где активно используют ML
● Чаще всего это сводится к задаче классификации атака/не атака

Применение ML в ИБ
● Биометрия (Touch ID, Face ID)
● Выявление сетевых атак (IDPS/WAF/Anti-DDoS)
● Антифрод (кластеризация и классификация транзакций)
● Антиспам (классификация сообщений)
● Антивирусы (классификация исполняемого кода)
● SIEM (выявление аномалий в последовательностях событий)
● DLP (поиск негатива в тексте, выявление скрытых каналов)

WAF
● Web Application Firewall
● На этапе обучения можно отравлять данные запросами с векторами атак
● Это может позволить обойти WAF или спровоцировать FP-срабатывания

WAF
● В случае debug-режима работы или доступа к логам возможно получение
информации о классификации атаки и значении функции
● Чёрным ящиком можно также определить многие признаки, например,
наличие тех или иных сигнатур
● Также можно определить, какие форматы данных и поля HTTP-протокола
понимает фаервол, инкапсулируя в них векторы атаки

Антиспам
● Antispam
● Можно помечать легитимные сообщения как спам и наоборот
● Можно почти неограниченно вычислять результат классификации любых
писем
● Многие параметры модели могут утечь через отладочную информацию в
заголовках в переписке или по сторонним каналам
● В результате можно испортить работу механизма или обойти его

Антиспам
● Отравлять данные можно даже в массовых сервисах
● GMail, Yandex, etc

Антиспам
● Значение функции может утечь через цитату в письме
● MDaemon

Антиспам
● Отладочная информация
может попасть в текст
жалобы провайдеру! ☺
● Kaspersky Security for
Linux Mail Server

Антиспам
● Туда же могут попасть
даже все признаки, их
описание и вес!
● SpamAssasin

Антивирусы
● Malware detection
● Современные антивирусы повально используют ML
● Сигнатуры работают плохо, поэтому нужны более умные методы
обнаружения вредоносного ПО
● На эту тему написано немало работ, а также есть немало исследований на
тему обхода таких систем

Биометрия
● Biometrical auth, identity management
● Можно обмануть системы распознавания лиц или отпечатков пальцев
● Так можно уйти неопознанным или прикинуться другим человеком
● Популярная библиотека для распознавания лиц – FaceNet от Google
● Основана на tensorflow и sklearn (SVC)
● Скоро выложу PoC для обхода классификатора FaceNet
● См. на https://github.com/beched

SEO
● Search Engine Optimization
● SEO-шники уже годами неосознанно занимаются взломом моделей
машинного обучения
● Они подбирают признаки и ждут апдейта поисковых систем, чтоб оценить
влияние этих признаков на ранжирование
● Многие признаки достоверно известны и очевидны (TF-IDF, ИЦ, PR)
● Но в реальности используются тысячи признаков, которые уже не
интерпретируются

SEO
● Дилетантская мысль, которая меня не покидала пару лет – что если
провести следующую атаку (например, на Яндекс):
○ Взять выборку поисковых запросов и их результатов
○ Положение страницы в результатах – это численная оценка релевантности
○ Известен алгоритм, лежащий в основе ранжирования Y: MatrixNet
○ Обучим свой MatrixNet на извлечённой выборке
○ Получим приближённую модель (в подпространстве признаков) ранжирования
○ Решим задачу оптимизации и сможем генерировать страницы, которые попадут в топ
○ PROFIT!

Интернет-маркетинг
● Контекстная реклама основана на интересах пользователя
● Интересы пользователя могут быть основаны на конфиденциальных
данных (посещение определённых сайтов, их длительность, переписки)
● Эти данные могут статью целью атаки мошенников или конкурентов
● Также можно отравить такие выборки, сгенерировав определённую
активность пользователей, и нанести ущерб рекламной кампании
● Кроме того, статистические методы используются для A/B-тестирования
● Известны случаи атак на A/B-тесты (отравление) конкурентов

Беспилотные автомобили
● В ближайшие годы автомобили станут беспилотными
● Важнейшие компоненты автопилота – это компьютерное зрение, механизм
принятия решений, оценка риска ситуации или манёвра и т.д.
● Как мы уже поняли, эти технологии уже сломаны

Защита
● Ниша пока молода, и технологии защиты от описанных и иных атак пока
слабо развиты
● Есть ряд инструментов для оценки защищённости модели
● Есть несовершенные подходы для сокрытия данных, противодействия
градиентным методам, отравлению и т.д.

Рекомендации
● Понимать свою модель угроз
● Санитизировать данные, удалить выбросы
● Использовать модели, устойчивые к шуму
● Минимизировать возможности взаимодействия атакующего с моделью
● Обфусцировать выборки
● Обучаться на adversarial-выборках
● Проводить аудит построенных моделей и алгоритмов, оценивать их
устойчивость к adversarial-атакам

Рекомендации
● Также нужно следовать общим рекомендациям построения хороших
моделей
● Как сказал профессор Andrew Ng,
«It's not who has the best algorithm that wins, It's who has
the most data»

Ссылки
● Общая информация, разное:
○ https://en.wikipedia.org/wiki/Adversarial_machine_learning
○ https://transcranial.github.io/keras-js/#/mnist-acgan
○ https://harishnarayanan.org/writing/artistic-style-transfer/

Ссылки
● Научные статьи:
○ https://arxiv.org/pdf/1406.2661.pdf

Ссылки
● Защита, инструменты:
○ https://people.eecs.berkeley.edu/~adj/publications/paper-files/asiaccs06.pdf
○ https://blog.openai.com/adversarial-example-research/
○ http://www.cleverhans.io/security/privacy/ml/2017/02/15/why-attacking-machine-learning-is-easier-than-
defending-it.html
○ https://github.com/tensorflow/cleverhans
○ http://pralab.diee.unica.it/en/AdversariaLib
○ https://github.com/cchio/deep-pwning

Ссылки
● Соревнования по adversarial ML:
○ https://www.kaggle.com/c/nips-2017-non-targeted-adversarial-attack
○ https://www.kaggle.com/c/nips-2017-targeted-adversarial-attack
○ https://www.kaggle.com/c/nips-2017-defense-against-adversarial-attack
● CTF write-up:
○ https://github.com/ctfs/write-ups-2016/tree/master/plaidctf-2016/reversing/rage-against-the-machine-250

Ссылки
● Обход антивирусов:
○ https://github.com/sslab-gatech/avpass
○ https://www.blackhat.com/docs/us-17/thursday/us-17-Jung-AVPASS-Leaking-And-Bypassing-Anitvirus-
Detection-Model-Automatically.pdf
○ https://www.blackhat.com/docs/us-17/thursday/us-17-Anderson-Bot-Vs-Bot-Evading-Machine-Learning-
Malware-Detection-wp.pdf
○ https://www.blackhat.com/docs/us-17/thursday/us-17-Anderson-Bot-Vs-Bot-Evading-Machine-Learning-
Malware-Detection.pdf
○ https://media.defcon.org/DEF%20CON%2025/DEF%20CON%2025%20presentations/DEFCON-25-
Hyrum-Anderson-Evading-Next-Gen-AV-Using-AI.pdf

Омар Ганиев (Россия). Обзор атак на модели машинного обучения

Recommended

Recommended

More Related Content

Similar to Омар Ганиев (Россия). Обзор атак на модели машинного обучения

Similar to Омар Ганиев (Россия). Обзор атак на модели машинного обучения (20)

More from KazHackStan

More from KazHackStan (20)

Омар Ганиев (Россия). Обзор атак на модели машинного обучения