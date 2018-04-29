Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Обзор атак на модели машинного обучения Омар Ганиев
Мен ● Никнейм Beched ● Деятельность и интересы: ○ Consulting & Security assessment ○ Penetration testing & Security monito...
ВВЕДЕНИЕ
Вводные ● Машинное обучение (ML) и искусственный интеллект – широкая область ● Для этих технологий есть специфичные угрозы...
Вводные ● Машинное обучение – это в основном про статистику ● Наиболее продвинутые модели используют нейронные сети ● Идея...
Вводные ● . . . А у нас в компьютере? ● Похоже, что нет.
СИСТЕМАТИЗАЦИЯ
Проблемы и грабли в ML ● Мало данных для обучения или они плохие ● Ненормализованные данные разной природы ● Непонимание д...
Роль атакующего ● Последствия неправильного построения моделей – ошибки 1 и 2 рода ● Как атакующий может «помочь» модели о...
Что может знать атакующий? ● Обучающая или тестовая выборка (training/testing dataset) ● Используемые признаки (features) ...
Что может делать атакующий? ● Модифицировать и отравлять данные ● Получать результат классификации для любого входного век...
Что может хотеть атакующий? ● Получить информацию о данных (нарушить конфиденциальность) ● Сделать невозможной работу поль...
Последствия ● В результате атак возникает множество угроз ● ML используется для различных бизнес-задач, и атаки могут разр...
ТЕХНОЛОГИИ
Линейные модели ● Модели с простыми решающими функциями часто легко сломать ● Зная вычисляемые признаки, атакующий может и...
Нейронные сети ● В последние 2-3 года бум различных статей и разработок на тему Adversarial Machine Learning ● Большинство...
Нейронные сети ● Главный инструмент этих техник – градиентный спуск ● Имея доступ к модели и возможности подсчитывать град...
Нейронные сети ● Эти алгоритмы легли в основу таких техник как Artistic style transfer и Deep mind ● Приложение Prisma и д...
Чёрный ящик ● Что если у атакующего нет доступа к модели? ● Он не может локально посчитать градиент и оптимизировать нужну...
Чёрный ящик ● Иногда при blackbox-атаке можно получить значение решающей функции (score) ● В таком случае можно численно о...
Чёрный ящик ● Но часто есть возможность только получить только результат классификации (без raw-значения или вероятности) ...
Чёрный ящик ● Сразу возникает идея построить аппроксимирующую модель и провести градиентный спуск на ней ● Это означает, ч...
Отравление обучения ● Если атакующий может влиять на выборку, он может её отравить ● Это касается IPS/IDS/WAF, антиспама, ...
Извлечение данных ● Зачастую обучающая выборка содержит секретные данные ● При помощи описанных выше и других атак они мог...
Извлечение данных ● Доказана неэффективность Differential Privacy для защиты от утечек ● Более того, абсолютно не защищено...
ПРИМЕРЫ
Применение ML в ИБ ● Применений ML очень много ● Рассмотрим некоторые типы ИБ-решений, где активно используют ML ● Чаще вс...
Применение ML в ИБ ● Биометрия (Touch ID, Face ID) ● Выявление сетевых атак (IDPS/WAF/Anti-DDoS) ● Антифрод (кластеризация...
WAF ● Web Application Firewall ● На этапе обучения можно отравлять данные запросами с векторами атак ● Это может позволить...
WAF ● В случае debug-режима работы или доступа к логам возможно получение информации о классификации атаки и значении функ...
Антиспам ● Antispam ● Можно помечать легитимные сообщения как спам и наоборот ● Можно почти неограниченно вычислять резуль...
Антиспам ● Отравлять данные можно даже в массовых сервисах ● GMail, Yandex, etc
Антиспам ● Значение функции может утечь через цитату в письме ● MDaemon
Антиспам ● Отладочная информация может попасть в текст жалобы провайдеру!  ● Kaspersky Security for Linux Mail Server
Антиспам ● Туда же могут попасть даже все признаки, их описание и вес! ● SpamAssasin
Антивирусы ● Malware detection ● Современные антивирусы повально используют ML ● Сигнатуры работают плохо, поэтому нужны б...
Биометрия ● Biometrical auth, identity management ● Можно обмануть системы распознавания лиц или отпечатков пальцев ● Так ...
SEO ● Search Engine Optimization ● SEO-шники уже годами неосознанно занимаются взломом моделей машинного обучения ● Они по...
SEO ● Дилетантская мысль, которая меня не покидала пару лет – что если провести следующую атаку (например, на Яндекс): ○ В...
Интернет-маркетинг ● Контекстная реклама основана на интересах пользователя ● Интересы пользователя могут быть основаны на...
Беспилотные автомобили ● В ближайшие годы автомобили станут беспилотными ● Важнейшие компоненты автопилота – это компьютер...
ЗАЩИТА
Защита ● Ниша пока молода, и технологии защиты от описанных и иных атак пока слабо развиты ● Есть ряд инструментов для оце...
Рекомендации ● Понимать свою модель угроз ● Санитизировать данные, удалить выбросы ● Использовать модели, устойчивые к шум...
Рекомендации ● Также нужно следовать общим рекомендациям построения хороших моделей ● Как сказал профессор Andrew Ng, «It'...
ССЫЛКИ
Ссылки ● Общая информация, разное: ○ https://en.wikipedia.org/wiki/Adversarial_machine_learning ○ https://transcranial.git...
Ссылки ● Научные статьи: ○ https://arxiv.org/pdf/1406.2661.pdf ○ https://arxiv.org/pdf/1206.6389.pdf ○ https://arxiv.org/p...
Ссылки ● Защита, инструменты: ○ https://people.eecs.berkeley.edu/~adj/publications/paper-files/asiaccs06.pdf ○ https://blo...
Ссылки ● Соревнования по adversarial ML: ○ https://www.kaggle.com/c/nips-2017-non-targeted-adversarial-attack ○ https://ww...
Ссылки ● Обход антивирусов: ○ https://github.com/sslab-gatech/avpass ○ https://www.blackhat.com/docs/us-17/thursday/us-17-...
@beched
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Attacks against machine learning algorithms
Upcoming SlideShare
Loading in …5
×

Attacks against machine learning algorithms

8 views

Published on

Overview of weaknesses, vulnerabilities and threats of machine learning models

Published in: Internet
no profile picture user

  • Be the first to comment

  • Be the first to like this

Attacks against machine learning algorithms

  1. 1. Обзор атак на модели машинного обучения Омар Ганиев
  2. 2. Мен ● Никнейм Beched ● Деятельность и интересы: ○ Consulting & Security assessment ○ Penetration testing & Security monitoring ○ Red team & Bug bounty ○ Social engineering & Training ○ Code audit & Secure development ○ DDoS testing & Performance audit
  3. 3. ВВЕДЕНИЕ
  4. 4. Вводные ● Машинное обучение (ML) и искусственный интеллект – широкая область ● Для этих технологий есть специфичные угрозы и атаки ● В последние годы был опубликован ряд материалов и инструментов ● Исследования касались как обхода средств защиты, так и уязвимостей различных прикладных систем ● Всё больше потребительских устройств оснащается технологиями ML ● Бытовая техника, смартфоны, автомобили, медицинское оборудование
  5. 5. Вводные ● Машинное обучение – это в основном про статистику ● Наиболее продвинутые модели используют нейронные сети ● Идея нейронных сетей позаимствована у природы ● Но так ли защищена нейронная сеть у нас в голове? ● . . .
  6. 6. Вводные ● . . . А у нас в компьютере? ● Похоже, что нет.
  7. 7. СИСТЕМАТИЗАЦИЯ
  8. 8. Проблемы и грабли в ML ● Мало данных для обучения или они плохие ● Ненормализованные данные разной природы ● Непонимание данных, неправильный подбор признаков ● Неправильный выбор функции потерь, дисбаланс цены ошибок ● Автокорреляция признаков, переобучение
  9. 9. Роль атакующего ● Последствия неправильного построения моделей – ошибки 1 и 2 рода ● Как атакующий может «помочь» модели ошибиться? ● Подумаем над моделью нарушителя и угроз ● Что атакующий может знать, что он может делать, чего он хочет?
  10. 10. Что может знать атакующий? ● Обучающая или тестовая выборка (training/testing dataset) ● Используемые признаки (features) ● Используемый алгоритм обучения
  11. 11. Что может делать атакующий? ● Модифицировать и отравлять данные ● Получать результат классификации для любого входного вектора ● Получать результат функции алгоритма (расстояние от разделяющей гиперплоскости) ● Взаимодействовать с моделью как по основному протоколу, так и по сторонним каналам (недостатки программной реализации)
  12. 12. Что может хотеть атакующий? ● Получить информацию о данных (нарушить конфиденциальность) ● Сделать невозможной работу пользователей (нарушить доступность) ● Обойти механизмы защиты (нарушить целостность) ● Целью атаки может быть как конкретный результат классификации (targeted adversarial attack), так и произвольный некорректный (non-targeted, indiscriminative)
  13. 13. Последствия ● В результате атак возникает множество угроз ● ML используется для различных бизнес-задач, и атаки могут разрушить их функцию ● Обход авторизации и аутентификации ● Кража интеллектуальной собственности ● Утечка конфиденциальных данных ● Ошибки экономических и торговых стратегий
  14. 14. ТЕХНОЛОГИИ
  15. 15. Линейные модели ● Модели с простыми решающими функциями часто легко сломать ● Зная вычисляемые признаки, атакующий может их непрерывно менять, сдвигая вектор ● В простейшем случае, независимо сдвигая координаты в пространстве признаков, можно пересечь разделяющую плоскость
  16. 16. Нейронные сети ● В последние 2-3 года бум различных статей и разработок на тему Adversarial Machine Learning ● Большинство примеров касается компьютерного зрения ● Генеративно-состязательные сети (Generative Adversarial Networks) ● Решают оптимизационную задачу – максимизировать ошибку дискриминации ● Результаты порой поражают – у нейронных сетей могут быть галлюцинации и воспоминания!
  17. 17. Нейронные сети ● Главный инструмент этих техник – градиентный спуск ● Имея доступ к модели и возможности подсчитывать градиент, можно минимизировать расстояние от определённого класса или значение функции решения ● В результат, начав со случайного изображения, можно получить изображение, которое классифицируется как кот
  18. 18. Нейронные сети ● Эти алгоритмы легли в основу таких техник как Artistic style transfer и Deep mind ● Приложение Prisma и другие ● В свёрточных нейронных сетях слои отвечают за распознавание различных уровней абстракции в изображении ● Это может быть стиль или содержание изображения ● Оптимизируя определённые слои, можно «скрестить» изображения или сделать их похожими на котов
  19. 19. Чёрный ящик ● Что если у атакующего нет доступа к модели? ● Он не может локально посчитать градиент и оптимизировать нужную функцию ● Но он может обращаться к модели и получать результат классификации
  20. 20. Чёрный ящик ● Иногда при blackbox-атаке можно получить значение решающей функции (score) ● В таком случае можно численно оценить градиент и провести примерно такую же атаку, как и ранее ● Есть также иные подходы, включая генетические алгоритмы ● Пример: EvadeML https://evademl.org/
  21. 21. Чёрный ящик ● Но часто есть возможность только получить только результат классификации (без raw-значения или вероятности) ● Такой подход также предлагался как защита от атак с использованием градиента
  22. 22. Чёрный ящик ● Сразу возникает идея построить аппроксимирующую модель и провести градиентный спуск на ней ● Это означает, что мы используем blackbox-классификацию для разметки выборки ● Затем мы обучаем свою суррогатную модель на этой выборке ● Затем мы атакуем свою суррогатную модель и пробуем использовать результат атаки на оригинальной модели ● Пример: MalGAN https://arxiv.org/pdf/1702.05983.pdf
  23. 23. Отравление обучения ● Если атакующий может влиять на выборку, он может её отравить ● Это касается IPS/IDS/WAF, антиспама, поисковых систем и т.д. ● Задача отравления – это задача максимизации функции потерь ● Вместо градиентного спуска производится градиентный подъём ● Пример для SVM: https://arxiv.org/pdf/1206.6389.pdf
  24. 24. Извлечение данных ● Зачастую обучающая выборка содержит секретные данные ● При помощи описанных выше и других атак они могут быть извлечены или аппроксимированы ● Это могут быть медицинские данные или закрытые финансовые показатели ● Пример исследования: https://arxiv.org/pdf/1306.4447.pdf
  25. 25. Извлечение данных ● Доказана неэффективность Differential Privacy для защиты от утечек ● Более того, абсолютно не защищено даже недецентрализованное обучение (collaborative learning): https://arxiv.org/pdf/1702.07464.pdf
  26. 26. ПРИМЕРЫ
  27. 27. Применение ML в ИБ ● Применений ML очень много ● Рассмотрим некоторые типы ИБ-решений, где активно используют ML ● Чаще всего это сводится к задаче классификации атака/не атака
  28. 28. Применение ML в ИБ ● Биометрия (Touch ID, Face ID) ● Выявление сетевых атак (IDPS/WAF/Anti-DDoS) ● Антифрод (кластеризация и классификация транзакций) ● Антиспам (классификация сообщений) ● Антивирусы (классификация исполняемого кода) ● SIEM (выявление аномалий в последовательностях событий) ● DLP (поиск негатива в тексте, выявление скрытых каналов)
  29. 29. WAF ● Web Application Firewall ● На этапе обучения можно отравлять данные запросами с векторами атак ● Это может позволить обойти WAF или спровоцировать FP-срабатывания
  30. 30. WAF ● В случае debug-режима работы или доступа к логам возможно получение информации о классификации атаки и значении функции ● Чёрным ящиком можно также определить многие признаки, например, наличие тех или иных сигнатур ● Также можно определить, какие форматы данных и поля HTTP-протокола понимает фаервол, инкапсулируя в них векторы атаки
  31. 31. Антиспам ● Antispam ● Можно помечать легитимные сообщения как спам и наоборот ● Можно почти неограниченно вычислять результат классификации любых писем ● Многие параметры модели могут утечь через отладочную информацию в заголовках в переписке или по сторонним каналам ● В результате можно испортить работу механизма или обойти его
  32. 32. Антиспам ● Отравлять данные можно даже в массовых сервисах ● GMail, Yandex, etc
  33. 33. Антиспам ● Значение функции может утечь через цитату в письме ● MDaemon
  34. 34. Антиспам ● Отладочная информация может попасть в текст жалобы провайдеру!  ● Kaspersky Security for Linux Mail Server
  35. 35. Антиспам ● Туда же могут попасть даже все признаки, их описание и вес! ● SpamAssasin
  36. 36. Антивирусы ● Malware detection ● Современные антивирусы повально используют ML ● Сигнатуры работают плохо, поэтому нужны более умные методы обнаружения вредоносного ПО ● На эту тему написано немало работ, а также есть немало исследований на тему обхода таких систем
  37. 37. Биометрия ● Biometrical auth, identity management ● Можно обмануть системы распознавания лиц или отпечатков пальцев ● Так можно уйти неопознанным или прикинуться другим человеком ● Популярная библиотека для распознавания лиц – FaceNet от Google ● Основана на tensorflow и sklearn (SVC) ● Скоро выложу PoC для обхода классификатора FaceNet ● См. на https://github.com/beched
  38. 38. SEO ● Search Engine Optimization ● SEO-шники уже годами неосознанно занимаются взломом моделей машинного обучения ● Они подбирают признаки и ждут апдейта поисковых систем, чтоб оценить влияние этих признаков на ранжирование ● Многие признаки достоверно известны и очевидны (TF-IDF, ИЦ, PR) ● Но в реальности используются тысячи признаков, которые уже не интерпретируются
  39. 39. SEO ● Дилетантская мысль, которая меня не покидала пару лет – что если провести следующую атаку (например, на Яндекс): ○ Взять выборку поисковых запросов и их результатов ○ Положение страницы в результатах – это численная оценка релевантности ○ Известен алгоритм, лежащий в основе ранжирования Y: MatrixNet ○ Обучим свой MatrixNet на извлечённой выборке ○ Получим приближённую модель (в подпространстве признаков) ранжирования ○ Решим задачу оптимизации и сможем генерировать страницы, которые попадут в топ ○ PROFIT!
  40. 40. Интернет-маркетинг ● Контекстная реклама основана на интересах пользователя ● Интересы пользователя могут быть основаны на конфиденциальных данных (посещение определённых сайтов, их длительность, переписки) ● Эти данные могут статью целью атаки мошенников или конкурентов ● Также можно отравить такие выборки, сгенерировав определённую активность пользователей, и нанести ущерб рекламной кампании ● Кроме того, статистические методы используются для A/B-тестирования ● Известны случаи атак на A/B-тесты (отравление) конкурентов
  41. 41. Беспилотные автомобили ● В ближайшие годы автомобили станут беспилотными ● Важнейшие компоненты автопилота – это компьютерное зрение, механизм принятия решений, оценка риска ситуации или манёвра и т.д. ● Как мы уже поняли, эти технологии уже сломаны
  42. 42. ЗАЩИТА
  43. 43. Защита ● Ниша пока молода, и технологии защиты от описанных и иных атак пока слабо развиты ● Есть ряд инструментов для оценки защищённости модели ● Есть несовершенные подходы для сокрытия данных, противодействия градиентным методам, отравлению и т.д.
  44. 44. Рекомендации ● Понимать свою модель угроз ● Санитизировать данные, удалить выбросы ● Использовать модели, устойчивые к шуму ● Минимизировать возможности взаимодействия атакующего с моделью ● Обфусцировать выборки ● Обучаться на adversarial-выборках ● Проводить аудит построенных моделей и алгоритмов, оценивать их устойчивость к adversarial-атакам
  45. 45. Рекомендации ● Также нужно следовать общим рекомендациям построения хороших моделей ● Как сказал профессор Andrew Ng, «It's not who has the best algorithm that wins, It's who has the most data»
  46. 46. ССЫЛКИ
  47. 47. Ссылки ● Общая информация, разное: ○ https://en.wikipedia.org/wiki/Adversarial_machine_learning ○ https://transcranial.github.io/keras-js/#/mnist-acgan ○ https://harishnarayanan.org/writing/artistic-style-transfer/
  48. 48. Ссылки ● Научные статьи: ○ https://arxiv.org/pdf/1406.2661.pdf ○ https://arxiv.org/pdf/1206.6389.pdf ○ https://arxiv.org/pdf/1306.4447.pdf ○ https://arxiv.org/pdf/1412.6572.pdf ○ https://arxiv.org/pdf/1602.02697.pdf ○ https://arxiv.org/pdf/1702.07464.pdf
  49. 49. Ссылки ● Защита, инструменты: ○ https://people.eecs.berkeley.edu/~adj/publications/paper-files/asiaccs06.pdf ○ https://blog.openai.com/adversarial-example-research/ ○ http://www.cleverhans.io/security/privacy/ml/2017/02/15/why-attacking-machine-learning-is-easier-than- defending-it.html ○ https://github.com/tensorflow/cleverhans ○ http://pralab.diee.unica.it/en/AdversariaLib ○ https://github.com/cchio/deep-pwning
  50. 50. Ссылки ● Соревнования по adversarial ML: ○ https://www.kaggle.com/c/nips-2017-non-targeted-adversarial-attack ○ https://www.kaggle.com/c/nips-2017-targeted-adversarial-attack ○ https://www.kaggle.com/c/nips-2017-defense-against-adversarial-attack ● CTF write-up: ○ https://github.com/ctfs/write-ups-2016/tree/master/plaidctf-2016/reversing/rage-against-the-machine-250
  51. 51. Ссылки ● Обход антивирусов: ○ https://github.com/sslab-gatech/avpass ○ https://www.blackhat.com/docs/us-17/thursday/us-17-Jung-AVPASS-Leaking-And-Bypassing-Anitvirus- Detection-Model-Automatically.pdf ○ https://www.blackhat.com/docs/us-17/thursday/us-17-Anderson-Bot-Vs-Bot-Evading-Machine-Learning- Malware-Detection-wp.pdf ○ https://www.blackhat.com/docs/us-17/thursday/us-17-Anderson-Bot-Vs-Bot-Evading-Machine-Learning- Malware-Detection.pdf ○ https://media.defcon.org/DEF%20CON%2025/DEF%20CON%2025%20presentations/DEFCON-25- Hyrum-Anderson-Evading-Next-Gen-AV-Using-AI.pdf
  52. 52. @beched

×