Почему нужно бояться
искусственного интеллекта
и как это правильно делать
С чем же не
может справиться
ИИ?
• Птицы?
• Свиньи?
• Овощи?
Коротко обо мне
Почему ИИ не может принимать решения
•Отсутствие общего интеллекта
и здравого смысла
•Отсутствие эмоционального
интеллекта и этических суждений
•Нехватка прозрачности
и подотчетности
ИИ: новые киберриски
OWASP Top10 2021
A01: Broken Access Control
A02: Cryptographic Failures
A03: Injection
A04: Insecure Design
A05: Security Misconfiguration
A06: Vulnerable and Outdated Components
A07: Identification and Authentication Failures
A08: Software and Data Integrity Failures
A09: Security Logging and Monitoring Failures
A10: Server-Side Request Forgery
OWASP Top10 for LLM 2023
LLM01: Prompt Injection
LLM02: Insecure Output Handling
LLM03: Training Data Poisoning
LLM04: Model Denial of Service
LLM05: Supply Chain Vulnerabilities
LLM06: Sensitive Information Disclosure
LLM07: Insecure Plugin Design
LLM08: Excessive Agency
LLM09: Overreliance
LLM10: Model Theft
LLM01 Prompt Injection
Использование вредоносных подсказок или входных
данных для манипулирования выводами LLM
Пример: LLM-система маркетплейса позволяет клиенту искать товары, задавая
запрос на естественном языке, и на основании собранной статистики по
запросам определяет для товаров рейтинг популярности, влияющий на место в
поисковой выдаче.
Злоумышленник в тексте запроса требует от системы проигнорировать
предыдущий промпт и выставить для такого-то товара максимальный рейтинг
– и система исполняет этот запрос, поднимая товару рейтинг. Он начинает чаще
показываться в выдаче и постепенно рост рейтинга популярности становится
органическим.
Некоторые способы митигации
•Выявлять с помощью отдельного LLM-промпта
попытки клиента задавать в запросе инструкции
для LLM и блокировать такие попытки
•Ограничивать длину запроса клиента
•Формировать «черные списки» допустимых слов
в запросе клиента и блокировать запросы,
в которых есть такие слова
LLM03 Training Data Poisoning
Манипуляция данными, на которых обучается модель,
для внесения уязвимостей, бэкдоров или вредоносных
искажений модели LLM
Пример: LLM-система банка оценивает возможность открытия счета новому
клиенту на основе комплекса предоставленных клиентом документов.
Для обучения модели сформирована выборка, включающая большую долю
записей о темнокожих иммигрантах, и для всех них указан негативный вердикт.
Модель, обученная по этой выборке, начинает выдавать негативный вердикт для
всех темнокожих кандидатов, что привлекает внимание журналистов и даёт
банку значительный негативный фон в прессе, в результате которого поток
желающих открыть счет существенно сокращается.
Некоторые способы митигации
•Использование для обучения модели только
данных, полученных из надёжных источников,
свободных от искажений
•Подготовка и актуализация контрольных
выборок данных и регулярная валидация
модели с их помощью
•Защита данных, с которыми работает модель,
от несанкционированного доступа
LLM04 Model Denial of Service
Перегрузка модели запросами, приводящая к
чрезмерным финансовым затратам либо исчерпанию
лимита запросов к модели и остановке её работы
Пример: LLM-система банка исследует доступную информацию о компании –
потенциальном клиенте для выявления связей с санкционными лицами. Цепочка
владения оказывается настолько длинной, а объем доступной информации о
связях с контрагентами настолько большим, что рекурсивная проверка одного
такого клиента исчерпывает весь доступный лимит запросов и, соответственно,
проверка остальных потенциальных клиентов замораживается на время.
Некоторые способы митигации
•Ограничение глубины запросов к LLM
•Установка лимита на отдельные запросы,
а не на всю работу с LLM в целом
•Постоянный мониторинг загрузки LLM
с выявлением аномальных пиков и настройкой
«черных списков» для предотвращения таких
пиков
LLM06 Sensitive Information Disclosure
Раскрытие конфиденциальной или частной
информации в выводе модели
Пример: к некоторой LLM предоставляется доступ на бесплатной основе
с согласием пользователей на использование предоставляемых ими данных для
обучения модели. При этом, хотя пользователи предупреждены о рисках
предоставления частных данных в своих запросах, они это непреднамеренно
делают.
Когда один пользователь просит LLM-систему объяснить, чем обусловлен её
ответ на такой-то запрос этого пользователя, LLM-система раскрывает данные,
предоставленные другим пользователем, на которых обучалась эта модель,
и среди таких данных могут быть конфиденциальные или частные.
Некоторые способы митигации
• Валидация и санитизация вводимых данных, чтобы
предотвратить использование конфиденциальных
или частных данных для обучения модели
• Разделение базовой модели, предоставляемой сторонним
вендором, и кастомной модели, обучаемой на данных
пользователя с гарантией от передачи этих данных
в базовую модель
• Использование платных базовых моделей с гарантией
вендора модели по предотвращению распространения
данных пользователя другим пользователям
LLM08 Excessing Agency
Чрезмерное делегирование действий на основе
вывода LLM
Пример: персональный почтовый ассистент, базирующийся на LLM,
готовит ежедневную сводку по содержанию входящих писем. Этому
ассистенту предоставлены права чтения почтового ящика и отправки
ответов от имени пользователя. В результате атаки через специально
сформированное входящее письмо, содержащее LLM prompt, от имени
пользователя начинает рассылаться спам.
Некоторые способы митигации
• Жёсткое ограничение перечня действий, совершаемых от
имени пользователя, следуя принципу наименьших
привилегий
• Включение авторизации человеком потенциально опасных
действий, таких как отправка письма от его имени
• Отказ от использования LLM-инструментов, для которых
юридические обязательства сформулированы расплывчато
Серебряной пули нет!
Формирование
модели
угроз
Реализация
контролей
безопасности
Мониторинг
результативности
защиты
Попробуем побояться ИИ вместе?

Почему нужно бояться искусственного интеллекта и как это правильно делать

  • 1.
    Почему нужно бояться искусственногоинтеллекта и как это правильно делать
  • 2.
    С чем жене может справиться ИИ? • Птицы? • Свиньи? • Овощи?
  • 3.
  • 4.
    Почему ИИ неможет принимать решения •Отсутствие общего интеллекта и здравого смысла •Отсутствие эмоционального интеллекта и этических суждений •Нехватка прозрачности и подотчетности
  • 5.
    ИИ: новые киберриски OWASPTop10 2021 A01: Broken Access Control A02: Cryptographic Failures A03: Injection A04: Insecure Design A05: Security Misconfiguration A06: Vulnerable and Outdated Components A07: Identification and Authentication Failures A08: Software and Data Integrity Failures A09: Security Logging and Monitoring Failures A10: Server-Side Request Forgery OWASP Top10 for LLM 2023 LLM01: Prompt Injection LLM02: Insecure Output Handling LLM03: Training Data Poisoning LLM04: Model Denial of Service LLM05: Supply Chain Vulnerabilities LLM06: Sensitive Information Disclosure LLM07: Insecure Plugin Design LLM08: Excessive Agency LLM09: Overreliance LLM10: Model Theft
  • 6.
    LLM01 Prompt Injection Использованиевредоносных подсказок или входных данных для манипулирования выводами LLM Пример: LLM-система маркетплейса позволяет клиенту искать товары, задавая запрос на естественном языке, и на основании собранной статистики по запросам определяет для товаров рейтинг популярности, влияющий на место в поисковой выдаче. Злоумышленник в тексте запроса требует от системы проигнорировать предыдущий промпт и выставить для такого-то товара максимальный рейтинг – и система исполняет этот запрос, поднимая товару рейтинг. Он начинает чаще показываться в выдаче и постепенно рост рейтинга популярности становится органическим.
  • 7.
    Некоторые способы митигации •Выявлятьс помощью отдельного LLM-промпта попытки клиента задавать в запросе инструкции для LLM и блокировать такие попытки •Ограничивать длину запроса клиента •Формировать «черные списки» допустимых слов в запросе клиента и блокировать запросы, в которых есть такие слова
  • 8.
    LLM03 Training DataPoisoning Манипуляция данными, на которых обучается модель, для внесения уязвимостей, бэкдоров или вредоносных искажений модели LLM Пример: LLM-система банка оценивает возможность открытия счета новому клиенту на основе комплекса предоставленных клиентом документов. Для обучения модели сформирована выборка, включающая большую долю записей о темнокожих иммигрантах, и для всех них указан негативный вердикт. Модель, обученная по этой выборке, начинает выдавать негативный вердикт для всех темнокожих кандидатов, что привлекает внимание журналистов и даёт банку значительный негативный фон в прессе, в результате которого поток желающих открыть счет существенно сокращается.
  • 9.
    Некоторые способы митигации •Использованиедля обучения модели только данных, полученных из надёжных источников, свободных от искажений •Подготовка и актуализация контрольных выборок данных и регулярная валидация модели с их помощью •Защита данных, с которыми работает модель, от несанкционированного доступа
  • 10.
    LLM04 Model Denialof Service Перегрузка модели запросами, приводящая к чрезмерным финансовым затратам либо исчерпанию лимита запросов к модели и остановке её работы Пример: LLM-система банка исследует доступную информацию о компании – потенциальном клиенте для выявления связей с санкционными лицами. Цепочка владения оказывается настолько длинной, а объем доступной информации о связях с контрагентами настолько большим, что рекурсивная проверка одного такого клиента исчерпывает весь доступный лимит запросов и, соответственно, проверка остальных потенциальных клиентов замораживается на время.
  • 11.
    Некоторые способы митигации •Ограничениеглубины запросов к LLM •Установка лимита на отдельные запросы, а не на всю работу с LLM в целом •Постоянный мониторинг загрузки LLM с выявлением аномальных пиков и настройкой «черных списков» для предотвращения таких пиков
  • 12.
    LLM06 Sensitive InformationDisclosure Раскрытие конфиденциальной или частной информации в выводе модели Пример: к некоторой LLM предоставляется доступ на бесплатной основе с согласием пользователей на использование предоставляемых ими данных для обучения модели. При этом, хотя пользователи предупреждены о рисках предоставления частных данных в своих запросах, они это непреднамеренно делают. Когда один пользователь просит LLM-систему объяснить, чем обусловлен её ответ на такой-то запрос этого пользователя, LLM-система раскрывает данные, предоставленные другим пользователем, на которых обучалась эта модель, и среди таких данных могут быть конфиденциальные или частные.
  • 13.
    Некоторые способы митигации •Валидация и санитизация вводимых данных, чтобы предотвратить использование конфиденциальных или частных данных для обучения модели • Разделение базовой модели, предоставляемой сторонним вендором, и кастомной модели, обучаемой на данных пользователя с гарантией от передачи этих данных в базовую модель • Использование платных базовых моделей с гарантией вендора модели по предотвращению распространения данных пользователя другим пользователям
  • 14.
    LLM08 Excessing Agency Чрезмерноеделегирование действий на основе вывода LLM Пример: персональный почтовый ассистент, базирующийся на LLM, готовит ежедневную сводку по содержанию входящих писем. Этому ассистенту предоставлены права чтения почтового ящика и отправки ответов от имени пользователя. В результате атаки через специально сформированное входящее письмо, содержащее LLM prompt, от имени пользователя начинает рассылаться спам.
  • 15.
    Некоторые способы митигации •Жёсткое ограничение перечня действий, совершаемых от имени пользователя, следуя принципу наименьших привилегий • Включение авторизации человеком потенциально опасных действий, таких как отправка письма от его имени • Отказ от использования LLM-инструментов, для которых юридические обязательства сформулированы расплывчато
  • 16.
  • 17.