06 апреля 2018
Бизнес-консультант по безопасности
Искусственный интеллект
и кибербезопасность
Алексей Лукацкий
Идея не нова
Эволюция терминов
KDD
Статистика
Распознавание
образов
Базы
данных
Машинное
обучение
ИИ
Глубокое
обучение
Добыча
данных
«Предсказания очень сложны,
особенно если говорить о будущем»
Нильс Бор
Огромное количество алгоритмов ИИ
Когда ИИ – это
хорошо
Как проникнуть в офис Cisco?
Но не все так просто
Нейросеть анализирует видеоаналитику
7
Tailgating Detection @ Cisco2Обнаружение посторонних @
Cisco3
Но не все так просто
Нейросеть анализирует видеоаналитику
8
Обнаружение посторонних @
Cisco4
© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential
ВОЗМОЖНОСТИ
• Сетевая телеметрия
• Классификация метаданных
• Обнаружение аномалий
ОБНАРУЖЕНИЕ
ВРЕДОНОСНОГО
ПО
Виновен по поведению
§ Модель совместных запросов
§ Геолокационная модель
§ Модель индекса безопасности
Виновен по связям
§ Модель предсказуемого IP сегмента
§ Корреляция DNS и WHOIS данных
Шаблон виновности
§ Модель всплесков активности
§ Модель оценки языкового
шаблона (NLP)
§ Обнаружение DGA
Классификация вредоносных доменов
На примере Cisco Umbrella
Классификация вредоносных доменов
На примере Cisco Investigare
Обнаружение ВПО в шифрованном
трафике Acc. FDR
SPLT+BD+TLS+HTTP+DNS 99.993% 99.978%
TLS 94.836% 50.406%
DNS 99.496% 94.654%
HTTP 99.945% 98.996%
TLS+DNS 99.883% 96.551%
TLS+HTTP 99.955% 99.660%
HTTP+DNS 99.985% 99.956%
SPLT+BD+TLS 99.933% 70.351%
SPLT+BD+TLS+DNS 99.968% 98.043%
SPLT+BD+TLS+HTTP 99.983% 99.956%
TLS DNS
HTTP SPLT+BD
На примере Cisco ETA
© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential
ВОЗМОЖНОСТИ
• Распознавание картинок
• Сегментация картинок
• Поиск похожих
ИЗОБРАЖЕНИЯ
© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential
ВОЗМОЖНОСТИ
• Распознавание голосовых команд
• Запросы на обычном языке
• Транскрипция аудио
• Перевод
• Приоритезация документов
• Контроль утечек
• Чтение TI-бюллетеней
ПОНИМАНИЕ
ЯЗЫКА
© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential
ВОЗМОЖНОСТИ
• Оптимизация числовых значений
• Отображение релевантных данных
• Предупреждение о выходе за рамки
• Создание плана действий
• Полуавтономные действия
ПРЕДОСТАВЛЕНИЕ
РЕКОМЕНДАЦИЙ
Источник: MIT AI2
Может ли
безопасность
быть
автоматической?
Когда ИИ дает сбой
Когда злоумышленник знает как
работает ИИ
Знаки распознаются автомобилями с
автопилотом как «снижение скорости» в
100% случаев
Знак «СТОП» в 100%
Когда злоумышленник знает как
работает ИИ
«Панда»
57,7% уверенности
«Гиббон»
99,3% уверенности
• Именно поэтому контрольные точки проверки денежных
купюр или биометрических данных держатся в секрете
Когда злоумышленник знает как
работает ИИ
Когда злоумышленник знает как
работает ИИ
• Компания Microsoft запустила
основанного на машинном
обучении чат-бота Тай в 2016-
м году
• Группа злоумышленников, не
имея доступа к исходным
кодам, научила чат-бота
ругаться и грубо общаться с
пользователями
Как можно атаковать ИИ?
• Атака на алгоритм
• Внесение изменений в алгоритм
• Подстройка под алгоритм
• Adversarial examples
• Атака на данные
• Внесение посторонних данных
• Изменение существующих
данных
Copyright © 2015-2018 Kushnirenko Nikolay V.
Когда ИИ – это плохо
Давайте начнем с теста
Какое из двух фото синтезированное?
Мы часто видим такие тесты в Фейсбуке
Это щутка J
И считаем что нашу личность нельзя
украсть
• Отрезанный палец
• Как поддерживать температуру тела?
• Отрезанная рука
• Как поддерживать кровообращение?
• Вырванный глаз
2014 → 2017
10 минут 8 часов 16 часов 1 день
5 дней
9 дней
18 дней
4 дня
8 дней
16 дней
3 дня
7 дней
14 дней
2 дня
6 дней
10 дней
• Компания Nvidia
создала нейросеть,
которая
«научилась» за 18
дней создавать
реалистичные
фотографии людей
• Вторая нейросеть Nvidia
училась распознавать
синтезированные
фотографии
• Нейросеть дала сбой и
посчитала данные
синтезированные
фотографии реальными
А вы хотите стать «героем» порно?
• Подмена лица
порноактрисы
в динамике на
лицо актрисы
Галь Гадот
Аудиоредактор Adobe VoCo
• Аудиоредактор Adobe VoCo (пока проект) позволяет «произнести» все,
что угодно, голосом человека, которого предварительно
«прослушивали» в течение 20 минут и более
Компания DeepMind (проект Google)
• Метод WaveNet для синтезации речи на базе нейронных сетей
Есть ли реальные примеры?
• Пока применение
ИИ по ту сторону
баррикад является
предметом
исследований (в т.ч.
и закрытых)
• … но давайте
вспомним
полиморфизм у
компьютерных
вирусов
https://socprime.com/en/blog/petya-a-notpetya-is-an-ai-powered-cyber-weapon-ttps-lead-to-sandworm-apt-group/
А как может быть?
• Поиск уязвимостей
• Модификация эксплойтов
• Фишинг
• Боты для обмана
пользователя
• Подбор пароля
• Подмена личности
Когда результат
работы ИИ
непредсказуем
Анализа 68 лайков в Facebook
достаточно, чтобы определить цвет
кожи испытуемого (с 95%
вероятностью), его гомосексуальность
(88% вероятности) и приверженность
Демократической или Республиканской
партии США (85% вероятности)
Зло или нет?
Facebook продолжает сбор данных
4 апреля 2018 3100 сотрудников
Гугла подписали обращение к
главе компании о
необходимости пересмотра
подписанного с МинОбороны
США контракте об участии в
ИИ-проекте Project Maven
(анализ фотографий, снятых
дронами)
Нас ждет еще много сюрпризов
Что думают заказчики?
Copyright © 2015-2018 Kushnirenko Nikolay V.Copyright © 2015-2018 Kushnirenko Nikolay V.
0 10 20 30 40 50 60
Как вы реализуете технологии AI/ML в своей системе ИБ?
(%)
Пока только
присматриваюсь
Использую то, что
встроено вендором
в его решение, но
не понимаю, как они
работают
Не верю в этот
маркетинг
Активно пилотирую
AI/ML в целях ИБ и
понимаю, как они
работают
Потребитель пока не готов
Источник: Лукацкий А.В., IDC Security Roadshow
В целом, рынок ИИ повторяет тенденции
Изучают
59% изучают, собирают
информацию или
разрабатывают стратегию
Пилотируют
25% пробуют поставщиков,
взаимодействуют с
потребителями, учатся на
своих ошибках
Внедряют
6%
Реализовали
6%
+4% планируют внедрить в
2018
Источник: Gartner
Несмотря на наличие игроков рынка ИИ
в кибербезопасности
Но не все так просто
• У вас есть нужные данные, но
нет правильных моделей. У вас
есть правильные модели, но нет
нужных данных
• CISO Summit, начало 2000-х годов
• Сегодня у вас есть нужные
данные (и их слишком много) и
правильные (наверное)
модели… но нет аналитиков,
которые могут свести все это
вместе
Антон Чувакин, VP Gartner
1. Ползать Создание реальных ML приложений — Быть стабильным
2. Ходить Построить множество приложений — Быть повторяемым
3. Бегать Построить множество приложений для многих заказчиков —
Быть автоматизируемым
4. Летать Позволить клиентам делать это самим — Быть разработчиком
Большинство
вендоров тут
Путь к искусственному интеллекту
51
Часто приходится создавать системы ИИ
самостоятельно
• Решение iCAM
разрабатывалось
внутри службы ИБ
Cisco для
мониторинга утечек
информации и
анализа поведения
пользователей
• Готового решения
мы не нашли
iCAM People
Data
Identity
Policy
Identity
Data
Center
Lab
End
Points
Public
Cloud
User
Identity
Device
Identity
Applications
& Data
InfoSec
End User
HR/Legal
Manager
Raw Events
Corrective Action
Alert
Feedback
CPR
HRMS
LDAP
OnRamp
DCE
ISE
EMANCES
PSIRT
BI
DI
DLP
GDM
ARTCEPM
DSPL
iCAM: внутренняя разработка Cisco
Topic
(Services)
Behavior
Rules
События
пользователей
Box
Jive
SFDC
End-User’s
Manager
Уведомление
1
Behavior DB
4
Аномальное
поведение
6
7
Обратная связь
с менеджером
8
Анализ
поведения
5
Determine and Log the Cisco data at risk
Анализ событий3
Behavior Reconstruction
Balance
Security and
Productivity
Public Cloud
Обеспечение
контекста
User Identity: DSX, CES, HRMS, CPR
Data Identity: Symantec DLP, DSPL, PSIRT
Device Identity: ISE, DCE, GDM
Network Identity: EMAN
2
iCAM in green
Others in violet
ENG DC
Topic
Alfresco
Private Cloud
CITEIS
ENG Lab
Data Lake
…
…
Процесс работы iCAM в Cisco
• 10 секунд на детектирование
риска
• 24 часа на устранение риска
Скорость
• 4+ миллиардов событий
ежедневно
• ±2000 инцидентов в квартал
Объемы
• 40+ миллиардов файлов Cisco
были защищены
• 16,000+ серверов мониторится
Ценность
для бизнеса
• User-To-Ops: 100,000 : 1
• 90% сигналов тревоги
управляются автоматически
• Только 1% инцидентов требует
ручной поддержки от Ops
Качество
операций
Эффект от iCAM в Cisco
15,2 миллиона долларов ежегодной экономии / сохранности
Давайте
подводить итоги
0 5 10 15 20 25 30 35 40 45 50
Кто победит в неравной борьбе – хакеры или безопасники? (%)
Хакеры, потому что
они не скованы
законодательными
ограничениями
Хакеры, потому что
они более
динамичны и легки
на подъем
Скоро наступит
восстание машин и
ваш вопрос станет
неактуальным
Безопасники,
потому что на их
стороне вся мощь
индустрии ИБ
Безопасники не верят в свою победу L
Источник: Лукацкий А.В., IDC Security Roadshow
Поработит ли
нас
искусственный
интеллект или
мы можем ему
противостоять?
..
• Открытые алгоритмы и
фреймворки
• Сбор и хранение нужных
данных
• Использование только
достоверных источников
данных
• Предварительный анализ
качества данных
• Обучение алгоритмов
• Обучение аналитиков
Но мы еще вначале пути
Оптимизация
Информация
Взгляд в прошлое
Взгляд в будущее
В поле зренияОписательная
аналитика
Что
случилось?
Диагностичес-
кая аналитика
Почему это
случилось?
Предсказатель
-ная аналитика
Что
случится?
Предписываю-
щая аналитика
Как мы можем
сделать, чтобы
это случилось?
Сложность
Ценность
3 поколения машинного обучения
Известные
варианты
угроз
Автоматическая
классификация
Неизвестные
угрозы
Полностью
автоматическое
обучение
Автоматическая
интерпретация
результатов
Глобальная
корреляция по
всем источникам
IoC по одному
или нескольким
источникам
Один источник
(DNS, e-mail, web,
файл и т.п.)
1-е поколение
2-е поколение
3-е поколение • Машинное обучение –
не панацея
• Интернет движется к
тотальному шифрованию
• Злоумышленники
остаются незамеченными –
стеганография
• За искусственным
интеллектом в ИБ – будущее
Спасибо!
alukatsk@cisco.com

Искусственный интеллект в кибербезопасности

  • 1.
    06 апреля 2018 Бизнес-консультантпо безопасности Искусственный интеллект и кибербезопасность Алексей Лукацкий
  • 2.
  • 3.
  • 4.
  • 5.
    Когда ИИ –это хорошо
  • 6.
  • 7.
    Но не всетак просто Нейросеть анализирует видеоаналитику 7 Tailgating Detection @ Cisco2Обнаружение посторонних @ Cisco3
  • 8.
    Но не всетак просто Нейросеть анализирует видеоаналитику 8 Обнаружение посторонних @ Cisco4
  • 9.
    © 2017 Ciscoand/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential ВОЗМОЖНОСТИ • Сетевая телеметрия • Классификация метаданных • Обнаружение аномалий ОБНАРУЖЕНИЕ ВРЕДОНОСНОГО ПО
  • 10.
    Виновен по поведению §Модель совместных запросов § Геолокационная модель § Модель индекса безопасности Виновен по связям § Модель предсказуемого IP сегмента § Корреляция DNS и WHOIS данных Шаблон виновности § Модель всплесков активности § Модель оценки языкового шаблона (NLP) § Обнаружение DGA Классификация вредоносных доменов На примере Cisco Umbrella
  • 11.
  • 12.
    Обнаружение ВПО вшифрованном трафике Acc. FDR SPLT+BD+TLS+HTTP+DNS 99.993% 99.978% TLS 94.836% 50.406% DNS 99.496% 94.654% HTTP 99.945% 98.996% TLS+DNS 99.883% 96.551% TLS+HTTP 99.955% 99.660% HTTP+DNS 99.985% 99.956% SPLT+BD+TLS 99.933% 70.351% SPLT+BD+TLS+DNS 99.968% 98.043% SPLT+BD+TLS+HTTP 99.983% 99.956% TLS DNS HTTP SPLT+BD На примере Cisco ETA
  • 13.
    © 2017 Ciscoand/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential ВОЗМОЖНОСТИ • Распознавание картинок • Сегментация картинок • Поиск похожих ИЗОБРАЖЕНИЯ
  • 14.
    © 2017 Ciscoand/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential ВОЗМОЖНОСТИ • Распознавание голосовых команд • Запросы на обычном языке • Транскрипция аудио • Перевод • Приоритезация документов • Контроль утечек • Чтение TI-бюллетеней ПОНИМАНИЕ ЯЗЫКА
  • 15.
    © 2017 Ciscoand/or its affiliates. All rights reserved. Cisco Confidential© 2017 Cisco and/or its affiliates. All rights reserved. Cisco Confidential ВОЗМОЖНОСТИ • Оптимизация числовых значений • Отображение релевантных данных • Предупреждение о выходе за рамки • Создание плана действий • Полуавтономные действия ПРЕДОСТАВЛЕНИЕ РЕКОМЕНДАЦИЙ
  • 16.
  • 17.
  • 19.
  • 20.
    Когда злоумышленник знаеткак работает ИИ Знаки распознаются автомобилями с автопилотом как «снижение скорости» в 100% случаев Знак «СТОП» в 100%
  • 21.
    Когда злоумышленник знаеткак работает ИИ «Панда» 57,7% уверенности «Гиббон» 99,3% уверенности • Именно поэтому контрольные точки проверки денежных купюр или биометрических данных держатся в секрете
  • 22.
  • 23.
    Когда злоумышленник знаеткак работает ИИ • Компания Microsoft запустила основанного на машинном обучении чат-бота Тай в 2016- м году • Группа злоумышленников, не имея доступа к исходным кодам, научила чат-бота ругаться и грубо общаться с пользователями
  • 24.
    Как можно атаковатьИИ? • Атака на алгоритм • Внесение изменений в алгоритм • Подстройка под алгоритм • Adversarial examples • Атака на данные • Внесение посторонних данных • Изменение существующих данных Copyright © 2015-2018 Kushnirenko Nikolay V.
  • 25.
    Когда ИИ –это плохо
  • 26.
    Давайте начнем стеста Какое из двух фото синтезированное?
  • 27.
    Мы часто видимтакие тесты в Фейсбуке Это щутка J
  • 28.
    И считаем чтонашу личность нельзя украсть • Отрезанный палец • Как поддерживать температуру тела? • Отрезанная рука • Как поддерживать кровообращение? • Вырванный глаз
  • 29.
  • 30.
    10 минут 8часов 16 часов 1 день 5 дней 9 дней 18 дней 4 дня 8 дней 16 дней 3 дня 7 дней 14 дней 2 дня 6 дней 10 дней • Компания Nvidia создала нейросеть, которая «научилась» за 18 дней создавать реалистичные фотографии людей
  • 31.
    • Вторая нейросетьNvidia училась распознавать синтезированные фотографии • Нейросеть дала сбой и посчитала данные синтезированные фотографии реальными
  • 33.
    А вы хотитестать «героем» порно? • Подмена лица порноактрисы в динамике на лицо актрисы Галь Гадот
  • 34.
    Аудиоредактор Adobe VoCo •Аудиоредактор Adobe VoCo (пока проект) позволяет «произнести» все, что угодно, голосом человека, которого предварительно «прослушивали» в течение 20 минут и более
  • 35.
    Компания DeepMind (проектGoogle) • Метод WaveNet для синтезации речи на базе нейронных сетей
  • 37.
    Есть ли реальныепримеры? • Пока применение ИИ по ту сторону баррикад является предметом исследований (в т.ч. и закрытых) • … но давайте вспомним полиморфизм у компьютерных вирусов https://socprime.com/en/blog/petya-a-notpetya-is-an-ai-powered-cyber-weapon-ttps-lead-to-sandworm-apt-group/
  • 38.
    А как можетбыть? • Поиск уязвимостей • Модификация эксплойтов • Фишинг • Боты для обмана пользователя • Подбор пароля • Подмена личности
  • 39.
  • 40.
    Анализа 68 лайковв Facebook достаточно, чтобы определить цвет кожи испытуемого (с 95% вероятностью), его гомосексуальность (88% вероятности) и приверженность Демократической или Республиканской партии США (85% вероятности)
  • 42.
  • 43.
  • 44.
    4 апреля 20183100 сотрудников Гугла подписали обращение к главе компании о необходимости пересмотра подписанного с МинОбороны США контракте об участии в ИИ-проекте Project Maven (анализ фотографий, снятых дронами) Нас ждет еще много сюрпризов
  • 45.
    Что думают заказчики? Copyright© 2015-2018 Kushnirenko Nikolay V.Copyright © 2015-2018 Kushnirenko Nikolay V.
  • 46.
    0 10 2030 40 50 60 Как вы реализуете технологии AI/ML в своей системе ИБ? (%) Пока только присматриваюсь Использую то, что встроено вендором в его решение, но не понимаю, как они работают Не верю в этот маркетинг Активно пилотирую AI/ML в целях ИБ и понимаю, как они работают Потребитель пока не готов Источник: Лукацкий А.В., IDC Security Roadshow
  • 47.
    В целом, рынокИИ повторяет тенденции Изучают 59% изучают, собирают информацию или разрабатывают стратегию Пилотируют 25% пробуют поставщиков, взаимодействуют с потребителями, учатся на своих ошибках Внедряют 6% Реализовали 6% +4% планируют внедрить в 2018 Источник: Gartner
  • 48.
    Несмотря на наличиеигроков рынка ИИ в кибербезопасности
  • 49.
    Но не всетак просто • У вас есть нужные данные, но нет правильных моделей. У вас есть правильные модели, но нет нужных данных • CISO Summit, начало 2000-х годов • Сегодня у вас есть нужные данные (и их слишком много) и правильные (наверное) модели… но нет аналитиков, которые могут свести все это вместе Антон Чувакин, VP Gartner
  • 50.
    1. Ползать Созданиереальных ML приложений — Быть стабильным 2. Ходить Построить множество приложений — Быть повторяемым 3. Бегать Построить множество приложений для многих заказчиков — Быть автоматизируемым 4. Летать Позволить клиентам делать это самим — Быть разработчиком Большинство вендоров тут Путь к искусственному интеллекту
  • 51.
    51 Часто приходится создаватьсистемы ИИ самостоятельно • Решение iCAM разрабатывалось внутри службы ИБ Cisco для мониторинга утечек информации и анализа поведения пользователей • Готового решения мы не нашли
  • 52.
    iCAM People Data Identity Policy Identity Data Center Lab End Points Public Cloud User Identity Device Identity Applications & Data InfoSec EndUser HR/Legal Manager Raw Events Corrective Action Alert Feedback CPR HRMS LDAP OnRamp DCE ISE EMANCES PSIRT BI DI DLP GDM ARTCEPM DSPL iCAM: внутренняя разработка Cisco
  • 53.
    Topic (Services) Behavior Rules События пользователей Box Jive SFDC End-User’s Manager Уведомление 1 Behavior DB 4 Аномальное поведение 6 7 Обратная связь сменеджером 8 Анализ поведения 5 Determine and Log the Cisco data at risk Анализ событий3 Behavior Reconstruction Balance Security and Productivity Public Cloud Обеспечение контекста User Identity: DSX, CES, HRMS, CPR Data Identity: Symantec DLP, DSPL, PSIRT Device Identity: ISE, DCE, GDM Network Identity: EMAN 2 iCAM in green Others in violet ENG DC Topic Alfresco Private Cloud CITEIS ENG Lab Data Lake … … Процесс работы iCAM в Cisco
  • 54.
    • 10 секундна детектирование риска • 24 часа на устранение риска Скорость • 4+ миллиардов событий ежедневно • ±2000 инцидентов в квартал Объемы • 40+ миллиардов файлов Cisco были защищены • 16,000+ серверов мониторится Ценность для бизнеса • User-To-Ops: 100,000 : 1 • 90% сигналов тревоги управляются автоматически • Только 1% инцидентов требует ручной поддержки от Ops Качество операций Эффект от iCAM в Cisco 15,2 миллиона долларов ежегодной экономии / сохранности
  • 55.
  • 56.
    0 5 1015 20 25 30 35 40 45 50 Кто победит в неравной борьбе – хакеры или безопасники? (%) Хакеры, потому что они не скованы законодательными ограничениями Хакеры, потому что они более динамичны и легки на подъем Скоро наступит восстание машин и ваш вопрос станет неактуальным Безопасники, потому что на их стороне вся мощь индустрии ИБ Безопасники не верят в свою победу L Источник: Лукацкий А.В., IDC Security Roadshow
  • 57.
    Поработит ли нас искусственный интеллект или мыможем ему противостоять? .. • Открытые алгоритмы и фреймворки • Сбор и хранение нужных данных • Использование только достоверных источников данных • Предварительный анализ качества данных • Обучение алгоритмов • Обучение аналитиков
  • 58.
    Но мы ещевначале пути Оптимизация Информация Взгляд в прошлое Взгляд в будущее В поле зренияОписательная аналитика Что случилось? Диагностичес- кая аналитика Почему это случилось? Предсказатель -ная аналитика Что случится? Предписываю- щая аналитика Как мы можем сделать, чтобы это случилось? Сложность Ценность
  • 59.
    3 поколения машинногообучения Известные варианты угроз Автоматическая классификация Неизвестные угрозы Полностью автоматическое обучение Автоматическая интерпретация результатов Глобальная корреляция по всем источникам IoC по одному или нескольким источникам Один источник (DNS, e-mail, web, файл и т.п.) 1-е поколение 2-е поколение 3-е поколение • Машинное обучение – не панацея • Интернет движется к тотальному шифрованию • Злоумышленники остаются незамеченными – стеганография • За искусственным интеллектом в ИБ – будущее
  • 60.