PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wykorzystując machine learning?

Jak usprawnić działanie WAF
wykorzystując uczenie maszynowe?
Andrzej Prałat & Wojciech Rybicki

Kim jesteśmy
● Andrzej Prałat
Machine Learning Engineer @ Grey Wizard
● Wojciech Rybicki
Machine Learning Engineer @ Grey Wizard
● WAF
● Ochrona przed atakami DDOS
● Load balancing
● CDN

Agenda
1. Wstęp
a. Ogólne informacje dotyczące Web Application Firewall (WAF)
b. Dlaczego WAF stanowi istotny element ochrony
c. Rodzaje błędów popełnianych przez WAF
d. Dlaczego WAF wymaga aktualizacji
e. Problemy związane z aktualizowaniem WAF
2. Opis rozwiązania
a. Wstęp do tematyki uczenia maszynowego
b. Zbiór danych
c. Przygotowywanie atrybutów
d. Jak oceniać model predykcyjny
e. Wybór modelu uczącego
3. Rezultaty

Czym jest Web Application Firewall?

Dlaczego WAF stanowi istotny element ochrony?
● Większość aplikacji posiada przynajmniej jedną podatność na atak
○ 86% wg Whitehat Security’s 2015 Report
○ 80% wg Contrast Security’s 2017 Report
○ 99.7% wg Trustwave Global Security’s 2017 Report
● Podatność nie zawsze musi dotyczyć naszego kodu
● Virtual patching

Koszt pomyłek
fałszywie pozytywnych
Koszt pomyłek
fałszywie negatywnych
Web Application Firewall Wysoki Wysoki
Filtrowanie spamu Wysoki Niski
Badania przesiewowe Niski Wysoki
Weryfikowanie skuteczności działania WAF

Aktualizacja WAF
● Przyczyny potrzeby aktualizacji WAF:
○ Nowe podatności
○ Nowe sposoby ominięcia detekcji oraz błędy w obecnej implementacji reguł
https://github.com/attackercan/regexp-security-cheatsheet
○ Zmiany w sposobie działania chronionej aplikacji
● Celem aktualizacji jest redukcja liczby nowych błędów
● WAF, który nie jest aktualizowany przestaje pełnić swoją funkcję
Wyrażenia regularne
/?x=<script>alert(1)</script>
REGEX: (<script[^>]*>.*?)

Jakie problemy wiążą się z utrzymywaniem WAF?
/?x=<script>alert(1)</script>
● Jak ocenić czy WAF działa dobrze?
● Mała widoczność błędów fałszywie negatywnych.
● Dane silnie niezrównoważone (~ 1:2500)
● Wymaga dużej wiedzy
● Czasochłonne

Klasyfikacja
Uczenie
maszynowe
Uczenie ze
wzmocnieniem
Uczenie
nienadzorowane
Uczenie
nadzorowane
… Regresja Klasyfikacja

Proces
Pozyskiwanie danych
Feature Engineering
Feature Vectors
Trening
Model
Ewaluacja

Zbiór danych
URL ... Class
/?x=..%2F..%2F..%2F..%2Fetc%2Fpasswd ... 1
/backup.sql ... 1
/suggest/?q=hello%3Cscript%3Ejavascript(%27xss%27)%3B&platform_id=12 ... 1
/ ... 0
/faq ... 0
/index.php ... 0
/ ... 0
/category/251/index.html ... 0
/suggest/?q=gam ... 0
/index.asp ... 0
... ... ...
● Podział na zbiór treningowy i testowy

Feature engineering
● URL
○ N-grams
○ Liczba znaków specjalnych jak ‘..’, ‘<’, ‘>’, słowa kluczowe SQL
● IP
○ Geolokalizacja
○ Właściwości IP
○ Obecność na listach
● User agent
○ Wiek przeglądarki
○ Wykorzystywane oprogramowanie
● ...

N-Grams
● n=3
b a c k u p . s q l b a c k u p . s q l b a c k u p . s q l b a c k u p . s q l
b a c k u p . s q l b a c k u p . s q l b a c k u p . s q l b a c k u p . s q l

Feature vectors
n-grams
(url_path, n=3)
n-grams
(user_agent,
n=3)
one hot
encoded
(country)
binary
(is_proxy)
other
features
/a. a.t .tx txt /b. b.t chr hro ... PL RU is_proxy ...
log1 1 1 1 1 0 0 1 1 ... 1 0 0 ....
log2 0 0 1 1 1 1 1 1 ... 0 1 1 ...
log1 = {
"url_path": "/a.txt",
"user_agent": "Chrome 59",
"country": "PL",
"is_proxy": False,
...
}
log2 = {
"url_path": "/b.txt",
"user_agent": "Chrome 59",
"country": "RU",
"is_proxy": True,
...
}

Ewaluacja modelu
Czy model o accuracy na poziomie 99,9%
spełnia nasze oczekiwania?

Ewaluacja modelu
Brak jakiejkolwiek detekcji: accuracy = 99,97%
Inne miary:
● Precyzja = tp / (tp + fp)
(liczba poprawnych blokad / liczba wszystkich blokad)
● Recall = tp / (tp + fn)
(liczba poprawnych blokad / liczba żądań do zablokowania)
● Pole pod wykresem precyzja-recall
PRECYZJA
RECALL
0 1
1

Algorytmy uczące
● Linear regression
● Logistic regression
● Lasso
● Ridge
● SGD
● SVM
● KNN
● Naive Bayes
● Decision Trees
● Random Forest
● Neural networks
● Deep neural networks
● Gradient Boosting
● ...

XGBoost
● Distributed
● Efficient
● Flexible
● Portable
● Multiple languages

Architektura
Baza
predykcji
RaportyPredykcje
Model
Stream
danych
Alerty
Dane
treningowe
Trening
modelu
Aktualizacja
WAF
Monitoring
+
ewaluacja

17
Średnia liczba potencjalnych podatności w WAF per raport.
Wartość obliczona na podstawie 3 ostatnich raportów.

Automatyzacja
Cron job
0 0 1 * * train_model.py
Baza
predykcji
RaportyPredykcje
Model
Stream
danych
Alerty
Dane
treningowe
Trening
modelu
Aktualizacja
WAF
Monitoring
+
ewaluacja

Aktualne
dane
treningowe
Iteracyjne wzmacnianie WAF i modelu
Aktualizacja
WAF
Predykcja
Uaktualniony
model

Dodatkowo
● Natychmiastowe powiadomienia o
nowych naruszeniach
● Regularne raporty - automatyzacja
procesu aktualizacji WAF
● Oszczędność czasu analityków

Co udało się uzyskać?
● Ciągła weryfikacja poprawności działania WAF - większa kontrola nad
systemem
● Zautomatyzowanie procesu weryfikacji - jego utrzymanie nie wymaga
żadnych czynności
● Szybsze usprawnianie WAF - oszczędność czasu i ludzi

Andrzej Prałat
apralat@greywizard.com
Wojciech Rybicki
wrybicki@greywizard.com

PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wykorzystując machine learning?

Recommended

Recommended

More Related Content

Similar to PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wykorzystując machine learning?

Similar to PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wykorzystując machine learning? (20)

PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wykorzystując machine learning?