Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
ΔΠΜΣ στα «Προηγμένα Συστήματα Υπολογιστών & Επικοινωνιών»
Τίτλος Διπλωματικής:
«Αξιολόγηση της Ευρωστίας των Βαθιών Νευρωνικών Δικτύων σε Αντιπαραθετικά
Παραδείγματα»
Χάρης Ελευθεριάδης, ΑΕΜ: 416
Επιβλέπων: Αν. Καθ. Ανδρέας Συμεωνίδης, Τμήμα ΗΜΜΥ ΑΠΘ
Συνεπιβλέπων: Αν. Καθ. Παναγιώτης Κατσαρός, Τμήμα Πληροφορικής ΑΠΘ

Τεχνολογίες που χρησιμοποιήθηκαν
Adversarial Robustness Toolbox (ART)
Ιούλιος 2020 2

Adversarial Examples (1/2)
• Πολύ μικρές τροποποιήσεις – παραλλαγές (perturbations) του input οδηγούν το μοντέλο
ταξινόμησης σε λάθος πρόβλεψη (missclassification) με υψηλη βεβαιότητα (high
confidence)
Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy, Explaining and Harnessing Adversarial Examples, 2015
• Δημιουργία προσεκτικά κατασκευασμένου θορύβου και προσθήκη στην αρχική εικόνα
ώστε να παραχθεί το adversarial example (Adversarial Attack)

Adversarial Examples (2/2)
• Στόχος επίθεσης : Targeted / Untargeted Attack
• Επίπεδο γνώσης : White-box / Black-box Attacks
• Μετρική Απόστασης : norms ( & )
• Είδος Μοντέλου Ταξινόμησης : Logistic Regression, Decision Trees, Deep Neural Networks
pL L2L

The space of Adversarial examples
F. Tramèr, N. Papernot, I. Goodfellow, Dan Boneh, P. McDaniel, The Space of Transferable Adversarial Examples, 2017
• Εφόσον οι ταξινομητές δεν χωρίζουν το υπερεπίπεδο βέλτιστα πάντα θα υπάρχει χώρος για
την δημιουργία adversarial examples
• Transferability of adversarial examples

Security concerns

Metzen et al., Universal Adversarial Perturbations Against Semantic Image Segmentation, 2017
• Πολλές safety-critical εφαρμογές δεν θα μπορέσουν να διατεθούν σε ευρεία εφαρμογή
στην καθημερινότητα
self-driving cars, identification systems (face-recognition) , criminal justice, robotics

Μέθοδοι αύξησης της ευρωστίας
Decision boundary των μοντέλων ακριβέστερο (πιο κοντά σε αυτό του task)
Preprocess Defences (image preprocessing methods)
- JPEG Compression (G. K. Dziugaite et al. 2016)
- Feature Squeezing / Spatial Smoothing (Xu et al. 2017)
- Label Smoothing (David Warde-Farley et al. 2016)
- Total Variance Minimization (Chuan Guo et al. 2018)
Adversarial Training
- Augment adversarial examples on the training process
- Adversarial Training με gradient-based attacks
- Adv. Training [PGD] (A. Madry et al. 2019) η πιο επιτυχημένη μέθοδος
L

Μεθοδολογία (1/2)
Σετ Δεδομένων: MNIST, CIFAR-10
Μοντέλα Ταξηνόμησης : DNNs
Αρχιτεκτονική : Simple DNN, ResNet
Τεχνικές : Normalization, Dropout, Data Augmentation, learning rate decay
First Tune the parameters of the Attacks, then choose the most powerful in the whole range
of crafting methods (gradient-based ( & ) + decision-based ( ) )
Επιλογή ισχυρότερων επιθέσεων
• Οπτική διαφορά
• Attack Success Rate
• Classification Accuracy (Original vs Adversarial Data)
• Average Confidence Score (Original vs Adversarial Data)
• Norms
- , ,
pL
2L0L L
2LL 2L

Μεθοδολογία (2/2)
Preprocess Defences
• Επιλογή βέλτιστων τιμών παραμέτρων μεθόδων άμυνας (Preprocess Defences)
• Εφαρμογή των μεθόδων άμυνας για τη «θωράκιση» των ταξινομητών
(μεμονωμένα και σε συνδυασμό)
• Εφαρμογή των επιθέσεων που επιλέχτηκαν στα θωρακισμένα μοντέλα
• Αξιολόγηση ευρωστίας
Adversarial Training
• Hybrid Method [PGD ( gradient-based attack) + HSJA ( decision-based attack)]
• Αξιολόγηση ευρωστίας
L 2L

Αποτελέσματα – Attack Evaluation (1/2)
MNIST
Projected Gradient Descent (PGD) on Simple DNN architecture
• Visual Difference
• Attack Success Rate: 100 %
• Classification Accuracy on original images: 100 % Classification Accuracy on adversarial images: 0 %
Average Confidence Score: 1.00 Average Confidence Score: 1.00
• norms
norm : 77.30 %
norm : 3.4 pixel values
norm : 30 %
pL
0L
2L
L

Αποτελέσματα – Attack Evaluation (2/2)
CIFAR10
HopSkipJump Attack (HSJA) on Simple DNN architecture
• Visual Difference
• Attack Success Rate: 98 %
• Classification Accuracy on original images: 84 % Classification Accuracy on adversarial images: 8 %
Average Confidence Score: 0.88 Average Confidence Score: 0.56
• norms
norm : 100 %
norm : 0.1 pixel values
norm : 1.46 %
pL
0L
2L
L

Αποτελέσματα – Preprocess Defences
• Parameter Tuning
• Defence Evaluation (Feature Squeezing – bit_depth = 2)
Original Data PGD CWL2 HSJA
Classification Accuracy (original)
100% 0% 7% 2%
Classification Accuracy (defence)
-
79%
(100%)
39%
(100%)
0%
(100%)

Αποτελέσματα – Preprocess Defences MNIST (Simple DNN)
Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση
• PGD – Label Smoothing (LS)
• CWL2 – Συνδυασμός FS + TVM + LS
FS : Feature Squeezing, TVM : Total Variance Minimization, SS : Spatial Smoothing
Classification Accuracy (original) 100% 0% 7% 2%
Classification Accuracy (defence) -
100%
(100%)
46%
(100%)
1%
(100%)
PGD CWL2 HSJA
FS + SS 80% (84%) 51% (98%) 2% (100%)
FS + TVM 89% (93%) 81% (93%) 2% (100%)
SS + TVM 70% (89%) 15% (96%) 2% (100%)
FS + SS + TVM 79% (84%) 17% (96%) 3% (100%)

Αποτελέσματα – Preprocess Defences CIFAR10 (Simple DNN)
• PGD – Label Smoothing (LS)
• Δεν βρέθηκε μέθοδος που να επιδρά δραστικά έναντι των υπολοίπων επιθέσεων
64%
(84%)
17%
(84%)
8%
(84%)
Spatial Smoothing Original Data PGD CWL2 HSJA
26%
(81%)
6%
(81%)
4%
(81%)

Αποτελέσματα – Preprocess Defences (ResNet)
• MNIST
FS: Feature Squeezing, TVM: Total Variance Minimization, SS: Spatial Smoothing, LS: Label Smoothing
• CIFAR10
- Αυξημένη επίδοση έναντι της PGD με χρήση Label Smoothing (64 %  71 %)
- Καμία σημαντική αύξηση έναντι των υπολοίπων επιθέσεων (CWL2, HSJA)
Attack (Defence)
Defended Data
Accuracy on original data Accuracy on adversarial data
PGD (LS) 100% 99%
CWL2 (FS + TVM + LS) 91% 60%

Αποτελέσματα – Adversarial Training (MNIST)
Adv. Training [PGD] – nb_epochs = 85, batch_size = 32, ratio = 1.0
PGD parameters : eps = 0.3, eps_step = 0.01, max_iter = 40
Adv. Training [HSJA] – nb_epochs =115, batch_size = 64, ratio = 1.0
HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10
Attacks original classifier robust classifier [PGD]
FGSM 5% 94%
PGD 0% 87%
CWL2 7% 14%
HSJA 2% 10%
Boundary 1% 8%
DeepFool 11% 31%
original data 100% 97%
Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA]
FGSM 5% 94% 63% (96%)
PGD 0% 87% 1% (97%)
CWL2 7% 14% 58% (61%)
HSJA 2% 10% 2% (2%)
Boundary 1% 8% 1% (1%)
DeepFool 11% 31% 36% (38%)
original data 100% 97% 99% (99%)

Αποτελέσματα – Adversarial Training (CIFAR10)
Adv. Training [PGD] – nb_epochs = 200, batch_size = 32, ratio = 1.0
PGD parameters : eps = 0.03, eps_step = 0.008, max_iter = 7
Adv. Training [HSJA] – nb_epochs =150, batch_size = 64, ratio = 1.0
HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10
Attacks original classifier robust classifier [PGD]
FGSM 18% 44%
PGD 8% 39%
CWL2 10% 16%
HSJA 8% 4%
Boundary 3% 1%
DeepFool 12% 32%
original data 84% 59%
Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA]
FGSM 18% 44% 20%
PGD 8% 39% 16%
CWL2 10% 16% 35%
HSJA 8% 4% 45%
Boundary 3% 1% 37%
DeepFool 12% 32% 40%
original data 84% 59% 52%

Συμπεράσματα
• Linearity Hypothesis
• Transferability Hypothesis
• Η αρχιτεκτονική των DNN δεν παίζει κομβικό ρόλο στην προσπάθεια αύξησης της
ευρωστίας τους έναντι Adversarial Examples
• Preprocess Defences – Δραστικότητα εξαρτάται από την πολυπλοκότητα των δεδομένων
Σύμφωνα με τα πειράματα και αποτελέσματα οι επιθέσεις που προκρίθηκαν ως πιο ισχυρές
ήταν οι ίδιες για όλους του συνδυασμούς σετ δεδομένων και αρχιτεκτονικών
Πιο συγκεκριμένα:
• Projected Gradient Descent (Linf – gradient-based) (A. Madry et al. 2019)
• Carlini&Wagner L2 (L2 – gradient-based) (N. Carlini et al. 2017)
• HopSkipJump (Decision-based) (Jianbo Chen et al. 2019)

Συμπεράσματα
• Adversarial Training η πιο υποσχόμενη μέθοδος δημιουργίας εύρωστων ταξινομητών
• Εφαρμόστηκε συνδυαστική μέθοδος Adversarial Training [PGD + HSJA]
• Αυξήθηκε η ευρωστία των ταξινομητών έναντι decision-based επιθέσεων και διατηρήθηκε
η ευρωστία τους στις περισσότερες gradient-based attacks
• Παράλληλη αύξηση της ευρωστίας έναντι gradient-based επιθέσεων νόρμας
(DeepFool , CWL2)
2L

Μελλοντική Εργασία
• Προσθήκη εναλλακτικών δεικτών ποιότητας adversarial examples εκτός των norms
Π.χ. στο (Uyeong Jang et al. 2017) γίνεται χρήση κλασικών αλγορίθμων υπολογιστικής όρασης
όπως edge detectors (Canny) και Histogram of Oriented Gradients (HOG)
Εξέλιξη του Adversarial Training σαν μέθοδο
• Η ευρωστία των ταξινομητών έναντι επιθέσεων συνοδεύεται συνήθως από την μείωση της
απόδοσης του ταξινομητή σε original δείγματα
• Χρήση διαφορετικών μεθόδων επίθεσης χωρίς να παρουσιάζεται ευαισθησία (sensitivity)
σε κάποια από αυτές
Το Adversarial Machine Learning να ενταχθεί στο product lifecycle κάθε project λογισμικού
(ειδικά αν γίνεται χρήση συστατικών Μηχανικής Μάθησης – ML components)
1. Σοβαρός κίνδυνος παραβίασης
2. Επιταχύνεται η έρευνα & ανάπτυξη γύρω από τη συγκεκριμένη θεματολογία
3. Ταχύτερη έκδοση safety-critical εφαρμογών όπως self-driving cars
pL

Ευχαριστίες
Ευχαριστώ θερμά τους:
• Αναπ. Καθηγητή κ. Ανδρέα Συμεωνίδη
• Αναπ. Καθηγητή κ. Παναγιώτη Κατσαρό

Ερωτήσεις
Ευχαριστώ για την προσοχή σας.

Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Similar to Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Similar to Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples (10)

More from Manos Tsardoulias

More from Manos Tsardoulias (11)

Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Editor's Notes