Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
ΔΠΜΣ στα «Προηγμένα Συστήματα Υπολογιστών & Επικοινωνιών»
Τίτλος Διπλωματικής:
«Αξιολόγηση της Ευρωστίας των Βαθιών Νευρωνικών Δικτύων σε Αντιπαραθετικά
Παραδείγματα»
Χάρης Ελευθεριάδης, ΑΕΜ: 416
Επιβλέπων: Αν. Καθ. Ανδρέας Συμεωνίδης, Τμήμα ΗΜΜΥ ΑΠΘ
Συνεπιβλέπων: Αν. Καθ. Παναγιώτης Κατσαρός, Τμήμα Πληροφορικής ΑΠΘ
Τεχνολογίες που χρησιμοποιήθηκαν
Adversarial Robustness Toolbox (ART)
Ιούλιος 2020 2
Adversarial Examples (1/2)
• Πολύ μικρές τροποποιήσεις – παραλλαγές (perturbations) του input οδηγούν το μοντέλο
ταξινόμησης σε λάθος πρόβλεψη (missclassification) με υψηλη βεβαιότητα (high
confidence)
Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy, Explaining and Harnessing Adversarial Examples, 2015
• Δημιουργία προσεκτικά κατασκευασμένου θορύβου και προσθήκη στην αρχική εικόνα
ώστε να παραχθεί το adversarial example (Adversarial Attack)
Ιούλιος 2020 3
Adversarial Examples (2/2)
• Στόχος επίθεσης : Targeted / Untargeted Attack
• Επίπεδο γνώσης : White-box / Black-box Attacks
• Μετρική Απόστασης : norms ( & )
• Είδος Μοντέλου Ταξινόμησης : Logistic Regression, Decision Trees, Deep Neural Networks
Ιούλιος 2020 4
pL L2L
The space of Adversarial examples
F. Tramèr, N. Papernot, I. Goodfellow, Dan Boneh, P. McDaniel, The Space of Transferable Adversarial Examples, 2017
• Εφόσον οι ταξινομητές δεν χωρίζουν το υπερεπίπεδο βέλτιστα πάντα θα υπάρχει χώρος για
την δημιουργία adversarial examples
• Transferability of adversarial examples
Ιούλιος 2020 5
Security concerns

Metzen et al., Universal Adversarial Perturbations Against Semantic Image Segmentation, 2017
• Πολλές safety-critical εφαρμογές δεν θα μπορέσουν να διατεθούν σε ευρεία εφαρμογή
στην καθημερινότητα
self-driving cars, identification systems (face-recognition) , criminal justice, robotics
Ιούλιος 2020 6
Μέθοδοι αύξησης της ευρωστίας
Decision boundary των μοντέλων ακριβέστερο (πιο κοντά σε αυτό του task)
Preprocess Defences (image preprocessing methods)
- JPEG Compression (G. K. Dziugaite et al. 2016)
- Feature Squeezing / Spatial Smoothing (Xu et al. 2017)
- Label Smoothing (David Warde-Farley et al. 2016)
- Total Variance Minimization (Chuan Guo et al. 2018)
Adversarial Training
- Augment adversarial examples on the training process
- Adversarial Training με gradient-based attacks
- Adv. Training [PGD] (A. Madry et al. 2019) η πιο επιτυχημένη μέθοδος
Ιούλιος 2020 7
L
Μεθοδολογία (1/2)
Σετ Δεδομένων: MNIST, CIFAR-10
Μοντέλα Ταξηνόμησης : DNNs
Αρχιτεκτονική : Simple DNN, ResNet
Τεχνικές : Normalization, Dropout, Data Augmentation, learning rate decay
First Tune the parameters of the Attacks, then choose the most powerful in the whole range
of crafting methods (gradient-based ( & ) + decision-based ( ) )
Επιλογή ισχυρότερων επιθέσεων
• Οπτική διαφορά
• Attack Success Rate
• Classification Accuracy (Original vs Adversarial Data)
• Average Confidence Score (Original vs Adversarial Data)
• Norms
- , ,
Ιούλιος 2020 8
pL
2L0L L
2LL 2L
Μεθοδολογία (2/2)
Preprocess Defences
• Επιλογή βέλτιστων τιμών παραμέτρων μεθόδων άμυνας (Preprocess Defences)
• Εφαρμογή των μεθόδων άμυνας για τη «θωράκιση» των ταξινομητών
(μεμονωμένα και σε συνδυασμό)
• Εφαρμογή των επιθέσεων που επιλέχτηκαν στα θωρακισμένα μοντέλα
• Αξιολόγηση ευρωστίας
Adversarial Training
• Hybrid Method [PGD ( gradient-based attack) + HSJA ( decision-based attack)]
• Αξιολόγηση ευρωστίας
Ιούλιος 2020 9
L 2L
Αποτελέσματα – Attack Evaluation (1/2)
MNIST
Projected Gradient Descent (PGD) on Simple DNN architecture
• Visual Difference
• Attack Success Rate: 100 %
• Classification Accuracy on original images: 100 % Classification Accuracy on adversarial images: 0 %
Average Confidence Score: 1.00 Average Confidence Score: 1.00
• norms
norm : 77.30 %
norm : 3.4 pixel values
norm : 30 %
Ιούλιος 2020 10
pL
0L
2L
L
Αποτελέσματα – Attack Evaluation (2/2)
CIFAR10
HopSkipJump Attack (HSJA) on Simple DNN architecture
• Visual Difference
• Attack Success Rate: 98 %
• Classification Accuracy on original images: 84 % Classification Accuracy on adversarial images: 8 %
Average Confidence Score: 0.88 Average Confidence Score: 0.56
• norms
norm : 100 %
norm : 0.1 pixel values
norm : 1.46 %
Ιούλιος 2020 11
pL
0L
2L
L
Αποτελέσματα – Preprocess Defences
• Parameter Tuning
• Defence Evaluation (Feature Squeezing – bit_depth = 2)
Ιούλιος 2020 12
Original Data PGD CWL2 HSJA
Classification Accuracy (original)
100% 0% 7% 2%
Classification Accuracy (defence)
-
79%
(100%)
39%
(100%)
0%
(100%)
Αποτελέσματα – Preprocess Defences MNIST (Simple DNN)
Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση
• PGD – Label Smoothing (LS)
• CWL2 – Συνδυασμός FS + TVM + LS
FS : Feature Squeezing, TVM : Total Variance Minimization, SS : Spatial Smoothing
Ιούλιος 2020 13
Original Data PGD CWL2 HSJA
Classification Accuracy (original) 100% 0% 7% 2%
Classification Accuracy (defence) -
100%
(100%)
46%
(100%)
1%
(100%)
PGD CWL2 HSJA
FS + SS 80% (84%) 51% (98%) 2% (100%)
FS + TVM 89% (93%) 81% (93%) 2% (100%)
SS + TVM 70% (89%) 15% (96%) 2% (100%)
FS + SS + TVM 79% (84%) 17% (96%) 3% (100%)
Αποτελέσματα – Preprocess Defences CIFAR10 (Simple DNN)
Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση
• PGD – Label Smoothing (LS)
• Δεν βρέθηκε μέθοδος που να επιδρά δραστικά έναντι των υπολοίπων επιθέσεων
Ιούλιος 2020 14
Original Data PGD CWL2 HSJA
Classification Accuracy (original) 84% 8% 10% 8%
Classification Accuracy (defence) -
64%
(84%)
17%
(84%)
8%
(84%)
Spatial Smoothing Original Data PGD CWL2 HSJA
Classification Accuracy (original) 84% 8% 10% 8%
Classification Accuracy (defence) -
26%
(81%)
6%
(81%)
4%
(81%)
Αποτελέσματα – Preprocess Defences (ResNet)
Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση
• MNIST
FS: Feature Squeezing, TVM: Total Variance Minimization, SS: Spatial Smoothing, LS: Label Smoothing
• CIFAR10
- Αυξημένη επίδοση έναντι της PGD με χρήση Label Smoothing (64 %  71 %)
- Καμία σημαντική αύξηση έναντι των υπολοίπων επιθέσεων (CWL2, HSJA)
Ιούλιος 2020 15
Attack (Defence)
Defended Data
Accuracy on original data Accuracy on adversarial data
PGD (LS) 100% 99%
CWL2 (FS + TVM + LS) 91% 60%
Αποτελέσματα – Adversarial Training (MNIST)
Adv. Training [PGD] – nb_epochs = 85, batch_size = 32, ratio = 1.0
PGD parameters : eps = 0.3, eps_step = 0.01, max_iter = 40
Adv. Training [HSJA] – nb_epochs =115, batch_size = 64, ratio = 1.0
HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10
Ιούλιος 2020 16
Attacks original classifier robust classifier [PGD]
FGSM 5% 94%
PGD 0% 87%
CWL2 7% 14%
HSJA 2% 10%
Boundary 1% 8%
DeepFool 11% 31%
original data 100% 97%
Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA]
FGSM 5% 94% 63% (96%)
PGD 0% 87% 1% (97%)
CWL2 7% 14% 58% (61%)
HSJA 2% 10% 2% (2%)
Boundary 1% 8% 1% (1%)
DeepFool 11% 31% 36% (38%)
original data 100% 97% 99% (99%)
Αποτελέσματα – Adversarial Training (CIFAR10)
Adv. Training [PGD] – nb_epochs = 200, batch_size = 32, ratio = 1.0
PGD parameters : eps = 0.03, eps_step = 0.008, max_iter = 7
Adv. Training [HSJA] – nb_epochs =150, batch_size = 64, ratio = 1.0
HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10
Ιούλιος 2020 17
Attacks original classifier robust classifier [PGD]
FGSM 18% 44%
PGD 8% 39%
CWL2 10% 16%
HSJA 8% 4%
Boundary 3% 1%
DeepFool 12% 32%
original data 84% 59%
Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA]
FGSM 18% 44% 20%
PGD 8% 39% 16%
CWL2 10% 16% 35%
HSJA 8% 4% 45%
Boundary 3% 1% 37%
DeepFool 12% 32% 40%
original data 84% 59% 52%
Συμπεράσματα
• Linearity Hypothesis
• Transferability Hypothesis
• Η αρχιτεκτονική των DNN δεν παίζει κομβικό ρόλο στην προσπάθεια αύξησης της
ευρωστίας τους έναντι Adversarial Examples
• Preprocess Defences – Δραστικότητα εξαρτάται από την πολυπλοκότητα των δεδομένων
Σύμφωνα με τα πειράματα και αποτελέσματα οι επιθέσεις που προκρίθηκαν ως πιο ισχυρές
ήταν οι ίδιες για όλους του συνδυασμούς σετ δεδομένων και αρχιτεκτονικών
Πιο συγκεκριμένα:
• Projected Gradient Descent (Linf – gradient-based) (A. Madry et al. 2019)
• Carlini&Wagner L2 (L2 – gradient-based) (N. Carlini et al. 2017)
• HopSkipJump (Decision-based) (Jianbo Chen et al. 2019)
Ιούλιος 2020 18
Συμπεράσματα
• Adversarial Training η πιο υποσχόμενη μέθοδος δημιουργίας εύρωστων ταξινομητών
• Εφαρμόστηκε συνδυαστική μέθοδος Adversarial Training [PGD + HSJA]
• Αυξήθηκε η ευρωστία των ταξινομητών έναντι decision-based επιθέσεων και διατηρήθηκε
η ευρωστία τους στις περισσότερες gradient-based attacks
• Παράλληλη αύξηση της ευρωστίας έναντι gradient-based επιθέσεων νόρμας
(DeepFool , CWL2)
Ιούλιος 2020 19
2L
Μελλοντική Εργασία
• Προσθήκη εναλλακτικών δεικτών ποιότητας adversarial examples εκτός των norms
Π.χ. στο (Uyeong Jang et al. 2017) γίνεται χρήση κλασικών αλγορίθμων υπολογιστικής όρασης
όπως edge detectors (Canny) και Histogram of Oriented Gradients (HOG)
Εξέλιξη του Adversarial Training σαν μέθοδο
• Η ευρωστία των ταξινομητών έναντι επιθέσεων συνοδεύεται συνήθως από την μείωση της
απόδοσης του ταξινομητή σε original δείγματα
• Χρήση διαφορετικών μεθόδων επίθεσης χωρίς να παρουσιάζεται ευαισθησία (sensitivity)
σε κάποια από αυτές
Το Adversarial Machine Learning να ενταχθεί στο product lifecycle κάθε project λογισμικού
(ειδικά αν γίνεται χρήση συστατικών Μηχανικής Μάθησης – ML components)
1. Σοβαρός κίνδυνος παραβίασης
2. Επιταχύνεται η έρευνα & ανάπτυξη γύρω από τη συγκεκριμένη θεματολογία
3. Ταχύτερη έκδοση safety-critical εφαρμογών όπως self-driving cars
Ιούλιος 2020 20
pL
Ευχαριστίες
Ευχαριστώ θερμά τους:
• Αναπ. Καθηγητή κ. Ανδρέα Συμεωνίδη
• Αναπ. Καθηγητή κ. Παναγιώτη Κατσαρό
Ιούλιος 2020 21
Ερωτήσεις
Ευχαριστώ για την προσοχή σας.
Ιούλιος 2020 22
1 of 22

Recommended

Thesis presentation georgios-balaouras by
Thesis presentation georgios-balaourasThesis presentation georgios-balaouras
Thesis presentation georgios-balaourasManos Tsardoulias
128 views22 slides
Gougousis Dimitris: Development of an automated machine learning system for p... by
Gougousis Dimitris: Development of an automated machine learning system for p...Gougousis Dimitris: Development of an automated machine learning system for p...
Gougousis Dimitris: Development of an automated machine learning system for p...Manos Tsardoulias
63 views33 slides
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα... by
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...ISSEL
90 views12 slides
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών... by
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Manos Tsardoulias
87 views31 slides
Συνεχής έµµεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου µέσω ανάλυσης συµπερ... by
Συνεχής έµµεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου µέσω ανάλυσης συµπερ...Συνεχής έµµεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου µέσω ανάλυσης συµπερ...
Συνεχής έµµεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου µέσω ανάλυσης συµπερ...ISSEL
117 views72 slides
Μοντελοστρεφής ανάπτυξη λογισμικού για IoT συσκευές πραγματικού χρόνου και χα... by
Μοντελοστρεφής ανάπτυξη λογισμικού για IoT συσκευές πραγματικού χρόνου και χα...Μοντελοστρεφής ανάπτυξη λογισμικού για IoT συσκευές πραγματικού χρόνου και χα...
Μοντελοστρεφής ανάπτυξη λογισμικού για IoT συσκευές πραγματικού χρόνου και χα...ISSEL
76 views22 slides

More Related Content

What's hot

Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES by
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESΑνάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESISSEL
91 views39 slides
Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο... by
Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο...Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο...
Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο...ISSEL
140 views17 slides
Konstantinos Papadopoulos Diploma Thesis presenation by
Konstantinos Papadopoulos Diploma Thesis presenationKonstantinos Papadopoulos Diploma Thesis presenation
Konstantinos Papadopoulos Diploma Thesis presenationISSEL
219 views16 slides
Evangelos papathomas diploma thesis presentation by
Evangelos papathomas diploma thesis presentationEvangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentationISSEL
190 views32 slides
Loutroukis Anastasios by
Loutroukis AnastasiosLoutroukis Anastasios
Loutroukis AnastasiosISSEL
222 views25 slides
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής Mάθησης by
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής MάθησηςΈγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής Mάθησης
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής MάθησηςISSEL
77 views30 slides

What's hot(14)

Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES by ISSEL
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESΑνάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
ISSEL91 views
Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο... by ISSEL
Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο...Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο...
Υλοποίηση εργαλείου πλήρους στοίβας σε περιβάλλον Kubernetes για την αυτοµατο...
ISSEL140 views
Konstantinos Papadopoulos Diploma Thesis presenation by ISSEL
Konstantinos Papadopoulos Diploma Thesis presenationKonstantinos Papadopoulos Diploma Thesis presenation
Konstantinos Papadopoulos Diploma Thesis presenation
ISSEL219 views
Evangelos papathomas diploma thesis presentation by ISSEL
Evangelos papathomas diploma thesis presentationEvangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentation
ISSEL190 views
Loutroukis Anastasios by ISSEL
Loutroukis AnastasiosLoutroukis Anastasios
Loutroukis Anastasios
ISSEL222 views
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής Mάθησης by ISSEL
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής MάθησηςΈγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής Mάθησης
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής Mάθησης
ISSEL77 views
Anastasios Kakouris by ISSEL
Anastasios KakourisAnastasios Kakouris
Anastasios Kakouris
ISSEL249 views
ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΒΑΘΙΑΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ ΔΗΜΟΓΡΑΦΙΚ... by ISSEL
ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΒΑΘΙΑΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ ΔΗΜΟΓΡΑΦΙΚ...ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΒΑΘΙΑΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ ΔΗΜΟΓΡΑΦΙΚ...
ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΒΑΘΙΑΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ ΔΗΜΟΓΡΑΦΙΚ...
ISSEL53 views
Γεροκώστα by ISSEL
ΓεροκώσταΓεροκώστα
Γεροκώστα
ISSEL119 views
Alexandros Delitzas Diploma Thesis presentation by ISSEL
Alexandros Delitzas Diploma Thesis presentationAlexandros Delitzas Diploma Thesis presentation
Alexandros Delitzas Diploma Thesis presentation
ISSEL271 views
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Με Χρήση Τ... by ISSEL
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Με Χρήση Τ...Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Με Χρήση Τ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Με Χρήση Τ...
ISSEL68 views
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου... by ISSEL
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...
ISSEL73 views
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ... by ISSEL
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
ISSEL53 views
Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ... by ISSEL
Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ...Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ...
Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ...
ISSEL168 views

Similar to Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Design and development of a Machine Learning based attack detection system fo... by
Design and development of a Machine Learning based attack detection system fo...Design and development of a Machine Learning based attack detection system fo...
Design and development of a Machine Learning based attack detection system fo...ISSEL
68 views12 slides
Fengomytis Thomas by
Fengomytis ThomasFengomytis Thomas
Fengomytis ThomasISSEL
136 views20 slides
Aspect-Based Sentiment Analysis for Reviews by
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsISSEL
30 views25 slides
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών by
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνISSEL
104 views25 slides
Real time news assistant by
Real time news assistantReal time news assistant
Real time news assistantISSEL
5 views20 slides
Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου by
Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνουΑνάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου
Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνουISSEL
33 views20 slides

Similar to Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples(9)

Design and development of a Machine Learning based attack detection system fo... by ISSEL
Design and development of a Machine Learning based attack detection system fo...Design and development of a Machine Learning based attack detection system fo...
Design and development of a Machine Learning based attack detection system fo...
ISSEL68 views
Fengomytis Thomas by ISSEL
Fengomytis ThomasFengomytis Thomas
Fengomytis Thomas
ISSEL136 views
Aspect-Based Sentiment Analysis for Reviews by ISSEL
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for Reviews
ISSEL30 views
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών by ISSEL
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
ISSEL104 views
Real time news assistant by ISSEL
Real time news assistantReal time news assistant
Real time news assistant
ISSEL5 views
Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου by ISSEL
Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνουΑνάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου
Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου
ISSEL33 views
Σεμινάριο-Μεθοδολογία Επιστημονικής Έρευνας by Constantinos Athanasiou
Σεμινάριο-Μεθοδολογία Επιστημονικής ΈρευναςΣεμινάριο-Μεθοδολογία Επιστημονικής Έρευνας
Σεμινάριο-Μεθοδολογία Επιστημονικής Έρευνας
Maria - Christina Maniou Diploma Thesis Presentation by ISSEL
Maria - Christina Maniou Diploma Thesis PresentationMaria - Christina Maniou Diploma Thesis Presentation
Maria - Christina Maniou Diploma Thesis Presentation
ISSEL101 views
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V... by ISSEL
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
ISSEL93 views

More from Manos Tsardoulias

Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας by
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςΕυρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςManos Tsardoulias
41 views14 slides
Alexandros Delitzas: Understanding website aesthetics using deep learning by
Alexandros Delitzas: Understanding website aesthetics using deep learningAlexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learningManos Tsardoulias
44 views34 slides
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu... by
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Manos Tsardoulias
37 views32 slides
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale... by
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...Manos Tsardoulias
32 views24 slides
Pantelidou Eirini: Design and development of a system for incremental static ... by
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...Manos Tsardoulias
70 views26 slides
Theofilos Georgiadis: Library recommendation system for the reuse of software... by
Theofilos Georgiadis: Library recommendation system for the reuse of software...Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...Manos Tsardoulias
45 views20 slides

More from Manos Tsardoulias(11)

Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας by Manos Tsardoulias
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςΕυρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Alexandros Delitzas: Understanding website aesthetics using deep learning by Manos Tsardoulias
Alexandros Delitzas: Understanding website aesthetics using deep learningAlexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learning
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu... by Manos Tsardoulias
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale... by Manos Tsardoulias
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
Pantelidou Eirini: Design and development of a system for incremental static ... by Manos Tsardoulias
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...
Theofilos Georgiadis: Library recommendation system for the reuse of software... by Manos Tsardoulias
Theofilos Georgiadis: Library recommendation system for the reuse of software...Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur... by Manos Tsardoulias
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn... by Manos Tsardoulias
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Pandora Robotics Team - 2007 to 2015 - ECE, AUTH by Manos Tsardoulias
Pandora Robotics Team - 2007 to 2015 - ECE, AUTHPandora Robotics Team - 2007 to 2015 - ECE, AUTH
Pandora Robotics Team - 2007 to 2015 - ECE, AUTH
Manos Tsardoulias1.3K views
Full coverage of a priori known map from multiple robotic agents by Manos Tsardoulias
Full coverage of a priori known map from multiple robotic agentsFull coverage of a priori known map from multiple robotic agents
Full coverage of a priori known map from multiple robotic agents

Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

  • 1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών ΔΠΜΣ στα «Προηγμένα Συστήματα Υπολογιστών & Επικοινωνιών» Τίτλος Διπλωματικής: «Αξιολόγηση της Ευρωστίας των Βαθιών Νευρωνικών Δικτύων σε Αντιπαραθετικά Παραδείγματα» Χάρης Ελευθεριάδης, ΑΕΜ: 416 Επιβλέπων: Αν. Καθ. Ανδρέας Συμεωνίδης, Τμήμα ΗΜΜΥ ΑΠΘ Συνεπιβλέπων: Αν. Καθ. Παναγιώτης Κατσαρός, Τμήμα Πληροφορικής ΑΠΘ
  • 2. Τεχνολογίες που χρησιμοποιήθηκαν Adversarial Robustness Toolbox (ART) Ιούλιος 2020 2
  • 3. Adversarial Examples (1/2) • Πολύ μικρές τροποποιήσεις – παραλλαγές (perturbations) του input οδηγούν το μοντέλο ταξινόμησης σε λάθος πρόβλεψη (missclassification) με υψηλη βεβαιότητα (high confidence) Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy, Explaining and Harnessing Adversarial Examples, 2015 • Δημιουργία προσεκτικά κατασκευασμένου θορύβου και προσθήκη στην αρχική εικόνα ώστε να παραχθεί το adversarial example (Adversarial Attack) Ιούλιος 2020 3
  • 4. Adversarial Examples (2/2) • Στόχος επίθεσης : Targeted / Untargeted Attack • Επίπεδο γνώσης : White-box / Black-box Attacks • Μετρική Απόστασης : norms ( & ) • Είδος Μοντέλου Ταξινόμησης : Logistic Regression, Decision Trees, Deep Neural Networks Ιούλιος 2020 4 pL L2L
  • 5. The space of Adversarial examples F. Tramèr, N. Papernot, I. Goodfellow, Dan Boneh, P. McDaniel, The Space of Transferable Adversarial Examples, 2017 • Εφόσον οι ταξινομητές δεν χωρίζουν το υπερεπίπεδο βέλτιστα πάντα θα υπάρχει χώρος για την δημιουργία adversarial examples • Transferability of adversarial examples Ιούλιος 2020 5
  • 6. Security concerns Metzen et al., Universal Adversarial Perturbations Against Semantic Image Segmentation, 2017 • Πολλές safety-critical εφαρμογές δεν θα μπορέσουν να διατεθούν σε ευρεία εφαρμογή στην καθημερινότητα self-driving cars, identification systems (face-recognition) , criminal justice, robotics Ιούλιος 2020 6
  • 7. Μέθοδοι αύξησης της ευρωστίας Decision boundary των μοντέλων ακριβέστερο (πιο κοντά σε αυτό του task) Preprocess Defences (image preprocessing methods) - JPEG Compression (G. K. Dziugaite et al. 2016) - Feature Squeezing / Spatial Smoothing (Xu et al. 2017) - Label Smoothing (David Warde-Farley et al. 2016) - Total Variance Minimization (Chuan Guo et al. 2018) Adversarial Training - Augment adversarial examples on the training process - Adversarial Training με gradient-based attacks - Adv. Training [PGD] (A. Madry et al. 2019) η πιο επιτυχημένη μέθοδος Ιούλιος 2020 7 L
  • 8. Μεθοδολογία (1/2) Σετ Δεδομένων: MNIST, CIFAR-10 Μοντέλα Ταξηνόμησης : DNNs Αρχιτεκτονική : Simple DNN, ResNet Τεχνικές : Normalization, Dropout, Data Augmentation, learning rate decay First Tune the parameters of the Attacks, then choose the most powerful in the whole range of crafting methods (gradient-based ( & ) + decision-based ( ) ) Επιλογή ισχυρότερων επιθέσεων • Οπτική διαφορά • Attack Success Rate • Classification Accuracy (Original vs Adversarial Data) • Average Confidence Score (Original vs Adversarial Data) • Norms - , , Ιούλιος 2020 8 pL 2L0L L 2LL 2L
  • 9. Μεθοδολογία (2/2) Preprocess Defences • Επιλογή βέλτιστων τιμών παραμέτρων μεθόδων άμυνας (Preprocess Defences) • Εφαρμογή των μεθόδων άμυνας για τη «θωράκιση» των ταξινομητών (μεμονωμένα και σε συνδυασμό) • Εφαρμογή των επιθέσεων που επιλέχτηκαν στα θωρακισμένα μοντέλα • Αξιολόγηση ευρωστίας Adversarial Training • Hybrid Method [PGD ( gradient-based attack) + HSJA ( decision-based attack)] • Αξιολόγηση ευρωστίας Ιούλιος 2020 9 L 2L
  • 10. Αποτελέσματα – Attack Evaluation (1/2) MNIST Projected Gradient Descent (PGD) on Simple DNN architecture • Visual Difference • Attack Success Rate: 100 % • Classification Accuracy on original images: 100 % Classification Accuracy on adversarial images: 0 % Average Confidence Score: 1.00 Average Confidence Score: 1.00 • norms norm : 77.30 % norm : 3.4 pixel values norm : 30 % Ιούλιος 2020 10 pL 0L 2L L
  • 11. Αποτελέσματα – Attack Evaluation (2/2) CIFAR10 HopSkipJump Attack (HSJA) on Simple DNN architecture • Visual Difference • Attack Success Rate: 98 % • Classification Accuracy on original images: 84 % Classification Accuracy on adversarial images: 8 % Average Confidence Score: 0.88 Average Confidence Score: 0.56 • norms norm : 100 % norm : 0.1 pixel values norm : 1.46 % Ιούλιος 2020 11 pL 0L 2L L
  • 12. Αποτελέσματα – Preprocess Defences • Parameter Tuning • Defence Evaluation (Feature Squeezing – bit_depth = 2) Ιούλιος 2020 12 Original Data PGD CWL2 HSJA Classification Accuracy (original) 100% 0% 7% 2% Classification Accuracy (defence) - 79% (100%) 39% (100%) 0% (100%)
  • 13. Αποτελέσματα – Preprocess Defences MNIST (Simple DNN) Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση • PGD – Label Smoothing (LS) • CWL2 – Συνδυασμός FS + TVM + LS FS : Feature Squeezing, TVM : Total Variance Minimization, SS : Spatial Smoothing Ιούλιος 2020 13 Original Data PGD CWL2 HSJA Classification Accuracy (original) 100% 0% 7% 2% Classification Accuracy (defence) - 100% (100%) 46% (100%) 1% (100%) PGD CWL2 HSJA FS + SS 80% (84%) 51% (98%) 2% (100%) FS + TVM 89% (93%) 81% (93%) 2% (100%) SS + TVM 70% (89%) 15% (96%) 2% (100%) FS + SS + TVM 79% (84%) 17% (96%) 3% (100%)
  • 14. Αποτελέσματα – Preprocess Defences CIFAR10 (Simple DNN) Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση • PGD – Label Smoothing (LS) • Δεν βρέθηκε μέθοδος που να επιδρά δραστικά έναντι των υπολοίπων επιθέσεων Ιούλιος 2020 14 Original Data PGD CWL2 HSJA Classification Accuracy (original) 84% 8% 10% 8% Classification Accuracy (defence) - 64% (84%) 17% (84%) 8% (84%) Spatial Smoothing Original Data PGD CWL2 HSJA Classification Accuracy (original) 84% 8% 10% 8% Classification Accuracy (defence) - 26% (81%) 6% (81%) 4% (81%)
  • 15. Αποτελέσματα – Preprocess Defences (ResNet) Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση • MNIST FS: Feature Squeezing, TVM: Total Variance Minimization, SS: Spatial Smoothing, LS: Label Smoothing • CIFAR10 - Αυξημένη επίδοση έναντι της PGD με χρήση Label Smoothing (64 %  71 %) - Καμία σημαντική αύξηση έναντι των υπολοίπων επιθέσεων (CWL2, HSJA) Ιούλιος 2020 15 Attack (Defence) Defended Data Accuracy on original data Accuracy on adversarial data PGD (LS) 100% 99% CWL2 (FS + TVM + LS) 91% 60%
  • 16. Αποτελέσματα – Adversarial Training (MNIST) Adv. Training [PGD] – nb_epochs = 85, batch_size = 32, ratio = 1.0 PGD parameters : eps = 0.3, eps_step = 0.01, max_iter = 40 Adv. Training [HSJA] – nb_epochs =115, batch_size = 64, ratio = 1.0 HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10 Ιούλιος 2020 16 Attacks original classifier robust classifier [PGD] FGSM 5% 94% PGD 0% 87% CWL2 7% 14% HSJA 2% 10% Boundary 1% 8% DeepFool 11% 31% original data 100% 97% Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA] FGSM 5% 94% 63% (96%) PGD 0% 87% 1% (97%) CWL2 7% 14% 58% (61%) HSJA 2% 10% 2% (2%) Boundary 1% 8% 1% (1%) DeepFool 11% 31% 36% (38%) original data 100% 97% 99% (99%)
  • 17. Αποτελέσματα – Adversarial Training (CIFAR10) Adv. Training [PGD] – nb_epochs = 200, batch_size = 32, ratio = 1.0 PGD parameters : eps = 0.03, eps_step = 0.008, max_iter = 7 Adv. Training [HSJA] – nb_epochs =150, batch_size = 64, ratio = 1.0 HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10 Ιούλιος 2020 17 Attacks original classifier robust classifier [PGD] FGSM 18% 44% PGD 8% 39% CWL2 10% 16% HSJA 8% 4% Boundary 3% 1% DeepFool 12% 32% original data 84% 59% Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA] FGSM 18% 44% 20% PGD 8% 39% 16% CWL2 10% 16% 35% HSJA 8% 4% 45% Boundary 3% 1% 37% DeepFool 12% 32% 40% original data 84% 59% 52%
  • 18. Συμπεράσματα • Linearity Hypothesis • Transferability Hypothesis • Η αρχιτεκτονική των DNN δεν παίζει κομβικό ρόλο στην προσπάθεια αύξησης της ευρωστίας τους έναντι Adversarial Examples • Preprocess Defences – Δραστικότητα εξαρτάται από την πολυπλοκότητα των δεδομένων Σύμφωνα με τα πειράματα και αποτελέσματα οι επιθέσεις που προκρίθηκαν ως πιο ισχυρές ήταν οι ίδιες για όλους του συνδυασμούς σετ δεδομένων και αρχιτεκτονικών Πιο συγκεκριμένα: • Projected Gradient Descent (Linf – gradient-based) (A. Madry et al. 2019) • Carlini&Wagner L2 (L2 – gradient-based) (N. Carlini et al. 2017) • HopSkipJump (Decision-based) (Jianbo Chen et al. 2019) Ιούλιος 2020 18
  • 19. Συμπεράσματα • Adversarial Training η πιο υποσχόμενη μέθοδος δημιουργίας εύρωστων ταξινομητών • Εφαρμόστηκε συνδυαστική μέθοδος Adversarial Training [PGD + HSJA] • Αυξήθηκε η ευρωστία των ταξινομητών έναντι decision-based επιθέσεων και διατηρήθηκε η ευρωστία τους στις περισσότερες gradient-based attacks • Παράλληλη αύξηση της ευρωστίας έναντι gradient-based επιθέσεων νόρμας (DeepFool , CWL2) Ιούλιος 2020 19 2L
  • 20. Μελλοντική Εργασία • Προσθήκη εναλλακτικών δεικτών ποιότητας adversarial examples εκτός των norms Π.χ. στο (Uyeong Jang et al. 2017) γίνεται χρήση κλασικών αλγορίθμων υπολογιστικής όρασης όπως edge detectors (Canny) και Histogram of Oriented Gradients (HOG) Εξέλιξη του Adversarial Training σαν μέθοδο • Η ευρωστία των ταξινομητών έναντι επιθέσεων συνοδεύεται συνήθως από την μείωση της απόδοσης του ταξινομητή σε original δείγματα • Χρήση διαφορετικών μεθόδων επίθεσης χωρίς να παρουσιάζεται ευαισθησία (sensitivity) σε κάποια από αυτές Το Adversarial Machine Learning να ενταχθεί στο product lifecycle κάθε project λογισμικού (ειδικά αν γίνεται χρήση συστατικών Μηχανικής Μάθησης – ML components) 1. Σοβαρός κίνδυνος παραβίασης 2. Επιταχύνεται η έρευνα & ανάπτυξη γύρω από τη συγκεκριμένη θεματολογία 3. Ταχύτερη έκδοση safety-critical εφαρμογών όπως self-driving cars Ιούλιος 2020 20 pL
  • 21. Ευχαριστίες Ευχαριστώ θερμά τους: • Αναπ. Καθηγητή κ. Ανδρέα Συμεωνίδη • Αναπ. Καθηγητή κ. Παναγιώτη Κατσαρό Ιούλιος 2020 21
  • 22. Ερωτήσεις Ευχαριστώ για την προσοχή σας. Ιούλιος 2020 22

Editor's Notes

  1. Πιθανή εξήγηση για αυτό το φαινόμενο είναι το γεγονός ότι και η HSJA βασίζεται στην L2 νόρμα για την παραγωγή adversarial examples. Άρα, κάποια από τα σημεία στο χώρο των λύσεων όπου δημιουργούνται adversarial examples είναι κοινά για τις διαφορετικές μεθοδολογίες εφόσον χρησιμοποιούν την ίδια νόρμα απόστασης.