Successfully reported this slideshow.
Your SlideShare is downloading. ×

Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Download to read offline

Deep Learning and Artificial Neural Networks achieve remarkable performance in various tasks, so this is the reason why they are preferred in most Artificial Intelligence applications. Although, it is observed that very small perturbations of the original input, can lead this specific category of algorithms to behave in unpredictable manner. This situation raises several scientific questions regarding the security and reliability of the analogous systems that Deep Neural Networks (DNNs) are deployed, and the phenomenon riches significant proportions of concerns if one considers the significance of these systems. Self-driving cars, Identification Systems and Voice recognition are just some examples of applications where security is vital. For that reason, the study of the possible methods of attacking these systems through Adversarial Attacks has increased and so the methods creating robust models against malicious initiatives. In this Master Thesis, the state-of-the-art attacking methods are being examined and the evaluation of adversarial robustness of DNNs with different level of complexity is taking place. Towards this direction, a new alternative method is proposed, in witch is possible to achieve robustness against a category of attacking methods that have not confronted yet.

Deep Learning and Artificial Neural Networks achieve remarkable performance in various tasks, so this is the reason why they are preferred in most Artificial Intelligence applications. Although, it is observed that very small perturbations of the original input, can lead this specific category of algorithms to behave in unpredictable manner. This situation raises several scientific questions regarding the security and reliability of the analogous systems that Deep Neural Networks (DNNs) are deployed, and the phenomenon riches significant proportions of concerns if one considers the significance of these systems. Self-driving cars, Identification Systems and Voice recognition are just some examples of applications where security is vital. For that reason, the study of the possible methods of attacking these systems through Adversarial Attacks has increased and so the methods creating robust models against malicious initiatives. In this Master Thesis, the state-of-the-art attacking methods are being examined and the evaluation of adversarial robustness of DNNs with different level of complexity is taking place. Towards this direction, a new alternative method is proposed, in witch is possible to achieve robustness against a category of attacking methods that have not confronted yet.

More Related Content

Similar to Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

Related Books

Free with a 30 day trial from Scribd

See all

Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to Adversarial Examples

  1. 1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών ΔΠΜΣ στα «Προηγμένα Συστήματα Υπολογιστών & Επικοινωνιών» Τίτλος Διπλωματικής: «Αξιολόγηση της Ευρωστίας των Βαθιών Νευρωνικών Δικτύων σε Αντιπαραθετικά Παραδείγματα» Χάρης Ελευθεριάδης, ΑΕΜ: 416 Επιβλέπων: Αν. Καθ. Ανδρέας Συμεωνίδης, Τμήμα ΗΜΜΥ ΑΠΘ Συνεπιβλέπων: Αν. Καθ. Παναγιώτης Κατσαρός, Τμήμα Πληροφορικής ΑΠΘ
  2. 2. Τεχνολογίες που χρησιμοποιήθηκαν Adversarial Robustness Toolbox (ART) Ιούλιος 2020 2
  3. 3. Adversarial Examples (1/2) • Πολύ μικρές τροποποιήσεις – παραλλαγές (perturbations) του input οδηγούν το μοντέλο ταξινόμησης σε λάθος πρόβλεψη (missclassification) με υψηλη βεβαιότητα (high confidence) Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy, Explaining and Harnessing Adversarial Examples, 2015 • Δημιουργία προσεκτικά κατασκευασμένου θορύβου και προσθήκη στην αρχική εικόνα ώστε να παραχθεί το adversarial example (Adversarial Attack) Ιούλιος 2020 3
  4. 4. Adversarial Examples (2/2) • Στόχος επίθεσης : Targeted / Untargeted Attack • Επίπεδο γνώσης : White-box / Black-box Attacks • Μετρική Απόστασης : norms ( & ) • Είδος Μοντέλου Ταξινόμησης : Logistic Regression, Decision Trees, Deep Neural Networks Ιούλιος 2020 4 pL L2L
  5. 5. The space of Adversarial examples F. Tramèr, N. Papernot, I. Goodfellow, Dan Boneh, P. McDaniel, The Space of Transferable Adversarial Examples, 2017 • Εφόσον οι ταξινομητές δεν χωρίζουν το υπερεπίπεδο βέλτιστα πάντα θα υπάρχει χώρος για την δημιουργία adversarial examples • Transferability of adversarial examples Ιούλιος 2020 5
  6. 6. Security concerns Metzen et al., Universal Adversarial Perturbations Against Semantic Image Segmentation, 2017 • Πολλές safety-critical εφαρμογές δεν θα μπορέσουν να διατεθούν σε ευρεία εφαρμογή στην καθημερινότητα self-driving cars, identification systems (face-recognition) , criminal justice, robotics Ιούλιος 2020 6
  7. 7. Μέθοδοι αύξησης της ευρωστίας Decision boundary των μοντέλων ακριβέστερο (πιο κοντά σε αυτό του task) Preprocess Defences (image preprocessing methods) - JPEG Compression (G. K. Dziugaite et al. 2016) - Feature Squeezing / Spatial Smoothing (Xu et al. 2017) - Label Smoothing (David Warde-Farley et al. 2016) - Total Variance Minimization (Chuan Guo et al. 2018) Adversarial Training - Augment adversarial examples on the training process - Adversarial Training με gradient-based attacks - Adv. Training [PGD] (A. Madry et al. 2019) η πιο επιτυχημένη μέθοδος Ιούλιος 2020 7 L
  8. 8. Μεθοδολογία (1/2) Σετ Δεδομένων: MNIST, CIFAR-10 Μοντέλα Ταξηνόμησης : DNNs Αρχιτεκτονική : Simple DNN, ResNet Τεχνικές : Normalization, Dropout, Data Augmentation, learning rate decay First Tune the parameters of the Attacks, then choose the most powerful in the whole range of crafting methods (gradient-based ( & ) + decision-based ( ) ) Επιλογή ισχυρότερων επιθέσεων • Οπτική διαφορά • Attack Success Rate • Classification Accuracy (Original vs Adversarial Data) • Average Confidence Score (Original vs Adversarial Data) • Norms - , , Ιούλιος 2020 8 pL 2L0L L 2LL 2L
  9. 9. Μεθοδολογία (2/2) Preprocess Defences • Επιλογή βέλτιστων τιμών παραμέτρων μεθόδων άμυνας (Preprocess Defences) • Εφαρμογή των μεθόδων άμυνας για τη «θωράκιση» των ταξινομητών (μεμονωμένα και σε συνδυασμό) • Εφαρμογή των επιθέσεων που επιλέχτηκαν στα θωρακισμένα μοντέλα • Αξιολόγηση ευρωστίας Adversarial Training • Hybrid Method [PGD ( gradient-based attack) + HSJA ( decision-based attack)] • Αξιολόγηση ευρωστίας Ιούλιος 2020 9 L 2L
  10. 10. Αποτελέσματα – Attack Evaluation (1/2) MNIST Projected Gradient Descent (PGD) on Simple DNN architecture • Visual Difference • Attack Success Rate: 100 % • Classification Accuracy on original images: 100 % Classification Accuracy on adversarial images: 0 % Average Confidence Score: 1.00 Average Confidence Score: 1.00 • norms norm : 77.30 % norm : 3.4 pixel values norm : 30 % Ιούλιος 2020 10 pL 0L 2L L
  11. 11. Αποτελέσματα – Attack Evaluation (2/2) CIFAR10 HopSkipJump Attack (HSJA) on Simple DNN architecture • Visual Difference • Attack Success Rate: 98 % • Classification Accuracy on original images: 84 % Classification Accuracy on adversarial images: 8 % Average Confidence Score: 0.88 Average Confidence Score: 0.56 • norms norm : 100 % norm : 0.1 pixel values norm : 1.46 % Ιούλιος 2020 11 pL 0L 2L L
  12. 12. Αποτελέσματα – Preprocess Defences • Parameter Tuning • Defence Evaluation (Feature Squeezing – bit_depth = 2) Ιούλιος 2020 12 Original Data PGD CWL2 HSJA Classification Accuracy (original) 100% 0% 7% 2% Classification Accuracy (defence) - 79% (100%) 39% (100%) 0% (100%)
  13. 13. Αποτελέσματα – Preprocess Defences MNIST (Simple DNN) Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση • PGD – Label Smoothing (LS) • CWL2 – Συνδυασμός FS + TVM + LS FS : Feature Squeezing, TVM : Total Variance Minimization, SS : Spatial Smoothing Ιούλιος 2020 13 Original Data PGD CWL2 HSJA Classification Accuracy (original) 100% 0% 7% 2% Classification Accuracy (defence) - 100% (100%) 46% (100%) 1% (100%) PGD CWL2 HSJA FS + SS 80% (84%) 51% (98%) 2% (100%) FS + TVM 89% (93%) 81% (93%) 2% (100%) SS + TVM 70% (89%) 15% (96%) 2% (100%) FS + SS + TVM 79% (84%) 17% (96%) 3% (100%)
  14. 14. Αποτελέσματα – Preprocess Defences CIFAR10 (Simple DNN) Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση • PGD – Label Smoothing (LS) • Δεν βρέθηκε μέθοδος που να επιδρά δραστικά έναντι των υπολοίπων επιθέσεων Ιούλιος 2020 14 Original Data PGD CWL2 HSJA Classification Accuracy (original) 84% 8% 10% 8% Classification Accuracy (defence) - 64% (84%) 17% (84%) 8% (84%) Spatial Smoothing Original Data PGD CWL2 HSJA Classification Accuracy (original) 84% 8% 10% 8% Classification Accuracy (defence) - 26% (81%) 6% (81%) 4% (81%)
  15. 15. Αποτελέσματα – Preprocess Defences (ResNet) Οι πιο επιτυχημένες μέθοδοι άμυνας ανά επίθεση • MNIST FS: Feature Squeezing, TVM: Total Variance Minimization, SS: Spatial Smoothing, LS: Label Smoothing • CIFAR10 - Αυξημένη επίδοση έναντι της PGD με χρήση Label Smoothing (64 %  71 %) - Καμία σημαντική αύξηση έναντι των υπολοίπων επιθέσεων (CWL2, HSJA) Ιούλιος 2020 15 Attack (Defence) Defended Data Accuracy on original data Accuracy on adversarial data PGD (LS) 100% 99% CWL2 (FS + TVM + LS) 91% 60%
  16. 16. Αποτελέσματα – Adversarial Training (MNIST) Adv. Training [PGD] – nb_epochs = 85, batch_size = 32, ratio = 1.0 PGD parameters : eps = 0.3, eps_step = 0.01, max_iter = 40 Adv. Training [HSJA] – nb_epochs =115, batch_size = 64, ratio = 1.0 HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10 Ιούλιος 2020 16 Attacks original classifier robust classifier [PGD] FGSM 5% 94% PGD 0% 87% CWL2 7% 14% HSJA 2% 10% Boundary 1% 8% DeepFool 11% 31% original data 100% 97% Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA] FGSM 5% 94% 63% (96%) PGD 0% 87% 1% (97%) CWL2 7% 14% 58% (61%) HSJA 2% 10% 2% (2%) Boundary 1% 8% 1% (1%) DeepFool 11% 31% 36% (38%) original data 100% 97% 99% (99%)
  17. 17. Αποτελέσματα – Adversarial Training (CIFAR10) Adv. Training [PGD] – nb_epochs = 200, batch_size = 32, ratio = 1.0 PGD parameters : eps = 0.03, eps_step = 0.008, max_iter = 7 Adv. Training [HSJA] – nb_epochs =150, batch_size = 64, ratio = 1.0 HSJA parameters : max_iter = 0, max_eval = 1000, init_eval = 10 Ιούλιος 2020 17 Attacks original classifier robust classifier [PGD] FGSM 18% 44% PGD 8% 39% CWL2 10% 16% HSJA 8% 4% Boundary 3% 1% DeepFool 12% 32% original data 84% 59% Attacks original classifier robust classifier [PGD] robust classifier [PGD + HSJA] FGSM 18% 44% 20% PGD 8% 39% 16% CWL2 10% 16% 35% HSJA 8% 4% 45% Boundary 3% 1% 37% DeepFool 12% 32% 40% original data 84% 59% 52%
  18. 18. Συμπεράσματα • Linearity Hypothesis • Transferability Hypothesis • Η αρχιτεκτονική των DNN δεν παίζει κομβικό ρόλο στην προσπάθεια αύξησης της ευρωστίας τους έναντι Adversarial Examples • Preprocess Defences – Δραστικότητα εξαρτάται από την πολυπλοκότητα των δεδομένων Σύμφωνα με τα πειράματα και αποτελέσματα οι επιθέσεις που προκρίθηκαν ως πιο ισχυρές ήταν οι ίδιες για όλους του συνδυασμούς σετ δεδομένων και αρχιτεκτονικών Πιο συγκεκριμένα: • Projected Gradient Descent (Linf – gradient-based) (A. Madry et al. 2019) • Carlini&Wagner L2 (L2 – gradient-based) (N. Carlini et al. 2017) • HopSkipJump (Decision-based) (Jianbo Chen et al. 2019) Ιούλιος 2020 18
  19. 19. Συμπεράσματα • Adversarial Training η πιο υποσχόμενη μέθοδος δημιουργίας εύρωστων ταξινομητών • Εφαρμόστηκε συνδυαστική μέθοδος Adversarial Training [PGD + HSJA] • Αυξήθηκε η ευρωστία των ταξινομητών έναντι decision-based επιθέσεων και διατηρήθηκε η ευρωστία τους στις περισσότερες gradient-based attacks • Παράλληλη αύξηση της ευρωστίας έναντι gradient-based επιθέσεων νόρμας (DeepFool , CWL2) Ιούλιος 2020 19 2L
  20. 20. Μελλοντική Εργασία • Προσθήκη εναλλακτικών δεικτών ποιότητας adversarial examples εκτός των norms Π.χ. στο (Uyeong Jang et al. 2017) γίνεται χρήση κλασικών αλγορίθμων υπολογιστικής όρασης όπως edge detectors (Canny) και Histogram of Oriented Gradients (HOG) Εξέλιξη του Adversarial Training σαν μέθοδο • Η ευρωστία των ταξινομητών έναντι επιθέσεων συνοδεύεται συνήθως από την μείωση της απόδοσης του ταξινομητή σε original δείγματα • Χρήση διαφορετικών μεθόδων επίθεσης χωρίς να παρουσιάζεται ευαισθησία (sensitivity) σε κάποια από αυτές Το Adversarial Machine Learning να ενταχθεί στο product lifecycle κάθε project λογισμικού (ειδικά αν γίνεται χρήση συστατικών Μηχανικής Μάθησης – ML components) 1. Σοβαρός κίνδυνος παραβίασης 2. Επιταχύνεται η έρευνα & ανάπτυξη γύρω από τη συγκεκριμένη θεματολογία 3. Ταχύτερη έκδοση safety-critical εφαρμογών όπως self-driving cars Ιούλιος 2020 20 pL
  21. 21. Ευχαριστίες Ευχαριστώ θερμά τους: • Αναπ. Καθηγητή κ. Ανδρέα Συμεωνίδη • Αναπ. Καθηγητή κ. Παναγιώτη Κατσαρό Ιούλιος 2020 21
  22. 22. Ερωτήσεις Ευχαριστώ για την προσοχή σας. Ιούλιος 2020 22

Editor's Notes

  • Πιθανή εξήγηση για αυτό το φαινόμενο είναι το γεγονός ότι και η HSJA βασίζεται στην L2 νόρμα για την παραγωγή adversarial examples. Άρα, κάποια από τα σημεία στο χώρο των λύσεων όπου δημιουργούνται adversarial examples είναι κοινά για τις διαφορετικές μεθοδολογίες εφόσον χρησιμοποιούν την ίδια νόρμα απόστασης.

×