Successfully reported this slideshow.
Your SlideShare is downloading. ×

Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδομένων πλοήγησης και συμπεριφοράς

Ad

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Εργαστήριο...

Ad

2
Περιεχόμενα
Αποτελέσματα
Μεθοδολογία Συμπεράσματα
Εισαγωγή
Μελλοντική
Εργασία

Ad

3
Ε ι σ α γ ω γ ή
Κίνητρο
Ανάγκη για την ασφάλεια των δεδομένων
που αποθηκεύονται στην συσκευή.
Συνεχώς αυξανόμενος αριθμό...

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 23 Ad
1 of 23 Ad

Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδομένων πλοήγησης και συμπεριφοράς

Download to read offline

Τα έξυπνα κινητά τηλέφωνα (smartphones) έχουν γίνει πλέον αναπόσπαστο κομμάτι της καθημερινότητας και οι πληροφορίες που αποθηκεύονται σε αυτά συνεχώς αυξάνονται. Προκύπτει λοιπόν το ζήτημα της ασφάλειας αυτών των συσκευών, που είναι κρίσιμο για την εξασφάλιση της προστασίας των δεδομένων του ιδιοκτήτη ενός smartphone από κακόβουλους χρήστες. Οι περισσότερες συσκευές πλέον προσφέρουν ένα επίπεδο ασφάλειας χρησιμοποιώντας διάφορους τρόπους αυθεντικοποίησης, που όμως έχουν χαρακτηριστεί ευάλωτοι και έτσι έχει δημιουργηθεί η ανάγκη για την υλοποίηση καινούργιων μεθοδολογιών. Λύση στο πρόβλημα έρχονται να δώσουν τεχνικές συνεχούς – έμμεσης αυθεντικοποίησης, δηλαδή συστήματα που εκτελούνται συνεχώς στο παρασκήνιο της συσκευής, χωρίς να χρειάζονται την εκτέλεση ενεργειών από την πλευρά του χρήστη. Τα συστήματα αυτά συνήθως χρησιμοποιούν διάφορα δεδομένα του κινητού τηλεφώνου ή άλλων συσκευών, μοντελοποιούν την συμπεριφορά του χρήστη και στην συνέχεια παρέχουν ένα μοναδικό ή συμπληρωματικό επίπεδο ασφαλείας, που εξετάζει αν η συμπεριφορά του χρήστη συμβαδίζει με αυτή του ιδιοκτήτη. Στη συγκεκριμένη εργασία, το σύστημα βασίζει τη λειτουργία του σε δεδομένα αισθητήρων που είναι ήδη εγκατεστημένοι στα περισσότερα smartphones, όπως το επιταχυνσιόμετρο, το γυροσκόπιο και η οθόνη αφής. Η συμπεριφορά του ιδιοκτήτη μοντελοποιείται με αυτά τα δεδομένα μέσω της χρήσης μοντέλων μηχανικής μάθησης που, στη συνέχεια, μπορούν να πάρουν κατάλληλες αποφάσεις. Αυτό που κάνει το εν λόγω σύστημα να ξεχωρίζει είναι η χρήση ενός συνόλου μοντέλων μηχανών διανυσμάτων υποστήριξης μίας κλάσης (One Class Support Vector Machines), με ένα εύρος τιμών για τις παραμέτρους, για κάθε τύπο δεδομένων, που παράγει την πιθανότητα μια συμπεριφορά να συμβαδίζει με αυτή του ιδιοκτήτη και στην συνέχεια καλεί ένα σύστημα εμπιστοσύνης να αποφασίσει αν θα πραγματοποιηθεί το κλείδωμα της συσκευής. Όπως αποδεικνύεται, ένα τέτοιο σύστημα είναι εύκολα υλοποιήσιμο, μπορεί να προσαρμόζεται στον τύπο δεδομένων που είναι διαθέσιμος κάθε στιγμή και έτσι μπορεί να επιφέρει σημαντικές βελτιώσεις στην αυθεντικοποίηση του χρήστη με έναν συνεχή αλλά και μη παρεμβατικό τρόπο.

Τα έξυπνα κινητά τηλέφωνα (smartphones) έχουν γίνει πλέον αναπόσπαστο κομμάτι της καθημερινότητας και οι πληροφορίες που αποθηκεύονται σε αυτά συνεχώς αυξάνονται. Προκύπτει λοιπόν το ζήτημα της ασφάλειας αυτών των συσκευών, που είναι κρίσιμο για την εξασφάλιση της προστασίας των δεδομένων του ιδιοκτήτη ενός smartphone από κακόβουλους χρήστες. Οι περισσότερες συσκευές πλέον προσφέρουν ένα επίπεδο ασφάλειας χρησιμοποιώντας διάφορους τρόπους αυθεντικοποίησης, που όμως έχουν χαρακτηριστεί ευάλωτοι και έτσι έχει δημιουργηθεί η ανάγκη για την υλοποίηση καινούργιων μεθοδολογιών. Λύση στο πρόβλημα έρχονται να δώσουν τεχνικές συνεχούς – έμμεσης αυθεντικοποίησης, δηλαδή συστήματα που εκτελούνται συνεχώς στο παρασκήνιο της συσκευής, χωρίς να χρειάζονται την εκτέλεση ενεργειών από την πλευρά του χρήστη. Τα συστήματα αυτά συνήθως χρησιμοποιούν διάφορα δεδομένα του κινητού τηλεφώνου ή άλλων συσκευών, μοντελοποιούν την συμπεριφορά του χρήστη και στην συνέχεια παρέχουν ένα μοναδικό ή συμπληρωματικό επίπεδο ασφαλείας, που εξετάζει αν η συμπεριφορά του χρήστη συμβαδίζει με αυτή του ιδιοκτήτη. Στη συγκεκριμένη εργασία, το σύστημα βασίζει τη λειτουργία του σε δεδομένα αισθητήρων που είναι ήδη εγκατεστημένοι στα περισσότερα smartphones, όπως το επιταχυνσιόμετρο, το γυροσκόπιο και η οθόνη αφής. Η συμπεριφορά του ιδιοκτήτη μοντελοποιείται με αυτά τα δεδομένα μέσω της χρήσης μοντέλων μηχανικής μάθησης που, στη συνέχεια, μπορούν να πάρουν κατάλληλες αποφάσεις. Αυτό που κάνει το εν λόγω σύστημα να ξεχωρίζει είναι η χρήση ενός συνόλου μοντέλων μηχανών διανυσμάτων υποστήριξης μίας κλάσης (One Class Support Vector Machines), με ένα εύρος τιμών για τις παραμέτρους, για κάθε τύπο δεδομένων, που παράγει την πιθανότητα μια συμπεριφορά να συμβαδίζει με αυτή του ιδιοκτήτη και στην συνέχεια καλεί ένα σύστημα εμπιστοσύνης να αποφασίσει αν θα πραγματοποιηθεί το κλείδωμα της συσκευής. Όπως αποδεικνύεται, ένα τέτοιο σύστημα είναι εύκολα υλοποιήσιμο, μπορεί να προσαρμόζεται στον τύπο δεδομένων που είναι διαθέσιμος κάθε στιγμή και έτσι μπορεί να επιφέρει σημαντικές βελτιώσεις στην αυθεντικοποίηση του χρήστη με έναν συνεχή αλλά και μη παρεμβατικό τρόπο.

More Related Content

More from ISSEL

Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδομένων πλοήγησης και συμπεριφοράς

  1. 1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδομένων πλοήγησης και συμπεριφοράς Χρήστος Εμμανουήλ Αριθμός Μητρώου (ΑΕΜ): 8804 Επιβλέπων Καθηγητής: Ανδρέας Συμεωνίδης Επιβλέπων Υποψήφιος Διδάκτωρ: Θωμάς Καρανικιώτης Π έ μ π τ η , 2 1 Ι ο υλ ί ο υ 2 0 2 2
  2. 2. 2 Περιεχόμενα Αποτελέσματα Μεθοδολογία Συμπεράσματα Εισαγωγή Μελλοντική Εργασία
  3. 3. 3 Ε ι σ α γ ω γ ή Κίνητρο Ανάγκη για την ασφάλεια των δεδομένων που αποθηκεύονται στην συσκευή. Συνεχώς αυξανόμενος αριθμός χρηστών smartphones Παραγωγή και αποθήκευση προσωπικών και επαγγελματικών πληροφοριών Προβληματισμοί για την επάρκεια των υφιστάμενων τρόπων αυθεντικοποίησης. Ανάγκη για υλοποίηση νέων μεθοδολογιών αυθεντικοποίησης.
  4. 4. 4 Ε ι σ α γ ω γ ή Συνεχής – Έμμεση Αυθεντικοποίηση Πλεονεκτήματα: o Ενισχυμένο σύστημα ασφάλειας o Καλύτερη εμπειρία χρήστη o Δυνατότητα εκμετάλλευσης συμπεριφορικών χαρακτηριστικών • Εύκολη προσαρμογή • Χαμηλό κόστος υλοποίησης • Προοπτικές εξέλιξης Προβληματισμοί: o Υψηλή ρυθμοί δειγματοληψίας o Πόροι υψηλής κατανάλωσης ισχύος o Δευτερεύων συσκευές (wearables) o Ανεπαρκή αξιολόγηση • Μικρό πλήθος δεδομένων • Δεδομένα ‘εργαστηρίου’ • ‘Λανθασμένες’ μετρικές o Ανεπάρκεια δεδομένων κατά την εκτέλεση
  5. 5. 5 Ε ι σ α γ ω γ ή Κεντρική Ιδέα Στόχος: o Ικανοποιητικά επίπεδα ασφάλειας και διαφάνειας o Χρήση δεδομένων που παράγονται από το smartphone o Ανθεκτικό σε σφάλματα ή/και ελλείψεις δεδομένων Ερωτήματα: o Σύνολο δεδομένων o Εξαγωγή χαρακτηριστικών και προεπεξεργασία o Δομή ταξινομητών o Δομή υποσυστήματος εμπιστοσύνης o Αντικειμενική αξιολόγηση
  6. 6. 6 Μ ε θ ο δ ο λ ο γ ί α Σύνολο Δεδομένων BrainRun: o Σύνολο συμπεριφορικών δεδομένων o Δεδομένα αισθητήρων κίνησης και χειρονομιών o Εφαρμογή συλλογής δεδομένων (android & iOS) o 5 διαφορετικά παιχνίδια, με διαφορετικά επίπεδα δυσκολίας Χαρακτηριστικά: o 2218 χρήστες o 60% άντρες, 26% γυναίκες, 14% άγνωστα o 90% android, 10% iOS Παιχνίδια & Τελικά Σύνολα (μετά την εφαρμογή κριτηρίων επιλογής): Παιχνίδια Τύπος Δεδομένων Αριθμός Χρηστών Εκπαίδευσης Αριθμός Χρηστών Αξιολόγησης Mathisis Acc, Gyr, Swp 15 24 Focus Acc, Gyr, Swp 15 30 Reacton Acc, Gyr, Swp, Tap 15 45 Memoria Acc, Gyr, Tap 15 44 Speedy Acc, Gyr, Tap 15 45 Acc: Επιταχυνσιόμετρο, Gyr: Γυροσκόπιο, Swp: Swipe
  7. 7. 7 Μ ε θ ο δ ο λ ο γ ί α Εξαγωγή Χαρακτηριστικών Ε π ι τ α χ υ ν σ ι ό μ ε τ ρ ο , Γ υ ρ ο σ κ ό π ι ο ( 1 ) Επιλέχθηκαν: x, y και magnitude
  8. 8. 8 Μ ε θ ο δ ο λ ο γ ί α Εξαγωγή Χαρακτηριστικών Ε π ι τ α χ υ ν σ ι ό μ ε τ ρ ο , Γ υ ρ ο σ κ ό π ι ο ( 2 ) Επιλέχθηκαν: Μέγεθος Παραθύρου: 50 δείγματα Ποσοστό Επικάλυψης: 60%
  9. 9. 9 Μ ε θ ο δ ο λ ο γ ί α Εξαγωγή Χαρακτηριστικών Ε π ι τ α χ υ ν σ ι ό μ ε τ ρ ο , Γ υ ρ ο σ κ ό π ι ο ( 3 ) Αισθητήρας Γνωρίσματα Τελικά Χαρακτηριστικά Επιταχυνσιόμετρο x Mean, STD, Max, Min, Percentile25, Percentile50, Percentile75, Kurtosis, Skewness, Amplitude1, Amplitude2, Frequency2, Mean Frequency y Mean, STD, Max, Min, Percentile25, Percentile50, Percentile75, Kurtosis, Skewness, Amplitude1, Frequency2 magnitude Mean, STD, Max, Min, Percentile25, Percentile50, Percentile75, Kurtosis, Skewness, Amplitude, Frequency2 Γυροσκόπιο x Mean, Max, Min, Percentile75, Kurtosis, Skewness, Amplitude1, Frequency2, Mean Frequency y Mean, Min, Kurtosis, Skewness, Frequency2 magnitude Mean, Min, Kurtosis, Skewness, Frequency2
  10. 10. 10 Μ ε θ ο δ ο λ ο γ ί α Εξαγωγή Χαρακτηριστικών Χ ε ι ρ ο ν ο μ ί ε ς Είδος Gesture Τελικά Χαρακτηριστικά Tap Duration Swipe Duration, Mean X, Mean Y, Trace Length, Trace Projection, Start Velocity, Stop Velocity, Horizontal Acceleration, Vertical Acceleration, Slope, Mean Square Error, Coefficient of Determination
  11. 11. 11 Μ ε θ ο δ ο λ ο γ ί α Ταξινομητές Τι γνωρίζουμε; o Πρόβλημα ταξινόμησης μίας κλάσης o Επίλυση με RBF-OCSVM o Αδύνατη η χρήση ενός μοντέλου ανά ταξινομητή o Οι παράμετροι (nu, gamma) επηρεάζουν τα RBF-OCSVMs Τι προτείνουμε; o Χρήση πολλαπλών RBF-OCSVMs, ανά ταξινομητή o Χρήση εύρους τιμών για τις παραμέτρους o Συλλογική τελική απόφαση Ερωτήματα: o Εύρος παραμέτρων o Αριθμός μοντέλων που αποφασίζουν
  12. 12. 12 Μ ε θ ο δ ο λ ο γ ί α Ταξινομητές Ε ύ ρ ο ς Π α ρ α μ έ τ ρ ω ν Κατηγορία Nu Gamma Αρχική Τιμή Τελική Τιμή Βήμα Αρχική Τιμή Τελική Τιμή Βήμα Επιταχυνσιόμετρο 0.001 0.06 0.003 0.0001 0.004 0.0002 Γυροσκόπιο 0.11 0.31 0.01 0.001 0.04 0.002 Swipes 0.01 0.21 0.01 0.001 0.06 0.003 Taps 0.02 0.6 0.03 0.7 0.795 0.005
  13. 13. 13 Μ ε θ ο δ ο λ ο γ ί α Ταξινομητές Α ρ ι θ μ ό ς Μ ο ν τ έ λ ω ν Κατηγορία Βέλτιστος Αριθμός Μοντέλων Επιταχυνσιόμετρο 30 Γυροσκόπιο 60 Swipes 60 Taps 60
  14. 14. 14 Μ ε θ ο δ ο λ ο γ ί α Υποσύστημα Εμπιστοσύνης 𝐶𝐿𝑛 = 𝐶𝐿𝑛−1 + 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑆𝑡𝑒𝑝 𝐺𝑎𝑚𝑒 ∗ 𝑊𝑒𝑖𝑔ℎ𝑡𝑠 𝐷𝑎𝑡𝑎𝑇𝑦𝑝𝑒 ∗ 𝑎𝑏𝑠 𝑝 , 𝑝 > 0 𝐶𝐿𝑛−1 + 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑆𝑡𝑒𝑝 𝐺𝑎𝑚𝑒 ∗ 𝑊𝑒𝑖𝑔ℎ𝑡𝑠 𝐷𝑎𝑡𝑎𝑇𝑦𝑝𝑒 ∗ 𝑎𝑏𝑠(𝑝), 𝑝 ≤ 0 Initial Confidence Level 60 Threshold 35 Mathisis Focus Reacton Speedy Memoria Negative Step -15 -15 -15 -15 -15 Positive Step +10 +10 +10 +10 +10
  15. 15. 15 Μ ε θ ο δ ο λ ο γ ί α Σύνοψη Συστήματος – Δομή Τελικών Πειραμάτων
  16. 16. 16 Α π ο τ ε λ έ σ μ α τ α Σύστημα Εμπιστοσύνης – Πολλαπλά RBF-OCSVMs
  17. 17. 17 Α π ο τ ε λ έ σ μ α τ α LOF – Περιοχές Nu-Gamma
  18. 18. 18 Α π ο τ ε λ έ σ μ α τ α Ανά Παιχνίδι
  19. 19. 19 Α π ο τ ε λ έ σ μ α τ α Συγκρίσεις (1)
  20. 20. 20 Α π ο τ ε λ έ σ μ α τ α Συγκρίσεις (2) Μέγεθος πακέτων αισθητήρων: 500 μετρήσεις Μέγεθος πακέτων αισθητήρων: ~50 μετρήσεις Mathisis Focus Reacton Memoria Speedy Σύστημα Αισθητήρων (FRR %) 5,20 6,00 4,30 5,70 5,70 Σύστημα Χειρονομιών (FRR με Σύστημα Εμπιστοσύνης %) 1,92 1,06 2,32 | 3,58 (Swipes | Taps) 3,44 0,065 Τρέχουσα Εργασία (FRR με Σύστημα Εμπιστοσύνης %) 1,79 1,84 4,56 6,45 6,68 Mathisis Focus Reacton Memoria Speedy Σύστημα Αισθητήρων (FAR %) 4,08 3,50 6,90 1,10 5,40 Σύστημα Χειρονομιών (Αριθμός Αποδεκτών Χειρονομιών) 1,70 3,92 8,08 | 11,37 (Swipes | Taps) 21,83 277,47 Τρέχουσα Εργασία (Αριθμός Αποδεκτών Δειγμάτων Αισθητήρων & Χειρονομιών) 5,84 & 12,11 11,53 & 16,27 2,98 & 13,54 2,23 & 10,40 1,67 & 17,39
  21. 21. 21 Συμπεράσματα Μεθοδολογία & Τεχνικές o Η χρήση πολλαπλών RBF-OCSVMs εξυπηρετεί την ασφάλεια του συστήματος. o Το σύστημα εμπιστοσύνης βοηθάει στην διαμόρφωση ενός εύχρηστου συστήματος. o Η αποθορυβοποίηση των δεδομένων εκπαίδευσης με LOF βελτιώσει την ασφάλεια. o Οι παράμετροι nu και gamma των RBF-OCSVMs, παίζουν καθοριστικό ρόλο στην διασφάλιση ισορροπίας μεταξύ ασφάλειας και ευχρηστίας. Σύστημα o Ανθεκτικό σε σφάλματα μετρήσεων. o Ικανοποιητικές μετρικές ασφάλειας και διαφάνειας. o Γρήγορος έλεγχος o Αντικειμενική αξιολόγηση
  22. 22. 22 Μελλοντική Εργασία Ιδέες o Δυναμικά βάρη στους ταξινομητές. o Δυνατότητα επιλογής περιοχών nu-gamma o Συνδυασμός με τεχνικές επίγνωσης πλαισίου. o Ικανότητα προσαρμογής στις αλλαγές συμπεριφοράς του ιδιοκτήτη.
  23. 23. 23 Ευχαριστώ για την προσοχή σας!

Editor's Notes

  • Καλημέρα, ονομάζομαι Εμμανουήλ Χρήστος και στην εργασία μου μελέτησα το θέμα της συνεχούς έμμεσης αυθεντικοποίησης χρηστών κινητού τηλεφώνου με συνδυασμό δεδομένων πλοήγησης και συμπεριφοράς.
  • Στην παρουσίαση αυτή, θα αναφερθώ στο κίνητρο και τους στόχους της εργασίας. Θα μιλήσω για σημαντικά κομμάτια της διαδικασίας σχεδιασμού, δείχνοντας κάποια αποτελέσματα, και τέλος θα πω για τα συμπεράσματα στα οποία κατέληξα καθώς και κάποιες ιδέες για μελλοντική έρευνα.
  • Πλέον οι περισσότεροι, αν όχι όλοι, χρησιμοποιούμε ένα smartphone και συνηθίζουμε να αποθηκεύουμε σε αυτό φωτογραφίες, έγγραφα και γενικότερα πληροφορίες που θα ήταν επικίνδυνο να βρεθούν στα χέρια κάποιου επιτήδειου. Είναι σημαντικό λοιπόν, να χρησιμοποιούμε τρόπους για να κρατάμε ασφαλή αυτά τα δεδομένα. Ένας κωδικός ή ένα μοτίβο προσφέρουν ένα επίπεδο ασφαλείας, ωστόσο έρευνες έχουν δείξει ότι αυτοί οι τρόποι δεν καλύπτουν όλες τις ανάγκες των χρηστών, κυρίως γιατί μετά το ξεκλείδωμα της συσκευής δεν υπάρχει κάποιος επιπλέον έλεγχος αλλά και επειδή ο έλεγχος απαιτεί συνέχεια ενέργειες από τον χρήστη. Συνεπώς, απαιτείται η διαμόρφωση νέων, ασφαλέστερων και πιο διακριτικών τρόπων αυθεντικοποίησης.
  • Προς την κατεύθυνση αυτή, αρκετές έρευνες έχουν δείξει ενδιαφέρον για την ανάπτυξη μεθοδολογιών συνεχής και έμμεσης αυθεντικοποίησης. Δηλαδή, συστημάτων που παρέχουν έναν συνεχή έλεγχο και μετά το ξεκλείδωμα της οθόνης, ενώ ταυτόχρονα δεν επεμβαίνουν στον τρόπο που ο χρήστης αλληλεπιδρά με την συσκευή.

    Τα συστήματα αυτά έχουν την δυνατότητα να αποτελούν ένα συμπληρωματικό επίπεδο ελέγχου (MFA) και έτσι:
    Ενισχύουν το επίπεδο ασφαλείας
    Και ταυτόχρονα δεν επιβαρύνουν τον χρήστη
    Επιπλέον μπορούν να αξιοποιήσουν συμπεριφορικά χαρακτηριστικά (όπως για παράδειγμα το πως κάποιος κρατάει την συσκευή ή χειρίζεται την οθόνη) και συνεπώς μπορούν να προσαρμοστούν εύκολα στα smartphone, καθώς τα περισσότερα διαθέτουν ήδη το απαραίτητο hardware.

    Ωστόσο, τα προβλήματα που προκύπτουν από τις διάφορες μελέτες αφορούν την λειτουργικότητα και την ισορροπία μεταξύ ασφάλειας και διαφάνειας προς τον χρήστη. Για παράδειγμα:
    Συστήματα με μεγάλους ρυθμούς δειγματοληψίας μειώνουν την απόδοση της συσκευής
    Συστήματα που βασίζονται αποκλειστικά σε έναν αισθητήρα, στην πραγματικότητα μπορεί να υπολειτουργούν.
    Η χρήση wearables δεν είναι επιθυμητή σε κάποιες περιπτώσεις.
    Και επιπλέον η έλλειψη ποιοτικών δεδομένων ή μετρικών, δεν βοηθάει στην γενίκευση των συμπερασμάτων.
  • Η δικιά μας ιδέα βασίζεται στην ανάπτυξη ενός συστήματος που αποτελείται από 3 ανεξάρτητους μεταξύ τους ταξινομητές, που επικοινωνούν με ένα σύστημα εμπιστοσύνης. Στο σχήμα φαίνεται πως το σύστημα εκμεταλλεύεται δεδομένα επιταχυνσιομέτρου, γυροσκοπίου και swipes. Οι αντίστοιχοι ταξινομητές παράγουν την πιθανότητα η μέτρηση που δέχονται να προέχεται ή όχι από τον ιδιοκτήτη της συσκευής και το υποσύστημα εμπιστοσύνης κλειδώνει την συσκευή όταν το θεωρεί απαραίτητο.

    Με τον τρόπο αυτό, θέλουμε να πετύχουμε:
    Ικανοποιητικά επίπεδα ασφάλειας και διαφάνειας
    Εύκολη υλοποίηση και προσαρμογή
    Ανθεκτικότητα σε σφάλματα λήψης δεδομένων

    Για να τα πετύχουμε όμως αυτά, πρέπει πρώτα να απαντήσουμε στο:
    Πιο σύνολο δεδομένων θα χρησιμοποιήσουμε;
    Ποιος είναι ο βέλτιστος τρόπος αξιοποίησης των δεδομένων;
    Ποια θα είναι η δομή των ταξινομητών;
    Πως θα λειτουργεί το σύστημα εμπιστοσύνης;
    Πως θα αξιολογήσουμε αντικειμενικά το σύστημα;
  • Για τα δεδομένα, επιλέχθηκε το σύνολο δεδομένων BrainRun. Ένα μεγάλο σύνολο συμπεριφορικών δεδομένων από διάφορους χρήστες, που ξεχωρίζει γιατί η συλλογή του δεν έγινε υπό τις συνθήκες εργαστηρίου και έτσι υπάρχει η δυνατότητα γενίκευσης των συμπερασμάτων. Πιο συγκεκριμένα, για την συλλογή των δεδομένων, υλοποιήθηκε μια εφαρμογή για smartphones που περιλαμβάνει 5 διαφορετικά παιχνίδια, που εξετάζουν διαφορετικές συμπεριφορές και εστιάζουν στην συλλογή διαφορετικών δεδομένων.

    Αν και το σύνολο είναι αρκετά μεγάλο, η χρήση όλων των δεδομένων για την σχεδίαση, βελτιστοποίηση και αξιολόγηση του συστήματος ήταν αδύνατη (έλλειψη πόρων). Έτσι, μετά από την καταγραφή των απαιτήσεων και την εκτέλεση δοκιμών, διαμορφώθηκαν κάποια κριτήρια επιλογής και δημιουργήθηκαν κατάλληλα σύνολα χρηστών για την εκπαίδευση και την αξιολόγηση του τελικού συστήματος.

    Στον πίνακα φαίνονται ο αριθμός των χρηστών για κάθε σύνολο, σε κάθε παιχνίδι ξεχωριστά.
  • Μετά την επιλογή του συνόλου, σειρά έχει η σωστή επιλογή χαρακτηριστικών. Το επιταχυνσιόμετρο και το γυροσκόπιο μετρούν τις τιμές της επιτάχυνσης και της περιστροφής στους 3 άξονες, αντίστοιχα. Η επιλογή και των 3 τιμών μπορεί να οδηγήσει σε μη επιθυμητά αποτελέσματα και έτσι για την επιλογή των κατάλληλων γνωρισμάτων, δημιουργήθηκαν κάποια θηκογράμματα και κάποιοι πίνακες συσχέτισης, που όπως παρατηρείτε περιέχουν και κάποια επιπλέον γνωρίσματα. (Τα θηκογράμματα βοήθησαν στην κατανόηση της διαφοροποίησης των χρηστών, ενώ οι πίνακες συσχέτισης απεικονίζουν τις συσχετίσεις όλων των γνωρισμάτων.)

    Τα σχήματα αυτά αφορούν το επιταχυνσιόμετρο στο παιχνίδι Mathisis, αλλά ίδια διαγράμματα δημιουργήθηκαν και για τους δύο αισθητήρες για κάθε παιχνίδι.

    Αξιοποιώντας τις παραπάνω πληροφορίες και εκτελώντας διάφορα πειράματα επιλέχθηκαν τα γνωρίσματα x, y και magnitude και για τους δύο αισθητήρες.
  • Ωστόσο οι μετρήσεις αυτές παράγονται βάσει συγκεκριμένης συχνότητας (για παράδειγμα 50 Hz) και είναι πιθανό να περιέχουν σφάλματα. Για την αντιμετώπιση αυτού του προβλήματος, έγινε χρήση μιας τεχνικής κατάτμησης κυλιόμενου παραθύρου. Στην ουσία αυτή η τεχνική δημιουργεί ακολουθίες τιμών για κάθε ένα γνώρισμα που επιλέχθηκε στο προηγούμενο βήμα και έτσι επιτυγχάνεται στην συνέχεια ο υπολογισμός χαρακτηριστικών που θα αποτελέσουν και την είσοδο των ταξινομητών.

    Για την υλοποίηση της τεχνικής απαιτείται το μέγεθος των ακολουθιών, καθώς και το ποσοστό επικάλυψης των διαδοχικών ακολουθιών. Για τον λόγο αυτό εκτελέστηκαν αναζητήσεις πλέγματος για διάφορες τιμές των δύο παραμέτρων και υπολογίστηκαν οι μετρικές διαφάνειας (FRR) και ασφάλειας (FAR), χρησιμοποιώντας ένα πρώιμο σύστημα και το σύνολο των χρηστών εκπαίδευσης. Στους παραπάνω πίνακες απεικονίζονται οι μετρικές για το επιταχυνσιόμετρο στο παιχνίδι Mathisis, και όπως φαίνεται οι δύο μετρικές παρουσιάζουν αντίστροφη συμπεριφορά. (Μικρότερα μεγέθη παραθύρου προσδίδουν καλύτερη χρηστικότητα αλλά μικρότερη ασφάλεια και ακριβώς το αντίθετο για μεγαλύτερα μεγέθη παραθύρου.) Εκτελώντας αναζητήσεις και για τους δύο αισθητήρες και για κάθε παιχνίδι, επιλέχθηκε οι ακολουθίες να αποτελούνται το πολύ από 50 μετρήσεις και να έχουν επικάλυψη 60%. (Ωστόσο σημειώνεται πως κατά την λειτουργία του συστήματος τα μεγέθη αυτά μπορούν να μεταβάλλονται σε κάποιο βαθμό έτσι ώστε να μπορούν να δημιουργηθούν ακολουθίες και στις περιπτώσεις που υπάρχουν λιγότερες ή περισσότερες μετρήσεις.)
  • Για την επιλογή των τελικών χαρακτηριστικών, αρχικά έγινε ο υπολογισμός ενός μεγάλου πλήθος χαρακτηριστικών και στην συνέχεια χρησιμοποιήθηκαν πίνακες συσχέτισης και εκτελέστηκαν διάφορα πειράματα. Τα χαρακτηριστικά που τελικά επιλέχθηκαν παρουσιάζονται στον πίνακα.
  • Όσον αφορά τα swipes, η διαδικασία εξαγωγής και επιλογής χαρακτηριστικών ήταν πιο απλή. Κάθε χειρονομία στο σύνολο BrainRun είναι αποθηκευμένη ως ένα σύνολο γνωρισμάτων. Χρησιμοποιώντας τα γνωρίσματα αυτά έγινε υπολογισμός χαρακτηριστικών. Όπως και πριν αρχικά έγινε ο υπολογισμός αρκετών χαρακτηριστικών αλλά στην συνέχεια με πίνακες συσχέτισης επιλέχθηκαν αυτά που φαίνονται στον πίνακα δεξιά.

    Σημειώνεται ότι στον πίνακα, απεικονίζονται και τα taps τα οποία έχουν ένα μοναδικό χαρακτηριστικό. Έρευνα πραγματοποιήθηκε μόνο για τα swipes, ωστόσο για την εξέταση της συμπεριφοράς του συστήματος και στα παιχνίδια που περιέχουν taps, διαμορφώθηκε ένας επιπλέον ταξινομητής που βασίζεται σε αυτό το μοναδικό χαρακτηριστικό.
  • Οι ταξινομητές θα πρέπει να είναι σε θέση να δέχονται χαρακτηριστικά και στην συνέχεια να εξάγουν την πιθανότητα το δείγμα να προέρχεται ή όχι από τον ιδιοκτήτη. Στην βιβλιογραφία, οι αλγόριθμοι One Class SVM με RBF kernel, έχουν αποδειχτεί αποτελεσματικοί σε προβλήματα ταξινόμησης μίας κλάσης και έτσι επιλέχθηκαν και για το σύστημά μας. Εν συντομία, αυτό που κάνουν είναι να χρησιμοποιούν τα δεδομένα εκπαιδεύσεις για να ορίζουν μία περιοχή παρατηρήσεων και στην συνέχεια εξάγουν την πιθανότητα για κάθε νέο δείγμα, υπολογίζοντας την απόσταση του δείγματος από αυτή την περιοχή.

    Ωστόσο, στην περίπτωσή μας το τελικό σύστημα θα πρέπει να έχει μεγάλη ικανότητα γενίκευσης. Κάθε χρήστης είναι διαφορετικός και συνεπώς είναι αδύνατο να επιτευχθούν οι στόχοι χρησιμοποιώντας ένα μοναδικό OCSVM για κάθε ταξινομητή. Λύση είναι η χρήση πολλαπλών OCSVMs με διαφορετικές παραμέτρους (nu και gamma) για κάθε ταξινομητή. Τα δεδομένα εκπαίδευσης θα χρησιμοποιούνται για την εκπαίδευση όλων των μοντέλων, ενώ η τελική πιθανότητα θα υπολογίζεται ως μέσος όρος.

    Τα ερωτήματα όμως που χρίζουν απάντηση σε αυτή την περίπτωση είναι:
    Ποιο θα είναι το εύρος των παραμέτρων, για κάθε τύπο δεδομένων;
    Πόσα θα είναι τα τελικά μοντέλα που θα παίρνουν την τελική απόφαση, για κάθε τύπο δεδομένων;
  • Στα RBF-OCSVMs οι κυριότερες παράμετροι είναι το nu και το gamma. (Το gamma καθορίζει την επιρροή που έχει ένα δείγμα εκπαίδευσης στη συνάρτηση διαχωρισμού, ενώ το nu ορίζει το ποσοστό ακραίων τιμών στα δεδομένα και συνεπώς την σκληρότητα του υπερεπιπέδου γύρω από τα δεδομένα.) Για την επιλογή κατάλληλου εύρους εκτελέστηκαν και πάλι αναζητήσεις πλέγματος για κάθε τύπο δεδομένων και για κάθε παιχνίδι.

    Τα παραπάνω σχήματα αφορούν το επιταχυνσιόμετρο για το παιχνίδι Mathisis. Από αριστερά προς τα δεξιά, πρώτα βλέπουμε την μεταβολή της μετρικής FRR που μας δείχνει το ποσοστό των φορών που ο ιδιοκτήτης κλειδώθηκε εκτός, στην συνέχεια την μεταβολή της μετρικής FAR που μας δείχνει το ποσοστό των φορών που ένας κακόβουλος χρήστης δεν έγινε αντιληπτός και τέλος την απόλυτη διαφορά των δύο πρώτων. Όπως φαίνεται και εδώ, οι μετρικές μεταβάλλονται αντίθετα. Η επιλογή του εύρους έγινε επιλέγοντας τις περιοχές εκείνες που οι μετρικές FRR και FAR έχουν την μικρότερη διαφορά. Με αυτό τον τρόπο προέκυψαν οι τιμές που φαίνονται στο πίνακα.
  • Για την επιλογή του αριθμού μοντέλων έγινε μια παρόμοια διαδικασία. Εκτελέστηκαν πειράματα για διαφορετικά πλήθη μοντέλων και καταγράφηκαν οι ίδιες μετρικές, δημιουργώντας ραβδογράμματα. Τα τελικά νούμερα παρουσιάζονται στο πίνακα.
  • Το υποσύστημα εμπιστοσύνης λαμβάνει κάποιες πιθανότητες και αποφασίζει για το κλείδωμα της συσκευής. Πιο συγκεκριμένα, στο σύστημα εμπιστοσύνης ορίζεται ένα αρχικό επίπεδο εμπιστοσύνης και ένα κατώτατο όριο. Όπως φαίνεται στο σχήμα, κάθε ταξινομητής επιστρέφει την πιθανότητα ένα δείγμα να ανήκει ή όχι στην κλάση του ιδιοκτήτη, στο διάστημα [-1, 1]. Στην συνέχεια, από την εξίσωση φαίνεται πως αυτή η πιθανότητα πολλαπλασιάζεται με μία σταθερά, ανάλογη του παιχνιδιού και έναν αριθμό που εκφράζει την εμπιστοσύνη του συστήματος σε κάθε ταξινομητή. Ο τελικός αριθμός που προκύπτει προστίθεται στο επίπεδο εμπιστοσύνης και αν αυτό πέσει κάτω από το όριο τότε η συσκευή κλειδώνει. Η αρχική τιμή εμπιστοσύνης, το κατώτατο όριο αλλά και τα βήματα αύξησης και μείωσης επιλέχθηκαν μετά από διάφορα πειράματα και παρουσιάζονται στο παρακάτω πίνακα. Αντιθέτως, τα βάρη που αφορούν τον τύπο δεδομένων, ορίζονται αυτόματα από το σύστημα, βάση μετρικών που προκύπτουν κατά την εκπαίδευση των ταξινομητών.
  • Συνδέοντας όλα τα παραπάνω στοιχεία προκύπτει το τελικό σύστημα. Στο παραπάνω σχήμα φαίνεται η τελική διάταξη που ενσωματώνει το τελικό σύστημα και εξετάζει την αποτελεσματικότητά του.

    Σημεία που χρίζουν προσοχή είναι:
    Ο διαχωρισμός των δεδομένων κάθε χρήστη σε σύνολα εκπαίδευσης και αξιολόγησης, με ποσοστά 70 – 30 αντίστοιχα.
    Τα δεδομένα εκπαίδευσης περνάν από ένα στάδιο προεπεξεργασίας, πριν δοθούν στους ταξινομητές. Συγκεκριμένα εφαρμόζεται ένας αλγόριθμός Local Outlier Factor, με σκοπό την απομάκρυνση ακραίων δειγμάτων. Η ενσωμάτωσή του στο τελικό σύστημα αποφασίστηκε έπειτα από πειράματα, τα αποτελέσματα των οποίων θα δούμε στην συνέχεια.
    Τέλος, σημειώνεται πως, μετά την ενσωμάτωση του συστήματος εμπιστοσύνης, χρειάζεται να γίνει ο υπολογισμός νέων, πιο αντιπροσωπευτικών, μετρικών. Έτσι μαζί με τις μετρικές FRR και FAR, υπολογίζονται και 3 επιπλέον μετρικές που περιγράφουν την τελική απόδοση του συστήματος. Αυτές οι μετρικές εκφράζουν το ποσοστό που η συσκευή κλείδωσε ενώ υπήρχε αλληλεπίδραση από τον ιδιοκτήτη, καθώς και τον αριθμό των χειρονομιών και τον αριθμό των πακέτων μετρήσεων από αισθητήρες που χρειάστηκε το σύστημα για να αντιληφθεί την ύπαρξη μη εξουσιοδοτημένου χρήστη.
  • Σε αυτά την διαφάνεια βλέπουμε 4 πειράματα που πραγματοποιήθηκαν στο σύνολο χρηστών εκπαίδευσης. Στο αριστερά ραβδόγραμμα αποτυπώνονται οι μετρικές που εκφράζονται σε ποσοστό, ενώ στο δεξιά οι μετρικές που εκφράζονται σε αριθμό δειγμάτων.

    Παρατηρώντας λοιπόν τα ραβδογράμματα βλέπουμε:
    Την επίδραση που έχει το σύστημα εμπιστοσύνης. Αριστερά, παρατηρούμε πως οι γκρι ράβδοι είναι αρκετά μικρότεροι τις μπλε.
    Στο δεξιά σχήμα, στα δύο πρώτα πειράματα φαίνεται πως η χρήση πολλαπλών SVM μπορεί να εξασφαλίσει καλύτερη ασφάλεια.
  • Εδώ βλέπουμε πειράματα που πραγματοποιήθηκαν στο σύνολο των τελείως άγνωστων χρηστών. Στα ραβδογράμματα φαίνονται οι μετρικές του μετά το υποσύστημα εμπιστοσύνης.

    Από τα σχήματα αυτά μπορούν να γίνουν ποιο ξεκάθαρα:
    Η σημασία του LOF στην προεπεξεργασία. Μεταξύ των δύο πρώτων πειραμάτων βλέπουμε πως το δεύτερο που εφαρμόζει τον LOF παρουσιάζει αρκετά καλύτερες μετρικές ασφάλειας.
    Η σημασία των nu-gamma στο τελικό αποτέλεσμα. Τα πειράματα 2, 3 και 4 εκτελέστηκαν ακριβώς με τον ίδιο τρόπο αλλά με διαφορετικές περιοχές nu-gamma. Το 2ο πείραμα στόχευε σε ένα ισορροπημένο σύστημα, ενώ τα πειράματα 3 και 4 σε συστήματα με μεγαλύτερη διαφάνεια και ασφάλεια αντίστοιχα.
  • Στην διαφάνεια αυτή, βλέπουμε τα αποτελέσματα του 2ου πειράματος της προηγούμενης διαφάνειας ανά παιχνίδι.

    Παρατηρούμε:
    Ικανοποιητικά αποτελέσματα για τα παιχνίδια Mathisis και Focus.
    Ότι τα παιχνίδια Reacton, Memoria και Speedy έχουν υψηλό αριθμό χειρονομιών, κάτι που δικαιολογείται από την ύπαρξη taps.
  • Στην διαφάνεια αυτή προβάλλονται πιο λεπτομερώς τα αποτελέσματα για το παιχνίδι Mathisis, σε συγκρίσει με συστήματα που βασίζονται σε έναν τύπο δεδομένων. Τα 3 θηκογράμματα αντιστοιχούν στις 3 μετρικές, ενώ με χρώματα εκφράζονται τα διαφορετικά συστήματα. Το σύστημά μας παρουσιάζει καλύτερα και πιο σταθερά αποτελέσματα, καθώς έχει μικρότερες μέσες και ακραίες τιμές αλλά και μικρότερη διακύμανση. Παρόμοια συμπεριφορά υπάρχει και στα υπόλοιπα παιχνίδια.
  • Στους πίνακες αυτούς παρουσιάζονται συγκεντρωτικά τα αποτελέσματα για κάθε παιχνίδι, σε σύγκριση και με προηγούμενες εργασίες που χρησιμοποίησαν το ίδιο σύνολο δεδομένων.

    Αρχικά, σε σχέση με το σύστημα αισθητήρων, σημειώνεται ότι το σύστημα αισθητήρων δεν χρησιμοποιεί υποσύστημα εμπιστοσύνης και για αυτό η σύγκριση δεν είναι απόλυτη. Για τις FRR βλέπουμε πως είναι καλύτερες στα παιχνίδια κύριου ενδιαφέροντος και παρόμοιες στα υπόλοιπα. Ενώ για τις μετρικές ασφάλειας αυτό που αξίζει να σημειωθεί είναι ότι στο σύστημα αισθητήρων οι τιμές FAR που παρουσιάζονται επιτυγχάνονται με παράθυρα 500 δειγμάτων ενώ στο προκείμενο σύστημα το παράθυρο εμπεριέχει το πολύ 50 δείγματα. Έτσι, αν υποθέσουμε για παράδειγμα μια συχνότητα δειγματοληψίας 50Hz, το σύστημα αισθητήρων χρειάζεται τουλάχιστον 10 δευτερόλεπτα για να κάνει έναν έλεγχο, σε αντίθεση με το προκείμενο σύστημα που χρειάζεται περίπου μόλις 5 δευτερόλεπτα για να αναγνωρίζει τον χρήστη σε κάθε παιχνίδι.

    Σε σχέση με το σύστημα χειρονομιών αυτό που μπορούμε να σχολιάσουμε είναι πως παρουσιάζουν παρόμοια αποτελέσματα στα παιχνίδια κύριου ενδιαφέροντος και ότι το σύστημα που προτείνουμε παρουσιάζει πιο ομαλή συμπεριφορά και στα υπόλοιπα παιχνίδια.

    Ωστόσο αυτό που σημειώνεται είναι πως το σύστημα που προτείνουμε, σε αντίθεση και με τα δύο άλλα συστήματα, βασίζεται σε μία ποικιλία δεδομένων και μπορεί να ανταπεξέλθει και σε περιπτώσεις που υπάρχουν σφάλματα ή έλλειψη μετρήσεων.
  • Συνοψίζοντας:
    Η χρήση πολλαπλών SVMs και της αποθορυβοποίησης στα δεδομένα εκπαίδευσης βοηθάνε στην επίτευξη καλύτερης ασφάλειας.
    Το σύστημα εμπιστοσύνης προσδίδει μεγάλη λειτουργικότητα στο τελικό σύστημα.
    Οι παράμετροι nu και gamma παίζουν καθοριστικό ρόλο στο τελικό αποτέλεσμα.

    Το σύστημα που τελικά διαμορφώθηκε:
    Παρουσιάζει ικανοποιητικά αποτελέσματα, και μάλιστα χρησιμοποιώντας ένα μεγάλο εύρος ποιοτικών δεδομένων.
    Μπορεί να εκτελεί γρήγορους και ανθεκτικούς σε σφάλματα ελέγχους.
  • Βελτιώσεις που θα μπορούσαν να γίνουν είναι:
    Η διαμόρφωση καλύτερων βαρών στους ταξινομητές κατά την λήψη της απόφασης.
    Η δημιουργία περιβάλλοντος που ο χρήστης θα μπορεί να επιλέξει μόνος του τις περιοχές nu – gamma που ανταποκρίνονται στις ανάγκες του.
    Εφαρμογή τεχνικών επίγνωσης περιεχομένου οθόνης.
    Ικανότητα εξέλιξης και προσαρμογής στην συμπεριφορά του χρήστη.
  • Σας ευχαριστώ. Υπάρχουν ερωτήσεις;
  • Η επιλογή και ο τρόπος εκπαίδευσης του κατάλληλου αλγορίθμου, εξαρτάται από το είδος των διαθέσιμων δεδομένων και την φύση του προβλήματος. Ωστόσο μπορούμε να διαχωρίσουμε τους αλγορίθμους σε 4 βασικές κατηγορίες βάση του τρόπου που μπορούν να εκπαιδευτούν.

    Έτσι έχουμε την εποπτευόμενη μάθηση (Supervised Learning), όπου ο αλγόριθμος μαθαίνει σε ένα επισημασμένο σύνολο δεδομένων που κάθε δείγμα στο σύνολο εκπαίδευσης επισημαίνεται με την απάντηση που ψάχνει να βρει ο αλγόριθμος. Έτσι, ο αλγόριθμος μπορεί να χρησιμοποιήσει την απάντηση αυτή για να αξιολογήσει την ακρίβειά του και να βελτιώνεται. Η εποπτευόμενη μάθηση είναι χρήσιμη σε προβλήματα ταξινόμησης classification και regression.

    Όταν όμως δεν είναι δυνατό ή εύκολο να βρεθούν τα τέλεια επισημασμένα σύνολα δεδομένων, τότε χρησιμοποιούμε αλγόριθμους μη εποπτευόμενης μάθησης (Unsupervised Learning). Σε αυτή την περίπτωση ο αλγόριθμος λαμβάνει ένα σύνολο δεδομένων χωρίς ρητές οδηγίες σχετικά με το τι πρέπει να γίνει, τα δείγματα δεν έχουν συγκεκριμένο επιθυμητό αποτέλεσμα και ο αλγόριθμός επιχειρεί να βρει μοτίβα, εξάγοντας χρήσιμα χαρακτηριστικά και αναλύοντας την δομή τους. Η μάθηση χωρίς επίβλεψη είναι ιδιαίτερα χρήσιμη σε προβλήματα clustering, ανάλυσης συσχετίσεων και dimensionality reduction.

    Υπάρχουν και περιπτώσεις όμως που το σύνολο δεδομένων να περιέχει δεδομένα με ή χωρίς ετικέτα. Έτσι υπάρχουν αλγόριθμοι ημιεποπτευόμενης μάθησης που μπορούν να επωφεληθούν από αυτό το σχετικά μικρό ποσοστό επισημασμένων δειγμάτων και να βελτιώσουν την ακρίβειά τους.

    Τέλος, υπάρχουν αλγόριθμοι ενισχυτικής μάθησης, που κατά την διαδικασία την εκπαίδευσες τους λαμβάνουν μια θετική ή αρνητική ανταμοιβή και με αυτό τον τρόπο καταφέρνουν να βελτιώνουν την απόδοσή τους.
  • Το πρόβλημα που έχουμε να λύσουμε στην συγκεκριμένη περίπτωση είναι αν μία νέα μέτρηση από τους αισθητήρες προέρχεται από τον πραγματικό χρήστη της συσκευής. Γενικότερα προβλήματα που εξετάζουν εάν μια παρατήρηση ανήκει στο σύνολο κάποιον αρχικών παρατηρήσεων ανήκουν στην κατηγορία της ανίχνευσης ανωμαλιών. Σε αυτή την περίπτωση θεωρείται ότι τα δεδομένα εκπαίδευσης ανήκουν σε μία μοναδική κλάση και ο αλγόριθμος πρέπει να είναι σε θέση να ξεχωρίσει αν μια νέα παρατήρηση ανήκει σε αυτήν ή όχι και για αυτό τον λόγο το συγκεκριμένο πρόβλημα αναφέρεται και ως ταξινόμηση μίας κλάσης.

    Ωστόσο σε τέτοιου είδους προβλήματα μπορούν να εφαρμοστούν δύο διαφορετικές προσεγγίσεις.

    Η πρώτη προσέγγιση, γνωστή ως Outlier Detection, βασίζεται σε αλγορίθμους μη εποπτευόμενης μάθησης που προσπαθούν να ανιχνεύσουν περιοχές μεγάλης πυκνότητας δειγμάτων και στην συνέχεια να αποκλείσουν αυτά που δεν βρίσκονται σε αυτές. Συχνά χρησιμοποιούνται για την αποθορυβοποίηση συνόλων δεδομένων και μερικοί από αυτούς είναι το δάσος απομόνωσης, ο elliptic envelope και ο local outlier factor.

    Στην δεύτερη προσέγγιση, γνωστή ως Novelty Detection, βρίσκονται αλγόριθμοι ημιεποπτευόμενης επίβλεψης που χρησιμοποιούν το σύνολο εκπαίδευσης έτσι ώστε να οριοθετήσουν κάποιες περιοχές. Μόνο όταν κάποια καινούργια παρατήρηση βρεθεί εκτός αυτών των περιοχών μπορεί να θεωρηθεί ασυνήθιστη. Οι πιο συχνοί μηχανισμοί που καλούνται να λύσουν τέτοια προβλήματα, είναι τα One Class Support Vector Machine.
  • Ο αλγόριθμος LOF χαρακτηρίζει ένα δείγμα ως ακραίο λαμβάνοντας υπόψη την πυκνότητα της γειτονιάς του και συνεπώς αποδίδει καλά, όταν η πυκνότητα των παρατηρήσεων δεν είναι η ίδια σε όλο το σύνολο δεδομένων. Βασίζεται σε έννοιες όπως η k-distance, Reachability Distance, Local Reachability Density οι εξισώσεις των οποίων αναγράφονται την διαφάνεια.

    Γενικά, εάν LOF>1, το σημείο θεωρείται ακραίο, ωστόσο μερικές φορές χρειάζεται να γίνει σύγκριση της LOF τιμής του, με την μέγιστη τιμή LOF όλων των σημείων.

    Σημαντικό πλεονέκτημα είναι η ικανότητα προσδιορισμού τοπικών ακραίων τιμών. Μπορεί να ανιχνεύσει outliers που βρίσκονται σε πολύ μικρή απόσταση από κάποιο σύμπλεγμα σημείων, όταν άλλες προσεγγίσεις αποτυγχάνουν.
  • Οι κλασικοί SVM αλγόριθμοι 2 κλάσεων προσπαθούν να βρουν ένα όριο απόφασης το οποίο θα διαχωρίζει τις παρατηρήσεις των δύο κλάσεων και χαρακτηρίζονται από την ιδιότητα να δημιουργούν μη γραμμικά όρια απόφασης, προβάλλοντας τα δεδομένα σε μεγαλύτερες διαστάσεις με την βοήθεια των συναρτήσεων πυρήνα ή αλλιώς Kernel.

    Για τα προβλήματα μίας κλάσης, η λογική είναι παρόμοια με την διαφορά ότι ο αλγόριθμος προσπαθεί να βρει ένα όριο στο περικλείονται οι παρατηρήσεις της μίας κλάσης. Σε αυτή την λογική, οι δύο βασικότερες προσεγγίσεις είναι η δημιουργία ενός υπερεπιπέδου που διαχωρίζει τις περιοχές που δεν περιέχουν δεδομένα και η δημιουργία μιας υπερσφαίρας που περικλείει σχεδόν όλα τα δεδομένα της θετικής κλάσης (Tax, SVDD).
  • Σημαντικό κομμάτι αποτελεί και επιλογή σωστών μετρικών αξιολόγησης.

    Σε προβλήματα αυθεντικοποίησης συνήθη μετρικές είναι το Ποσοστό Λανθασμένης Αποδοχής (False Acceptance Rate – FAR), δηλαδή το ποσοστό των φορών που το σύστημα παρείχε πρόσβαση σε μη εξουσιοδοτημένο άτομο και το Ποσοστό Λανθασμένης Απόρριψης (False Rejection Rate – FRR), δηλαδή, το ποσοστό των φορών που το σύστημα δεν παρείχε πρόσβαση σε εξουσιοδοτημένο άτομο.

    FN = 𝛢𝜌𝜄𝜃𝜇ό𝜍 𝜇𝜂 𝛼𝜋𝜊𝛿𝜀𝜅𝜏ώ𝜈 𝜀𝜈𝜀𝜌𝛾𝜀𝛺𝜔𝜈 𝜋𝜌𝛼𝛾𝜇𝛼𝜏𝜄𝜅𝜊ύ 𝜒𝜌𝜂𝜎𝜏𝜂
    TP + FN = 𝛴𝜐𝜈𝜊𝜆𝜄𝜅ό𝜍 𝛼𝜌𝜄𝜃𝜇ό𝜍 𝜀𝜈𝜀𝜌𝛾𝜀𝜄ώ𝜈 𝜋𝜌𝛼𝛾𝜇𝛼𝜏𝜄𝜅𝜊ύ 𝜒𝜌𝜂𝜎𝜏𝜂

    FP = 𝛢𝜌𝜄𝜃𝜇ό𝜍 𝛼𝜋𝜊𝛿𝜀𝜅𝜏ώ𝜈 𝜀𝜈𝜀𝜌𝛾𝜀𝜄𝜔𝜈 𝜅𝛼𝜅ό𝛽𝜊𝜐𝜆𝜊𝜐 𝜒𝜌𝜂𝜎𝜏𝜂
    TN + FP = Σ𝜐𝜈𝜊𝜆𝜄𝜅ό𝜍 𝛼𝜌𝜄𝜃𝜇ό𝜍 𝜀𝜈𝜀𝜌𝛾𝜀𝜄ώ𝜈 𝜅𝛼𝜅ό𝛽𝜊𝜐𝜆𝜊𝜐 𝜒𝜌𝜂𝜎𝜏𝜂

×