SlideShare a Scribd company logo
1 of 35
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων
με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Εκπόνηση:
Σακελλαρίου Βασίλειος
ΑΕΜ: 9400
Επιβλέποντες:
Καθ. Συμεωνίδης Ανδρέας,
Υπ. Δρ Νάστος Δημήτριος
Θεσσαλονίκη, Νοέμβριος 2023
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών &
Μηχανικών Υπολογιστών
Τομέας Ηλεκτρονικής και Υπολογιστών
Τι είναι τα ανεπιθύμητα μηνύματα;
Όλα εκείνα τα μηνύματα που δεχόμαστε χωρίς τη συναίνεση μας.
 Μετάδοση με κινητή τηλεφωνία (sms), ηλεκτρονικό ταχυδρομείο και μέσα κοινωνικής
δικτύωσης.
 Αποστολή σε μεγάλο αριθμό παραληπτών με συγκεκριμένες επιδιώξεις.
Ανάλογα με τις επιδιώξεις έχουμε:
i. μηνύματα διαφημίσεων
ii. μηνύματα ηλεκτρονικού «ψαρέματος» (phishing)
iii. μηνύματα (αυτο)προβολής κυρίως στα μέσα κοινωνικής δικτύωσης (social promotion)
iv. μηνύματα ευαίσθητου περιεχομένου (θρησκευτικά, πολιτικά, κοινωνικά κ.α.)
Σκοπός – Συνεισφορά της Διπλωματικής Εργασίας
 Να εφαρμόσει τεχνικές από τη βιβλιογραφία του antispam filtering σε
ανοιχτά και προσβάσιμα σύνολα δεδομένων στην αγγλική γλώσσα.
 Να επεκτείνει την εφαρμογή στην ελληνική γλώσσα, με τη δημιουργία
φίλτρων στα ελληνικά.
• Απουσία διαθέσιμων δεδομένων στα ελληνικά.
• Χρήση μηχανικής μετάφρασης.
 Υλοποιείται ένα Καθολικό Φίλτρο, Θεματικά Φίλτρα για το social
promotion, το phishing, τις διαφημίσεις καθώς και ένα Σύστημα
Θεματικών Φίλτρων.
Σύνολα Δεδομένων
Ανοιχτά και προσβάσιμα αγγλικά δεδομένα
από τα UCI, Kaggle, GitHub.
SMS spam dataset με 5.151:
637 ανεπιθύμητα – 4.514 κανονικά
Enron spam email dataset με 29.208:
13.736 ανεπιθύμητα – 15.472 κανονικά
ΥouΤube spam dataset με 1.645:
764 ανεπιθύμητα – 881 κανονικά
Custom Σύνολο Αξιολόγησης
301 μηνύματα – 3 εκδοχές
1. πρωτότυπη - αγγλικά
2. μηχανική μετάφραση στα
ελληνικά
3. ανθρώπινη μετάφραση στα
ελληνικά
146 κανονικά
• Instagram
• Youtube
• Χ (Twitter)
• sms
155 ανεπιθύμητα μηνύματα
από ChatGPT.
• 54 μηνύματα social
promotion
• 57 διαφημιστικά μηνύματα
• 44 μηνύματα phishing
Μηχανική – Ανθρώπινη Μετάφραση
αγγλικά
ανθρώπινη μετάφραση
στα ελληνικά
μηχανική μετάφραση στα
ελληνικά
That finish is colder than
my ex’s heart link
Αυτό το τελείωμα είναι
πιο κρύο και από την
καρδιά του πρώην μου
σύνδεσμος
Αυτό το φινίρισμα είναι
πιο κρύο από τον
καρδιακό σύνδεσμο του
πρώην μου
Really cool animation
and well explained video.
Love it.
Πραγματικά ωραία
γραφικά και πολύ καλά
εξηγημένο βίντεο. Το
λατρεύω.
Πραγματικά δροσερό
animation και καλά
εξηγημένο βίντεο. Το
λατρεύω.
Μεθοδολογία
Προεπεξεργασία Δεδομένων
• Απομάκρυνση περιττής πληροφορίας και θορύβου.
Καθαρισμός Δεδομένων
• Οι χαρακτήρες των λέξεων μετατρέπονται σε
πεζούς, αποσκοπώντας στη μείωση του λεξιλογίου.
Μετατροπή σε Πεζούς Χαρακτήρες
• Το κείμενο χωρίζεται σε tokens / δομικά μέρη,
ώστε να γίνει πιο εύκολη η επεξεργασία του.
Tokenization
• Μόνο για το 1ο pipeline ταξινόμησης.
• Αφαίρεση χωρίς να αλλοιωθεί το νόημα του
κειμένου - Εστίαση στα σημαντικά μέρη.
Αφαίρεση Stop words
Μετάφραση – Διαχωρισμός Δεδομένων
• Χρήση του Google Translate API για τη μηχανική
μετάφραση των συνόλων δεδομένων.
Μετάφραση
• Σύνολα εκπαίδευσης – επικύρωσης - αξιολόγησης
(60% - 20% - 20%).
Διαχωρισμός Δεδομένων
Γλωσσικό Μοντέλο BERT
• Χρησιμοποιήθηκε η αρχιτεκτονική του μοντέλου BERT-Base.
• Μονογλωσσικά προεκπαιδευμένα μοντέλα BERT στα αγγλικά και τα
ελληνικά.
• Βασίζεται στην αρχιτεκτονική των Transformers.
• Προεκπαιδεύεται σε τεράστιους όγκους δεδομένων χωρίς επίβλεψη
(Masked Language Modeling και Next Sentence Prediction).
• Μέσω του μηχανισμού αυτό-προσοχής λαμβάνονται υπόψιν οι
σημασιολογικές σχέσεις μέσα σε μια πρόταση.
• Παραγωγή δυναμικών και πλούσιων σημασιολογικών αναπαραστάσεων.
Bidirectional Encoder Representations from Transformers (BERT)
Μεγάλα Χρήση του BERT
Εξαγωγή χαρακτηριστικών με
το προεκπαιδευμένο μοντέλο
και εκπαίδευση ενός
αλγόριθμου μηχανικής
μάθησης.
1
Προσθήκη στρώματος
ταξινόμησης στο
προεκπαιδευμένο BERT και
επανεκπαίδευση ολόκληρου
του νέου μοντέλου.
2
Επανεκπαίδευση BERT
 Adam optimizer με weight decay.
 Γραμμικός Scheduler με warm up.
 Επιλογή μοντέλου: Μικρότερη απώλεια
στο σύνολο επικύρωσης
• H τιμή της weight decay.
• O ρυθμός εκμάθησης του Adam.
• O αριθμός των warm up βημάτων στο
Scheduler.
• To batch size επανεκπαίδευσης.
• O αριθμός εποχών επανεκπαίδευσης.
• Το μέγιστο μήκος ακολουθίας εισόδου
BERT.
Aλγόριθμοι
Μηχανικής Μάθησης
Λογιστική
Παλινδρόμηση
Δένδρα
Αποφάσεων
SVM (RBF
kernel)
Random
Forest
Αλγόριθμοι Ταξινόμησης
Καθολικό Φίλτρο
Βασίζεται στην
επανεκπαίδευση των
μονογλωσσικών BERT.
1
Εκπαιδεύεται στη
συνένωση των
συνόλων SMS,
YouTube.
2
Συνδυασμός συνόλων
με διαφορετικές
κατηγορίες spam.
3
Στόχοι:
 Αναγνώριση των κατηγοριών spam που περιέχονται στα σύνολα.
 Διατήρηση της απόδοσης στα αντίστοιχα σύνολα.
Θεματικά Φίλτρα
Βασίζονται στην
επανεκπαίδευση των
μονογλωσσικών BERT.
1
Εστιάζουν σε μια
συγκεκριμένη
κατηγορία
ανεπιθύμητων
μηνυμάτων.
2
Δυνατότητα καλύτερης
προσαρμογής στα
χαρακτηριστικά της
κάθε κατηγορίας.
3
Στόχοι:
 Ανίχνευση μιας συγκεκριμένης κατηγορίας.
 Ανίχνευση των επιθυμητών ή όλων των κατηγοριών spam, με το
συνδυασμό των αντίστοιχων Θεματικών Φίλτρων.
Θεματικά Σύνολα
Σύνολα για την ανάπτυξη των
Θεματικών Φίλτρων
social promotion: 7.097 δείγματα
669 social promotion – 6.428 κανονικά
phishing: 7.097 δείγματα
316 phishing – 6781 κανονικά
διαφημίσεων: 7.097 δείγματα
706 διαφημίσεις – 6.391 κανονικά
Κατηγοριοποίηση Spam Μηνυμάτων
Θεματική
Μοντελοποίηση με το
μοντέλο BERTopic, για
την κατηγοριοποίηση
του spam στο
YouTube, SMS, Enron.
Σχηματισμός
ομάδων
δεδομένων και
αναπαράσταση
τους με ένα
σύνολο λέξεων.
Χαρακτηρισμός
της ομάδας με
μια κατηγορία.
•π.χ. Μια ομάδα με
ένα σύνολο
λέξεων [claim,
have, won ,prize,
10p, 1000, call,
cash, easy, to]. Τα
δείγματα αυτά,
χαρακτηρίστηκαν
ως phishing.
Χαρακτηρισμός
ακραίων
δείγματων
(outliers).
Αξιολόγηση SMS Dataset
αγγλικά ελληνικά Word2Vec & RF BERT pretrained & SVM BERT fine tuned
Accuracy 0.9874 0.9835 0.9855 0.9796 0.9903 0.9884
Balanced Accuracy 0.9556 0.9466 0.9782 0.9579 0.9809 0.9832
F1-macro 0.9699 0.9606 0.9671 0.9533 0.9777 0.9736
Η επανεκπαίδευση των BERT, Greek BERT πετυχαίνει:
 Την καλύτερη απόδοση στα αγγλικά.
 Την καλύτερη απόδοση στα μεταφρασμένα ελληνικά.
 Τη μικρότερη διαφορά μεταξύ των αποδόσεων των δυο γλωσσών.
Αξιολόγηση YouTube Dataset
αγγλικά ελληνικά TFIDF & RF BERT pretrained & SVM BERT fine tuned
Accuracy 0.924 0.921 0.9058 0.8967 0.9483 0.9392
Balanced Accuracy 0.9204 0.9167 0.9042 0.8932 0.9474 0.9372
F1-macro 0.923 0.9197 0.9051 0.8953 0.948 0.9387
Η επανεκπαίδευση των μονογλωσσικών BERT πετυχαίνει:
 Την καλύτερη απόδοση στα αγγλικά.
 Την καλύτερη απόδοση στα μεταφρασμένα ελληνικά.
Αξιολόγηση Enron Dataset
αγγλικά ελληνικά TFIDF & SVM BERT pretrained & SVM BERT fine tuned
Accuracy 0.989 0.9839 0.9832 0.9658 0.9945 0.9897
Balanced Accuracy 0.9893 0.9839 0.9834 0.9658 0.9944 0.9896
F1-macro 0.989 0.9839 0.9832 0.9656 0.9945 0.9887
 Η επανεκπαίδευση των αντίστοιχων μοντέλων BERT, αυξάνει περαιτέρω την
απόδοση και στις δυο γλώσσες.
Αξιολόγηση Καθολικού Φίλτρου
Φίλτρα Μετρική SMS test set YouTube test set
Καθολικό Φίλτρο F1-macro 0.9715 0.9632 0.9449 0.9203
Φίλτρο SMS F1-macro 0.9777 0.9736 -
Φίλτρο YouTube F1-macro - 0.948 0.9387
Το Καθολικό Φίλτρο:
 Γενικεύει πολύ καλά σε δεδομένα και των δυο.
 Μικρή μείωση για τα δείγματα από το SMS και για τις δυο γλώσσες.
 Μικρή μείωση για το YouTube στα αγγλικά και πιο αισθητή στα ελληνικά.
 Σύγκριση του Καθολικού Φίλτρου και των φίλτρων που επανεκπαιδεύτηκαν
στο SMS, YouTube, στα αντίστοιχα σύνολα αξιολόγησης του SMS, YouTube.
Αξιολόγηση Καθολικού Φίλτρου
 Ολικό σύνολο αξιολόγησης: 20% από SMS, YouTube.
 Custom σύνολο αξιολόγησης.
Στο custom σύνολο:
 Το αγγλικό φίλτρο έχει την καλύτερη απόδοση.
 Το ελληνικό φίλτρο έχει καλές αποδόσεις στα ελληνικά, σημειώνoντας μια
μικρή μείωση.
• Αποδίδει λίγο καλύτερα στα μηχανικά μεταφρασμένα ελληνικά.
Σύνολα αξιολόγησης Μετρική αγγλικά
μηχανικά
μεταφρασμένα
ελληνικά
ανθρωπίνως
μεταφρασμένα
ελληνικά
ολικό F1-macro 0.9652 0.9518 -
custom F1-macro 0.8669 0.8505 0.8405
Αξιολόγηση Φίλτρου Social Promotion
Σύνολα αξιολόγησης Μετρική αγγλικά
μηχανικά
μεταφρασμένα
ελληνικά
ανθρωπίνως
μεταφρασμένα
ελληνικά
custom F1-macro 0.81 0.7919 0.7731
 Custom σύνολο:
• social promotion ως spam
• υπόλοιπες κατηγορίες ως κανονικά μηνύματα
 Το φίλτρο στα αγγλικά πρωτότυπα δεδομένα έχει την καλύτερη απόδοση.
 Το ελληνικό φίλτρο έχει ικανοποιητικές αποδόσεις στα ελληνικά.
• Αποδίδει λίγο καλύτερα στα μηχανικά μεταφρασμένα ελληνικά.
Αξιολόγηση Φίλτρου Phishing
Σύνολα αξιολόγησης Μετρική αγγλικά
μηχανικά
μεταφρασμένα
ελληνικά
ανθρωπίνως
μεταφρασμένα
ελληνικά
custom F1-macro 0.8193 0.791 0.8123
 Το αγγλικό φίλτρο έχει την καλύτερη απόδοση.
 Το ελληνικό φίλτρο έχει ικανοποιητικές αποδόσεις στα ελληνικά.
• Η απόδοση του στα ανθρωπίνως μεταφρασμένα ελληνικά είναι πολύ
κοντά, σε σχέση με τα αγγλικά.
 Custom σύνολο:
• phishing ως spam
• υπόλοιπες κατηγορίες ως κανονικά μηνύματα
Αξιολόγηση Φίλτρου Διαφημίσεων
Σύνολα αξιολόγησης Μετρική αγγλικά
μηχανικά
μεταφρασμένα
ελληνικά
ανθρωπίνως
μεταφρασμένα
ελληνικά
custom F1-macro 0.8123 0.7606 0.7853
 Το αγγλικό φίλτρο έχει την καλύτερη απόδοση.
 Το ελληνικό φίλτρο έχει ικανοποιητικές αποδόσεις στα ελληνικά.
• Αποδίδει λίγο καλύτερα στα ανθρωπίνως μεταφρασμένα ελληνικά.
 Custom σύνολο:
• διαφημίσεις ως spam
• υπόλοιπες κατηγορίες ως κανονικά μηνύματα
Αξιολόγηση Συστήματος Φίλτρων
Φίλτρα Μετρική αγγλικά
μηχανικά
μεταφρασμένα
ελληνικά
ανθρωπίνως
μεταφρασμένα
ελληνικά
Σύστημα Φίλτρων F1-macro 0.8504 0.8438 0.8538
Καθολικό Φίλτρο F1-macro 0.8669 0.8505 0.8405
 Σύστημα Φίλτρων: συνδυασμός των τριών Θεματικών Φίλτρων και χαρακτηρίζει
μηνύματα ως
• ανεπιθύμητα αν έστω ένα φίλτρο τα χαρακτηρίσει ως ανεπιθύμητα.
• κανονικά αν συμφωνούν και τα τρία Θεματικά Φίλτρα.
 Το αγγλικό Καθολικό Φίλτρο, υπερισχύει έναντι του αγγλικού Συστήματος
Φίλτρων.
 Tο ελληνικό Σύστημα Φίλτρων έχει καλύτερη απόδοση από το αντίστοιχο
Καθολικό, για τα ανθρωπίνως μεταφρασμένα ελληνικά.
Συμπεράσματα
i. Τα μοντέλα BERT αφού επανεκπαιδευτούν στα σύνολα δεδομένων του προβλήματος,
πετυχαίνουν τα καλύτερα αποτελέσματα και για τις δυο γλώσσες.
ii. Το Καθολικό Φίλτρο, συνδυάζει αποτελεσματικά τα χαρακτηριστικά των συνόλων
εκπαίδευσης και διατηρεί την πολύ καλή απόδοση σε δεδομένα και των δυο. Επίσης,
προβλέπει ικανοποιητικά τα νέα δεδομένα αξιολόγησης.
iii. Τα Θεματικά Φίλτρα, δίνουν τη δυνατότητα για την ανίχνευση μιας συγκεκριμένης
κατηγορίας spam.
iv. Το Σύστημα Φίλτρων, επιτρέπει την ανίχνευση όλων των κατηγοριών spam, μέσω του
συνδυασμού των αντίστοιχων Θεματικών Φίλτρων.
v. Από τα αποτελέσματα των παραπάνω εφαρμογών, βλέπουμε ότι η χρήση της μηχανικής
μετάφρασης στην ανάπτυξη της ελληνικής έκδοσης των φίλτρων είναι αποτελεσματική.
Μελλοντικές Επεκτάσεις / Βελτιώσεις
i. Επαύξηση των δεδομένων εκπαίδευσης και αξιολόγησης.
ii. Διαφορετικός συνδυασμός των Θεματικών Φίλτρων, για την ανίχνευση των
επιθυμητών κατηγοριών.
iii. Ειδικότερος χαρακτηρισμός των κατηγοριών spam.
• π.χ. η κατηγορία των διαφημίσεων να αναλύεται σε συγκεκριμένα είδη
διαφημίσεων.
iv. Ανάπτυξη Θεματικών Φίλτρων για μηνύματα ευαίσθητου περιεχομένου
(κοινωνικά, πολιτικά, θρησκευτικά).
Ευχαριστώ πολύ για την προσοχή και το χρόνο σας!
Ευχαριστώ τον καθηγητή μου κ. Ανδρέα Συμεωνίδη καθώς
και τον Υπ. Δρ. Δημήτριο Νάστο.
Ερωτήσεις?
Παράρτημα
1. Δείγματα του custom συνόλου αξιολόγησης.
2. Σταθμισμένη Συνάρτηση Κόστους.
3. TFIDF – Word2Vec – FastText
1. Δείγματα του custom συνόλου
αγγλικά ελληνικά
pick up your phone (κανονικό) σήκωσε το τηλέφωνο σου
I just uploaded a new video. Check it
out at link (social promotion)
Μόλις ανέβασα ένα νέο βίντεο. Δείτε το
στο σύνδεσμο
Αmazing investment opportunity Call us
back for free to learn more (διαφήμιση)
Καταπληκτική επενδυτική ευκαιρία
Καλέστε μας δωρεάν για να μάθετε
περισσότερα
We have detected suspicious activity on
your bank account. Click the Link to
verify your identity. (phishing)
Εντοπίσαμε ύποπτη δραστηριότητα στον
τραπεζικό σας λογαριασμό. Κάντε κλικ
στο σύνδεσμο για να επαληθεύσετε την
ταυτότητά σας.
2. Σταθμισμένη Συνάρτηση Κόστους
 Για κάθε κλάση υπολογίζεται ένα βάρος (αντίστροφη συχνότητα κλάσης).
βαρος κλασης =
συνολικος αριθμος δειγματων
αριθμος κλασεων ∗ αριθμος δειγματων κλασης
3. TFIDF – Word2Vec – FastText
• Αποδίδει βάρη στις λέξεις, ανάλογα με τη συχνότητα εμφάνισης τους.
• Αραιά διανύσματα μεγάλου μήκους όσο το λεξιλόγιο.
Term Frequency Inverse Document Frequency (TFIDF)
• Μέσω ενός νευρωνικού δικτύου παράγονται οι τελικές στατικές αναπαραστάσεις
λέξεων.
• Πρόβλημα με λέξεις που δεν υπάρχουν στο λεξιλόγιο εκπαίδευσης.
Word2Vec
• Η διαφορά με το Word2Vec είναι ότι οι λέξεις «σπάνε» σε επίπεδο χαρακτήρων με
την μέθοδο των n-γραμμάτων (δομές γειτονικών n χαρακτήρων).
• Μέσω ενός νευρωνικού δικτύου αθροίζονται οι αναπαραστάσεις, που αντιστοιχούν
σε κάθε δομή n-γράμματος και στις λέξεις, για να παραχθούν οι τελικές
αναπαραστάσεις των λέξεων.
• Στατικές αναπαραστάσεις λέξεων.
FastText

More Related Content

Similar to Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης

πολυμεσα παρουσιαση
πολυμεσα παρουσιασηπολυμεσα παρουσιαση
πολυμεσα παρουσιασηnpapageor
 
A mechanism for extracting semantically-awknowledge in Software Repositories
A mechanism for extracting semantically-awknowledge in Software Repositories A mechanism for extracting semantically-awknowledge in Software Repositories
A mechanism for extracting semantically-awknowledge in Software Repositories Nikos Stasinopoulos
 

Similar to Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης (7)

πολυμεσα παρουσιαση
πολυμεσα παρουσιασηπολυμεσα παρουσιαση
πολυμεσα παρουσιαση
 
A mechanism for extracting semantically-awknowledge in Software Repositories
A mechanism for extracting semantically-awknowledge in Software Repositories A mechanism for extracting semantically-awknowledge in Software Repositories
A mechanism for extracting semantically-awknowledge in Software Repositories
 
Sem
SemSem
Sem
 
Sem
SemSem
Sem
 
Sem
SemSem
Sem
 
Sem
SemSem
Sem
 
Life savingtools ebook_metafrasi_2018
Life savingtools ebook_metafrasi_2018Life savingtools ebook_metafrasi_2018
Life savingtools ebook_metafrasi_2018
 

More from ISSEL

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...ISSEL
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...ISSEL
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...ISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...ISSEL
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...ISSEL
 

More from ISSEL (20)

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
 

Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης

  • 1. Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης Εκπόνηση: Σακελλαρίου Βασίλειος ΑΕΜ: 9400 Επιβλέποντες: Καθ. Συμεωνίδης Ανδρέας, Υπ. Δρ Νάστος Δημήτριος Θεσσαλονίκη, Νοέμβριος 2023 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών
  • 2. Τι είναι τα ανεπιθύμητα μηνύματα; Όλα εκείνα τα μηνύματα που δεχόμαστε χωρίς τη συναίνεση μας.  Μετάδοση με κινητή τηλεφωνία (sms), ηλεκτρονικό ταχυδρομείο και μέσα κοινωνικής δικτύωσης.  Αποστολή σε μεγάλο αριθμό παραληπτών με συγκεκριμένες επιδιώξεις. Ανάλογα με τις επιδιώξεις έχουμε: i. μηνύματα διαφημίσεων ii. μηνύματα ηλεκτρονικού «ψαρέματος» (phishing) iii. μηνύματα (αυτο)προβολής κυρίως στα μέσα κοινωνικής δικτύωσης (social promotion) iv. μηνύματα ευαίσθητου περιεχομένου (θρησκευτικά, πολιτικά, κοινωνικά κ.α.)
  • 3. Σκοπός – Συνεισφορά της Διπλωματικής Εργασίας  Να εφαρμόσει τεχνικές από τη βιβλιογραφία του antispam filtering σε ανοιχτά και προσβάσιμα σύνολα δεδομένων στην αγγλική γλώσσα.  Να επεκτείνει την εφαρμογή στην ελληνική γλώσσα, με τη δημιουργία φίλτρων στα ελληνικά. • Απουσία διαθέσιμων δεδομένων στα ελληνικά. • Χρήση μηχανικής μετάφρασης.  Υλοποιείται ένα Καθολικό Φίλτρο, Θεματικά Φίλτρα για το social promotion, το phishing, τις διαφημίσεις καθώς και ένα Σύστημα Θεματικών Φίλτρων.
  • 4. Σύνολα Δεδομένων Ανοιχτά και προσβάσιμα αγγλικά δεδομένα από τα UCI, Kaggle, GitHub. SMS spam dataset με 5.151: 637 ανεπιθύμητα – 4.514 κανονικά Enron spam email dataset με 29.208: 13.736 ανεπιθύμητα – 15.472 κανονικά ΥouΤube spam dataset με 1.645: 764 ανεπιθύμητα – 881 κανονικά
  • 5. Custom Σύνολο Αξιολόγησης 301 μηνύματα – 3 εκδοχές 1. πρωτότυπη - αγγλικά 2. μηχανική μετάφραση στα ελληνικά 3. ανθρώπινη μετάφραση στα ελληνικά 146 κανονικά • Instagram • Youtube • Χ (Twitter) • sms 155 ανεπιθύμητα μηνύματα από ChatGPT. • 54 μηνύματα social promotion • 57 διαφημιστικά μηνύματα • 44 μηνύματα phishing
  • 6. Μηχανική – Ανθρώπινη Μετάφραση αγγλικά ανθρώπινη μετάφραση στα ελληνικά μηχανική μετάφραση στα ελληνικά That finish is colder than my ex’s heart link Αυτό το τελείωμα είναι πιο κρύο και από την καρδιά του πρώην μου σύνδεσμος Αυτό το φινίρισμα είναι πιο κρύο από τον καρδιακό σύνδεσμο του πρώην μου Really cool animation and well explained video. Love it. Πραγματικά ωραία γραφικά και πολύ καλά εξηγημένο βίντεο. Το λατρεύω. Πραγματικά δροσερό animation και καλά εξηγημένο βίντεο. Το λατρεύω.
  • 8. Προεπεξεργασία Δεδομένων • Απομάκρυνση περιττής πληροφορίας και θορύβου. Καθαρισμός Δεδομένων • Οι χαρακτήρες των λέξεων μετατρέπονται σε πεζούς, αποσκοπώντας στη μείωση του λεξιλογίου. Μετατροπή σε Πεζούς Χαρακτήρες • Το κείμενο χωρίζεται σε tokens / δομικά μέρη, ώστε να γίνει πιο εύκολη η επεξεργασία του. Tokenization • Μόνο για το 1ο pipeline ταξινόμησης. • Αφαίρεση χωρίς να αλλοιωθεί το νόημα του κειμένου - Εστίαση στα σημαντικά μέρη. Αφαίρεση Stop words
  • 9. Μετάφραση – Διαχωρισμός Δεδομένων • Χρήση του Google Translate API για τη μηχανική μετάφραση των συνόλων δεδομένων. Μετάφραση • Σύνολα εκπαίδευσης – επικύρωσης - αξιολόγησης (60% - 20% - 20%). Διαχωρισμός Δεδομένων
  • 10. Γλωσσικό Μοντέλο BERT • Χρησιμοποιήθηκε η αρχιτεκτονική του μοντέλου BERT-Base. • Μονογλωσσικά προεκπαιδευμένα μοντέλα BERT στα αγγλικά και τα ελληνικά. • Βασίζεται στην αρχιτεκτονική των Transformers. • Προεκπαιδεύεται σε τεράστιους όγκους δεδομένων χωρίς επίβλεψη (Masked Language Modeling και Next Sentence Prediction). • Μέσω του μηχανισμού αυτό-προσοχής λαμβάνονται υπόψιν οι σημασιολογικές σχέσεις μέσα σε μια πρόταση. • Παραγωγή δυναμικών και πλούσιων σημασιολογικών αναπαραστάσεων. Bidirectional Encoder Representations from Transformers (BERT)
  • 11. Μεγάλα Χρήση του BERT Εξαγωγή χαρακτηριστικών με το προεκπαιδευμένο μοντέλο και εκπαίδευση ενός αλγόριθμου μηχανικής μάθησης. 1 Προσθήκη στρώματος ταξινόμησης στο προεκπαιδευμένο BERT και επανεκπαίδευση ολόκληρου του νέου μοντέλου. 2
  • 12. Επανεκπαίδευση BERT  Adam optimizer με weight decay.  Γραμμικός Scheduler με warm up.  Επιλογή μοντέλου: Μικρότερη απώλεια στο σύνολο επικύρωσης • H τιμή της weight decay. • O ρυθμός εκμάθησης του Adam. • O αριθμός των warm up βημάτων στο Scheduler. • To batch size επανεκπαίδευσης. • O αριθμός εποχών επανεκπαίδευσης. • Το μέγιστο μήκος ακολουθίας εισόδου BERT.
  • 14. Καθολικό Φίλτρο Βασίζεται στην επανεκπαίδευση των μονογλωσσικών BERT. 1 Εκπαιδεύεται στη συνένωση των συνόλων SMS, YouTube. 2 Συνδυασμός συνόλων με διαφορετικές κατηγορίες spam. 3 Στόχοι:  Αναγνώριση των κατηγοριών spam που περιέχονται στα σύνολα.  Διατήρηση της απόδοσης στα αντίστοιχα σύνολα.
  • 15. Θεματικά Φίλτρα Βασίζονται στην επανεκπαίδευση των μονογλωσσικών BERT. 1 Εστιάζουν σε μια συγκεκριμένη κατηγορία ανεπιθύμητων μηνυμάτων. 2 Δυνατότητα καλύτερης προσαρμογής στα χαρακτηριστικά της κάθε κατηγορίας. 3 Στόχοι:  Ανίχνευση μιας συγκεκριμένης κατηγορίας.  Ανίχνευση των επιθυμητών ή όλων των κατηγοριών spam, με το συνδυασμό των αντίστοιχων Θεματικών Φίλτρων.
  • 16. Θεματικά Σύνολα Σύνολα για την ανάπτυξη των Θεματικών Φίλτρων social promotion: 7.097 δείγματα 669 social promotion – 6.428 κανονικά phishing: 7.097 δείγματα 316 phishing – 6781 κανονικά διαφημίσεων: 7.097 δείγματα 706 διαφημίσεις – 6.391 κανονικά
  • 17. Κατηγοριοποίηση Spam Μηνυμάτων Θεματική Μοντελοποίηση με το μοντέλο BERTopic, για την κατηγοριοποίηση του spam στο YouTube, SMS, Enron. Σχηματισμός ομάδων δεδομένων και αναπαράσταση τους με ένα σύνολο λέξεων. Χαρακτηρισμός της ομάδας με μια κατηγορία. •π.χ. Μια ομάδα με ένα σύνολο λέξεων [claim, have, won ,prize, 10p, 1000, call, cash, easy, to]. Τα δείγματα αυτά, χαρακτηρίστηκαν ως phishing. Χαρακτηρισμός ακραίων δείγματων (outliers).
  • 18. Αξιολόγηση SMS Dataset αγγλικά ελληνικά Word2Vec & RF BERT pretrained & SVM BERT fine tuned Accuracy 0.9874 0.9835 0.9855 0.9796 0.9903 0.9884 Balanced Accuracy 0.9556 0.9466 0.9782 0.9579 0.9809 0.9832 F1-macro 0.9699 0.9606 0.9671 0.9533 0.9777 0.9736 Η επανεκπαίδευση των BERT, Greek BERT πετυχαίνει:  Την καλύτερη απόδοση στα αγγλικά.  Την καλύτερη απόδοση στα μεταφρασμένα ελληνικά.  Τη μικρότερη διαφορά μεταξύ των αποδόσεων των δυο γλωσσών.
  • 19. Αξιολόγηση YouTube Dataset αγγλικά ελληνικά TFIDF & RF BERT pretrained & SVM BERT fine tuned Accuracy 0.924 0.921 0.9058 0.8967 0.9483 0.9392 Balanced Accuracy 0.9204 0.9167 0.9042 0.8932 0.9474 0.9372 F1-macro 0.923 0.9197 0.9051 0.8953 0.948 0.9387 Η επανεκπαίδευση των μονογλωσσικών BERT πετυχαίνει:  Την καλύτερη απόδοση στα αγγλικά.  Την καλύτερη απόδοση στα μεταφρασμένα ελληνικά.
  • 20. Αξιολόγηση Enron Dataset αγγλικά ελληνικά TFIDF & SVM BERT pretrained & SVM BERT fine tuned Accuracy 0.989 0.9839 0.9832 0.9658 0.9945 0.9897 Balanced Accuracy 0.9893 0.9839 0.9834 0.9658 0.9944 0.9896 F1-macro 0.989 0.9839 0.9832 0.9656 0.9945 0.9887  Η επανεκπαίδευση των αντίστοιχων μοντέλων BERT, αυξάνει περαιτέρω την απόδοση και στις δυο γλώσσες.
  • 21. Αξιολόγηση Καθολικού Φίλτρου Φίλτρα Μετρική SMS test set YouTube test set Καθολικό Φίλτρο F1-macro 0.9715 0.9632 0.9449 0.9203 Φίλτρο SMS F1-macro 0.9777 0.9736 - Φίλτρο YouTube F1-macro - 0.948 0.9387 Το Καθολικό Φίλτρο:  Γενικεύει πολύ καλά σε δεδομένα και των δυο.  Μικρή μείωση για τα δείγματα από το SMS και για τις δυο γλώσσες.  Μικρή μείωση για το YouTube στα αγγλικά και πιο αισθητή στα ελληνικά.  Σύγκριση του Καθολικού Φίλτρου και των φίλτρων που επανεκπαιδεύτηκαν στο SMS, YouTube, στα αντίστοιχα σύνολα αξιολόγησης του SMS, YouTube.
  • 22. Αξιολόγηση Καθολικού Φίλτρου  Ολικό σύνολο αξιολόγησης: 20% από SMS, YouTube.  Custom σύνολο αξιολόγησης. Στο custom σύνολο:  Το αγγλικό φίλτρο έχει την καλύτερη απόδοση.  Το ελληνικό φίλτρο έχει καλές αποδόσεις στα ελληνικά, σημειώνoντας μια μικρή μείωση. • Αποδίδει λίγο καλύτερα στα μηχανικά μεταφρασμένα ελληνικά. Σύνολα αξιολόγησης Μετρική αγγλικά μηχανικά μεταφρασμένα ελληνικά ανθρωπίνως μεταφρασμένα ελληνικά ολικό F1-macro 0.9652 0.9518 - custom F1-macro 0.8669 0.8505 0.8405
  • 23. Αξιολόγηση Φίλτρου Social Promotion Σύνολα αξιολόγησης Μετρική αγγλικά μηχανικά μεταφρασμένα ελληνικά ανθρωπίνως μεταφρασμένα ελληνικά custom F1-macro 0.81 0.7919 0.7731  Custom σύνολο: • social promotion ως spam • υπόλοιπες κατηγορίες ως κανονικά μηνύματα  Το φίλτρο στα αγγλικά πρωτότυπα δεδομένα έχει την καλύτερη απόδοση.  Το ελληνικό φίλτρο έχει ικανοποιητικές αποδόσεις στα ελληνικά. • Αποδίδει λίγο καλύτερα στα μηχανικά μεταφρασμένα ελληνικά.
  • 24. Αξιολόγηση Φίλτρου Phishing Σύνολα αξιολόγησης Μετρική αγγλικά μηχανικά μεταφρασμένα ελληνικά ανθρωπίνως μεταφρασμένα ελληνικά custom F1-macro 0.8193 0.791 0.8123  Το αγγλικό φίλτρο έχει την καλύτερη απόδοση.  Το ελληνικό φίλτρο έχει ικανοποιητικές αποδόσεις στα ελληνικά. • Η απόδοση του στα ανθρωπίνως μεταφρασμένα ελληνικά είναι πολύ κοντά, σε σχέση με τα αγγλικά.  Custom σύνολο: • phishing ως spam • υπόλοιπες κατηγορίες ως κανονικά μηνύματα
  • 25. Αξιολόγηση Φίλτρου Διαφημίσεων Σύνολα αξιολόγησης Μετρική αγγλικά μηχανικά μεταφρασμένα ελληνικά ανθρωπίνως μεταφρασμένα ελληνικά custom F1-macro 0.8123 0.7606 0.7853  Το αγγλικό φίλτρο έχει την καλύτερη απόδοση.  Το ελληνικό φίλτρο έχει ικανοποιητικές αποδόσεις στα ελληνικά. • Αποδίδει λίγο καλύτερα στα ανθρωπίνως μεταφρασμένα ελληνικά.  Custom σύνολο: • διαφημίσεις ως spam • υπόλοιπες κατηγορίες ως κανονικά μηνύματα
  • 26. Αξιολόγηση Συστήματος Φίλτρων Φίλτρα Μετρική αγγλικά μηχανικά μεταφρασμένα ελληνικά ανθρωπίνως μεταφρασμένα ελληνικά Σύστημα Φίλτρων F1-macro 0.8504 0.8438 0.8538 Καθολικό Φίλτρο F1-macro 0.8669 0.8505 0.8405  Σύστημα Φίλτρων: συνδυασμός των τριών Θεματικών Φίλτρων και χαρακτηρίζει μηνύματα ως • ανεπιθύμητα αν έστω ένα φίλτρο τα χαρακτηρίσει ως ανεπιθύμητα. • κανονικά αν συμφωνούν και τα τρία Θεματικά Φίλτρα.  Το αγγλικό Καθολικό Φίλτρο, υπερισχύει έναντι του αγγλικού Συστήματος Φίλτρων.  Tο ελληνικό Σύστημα Φίλτρων έχει καλύτερη απόδοση από το αντίστοιχο Καθολικό, για τα ανθρωπίνως μεταφρασμένα ελληνικά.
  • 27. Συμπεράσματα i. Τα μοντέλα BERT αφού επανεκπαιδευτούν στα σύνολα δεδομένων του προβλήματος, πετυχαίνουν τα καλύτερα αποτελέσματα και για τις δυο γλώσσες. ii. Το Καθολικό Φίλτρο, συνδυάζει αποτελεσματικά τα χαρακτηριστικά των συνόλων εκπαίδευσης και διατηρεί την πολύ καλή απόδοση σε δεδομένα και των δυο. Επίσης, προβλέπει ικανοποιητικά τα νέα δεδομένα αξιολόγησης. iii. Τα Θεματικά Φίλτρα, δίνουν τη δυνατότητα για την ανίχνευση μιας συγκεκριμένης κατηγορίας spam. iv. Το Σύστημα Φίλτρων, επιτρέπει την ανίχνευση όλων των κατηγοριών spam, μέσω του συνδυασμού των αντίστοιχων Θεματικών Φίλτρων. v. Από τα αποτελέσματα των παραπάνω εφαρμογών, βλέπουμε ότι η χρήση της μηχανικής μετάφρασης στην ανάπτυξη της ελληνικής έκδοσης των φίλτρων είναι αποτελεσματική.
  • 28. Μελλοντικές Επεκτάσεις / Βελτιώσεις i. Επαύξηση των δεδομένων εκπαίδευσης και αξιολόγησης. ii. Διαφορετικός συνδυασμός των Θεματικών Φίλτρων, για την ανίχνευση των επιθυμητών κατηγοριών. iii. Ειδικότερος χαρακτηρισμός των κατηγοριών spam. • π.χ. η κατηγορία των διαφημίσεων να αναλύεται σε συγκεκριμένα είδη διαφημίσεων. iv. Ανάπτυξη Θεματικών Φίλτρων για μηνύματα ευαίσθητου περιεχομένου (κοινωνικά, πολιτικά, θρησκευτικά).
  • 29. Ευχαριστώ πολύ για την προσοχή και το χρόνο σας!
  • 30. Ευχαριστώ τον καθηγητή μου κ. Ανδρέα Συμεωνίδη καθώς και τον Υπ. Δρ. Δημήτριο Νάστο.
  • 32. Παράρτημα 1. Δείγματα του custom συνόλου αξιολόγησης. 2. Σταθμισμένη Συνάρτηση Κόστους. 3. TFIDF – Word2Vec – FastText
  • 33. 1. Δείγματα του custom συνόλου αγγλικά ελληνικά pick up your phone (κανονικό) σήκωσε το τηλέφωνο σου I just uploaded a new video. Check it out at link (social promotion) Μόλις ανέβασα ένα νέο βίντεο. Δείτε το στο σύνδεσμο Αmazing investment opportunity Call us back for free to learn more (διαφήμιση) Καταπληκτική επενδυτική ευκαιρία Καλέστε μας δωρεάν για να μάθετε περισσότερα We have detected suspicious activity on your bank account. Click the Link to verify your identity. (phishing) Εντοπίσαμε ύποπτη δραστηριότητα στον τραπεζικό σας λογαριασμό. Κάντε κλικ στο σύνδεσμο για να επαληθεύσετε την ταυτότητά σας.
  • 34. 2. Σταθμισμένη Συνάρτηση Κόστους  Για κάθε κλάση υπολογίζεται ένα βάρος (αντίστροφη συχνότητα κλάσης). βαρος κλασης = συνολικος αριθμος δειγματων αριθμος κλασεων ∗ αριθμος δειγματων κλασης
  • 35. 3. TFIDF – Word2Vec – FastText • Αποδίδει βάρη στις λέξεις, ανάλογα με τη συχνότητα εμφάνισης τους. • Αραιά διανύσματα μεγάλου μήκους όσο το λεξιλόγιο. Term Frequency Inverse Document Frequency (TFIDF) • Μέσω ενός νευρωνικού δικτύου παράγονται οι τελικές στατικές αναπαραστάσεις λέξεων. • Πρόβλημα με λέξεις που δεν υπάρχουν στο λεξιλόγιο εκπαίδευσης. Word2Vec • Η διαφορά με το Word2Vec είναι ότι οι λέξεις «σπάνε» σε επίπεδο χαρακτήρων με την μέθοδο των n-γραμμάτων (δομές γειτονικών n χαρακτήρων). • Μέσω ενός νευρωνικού δικτύου αθροίζονται οι αναπαραστάσεις, που αντιστοιχούν σε κάθε δομή n-γράμματος και στις λέξεις, για να παραχθούν οι τελικές αναπαραστάσεις των λέξεων. • Στατικές αναπαραστάσεις λέξεων. FastText