SlideShare a Scribd company logo
Κωνσταντίνα Κούση
ΑΕΜ: 9429
Ανίχνευση Ρητορικής Μίσους στο Twitter
Επίβλεψη: Ανδρέας Σημεωνίδης, Καθηγητής ΑΠΘ
Δημήτρης Νάστος, Μεταδιδακτορικός Καθηγητής ΑΠΘ
Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α
• ΕΙΣΑΓΩΓΗ
• ΘΕΩΡΗΤΙΚΟ YΠΟΒΑΘΡΟ
• ΜΕΘΟΔΟΛΟΓΙΑ
• ΠΕΙΡΑΜΑΤΑ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ
• ΣΥΜΠΕΡΑΣΜΑΤΑ
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Περιγραφή προβλήματος
• Αύξηση του προσβλητικού περιεχομένου στις διαδικτυακές κοινότητες.
• Επείγουσα ανάγκη για αντιμετώπιση του εν λόγω περιεχομένου, καθώς η ρητορική μίσους έχει
επιζήμια επίδραση στη σωματική και ψυχική ευεξία ενός ατόμου.
• Ανίχνευση της ρητορικής μίσους σε άλλες γλώσσες εκτός της αγγλικής για τη δημιουργία ενός
ασφαλέστερου διαδικτυακού περιβάλλοντος για όλους.
Ε Ι Σ Α Γ Ω Γ Η
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Ε Ι Σ Α Γ Ω Γ Η
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Σκοπός της διπλωματικής
• Δημιουργία ενός ελληνικού συνόλου δεδομένων από το Twitter με αναρτήσεις που
σχολιάστηκαν χειροκίνητα για την ύπαρξη και την απουσία μίσους.
• Εύρεση βέλτιστου μοντέλου ανίχνευσης ρητορικής μίσους.
Θ Ε Ω Ρ Η Τ Ι Κ Ο Υ Π Ο Β Α Θ Ρ Ο
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Τι είναι NLP;
Ένας τομέας της γλωσσολογίας και της μηχανικής
μάθησης που επικεντρώνεται στην κατανόηση όλων
όσων σχετίζονται με την ανθρώπινη γλώσσα, με στόχο όχι
μόνο τη κατανόηση κάθε λέξης μεμονωμένα, αλλά και το
περιεχόμενο στο οποίο βρίσκεται αυτή η λέξη.
Θ Ε Ω Ρ Η Τ Ι Κ Ο Υ Π Ο Β Α Θ Ρ Ο
Νοέ βριος Ανίχνευση Ρητορικής Μίσους στο
Αρχιτεκτονική Transformer
Κωδικοποιητής:
κατανόηση μέσω μηχανισμού
προσοχής και απεικόνιση μιας
ακολουθίας εισόδου σε μορφή που
μπορεί να επεξεργαστεί το μοντέλο
Αποκωδικοποιητής:
λήψη της εξόδου του κωδικοποιητή
και προβλέπει με μηχανισμό προσοχής
μιας ακολουθίας εξόδου σταδιακά
στην επιθυμητή γλώσσα
BERT
• Επίπεδα κωδικοποιητών
• Προ-εκπαίδευση μέσω Masked
Language Modeling και Next
Sentence Prediction
• Κωδικοποίηση λέξεων με βάση τη
σημασία τους
Θ Ε Ω Ρ Η Τ Ι Κ Ο Υ Π Ο Β Α Θ Ρ Ο
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Συλλογή 25.165 δεδομένων από:
• λέξεις-κλειδιά
• απαντήσεις κάτω από ποστ
• αναρτήσεις από συγκεκριμένους
λογαριασμούς
Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α
Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
• Διαγραγή των ίδιων αναρτήσεων
• Αφαίρεση στήλη ID
• Αφαίρεση usernames, tags, links και αναρτήσεων
με λιγότερες από 15 λέξεις
Επεξεργασία δεδομένων:
Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Σχολιασμός αναρτήσεων:
• 1: μίσος
• 0: χωρίς μίσος
Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
• Αφαίρεση τόνων, stopwords, τα σημείων στίξης και μετατροπή των γραμμάτων σε πεζά
• Εφαρμογή word embeddings
Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
ML μοντέλα
• Support Vector Machines (SVM)
• Random Forest
• Multinomial Naïve Bayes
• SGDClassifier
• XGBoost
DL μοντέλα
• GreekBERT
• XLM-RoBERTa
• BERT multilingual
Μοντέλα Ανίχνευσης Ρητορικής Μίσους
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ
• k-fold cross-validation με 3 folds
• 10 συνδυασμοί υπερπαραμέτρων κάθε μοντέλου
tf-idf unigram embeddings της κλάσης hate
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ
tf-idf bigram embeddings της κλάσης hate
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ
word2vec embeddings της κλάσης hate
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ
FastText embeddings της κλάσης hate
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ
pretrained FastText embeddings της κλάσης hate
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ
Bert embeddings της κλάσης hate
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ
• 5 επαναλήψεις (epochs)
• ρυθμός εκμάθησης (learning rate) 2e-5
• συνάρτηση απώλειας cross-entropy
Σ Υ Μ Π Ε Ρ Ά Σ Μ Α ΤΑ
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Το Greek Bert μοντέλο αποτελεί την καλύτερη επιλογή για την ανίχνευση μίσους σε tweets με
ποσοστό accuracy τα 94% ξεπερνώντας για λίγο το SVM με Bert embeddings που φτάνει το 91%.
Λόγοι επιτυχίας:
• embeddings
• προ-εκπαίδευση
• χρήση ενός ξεκάθαρου και μικρού σετ δεδομένων, 556 tweets
Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
Ευχαριστώ για την προσοχή σας!
Ερωτήσεις;

More Related Content

More from ISSEL

Εννοιολογική Συνέπεια Μεγάλων Γλωσσικών Μοντέλων
Εννοιολογική Συνέπεια Μεγάλων Γλωσσικών ΜοντέλωνΕννοιολογική Συνέπεια Μεγάλων Γλωσσικών Μοντέλων
Εννοιολογική Συνέπεια Μεγάλων Γλωσσικών Μοντέλων
ISSEL
 
Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
ISSEL
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
ISSEL
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
ISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
ISSEL
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
ISSEL
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
ISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
ISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
ISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
ISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
ISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
ISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
ISSEL
 

More from ISSEL (20)

Εννοιολογική Συνέπεια Μεγάλων Γλωσσικών Μοντέλων
Εννοιολογική Συνέπεια Μεγάλων Γλωσσικών ΜοντέλωνΕννοιολογική Συνέπεια Μεγάλων Γλωσσικών Μοντέλων
Εννοιολογική Συνέπεια Μεγάλων Γλωσσικών Μοντέλων
 
Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 

Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx

  • 1. Κωνσταντίνα Κούση ΑΕΜ: 9429 Ανίχνευση Ρητορικής Μίσους στο Twitter Επίβλεψη: Ανδρέας Σημεωνίδης, Καθηγητής ΑΠΘ Δημήτρης Νάστος, Μεταδιδακτορικός Καθηγητής ΑΠΘ
  • 2. Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α • ΕΙΣΑΓΩΓΗ • ΘΕΩΡΗΤΙΚΟ YΠΟΒΑΘΡΟ • ΜΕΘΟΔΟΛΟΓΙΑ • ΠΕΙΡΑΜΑΤΑ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ • ΣΥΜΠΕΡΑΣΜΑΤΑ Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
  • 3. Περιγραφή προβλήματος • Αύξηση του προσβλητικού περιεχομένου στις διαδικτυακές κοινότητες. • Επείγουσα ανάγκη για αντιμετώπιση του εν λόγω περιεχομένου, καθώς η ρητορική μίσους έχει επιζήμια επίδραση στη σωματική και ψυχική ευεξία ενός ατόμου. • Ανίχνευση της ρητορικής μίσους σε άλλες γλώσσες εκτός της αγγλικής για τη δημιουργία ενός ασφαλέστερου διαδικτυακού περιβάλλοντος για όλους. Ε Ι Σ Α Γ Ω Γ Η Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
  • 4. Ε Ι Σ Α Γ Ω Γ Η Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Σκοπός της διπλωματικής • Δημιουργία ενός ελληνικού συνόλου δεδομένων από το Twitter με αναρτήσεις που σχολιάστηκαν χειροκίνητα για την ύπαρξη και την απουσία μίσους. • Εύρεση βέλτιστου μοντέλου ανίχνευσης ρητορικής μίσους.
  • 5. Θ Ε Ω Ρ Η Τ Ι Κ Ο Υ Π Ο Β Α Θ Ρ Ο Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Τι είναι NLP; Ένας τομέας της γλωσσολογίας και της μηχανικής μάθησης που επικεντρώνεται στην κατανόηση όλων όσων σχετίζονται με την ανθρώπινη γλώσσα, με στόχο όχι μόνο τη κατανόηση κάθε λέξης μεμονωμένα, αλλά και το περιεχόμενο στο οποίο βρίσκεται αυτή η λέξη.
  • 6. Θ Ε Ω Ρ Η Τ Ι Κ Ο Υ Π Ο Β Α Θ Ρ Ο Νοέ βριος Ανίχνευση Ρητορικής Μίσους στο Αρχιτεκτονική Transformer Κωδικοποιητής: κατανόηση μέσω μηχανισμού προσοχής και απεικόνιση μιας ακολουθίας εισόδου σε μορφή που μπορεί να επεξεργαστεί το μοντέλο Αποκωδικοποιητής: λήψη της εξόδου του κωδικοποιητή και προβλέπει με μηχανισμό προσοχής μιας ακολουθίας εξόδου σταδιακά στην επιθυμητή γλώσσα
  • 7. BERT • Επίπεδα κωδικοποιητών • Προ-εκπαίδευση μέσω Masked Language Modeling και Next Sentence Prediction • Κωδικοποίηση λέξεων με βάση τη σημασία τους Θ Ε Ω Ρ Η Τ Ι Κ Ο Υ Π Ο Β Α Θ Ρ Ο Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
  • 8. Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter
  • 9. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Συλλογή 25.165 δεδομένων από: • λέξεις-κλειδιά • απαντήσεις κάτω από ποστ • αναρτήσεις από συγκεκριμένους λογαριασμούς Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α
  • 10. Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter • Διαγραγή των ίδιων αναρτήσεων • Αφαίρεση στήλη ID • Αφαίρεση usernames, tags, links και αναρτήσεων με λιγότερες από 15 λέξεις Επεξεργασία δεδομένων:
  • 11. Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Σχολιασμός αναρτήσεων: • 1: μίσος • 0: χωρίς μίσος
  • 12. Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter • Αφαίρεση τόνων, stopwords, τα σημείων στίξης και μετατροπή των γραμμάτων σε πεζά • Εφαρμογή word embeddings
  • 13. Μ Ε Θ Ο Δ Ο Λ Ο Γ Ι Α Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter ML μοντέλα • Support Vector Machines (SVM) • Random Forest • Multinomial Naïve Bayes • SGDClassifier • XGBoost DL μοντέλα • GreekBERT • XLM-RoBERTa • BERT multilingual Μοντέλα Ανίχνευσης Ρητορικής Μίσους
  • 14. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ • k-fold cross-validation με 3 folds • 10 συνδυασμοί υπερπαραμέτρων κάθε μοντέλου tf-idf unigram embeddings της κλάσης hate
  • 15. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ tf-idf bigram embeddings της κλάσης hate
  • 16. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ word2vec embeddings της κλάσης hate
  • 17. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ FastText embeddings της κλάσης hate
  • 18. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ pretrained FastText embeddings της κλάσης hate
  • 19. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ Bert embeddings της κλάσης hate
  • 20. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Π Ε Ι Ρ Α Μ Α ΤΑ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ Α ΤΑ • 5 επαναλήψεις (epochs) • ρυθμός εκμάθησης (learning rate) 2e-5 • συνάρτηση απώλειας cross-entropy
  • 21. Σ Υ Μ Π Ε Ρ Ά Σ Μ Α ΤΑ Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Το Greek Bert μοντέλο αποτελεί την καλύτερη επιλογή για την ανίχνευση μίσους σε tweets με ποσοστό accuracy τα 94% ξεπερνώντας για λίγο το SVM με Bert embeddings που φτάνει το 91%. Λόγοι επιτυχίας: • embeddings • προ-εκπαίδευση • χρήση ενός ξεκάθαρου και μικρού σετ δεδομένων, 556 tweets
  • 22. Νοέμβριος 2023 Ανίχνευση Ρητορικής Μίσους στο Twitter Ευχαριστώ για την προσοχή σας! Ερωτήσεις;

Editor's Notes

  1. 1.7.2013
  2. 1.7.2013
  3. 1.7.2013
  4. 1.7.2013
  5. 1.7.2013
  6. 1.7.2013
  7. 1.7.2013
  8. 1.7.2013
  9. 1.7.2013
  10. 1.7.2013
  11. 1.7.2013
  12. 1.7.2013
  13. 1.7.2013
  14. 1.7.2013
  15. 1.7.2013
  16. 1.7.2013
  17. 1.7.2013
  18. 1.7.2013
  19. 1.7.2013
  20. 1.7.2013
  21. 1.7.2013
  22. 1.7.2013