Ανάπτυξη Μοντέλου Διόρθωσης
Γραμματικών Λαθών για την Ελληνική
Γλώσσα
Ιούλιος 2024
Εκπόνηση:
Μυλωνάς Δημήτριος
9735
Επιβλέποντες:
Συμεωνίδης Ανδρέας, Καθηγητής
Νάστος Δημήτριος, Υπ. Διδάκτωρ
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
2
Το Πρόβλημα
10/7/2024
Η Διόρθωση Γραμματικών Λαθών (Grammatical Error Correction)
περιλαμβάνει τον εντοπισμό και τη διόρθωση σφαλμάτων ενός
γραπτού κειμένου που σχετίζονται με:
τη Γραμματική και το Συντακτικό (π.χ. λάθος πρόσωπα ρημάτων, λάθος πτώσεις ουσιαστικών)
την Ορθογραφία
τη Σημασιολογία (π.χ λάθος επιλογή λέξεων)
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
3
Στόχος της Διπλωματικής Εργασίας
10/7/2024
Δημιουργία ενός Μοντέλου Διόρθωσης
Γραμματικών, Συντακτικών και Ορθογραφικών
Λαθών για την Ελληνική Γλώσσα.
Δημιουργία Συνθετικού Συνόλου Δεδομένων με
γραμματικά λάθη στα Ελληνικά.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
4
Επισκόπηση Ερευνητικής Περιοχής
10/7/2024
Χρήση μοντέλων Μετασχηματιστών και Νευρωνικής Μηχανικής Μετάφρασης
για τη Διόρθωση Γραμματικών Λαθών στα Ελληνικά.
Korre and Pavlopoulos, 2022:
 Fine-Tuning ενός μοντέλου Μετασχηματιστή (mT5) για το συγκεκριμένο
πρόβλημα.
 Προσθήκη ενός νέου συνόλου δεδομένων για την Διόρθωση Γραμματικών
Λαθών στα Ελληνικά.
 Χρήση σχετικά περιορισμένου όγκου δεδομένων.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
5
Μεθοδολογία I
10/7/2024
1. Λήψη και Ενοποίηση
δυο δημόσια
προσβάσιμων συνόλων
δεδομένων.
2. Εκπαίδευση ενός
μοντέλου Μετασχηματιστή
στο ενοποιημένο σύνολο
δεδομένων.
3. Συγκρότηση Καταλόγου
με κατηγορίες λαθών που
συναντώνται συχνά στα
Ελληνικά.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
6
Μεθοδολογία II
10/7/2024
4. Λήψη και βασική
Επεξεργασία του
Ελληνικού Μέρους της
Wikipedia.
5. Δημιουργία Συνθετικού
Συνόλου Δεδομένων με
γραμματικά λάθη.
6. Εκπαίδευση και
Αξιολόγηση του
μοντέλου στο νέο
συνθετικό σύνολο
δεδομένων.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
7
Μοντέλο Μετασχηματιστή
10/7/2024
Μια από τις πιο
δημοφιλείς
Αρχιτεκτονικές Βαθιάς
Μάθησης για το πεδίο
της Επεξεργασίας
Φυσικής Γλώσσας.
Κωδικοποιητής:
Μετατρέπει την είσοδο
σε μια ακολουθία
διανυσματικών
αναπαραστάσεων
Αποκωδικοποιητής:
Χρησιμοποιεί την έξοδο
του Κωδικοποιητή για τη
παραγωγή εξόδου.
Self-Attention Layer:
Υπολογίζει συσχετίσεις
μεταξύ των λέξεων της
πρότασης εισόδου.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
8
Μοντέλο Τ5
10/7/2024
Αρχιτεκτονική Encoder-Decoder
Text-To-Text Format
mT5: η αντίστοιχη πολυγλωσσική έκδοση του μοντέλου
Καλύπτει 101 γλώσσες μεταξύ των οποίων και η Ελληνική.
Το μοντέλο Text-To-Text-Transfer-Transformer ή T5 αποτελεί ένα από τα πιο
δημοφιλή μοντέλα Αρχιτεκτονικής Βασισμένης στον Μετασχηματιστή
(Transformer-Based).
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
9
Ορολογία Επεξεργασίας Φυσικής Γλώσσας
10/7/2024
Tokenization: Διαδικασία Διάσπασης μιας πρότασης σε
μικρότερες μονάδες (tokens), που μπορεί να αποτελούνται
από λέξεις, υπολέξεις ή ακόμη και χαρακτήρες.
Embedding: Διανυσματική αναπαράσταση μιας λέξης με
σημασιολογική χρησιμότητα, δηλαδή όμοιες λέξεις έχουν
μικρότερη διανυσματική απόσταση μεταξύ τους.
Part-Of-Speech Tagging: Αναγνώριση του μέρους του λόγου
μιας λέξης. Εφικτό στα ελληνικά μέσω του μοντέλου
el_core_news_lg της βιβλιοθήκης Spacy.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
10
Υπολογισμός BLEU
10/7/2024
BLEU (BiLingual Evaluation Understudy): Μετρική αξιολόγησης της
ποιότητας μιας μετάφρασης, μεταξύ μιας υποψήφιας πρότασης C και μιας
πρότασης αναφοράς R, συνδυάζοντας διαφορετικά N-gram Precisions
(τυπικά για Ν=1,..,4).
N-gram: Τμήμα μιας πρότασης που αποτελείται από Ν tokens.
N-gram Precision: Μετρά πόσα N-grams της C βρίσκονται στην R προς τον
συνολικό αριθμό N-grams της C (κάθε token μετράται το πολύ όσες φορές
υπάρχει στην R).
Brevity Penalty: Πολλαπλασιαστική σταθερά < 1 αν η C έχει μεγαλύτερο
μήκος από την R, διαφορετικά = 1.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
11
Μοντέλο GreekT5-umt5-greeksum
10/7/2024
Fine-Tuning του
μοντέλου umt5-
base (μια
βελτιωμένη εκδοχή
του mT5).
Εκπαίδευση στο
πρόβλημα της
Περίληψης
Κειμένου στα
Ελληνικά.
Σύνολο
Εκπαίδευσης
GreekSum που
περιλαμβάνει
περίπου 151.000
ειδησεογραφικά
άρθρα (οικονομία,
πολιτική κ.ά.).
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
12
Μετρικές Αξιολόγησης
10/7/2024
BLEU (BiLingual Evaluation Understudy): Μετρική αξιολόγησης της
ποιότητας μιας Μηχανικής Μετάφρασης, συγκρίνοντας την επικάλυψη
ακολουθιών λέξεων (N-grams), μεταξύ μιας υποψήφιας μετάφρασης C
και μιας πρότασης αναφοράς R.
Levenshtein Distance (LD): Αριθμός εισαγωγών, διαγραφών και
αντικαταστάσεων χαρακτήρων που πρέπει να γίνουν στην C για να
προκύψει η R.
Normalized Levenshtein Similarity:
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
13
Σύνολα Δεδομένων GNC-GLC2
10/7/2024
Συλλογή από εκθέσεις μαθητών Λυκείου,
μαζί με τις αντίστοιχες διορθώσεις (358
προτάσεις).
Greek Native Corpus (GNC):
Συλλογή από εκθέσεις ανθρώπων που
μαθαίνουν τα ελληνικά ως δεύτερη μαζί με
τις διορθώσεις των λαθών (1524 προτάσεις).
Greek Learner Corpus
Corrections (GLC2):
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
14
Τεχνικές Λεπτομέρειες Εκπαίδευσης
10/7/2024
• AdamW Optimizer: γ=0.001, β1=0.9, β2=0.999, ε= , λ=0.01
• Συνάρτηση Απώλειας: Cross Entropy Loss
• Μέγεθος κάθε Batch: 4 παραδείγματα.
• Step LR Scheduler: γ = 1, γ = 0.1 και 0.5 με εφαρμογή κάθε 5 epochs.
• Διαχωρισμός GNC-GLC: Train-Validation 80-20% με 1388 και 348
παραδείγματα αντίστοιχα.
• Χρήση Προθήματος: ‘‘Γραμματική: ‘’ πριν από κάθε παράδειγμα εισόδου.
• Μετρικές Αξιολόγησης: BLEU και NLS στο σύνολο Validation.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
15
Εκπαίδευση στο GNC-GLC
10/7/2024
 Η Συνάρτηση Απώλειας μειώνεται
σημαντικά και στις 3 περιπτώσεις.
 Ταχύτερη μείωση με τη παρουσία
Scheduler.
 Υπολογισμός BLEU και NLS στο
σύνολο Validation.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
16
Εκπαίδευση στο GNC-GLC
10/7/2024
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
17
Δημιουργία Συνθετικού Συνόλου Δεδομένων
10/7/2024
Γραμματικά Λάθη σε
Κείμενα Ελληνικής
Wikipedia
60.000
Παραδείγματα
Train-Validation-Test
Split
80-10-10%
Πρόταση με Λάθη Ορθή Πρόταση
Το κρατος Ανήκει στιψ Αντίλλες τοης Καραιβικής
. Βρίσκεται μεταξύ της Κούβας κε του Πουέρτο
ρίκο . Η Αιτή καταλαμβάνω το δυτικό τμειμα του
νησιού ισπανιόλα .
Το κράτος ανήκει στις Αντίλλες της Καραϊβικής.
Βρίσκεται μεταξύ της Κούβας και του Πουέρτο
Ρίκο. Η Αϊτή καταλαμβάνει το δυτικό τμήμα του
νησιού Ισπανιόλα.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
18
Παραγωγή Συνθετικού Συνόλου
10/7/2024
Διαχωρισμός
κάθε
παραδείγματος
σε επιμέρους
παραγράφους.
Απόρριψη κάθε
παραγράφου
μικρότερης από
100 χαρακτήρες
ή μεγαλύτερης
από 120 tokens.
Χρήση του NLP
μοντέλου
el_core_news_lg
της βιβλιοθήκης
Spacy (για POS
Tagging).
Όχι
περισσότερες
από 4
παραγράφους
για κάθε
παράδειγμα.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
19
Κατάλογος Τύπων Λαθών
10/7/2024
 43 τύποι λαθών που συναντώνται συχνά στα
Ελληνικά.
 Κατηγορίες ορθογραφικών λαθών
(π.χ. 4  Αντικατάσταση ‘ο’ με ‘ω’).
 Κατηγορίες λαθών Γραμματικής
(π.χ. 23  Αλλαγή Γένους Επιθέτου).
 Κάποιοι κανόνες έχουν προϋποθέσεις εφαρμογής
(π.χ. 4) ενώ άλλοι εφαρμόζονται καθολικά
(π.χ. 3  Τυχαία Αντικατάσταση Χαρακτήρα).
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
20
Μέθοδος Επιλογής Κατηγορίας Λάθους Ι
10/7/2024
30 Αντικατάσταση ‘πολλή’ με ‘πολύ’
34  Αντικατάσταση ‘οντας’ με ‘ωντας’
9  Αντικατάσταση ‘οι’ με ‘η’
3  Τυχαία Αντικατάσταση Χαρακτήρα
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
21
Μέθοδος Επιλογής Κατηγορίας Λάθους ΙΙ
10/7/2024
Για κάθε λέξη του
κειμένου, εφαρμόζεται
ο Αλγόριθμος Επιλογής
Κατηγορίας Λάθους
Δίνεται προτεραιότητα
στα Groups χαμηλής
συχνότητας εμφάνισης.
Τυχαία δοκιμή
κατηγοριών λάθους
εως ότου να βρεθεί
κάποια κατηγορία που
να εφαρμόζεται
επιτυχώς
Ειδικά για το Group 3
(πολύ υψηλή
συχνότητα) το λάθος
εφαρμόζεται με
πιθανότητα 0.5
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
22
Χαρακτηριστικά Συνθετικού Συνόλου
10/7/2024
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
23
Εκπαίδευση στο Συνθετικό Σύνολο Ι
10/7/2024
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
24
Εκπαίδευση στο Συνθετικό Σύνολο ΙΙ
10/7/2024
AdamW Optimizer με γ=0.0001
Η συνάρτηση απώλειας εκπαίδευσης
μειώνεται σε αρκετά χαμηλά επίπεδα.
Τερματισμός εκπαίδευσης μετά από 10
Epochs.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
25
Αξιολόγηση στο Testing Dataset
10/7/2024
BLEU Score BLEU Score
Without Fine-Tuning on Synthetic Dataset After Fine-Tuning on Synthetic Dataset
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
26
Αξιολόγηση στο Testing Dataset
10/7/2024
Without Fine-Tuning on Synthetic Dataset After Fine-Tuning on Synthetic Dataset
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
27
Παράδειγμα Πρότασης Ι
10/7/2024
 Μεγάλη ποικιλία λαθών
(ορθογραφικά, λανθασμένοι
κεφαλαίοι χαρακτήρες,
παράλειψη διαλυτικών κ.ά.).
 Επιτυχής διόρθωση
πλειοψηφίας λαθών.
 Αδυναμία διόρθωσης των
λέξεων ‘’Διοκλητιανός’’ και
‘’αυτοδιορίζεται’’.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
28
Παράδειγμα Πρότασης ΙΙ
10/7/2024
 Ύπαρξη λάθους αλλαγής
προσώπου και χρόνου
(αρχίζω  άρχισαν).
 Επιτυχής διόρθωση
πλειοψηφίας λαθών.
 Ανεπιτυχής διόρθωση
κεφαλαίου χαρακτήρα της
λέξης ‘’Δύσης’’.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
29
Συμπεράσματα
10/7/2024
Το μοντέλο ανταποκρίνεται ικανοποιητικά στην
πλειονότητα των κατηγοριών του καταλόγου.
Επιτυχής διόρθωση του 89.47% των λαθών του
συνόλου ελέγχου με μέση τιμή BLEU 0.86.
Μια open-source λύση σχετικά χαμηλών
υπολογιστικών απαιτήσεων.
Μελλοντικές Επεκτάσεις
10/7/2024
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την
Ελληνική Γλώσσα 30
Δημιουργία νέων συνόλων δεδομένων.
• Επέκταση του υπάρχοντος καταλόγου.
• Κατασκευή μοντέλου Μηχανικής Μετάφρασης για τη δημιουργία
τεχνητών λαθών.
Χρήση εναλλακτικών μοντέλων Αρχιτεκτονικής
Κωδικοποιητή-Αποκωδικοποιητή για τη διόρθωση
των λαθών.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
31
Ευχαριστώ για τον χρόνο σας!
Ερωτήσεις;
10/7/2024
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
32
Παράδειγμα Υπολογισμού Ν-gram Precision
10/7/2024
1-gram Precision
2-gram Precision
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
33
Παραδείγματα GNC-GLC2
10/7/2024
Αρχική Πρόταση Διορθωμένη Πρόταση
Αντιδρούν σε κάθε καινούργιο
κατόρθωμά της καθώς είναι αρνητικά
προκατειλημένοι.
Αντιδρούν σε κάθε καινούργιο
κατόρθωμά της καθώς είναι αρνητικά
προκατειλημμένοι.
Αρχική Πρόταση Διορθωμένη Πρόταση
Ειμαι στο σχολειο και μου αρεσι, εχω
πολη καλλος δασκαλος.
Είμαι στο σχολείο και μου αρέσει, έχω
πολύ καλούς δασκάλους.
Παράδειγμα Greek Native Corpus
Παράδειγμα Greek Learner Corpus Corrections
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
34
Αλγόριθμος Επιλογής Κατηγορίας Λάθους
10/7/2024
Εκκίνηση
πάντοτε από το
Group 0 και
επιλογή
κατηγοριών
τυχαία έως
ότου
δοκιμαστούν
όλες οι
κατηγορίες του
Group.
Σε περίπτωση
αποτυχίας,
επιλογή ενός εκ
των Groups 1-3
με πιθανότητες
0.6, 0.3 και 0.1
αντίστοιχα και
δοκιμή των
κατηγοριών του
Group που
επιλέχθηκε.
Σε περίπτωση
αποτυχίας,
ισομερές
μοίρασμα της
πιθανότητας
του Group στα
υπόλοιπα 2.
Τερματισμός
όταν βρεθεί μια
κατηγορία
λάθους που
είναι δυνατό να
εφαρμοστεί
επιτυχώς.
Εάν ο κωδικός
ανήκει στο
Group 3, τότε
το λάθος
εφαρμόζεται με
πιθανότητα 0.5,
διαφορετικά
εφαρμόζεται
κατευθείαν στη
λέξη.
Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ε
λληνική Γλώσσα
35
Ολόκληρος Κατάλογος Τύπων Λαθών
10/7/2024

Ανάπτυξη Μοντέλου Διόρθωσης Γραμματικών Λαθών για την Ελληνική Γλώσσα.pptx

  • 1.
    Ανάπτυξη Μοντέλου Διόρθωσης ΓραμματικώνΛαθών για την Ελληνική Γλώσσα Ιούλιος 2024 Εκπόνηση: Μυλωνάς Δημήτριος 9735 Επιβλέποντες: Συμεωνίδης Ανδρέας, Καθηγητής Νάστος Δημήτριος, Υπ. Διδάκτωρ
  • 2.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 2 Το Πρόβλημα 10/7/2024 Η Διόρθωση Γραμματικών Λαθών (Grammatical Error Correction) περιλαμβάνει τον εντοπισμό και τη διόρθωση σφαλμάτων ενός γραπτού κειμένου που σχετίζονται με: τη Γραμματική και το Συντακτικό (π.χ. λάθος πρόσωπα ρημάτων, λάθος πτώσεις ουσιαστικών) την Ορθογραφία τη Σημασιολογία (π.χ λάθος επιλογή λέξεων)
  • 3.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 3 Στόχος της Διπλωματικής Εργασίας 10/7/2024 Δημιουργία ενός Μοντέλου Διόρθωσης Γραμματικών, Συντακτικών και Ορθογραφικών Λαθών για την Ελληνική Γλώσσα. Δημιουργία Συνθετικού Συνόλου Δεδομένων με γραμματικά λάθη στα Ελληνικά.
  • 4.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 4 Επισκόπηση Ερευνητικής Περιοχής 10/7/2024 Χρήση μοντέλων Μετασχηματιστών και Νευρωνικής Μηχανικής Μετάφρασης για τη Διόρθωση Γραμματικών Λαθών στα Ελληνικά. Korre and Pavlopoulos, 2022:  Fine-Tuning ενός μοντέλου Μετασχηματιστή (mT5) για το συγκεκριμένο πρόβλημα.  Προσθήκη ενός νέου συνόλου δεδομένων για την Διόρθωση Γραμματικών Λαθών στα Ελληνικά.  Χρήση σχετικά περιορισμένου όγκου δεδομένων.
  • 5.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 5 Μεθοδολογία I 10/7/2024 1. Λήψη και Ενοποίηση δυο δημόσια προσβάσιμων συνόλων δεδομένων. 2. Εκπαίδευση ενός μοντέλου Μετασχηματιστή στο ενοποιημένο σύνολο δεδομένων. 3. Συγκρότηση Καταλόγου με κατηγορίες λαθών που συναντώνται συχνά στα Ελληνικά.
  • 6.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 6 Μεθοδολογία II 10/7/2024 4. Λήψη και βασική Επεξεργασία του Ελληνικού Μέρους της Wikipedia. 5. Δημιουργία Συνθετικού Συνόλου Δεδομένων με γραμματικά λάθη. 6. Εκπαίδευση και Αξιολόγηση του μοντέλου στο νέο συνθετικό σύνολο δεδομένων.
  • 7.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 7 Μοντέλο Μετασχηματιστή 10/7/2024 Μια από τις πιο δημοφιλείς Αρχιτεκτονικές Βαθιάς Μάθησης για το πεδίο της Επεξεργασίας Φυσικής Γλώσσας. Κωδικοποιητής: Μετατρέπει την είσοδο σε μια ακολουθία διανυσματικών αναπαραστάσεων Αποκωδικοποιητής: Χρησιμοποιεί την έξοδο του Κωδικοποιητή για τη παραγωγή εξόδου. Self-Attention Layer: Υπολογίζει συσχετίσεις μεταξύ των λέξεων της πρότασης εισόδου.
  • 8.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 8 Μοντέλο Τ5 10/7/2024 Αρχιτεκτονική Encoder-Decoder Text-To-Text Format mT5: η αντίστοιχη πολυγλωσσική έκδοση του μοντέλου Καλύπτει 101 γλώσσες μεταξύ των οποίων και η Ελληνική. Το μοντέλο Text-To-Text-Transfer-Transformer ή T5 αποτελεί ένα από τα πιο δημοφιλή μοντέλα Αρχιτεκτονικής Βασισμένης στον Μετασχηματιστή (Transformer-Based).
  • 9.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 9 Ορολογία Επεξεργασίας Φυσικής Γλώσσας 10/7/2024 Tokenization: Διαδικασία Διάσπασης μιας πρότασης σε μικρότερες μονάδες (tokens), που μπορεί να αποτελούνται από λέξεις, υπολέξεις ή ακόμη και χαρακτήρες. Embedding: Διανυσματική αναπαράσταση μιας λέξης με σημασιολογική χρησιμότητα, δηλαδή όμοιες λέξεις έχουν μικρότερη διανυσματική απόσταση μεταξύ τους. Part-Of-Speech Tagging: Αναγνώριση του μέρους του λόγου μιας λέξης. Εφικτό στα ελληνικά μέσω του μοντέλου el_core_news_lg της βιβλιοθήκης Spacy.
  • 10.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 10 Υπολογισμός BLEU 10/7/2024 BLEU (BiLingual Evaluation Understudy): Μετρική αξιολόγησης της ποιότητας μιας μετάφρασης, μεταξύ μιας υποψήφιας πρότασης C και μιας πρότασης αναφοράς R, συνδυάζοντας διαφορετικά N-gram Precisions (τυπικά για Ν=1,..,4). N-gram: Τμήμα μιας πρότασης που αποτελείται από Ν tokens. N-gram Precision: Μετρά πόσα N-grams της C βρίσκονται στην R προς τον συνολικό αριθμό N-grams της C (κάθε token μετράται το πολύ όσες φορές υπάρχει στην R). Brevity Penalty: Πολλαπλασιαστική σταθερά < 1 αν η C έχει μεγαλύτερο μήκος από την R, διαφορετικά = 1.
  • 11.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 11 Μοντέλο GreekT5-umt5-greeksum 10/7/2024 Fine-Tuning του μοντέλου umt5- base (μια βελτιωμένη εκδοχή του mT5). Εκπαίδευση στο πρόβλημα της Περίληψης Κειμένου στα Ελληνικά. Σύνολο Εκπαίδευσης GreekSum που περιλαμβάνει περίπου 151.000 ειδησεογραφικά άρθρα (οικονομία, πολιτική κ.ά.).
  • 12.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 12 Μετρικές Αξιολόγησης 10/7/2024 BLEU (BiLingual Evaluation Understudy): Μετρική αξιολόγησης της ποιότητας μιας Μηχανικής Μετάφρασης, συγκρίνοντας την επικάλυψη ακολουθιών λέξεων (N-grams), μεταξύ μιας υποψήφιας μετάφρασης C και μιας πρότασης αναφοράς R. Levenshtein Distance (LD): Αριθμός εισαγωγών, διαγραφών και αντικαταστάσεων χαρακτήρων που πρέπει να γίνουν στην C για να προκύψει η R. Normalized Levenshtein Similarity:
  • 13.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 13 Σύνολα Δεδομένων GNC-GLC2 10/7/2024 Συλλογή από εκθέσεις μαθητών Λυκείου, μαζί με τις αντίστοιχες διορθώσεις (358 προτάσεις). Greek Native Corpus (GNC): Συλλογή από εκθέσεις ανθρώπων που μαθαίνουν τα ελληνικά ως δεύτερη μαζί με τις διορθώσεις των λαθών (1524 προτάσεις). Greek Learner Corpus Corrections (GLC2):
  • 14.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 14 Τεχνικές Λεπτομέρειες Εκπαίδευσης 10/7/2024 • AdamW Optimizer: γ=0.001, β1=0.9, β2=0.999, ε= , λ=0.01 • Συνάρτηση Απώλειας: Cross Entropy Loss • Μέγεθος κάθε Batch: 4 παραδείγματα. • Step LR Scheduler: γ = 1, γ = 0.1 και 0.5 με εφαρμογή κάθε 5 epochs. • Διαχωρισμός GNC-GLC: Train-Validation 80-20% με 1388 και 348 παραδείγματα αντίστοιχα. • Χρήση Προθήματος: ‘‘Γραμματική: ‘’ πριν από κάθε παράδειγμα εισόδου. • Μετρικές Αξιολόγησης: BLEU και NLS στο σύνολο Validation.
  • 15.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 15 Εκπαίδευση στο GNC-GLC 10/7/2024  Η Συνάρτηση Απώλειας μειώνεται σημαντικά και στις 3 περιπτώσεις.  Ταχύτερη μείωση με τη παρουσία Scheduler.  Υπολογισμός BLEU και NLS στο σύνολο Validation.
  • 16.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 16 Εκπαίδευση στο GNC-GLC 10/7/2024
  • 17.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 17 Δημιουργία Συνθετικού Συνόλου Δεδομένων 10/7/2024 Γραμματικά Λάθη σε Κείμενα Ελληνικής Wikipedia 60.000 Παραδείγματα Train-Validation-Test Split 80-10-10% Πρόταση με Λάθη Ορθή Πρόταση Το κρατος Ανήκει στιψ Αντίλλες τοης Καραιβικής . Βρίσκεται μεταξύ της Κούβας κε του Πουέρτο ρίκο . Η Αιτή καταλαμβάνω το δυτικό τμειμα του νησιού ισπανιόλα . Το κράτος ανήκει στις Αντίλλες της Καραϊβικής. Βρίσκεται μεταξύ της Κούβας και του Πουέρτο Ρίκο. Η Αϊτή καταλαμβάνει το δυτικό τμήμα του νησιού Ισπανιόλα.
  • 18.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 18 Παραγωγή Συνθετικού Συνόλου 10/7/2024 Διαχωρισμός κάθε παραδείγματος σε επιμέρους παραγράφους. Απόρριψη κάθε παραγράφου μικρότερης από 100 χαρακτήρες ή μεγαλύτερης από 120 tokens. Χρήση του NLP μοντέλου el_core_news_lg της βιβλιοθήκης Spacy (για POS Tagging). Όχι περισσότερες από 4 παραγράφους για κάθε παράδειγμα.
  • 19.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 19 Κατάλογος Τύπων Λαθών 10/7/2024  43 τύποι λαθών που συναντώνται συχνά στα Ελληνικά.  Κατηγορίες ορθογραφικών λαθών (π.χ. 4  Αντικατάσταση ‘ο’ με ‘ω’).  Κατηγορίες λαθών Γραμματικής (π.χ. 23  Αλλαγή Γένους Επιθέτου).  Κάποιοι κανόνες έχουν προϋποθέσεις εφαρμογής (π.χ. 4) ενώ άλλοι εφαρμόζονται καθολικά (π.χ. 3  Τυχαία Αντικατάσταση Χαρακτήρα).
  • 20.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 20 Μέθοδος Επιλογής Κατηγορίας Λάθους Ι 10/7/2024 30 Αντικατάσταση ‘πολλή’ με ‘πολύ’ 34  Αντικατάσταση ‘οντας’ με ‘ωντας’ 9  Αντικατάσταση ‘οι’ με ‘η’ 3  Τυχαία Αντικατάσταση Χαρακτήρα
  • 21.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 21 Μέθοδος Επιλογής Κατηγορίας Λάθους ΙΙ 10/7/2024 Για κάθε λέξη του κειμένου, εφαρμόζεται ο Αλγόριθμος Επιλογής Κατηγορίας Λάθους Δίνεται προτεραιότητα στα Groups χαμηλής συχνότητας εμφάνισης. Τυχαία δοκιμή κατηγοριών λάθους εως ότου να βρεθεί κάποια κατηγορία που να εφαρμόζεται επιτυχώς Ειδικά για το Group 3 (πολύ υψηλή συχνότητα) το λάθος εφαρμόζεται με πιθανότητα 0.5
  • 22.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 22 Χαρακτηριστικά Συνθετικού Συνόλου 10/7/2024
  • 23.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 23 Εκπαίδευση στο Συνθετικό Σύνολο Ι 10/7/2024
  • 24.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 24 Εκπαίδευση στο Συνθετικό Σύνολο ΙΙ 10/7/2024 AdamW Optimizer με γ=0.0001 Η συνάρτηση απώλειας εκπαίδευσης μειώνεται σε αρκετά χαμηλά επίπεδα. Τερματισμός εκπαίδευσης μετά από 10 Epochs.
  • 25.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 25 Αξιολόγηση στο Testing Dataset 10/7/2024 BLEU Score BLEU Score Without Fine-Tuning on Synthetic Dataset After Fine-Tuning on Synthetic Dataset
  • 26.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 26 Αξιολόγηση στο Testing Dataset 10/7/2024 Without Fine-Tuning on Synthetic Dataset After Fine-Tuning on Synthetic Dataset
  • 27.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 27 Παράδειγμα Πρότασης Ι 10/7/2024  Μεγάλη ποικιλία λαθών (ορθογραφικά, λανθασμένοι κεφαλαίοι χαρακτήρες, παράλειψη διαλυτικών κ.ά.).  Επιτυχής διόρθωση πλειοψηφίας λαθών.  Αδυναμία διόρθωσης των λέξεων ‘’Διοκλητιανός’’ και ‘’αυτοδιορίζεται’’.
  • 28.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 28 Παράδειγμα Πρότασης ΙΙ 10/7/2024  Ύπαρξη λάθους αλλαγής προσώπου και χρόνου (αρχίζω  άρχισαν).  Επιτυχής διόρθωση πλειοψηφίας λαθών.  Ανεπιτυχής διόρθωση κεφαλαίου χαρακτήρα της λέξης ‘’Δύσης’’.
  • 29.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 29 Συμπεράσματα 10/7/2024 Το μοντέλο ανταποκρίνεται ικανοποιητικά στην πλειονότητα των κατηγοριών του καταλόγου. Επιτυχής διόρθωση του 89.47% των λαθών του συνόλου ελέγχου με μέση τιμή BLEU 0.86. Μια open-source λύση σχετικά χαμηλών υπολογιστικών απαιτήσεων.
  • 30.
    Μελλοντικές Επεκτάσεις 10/7/2024 Ανάπτυξη ΜοντέλουΔιόρθωσης Γραμματικών Λαθών για την Ελληνική Γλώσσα 30 Δημιουργία νέων συνόλων δεδομένων. • Επέκταση του υπάρχοντος καταλόγου. • Κατασκευή μοντέλου Μηχανικής Μετάφρασης για τη δημιουργία τεχνητών λαθών. Χρήση εναλλακτικών μοντέλων Αρχιτεκτονικής Κωδικοποιητή-Αποκωδικοποιητή για τη διόρθωση των λαθών.
  • 31.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 31 Ευχαριστώ για τον χρόνο σας! Ερωτήσεις; 10/7/2024
  • 32.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 32 Παράδειγμα Υπολογισμού Ν-gram Precision 10/7/2024 1-gram Precision 2-gram Precision
  • 33.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 33 Παραδείγματα GNC-GLC2 10/7/2024 Αρχική Πρόταση Διορθωμένη Πρόταση Αντιδρούν σε κάθε καινούργιο κατόρθωμά της καθώς είναι αρνητικά προκατειλημένοι. Αντιδρούν σε κάθε καινούργιο κατόρθωμά της καθώς είναι αρνητικά προκατειλημμένοι. Αρχική Πρόταση Διορθωμένη Πρόταση Ειμαι στο σχολειο και μου αρεσι, εχω πολη καλλος δασκαλος. Είμαι στο σχολείο και μου αρέσει, έχω πολύ καλούς δασκάλους. Παράδειγμα Greek Native Corpus Παράδειγμα Greek Learner Corpus Corrections
  • 34.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 34 Αλγόριθμος Επιλογής Κατηγορίας Λάθους 10/7/2024 Εκκίνηση πάντοτε από το Group 0 και επιλογή κατηγοριών τυχαία έως ότου δοκιμαστούν όλες οι κατηγορίες του Group. Σε περίπτωση αποτυχίας, επιλογή ενός εκ των Groups 1-3 με πιθανότητες 0.6, 0.3 και 0.1 αντίστοιχα και δοκιμή των κατηγοριών του Group που επιλέχθηκε. Σε περίπτωση αποτυχίας, ισομερές μοίρασμα της πιθανότητας του Group στα υπόλοιπα 2. Τερματισμός όταν βρεθεί μια κατηγορία λάθους που είναι δυνατό να εφαρμοστεί επιτυχώς. Εάν ο κωδικός ανήκει στο Group 3, τότε το λάθος εφαρμόζεται με πιθανότητα 0.5, διαφορετικά εφαρμόζεται κατευθείαν στη λέξη.
  • 35.
    Ανάπτυξη Μοντέλου ΔιόρθωσηςΓραμματικών Λαθών για την Ε λληνική Γλώσσα 35 Ολόκληρος Κατάλογος Τύπων Λαθών 10/7/2024