Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model

Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη
Συμπίεση του Μοντέλου Greek-BERT
Ανδρέας Γούλας
ΑΕΜ: 9061
Επιβλέποντες:
Ανδρέας Λ. Συμεωνίδης, Αναπληρωτής Καθηγητής Α.Π.Θ.
Νικόλας Μάλαμας, Υποψήφιος Διδάκτορας
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Κίνητρο
• Η κλασική προσέγγιση στην Επεξεργασία Φυσικής Γλώσσας βασίζεται σε στατιστικά
μοντέλα και σε στατικές ενσωματώσεις λέξεων.
• Τα τελευταία χρόνια, οι βαθιές αρχιτεκτονικές Transformer έχουν επιτύχει state-of-
the-art αποτελέσματα σε απαιτητικά προβλήματα φυσικής γλώσσας.
• Παρ' όλα αυτά, οι αρχιτεκτονικές Transformer είναι πολύ απαιτητικές σε
υπολογιστική ισχύ και μνήμη.
• Επίσης, εμφανίζουν μεγάλο ποσοστό πλεονασμού (redundancy).
2
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT

Σκοπός
• Συμπίεση του μοντέλου Greek-BERT, το οποίο αποτελεί state-of-the-art μοντέλο στα
Νέα Ελληνικά με απόσταξη γνώσης σε απλά δίκτυα BiLSTM.
• Αξιολόγηση της απόδοσης και της ταχύτητας των μοντέλων σε δύο σύνολα
δεδομένων.
• Εκπαίδευση διανυσματικών παραστάσεων GloVe στα Νέα Ελληνικά.
3

Ενσωμάτωση Λέξεων
• Η Ενσωμάτωση Λέξεων (Word Embeddings)
είναι μία μέθοδος αναπαράστασης λέξεων
ως διανύσματα.
• Η ομοιότητα δύο λέξεων εκφράζεται μέσω
της απόστασης τους στον διανυσματικό
χώρο.
• Παραδείγματα: Word2vec, GloVe, fastText,
ELMo.
4

Corpus Προ-
εκπαίδευσης
• Σύνολο δεδομένων μεγάλης κλίμακας το
οποίο αντλήθηκε από το διαδίκτυο.
• Αποτελεί συλλογή από έγγραφα.
• Περιέχει 49M έγγραφα και έχει μέγεθος
30.3GB.
• Χρησιμοποιείται για την εκπαίδευση του
GloVe.
• Απαιτεί σημαντική προ-επεξεργασία και
φιλτράρισμα.
• Το τελικό κείμενο κανονικοποιείται.
5
Πηγή Έγγραφα Μέγεθος
OSCAR 49,359,299 28.6 GB
Βικιπαίδεια 191,902 870 MB
Europarl 160,573 478 MB

Εκπαίδευση GloVe
(Pennington et al, 2014)
• Κατασκευή του λεξιλογίου.
• Κατασκευή του πίνακα συνεμφάνισης
λέξεων.
• Τυχαία αναδιάταξη του πίνακα
συνεμφάνισης λέξεων.
• Εκπαίδευση του μοντέλου.
6

Αξιολόγηση GloVe: Αναλογίες
• 39,174 ερωτήματα της μορφής «το a είναι για το a∗ ότι το b για το b∗» με ζητούμενο
την πρόβλεψη της λέξης b∗ (Outsios et al, 2019).
• Η πρόβλεψη γίνεται με δύο διαφορετικές μεθόδους.
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT 7
Λεξιλόγιο 3CosAdd 3CosMul
GloVe 400K 52.37 53.57
Word2vec (Outsios et al) 1M 52.66 55.10
FastText (Outsios et al) 2M 68.97 70.12

Αξιολόγηση GloVe: Ομοιότητα Λέξεων
• 348 ζεύγη λέξεων με ζητούμενο την εκτίμηση της σημασιολογικής ομοιότητας
μεταξύ των λέξεων (Outsios et al, 2019).
• Αξιολογείται η συσχέτιση με την ανθρώπινη εκτίμηση της ομοιότητας.
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT 8
Pearson p-value Unknown
GloVe 0.5822 1.3e-32 1.1%
Word2vec (Outsios et al) 0.5879 4.4e-33 2.3%
FastText (Outsios et al) 0.5311 1.7e-25 4.9%

Μοντέλο LSTM
• Το μοντέλο LSTM είναι ένα αναδρομικό
νευρωνικό δίκτυο.
• Το μοντέλο LSTM μπορεί να βρεί
μακροχρόνιες εξαρτήσεις στα δεδομένα.
• Σχεδιάστηκε ως λύση για το «vanishing
gradient problem».
• Αποτελείται από ένα κελί που αποθηκεύει
δεδομένα και τρεις πύλες που ρυθμίζουν
την ροή της πληροφορίας.
9

LSTM για Κατανόηση
Φυσικής Γλώσσας
• Οι προτάσεις διαχωρίζονται σε ακολουθίες
συμβόλων.
• Η κατάσταση του LSTM στο τέλος μίας
ακολουθίας χρησιμοποιείται ως αναπαράσταση
πρότασης.
• Η αναπαράσταση πρότασης τροφοδοτείται σε
έναν ταξινομητή.
• Σε προβλήματα που αφορούν ζεύγη προτάσεων,
τα LSTM διατάσσονται σε
αρχιτεκτονική «siamese».
10

Αρχιτεκτονική Transformer
(Vaswani et al, 2017)
11

Attention
• Ο μηχανισμός «attention» επιτρέπει το μοντέλο
να επικεντρώνεται σε συγκεκριμένα τμήματα της
ακολουθίας εισόδου.
• Κάθε encoder περιέχει πολλαπλές κεφαλές
attention.
12

BERT (Devlin et al, 2018)
• Το BERT βασίζεται στην αρχιτεκτονική Transformer.
• Το BERT τροποποιεί το κλασικό πρόβλημα γλωσσικής μοντελοποίησης, έτσι ώστε να
εκπαιδεύεται αμφίδρομα.
• Η εκπαίδευση του BERT γίνεται σε δύο στάδια: την προ-εκπαίδευση και το fine-
tuning.
• Η προ-εκπαίδευση πραγματοποιείται χωρίς επίβλεψη σε δύο task: το Masked
Language Modeling και την Πρόβλεψη Επόμενης Πρότασης.
• Στα Νέα Ελληνικά: Greek-BERT.
13

Masked Language Modeling
14

Απόσταξη Γνώσης
• Ο όρος «Απόσταξη Γνώσης» αναφέρεται σε ένα σύνολο από τεχνικές μεταφοράς
γνώσης από ένα μεγάλο και πολύπλοκο μοντέλο σε ένα μικρότερο.
• Η κατανομή πιθανότητας που παράγει ένα μοντέλο περιέχει πληροφορία για τον
τρόπο αναπαράστασης του προβλήματος από το μοντέλο.
• Το μοντέλο-μαθητής μαθαίνει να παράγει την ίδια κατανομή πιθανότητας με το
μοντέλο-δάσκαλο.
15

Επαύξηση Δεδομένων
Τη Δευτέρα στη Νέα Σμύρνη δεν
υπάρχουν περιθώρια για άλλη απώλεια.
πεμπτη (0.92)
τεταρτη (0.89)
παρασκευη (0.85)
σαββατο (0.82)
τριτη (0.81)
κυριακη (0.79)
νοεμβριου (0.73)
σεπτεμβριου (0.72)
αυριο (0.71)
φεβρουαριου (0.71)
16

XNLI
• 5,000 ζευγη αξιολόγησης, 2,500 ζεύγη
ανάπτυξης.
• Μεταφρασμένο από επαγγελματίες σε 14
γλώσσες.
• Κλάσεις: Αντίφαση, Συνεπαγωγή,
Απροσδιοριστία.
• Σύνολο εκπαίδευσης: 392,702 ζεύγη
(αυτόματα μεταφρασμένα).
17

Εφημερίδα «Μακεδονία»
• 8,005 άρθρα.
• Θεματικές ενότητες: Αθλητικά, Ρεπορτάζ,
Οικονομία κ.λπ.
• Επιλογή των 7 μεγαλύτερων κατηγοριών.
• Τυχαίος διαχωρισμός σε σύνολο
εκπαίδευσης (70%), σύνολο ανάπτυξης
(15%), σύνολο αξιολόγησης (15%).
18

Greek-BERT Finetuning
• Το fine-tuning πραγματοποιείται για 3 εποχές.
• Εξετάζονται διάφορες τιμές για τον ρυθμό εκπαίδευσης.
• Στο τέλος, επιλέγεται το μοντέλο με την καλύτερη απόδοση στο σύνολο ανάπτυξης.
19

Εκπαίδευση BiLSTM
• Χρήση early stopping με κριτήριο την
απόδοση στο σύνολο ανάπτυξης.
• Μετά την επιλογή των υπερπαραμέτρων,
τα πειράματα εκτελούνται Ν=10 φορές και
επιλέγεται το μοντέλο με την καλύτερη
απόδοση στο σύνολο ανάπτυξης.
20

Αποτελέσματα
21
XNLI Μακεδονία
BiLSTM (1-layer) 67.8 78.7
+ Απόσταξη Γνώσης 68.5 81.6
+ Επαύξηση Δεδομένων - 84.3
BiLSTM (2-layer) 68.9 79.9
+ Απόσταξη Γνώσης 69.7 82.8
+ Επαύξηση Δεδομένων - 84.5
Greek-BERT 78.8 87.8
• Τα μοντέλα αξιολογούνται
σύμφωνα με την μετρική macro
F1-score.

Ταχύτητα
22
Παράμετροι Ταχύτητα Επιτάχυνση
Greek-BERT 110M 0.2K/sec 1x
BiLSTM (1-layer) 3.6M 5.9K/sec 28.6x
BiLSTM (2-layer) 9.6M 2.2K/sec 10.7x

Συμπεράσματα
• Η απόσταξη γνώσης μπορεί να βελτιώσει την απόδοση των απλών μοντέλων
κατανόησης φυσικής γλώσσας στα Νέα Ελληνικά.
• Η διαδικασία επαύξησης δεδομένων βελτιώνει σημαντικά την απόδοση των
μοντέλων σε σύνολα μικρής κλίμακας.
• Το τελικό μοντέλο ενός επιπέδου είναι 28.6x φορές πιο γρήγορο, διατηρεί το 96.0%
της απόδοσης του Greek-BERT σε προβλήματα κατηγοριοποίησης κειμένου και το
86.9% σε προβλήματα NLI.
• Το μοντέλο δύο επιπέδων είναι 10.7x φορές πιο γρήγορο, διατηρώντας το 88.4% της
απόδοσης του Greek-BERT σε προβλήματα NLI.
23

Μελλοντική Εργασία
• Προ-εκπαίδευση BiLSTM.
• Απόσταξη γνώσης σε μικρότερα μοντέλα Transformer, όπως για παράδειγμα το
TinyBERT.
24

Ευχαριστίες
Ευχαριστίες οφείλω στους:
• καθηγητή κ. Ανδρέα Συμεωνίδη
• υποψήφιο διδάκτορα κ. Νικόλα Μάλαμα
25

Ευχαριστώ για την προσοχή σας!
26

Βιβλιογραφία
1. Jacob Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding. 2019. arXiv: 1810.04805 [cs.CL].
2. John Koutsikakis et al. «GREEK-BERT: The Greeks visiting Sesame Street». In: 11th Hellenic
Conference on Artificial Intelligence (Sept. 2020). DOI: 10.1145/3411408.3411440.
3. Stamatis Outsios et al. Evaluation of Greek Word Embeddings. 2020. arXiv: 1904.04032 [cs.CL].
4. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. «GloVe: Global Vectors for
Word Representation». In: Empirical Methods in Natural Language Processing (EMNLP). 2014, pp.
1532–1543.
5. Raphael Tang et al. Distilling Task-Specific Knowledge from BERT into Simple Neural Networks.
2019. arXiv: 1903.12136 [cs.CL].
6. Ashish Vaswani et al. Attention Is All You Need. 2017. arXiv: 1706.03762 [cs.CL].
27

Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model

Recommended

Recommended

More Related Content

Similar to Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model

Similar to Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model (15)

More from ISSEL

More from ISSEL (20)

Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model