In recent years, pre-trained language models, such as BERT, have achieved state of-the-art results in several natural language processing tasks. However, these models are typically characterized by a large number of parameters and high demands on memory and processing power. Therefore, their use in limited resource environments, such as on-the-edge applications, is often difficult. Within the context of this diploma thesis, various knowledge distillation tech niques into simple BiLSTM models are investigated with the aim of compressing the Greek-BERT model. The term ”Knowledge Distillation” refers to a set of techniques for transferring knowledge from a large and complex model to a smaller one. Greek BERT is a monolingual BERT language model, which has proven to be very efficient in various natural language processing problems in Modern Greek. For this purpose, GloVe word embeddings in Modern Greek, which were not previously available, are trained and evaluated. GloVe is trained on a huge corpus of texts in Modern Greek, totalling over 30GB. In order to make a fair comparison, the text corpus was crawled from the same web sources used for the pre-training of Greek-BERT. The models are evaluated on the XNLI dataset and on a text classifi cation dataset from the newspaper ”Makedonia”. In order to maximize knowledge transfer from Greek-BERT into the BiLSTM models, a data augmentation algorithm is developed, which is based on the GloVe word embeddings. It is proven that this process significantly improves the perfor mance of the models, especially for small datasets. Experiments indicate that knowledge distillation can improve the performance of simple BiLSTM models for natural language understanding in Modern Greek. The final single-layer model is 28.6x times faster, achieving 96.0% of the performance of Greek-BERT performance in text classification tasks and 86.9% in NLI tasks. The two-layer model is 10.7x times faster, achieving 88.4% of the performance of Greek-BERT in NLI tasks.
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model
1. Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη
Συμπίεση του Μοντέλου Greek-BERT
Ανδρέας Γούλας
ΑΕΜ: 9061
Επιβλέποντες:
Ανδρέας Λ. Συμεωνίδης, Αναπληρωτής Καθηγητής Α.Π.Θ.
Νικόλας Μάλαμας, Υποψήφιος Διδάκτορας
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
2. Κίνητρο
• Η κλασική προσέγγιση στην Επεξεργασία Φυσικής Γλώσσας βασίζεται σε στατιστικά
μοντέλα και σε στατικές ενσωματώσεις λέξεων.
• Τα τελευταία χρόνια, οι βαθιές αρχιτεκτονικές Transformer έχουν επιτύχει state-of-
the-art αποτελέσματα σε απαιτητικά προβλήματα φυσικής γλώσσας.
• Παρ' όλα αυτά, οι αρχιτεκτονικές Transformer είναι πολύ απαιτητικές σε
υπολογιστική ισχύ και μνήμη.
• Επίσης, εμφανίζουν μεγάλο ποσοστό πλεονασμού (redundancy).
2
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
3. Σκοπός
• Συμπίεση του μοντέλου Greek-BERT, το οποίο αποτελεί state-of-the-art μοντέλο στα
Νέα Ελληνικά με απόσταξη γνώσης σε απλά δίκτυα BiLSTM.
• Αξιολόγηση της απόδοσης και της ταχύτητας των μοντέλων σε δύο σύνολα
δεδομένων.
• Εκπαίδευση διανυσματικών παραστάσεων GloVe στα Νέα Ελληνικά.
3
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
4. Ενσωμάτωση Λέξεων
• Η Ενσωμάτωση Λέξεων (Word Embeddings)
είναι μία μέθοδος αναπαράστασης λέξεων
ως διανύσματα.
• Η ομοιότητα δύο λέξεων εκφράζεται μέσω
της απόστασης τους στον διανυσματικό
χώρο.
• Παραδείγματα: Word2vec, GloVe, fastText,
ELMo.
4
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
5. Corpus Προ-
εκπαίδευσης
• Σύνολο δεδομένων μεγάλης κλίμακας το
οποίο αντλήθηκε από το διαδίκτυο.
• Αποτελεί συλλογή από έγγραφα.
• Περιέχει 49M έγγραφα και έχει μέγεθος
30.3GB.
• Χρησιμοποιείται για την εκπαίδευση του
GloVe.
• Απαιτεί σημαντική προ-επεξεργασία και
φιλτράρισμα.
• Το τελικό κείμενο κανονικοποιείται.
5
Πηγή Έγγραφα Μέγεθος
OSCAR 49,359,299 28.6 GB
Βικιπαίδεια 191,902 870 MB
Europarl 160,573 478 MB
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
6. Εκπαίδευση GloVe
(Pennington et al, 2014)
• Κατασκευή του λεξιλογίου.
• Κατασκευή του πίνακα συνεμφάνισης
λέξεων.
• Τυχαία αναδιάταξη του πίνακα
συνεμφάνισης λέξεων.
• Εκπαίδευση του μοντέλου.
6
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
7. Αξιολόγηση GloVe: Αναλογίες
• 39,174 ερωτήματα της μορφής «το a είναι για το a∗ ότι το b για το b∗» με ζητούμενο
την πρόβλεψη της λέξης b∗ (Outsios et al, 2019).
• Η πρόβλεψη γίνεται με δύο διαφορετικές μεθόδους.
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT 7
Λεξιλόγιο 3CosAdd 3CosMul
GloVe 400K 52.37 53.57
Word2vec (Outsios et al) 1M 52.66 55.10
FastText (Outsios et al) 2M 68.97 70.12
8. Αξιολόγηση GloVe: Ομοιότητα Λέξεων
• 348 ζεύγη λέξεων με ζητούμενο την εκτίμηση της σημασιολογικής ομοιότητας
μεταξύ των λέξεων (Outsios et al, 2019).
• Αξιολογείται η συσχέτιση με την ανθρώπινη εκτίμηση της ομοιότητας.
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT 8
Pearson p-value Unknown
GloVe 0.5822 1.3e-32 1.1%
Word2vec (Outsios et al) 0.5879 4.4e-33 2.3%
FastText (Outsios et al) 0.5311 1.7e-25 4.9%
9. Μοντέλο LSTM
• Το μοντέλο LSTM είναι ένα αναδρομικό
νευρωνικό δίκτυο.
• Το μοντέλο LSTM μπορεί να βρεί
μακροχρόνιες εξαρτήσεις στα δεδομένα.
• Σχεδιάστηκε ως λύση για το «vanishing
gradient problem».
• Αποτελείται από ένα κελί που αποθηκεύει
δεδομένα και τρεις πύλες που ρυθμίζουν
την ροή της πληροφορίας.
9
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
10. LSTM για Κατανόηση
Φυσικής Γλώσσας
• Οι προτάσεις διαχωρίζονται σε ακολουθίες
συμβόλων.
• Η κατάσταση του LSTM στο τέλος μίας
ακολουθίας χρησιμοποιείται ως αναπαράσταση
πρότασης.
• Η αναπαράσταση πρότασης τροφοδοτείται σε
έναν ταξινομητή.
• Σε προβλήματα που αφορούν ζεύγη προτάσεων,
τα LSTM διατάσσονται σε
αρχιτεκτονική «siamese».
10
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
12. Attention
• Ο μηχανισμός «attention» επιτρέπει το μοντέλο
να επικεντρώνεται σε συγκεκριμένα τμήματα της
ακολουθίας εισόδου.
• Κάθε encoder περιέχει πολλαπλές κεφαλές
attention.
12
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
13. BERT (Devlin et al, 2018)
• Το BERT βασίζεται στην αρχιτεκτονική Transformer.
• Το BERT τροποποιεί το κλασικό πρόβλημα γλωσσικής μοντελοποίησης, έτσι ώστε να
εκπαιδεύεται αμφίδρομα.
• Η εκπαίδευση του BERT γίνεται σε δύο στάδια: την προ-εκπαίδευση και το fine-
tuning.
• Η προ-εκπαίδευση πραγματοποιείται χωρίς επίβλεψη σε δύο task: το Masked
Language Modeling και την Πρόβλεψη Επόμενης Πρότασης.
• Στα Νέα Ελληνικά: Greek-BERT.
13
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
15. Απόσταξη Γνώσης
• Ο όρος «Απόσταξη Γνώσης» αναφέρεται σε ένα σύνολο από τεχνικές μεταφοράς
γνώσης από ένα μεγάλο και πολύπλοκο μοντέλο σε ένα μικρότερο.
• Η κατανομή πιθανότητας που παράγει ένα μοντέλο περιέχει πληροφορία για τον
τρόπο αναπαράστασης του προβλήματος από το μοντέλο.
• Το μοντέλο-μαθητής μαθαίνει να παράγει την ίδια κατανομή πιθανότητας με το
μοντέλο-δάσκαλο.
15
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
16. Επαύξηση Δεδομένων
Τη Δευτέρα στη Νέα Σμύρνη δεν
υπάρχουν περιθώρια για άλλη απώλεια.
πεμπτη (0.92)
τεταρτη (0.89)
παρασκευη (0.85)
σαββατο (0.82)
τριτη (0.81)
κυριακη (0.79)
νοεμβριου (0.73)
σεπτεμβριου (0.72)
αυριο (0.71)
φεβρουαριου (0.71)
16
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
17. XNLI
• 5,000 ζευγη αξιολόγησης, 2,500 ζεύγη
ανάπτυξης.
• Μεταφρασμένο από επαγγελματίες σε 14
γλώσσες.
• Κλάσεις: Αντίφαση, Συνεπαγωγή,
Απροσδιοριστία.
• Σύνολο εκπαίδευσης: 392,702 ζεύγη
(αυτόματα μεταφρασμένα).
17
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
18. Εφημερίδα «Μακεδονία»
• 8,005 άρθρα.
• Θεματικές ενότητες: Αθλητικά, Ρεπορτάζ,
Οικονομία κ.λπ.
• Επιλογή των 7 μεγαλύτερων κατηγοριών.
• Τυχαίος διαχωρισμός σε σύνολο
εκπαίδευσης (70%), σύνολο ανάπτυξης
(15%), σύνολο αξιολόγησης (15%).
18
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
19. Greek-BERT Finetuning
• Το fine-tuning πραγματοποιείται για 3 εποχές.
• Εξετάζονται διάφορες τιμές για τον ρυθμό εκπαίδευσης.
• Στο τέλος, επιλέγεται το μοντέλο με την καλύτερη απόδοση στο σύνολο ανάπτυξης.
19
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
20. Εκπαίδευση BiLSTM
• Χρήση early stopping με κριτήριο την
απόδοση στο σύνολο ανάπτυξης.
• Μετά την επιλογή των υπερπαραμέτρων,
τα πειράματα εκτελούνται Ν=10 φορές και
επιλέγεται το μοντέλο με την καλύτερη
απόδοση στο σύνολο ανάπτυξης.
20
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
21. Αποτελέσματα
21
XNLI Μακεδονία
BiLSTM (1-layer) 67.8 78.7
+ Απόσταξη Γνώσης 68.5 81.6
+ Επαύξηση Δεδομένων - 84.3
BiLSTM (2-layer) 68.9 79.9
+ Απόσταξη Γνώσης 69.7 82.8
+ Επαύξηση Δεδομένων - 84.5
Greek-BERT 78.8 87.8
• Τα μοντέλα αξιολογούνται
σύμφωνα με την μετρική macro
F1-score.
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
22. Ταχύτητα
22
Παράμετροι Ταχύτητα Επιτάχυνση
Greek-BERT 110M 0.2K/sec 1x
BiLSTM (1-layer) 3.6M 5.9K/sec 28.6x
BiLSTM (2-layer) 9.6M 2.2K/sec 10.7x
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
23. Συμπεράσματα
• Η απόσταξη γνώσης μπορεί να βελτιώσει την απόδοση των απλών μοντέλων
κατανόησης φυσικής γλώσσας στα Νέα Ελληνικά.
• Η διαδικασία επαύξησης δεδομένων βελτιώνει σημαντικά την απόδοση των
μοντέλων σε σύνολα μικρής κλίμακας.
• Το τελικό μοντέλο ενός επιπέδου είναι 28.6x φορές πιο γρήγορο, διατηρεί το 96.0%
της απόδοσης του Greek-BERT σε προβλήματα κατηγοριοποίησης κειμένου και το
86.9% σε προβλήματα NLI.
• Το μοντέλο δύο επιπέδων είναι 10.7x φορές πιο γρήγορο, διατηρώντας το 88.4% της
απόδοσης του Greek-BERT σε προβλήματα NLI.
23
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
24. Μελλοντική Εργασία
• Προ-εκπαίδευση BiLSTM.
• Απόσταξη γνώσης σε μικρότερα μοντέλα Transformer, όπως για παράδειγμα το
TinyBERT.
24
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
25. Ευχαριστίες
Ευχαριστίες οφείλω στους:
• καθηγητή κ. Ανδρέα Συμεωνίδη
• υποψήφιο διδάκτορα κ. Νικόλα Μάλαμα
25
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
26. Ευχαριστώ για την προσοχή σας!
26
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT
27. Βιβλιογραφία
1. Jacob Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding. 2019. arXiv: 1810.04805 [cs.CL].
2. John Koutsikakis et al. «GREEK-BERT: The Greeks visiting Sesame Street». In: 11th Hellenic
Conference on Artificial Intelligence (Sept. 2020). DOI: 10.1145/3411408.3411440.
3. Stamatis Outsios et al. Evaluation of Greek Word Embeddings. 2020. arXiv: 1904.04032 [cs.CL].
4. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. «GloVe: Global Vectors for
Word Representation». In: Empirical Methods in Natural Language Processing (EMNLP). 2014, pp.
1532–1543.
5. Raphael Tang et al. Distilling Task-Specific Knowledge from BERT into Simple Neural Networks.
2019. arXiv: 1903.12136 [cs.CL].
6. Ashish Vaswani et al. Attention Is All You Need. 2017. arXiv: 1706.03762 [cs.CL].
27
Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του
Μοντέλου Greek-BERT