Successfully reported this slideshow.
Your SlideShare is downloading. ×

Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model

Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model

Download to read offline

In recent years, pre-trained language models, such as BERT, have achieved state of-the-art results in several natural language processing tasks. However, these models are typically characterized by a large number of parameters and high demands on memory and processing power. Therefore, their use in limited resource environments, such as on-the-edge applications, is often difficult. Within the context of this diploma thesis, various knowledge distillation tech niques into simple BiLSTM models are investigated with the aim of compressing the Greek-BERT model. The term ”Knowledge Distillation” refers to a set of techniques for transferring knowledge from a large and complex model to a smaller one. Greek BERT is a monolingual BERT language model, which has proven to be very efficient in various natural language processing problems in Modern Greek. For this purpose, GloVe word embeddings in Modern Greek, which were not previously available, are trained and evaluated. GloVe is trained on a huge corpus of texts in Modern Greek, totalling over 30GB. In order to make a fair comparison, the text corpus was crawled from the same web sources used for the pre-training of Greek-BERT. The models are evaluated on the XNLI dataset and on a text classifi cation dataset from the newspaper ”Makedonia”. In order to maximize knowledge transfer from Greek-BERT into the BiLSTM models, a data augmentation algorithm is developed, which is based on the GloVe word embeddings. It is proven that this process significantly improves the perfor mance of the models, especially for small datasets. Experiments indicate that knowledge distillation can improve the performance of simple BiLSTM models for natural language understanding in Modern Greek. The final single-layer model is 28.6x times faster, achieving 96.0% of the performance of Greek-BERT performance in text classification tasks and 86.9% in NLI tasks. The two-layer model is 10.7x times faster, achieving 88.4% of the performance of Greek-BERT in NLI tasks.

In recent years, pre-trained language models, such as BERT, have achieved state of-the-art results in several natural language processing tasks. However, these models are typically characterized by a large number of parameters and high demands on memory and processing power. Therefore, their use in limited resource environments, such as on-the-edge applications, is often difficult. Within the context of this diploma thesis, various knowledge distillation tech niques into simple BiLSTM models are investigated with the aim of compressing the Greek-BERT model. The term ”Knowledge Distillation” refers to a set of techniques for transferring knowledge from a large and complex model to a smaller one. Greek BERT is a monolingual BERT language model, which has proven to be very efficient in various natural language processing problems in Modern Greek. For this purpose, GloVe word embeddings in Modern Greek, which were not previously available, are trained and evaluated. GloVe is trained on a huge corpus of texts in Modern Greek, totalling over 30GB. In order to make a fair comparison, the text corpus was crawled from the same web sources used for the pre-training of Greek-BERT. The models are evaluated on the XNLI dataset and on a text classifi cation dataset from the newspaper ”Makedonia”. In order to maximize knowledge transfer from Greek-BERT into the BiLSTM models, a data augmentation algorithm is developed, which is based on the GloVe word embeddings. It is proven that this process significantly improves the perfor mance of the models, especially for small datasets. Experiments indicate that knowledge distillation can improve the performance of simple BiLSTM models for natural language understanding in Modern Greek. The final single-layer model is 28.6x times faster, achieving 96.0% of the performance of Greek-BERT performance in text classification tasks and 86.9% in NLI tasks. The two-layer model is 10.7x times faster, achieving 88.4% of the performance of Greek-BERT in NLI tasks.

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Knowledge Distillation into BiLSTM Networks for the Compression of the Greek‐BERT Model

  1. 1. Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT Ανδρέας Γούλας ΑΕΜ: 9061 Επιβλέποντες: Ανδρέας Λ. Συμεωνίδης, Αναπληρωτής Καθηγητής Α.Π.Θ. Νικόλας Μάλαμας, Υποψήφιος Διδάκτορας Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
  2. 2. Κίνητρο • Η κλασική προσέγγιση στην Επεξεργασία Φυσικής Γλώσσας βασίζεται σε στατιστικά μοντέλα και σε στατικές ενσωματώσεις λέξεων. • Τα τελευταία χρόνια, οι βαθιές αρχιτεκτονικές Transformer έχουν επιτύχει state-of- the-art αποτελέσματα σε απαιτητικά προβλήματα φυσικής γλώσσας. • Παρ' όλα αυτά, οι αρχιτεκτονικές Transformer είναι πολύ απαιτητικές σε υπολογιστική ισχύ και μνήμη. • Επίσης, εμφανίζουν μεγάλο ποσοστό πλεονασμού (redundancy). 2 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  3. 3. Σκοπός • Συμπίεση του μοντέλου Greek-BERT, το οποίο αποτελεί state-of-the-art μοντέλο στα Νέα Ελληνικά με απόσταξη γνώσης σε απλά δίκτυα BiLSTM. • Αξιολόγηση της απόδοσης και της ταχύτητας των μοντέλων σε δύο σύνολα δεδομένων. • Εκπαίδευση διανυσματικών παραστάσεων GloVe στα Νέα Ελληνικά. 3 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  4. 4. Ενσωμάτωση Λέξεων • Η Ενσωμάτωση Λέξεων (Word Embeddings) είναι μία μέθοδος αναπαράστασης λέξεων ως διανύσματα. • Η ομοιότητα δύο λέξεων εκφράζεται μέσω της απόστασης τους στον διανυσματικό χώρο. • Παραδείγματα: Word2vec, GloVe, fastText, ELMo. 4 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  5. 5. Corpus Προ- εκπαίδευσης • Σύνολο δεδομένων μεγάλης κλίμακας το οποίο αντλήθηκε από το διαδίκτυο. • Αποτελεί συλλογή από έγγραφα. • Περιέχει 49M έγγραφα και έχει μέγεθος 30.3GB. • Χρησιμοποιείται για την εκπαίδευση του GloVe. • Απαιτεί σημαντική προ-επεξεργασία και φιλτράρισμα. • Το τελικό κείμενο κανονικοποιείται. 5 Πηγή Έγγραφα Μέγεθος OSCAR 49,359,299 28.6 GB Βικιπαίδεια 191,902 870 MB Europarl 160,573 478 MB Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  6. 6. Εκπαίδευση GloVe (Pennington et al, 2014) • Κατασκευή του λεξιλογίου. • Κατασκευή του πίνακα συνεμφάνισης λέξεων. • Τυχαία αναδιάταξη του πίνακα συνεμφάνισης λέξεων. • Εκπαίδευση του μοντέλου. 6 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  7. 7. Αξιολόγηση GloVe: Αναλογίες • 39,174 ερωτήματα της μορφής «το a είναι για το a∗ ότι το b για το b∗» με ζητούμενο την πρόβλεψη της λέξης b∗ (Outsios et al, 2019). • Η πρόβλεψη γίνεται με δύο διαφορετικές μεθόδους. Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT 7 Λεξιλόγιο 3CosAdd 3CosMul GloVe 400K 52.37 53.57 Word2vec (Outsios et al) 1M 52.66 55.10 FastText (Outsios et al) 2M 68.97 70.12
  8. 8. Αξιολόγηση GloVe: Ομοιότητα Λέξεων • 348 ζεύγη λέξεων με ζητούμενο την εκτίμηση της σημασιολογικής ομοιότητας μεταξύ των λέξεων (Outsios et al, 2019). • Αξιολογείται η συσχέτιση με την ανθρώπινη εκτίμηση της ομοιότητας. Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT 8 Pearson p-value​ Unknown GloVe 0.5822 1.3e-32 1.1% Word2vec (Outsios et al) 0.5879 4.4e-33 2.3% FastText (Outsios et al) 0.5311 1.7e-25 4.9%
  9. 9. Μοντέλο LSTM • Το μοντέλο LSTM είναι ένα αναδρομικό νευρωνικό δίκτυο. • Το μοντέλο LSTM μπορεί να βρεί μακροχρόνιες εξαρτήσεις στα δεδομένα. • Σχεδιάστηκε ως λύση για το «vanishing gradient problem». • Αποτελείται από ένα κελί που αποθηκεύει δεδομένα και τρεις πύλες που ρυθμίζουν την ροή της πληροφορίας. 9 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  10. 10. LSTM για Κατανόηση Φυσικής Γλώσσας • Οι προτάσεις διαχωρίζονται σε ακολουθίες συμβόλων. • Η κατάσταση του LSTM στο τέλος μίας ακολουθίας χρησιμοποιείται ως αναπαράσταση πρότασης. • Η αναπαράσταση πρότασης τροφοδοτείται σε έναν ταξινομητή. • Σε προβλήματα που αφορούν ζεύγη προτάσεων, τα LSTM διατάσσονται σε αρχιτεκτονική «siamese». 10 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  11. 11. Αρχιτεκτονική Transformer (Vaswani et al, 2017) 11 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  12. 12. Attention • Ο μηχανισμός «attention» επιτρέπει το μοντέλο να επικεντρώνεται σε συγκεκριμένα τμήματα της ακολουθίας εισόδου. • Κάθε encoder περιέχει πολλαπλές κεφαλές attention. 12 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  13. 13. BERT (Devlin et al, 2018) • Το BERT βασίζεται στην αρχιτεκτονική Transformer. • Το BERT τροποποιεί το κλασικό πρόβλημα γλωσσικής μοντελοποίησης, έτσι ώστε να εκπαιδεύεται αμφίδρομα. • Η εκπαίδευση του BERT γίνεται σε δύο στάδια: την προ-εκπαίδευση και το fine- tuning. • Η προ-εκπαίδευση πραγματοποιείται χωρίς επίβλεψη σε δύο task: το Masked Language Modeling και την Πρόβλεψη Επόμενης Πρότασης. • Στα Νέα Ελληνικά: Greek-BERT. 13 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  14. 14. Masked Language Modeling 14 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  15. 15. Απόσταξη Γνώσης • Ο όρος «Απόσταξη Γνώσης» αναφέρεται σε ένα σύνολο από τεχνικές μεταφοράς γνώσης από ένα μεγάλο και πολύπλοκο μοντέλο σε ένα μικρότερο. • Η κατανομή πιθανότητας που παράγει ένα μοντέλο περιέχει πληροφορία για τον τρόπο αναπαράστασης του προβλήματος από το μοντέλο. • Το μοντέλο-μαθητής μαθαίνει να παράγει την ίδια κατανομή πιθανότητας με το μοντέλο-δάσκαλο. 15 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  16. 16. Επαύξηση Δεδομένων Τη Δευτέρα στη Νέα Σμύρνη δεν υπάρχουν περιθώρια για άλλη απώλεια. πεμπτη (0.92) τεταρτη (0.89) παρασκευη (0.85) σαββατο (0.82) τριτη (0.81) κυριακη (0.79) νοεμβριου (0.73) σεπτεμβριου (0.72) αυριο (0.71) φεβρουαριου (0.71) 16 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  17. 17. XNLI • 5,000 ζευγη αξιολόγησης, 2,500 ζεύγη ανάπτυξης. • Μεταφρασμένο από επαγγελματίες σε 14 γλώσσες. • Κλάσεις: Αντίφαση, Συνεπαγωγή, Απροσδιοριστία. • Σύνολο εκπαίδευσης: 392,702 ζεύγη (αυτόματα μεταφρασμένα). 17 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  18. 18. Εφημερίδα «Μακεδονία» • 8,005 άρθρα. • Θεματικές ενότητες: Αθλητικά, Ρεπορτάζ, Οικονομία κ.λπ. • Επιλογή των 7 μεγαλύτερων κατηγοριών. • Τυχαίος διαχωρισμός σε σύνολο εκπαίδευσης (70%), σύνολο ανάπτυξης (15%), σύνολο αξιολόγησης (15%). 18 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  19. 19. Greek-BERT Finetuning • Το fine-tuning πραγματοποιείται για 3 εποχές. • Εξετάζονται διάφορες τιμές για τον ρυθμό εκπαίδευσης. • Στο τέλος, επιλέγεται το μοντέλο με την καλύτερη απόδοση στο σύνολο ανάπτυξης. 19 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  20. 20. Εκπαίδευση BiLSTM • Χρήση early stopping με κριτήριο την απόδοση στο σύνολο ανάπτυξης. • Μετά την επιλογή των υπερπαραμέτρων, τα πειράματα εκτελούνται Ν=10 φορές και επιλέγεται το μοντέλο με την καλύτερη απόδοση στο σύνολο ανάπτυξης. 20 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  21. 21. Αποτελέσματα 21 XNLI Μακεδονία BiLSTM (1-layer) 67.8 78.7 + Απόσταξη Γνώσης 68.5 81.6 + Επαύξηση Δεδομένων - 84.3 BiLSTM (2-layer) 68.9 79.9 + Απόσταξη Γνώσης 69.7 82.8 + Επαύξηση Δεδομένων - 84.5 Greek-BERT 78.8 87.8 • Τα μοντέλα αξιολογούνται σύμφωνα με την μετρική macro F1-score. Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  22. 22. Ταχύτητα 22 Παράμετροι Ταχύτητα Επιτάχυνση Greek-BERT 110M 0.2K/sec 1x BiLSTM (1-layer) 3.6M 5.9K/sec 28.6x BiLSTM (2-layer) 9.6M 2.2K/sec 10.7x Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  23. 23. Συμπεράσματα • Η απόσταξη γνώσης μπορεί να βελτιώσει την απόδοση των απλών μοντέλων κατανόησης φυσικής γλώσσας στα Νέα Ελληνικά. • Η διαδικασία επαύξησης δεδομένων βελτιώνει σημαντικά την απόδοση των μοντέλων σε σύνολα μικρής κλίμακας. • Το τελικό μοντέλο ενός επιπέδου είναι 28.6x φορές πιο γρήγορο, διατηρεί το 96.0% της απόδοσης του Greek-BERT σε προβλήματα κατηγοριοποίησης κειμένου και το 86.9% σε προβλήματα NLI. • Το μοντέλο δύο επιπέδων είναι 10.7x φορές πιο γρήγορο, διατηρώντας το 88.4% της απόδοσης του Greek-BERT σε προβλήματα NLI. 23 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  24. 24. Μελλοντική Εργασία • Προ-εκπαίδευση BiLSTM. • Απόσταξη γνώσης σε μικρότερα μοντέλα Transformer, όπως για παράδειγμα το TinyBERT. 24 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  25. 25. Ευχαριστίες Ευχαριστίες οφείλω στους: • καθηγητή κ. Ανδρέα Συμεωνίδη • υποψήφιο διδάκτορα κ. Νικόλα Μάλαμα 25 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  26. 26. Ευχαριστώ για την προσοχή σας! 26 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT
  27. 27. Βιβλιογραφία 1. Jacob Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. arXiv: 1810.04805 [cs.CL]. 2. John Koutsikakis et al. «GREEK-BERT: The Greeks visiting Sesame Street». In: 11th Hellenic Conference on Artificial Intelligence (Sept. 2020). DOI: 10.1145/3411408.3411440. 3. Stamatis Outsios et al. Evaluation of Greek Word Embeddings. 2020. arXiv: 1904.04032 [cs.CL]. 4. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. «GloVe: Global Vectors for Word Representation». In: Empirical Methods in Natural Language Processing (EMNLP). 2014, pp. 1532–1543. 5. Raphael Tang et al. Distilling Task-Specific Knowledge from BERT into Simple Neural Networks. 2019. arXiv: 1903.12136 [cs.CL]. 6. Ashish Vaswani et al. Attention Is All You Need. 2017. arXiv: 1706.03762 [cs.CL]. 27 Απόσταξη Γνώσης σε Δίκτυα BiLSTM για τη Συμπίεση του Μοντέλου Greek-BERT

×