Ένας από τους σημαντικότερους και ταχύτερα αναπτυσσόμενους τομείς της Επιστήμης των Υπολογιστών και της Πληροφορικής είναι η Τεχνητή Νοημοσύνη. Από τα πλέον βασικά ζητήματα με τα οποία ασχολείται είναι η Επεξεργασία Φυσικής Γλώσσας, δηλαδή η ανάλυση και κατανόηση των φυσικών ανθρώπινων γλωσσών από υπολογιστικά συστήματα και η δυνατότητα αλληλεπίδρασης ανθρώπων και ”ευφυιών” συστημάτων με τη χρήση των γλωσσών αυτών. Καθώς το πλήθος των πληροφοριών αυξάνεται συνεχώς και οι άνθρωποι χρειάζονται όλο και περισσότερες πληροφορίες, ένα πολύ σημαντικό πεδίο της έρευνας στον τομέα της Επεξεργασίας Φυσικής Γλώσσας είναι η Απάντηση Ερωτήσεων. Ήδη από την έναρξη της χρήσης των υπολογιστών ήταν βασική στόχευση η δυνατότητα υποβολής ερωτήσεων και λήψης σωστών απαντήσεων από αυτούς. Μια από τις σημαντικότερες κατηγορίες συστημάτων Απάντησης Ερωτήσεων είναι τα Συστήματα Απάντησης Ερωτήσεων Ανοιχτού Τύπου, τα οποία δύνανται να απαντούν σε ερωτήσεις γενικών γνώσεων στηριζόμενα σε μια βασική πηγή γνώσης όπως είναι η Wikipedia. Η ανάπτυξη των μοντέλων Transformers και του BERT έχει οδηγήσει σε βελτιώσεις στην απόδοση των Συστημάτων Απάντησης Ερωτήσεων. Αν και η ύπαρξη αυτών των μοντέλων έχει οδηγήσει σε άνθιση του αντικειμένου της Απάντησης Ερωτήσεων, όπως και άλλων ζητημάτων με τα οποία ασχολείται το πεδίο της Επεξεργασίας Φυσικής Γλώσσας, είναι γεγονός πως τα περισσότερα Συστήματα Απάντησης Ερωτήσεων και ιδιαίτερα τα Ανοικτού-Τύπου, λειτουργούν στην αγγλική γλώσσα, ενώ τα συστήματα σε άλλες γλώσσες είναι ελάχιστα. Η παρούσα εργασία επιχειρεί να δημιουργήσει ένα Συστήματα Απάντησης Ερω τήσεων Ανοιχτού Τύπου στα ελληνικά. Για το σκοπό αυτό, ελλείψει των απαραί τητων δεδομένων εκπαίδευσης στα Ελληνικά, επιχειρείται η μηχανική μετάφραση ορισμένων κατάλληλων datasets, από την αγγλική στην ελληνική γλώσσα. Στη συ νέχεια, εκπαιδεύεται μια σειρά μοντέλων τόσο για την Απάντηση Ερωτήσεων όσο και για την Ανάκτηση Πληροφορίας, η οποία αποτελεί βασικό τμήμα κάθε συστή ματος απάντησης ερωτήσεων ανοικτού τύπου. Έπειτα, εγκαθίσταται το συνολικό σύστημα, το οποίο στηρίζεται σε δεδομένα της ελληνικής Wikipedia. Η πρόσβαση σε αυτό γίνεται με τη χρήση μιας διαδικτυακής εφαρμογής που αναπτύχθηκε. Τέλος, παρουσιάζονται τα αποτελέσματα της αξιολόγησης της απόδοσης που έγινε τόσο για το συνολικό σύστημα, όσο και για τα επιμέρους τμήματά του.
2. ΣΥΣΤΗΜΑΤΑ
ΑΠΑΝΤΗΣΗΣ
ΕΡΩΤΗΣΕΩΝ
Η Απάντηση Ερωτήσεων είναι
βασικό ζήτημα με το οποίο
ασχολείται η Επεξεργασία Φυσικής
Γλώσσας
Στηρίζεται σε προεκπαιδευμένα
γλωσσικά μοντέλα τα οποία
επανεκπαιδεύονται για την
Απάντηση Ερωτήσεων
Δύο βασικά είδη Συστημάτων
Απάντησης Ερωτήσεων
Συστήματα Απάντησης Ερωτήσεων
Κλειστού Τύπου: Απαντούν σε
ερωτήσεις ενός συγκεκριμένου
γνωστικού πεδίου
Συστήματα Απάντησης Ερωτήσεων
Ανοιχτού Τύπου: Απαντούν σε
ερωτήσεις οι οποίες μπορεί να
προέρχονται από κάθε γνωστικό
αντικείμενο
4. TRANSFORMERS
Ανήκουν στην κατηγορία μοντέλων Seq2Seq
Λαμβάνουν ως είσοδο μια ακολουθία λέξεων
και παράγουν μια άλλη ακολουθία
Στηρίζονται στον μηχανισμό Attention. ο
οποίος επιτρέπει την ορθότερη επεξεργασία
των λέξεων της εισόδου μέσω εύρεσης
νοηματικών συνδέσεων μεταξύ των λέξεων
της ακολουθίας εισόδου.
5. BERT
Ισχυρό γλωσσικό μοντέλο
μηχανικής μάθησης βασισμένο
σε Transformers
Κατάλληλο για χρήση σε
ζητήματα Επεξεργασίας
Φυσικής Γλώσσας
Μοντέλα σε πολλές γλώσσες,
στα Ελληνικά το Greek BERT
Εκπαίδευση σε δύο στάδια
Προεκπάιδευση: Εκπαίδευση σε
μεγάλα σύνολα κειμένου για
εκμάθηση ιδιαιτεροτήτων και
μοτίβων της γλώσσας
Fine-Tuning: Εκπαίδευση σε
κατάλληλα σύνολα δεδομένων
για ζητήματα Επεξεργασίας
Φυσικής Γλώσσας
7. DOCUMENT STORES
Βάσεις δεδομένων στις
οποίες αποθηκεύουμε τα
γνωσιακά δεδομένα (π.χ.
Wikipedia)
Διάφορα είδη, ανάλογα με το
είδος του Retriever που
χρησιμοποιείται
Μήκος κειμένων βάσης
ανάλογα εξαρτώμενο
Αποθήκευση κειμένων με
τεχνικές "κυλιόμενου
παραθύρου" προς αποφυγή
απώλειας πληροφορίας
8. RETRIEVERS
Υπεύθυνοι για το φιλτράρισμα των
κειμένων της βάσης δεδομένων και την
επιστροφή σχετικών με την υποβληθείσα
ερώτηση κειμένων για περαιτέρω
επεξεργασία και αναζήτηση της
απάντησης
Ο αριθμός των εγγραφών που
επιστρέφονται είναι σημαντικός για την
επιτυχή λειτουργία του συστήματος
Διάφορα είδη Retrievers
9. SPARSE RETRIEVERS
tf-idf: Μέθοδος Ανάκτησης Πληροφορίας με έμφαση στην συχνότητα
εμφάνισης κοινών λέξεων και στη σπανιότητα ύπαρξής τους στις εγγραφές
του DocumentStore
BM25: Παραλλαγή του tf-idf με καλύτερες επιδόσεις. Μειώνει την
επίδραση πολύ κοινών λέξεων, όπως άρθρα, και λαμβάνει υπόψιν το μήκος
των εγγράφων
Γλωσσικά ανεξάρτητοι
10. DENSE PASSAGE RETRIEVERS (DPR)
Χρησιμοποιεί μοντέλα BERT
Κωδικοποιεί όλες τις εγγραφές της Βάσης Δεδομένων
Κωδικοποιεί τις ερωτήσεις που τίθενται
Επιλέγει τις εγγραφές με την πλησιέστερη κωδικοποίηση με αυτή της
ερώτησης
11. READERS
Γλωσσικά μοντέλα υπεύθυνα για την ανεύρεση και εξαγωγή απάντησης σε
ερώτηση πάνω σε δοθέν κείμενο
Εξάγουν αυτούσια την απάντηση από το υπό επεξεργασία κείμενο
Στηρίζονται σε υπάρχοντα γλωσσικά μοντέλα (BERT) τα οποία
επανεκπαιδεύονται σε QA Datasets
12. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Απουσία Συστήματος
Απάντησης Ερωτήσεων
Ανοιχτού Τύπου στα
Ελληνικά
Έλλειψη Ελληνικών
Μοντέλων Reader και
Retriever
13. ΣΤΟΧΟΣ ΤΗΣ ΕΡΓΑΣΙΑΣ
Επανεκπαίδευση Greek
BERT για δημιουργία
Ελληνικών Μοντέλων
Reader και DPR
Δημιουργία Συστήματος
Απάντησης Ερωτήσεων
Ανοιχτού Τύπου στα
Ελληνικά
15. QA DATASETS
• Χρησιμοποιούνται για εκπαίδευση Readers και DPR
• Περιέχουν τριάδες ερωτήσεων-απαντήσεων-κειμένου
• Αναγράφουν τη σχετική θέση της απάντησης στο κείμενο
• Ύπαρξη ερωτήσεων χωρίς απάντηση
• Πραγματοποιήθηκε μηχανική μετάφραση σε 4 από τα μεγαλύτερα QA datasets:
SQuAD, TriviaQA, NewsQA και Natural Questions(NQ)
• Μετάφραση ειδικής μορφής του Natural Questions για εκπαίδευση DPR
• Ειδική μέριμνα ώστε η μετάφραση να μην καταστρέφει τη λειτουργικότητα του
dataset και να γίνουν οι απαραίτητες προσαρμογές στη σχετική θέση της απάντησης
• Διατήρηση υψηλού ποσοστού (~90%) του αρχικού dataset μετά τη μετάφραση
17. ΕΡΓΑΛΕΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ
HuggingFace: Αποθετήριο Μοντέλων Transformers. Χρησιμοποιείται για
την λήψη των απαραίτητων προεκπαιδευμένων μοντέλων BERT, αλλά και
για την αποθήκευση των επανεκπαιδευμένων και των datasets στα οποία
εκπαιδεύτηκαν
Haystack: Πλατφόρμα για τη δημιουργία Συστημάτων Απάντησης
Ερωτήσεων διαφόρων τύπων. Διευκολύνει την ένωση των συνθετικών
στοιχείων του συστήματος, ώστε να προκύψει το συνολικό σύστημα
Παρέχουν επίσης απαραίτητα Scripts για την εκπαίδευση DPR και Readers
18. ΕΚΠΑΙΔΕΥΣΗ DENSE PASSAGE RETRIEVERS
ΣΤΑ ΕΛΛΗΝΙΚΑ
Dataset Εκπαίδευσης DPR: Οι εγγραφές περιλαμβάνουν την ερώτηση, το
κείμενο που περιέχει την απάντηση και κάποια κείμενα που δεν την
περιέχουν
Εκπαίδευση 4 ελληνικών μοντέλων DPR με βάση το Greek BERT, με ένα και
τρία μη περιέχοντα την απάντηση κείμενα και για 20 και 40 epochs.
Στόχος η διερεύνηση της αποτελεσματικότητας των διαφορετικών μοντέλων
Σύγκριση αποτελεσμάτων με κλασικό BM25 Retriever
19. ΑΞΙΟΛΟΓΗΣΗ RETRIEVERS
Η μετρική Recall εκφράζει το ποσοστό της επιτυχούς
ανάκτησης του περιέχοντος την απάντηση εγγράφου
Αξιολόγηση στα τμήματα αξιολόγησης των datasets
Αξιολόγηση για επιστροφή 5, 20 και 50 εγγράφων για κάθε
μοντέλο
Τα DPR μοντέλα δεν ξεπερνούν την απόδοση του BM25
Καλύτερο DPR το εκπαιδευμένο για 40 epochs και με ένα μη
περιέχον την απάντηση κείμενο
Η αύξηση των ανακτώμενων εγγράφων αυξάνει την
αποτελεσματικότητα
20. ΕΚΠΑΙΔΕΥΣΗ READERS ΣΤΑ ΕΛΛΗΝΙΚΑ
Εκπαίδευση 14 ελληνικών μοντέλων Reader με βάση το Greek BERT
Εκπαίδευση στα 4 μεταφρασμένα datasets και σε συνδυασμούς τους
(SQuAD-NQ, SQuAD-NQ-TriviaQA, συνολικό)
Εκπαίδευση για 3 και 4 epochs
21. ΑΞΙΟΛΟΓΗΣΗ READERS
Η μετρική F1 εκφράζει το ποσοστό
επικάλυψης της ορθής και της εξαχθείσας
απάντησης στην ερώτηση.
Αξιολόγηση στα τμήματα αξιολόγησης των
datasets
Τα μοντέλα που εκπαιδεύτηκαν στα
συνδυασμένα datasets έχουν καλύτερα
αποτελέσματα
Δεν υπάρχουν ιδιαίτερες διαφορές στην
απόδοση μεταξύ των αντίστοιχων μοντέλων
για 3 και 4 epochs
22. DOCUMENT STORE ΕΛΛΗΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ
Λήψη και κατάλληλη
επεξεργασία αντιγράφου
ελληνικής Wikipedia και
εγγραφή του σε Document
Store
Δημιουργία Document Store για
sparse και DPR Retrievers
23. ΕΓΚΑΤΑΣΤΑΣΗ ΣΥΣΤΗΜΑΤΟΣ
Δημιουργήθηκαν δύο Συστήματα Απάντησης Ερωτήσεων Ανοιχτού Τύπου
Ο Retriever του πρώτου είναι ο καλύτερος DPR, δηλαδή αυτός που εκπαιδεύτηκε
για 40 epochs με ένα μη περιέχον την απάντηση κείμενο
Ο Retriever του δεύτερου είναι ο ΒΜ25, ο οποίος είχε την καλύτερη απόδοση
Επιλέγεται η επιστροφή 20 εγγράφων ανά ερώτηση
Ο Reader και των δύο συστημάτων είναι αυτός που εκπαιδεύτηκε για 4 epochs σε
όλα τα datasets
Δημιουργήθηκε διαδικτυακή εφαρμογή για καλύτερη πρόσβαση στο σύστημα
24. ΑΞΙΟΛΟΓΗΣΗ ΣΥΣΤΗΜΑΤΩΝ
Αξιολόγηση σε τμήμα του NQ
Το σύστημα με BM25 έχει καλύτερα
αποτελέσματα
Χαμηλότερη απόδοση από την αρχική των
Readers
Πιθανές αιτίες η μη επιστροφή του σωστού
κειμένου και η κατάτμηση των εγγράφων της
βάσης
26. ΣΥΜΠΕΡΑΣΜΑΤΑ
Επιχειρήθηκε η δημιουργία Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου
Οι Readers ανταποκρίνονται αρκετά καλά τόσο στην αξιολόγηση των datasets όσο και σε πρακτικά
παραδείγματα
Οι DPR Retrievers δεν ξεπερνούν την απόδοση του ΒΜ25
Η μετάφραση των datasets δίνει τη δυνατότητα εκπαίδευσης των μοντέλων στα Ελληνικά αλλά δεν μπορεί να
δώσει εξίσου καλά αποτελέσματα με πρωτότυπα ελληνικά datasets
Πρώτο βήμα για περαιτέρω έρευνα
27. ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
Δημιουργία εξ αρχής ελληνικών QA datasets και εκπαίδευση μοντέλων με αυτά
Χρήση μεγαλύτερων ελληνικών μοντέλων BERT
Χρήση εργαλείων για βελτίωση της μορφής των απαντήσεων
Προσθήκη επιπλέον δυνατοτήτων όπως φωνητική εισαγωγή ερωτήσεων
Επίσημη έκδοση του Συστήματος
28. ΕΥΧΑΡΙΣΤΙΕΣ
Ευχαριστώ τον κύριο Συμεωνίδη για την εμπιστοσύνη και την υποστήριξή του
κατά τη διάρκεια τής εργασίας
Ευχαριστώ τον Υπ. Δρ Νικόλα Μάλαμα για τη συνεχή βοήθειά του στην
εκπόνηση της εργασίας