Ανάπτυξη Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου

ΑΝΑΠΤΥΞΗ ΕΛΛΗΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ
ΑΠΑΝΤΗΣΗΣ ΕΡΩΤΗΣΕΩΝ ΑΝΟΙΧΤΟΥ
ΤΥΠΟΥ
Δημήτριος Νικήτας Νάστος
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΔΔΠΜΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ
Επιβλέποντες:
Αν. Καθηγητής Ανδρέας Συμεωνίδης
Υπ. Διδάκτωρ Νικόλας Μάλαμας

ΣΥΣΤΗΜΑΤΑ
ΑΠΑΝΤΗΣΗΣ
ΕΡΩΤΗΣΕΩΝ
Η Απάντηση Ερωτήσεων είναι
βασικό ζήτημα με το οποίο
ασχολείται η Επεξεργασία Φυσικής
Γλώσσας
Στηρίζεται σε προεκπαιδευμένα
γλωσσικά μοντέλα τα οποία
επανεκπαιδεύονται για την
Απάντηση Ερωτήσεων
Δύο βασικά είδη Συστημάτων
Απάντησης Ερωτήσεων
Συστήματα Απάντησης Ερωτήσεων
Κλειστού Τύπου: Απαντούν σε
ερωτήσεις ενός συγκεκριμένου
γνωστικού πεδίου
Συστήματα Απάντησης Ερωτήσεων
Ανοιχτού Τύπου: Απαντούν σε
ερωτήσεις οι οποίες μπορεί να
προέρχονται από κάθε γνωστικό
αντικείμενο

TRANSFORMERS
Ισχυρά μοντέλα μηχανικής
μάθησης
Χρησιμοποιούνται ευρέως
στην Επεξεργασία
Φυσικής Γλώσσας
Επεξεργάζονται τα
δεδομένα εισόδου
συνολικά και όχι σειριακά
Καλύτερα αποτελέσματα
από τα RNNs, LSTMs

TRANSFORMERS
 Ανήκουν στην κατηγορία μοντέλων Seq2Seq
 Λαμβάνουν ως είσοδο μια ακολουθία λέξεων
και παράγουν μια άλλη ακολουθία
 Στηρίζονται στον μηχανισμό Attention. ο
οποίος επιτρέπει την ορθότερη επεξεργασία
των λέξεων της εισόδου μέσω εύρεσης
νοηματικών συνδέσεων μεταξύ των λέξεων
της ακολουθίας εισόδου.

BERT
Ισχυρό γλωσσικό μοντέλο
μηχανικής μάθησης βασισμένο
σε Transformers
Κατάλληλο για χρήση σε
ζητήματα Επεξεργασίας
Μοντέλα σε πολλές γλώσσες,
στα Ελληνικά το Greek BERT
Εκπαίδευση σε δύο στάδια
Προεκπάιδευση: Εκπαίδευση σε
μεγάλα σύνολα κειμένου για
εκμάθηση ιδιαιτεροτήτων και
μοτίβων της γλώσσας
Fine-Tuning: Εκπαίδευση σε
κατάλληλα σύνολα δεδομένων
για ζητήματα Επεξεργασίας

ΔΟΜΗ ΣΥΣΤΗΜΑΤΟΣ ΑΠΑΝΤΗΣΗΣ
ΕΡΩΤΗΣΕΩΝ ΑΝΟΙΧΤΟΥ ΤΥΠΟΥ

DOCUMENT STORES
Βάσεις δεδομένων στις
οποίες αποθηκεύουμε τα
γνωσιακά δεδομένα (π.χ.
Wikipedia)
Διάφορα είδη, ανάλογα με το
είδος του Retriever που
χρησιμοποιείται
Μήκος κειμένων βάσης
ανάλογα εξαρτώμενο
Αποθήκευση κειμένων με
τεχνικές "κυλιόμενου
παραθύρου" προς αποφυγή
απώλειας πληροφορίας

RETRIEVERS
 Υπεύθυνοι για το φιλτράρισμα των
κειμένων της βάσης δεδομένων και την
επιστροφή σχετικών με την υποβληθείσα
ερώτηση κειμένων για περαιτέρω
επεξεργασία και αναζήτηση της
απάντησης
 Ο αριθμός των εγγραφών που
επιστρέφονται είναι σημαντικός για την
επιτυχή λειτουργία του συστήματος
 Διάφορα είδη Retrievers

SPARSE RETRIEVERS
 tf-idf: Μέθοδος Ανάκτησης Πληροφορίας με έμφαση στην συχνότητα
εμφάνισης κοινών λέξεων και στη σπανιότητα ύπαρξής τους στις εγγραφές
του DocumentStore
 BM25: Παραλλαγή του tf-idf με καλύτερες επιδόσεις. Μειώνει την
επίδραση πολύ κοινών λέξεων, όπως άρθρα, και λαμβάνει υπόψιν το μήκος
των εγγράφων
 Γλωσσικά ανεξάρτητοι

DENSE PASSAGE RETRIEVERS (DPR)
 Χρησιμοποιεί μοντέλα BERT
 Κωδικοποιεί όλες τις εγγραφές της Βάσης Δεδομένων
 Κωδικοποιεί τις ερωτήσεις που τίθενται
 Επιλέγει τις εγγραφές με την πλησιέστερη κωδικοποίηση με αυτή της
ερώτησης

READERS
 Γλωσσικά μοντέλα υπεύθυνα για την ανεύρεση και εξαγωγή απάντησης σε
ερώτηση πάνω σε δοθέν κείμενο
 Εξάγουν αυτούσια την απάντηση από το υπό επεξεργασία κείμενο
 Στηρίζονται σε υπάρχοντα γλωσσικά μοντέλα (BERT) τα οποία
επανεκπαιδεύονται σε QA Datasets

ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Απουσία Συστήματος
Ανοιχτού Τύπου στα
Ελληνικά
Έλλειψη Ελληνικών
Μοντέλων Reader και
Retriever

ΣΤΟΧΟΣ ΤΗΣ ΕΡΓΑΣΙΑΣ
Επανεκπαίδευση Greek
BERT για δημιουργία
Ελληνικών Μοντέλων
Reader και DPR
Δημιουργία Συστήματος
Ανοιχτού Τύπου στα
Ελληνικά

ΠΡΟΚΛΗΣΕΙΣ ΔΗΜΙΟΥΡΓΙΑΣ ΕΛΛΗΝΙΚΟΥ
ΣΥΣΤΗΜΑΤΟΣ ΑΠΑΝΤΗΣΗΣ ΕΡΩΤΗΣΕΩΝ
Απουσία QA datasets στα
ελληνικά
Ανάγκη μετάφρασης
υπαρχόντων
ξενόγλωσσων datasets στα
ελληνικά

QA DATASETS
• Χρησιμοποιούνται για εκπαίδευση Readers και DPR
• Περιέχουν τριάδες ερωτήσεων-απαντήσεων-κειμένου
• Αναγράφουν τη σχετική θέση της απάντησης στο κείμενο
• Ύπαρξη ερωτήσεων χωρίς απάντηση
• Πραγματοποιήθηκε μηχανική μετάφραση σε 4 από τα μεγαλύτερα QA datasets:
SQuAD, TriviaQA, NewsQA και Natural Questions(NQ)
• Μετάφραση ειδικής μορφής του Natural Questions για εκπαίδευση DPR
• Ειδική μέριμνα ώστε η μετάφραση να μην καταστρέφει τη λειτουργικότητα του
dataset και να γίνουν οι απαραίτητες προσαρμογές στη σχετική θέση της απάντησης
• Διατήρηση υψηλού ποσοστού (~90%) του αρχικού dataset μετά τη μετάφραση

ΠΑΡΑΔΕΙΓΜΑ ΜΕΤΑΦΡΑΣΗΣ ΕΓΓΡΑΦΗΣ QA DATASET

ΕΡΓΑΛΕΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ
 HuggingFace: Αποθετήριο Μοντέλων Transformers. Χρησιμοποιείται για
την λήψη των απαραίτητων προεκπαιδευμένων μοντέλων BERT, αλλά και
για την αποθήκευση των επανεκπαιδευμένων και των datasets στα οποία
εκπαιδεύτηκαν
 Haystack: Πλατφόρμα για τη δημιουργία Συστημάτων Απάντησης
Ερωτήσεων διαφόρων τύπων. Διευκολύνει την ένωση των συνθετικών
στοιχείων του συστήματος, ώστε να προκύψει το συνολικό σύστημα
 Παρέχουν επίσης απαραίτητα Scripts για την εκπαίδευση DPR και Readers

ΕΚΠΑΙΔΕΥΣΗ DENSE PASSAGE RETRIEVERS
ΣΤΑ ΕΛΛΗΝΙΚΑ
 Dataset Εκπαίδευσης DPR: Οι εγγραφές περιλαμβάνουν την ερώτηση, το
κείμενο που περιέχει την απάντηση και κάποια κείμενα που δεν την
περιέχουν
 Εκπαίδευση 4 ελληνικών μοντέλων DPR με βάση το Greek BERT, με ένα και
τρία μη περιέχοντα την απάντηση κείμενα και για 20 και 40 epochs.
 Στόχος η διερεύνηση της αποτελεσματικότητας των διαφορετικών μοντέλων
 Σύγκριση αποτελεσμάτων με κλασικό BM25 Retriever

ΑΞΙΟΛΟΓΗΣΗ RETRIEVERS
 Η μετρική Recall εκφράζει το ποσοστό της επιτυχούς
ανάκτησης του περιέχοντος την απάντηση εγγράφου
 Αξιολόγηση στα τμήματα αξιολόγησης των datasets
 Αξιολόγηση για επιστροφή 5, 20 και 50 εγγράφων για κάθε
μοντέλο
 Τα DPR μοντέλα δεν ξεπερνούν την απόδοση του BM25
 Καλύτερο DPR το εκπαιδευμένο για 40 epochs και με ένα μη
περιέχον την απάντηση κείμενο
 Η αύξηση των ανακτώμενων εγγράφων αυξάνει την
αποτελεσματικότητα

ΕΚΠΑΙΔΕΥΣΗ READERS ΣΤΑ ΕΛΛΗΝΙΚΑ
 Εκπαίδευση 14 ελληνικών μοντέλων Reader με βάση το Greek BERT
 Εκπαίδευση στα 4 μεταφρασμένα datasets και σε συνδυασμούς τους
(SQuAD-NQ, SQuAD-NQ-TriviaQA, συνολικό)
 Εκπαίδευση για 3 και 4 epochs

ΑΞΙΟΛΟΓΗΣΗ READERS
 Η μετρική F1 εκφράζει το ποσοστό
επικάλυψης της ορθής και της εξαχθείσας
απάντησης στην ερώτηση.
 Αξιολόγηση στα τμήματα αξιολόγησης των
datasets
 Τα μοντέλα που εκπαιδεύτηκαν στα
συνδυασμένα datasets έχουν καλύτερα
αποτελέσματα
 Δεν υπάρχουν ιδιαίτερες διαφορές στην
απόδοση μεταξύ των αντίστοιχων μοντέλων
για 3 και 4 epochs

DOCUMENT STORE ΕΛΛΗΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ
Λήψη και κατάλληλη
επεξεργασία αντιγράφου
ελληνικής Wikipedia και
εγγραφή του σε Document
Store
Δημιουργία Document Store για
sparse και DPR Retrievers

ΕΓΚΑΤΑΣΤΑΣΗ ΣΥΣΤΗΜΑΤΟΣ
 Δημιουργήθηκαν δύο Συστήματα Απάντησης Ερωτήσεων Ανοιχτού Τύπου
 Ο Retriever του πρώτου είναι ο καλύτερος DPR, δηλαδή αυτός που εκπαιδεύτηκε
για 40 epochs με ένα μη περιέχον την απάντηση κείμενο
 Ο Retriever του δεύτερου είναι ο ΒΜ25, ο οποίος είχε την καλύτερη απόδοση
 Επιλέγεται η επιστροφή 20 εγγράφων ανά ερώτηση
 Ο Reader και των δύο συστημάτων είναι αυτός που εκπαιδεύτηκε για 4 epochs σε
όλα τα datasets
 Δημιουργήθηκε διαδικτυακή εφαρμογή για καλύτερη πρόσβαση στο σύστημα

ΑΞΙΟΛΟΓΗΣΗ ΣΥΣΤΗΜΑΤΩΝ
 Αξιολόγηση σε τμήμα του NQ
 Το σύστημα με BM25 έχει καλύτερα
αποτελέσματα
 Χαμηλότερη απόδοση από την αρχική των
Readers
 Πιθανές αιτίες η μη επιστροφή του σωστού
κειμένου και η κατάτμηση των εγγράφων της
βάσης

ΠΑΡΑΔΕΙΓΜΑΤΑ ΧΡΗΣΗΣ ΣΥΣΤΗΜΑΤΟΣ

ΣΥΜΠΕΡΑΣΜΑΤΑ
Επιχειρήθηκε η δημιουργία Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου
Οι Readers ανταποκρίνονται αρκετά καλά τόσο στην αξιολόγηση των datasets όσο και σε πρακτικά
παραδείγματα
Οι DPR Retrievers δεν ξεπερνούν την απόδοση του ΒΜ25
Η μετάφραση των datasets δίνει τη δυνατότητα εκπαίδευσης των μοντέλων στα Ελληνικά αλλά δεν μπορεί να
δώσει εξίσου καλά αποτελέσματα με πρωτότυπα ελληνικά datasets
Πρώτο βήμα για περαιτέρω έρευνα

ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
Δημιουργία εξ αρχής ελληνικών QA datasets και εκπαίδευση μοντέλων με αυτά
Χρήση μεγαλύτερων ελληνικών μοντέλων BERT
Χρήση εργαλείων για βελτίωση της μορφής των απαντήσεων
Προσθήκη επιπλέον δυνατοτήτων όπως φωνητική εισαγωγή ερωτήσεων
Επίσημη έκδοση του Συστήματος

ΕΥΧΑΡΙΣΤΙΕΣ
Ευχαριστώ τον κύριο Συμεωνίδη για την εμπιστοσύνη και την υποστήριξή του
κατά τη διάρκεια τής εργασίας
Ευχαριστώ τον Υπ. Δρ Νικόλα Μάλαμα για τη συνεχή βοήθειά του στην
εκπόνηση της εργασίας

ΕΥΧΑΡΙΣΤΩ ΓΙΑ ΤΗΝ ΠΡΟΣΟΧΗ
ΣΑΣ!

Ανάπτυξη Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Ανάπτυξη Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου

Similar to Ανάπτυξη Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου (20)

More from ISSEL

More from ISSEL (20)

Ανάπτυξη Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου