Advertisement
Advertisement

More Related Content

More from ISSEL(20)

Advertisement

Design and Development of Greek Open-Domain Question Answering System

  1. ΑΝΑΠΤΥΞΗ ΕΛΛΗΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΑΠΑΝΤΗΣΗΣ ΕΡΩΤΗΣΕΩΝ ΑΝΟΙΧΤΟΥ ΤΥΠΟΥ Δημήτριος Νικήτας Νάστος ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΔΠΜΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Επιβλέποντες: Αν. Καθηγητής Ανδρέας Συμεωνίδης Υπ. Διδάκτωρ Νικόλας Μάλαμας
  2. ΣΥΣΤΗΜΑΤΑ ΑΠΑΝΤΗΣΗΣ ΕΡΩΤΗΣΕΩΝ Η Απάντηση Ερωτήσεων είναι βασικό ζήτημα με το οποίο ασχολείται η Επεξεργασία Φυσικής Γλώσσας Στηρίζεται σε προεκπαιδευμένα γλωσσικά μοντέλα τα οποία επανεκπαιδεύονται για την Απάντηση Ερωτήσεων Δύο βασικά είδη Συστημάτων Απάντησης Ερωτήσεων Συστήματα Απάντησης Ερωτήσεων Κλειστού Τύπου: Απαντούν σε ερωτήσεις ενός συγκεκριμένου γνωστικού πεδίου Συστήματα Απάντησης Ερωτήσεων Ανοιχτού Τύπου: Απαντούν σε ερωτήσεις οι οποίες μπορεί να προέρχονται από κάθε γνωστικό αντικείμενο
  3. TRANSFORMERS Ισχυρά μοντέλα μηχανικής μάθησης Χρησιμοποιούνται ευρέως στην Επεξεργασία Φυσικής Γλώσσας Επεξεργάζονται τα δεδομένα εισόδου συνολικά και όχι σειριακά Καλύτερα αποτελέσματα από τα RNNs, LSTMs
  4. TRANSFORMERS  Ανήκουν στην κατηγορία μοντέλων Seq2Seq  Λαμβάνουν ως είσοδο μια ακολουθία λέξεων και παράγουν μια άλλη ακολουθία  Στηρίζονται στον μηχανισμό Attention. ο οποίος επιτρέπει την ορθότερη επεξεργασία των λέξεων της εισόδου μέσω εύρεσης νοηματικών συνδέσεων μεταξύ των λέξεων της ακολουθίας εισόδου.
  5. BERT Ισχυρό γλωσσικό μοντέλο μηχανικής μάθησης βασισμένο σε Transformers Κατάλληλο για χρήση σε ζητήματα Επεξεργασίας Φυσικής Γλώσσας Μοντέλα σε πολλές γλώσσες, στα Ελληνικά το Greek BERT Εκπαίδευση σε δύο στάδια Προεκπάιδευση: Εκπαίδευση σε μεγάλα σύνολα κειμένου για εκμάθηση ιδιαιτεροτήτων και μοτίβων της γλώσσας Fine-Tuning: Εκπαίδευση σε κατάλληλα σύνολα δεδομένων για ζητήματα Επεξεργασίας Φυσικής Γλώσσας
  6. ΔΟΜΗ ΣΥΣΤΗΜΑΤΟΣ ΑΠΑΝΤΗΣΗΣ ΕΡΩΤΗΣΕΩΝ ΑΝΟΙΧΤΟΥ ΤΥΠΟΥ
  7. DOCUMENT STORES Βάσεις δεδομένων στις οποίες αποθηκεύουμε τα γνωσιακά δεδομένα (π.χ. Wikipedia) Διάφορα είδη, ανάλογα με το είδος του Retriever που χρησιμοποιείται Μήκος κειμένων βάσης ανάλογα εξαρτώμενο Αποθήκευση κειμένων με τεχνικές "κυλιόμενου παραθύρου" προς αποφυγή απώλειας πληροφορίας
  8. RETRIEVERS  Υπεύθυνοι για το φιλτράρισμα των κειμένων της βάσης δεδομένων και την επιστροφή σχετικών με την υποβληθείσα ερώτηση κειμένων για περαιτέρω επεξεργασία και αναζήτηση της απάντησης  Ο αριθμός των εγγραφών που επιστρέφονται είναι σημαντικός για την επιτυχή λειτουργία του συστήματος  Διάφορα είδη Retrievers
  9. SPARSE RETRIEVERS  tf-idf: Μέθοδος Ανάκτησης Πληροφορίας με έμφαση στην συχνότητα εμφάνισης κοινών λέξεων και στη σπανιότητα ύπαρξής τους στις εγγραφές του DocumentStore  BM25: Παραλλαγή του tf-idf με καλύτερες επιδόσεις. Μειώνει την επίδραση πολύ κοινών λέξεων, όπως άρθρα, και λαμβάνει υπόψιν το μήκος των εγγράφων  Γλωσσικά ανεξάρτητοι
  10. DENSE PASSAGE RETRIEVERS (DPR)  Χρησιμοποιεί μοντέλα BERT  Κωδικοποιεί όλες τις εγγραφές της Βάσης Δεδομένων  Κωδικοποιεί τις ερωτήσεις που τίθενται  Επιλέγει τις εγγραφές με την πλησιέστερη κωδικοποίηση με αυτή της ερώτησης
  11. READERS  Γλωσσικά μοντέλα υπεύθυνα για την ανεύρεση και εξαγωγή απάντησης σε ερώτηση πάνω σε δοθέν κείμενο  Εξάγουν αυτούσια την απάντηση από το υπό επεξεργασία κείμενο  Στηρίζονται σε υπάρχοντα γλωσσικά μοντέλα (BERT) τα οποία επανεκπαιδεύονται σε QA Datasets
  12. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ Απουσία Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου στα Ελληνικά Έλλειψη Ελληνικών Μοντέλων Reader και Retriever
  13. ΣΤΟΧΟΣ ΤΗΣ ΕΡΓΑΣΙΑΣ Επανεκπαίδευση Greek BERT για δημιουργία Ελληνικών Μοντέλων Reader και DPR Δημιουργία Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου στα Ελληνικά
  14. ΠΡΟΚΛΗΣΕΙΣ ΔΗΜΙΟΥΡΓΙΑΣ ΕΛΛΗΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΑΠΑΝΤΗΣΗΣ ΕΡΩΤΗΣΕΩΝ Απουσία QA datasets στα ελληνικά Ανάγκη μετάφρασης υπαρχόντων ξενόγλωσσων datasets στα ελληνικά
  15. QA DATASETS • Χρησιμοποιούνται για εκπαίδευση Readers και DPR • Περιέχουν τριάδες ερωτήσεων-απαντήσεων-κειμένου • Αναγράφουν τη σχετική θέση της απάντησης στο κείμενο • Ύπαρξη ερωτήσεων χωρίς απάντηση • Πραγματοποιήθηκε μηχανική μετάφραση σε 4 από τα μεγαλύτερα QA datasets: SQuAD, TriviaQA, NewsQA και Natural Questions(NQ) • Μετάφραση ειδικής μορφής του Natural Questions για εκπαίδευση DPR • Ειδική μέριμνα ώστε η μετάφραση να μην καταστρέφει τη λειτουργικότητα του dataset και να γίνουν οι απαραίτητες προσαρμογές στη σχετική θέση της απάντησης • Διατήρηση υψηλού ποσοστού (~90%) του αρχικού dataset μετά τη μετάφραση
  16. ΠΑΡΑΔΕΙΓΜΑ ΜΕΤΑΦΡΑΣΗΣ ΕΓΓΡΑΦΗΣ QA DATASET
  17. ΕΡΓΑΛΕΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ  HuggingFace: Αποθετήριο Μοντέλων Transformers. Χρησιμοποιείται για την λήψη των απαραίτητων προεκπαιδευμένων μοντέλων BERT, αλλά και για την αποθήκευση των επανεκπαιδευμένων και των datasets στα οποία εκπαιδεύτηκαν  Haystack: Πλατφόρμα για τη δημιουργία Συστημάτων Απάντησης Ερωτήσεων διαφόρων τύπων. Διευκολύνει την ένωση των συνθετικών στοιχείων του συστήματος, ώστε να προκύψει το συνολικό σύστημα  Παρέχουν επίσης απαραίτητα Scripts για την εκπαίδευση DPR και Readers
  18. ΕΚΠΑΙΔΕΥΣΗ DENSE PASSAGE RETRIEVERS ΣΤΑ ΕΛΛΗΝΙΚΑ  Dataset Εκπαίδευσης DPR: Οι εγγραφές περιλαμβάνουν την ερώτηση, το κείμενο που περιέχει την απάντηση και κάποια κείμενα που δεν την περιέχουν  Εκπαίδευση 4 ελληνικών μοντέλων DPR με βάση το Greek BERT, με ένα και τρία μη περιέχοντα την απάντηση κείμενα και για 20 και 40 epochs.  Στόχος η διερεύνηση της αποτελεσματικότητας των διαφορετικών μοντέλων  Σύγκριση αποτελεσμάτων με κλασικό BM25 Retriever
  19. ΑΞΙΟΛΟΓΗΣΗ RETRIEVERS  Η μετρική Recall εκφράζει το ποσοστό της επιτυχούς ανάκτησης του περιέχοντος την απάντηση εγγράφου  Αξιολόγηση στα τμήματα αξιολόγησης των datasets  Αξιολόγηση για επιστροφή 5, 20 και 50 εγγράφων για κάθε μοντέλο  Τα DPR μοντέλα δεν ξεπερνούν την απόδοση του BM25  Καλύτερο DPR το εκπαιδευμένο για 40 epochs και με ένα μη περιέχον την απάντηση κείμενο  Η αύξηση των ανακτώμενων εγγράφων αυξάνει την αποτελεσματικότητα
  20. ΕΚΠΑΙΔΕΥΣΗ READERS ΣΤΑ ΕΛΛΗΝΙΚΑ  Εκπαίδευση 14 ελληνικών μοντέλων Reader με βάση το Greek BERT  Εκπαίδευση στα 4 μεταφρασμένα datasets και σε συνδυασμούς τους (SQuAD-NQ, SQuAD-NQ-TriviaQA, συνολικό)  Εκπαίδευση για 3 και 4 epochs
  21. ΑΞΙΟΛΟΓΗΣΗ READERS  Η μετρική F1 εκφράζει το ποσοστό επικάλυψης της ορθής και της εξαχθείσας απάντησης στην ερώτηση.  Αξιολόγηση στα τμήματα αξιολόγησης των datasets  Τα μοντέλα που εκπαιδεύτηκαν στα συνδυασμένα datasets έχουν καλύτερα αποτελέσματα  Δεν υπάρχουν ιδιαίτερες διαφορές στην απόδοση μεταξύ των αντίστοιχων μοντέλων για 3 και 4 epochs
  22. DOCUMENT STORE ΕΛΛΗΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ Λήψη και κατάλληλη επεξεργασία αντιγράφου ελληνικής Wikipedia και εγγραφή του σε Document Store Δημιουργία Document Store για sparse και DPR Retrievers
  23. ΕΓΚΑΤΑΣΤΑΣΗ ΣΥΣΤΗΜΑΤΟΣ  Δημιουργήθηκαν δύο Συστήματα Απάντησης Ερωτήσεων Ανοιχτού Τύπου  Ο Retriever του πρώτου είναι ο καλύτερος DPR, δηλαδή αυτός που εκπαιδεύτηκε για 40 epochs με ένα μη περιέχον την απάντηση κείμενο  Ο Retriever του δεύτερου είναι ο ΒΜ25, ο οποίος είχε την καλύτερη απόδοση  Επιλέγεται η επιστροφή 20 εγγράφων ανά ερώτηση  Ο Reader και των δύο συστημάτων είναι αυτός που εκπαιδεύτηκε για 4 epochs σε όλα τα datasets  Δημιουργήθηκε διαδικτυακή εφαρμογή για καλύτερη πρόσβαση στο σύστημα
  24. ΑΞΙΟΛΟΓΗΣΗ ΣΥΣΤΗΜΑΤΩΝ  Αξιολόγηση σε τμήμα του NQ  Το σύστημα με BM25 έχει καλύτερα αποτελέσματα  Χαμηλότερη απόδοση από την αρχική των Readers  Πιθανές αιτίες η μη επιστροφή του σωστού κειμένου και η κατάτμηση των εγγράφων της βάσης
  25. ΠΑΡΑΔΕΙΓΜΑΤΑ ΧΡΗΣΗΣ ΣΥΣΤΗΜΑΤΟΣ
  26. ΣΥΜΠΕΡΑΣΜΑΤΑ Επιχειρήθηκε η δημιουργία Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου Οι Readers ανταποκρίνονται αρκετά καλά τόσο στην αξιολόγηση των datasets όσο και σε πρακτικά παραδείγματα Οι DPR Retrievers δεν ξεπερνούν την απόδοση του ΒΜ25 Η μετάφραση των datasets δίνει τη δυνατότητα εκπαίδευσης των μοντέλων στα Ελληνικά αλλά δεν μπορεί να δώσει εξίσου καλά αποτελέσματα με πρωτότυπα ελληνικά datasets Πρώτο βήμα για περαιτέρω έρευνα
  27. ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ Δημιουργία εξ αρχής ελληνικών QA datasets και εκπαίδευση μοντέλων με αυτά Χρήση μεγαλύτερων ελληνικών μοντέλων BERT Χρήση εργαλείων για βελτίωση της μορφής των απαντήσεων Προσθήκη επιπλέον δυνατοτήτων όπως φωνητική εισαγωγή ερωτήσεων Επίσημη έκδοση του Συστήματος
  28. ΕΥΧΑΡΙΣΤΙΕΣ Ευχαριστώ τον κύριο Συμεωνίδη για την εμπιστοσύνη και την υποστήριξή του κατά τη διάρκεια τής εργασίας Ευχαριστώ τον Υπ. Δρ Νικόλα Μάλαμα για τη συνεχή βοήθειά του στην εκπόνηση της εργασίας
  29. ΕΥΧΑΡΙΣΤΩ ΓΙΑ ΤΗΝ ΠΡΟΣΟΧΗ ΣΑΣ!
Advertisement