Successfully reported this slideshow.
Your SlideShare is downloading. ×

Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου

Ad

Ανάπτυξη Ειδησεογραφικού
Βοηθού Πραγματικού χρόνου
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολ...

Ad

Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 2
Ειδησεογραφικό περιεχόμενο στο διαδίκτυο

Ad

Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Σκοπός της Διπλωματικής Εργασίας
● Ανάπτυξη ψηφιακού βοηθού...

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 20 Ad
1 of 20 Ad

Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου

Download to read offline

Εκατοντάδες άρθρα ειδήσεων, και όχι μόνο, δημοσιεύονται καθημερινά στο μικρο-διαδίκτυο μας, καθιστώντας αδύνατη την ανάγνωση του μεγαλύτερου μέ ρους τους λόγω των γρήγορων ρυθμών της καθημερινότητας. Ταυτόχρονα, η σχετι κότητα των άρθρων με την είδηση μειώνεται με την πάροδο του χρόνου, καθώς τα νέα αλλάζουν συνεχώς ακόμη και αν πρόκειται για την ίδια είδηση. Επομένως, είναι απαραίτητη η εποπτεία τους σε πραγματικό χρόνο. Η αυτοματοποιημένη ανάκτηση αυτής της πληροφορίας είναι αναγκαία και μπορεί να επιτευχθεί χρησιμοποιώντας τεχνικές επεξεργασίας και κατανόησης φυσικής γλώσσας. Η παρούσα διπλωματική εργασία μελετά την ανάπτυξη ενός ειδησεογραφικού βοηθού πραγματικού χρόνου. Πιο συγκεκριμένα, ο βοηθός είναι υπεύθυνος για την αναζήτηση και την εύρεση απαντήσεων στις ερωτήσεις του χρήστη, τις οποίες ανα γνωρίζει κατά τη συνομιλία με αυτόν και η αναζήτηση πραγματοποιείται μέσω ενός συστήματος ερώτησης-απάντησης (Question-Answering - QA). Η χρήση του βοηθού καθιστά την υλοποίηση πιο ευέλικτη και φιλική προς το χρήστη. Η είσοδος του συ στήματος ορίζεται ως οτιδήποτε εισάγει ο χρήστης στην επικοινωνία του με τον ψη φιακό βοηθό. Οι ειδήσεις που υποστηρίζονται αφορούν πολιτική, αθλητικά, τεχνολο γία, ταινίες και ηλεκτρονικά παιχνίδια. Τα άρθρα παρέχονται από την προσομοίωση ενός εξωτερικού συστήματος και εισέρχονται σε έναν ταξινομητή για τον καθορι σμό της κατηγορίας τους. Στη συνέχεια, αποθηκεύονται σε μία βάση δεδομένων στην οποία ανατρέχει το QA σύστημα για την εξαγωγή της απάντησης. Το τελικό σύστημα αποτελείται από τον ταξινομητή, τον ψηφιακό βοηθό και το σύστημα QA. Κάθε ένα από αυτά τα κομμάτια μπορεί να αντικατασταθεί και βελτιστοποιηθεί ξεχωριστά από τα υπόλοιπα δημιουργώντας έτσι ένα αρθρωτό σύστημα. Για τη διασφάλιση της σωστής λειτουργίας του ψηφιακού βοηθού αλλά και τη συντήρηση του χρησιμοποιήθηκε βοηθητικό εργαλείο για την τροφοδοτούμενη από συνομιλίες ανάπτυξη του (Conversation-Driven Development). Μέσω αυτού, πραγμα τοποιείται η αξιολόγηση του συνολικού συστήματος σε πραγματικές συνομιλίες οι οποίες στη συνέχεια αξιοποιούνται για τη βελτιστοποίηση τόσο του βοηθού όσο και των υπόλοιπων κομματιών του. Για την επιλογή των μοντέλων μηχανικής μάθησης για επεξεργασία φυσικής γλώσσας πραγματοποιήθηκαν πειράματα με τα οποία αξιολογήθηκε η αποδοτικό τητα τους σε συγκεκριμένα σύνολα δεδομένων. Με τον τρόπο αυτό, μελετώντας τα αποτελέσματα των πειραμάτων, επιλέχθηκαν οι βέλτιστες παράμετροι για τη λειτουργία του συνολικού συστήματος.

Εκατοντάδες άρθρα ειδήσεων, και όχι μόνο, δημοσιεύονται καθημερινά στο μικρο-διαδίκτυο μας, καθιστώντας αδύνατη την ανάγνωση του μεγαλύτερου μέ ρους τους λόγω των γρήγορων ρυθμών της καθημερινότητας. Ταυτόχρονα, η σχετι κότητα των άρθρων με την είδηση μειώνεται με την πάροδο του χρόνου, καθώς τα νέα αλλάζουν συνεχώς ακόμη και αν πρόκειται για την ίδια είδηση. Επομένως, είναι απαραίτητη η εποπτεία τους σε πραγματικό χρόνο. Η αυτοματοποιημένη ανάκτηση αυτής της πληροφορίας είναι αναγκαία και μπορεί να επιτευχθεί χρησιμοποιώντας τεχνικές επεξεργασίας και κατανόησης φυσικής γλώσσας. Η παρούσα διπλωματική εργασία μελετά την ανάπτυξη ενός ειδησεογραφικού βοηθού πραγματικού χρόνου. Πιο συγκεκριμένα, ο βοηθός είναι υπεύθυνος για την αναζήτηση και την εύρεση απαντήσεων στις ερωτήσεις του χρήστη, τις οποίες ανα γνωρίζει κατά τη συνομιλία με αυτόν και η αναζήτηση πραγματοποιείται μέσω ενός συστήματος ερώτησης-απάντησης (Question-Answering - QA). Η χρήση του βοηθού καθιστά την υλοποίηση πιο ευέλικτη και φιλική προς το χρήστη. Η είσοδος του συ στήματος ορίζεται ως οτιδήποτε εισάγει ο χρήστης στην επικοινωνία του με τον ψη φιακό βοηθό. Οι ειδήσεις που υποστηρίζονται αφορούν πολιτική, αθλητικά, τεχνολο γία, ταινίες και ηλεκτρονικά παιχνίδια. Τα άρθρα παρέχονται από την προσομοίωση ενός εξωτερικού συστήματος και εισέρχονται σε έναν ταξινομητή για τον καθορι σμό της κατηγορίας τους. Στη συνέχεια, αποθηκεύονται σε μία βάση δεδομένων στην οποία ανατρέχει το QA σύστημα για την εξαγωγή της απάντησης. Το τελικό σύστημα αποτελείται από τον ταξινομητή, τον ψηφιακό βοηθό και το σύστημα QA. Κάθε ένα από αυτά τα κομμάτια μπορεί να αντικατασταθεί και βελτιστοποιηθεί ξεχωριστά από τα υπόλοιπα δημιουργώντας έτσι ένα αρθρωτό σύστημα. Για τη διασφάλιση της σωστής λειτουργίας του ψηφιακού βοηθού αλλά και τη συντήρηση του χρησιμοποιήθηκε βοηθητικό εργαλείο για την τροφοδοτούμενη από συνομιλίες ανάπτυξη του (Conversation-Driven Development). Μέσω αυτού, πραγμα τοποιείται η αξιολόγηση του συνολικού συστήματος σε πραγματικές συνομιλίες οι οποίες στη συνέχεια αξιοποιούνται για τη βελτιστοποίηση τόσο του βοηθού όσο και των υπόλοιπων κομματιών του. Για την επιλογή των μοντέλων μηχανικής μάθησης για επεξεργασία φυσικής γλώσσας πραγματοποιήθηκαν πειράματα με τα οποία αξιολογήθηκε η αποδοτικό τητα τους σε συγκεκριμένα σύνολα δεδομένων. Με τον τρόπο αυτό, μελετώντας τα αποτελέσματα των πειραμάτων, επιλέχθηκαν οι βέλτιστες παράμετροι για τη λειτουργία του συνολικού συστήματος.

More Related Content

More from ISSEL (20)

Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου

  1. 1. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Δοϊνάκης Μιχαήλ ΑΕΜ: 9292 Θεσσαλονίκη, 13 Ιουλίου 2022 Επιβλέποντες: Ανδρέας Συμεωνίδης, Αν. Καθηγητής Α.Π.Θ Νικόλαος Μάλαμας, Υποψήφιος Διδάκτορας
  2. 2. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 2 Ειδησεογραφικό περιεχόμενο στο διαδίκτυο
  3. 3. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Σκοπός της Διπλωματικής Εργασίας ● Ανάπτυξη ψηφιακού βοηθού ● Ανάπτυξη συστήματος Question-Answering (QA) ● Ανάπτυξη συστήματος ταξινόμησης άρθρων Υποστηριζόμενα είδη ειδήσεων: ● Πολιτικά ● Αθλητικά ● Τεχνολογία ● Ταινίες ● Ηλεκτρονικά παιχνίδια (Gaming) 3
  4. 4. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 4 Λειτουργία Συνολικού Συστήματος
  5. 5. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 5 Εξωτερικό Σύστημα Περιεχόμενο Μαζί με το Mac Studio παρουσιάστηκε και το Studio Display, μία οθόνη με σώμα αλουμινίου ... Όνομα αρχείου apple_studio_display.json Τίτλος Studio Display: Η οθόνη της Apple έχει ένα Α13 Bionic και κάμερα iPhone Url https://url.com/article0 Κατηγορία tech Ημερομηνία έκδοσης 2022-04-30 ● Προσομοίωση μέσω συλλογής πραγματικών άρθρων από ιστοσελίδες ειδήσεων ● Παροχή άρθρων σε μορφή json Κατηγορία Αριθμός άρθρων αθλητικά 5468 πολιτική 1483 τεχνολογία 1329 gaming 1273 ταινίες 1222 άλλο 1427 Σύνολο 12202 Παράδειγμα περιεχομένου αρχείου json στη βάση δεδομένων
  6. 6. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 6 Ταξινομητής Άρθρων Υλοποιήσεις: ● Multi-Layer Perceptron (2 hidden layers) ● Fine-tuning Greek BERT (12 attention heads, 12 hidden layers) Αρχιτεκτονική MLP Αρχιτεκτονική Greek Bert
  7. 7. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Rasa Βασικές λειτουργίες ψηφιακού βοηθού: ● Κατανόηση της επιθυμίας του χρήστη και εκτέλεση κατάλληλης ενέργειας ● Χαιρετισμός/Αποχαιρετισμός του χρήστη ● Παρουσίαση της απάντησης που επέστρεψε το Haystack στο χρήστη μαζί με χρήσιμες πληροφορίες ● Υποστήριξη εντολών για την ανανέωση της βάσης δεδομένων on demand 7
  8. 8. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 8 ● Ταξινόμηση της ερώτησης ● Retriever: Αναζήτηση του καταλληλότερων εγγράφων στη βάση δεδομένων ● Reader: Ανάγνωση των εγγράφων και εξαγωγή της απάντησης ● Επιστροφή της απάντησης στο ψηφιακό βοηθό RASA Action Server - Haystack
  9. 9. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 9 Μοντέλα Retriever (1) Όπου: ● Q: ερώτηση ● d: έγγραφο ● t: λέξη της πρότασης ● TF: πλήθος εμφάνισης της λέξης στο d ● |D|: συνολικός αριθμός εγγράφων ● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t Μειονεκτήματα: ● Αύξηση TF→Αύξηση του σκορ ● Δεν λαμβάνεται υπόψη το μέγεθος του εγγράφου
  10. 10. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Μοντέλα Retriever (2) 10 Όπου: ● Q: ερώτηση ● d: έγγραφο ● t: λέξη της πρότασης ● TF: πλήθος εμφάνισης της λέξης στο d ● len_doc: μέγεθος του d ● len_avg: μέσος όρος των μεγεθών των εγγράφων ● |D|: συνολικός αριθμός εγγράφων ● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t ● k_1: παράμετρος κορεσμού TF ● b: επηρεασμός σκορ από το μέγεθος του εγγράφου
  11. 11. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Μοντέλα Reader ● Πολυγλωσσικό μοντέλο της deepset (xml-roberta-large-squad2) ● Fine-tuned Ελληνικά μοντέλα του Greek-Bert 11
  12. 12. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. TP TP+FN Μοντέλα Reader ● Exact Match (EM) = Απόλυτη ταύτιση προβλεπόμενης απάντησης με την πραγματική απάντηση Μετρικές Αξιολόγησης Μοντέλα ταξινόμησης ● Precision = ● Recall = ● Accuracy = 12 TP TP + FP ● Precision = ● Recall = Κοινές λέξεις προβλεπόμενης απάντησης με την πραγματική Συνολικός αριθμός λέξεων στην πραγματική απάντηση Κοινές λέξεις προβλεπόμενης απαντησης με την πραγματική Συνολικός αριθμός λέξεων στην προβλεπόμενη απάντηση TP + TN TP + TN + FP + FN
  13. 13. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Κατηγορία precision recall F1 Score Macro avg 97.9 97.4 97.7 Weighted avg 98.5 98.2 98.2 Accuracy 98.2 Αξιολόγηση Μοντέλων Ταξινόμησης 13 Κατηγορία precision recall F1 Score Macro avg 98.4 98.6 98.5 Weighted avg 98.9 98.9 98.9 Accuracy 98.4 Αποτελέσματα ταξινόμησης με το μοντέλο MLP Αποτελέσματα ταξινόμησης με το μοντέλο Greek Bert
  14. 14. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 14 Αξιολόγηση Μοντέλων Retriever
  15. 15. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 15 Αξιολόγηση Μοντέλων Reader Μοντέλο EM F1 Score xlm-roberta-large-squad2 55.7 75.8 squad_bert_el 57.1 74.9 qacombination_bert_el 55.6 74.3 newsqa_bert_el 39.2 58.8 nq_bert_el 38.5 57.5 triviaqa_bert_el 27.9 40.9
  16. 16. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Συμπεράσματα ● RASA → Εκπαίδευση βοηθού με περιορισμένο σύνολο δεδομένων ● Greek-Bert vs MLP→ Greek-Bert νοηματική σύνδεση ● Καθορισμός συνολικής απόδοσης από το τμήμα με τη μικρότερη απόδοση ● Ικανοποιητική απόδοση πολυ-γλωσσικών μοντέλων στα Ελληνικά 16
  17. 17. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Μελλοντικές Επεκτάσεις ● Υλοποίηση συστήματος παροχής άρθρων ● Έκθεση του συστήματος σε δοκιμαστικό κοινό ● Συλλογή ερωτήσεων για fine-tuning του Greek Bert ● Ενσωμάτωση συστήματος σε γνωστές εφαρμογές όπως messenger, mattermost, discord, slack κτλ. ● Συνεχής βελτιστοποίηση των τμημάτων του συστήματος 17
  18. 18. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 18 Παρουσίαση Διεπαφής
  19. 19. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Ευχαριστώ για την για την προσοχή σας! Ερωτήσεις; 19
  20. 20. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 21 Παρουσίαση Διεπαφής (2)

Editor's Notes

  • Ο όγκος της πληροφορίας που παράγεται καθημερινά στο διαδίκτυο αυξάνεται πολύ γρήγορα και ένας από τους τομείς ο οποίος υποφέρει από τον καθημερινό βομβαρδισμό πληροφορίας είναι και αυτός των ειδήσεων. Χιλιάδες άρθρα δημοσιεύονται καθημερινά καθιστώντας αδύνατη την ανάγνωση και την εξαγωγή πληροφορίας από αυτά. Επιπλέον, ένα άρθρο είναι σχετικό με την επικαιρότητα μόνο για περιορισμένο χρονικό διάστημα συνεπώς η εξαγωγή πληροφορίας σε πραγματικό χρόνο καθίσταται αναγκαία. Η παρούσα διπλωματική εργασία μελετά έναν τρόπο για αυτοματοποίηση της διαδικασίας αναζήτησης απαντήσεων σε ερωτήσεις που αφορούν την επικαιρότητα.
  • Στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη και συντήρηση ενός ψηφιακού βοηθού, ο οποίος θα αναγνωρίζει τις επιθυμίες των χρηστών του και θα παρουσιάζει σε αυτούς απαντήσεις με ευνόητο τρόπο. Οι χρήστες θα έχουν τη δυνατότητα να διατυπώνουν ερωτήσεις που αφορούν την επικαιρότητα (δηλαδή για θέματα ειδήσεων) που αφορούν:
    Πολιτική
    Αθλητικά
    Τεχνολογία
    Ταινίες
    Ηλεκτρονικά Παιχνίδια (Gaming)
    Σε συνδυασμό με το ψηφιακό βοηθό μελετήθηκε και η ανάπτυξη ενός συστήματος ερώτησης απάντησης για την εύρεση της απάντησης στην ερώτηση του χρήστη.
    Ακόμη, μελετήθηκε και η εκπαίδευση μοντέλων κατανόησης φυσικής γλώσσας με στόχο την κατηγοριοποίηση άρθρων στις κατηγορίες που αναφέρθηκαν.
    Προτού παρουσιαστεί το συνολικό σύστημα αξίζει να σημειωθεί ότι για την ανάπτυξη του ψηφιακού βοηθού χρησιμοποιήθηκε το RASA (open source framework για το σκοπό αυτό) και για την ανάπτυξη του συστήματος QA χρησιμοποιήθηκε το Haystack (open source framework για αναζήτηση σε μεγάλες βάσεις δεδομένων).
  • Η λειτουργία του συνολικού συστήματος μπορεί να παρουσιαστεί με το παρόν διάγραμμα. Αρχικά, ένα εξωτερικό σύστημα παρέχει άρθρα από το διαδίκτυο στο σύστημα που αναπτύχθηκε. Στη συνέχεια, τα άρθρα περνούν από έναν ταξινομητή, ο οποίος τα αντιστοιχίζει σε μία από τις υποστηριζόμενες κατηγορίες και τα αποθηκεύει σε μία βάση δεδομένων (elasticsearch). Ως είσοδος του χρήστη ορίζεται οτιδήποτε εισάγει ο ίδιος μέσω του πληκτρολογίου στην επικοινωνία του με τον ψηφιακό βοηθό. Έπειτα, το RASA επεξεργάζεται την είσοδο του χρήστη με στόχο να εξάγει την επιθυμία του. Σε περίπτωση ανιχνευθεί επιθυμία για ερώτηση, τότε η είσοδος περνάει στο σύστημα ερώτησης απάντησης το οποίο επιστρέφει την πιο πιθανή απάντηση στην ερώτηση του χρήστη.
  • Το εξωτερικό σύστημα προσομοιώθηκε μέσω της αυτοματοποιημένης λήψης άρθρων από πραγματικές ιστοσελίδες ειδησεογραφικού περιεχομένου. Με τον τρόπο αυτό δημιουργήθηκε ένα σύνολο δεδομένων με συνολικά 12202 άρθρα. Τα άρθρα έχουν τη μορφή αρχείων json και αποθηκεύονται στη βάση δεδομένων μαζί με το όνομα, τον τίτλο, το link από την ιστοσελίδα την οποία προήλθαν, την κατηγορία και την ημερομηνία έκδοσης τους.
  • Για την ταξινόμηση των άρθρων μελετήθηκαν δύο υλοποιήσεις. Η πρώτη, ήταν η κατασκευή ενός Multi-Layer Perceptron με 2 hidden layers και η δεύτερη ήταν το fine tuning του Ελληνικού BERT μοντέλου που αποτελείται από 12 attention heads, 12 hidden layers και έχει ένα λεξιλόγιο 35000 λέξεων. Και τα 2 μοντέλα εκπαιδεύτηκαν με το ίδιο σύνολο άρθρων που αποκτήθηκαν όπως αναφέρθηκε προηγουμένως. Κάτι που αξίζει να σημειωθεί στο σημείο αυτό είναι ότι το MLP εξαιτίας της απλής αρχιτεκτονικής του εκπαιδεύεται πιο γρήγορα από το μοντέλο Greek-Bert.
  • Μερικές από τις βασικές λειτουργίες του ψηφιακού βοηθού είναι οι εξής:
    Κατανόηση της επιθυμίας του χρηστη και εκτέλεση κατάλληλης ενέργειας
    Χαιρετισμός/Αποχαιρετισμός του χρήστη
    Παρουσίαση της απάντησης που επέστρεψε το Haystack στο χρήστη μαζί με χρήσιμες πληροφορίες
    Υποστήριξη εντολών για την ανανέωση της βάσης δεδομένων on demand
  • Στη παρούσα διαφάνεια παρουσιάζεται το σύστημα ερώτησης-απάντησης. Ως είσοδος ορίζεται η ερώτηση που έχει προηγουμένως αναγνωριστεί από το RASA. Αρχικά, η ερώτηση περνάει από έναν ταξινομητή, ο οποίος την ταξινομεί σε μία από τις διαθέσιμες κατηγορίες. Στη συνέχεια, η ερώτηση αλλά και η πληροφορία της ταξινόμησης φτάνουν στον Retriever ο οποίος ανατρέχει στη βάση και αναγνωρίζει ποια έγγραφα ανταποκρίνονται περισσότερο στην ερώτηση του χρήστη. Η αναζήτηση γίνεται μόνο στα έγγραφα που είναι της συγκεκριμένης κατηγορίας που ταξινομήθηκε η ερώτηση. Από τα πιο σχετικά έγγραφα ο Retriever επιστρέφει συγκεκριμένο αριθμό στον Reader. Αυτός με τη σειρά του “διαβάζει” το έγγραφο σε παράθυρα και επιστρέφει στην έξοδο την πιο πιθανή απάντηση.



    Το μοντέλο του Reader δέχεται ως είσοδο ένα συγκεκριμένο μήκος πρότασης. Σε περίπτωση που το κείμενο εισόδου στον Reader ξεπερνάει το μέγιστο μέγεθος εισόδου, τότε αυτό χωρίζεται σε κομμάτια με μέγιστο μέγεθος max_sec_len επικαλυπτόμενα μεταξύ τους κατά έναν αριθμό λέξεων, doc_stride. Στη συνέχεια, τα κομμάτια αυτά εισέρχονται με τη σειρά στον Reader ο οποίος επιστρέφει την απάντηση πίσω στο RASA. Η επικάλυψη των κομματιών είναι απαραίτητη ώστε να βεβαιωθεί ότι η απάντηση δεν χωρίστηκε ανάμεσα σε δύο κομμάτια.
  • Το πρώτο μοντέλο Retriever είναι το TF-IDF. Μέσω αυτής αποδίδεται ένα σκορ σε κάθε έγγραφο της βάσης δεδομένων για το πόσο σχετικό είναι το αντίστοιχο έγγραφο με την εισερχόμενη ερώτηση.
    Για κάθε λέξη της ερώτησης υπολογίζεται το γινόμενο του πλήθους εμφάνισης της λέξης σε κάθε έγγραφο και πολλαπλασιάζεται με την αντίστροφη συχνότητα εμφάνισης της λέξης στο σύνολο των εγγράφων, και στο τέλος αθροίζονται εξάγωντας έτσι ενα σκορ για την πρόταση για κάθε έγγραφο. Το έγγραφο που έχει το μεγαλύτερο σκορ είναι και αυτό που είναι το πιο σχετικό με την πρόταση.
    Παρά το γεγονός ότι η παραπάνω μέθοδος είναι αρκετά αποδοτική έχει δύο βασικά μειονεκτήματα όσο αυξάνεται η συχνότητα εμφάνισης της λέξης στο έγγραφο τόσο αυξάνεται και το σκορ της, χωρίς ωστόσο αυτό να σημαίνει ότι το συγκεκριμένο έγγραφο είναι πιο σχετικό με την αρχική πρόταση. Επιπλέον, η TF-IDF δεν λαμβάνει καθόλου υπόψη το μέγεθος του εγγράφου.
  • Το σκορ BM25 είναι μία παραλλαγή του TF-IDF που αναγνωρίζει τις αδυναμίες που αναφέρθηκαν παραπάνω και τις αντιμετωπίζει βασίζόμενο στην επιλογή δύο παραμέτρων. Εισάγει την παράμετρο k1 που είναι υπεύθυνη για τον κορεσμό της συχνότητας εμφάνισης της λέξης, σε περίπτωση που κάποιος όρος εμφανίζεται πολλές φορές στο αντίστοιχο έγγραφο. Πιο συγκεκριμένα, το σκορ αυξάνεται γρήγορα στις αρχικές εμφανίσεις της λέξης στο κείμενο και σταδιακά επηρεάζει λιγότερο την άνοδο του σκορ. Επιπλέον, εισάγει την παράμετρο b η οποία καθορίζει πόσο θα επηρεάζεται το σκορ από το μέγεθος του εγγράφου.
  • Η αναζήτηση του κατάλληλου μοντέλου reader ήταν δύσκολη καθώς δεν υπάρχουν πολλά μοντέλα ερώτησης απάντησης εκπαιδευμένα στην Ελληνική γλώσσα. Αρχικά μελετήθηκε η συμπεριφορά του πολυγλωσσικού μοντέλου xml-roberta-large που είναι finetuned στο SQuAD2 dataset. Επιπλέον, μελετήθηκε και η συμπεριφορά 5 άλλων μοντέλων τα οποία αποτελούν fine tuned εκδόσεις του Greek-Bert, και αναπτύχθηκαν παράλληλα με τη παρούσα διπλωματική εργασία σε άλλη διπλωματική εργασία συναδέλφου.
  • Για την αξιολόγηση των τμημάτων του συστήματος χρησιμοποιήθηκαν οι συνήθεις μετρικές αξιολόγησης, precision, recall και accuracy. Αρχικά για τα μοντέλα ταξινόμησης χρησιμοποιήθηκαν οι μετρικές precision και recall, από τις οποίες εξάγεται και το F1 score, που είναι ο αρμονικός μέσος των δύο προηγούμενων. Σε προβλήματα ταξινόμησης όπου οι κλάσεις είναι παραπάνω των δύο, όπως και στη παρούσα περίπτωση όπου το άρθρο μπορεί να ταξινομηθεί σε μία από έξι πιθανές κλάσεις, τότε οι μετρικές που παρουσιάστηκαν παραπάνω εξάγονται για κάθε κλάση ορίζοντας διαδοχικά τη μία κλάση ως θετική και τις άλλες ως αρνητική.
    Για τα μοντέλα του reader χρησιμοποιήθηκαν οι ίδιες μετρικές ωστόσο με μία παραλλαγή καθώς τώρα η απάντηση δεν είναι θετική η αρνητική κλάση αλλά μία ολόκληρη πρόταση. Το precision, λοιπόν, ορίζεται ως ο λόγος των κοινών λέξεων της προβλεπόμενης απάντησης με τη πραγματική, προς τον συνολικό αριθμό των λέξεων στην προβλεπόμενη απάντηση, ενώ το recall ορίζεται ως ο λόγος των κοινών λέξεων της προβλεπόμενης απάντησης με τη πραγματική, προς τον συνολικό αριθμό των λέξεων στην σωστή απάντηση. Επιπλέον, για την αξιολόγηση των reader χρησιμοποιήθηκε και η μετρική exact match, η οποία όπως δείχνει και το όνομα της αναφέρεται στην απόλυτη ταύτιση της προβλεπόμενης απάντησης με την πραγματική, και είναι μία εξαιρετικά αυστηρή μετρική για τα συστήματα ερώτησης απάντησης.
  • Παρατηρείται ότι και τα δύο μοντέλα ταξινόμησης, MLP και Greek-BERT, έχουν αρκετά καλά αποτελέσματα για όλες τις κλάσεις ταξινόμηση. Ωστόσο, το fine-tuning του greek-bert χρειάζεται αρκετά περισσότερο χρόνο για την εκπαίδευση του σε σχέση με το MLP. Παρόλα αυτά, το τελικό μοντέλο που επιλέγεται είναι αυτό του greek BERT διότι η τεχνολογία του με τα transformers επιτρέπει και τη νοηματική ”κατανόηση” της εισόδου σε αντίθεση με το MLP το οποίο χρησιμοποιεί τη μέθοδο TF-IDF.
    Για την ταξινόμηση των ερωτήσεων κατά την είσοδο τους στο QA σύστημα, εξαιτίας της έλλειψης συνόλου δεδομένων ερωτήσεων, δοκιμάστηκε η χρήση του ίδιου μοντέλου που χρησιμοποιήθηκε για την ταξινόμηση των άρθρων. Η κύρια ιδέα είναι πως το περιεχόμενο των ερωτήσεων θα είναι παρόμοιο με αυτό των άρθρων, επομένως το μοντέλο θα είναι σε θέση να τις ταξινομήσει σωστά. Ωστόσο, αυτό δεν ισχύει για όλες τις κατηγορίες. Για το λόγο αυτό στη τελική υλοποίηση ο ταξινομητής ερωτήσεων παραλείπεται από το συνολικό σύστημα και η ερώτηση περνάει κατευθείαν στον Retriever
  • Για την αξιολόγηση των μοντέλων των Retriever χρησιμοποιήθηκε η ακρίβεια επιστροφής σωστού εγγράφου σε ένα σύνολο από έγγραφα. Στο διάγραμμα παρουσιάζεται η ακρίβεια του κάθε αλγορίθμου να βρήκε το σωστό έγγραφο στο πρώτο άρθρο, στο πρώτο ή στο δεύτερο, στο πρώτο ή στο δεύτερο ή στο τρίτο και ούτο καθεξης μεχρι και τα δέκα έγγραφα. Παρατηρούμε επίσης ότι ο αλγόριθμος BM25 παρουσιάζει καλύτερα αποτελέσματα από το πρώτο κιόλας έγγραφο και για το λόγω αυτό και επιλέχθηκε για το τελικό σύστημα. Επιπλέον, ο αριθμός των εγγράφων που θα επιστρέφει ο Retriever είναι 3 καθώς μετά το τρίτο έγγραφο η απόδοση του αλγορίθμου δεν παρουσιάζει σημαντική βελτίωση.
  • Το μοντέλο με τη μεγαλύτερη απόδοση είναι το xlm-roberta-large-squad2 από την deepset το οποίο είναι εκπαιδευμένο στο SQuAD2 και χρησιμοποιείται με τη μέθοδο zero-shot, καθώς δεν είναι εκπαιδευμένο στα Ελληνικά. Επιπλέον, τα δύο ελληνικά μοντέλα squad_bert_el και qacombination_bert_el έχουν παρόμοια απόδοση αλλά το πρώτο είναι αυτό που επιλέχθηκε καθώς η ακρίβεια του μοντέλου είναι κύριας σημασίας για το σύστημα.
  • Η εκπαίδευση του ψηφιακού βοηθού με το RASA framework μπορεί να πραγματοποιηθεί ακόμη και με περιορισμένο σύνολο δεδομένων, και στη συνέχεια μπορεί να πραγματοποιείται επανεκπαίδευση του όσο το σύνολο δεδομένων μεγαλώνει. Το Greek BERT προτιμήθηκε για την ταξινόμηση των άρθρων, έναντι του MLP, κυρίως γιατί επιτυγχάνει νοηματική σύνδεση της κατηγορίας με το άρθρο, σε αντίθεση με το MLP του οποίου τα χαρακτηριστικά εξάγονται με τη μέθοδο TF-IDF.
    Επιπλέον, εξαιτίας του συνδυασμού πολλών τμημάτων για την υλοποίηση του συνολικού συστήματος, η συνολική απόδοση επηρεάζεται από το τμήμα με τη χαμηλότερη απόδοση. Ταυτόχρονα το πολυ γλωσσικό μοντέλο που χρησιμοποιήθηκε είχε ικανοποιητική απόδοση στα Ελληνικά και για αυτό και χρησιμοποιήθηκε.
  • Αρχικά ως πρώτη μελλοντική επέκταση μπορεί να μελετηθεί η υλοποίηση του συστήματος παροχής άρθρων και η έκθεση του συστήματος σε δοκιμαστικό κοινό. Παράλληλα, μέσω συλλογής ερωτήσεων από κοινό, θα μπορούσε να γίνει fine tuning του Greek BERT για την υλοποίηση ενός ταξινομητή ερωτημάτων. Το συνολικό σύστημα μπορεί να ενσωματωθεί σε γνωστές εφαρμογές συνομιλίας όπως το messenger, mattermost, discord, slack και άλλα. Τέλος, εξαιτίας της αρθρωτής δομής του συστήματος, κάθε ένα από τα τμήματα του μπορεί και θα πρέπει να βελτιώνεται συστηματικά καθώς με τη πάροδο του χρόνου θα αλλάζει η συμπεριφορά των χρηστών του συστήματος και έτσι θα πρέπει να αλλάζει και το ίδιο.
  • Video presentation of RASA-X
  • Στο σχήμα παρουσιάζονται τα βήματα επεξεργασίας της εισόδου του χρήστη, Αρχικά, η είσοδος παραδίδεται στο Duckling, το οποίο είναι υπεύθυνο για την εξαγωγή της οντότητας του χρόνου στην είσοδο του χρήστη, σε περίπτωση που ο χρήστης επιθυμεί απάντηση από μία συγκεκριμένη ημερομηνία και έπειτα. Στη συνέχεια η είσοδος περνά από τον whitespacetokenizer ο οποίος δημιουργεί μία διανυσματική αναπαράσταση της εισόδου του χρήστη, η παραγωγή token ανά λέξη, δηλαδή κάθε λέξη που χωρίζεται με κενό χαρακτήρα από τις υπόλοιπες αποτελεί ένα token. Από τα tokens που έχουν παραχθεί από τον Tokenizer ο CountVectorsFeaturizer παράγει χαρακτηριστικά (features) για την ταξινόμηση της επιθυμίας του χρήστη και την επιλογή της απάντησης του ψηφιακού βοηθού. Τα features παράγονται με την μέθοδο bag-of-words. Ο Dual Intent and Entity Transformer Classifier (DIETClassifier) χρησιμοποιείται για την εξαγωγή της επιθυμίας του χρήστη αλλά και την αναγνώριση οντοτήτων. Η αρχιτεκτονική του είναι βασισμένη στα transformers, και ουσιαστικά ταξινομεί την επιθυμία του χρήστη. Σε αυτό το στάδιο αποδίδεται ένα σκορ σε κάθε μία από της υποστηριζόμενες επιθυμίες του συστήματος. Σε περίπτωση που το σκορ είναι πιο χαμηλά από κάποιο κατώφλι (το κατώφλι τίθεται ως παράμετρος του συστήματος) ή η διαφορά των σκορ των δύο πιο πιθανών κατηγοριών είναι μικρότερη από ένα δεύτερο κατώφλι (και αυτό τίθεται ως παράμετρος του συστήματος) τότε ο fallback classifier θέτει την ταξινόμηση της επιθυμίας σε μία ειδική κατηγορία ταξινόμησης που σηματοδοτεί την αβεβαιότητα της πρόβλεψης. Στη περίπτωση αυτή, ο ψηφιακός βοηθός ζητά από το χρήστη να αναδιατυπώσει για την εκ νέου ταξινόμηση της επιθυμίας του. Η πληροφορία της ταξινόμησης αποστέλλεται μέσω REST API στον Action Server ο οποίος εκτελεί την αντίστοιχη λειτουργία στην επιθυμία του χρήστη.

×