Η ανάκτηση πληροφορίας ανέκαθεν ήταν μια πλέον σημαντική πτυχή κάθε διεργασίας και δεδομένης της ταχείας αύξησης της απαίτησης γρήγορης και εύστοχης παροχής και ανάκτησης πληροφοριών, δεν είναι τίποτα παρά φυσικό να γίνεται συλλογική προσπάθεια προς την βελτιστοποίηση αυτής της διαδικασίας με οποιαδήποτε μέσα είναι διαθέσιμα, όπως η Τεχνητή Νοημοσύνη. Με αυτό τον τρόπο θα μπορεί ένας υπολογιστής να “εκπαιδευτεί” και να βοηθάει στο έργο αυτό, αντί να είναι μονάχα ένα εργαλείο για μαθηματικά πιθανοτήτων και στατιστική. Σε μία εποχή όπου τα πάντα είναι καθοδηγούμενα από την πληροφορία και τα δεδομένα, η ανάγκη για δομημένα δεδομένα και ορθή ανάκτηση πληροφορίας είναι τουλάχιστον επιτακτική. Η δομή και η οργάνωση στα δεδομένα διευκολύνει την λήψη αποφάσεων και μέσω αυτού επιβεβαιώνεται πάντα η σημασία και η συνεισφορά της τεχνητής νοημοσύνης και των μοντέλων μηχανικής μάθησης. Η εφαρμογή και η υλοποίηση μεθόδων και τεχνικών βαθιάς μάθησης μπορεί σταδιακά μπορεί να βοηθήσει στην απαλλαγή μας από την εξάρτηση από λέξεις κλειδιά και να οδεύσουμε προς την διδασκαλία της σημασιολογικής κατανόησης της φυσικής γλώσσας από τους υπολογιστές. Σε αυτό μπορεί να συνεισφέρει εν μέρει από ένα πλήρως αυτόνομο σύστημα ικανό να οργανώνει, να διαχειρίζεται και να ταξινομεί έγγραφα σημασιολογικά, με ελάχιστη εκπαίδευση. Η αξιοποίηση των δυνατοτήτων και της πολυχρηστικότητας της μάθησης και ταξινόμησης μηδενικών και λίγων βολών, καθώς και των σύγχρονων τεχνικών θεματικής μοντελοποίησης, μπορεί κανείς να αναπτύξει μια εφαρμογή που ως είσοδο λαμβάνει ακατέργαστα μη επισημειωμένα ή επεξεργασμένα δεδομένα και να επιστρέφει μια πλήρως λειτουργική εφαρμογή ερωτοαπαντήσεων. Στην προσπάθεια μεγιστοποίησης της πολυχρηστικότητας του εν λόγω συστήματος, η παρούσα διπλωματική εργασία ερευνεί και αξιολογεί την βιωσιμότητα ενός συστήματος τέτοιας φύσεως. Δεδομένου ότι ο τελικός σκοπός είναι η δομημένη πληροφορία και η αποτελεσματική ανάκτηση της, θα εξεταστεί η υπόθεση της αποκεντρωμένης προσέγγισης, καθώς μειώνονται σημαντικά οι απαιτήσεις υπολογιστικής ισχύος και αποθηκευτικού χώρου. Μέσω δοκιμών και πειραμάτων τα παραγόμενα δεδομένα φαίνεται να υποστηρίζουν την υπόθεση υπέρ ενός τέτοιου συστήματος, και δυνητικά με διάφορα πλεονεκτήματα υπέρ ενός αντίστοιχου αλλά ενιαίου συστήματος.
SoDaNet in Action: Τεκμηρίωση data – projects στο DataverseNikosKlironomos1
Similar to Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος.pptx (20)
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος.pptx
1. Διπλωματική Εργασία
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης
κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων
ορισμένου θέματος
Φώλας Δεμίρης Δημήτριος
ΑΕΜ: 9415
Επιβλέποντες:
Συμεωνίδης Ανδρέας
Καθηγητής ΑΠΘ
Μάλαμας Νικόλας
Υποψήφιος Διδάκτωρ
2. 24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
2
Εισαγωγή – Περιγραφή του Προβλήματος & Σκοπός Εργασίας
Επισκόπηση Ερευνητικής Περιοχής
Καινοτόμος Ιδέα
Μεθοδολογία
Πειράματα – Αποτελέσματα
Συμπεράσματα
Μελλοντική Εργασία
Επίλογος
3. Σκοπός Διπλωματικής Εργασίας
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
3
• Δημιουργία end-to-end συστήματος ερωτοαπαντήσεων (QA)
• Θεματική μοντελοποίηση & ταξινόμηση εγγράφων
• Δημιουργία domain specific QA συστημάτων
• Δυνατότητα εξατομίκευσης – παραμετροποίησης
• Αποκεντρωμένος Σχεδιασμός
4. Συστήματα Ερωτοαπαντήσεων – QA Systems (State of the Practice)
Επισκόπηση Ερευνητικής Περιοχής
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
4
5. Πηγή: https://www.elastic.co/what-is/vector-search
Σημασιολογική Αναζήτηση –
Semantic Search
Επισκόπηση Ερευνητικής Περιοχής
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
5
Κατανόηση Κειμένου – Reading
Comprehension
Πηγή: SQuAD Paper, Rajpurkar P. et. al
6. Περιορισμοί – Τρέχουσας Υλοποίησης
• Ανοργάνωτα & Αταξινόμητα Δεδομένα
• Μοναδικό & Ενιαίο Σύστημα
• Κεντρικός Σχεδιασμός
• Χαμηλός Βαθμός Εξατομίκευσης & Παραμετροποίησης
Επισκόπηση Ερευνητικής Περιοχής
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
6
7. • Αυτοματοποιημένη θεματική ταξινόμηση εγγράφων
• Ιεραρχική ομαδοποίηση & ταξινόμηση μέσω
θεματολογιών ορισμένων από τον χρήστη
• Σημασιολογικά σημαντικές λέξεις ανά θεματολογία
• Εξατομικευμένη δημιουργία αυτόνομων επιμέρους
συστημάτων QA ορισμένου θέματος
• Αποκεντρωμένη λειτουργία πλήρους συστήματος
Καινοτόμος Ιδέα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
7
8. • Χρήση Transformer based μοντέλων (BERT)
• Διανυσματική Αναπαράσταση Κειμένων – Text Embeddings
• Topic Modelling - BERTopic
• c-TF-IDF
Καινοτόμος Ιδέα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
8
Πηγή: Attention is All You Need
Πηγή: https://txt.cohere.com/text-embeddings/
10. Προ-επεξεργασία Κειμένου – Text Cleaning
• Tokenization
• Stop-words
• Σημεία στίξης
• Λημματοποίηση (Lemmatization) – Στελεχοποίηση (Stemming)
Μεθοδολογία
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
10
11. Διανυσματική Αναπαράσταση Κειμένων – Embedding Calculation
• Μοντέλα από την βιβλιοθήκη sentence-transformers
Μοντέλα προτεινόμενα από την βιβλιογραφία:
• MiniLM L6 v2 (22M)
• MiniLM L12 v2 (33M)
• DistilRoBERTa v2 (82M)
• MPNET Base v2 (109M)
• GTR T5 Base (220M)
Μεθοδολογία
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
11
Πηγή: BERTopic Github
12. Θεματική Μοντελοποίηση – Topic Modelling
BERTopic:
• Dimensionality Reduction – UMAP
• Document Clustering – HDBSCAN & kMeans, Δημιουργία ομάδων εγγράφων
• Vectorizers – CountVectorizer
• c-TF-IDF – Παραγωγή λίστας πιο σημαντικών λέξεων ανά θεματική ομάδα εγγράφων
Μεθοδολογία – Ιεραρχική Ομαδοποίηση
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
12
13. Θεματική Ταξινόμηση – Topic
Classification
• Παραγμένες λίστες των πιο σημαντικών λέξεων ανά
θέμα του BERTopic
• Ταξινόμηση κάθε λίστας με Zero-Shot Classification
στις ετικέτες θεματολογίας του χρήστη
• Κάθε έγγραφο βάσει του μείζονος θέματος από το
BERTopic
Μεθοδολογία – Ιεραρχική Ομαδοποίηση
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
13
14. Υποσύστημα Ερωτοαπαντήσεων -
QA
Βασικός Κόμβος – Master Node:
• Υπεύθυνος για την δημιουργία επιμέρους συστημάτων
ως ξεχωριστές διεργασίες
• Ταξινόμηση ερωτήσεων από χρήστη
• Επικοινωνία με επιμέρους συστήματα
• Αποκεντρωμένη λειτουργία
Μεθοδολογία – Decentralized Approach
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
14
15. Δημιουργία υποσυστήματος ερωτοαπαντήσεων –
QA
• Αυτοματοποιημένη δημιουργία YAML configuration file από το σύστημα
• Περιθώριο παραμετροποίησης και εξατομίκευσης από τον χρήστη
(personalization)
Μεθοδολογία – Domain-specific QA Systems
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
15
16. Σχηματική Ροή του Συστήματος
• Συνδυασμός των 2 υποσυστημάτων,
ταξινόμησης και ερωτοαπαντήσεων.
Μεθοδολογία
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
16
17. Σύνολο Δεδομένων – Dataset
BBC News Archive Dataset
• 2225 αρχεία του BBC News από το 2004-05
• Labelled Data (5 classes: Business, Entertainment, Politics, Sport, Tech)
Πειράματα - Αποτελέσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
17
18. Μοντέλα sentence-transformers:
• MiniLM L6 v2 (22M)
• MiniLM L12 v2 (33M)
• DistilRoBERTa v2 (82M)
• MPNET Base v2 (109M)
• GTR T5 Base (220M)
Δοκιμή διαφόρων ευρών n-grams και διαφόρων μηκών λίστας top N words, πιο σημαντικών λέξεων ανά
class, κατά την δημιουργία των topic models.
Αξιολογείται η ευστοχία ταξινόμησης εγγράφων
Πειράματα - Αποτελέσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
18
Μοντέλο Zero Shot Classification:
• facebook/bart-large-mnli
20. Αξιολόγηση Ταξινόμησης Εγγράφων
Πειράματα – Αποτελέσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
20
MiniLM L12 v2 (33M) MiniLM L6 v2 (22M) DistilRoBERTa v2 (82M) MPNET Base v2 (109M) GTR T5 Base (220M)
Document
Classification
Accuracy
0.8
0.96
Document Classification using Different Models
21. Αξιολόγηση Ταξινόμησης Εγγράφων
Πειράματα – Αποτελέσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
21
• Αξιολόγηση ευστοχίας διαφόρων
συνδυασμών παραμέτρων, μοντέλων και
αλγορίθμων
• HDBSCAN & kMeans
• Διαφορετικά εύρη n-grams
22. Αξιολόγηση Ταξινόμησης Εγγράφων
Πειράματα – Αποτελέσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
22
• Αξιολόγηση ευστοχίας διαφόρων
συνδυασμών παραμέτρων, μοντέλων και
αλγορίθμων
kMeans w/ 5 clusters
kMeans w/ 20 clusters
23. Αξιολόγηση Συστήματος Ερωτοαπαντήσεων
Αξιολόγηση Ταξινομητή Ερωτήσεων
• Είδη ερωτήσεων:
(α) Χειρόγραφες ερωτήσεις, πάνω στο dataset (50)
(β) Αυτόματα παρηγμένες, γενικές και σχετικές θεματολογίες (50)
(γ) Αυτόματα παρηγμένες, πάνω στο συγκεκριμένο dataset (200)
Πειράματα – Αποτελέσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
23
24. Αξιολόγηση Συστήματος Ερωτοαπαντήσεων
Αξιολόγηση χρόνου εκτέλεσης
Πειράματα – Αποτελέσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
24
25. Επίδειξη Λειτουργίας του Συστήματος
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
25
Rest API Endpoints
26. Απάντηση ερωτήσεων από το Σύστημα
Επίδειξη Λειτουργίας του Συστήματος
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
26
27. • Επιχειρήθηκε και επετεύχθη η δημιουργία ενός πλήρους συστήματος ιεραρχικής
ομαδοποίησης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου
θέματος και υπάρχει
• Εύστοχη διαχείριση και ταξινόμηση εγγράφων
• Αντίστοιχη ευστοχία απάντησης
• Ταχύτερες επιδόσεις σε περίπτωση ορθής και εύστοχης λειτουργίας
Συμπεράσματα
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
27
28. • Βελτιστοποίηση διεργασιών – fine-tuning μοντέλων
• Εξερεύνηση δυνατοτήτων και προνομίων εξατομίκευσης – personalization
• Ευρύτερη παραλληλοποίηση διεργασιών για περαιτέρω κέρδη σε χρόνο εκτέλεσης
• Υλοποίηση μηχανισμού μνήμης ερωτήσεων
• Προσθήκη γραφικής διεπαφής
• Διαδικτυακή/Containerized υλοποίηση & τοπικό hosting
• Προσθήκη παραγωγικού χαρακτήρα απάντησης – retrieval augmented generation (RAG)
Μελλοντική Εργασία
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
28
29. Ευχαριστώ τον καθηγητή κ. Ανδρέα Συμεωνίδη για την
εμπιστοσύνη και υποστήριξη κατά τη διάρκεια της εργασίας.
Ευχαριστώ θερμά τον Υπ. Δρ. Νικόλα Μάλαμα για την συνεχή
βοήθεια, έμπνευση και καθοδήγησή του.
Επίλογος
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
29
30. Ερωτήσεις
Ευχαριστώ πολύ για την προσοχή και το χρόνο σας!
24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
30
Editor's Notes
Είσοδος: έγγραφα & θεματολογίες
Έξοδος: Domain specific QAs
Αντί για keyword search και keyword matching.
Διανυσματικές αναπαραστάσεις ερώτησης/αναζήτησης και κειμένου για σημασιολογικά πλησιέστερα.
Retriever.
SQuAD Dataset – Ζεύγη ερώτηση-απάντηση, Εξειδικευμένο στην εύρεση απαντήσεων εντός κειμένων.
Ιεραρχική ομαδοποίηση και ταξινόμηση και δημιουργία αυτόνομων αποκεντρωμένων QA sys. βάσει των θεμάτων ή υποθεμάτων.
Ποια και πόσα και ποιοι συνδυασμοί
Εν γένει advantages των decentralized systems
Αποκεντρωμένη λειτουργία.
Ιεραρχική ομαδοποίηση και ταξινόμηση και δημιουργία αυτόνομων αποκεντρωμένων QA sys. βάσει των θεμάτων ή υποθεμάτων.
Ποια και πόσα και ποιοι συνδυασμοί
Εν γένει advantages των decentralized systems
Αποκεντρωμένη λειτουργία.
Text Classification & Sentence Similarity
Distilled Learning
Εντοπίζει λανθάνουσες και προφανείς θεματολογίες σε dataset και ομαδοποιεί τα εγγραφα.
Για κάθε ομάδα εγγράφων με τον c-TF-IDF παράγεται μια λίστα με τις πιο σημαντικές λέξεις, αυτές που βέλτιστα περιγράφουν το θεματικό περιεχόμενό της.
Σε κάθε εγγραφο βάρος για κάθε ομάδα – παρηγμένο θέμα.
BERTopic -> λίστα με πιο σημαντικές λέξεις για κάθε θέμα
Default, αλλά χωρίς embeddings και με διαφορές στα:
clustering algos -> τρόπος με τον οποίο δημιουργούνται τα θέματα/ομάδες εγγράφων
c-tf-idf -> Πώς δημιουργείται η λίστα των πιο σηματνικών λέξεων
Μεγάλου μήκους – Αντιπροσωπευτικό real world challenge για τον μηχανισμό ταξινόμησης
Default μοντέλα χωρίς fine tuning
Default μοντέλα χωρίς fine tuning
Καλύτερες επιδόσεις ταξινόμησης – μεγαλύτερη συμβατότητα. (Χωρίς training και fine-tuning των μοντέλων)
Πώς επηρεάζεται η ταξινόμηση της κάθε κλάσης ξεχωριστά από τους διάφορους συνδυασμούς παραμέτρων, με class-based F1 score.
Συνολικό Classification Accuracy: Τομή των 2 classification accuracies
Χωρίς έμφαση στην θεματολογία
Γενικές ερωτήσεις πάλι χωρίς έμφαση στην θεματολογία
Προτεινόμενες – ‘Ιδανικές’ ερωτήσεις
Divide and Conquer Approach, σε περίπτωση σφάλματος στην ταξινόμηση η ποινή δεν είναι απαγορευτική