Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος.pptx

Διπλωματική Εργασία
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης
κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων
ορισμένου θέματος
Φώλας Δεμίρης Δημήτριος
ΑΕΜ: 9415
Επιβλέποντες:
Συμεωνίδης Ανδρέας
Καθηγητής ΑΠΘ
Μάλαμας Νικόλας
Υποψήφιος Διδάκτωρ

24/01/2024
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για
αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος
2
Εισαγωγή – Περιγραφή του Προβλήματος & Σκοπός Εργασίας
Επισκόπηση Ερευνητικής Περιοχής
Καινοτόμος Ιδέα
Μεθοδολογία
Πειράματα – Αποτελέσματα
Συμπεράσματα
Μελλοντική Εργασία
Επίλογος

Σκοπός Διπλωματικής Εργασίας
24/01/2024
3
• Δημιουργία end-to-end συστήματος ερωτοαπαντήσεων (QA)
• Θεματική μοντελοποίηση & ταξινόμηση εγγράφων
• Δημιουργία domain specific QA συστημάτων
• Δυνατότητα εξατομίκευσης – παραμετροποίησης
• Αποκεντρωμένος Σχεδιασμός

Συστήματα Ερωτοαπαντήσεων – QA Systems (State of the Practice)
24/01/2024
4

Πηγή: https://www.elastic.co/what-is/vector-search
Σημασιολογική Αναζήτηση –
Semantic Search
24/01/2024
5
Κατανόηση Κειμένου – Reading
Comprehension
Πηγή: SQuAD Paper, Rajpurkar P. et. al

Περιορισμοί – Τρέχουσας Υλοποίησης
• Ανοργάνωτα & Αταξινόμητα Δεδομένα
• Μοναδικό & Ενιαίο Σύστημα
• Κεντρικός Σχεδιασμός
• Χαμηλός Βαθμός Εξατομίκευσης & Παραμετροποίησης
24/01/2024
6

• Αυτοματοποιημένη θεματική ταξινόμηση εγγράφων
• Ιεραρχική ομαδοποίηση & ταξινόμηση μέσω
θεματολογιών ορισμένων από τον χρήστη
• Σημασιολογικά σημαντικές λέξεις ανά θεματολογία
• Εξατομικευμένη δημιουργία αυτόνομων επιμέρους
συστημάτων QA ορισμένου θέματος
• Αποκεντρωμένη λειτουργία πλήρους συστήματος
24/01/2024
7

• Χρήση Transformer based μοντέλων (BERT)
• Διανυσματική Αναπαράσταση Κειμένων – Text Embeddings
• Topic Modelling - BERTopic
• c-TF-IDF
24/01/2024
8
Πηγή: Attention is All You Need
Πηγή: https://txt.cohere.com/text-embeddings/

Βασικά Εργαλεία
• Hugging-Face (Embeddings & DL Approach)
• BERTopic (Topic Modelling & Hierarchical Clustering)
• Haystack (QA Systems)
• FastAPI (Decentralized Approach)
24/01/2024
9

Προ-επεξεργασία Κειμένου – Text Cleaning
• Tokenization
• Stop-words
• Σημεία στίξης
• Λημματοποίηση (Lemmatization) – Στελεχοποίηση (Stemming)
24/01/2024
10

Διανυσματική Αναπαράσταση Κειμένων – Embedding Calculation
• Μοντέλα από την βιβλιοθήκη sentence-transformers
Μοντέλα προτεινόμενα από την βιβλιογραφία:
• MiniLM L6 v2 (22M)
• DistilRoBERTa v2 (82M)
• MPNET Base v2 (109M)
• GTR T5 Base (220M)
24/01/2024
11
Πηγή: BERTopic Github

Θεματική Μοντελοποίηση – Topic Modelling
BERTopic:
• Dimensionality Reduction – UMAP
• Document Clustering – HDBSCAN & kMeans, Δημιουργία ομάδων εγγράφων
• Vectorizers – CountVectorizer
• c-TF-IDF – Παραγωγή λίστας πιο σημαντικών λέξεων ανά θεματική ομάδα εγγράφων
Μεθοδολογία – Ιεραρχική Ομαδοποίηση
24/01/2024
12

Θεματική Ταξινόμηση – Topic
Classification
• Παραγμένες λίστες των πιο σημαντικών λέξεων ανά
θέμα του BERTopic
• Ταξινόμηση κάθε λίστας με Zero-Shot Classification
στις ετικέτες θεματολογίας του χρήστη
• Κάθε έγγραφο βάσει του μείζονος θέματος από το
BERTopic
Μεθοδολογία – Ιεραρχική Ομαδοποίηση
24/01/2024
13

Υποσύστημα Ερωτοαπαντήσεων -
QA
Βασικός Κόμβος – Master Node:
• Υπεύθυνος για την δημιουργία επιμέρους συστημάτων
ως ξεχωριστές διεργασίες
• Ταξινόμηση ερωτήσεων από χρήστη
• Επικοινωνία με επιμέρους συστήματα
• Αποκεντρωμένη λειτουργία
Μεθοδολογία – Decentralized Approach
24/01/2024
14

Δημιουργία υποσυστήματος ερωτοαπαντήσεων –
QA
• Αυτοματοποιημένη δημιουργία YAML configuration file από το σύστημα
• Περιθώριο παραμετροποίησης και εξατομίκευσης από τον χρήστη
(personalization)
Μεθοδολογία – Domain-specific QA Systems
24/01/2024
15

Σχηματική Ροή του Συστήματος
• Συνδυασμός των 2 υποσυστημάτων,
ταξινόμησης και ερωτοαπαντήσεων.
24/01/2024
16

Σύνολο Δεδομένων – Dataset
BBC News Archive Dataset
• 2225 αρχεία του BBC News από το 2004-05
• Labelled Data (5 classes: Business, Entertainment, Politics, Sport, Tech)
Πειράματα - Αποτελέσματα
24/01/2024
17

Μοντέλα sentence-transformers:
• DistilRoBERTa v2 (82M)
• MPNET Base v2 (109M)
• GTR T5 Base (220M)
Δοκιμή διαφόρων ευρών n-grams και διαφόρων μηκών λίστας top N words, πιο σημαντικών λέξεων ανά
class, κατά την δημιουργία των topic models.
Αξιολογείται η ευστοχία ταξινόμησης εγγράφων
24/01/2024
18
Μοντέλο Zero Shot Classification:
• facebook/bart-large-mnli

Είδη Κόμβων Συστημάτων QA:
• InMemory DocumentStore
• Embedding Retriever
• FARM Reader
Μοντέλα Query Classifier:
• facebook/bart-large-mnli
• cross-encoder/deberta-base
24/01/2024
19
Μοντέλο Reader:
• deepset/tinyroberta-squad

Αξιολόγηση Ταξινόμησης Εγγράφων
24/01/2024
20
MiniLM L12 v2 (33M) MiniLM L6 v2 (22M) DistilRoBERTa v2 (82M) MPNET Base v2 (109M) GTR T5 Base (220M)
Document
Classification
Accuracy
0.8
0.96
Document Classification using Different Models

24/01/2024
21
• Αξιολόγηση ευστοχίας διαφόρων
συνδυασμών παραμέτρων, μοντέλων και
αλγορίθμων
• HDBSCAN & kMeans
• Διαφορετικά εύρη n-grams

24/01/2024
22
• Αξιολόγηση ευστοχίας διαφόρων
συνδυασμών παραμέτρων, μοντέλων και
αλγορίθμων
kMeans w/ 5 clusters
kMeans w/ 20 clusters

Αξιολόγηση Συστήματος Ερωτοαπαντήσεων
Αξιολόγηση Ταξινομητή Ερωτήσεων
• Είδη ερωτήσεων:
(α) Χειρόγραφες ερωτήσεις, πάνω στο dataset (50)
(β) Αυτόματα παρηγμένες, γενικές και σχετικές θεματολογίες (50)
(γ) Αυτόματα παρηγμένες, πάνω στο συγκεκριμένο dataset (200)
24/01/2024
23

Αξιολόγηση Συστήματος Ερωτοαπαντήσεων
Αξιολόγηση χρόνου εκτέλεσης
24/01/2024
24

Επίδειξη Λειτουργίας του Συστήματος
24/01/2024
25
Rest API Endpoints

Απάντηση ερωτήσεων από το Σύστημα
Επίδειξη Λειτουργίας του Συστήματος
24/01/2024
26

• Επιχειρήθηκε και επετεύχθη η δημιουργία ενός πλήρους συστήματος ιεραρχικής
ομαδοποίησης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου
θέματος και υπάρχει
• Εύστοχη διαχείριση και ταξινόμηση εγγράφων
• Αντίστοιχη ευστοχία απάντησης
• Ταχύτερες επιδόσεις σε περίπτωση ορθής και εύστοχης λειτουργίας
Συμπεράσματα
24/01/2024
27

• Βελτιστοποίηση διεργασιών – fine-tuning μοντέλων
• Εξερεύνηση δυνατοτήτων και προνομίων εξατομίκευσης – personalization
• Ευρύτερη παραλληλοποίηση διεργασιών για περαιτέρω κέρδη σε χρόνο εκτέλεσης
• Υλοποίηση μηχανισμού μνήμης ερωτήσεων
• Προσθήκη γραφικής διεπαφής
• Διαδικτυακή/Containerized υλοποίηση & τοπικό hosting
• Προσθήκη παραγωγικού χαρακτήρα απάντησης – retrieval augmented generation (RAG)
Μελλοντική Εργασία
24/01/2024
28

Ευχαριστώ τον καθηγητή κ. Ανδρέα Συμεωνίδη για την
εμπιστοσύνη και υποστήριξη κατά τη διάρκεια της εργασίας.
Ευχαριστώ θερμά τον Υπ. Δρ. Νικόλα Μάλαμα για την συνεχή
βοήθεια, έμπνευση και καθοδήγησή του.
Επίλογος
24/01/2024
29

Ερωτήσεις
Ευχαριστώ πολύ για την προσοχή και το χρόνο σας!
24/01/2024
30

Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος.pptx

Recommended

Recommended

More Related Content

Similar to Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος.pptx

Similar to Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος.pptx (20)

More from ISSEL

More from ISSEL (20)

Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκεντρωμένα συστήματα ερωτοαπαντήσεων ορισμένου θέματος.pptx

Editor's Notes