1. Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση
πιθανοτικών μοντέλων θεμάτων
Επιβλέπων
Ανδρέας Συμεωνίδης
Επίκουρος Καθηγητής
Επιβλέπων
Θεμιστοκλής Μαυρίδης
Υποψήφιος Διδάκτωρ
Αντωνιάδης Ιωάννης
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Τομέας Ηλεκτρονικής και Υπολογιστών
Εργαστήριο Επεξεργασίας Πληροφοριών και Υπολογισμών
1
2. Περιεχόμενα
• Ορισμός του προβλήματος
• Στόχος της διπλωματικής
• Παρουσίαση του συστήματος
• Πειράματα και αξιολόγηση
2
4. Μηχανές αναζήτησης
Search Engines
4
• Μειονεκτήματα
– Εξάρτηση από τη σύνταξη του
ερωτήματος
– Μη επιθυμητά αποτελέσματα
– Σύνδεσμοι αντί απαντήσεων
– Δε λαμβάνουν υπόψη τους το
σημασιολογικό περιεχόμενο
5. Συστήματα ερωταπαντήσεων
Question Answering Systems
• Ακριβείς απαντήσεις
– What is the capital of Greece? – Athens
– What is the capital of Greece? – Athens, the capital city of Greece, is one of the great
cities of the world and it is known as the cradle of western civilization and the birthplace
of democracy.
• Αναζήτηση σε μεγάλες συλλογές εγγράφων
• Εξαγωγή σημασιολογικών νοημάτων και συσχετίσεων
• Τεχνικές επεξεργασίας φυσικής γλώσσας
– Γλωσσολογικές (Linguistic)
– Στατιστικές (Statistical)
5
7. Στόχος της διπλωματικής
• Υλοποίηση μηχανισμού ερωταπαντήσεων με χρήση
– Του μοντέλου LDA
– Αλληλεπίδρασης με τον χρήστη
• Υλοποίηση μηχανισμού ερωταπαντήσεων με σκοπό
– Τη βελτίωση της ποιότητας αναζήτησης
– Την εκμετάλλευση της θεματικής πληροφορίας
– Τον επανακαθορισμό του ερωτήματος χρήστη
– Την επιστροφή τμημάτων κειμένου ως τελική απάντηση
7
13. Δομή του συστήματος
• Elasticsearch
– Αποθήκευση
– Αναζήτηση
– Ανάλυση
– Υπολογισμός στατιστικών
– JSON documents
– near realtime
• Offline τμήμα
– Αναζήτηση εγγράφων
– Πλήρωση της αποθήκης εγγράφων
• Online τμήμα
– Θεματική ανάλυση
– Αλληλεπίδραση με τον χρήστη
– Ταξινόμηση
13
14. • Αναζήτηση διαδικτυακών
εγγράφων
• Εξαγωγή κειμένου
• Γλωσσολογική ανάλυση
• Αποθήκευση πληροφορίας
– Σε επίπεδο εγγράφων
– Σε επίπεδο
παραγράφων
14
Offline
15. Online
1 – Δημιουργία θεμάτων σε επίπεδο εγγράφων
15
• Εισαγωγή ερωτήματος
• Αναζήτηση εγγράφων
• Επιλογή των 𝐷 πρώτων
• Θεματική ανάλυση με τον LDA
• Παραγωγή 𝐾 𝑑 θεμάτων
D = 50
𝐾 𝑑 = 30
16. Online
2 – Ταξινόμηση θεμάτων σε επίπεδο εγγράφων
16
• Ταξινόμηση ενός θέματος 𝑘 με βάση το
ερώτημα 𝑞:
• Παράδειγμα
𝑞 = “Dog or cat for pet?”
17. Online
3 – Ταξινόμηση εγγράφων
17
• Επιλογή 𝑘 ≤ 𝑘 𝑑 θεμάτων από τον χρήστη
• Ταξινόμηση των 𝐷 εγγράφων με βάση τα 𝑘 θέματα:
• Παράδειγμα
Για μια επιλογή θεμάτων 𝑘 = {1, 4, 6}
18. Online
4 – Δημιουργία θεμάτων σε επίπεδο παραγράφων
• Επιλογή των top-𝑑 εγγράφων από τη διαδικασία ταξινόμησης
• Εξαγωγή των παραγράφων, P
• Θεματική ανάλυση με τον LDA
• Παραγωγή 𝐾 𝑝 θεμάτων
18
𝑑 = 10
𝐾 𝑝 = 50
19. Online
5 – Ταξινόμηση θεμάτων σε επίπεδο παραγράφων
• Με βάση τις top-words των k θεμάτων του προηγούμενου βήματος
• Παράδειγμα: 𝑠𝑐𝑜𝑟𝑒(𝑘) = 𝑤 𝑑𝑜𝑔 + 𝑤 𝑝𝑒𝑡 = 0.07 + 0.03 = 0.1
19
Document-level topic chosen by user Paragraph-level topic k to be ranked
20. Online
6 – Ταξινόμηση παραγράφων
20
• Επιλογή 𝑘′ θεμάτων από τον χρήστη
• Ταξινόμηση 𝑃 παραγράφων με βάση τα 𝑘′ θέματα
• Επιλογή top-𝑝 παραγράφων και αποστολή στον χρήστη
𝑝 = 5