Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεωνμε χρήση
πιθανοτικών μοντέλων θεμάτων
Επιβλέπων
Ανδρέας Συμεωνίδης
Επίκουρος Καθηγητής
Επιβλέπων
Θεμιστοκλής Μαυρίδης
Υποψήφιος Διδάκτωρ
Αντωνιάδης Ιωάννης
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Τομέας Ηλεκτρονικής και Υπολογιστών
Εργαστήριο Επεξεργασίας Πληροφοριών και Υπολογισμών
1
2.
Περιεχόμενα
• Ορισμός τουπροβλήματος
• Στόχος της διπλωματικής
• Παρουσίαση του συστήματος
• Πειράματα και αξιολόγηση
2
Μηχανές αναζήτησης
Search Engines
4
•Μειονεκτήματα
– Εξάρτηση από τη σύνταξη του
ερωτήματος
– Μη επιθυμητά αποτελέσματα
– Σύνδεσμοι αντί απαντήσεων
– Δε λαμβάνουν υπόψη τους το
σημασιολογικό περιεχόμενο
5.
Συστήματα ερωταπαντήσεων
Question AnsweringSystems
• Ακριβείς απαντήσεις
– What is the capital of Greece? – Athens
– What is the capital of Greece? – Athens, the capital city of Greece, is one of the great
cities of the world and it is known as the cradle of western civilization and the birthplace
of democracy.
• Αναζήτηση σε μεγάλες συλλογές εγγράφων
• Εξαγωγή σημασιολογικών νοημάτων και συσχετίσεων
• Τεχνικές επεξεργασίας φυσικής γλώσσας
– Γλωσσολογικές (Linguistic)
– Στατιστικές (Statistical)
5
Στόχος της διπλωματικής
•Υλοποίηση μηχανισμού ερωταπαντήσεων με χρήση
– Του μοντέλου LDA
– Αλληλεπίδρασης με τον χρήστη
• Υλοποίηση μηχανισμού ερωταπαντήσεων με σκοπό
– Τη βελτίωση της ποιότητας αναζήτησης
– Την εκμετάλλευση της θεματικής πληροφορίας
– Τον επανακαθορισμό του ερωτήματος χρήστη
– Την επιστροφή τμημάτων κειμένου ως τελική απάντηση
7
Δομή του συστήματος
•Elasticsearch
– Αποθήκευση
– Αναζήτηση
– Ανάλυση
– Υπολογισμός στατιστικών
– JSON documents
– near realtime
• Offline τμήμα
– Αναζήτηση εγγράφων
– Πλήρωση της αποθήκης εγγράφων
• Online τμήμα
– Θεματική ανάλυση
– Αλληλεπίδραση με τον χρήστη
– Ταξινόμηση
13
14.
• Αναζήτηση διαδικτυακών
εγγράφων
•Εξαγωγή κειμένου
• Γλωσσολογική ανάλυση
• Αποθήκευση πληροφορίας
– Σε επίπεδο εγγράφων
– Σε επίπεδο
παραγράφων
14
Offline
15.
Online
1 – Δημιουργίαθεμάτων σε επίπεδο εγγράφων
15
• Εισαγωγή ερωτήματος
• Αναζήτηση εγγράφων
• Επιλογή των 𝐷 πρώτων
• Θεματική ανάλυση με τον LDA
• Παραγωγή 𝐾 𝑑 θεμάτων
D = 50
𝐾 𝑑 = 30
16.
Online
2 – Ταξινόμησηθεμάτων σε επίπεδο εγγράφων
16
• Ταξινόμηση ενός θέματος 𝑘 με βάση το
ερώτημα 𝑞:
• Παράδειγμα
𝑞 = “Dog or cat for pet?”
17.
Online
3 – Ταξινόμησηεγγράφων
17
• Επιλογή 𝑘 ≤ 𝑘 𝑑 θεμάτων από τον χρήστη
• Ταξινόμηση των 𝐷 εγγράφων με βάση τα 𝑘 θέματα:
• Παράδειγμα
Για μια επιλογή θεμάτων 𝑘 = {1, 4, 6}
18.
Online
4 – Δημιουργίαθεμάτων σε επίπεδο παραγράφων
• Επιλογή των top-𝑑 εγγράφων από τη διαδικασία ταξινόμησης
• Εξαγωγή των παραγράφων, P
• Θεματική ανάλυση με τον LDA
• Παραγωγή 𝐾 𝑝 θεμάτων
18
𝑑 = 10
𝐾 𝑝 = 50
19.
Online
5 – Ταξινόμησηθεμάτων σε επίπεδο παραγράφων
• Με βάση τις top-words των k θεμάτων του προηγούμενου βήματος
• Παράδειγμα: 𝑠𝑐𝑜𝑟𝑒(𝑘) = 𝑤 𝑑𝑜𝑔 + 𝑤 𝑝𝑒𝑡 = 0.07 + 0.03 = 0.1
19
Document-level topic chosen by user Paragraph-level topic k to be ranked
20.
Online
6 – Ταξινόμησηπαραγράφων
20
• Επιλογή 𝑘′ θεμάτων από τον χρήστη
• Ταξινόμηση 𝑃 παραγράφων με βάση τα 𝑘′ θέματα
• Επιλογή top-𝑝 παραγράφων και αποστολή στον χρήστη
𝑝 = 5