Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση
πιθανοτικών μοντέλων θεμάτων
Επιβλέπων
Ανδρέας Συμεωνίδης
Επίκουρος Καθηγητής
Επιβλέπων
Θεμιστοκλής Μαυρίδης
Υποψήφιος Διδάκτωρ
Αντωνιάδης Ιωάννης
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Τομέας Ηλεκτρονικής και Υπολογιστών
Εργαστήριο Επεξεργασίας Πληροφοριών και Υπολογισμών
1
Περιεχόμενα
• Ορισμός του προβλήματος
• Στόχος της διπλωματικής
• Παρουσίαση του συστήματος
• Πειράματα και αξιολόγηση
2
3
Ορισμός του προβλήματος
Μηχανές αναζήτησης
Search Engines
4
• Μειονεκτήματα
– Εξάρτηση από τη σύνταξη του
ερωτήματος
– Μη επιθυμητά αποτελέσματα
– Σύνδεσμοι αντί απαντήσεων
– Δε λαμβάνουν υπόψη τους το
σημασιολογικό περιεχόμενο
Συστήματα ερωταπαντήσεων
Question Answering Systems
• Ακριβείς απαντήσεις
– What is the capital of Greece? – Athens
– What is the capital of Greece? – Athens, the capital city of Greece, is one of the great
cities of the world and it is known as the cradle of western civilization and the birthplace
of democracy.
• Αναζήτηση σε μεγάλες συλλογές εγγράφων
• Εξαγωγή σημασιολογικών νοημάτων και συσχετίσεων
• Τεχνικές επεξεργασίας φυσικής γλώσσας
– Γλωσσολογικές (Linguistic)
– Στατιστικές (Statistical)
5
Latent Dirichlet Allocation - LDA
Topic-word distribution Document-topic distribution
6
Topic Document
Στόχος της διπλωματικής
• Υλοποίηση μηχανισμού ερωταπαντήσεων με χρήση
– Του μοντέλου LDA
– Αλληλεπίδρασης με τον χρήστη
• Υλοποίηση μηχανισμού ερωταπαντήσεων με σκοπό
– Τη βελτίωση της ποιότητας αναζήτησης
– Την εκμετάλλευση της θεματικής πληροφορίας
– Τον επανακαθορισμό του ερωτήματος χρήστη
– Την επιστροφή τμημάτων κειμένου ως τελική απάντηση
7
Παρουσίαση του συστήματος
8
9
10
11
12
Δομή του συστήματος
• Elasticsearch
– Αποθήκευση
– Αναζήτηση
– Ανάλυση
– Υπολογισμός στατιστικών
– JSON documents
– near realtime
• Offline τμήμα
– Αναζήτηση εγγράφων
– Πλήρωση της αποθήκης εγγράφων
• Online τμήμα
– Θεματική ανάλυση
– Αλληλεπίδραση με τον χρήστη
– Ταξινόμηση
13
• Αναζήτηση διαδικτυακών
εγγράφων
• Εξαγωγή κειμένου
• Γλωσσολογική ανάλυση
• Αποθήκευση πληροφορίας
– Σε επίπεδο εγγράφων
– Σε επίπεδο
παραγράφων
14
Offline
Online
1 – Δημιουργία θεμάτων σε επίπεδο εγγράφων
15
• Εισαγωγή ερωτήματος
• Αναζήτηση εγγράφων
• Επιλογή των 𝐷 πρώτων
• Θεματική ανάλυση με τον LDA
• Παραγωγή 𝐾 𝑑 θεμάτων
D = 50
𝐾 𝑑 = 30
Online
2 – Ταξινόμηση θεμάτων σε επίπεδο εγγράφων
16
• Ταξινόμηση ενός θέματος 𝑘 με βάση το
ερώτημα 𝑞:
• Παράδειγμα
𝑞 = “Dog or cat for pet?”
Online
3 – Ταξινόμηση εγγράφων
17
• Επιλογή 𝑘 ≤ 𝑘 𝑑 θεμάτων από τον χρήστη
• Ταξινόμηση των 𝐷 εγγράφων με βάση τα 𝑘 θέματα:
• Παράδειγμα
Για μια επιλογή θεμάτων 𝑘 = {1, 4, 6}
Online
4 – Δημιουργία θεμάτων σε επίπεδο παραγράφων
• Επιλογή των top-𝑑 εγγράφων από τη διαδικασία ταξινόμησης
• Εξαγωγή των παραγράφων, P
• Θεματική ανάλυση με τον LDA
• Παραγωγή 𝐾 𝑝 θεμάτων
18
𝑑 = 10
𝐾 𝑝 = 50
Online
5 – Ταξινόμηση θεμάτων σε επίπεδο παραγράφων
• Με βάση τις top-words των k θεμάτων του προηγούμενου βήματος
• Παράδειγμα: 𝑠𝑐𝑜𝑟𝑒(𝑘) = 𝑤 𝑑𝑜𝑔 + 𝑤 𝑝𝑒𝑡 = 0.07 + 0.03 = 0.1
19
Document-level topic chosen by user Paragraph-level topic k to be ranked
Online
6 – Ταξινόμηση παραγράφων
20
• Επιλογή 𝑘′ θεμάτων από τον χρήστη
• Ταξινόμηση 𝑃 παραγράφων με βάση τα 𝑘′ θέματα
• Επιλογή top-𝑝 παραγράφων και αποστολή στον χρήστη
𝑝 = 5
21
Πειράματα και αξιολόγηση
Αξιολόγηση
22
• Default Ranking: practical scoring function (Elasticsearch default)
• Proposed Ranking
Μετρικές Αξιολόγησης - Precision
23
Μετρικές Αξιολόγησης - Recall
24
Μετρικές Αξιολόγησης – Improvement Factor
25
Πείραμα 1 – Improvement Factor
26
𝑘 𝑑 = 6
𝑘 = 1
Πείραμα 2 – Precision
Συγκεντρωτικά αποτελέσματα
27
Πείραμα 2 – Recall
Συγκεντρωτικά αποτελέσματα
28
29

Ιωάννης Αντωνιάδης 7137

  • 1.
    Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεωνμε χρήση πιθανοτικών μοντέλων θεμάτων Επιβλέπων Ανδρέας Συμεωνίδης Επίκουρος Καθηγητής Επιβλέπων Θεμιστοκλής Μαυρίδης Υποψήφιος Διδάκτωρ Αντωνιάδης Ιωάννης Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφοριών και Υπολογισμών 1
  • 2.
    Περιεχόμενα • Ορισμός τουπροβλήματος • Στόχος της διπλωματικής • Παρουσίαση του συστήματος • Πειράματα και αξιολόγηση 2
  • 3.
  • 4.
    Μηχανές αναζήτησης Search Engines 4 •Μειονεκτήματα – Εξάρτηση από τη σύνταξη του ερωτήματος – Μη επιθυμητά αποτελέσματα – Σύνδεσμοι αντί απαντήσεων – Δε λαμβάνουν υπόψη τους το σημασιολογικό περιεχόμενο
  • 5.
    Συστήματα ερωταπαντήσεων Question AnsweringSystems • Ακριβείς απαντήσεις – What is the capital of Greece? – Athens – What is the capital of Greece? – Athens, the capital city of Greece, is one of the great cities of the world and it is known as the cradle of western civilization and the birthplace of democracy. • Αναζήτηση σε μεγάλες συλλογές εγγράφων • Εξαγωγή σημασιολογικών νοημάτων και συσχετίσεων • Τεχνικές επεξεργασίας φυσικής γλώσσας – Γλωσσολογικές (Linguistic) – Στατιστικές (Statistical) 5
  • 6.
    Latent Dirichlet Allocation- LDA Topic-word distribution Document-topic distribution 6 Topic Document
  • 7.
    Στόχος της διπλωματικής •Υλοποίηση μηχανισμού ερωταπαντήσεων με χρήση – Του μοντέλου LDA – Αλληλεπίδρασης με τον χρήστη • Υλοποίηση μηχανισμού ερωταπαντήσεων με σκοπό – Τη βελτίωση της ποιότητας αναζήτησης – Την εκμετάλλευση της θεματικής πληροφορίας – Τον επανακαθορισμό του ερωτήματος χρήστη – Την επιστροφή τμημάτων κειμένου ως τελική απάντηση 7
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
    Δομή του συστήματος •Elasticsearch – Αποθήκευση – Αναζήτηση – Ανάλυση – Υπολογισμός στατιστικών – JSON documents – near realtime • Offline τμήμα – Αναζήτηση εγγράφων – Πλήρωση της αποθήκης εγγράφων • Online τμήμα – Θεματική ανάλυση – Αλληλεπίδραση με τον χρήστη – Ταξινόμηση 13
  • 14.
    • Αναζήτηση διαδικτυακών εγγράφων •Εξαγωγή κειμένου • Γλωσσολογική ανάλυση • Αποθήκευση πληροφορίας – Σε επίπεδο εγγράφων – Σε επίπεδο παραγράφων 14 Offline
  • 15.
    Online 1 – Δημιουργίαθεμάτων σε επίπεδο εγγράφων 15 • Εισαγωγή ερωτήματος • Αναζήτηση εγγράφων • Επιλογή των 𝐷 πρώτων • Θεματική ανάλυση με τον LDA • Παραγωγή 𝐾 𝑑 θεμάτων D = 50 𝐾 𝑑 = 30
  • 16.
    Online 2 – Ταξινόμησηθεμάτων σε επίπεδο εγγράφων 16 • Ταξινόμηση ενός θέματος 𝑘 με βάση το ερώτημα 𝑞: • Παράδειγμα 𝑞 = “Dog or cat for pet?”
  • 17.
    Online 3 – Ταξινόμησηεγγράφων 17 • Επιλογή 𝑘 ≤ 𝑘 𝑑 θεμάτων από τον χρήστη • Ταξινόμηση των 𝐷 εγγράφων με βάση τα 𝑘 θέματα: • Παράδειγμα Για μια επιλογή θεμάτων 𝑘 = {1, 4, 6}
  • 18.
    Online 4 – Δημιουργίαθεμάτων σε επίπεδο παραγράφων • Επιλογή των top-𝑑 εγγράφων από τη διαδικασία ταξινόμησης • Εξαγωγή των παραγράφων, P • Θεματική ανάλυση με τον LDA • Παραγωγή 𝐾 𝑝 θεμάτων 18 𝑑 = 10 𝐾 𝑝 = 50
  • 19.
    Online 5 – Ταξινόμησηθεμάτων σε επίπεδο παραγράφων • Με βάση τις top-words των k θεμάτων του προηγούμενου βήματος • Παράδειγμα: 𝑠𝑐𝑜𝑟𝑒(𝑘) = 𝑤 𝑑𝑜𝑔 + 𝑤 𝑝𝑒𝑡 = 0.07 + 0.03 = 0.1 19 Document-level topic chosen by user Paragraph-level topic k to be ranked
  • 20.
    Online 6 – Ταξινόμησηπαραγράφων 20 • Επιλογή 𝑘′ θεμάτων από τον χρήστη • Ταξινόμηση 𝑃 παραγράφων με βάση τα 𝑘′ θέματα • Επιλογή top-𝑝 παραγράφων και αποστολή στον χρήστη 𝑝 = 5
  • 21.
  • 22.
    Αξιολόγηση 22 • Default Ranking:practical scoring function (Elasticsearch default) • Proposed Ranking
  • 23.
  • 24.
  • 25.
  • 26.
    Πείραμα 1 –Improvement Factor 26 𝑘 𝑑 = 6 𝑘 = 1
  • 27.
    Πείραμα 2 –Precision Συγκεντρωτικά αποτελέσματα 27
  • 28.
    Πείραμα 2 –Recall Συγκεντρωτικά αποτελέσματα 28
  • 29.