Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση
πιθανοτικών μοντέλων θεμάτων
Επιβλέπων
Ανδρέας Συμεωνίδης
Επίκουρος Κ...
Περιεχόμενα
• Ορισμός του προβλήματος
• Στόχος της διπλωματικής
• Παρουσίαση του συστήματος
• Πειράματα και αξιολόγηση
2
3
Ορισμός του προβλήματος
Μηχανές αναζήτησης
Search Engines
4
• Μειονεκτήματα
– Εξάρτηση από τη σύνταξη του
ερωτήματος
– Μη επιθυμητά αποτελέσματα
–...
Συστήματα ερωταπαντήσεων
Question Answering Systems
• Ακριβείς απαντήσεις
– What is the capital of Greece? – Athens
– What...
Latent Dirichlet Allocation - LDA
Topic-word distribution Document-topic distribution
6
Topic Document
Στόχος της διπλωματικής
• Υλοποίηση μηχανισμού ερωταπαντήσεων με χρήση
– Του μοντέλου LDA
– Αλληλεπίδρασης με τον χρήστη
•...
Παρουσίαση του συστήματος
8
9
10
11
12
Δομή του συστήματος
• Elasticsearch
– Αποθήκευση
– Αναζήτηση
– Ανάλυση
– Υπολογισμός στατιστικών
– JSON documents
– near r...
• Αναζήτηση διαδικτυακών
εγγράφων
• Εξαγωγή κειμένου
• Γλωσσολογική ανάλυση
• Αποθήκευση πληροφορίας
– Σε επίπεδο εγγράφων...
Online
1 – Δημιουργία θεμάτων σε επίπεδο εγγράφων
15
• Εισαγωγή ερωτήματος
• Αναζήτηση εγγράφων
• Επιλογή των 𝐷 πρώτων
• Θ...
Online
2 – Ταξινόμηση θεμάτων σε επίπεδο εγγράφων
16
• Ταξινόμηση ενός θέματος 𝑘 με βάση το
ερώτημα 𝑞:
• Παράδειγμα
𝑞 = “D...
Online
3 – Ταξινόμηση εγγράφων
17
• Επιλογή 𝑘 ≤ 𝑘 𝑑 θεμάτων από τον χρήστη
• Ταξινόμηση των 𝐷 εγγράφων με βάση τα 𝑘 θέματα...
Online
4 – Δημιουργία θεμάτων σε επίπεδο παραγράφων
• Επιλογή των top-𝑑 εγγράφων από τη διαδικασία ταξινόμησης
• Εξαγωγή τ...
Online
5 – Ταξινόμηση θεμάτων σε επίπεδο παραγράφων
• Με βάση τις top-words των k θεμάτων του προηγούμενου βήματος
• Παράδ...
Online
6 – Ταξινόμηση παραγράφων
20
• Επιλογή 𝑘′ θεμάτων από τον χρήστη
• Ταξινόμηση 𝑃 παραγράφων με βάση τα 𝑘′ θέματα
• Ε...
21
Πειράματα και αξιολόγηση
Αξιολόγηση
22
• Default Ranking: practical scoring function (Elasticsearch default)
• Proposed Ranking
Μετρικές Αξιολόγησης - Precision
23
Μετρικές Αξιολόγησης - Recall
24
Μετρικές Αξιολόγησης – Improvement Factor
25
Πείραμα 1 – Improvement Factor
26
𝑘 𝑑 = 6
𝑘 = 1
Πείραμα 2 – Precision
Συγκεντρωτικά αποτελέσματα
27
Πείραμα 2 – Recall
Συγκεντρωτικά αποτελέσματα
28
29
Upcoming SlideShare
Loading in …5
×

Ιωάννης Αντωνιάδης 7137

76 views

Published on

Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση πιθανοτικών μοντέλων θεμάτων

Published in: Software
  • Be the first to comment

  • Be the first to like this

Ιωάννης Αντωνιάδης 7137

  1. 1. Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση πιθανοτικών μοντέλων θεμάτων Επιβλέπων Ανδρέας Συμεωνίδης Επίκουρος Καθηγητής Επιβλέπων Θεμιστοκλής Μαυρίδης Υποψήφιος Διδάκτωρ Αντωνιάδης Ιωάννης Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφοριών και Υπολογισμών 1
  2. 2. Περιεχόμενα • Ορισμός του προβλήματος • Στόχος της διπλωματικής • Παρουσίαση του συστήματος • Πειράματα και αξιολόγηση 2
  3. 3. 3 Ορισμός του προβλήματος
  4. 4. Μηχανές αναζήτησης Search Engines 4 • Μειονεκτήματα – Εξάρτηση από τη σύνταξη του ερωτήματος – Μη επιθυμητά αποτελέσματα – Σύνδεσμοι αντί απαντήσεων – Δε λαμβάνουν υπόψη τους το σημασιολογικό περιεχόμενο
  5. 5. Συστήματα ερωταπαντήσεων Question Answering Systems • Ακριβείς απαντήσεις – What is the capital of Greece? – Athens – What is the capital of Greece? – Athens, the capital city of Greece, is one of the great cities of the world and it is known as the cradle of western civilization and the birthplace of democracy. • Αναζήτηση σε μεγάλες συλλογές εγγράφων • Εξαγωγή σημασιολογικών νοημάτων και συσχετίσεων • Τεχνικές επεξεργασίας φυσικής γλώσσας – Γλωσσολογικές (Linguistic) – Στατιστικές (Statistical) 5
  6. 6. Latent Dirichlet Allocation - LDA Topic-word distribution Document-topic distribution 6 Topic Document
  7. 7. Στόχος της διπλωματικής • Υλοποίηση μηχανισμού ερωταπαντήσεων με χρήση – Του μοντέλου LDA – Αλληλεπίδρασης με τον χρήστη • Υλοποίηση μηχανισμού ερωταπαντήσεων με σκοπό – Τη βελτίωση της ποιότητας αναζήτησης – Την εκμετάλλευση της θεματικής πληροφορίας – Τον επανακαθορισμό του ερωτήματος χρήστη – Την επιστροφή τμημάτων κειμένου ως τελική απάντηση 7
  8. 8. Παρουσίαση του συστήματος 8
  9. 9. 9
  10. 10. 10
  11. 11. 11
  12. 12. 12
  13. 13. Δομή του συστήματος • Elasticsearch – Αποθήκευση – Αναζήτηση – Ανάλυση – Υπολογισμός στατιστικών – JSON documents – near realtime • Offline τμήμα – Αναζήτηση εγγράφων – Πλήρωση της αποθήκης εγγράφων • Online τμήμα – Θεματική ανάλυση – Αλληλεπίδραση με τον χρήστη – Ταξινόμηση 13
  14. 14. • Αναζήτηση διαδικτυακών εγγράφων • Εξαγωγή κειμένου • Γλωσσολογική ανάλυση • Αποθήκευση πληροφορίας – Σε επίπεδο εγγράφων – Σε επίπεδο παραγράφων 14 Offline
  15. 15. Online 1 – Δημιουργία θεμάτων σε επίπεδο εγγράφων 15 • Εισαγωγή ερωτήματος • Αναζήτηση εγγράφων • Επιλογή των 𝐷 πρώτων • Θεματική ανάλυση με τον LDA • Παραγωγή 𝐾 𝑑 θεμάτων D = 50 𝐾 𝑑 = 30
  16. 16. Online 2 – Ταξινόμηση θεμάτων σε επίπεδο εγγράφων 16 • Ταξινόμηση ενός θέματος 𝑘 με βάση το ερώτημα 𝑞: • Παράδειγμα 𝑞 = “Dog or cat for pet?”
  17. 17. Online 3 – Ταξινόμηση εγγράφων 17 • Επιλογή 𝑘 ≤ 𝑘 𝑑 θεμάτων από τον χρήστη • Ταξινόμηση των 𝐷 εγγράφων με βάση τα 𝑘 θέματα: • Παράδειγμα Για μια επιλογή θεμάτων 𝑘 = {1, 4, 6}
  18. 18. Online 4 – Δημιουργία θεμάτων σε επίπεδο παραγράφων • Επιλογή των top-𝑑 εγγράφων από τη διαδικασία ταξινόμησης • Εξαγωγή των παραγράφων, P • Θεματική ανάλυση με τον LDA • Παραγωγή 𝐾 𝑝 θεμάτων 18 𝑑 = 10 𝐾 𝑝 = 50
  19. 19. Online 5 – Ταξινόμηση θεμάτων σε επίπεδο παραγράφων • Με βάση τις top-words των k θεμάτων του προηγούμενου βήματος • Παράδειγμα: 𝑠𝑐𝑜𝑟𝑒(𝑘) = 𝑤 𝑑𝑜𝑔 + 𝑤 𝑝𝑒𝑡 = 0.07 + 0.03 = 0.1 19 Document-level topic chosen by user Paragraph-level topic k to be ranked
  20. 20. Online 6 – Ταξινόμηση παραγράφων 20 • Επιλογή 𝑘′ θεμάτων από τον χρήστη • Ταξινόμηση 𝑃 παραγράφων με βάση τα 𝑘′ θέματα • Επιλογή top-𝑝 παραγράφων και αποστολή στον χρήστη 𝑝 = 5
  21. 21. 21 Πειράματα και αξιολόγηση
  22. 22. Αξιολόγηση 22 • Default Ranking: practical scoring function (Elasticsearch default) • Proposed Ranking
  23. 23. Μετρικές Αξιολόγησης - Precision 23
  24. 24. Μετρικές Αξιολόγησης - Recall 24
  25. 25. Μετρικές Αξιολόγησης – Improvement Factor 25
  26. 26. Πείραμα 1 – Improvement Factor 26 𝑘 𝑑 = 6 𝑘 = 1
  27. 27. Πείραμα 2 – Precision Συγκεντρωτικά αποτελέσματα 27
  28. 28. Πείραμα 2 – Recall Συγκεντρωτικά αποτελέσματα 28
  29. 29. 29

×