Successfully reported this slideshow.
Your SlideShare is downloading. ×

Ιωάννης Αντωνιάδης 7137

Ιωάννης Αντωνιάδης 7137

Download to read offline

Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση πιθανοτικών μοντέλων θεμάτων

Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση πιθανοτικών μοντέλων θεμάτων

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Ιωάννης Αντωνιάδης 7137

  1. 1. Αλληλεπιδραστικός μηχανισμός ερωταπαντήσεων με χρήση πιθανοτικών μοντέλων θεμάτων Επιβλέπων Ανδρέας Συμεωνίδης Επίκουρος Καθηγητής Επιβλέπων Θεμιστοκλής Μαυρίδης Υποψήφιος Διδάκτωρ Αντωνιάδης Ιωάννης Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφοριών και Υπολογισμών 1
  2. 2. Περιεχόμενα • Ορισμός του προβλήματος • Στόχος της διπλωματικής • Παρουσίαση του συστήματος • Πειράματα και αξιολόγηση 2
  3. 3. 3 Ορισμός του προβλήματος
  4. 4. Μηχανές αναζήτησης Search Engines 4 • Μειονεκτήματα – Εξάρτηση από τη σύνταξη του ερωτήματος – Μη επιθυμητά αποτελέσματα – Σύνδεσμοι αντί απαντήσεων – Δε λαμβάνουν υπόψη τους το σημασιολογικό περιεχόμενο
  5. 5. Συστήματα ερωταπαντήσεων Question Answering Systems • Ακριβείς απαντήσεις – What is the capital of Greece? – Athens – What is the capital of Greece? – Athens, the capital city of Greece, is one of the great cities of the world and it is known as the cradle of western civilization and the birthplace of democracy. • Αναζήτηση σε μεγάλες συλλογές εγγράφων • Εξαγωγή σημασιολογικών νοημάτων και συσχετίσεων • Τεχνικές επεξεργασίας φυσικής γλώσσας – Γλωσσολογικές (Linguistic) – Στατιστικές (Statistical) 5
  6. 6. Latent Dirichlet Allocation - LDA Topic-word distribution Document-topic distribution 6 Topic Document
  7. 7. Στόχος της διπλωματικής • Υλοποίηση μηχανισμού ερωταπαντήσεων με χρήση – Του μοντέλου LDA – Αλληλεπίδρασης με τον χρήστη • Υλοποίηση μηχανισμού ερωταπαντήσεων με σκοπό – Τη βελτίωση της ποιότητας αναζήτησης – Την εκμετάλλευση της θεματικής πληροφορίας – Τον επανακαθορισμό του ερωτήματος χρήστη – Την επιστροφή τμημάτων κειμένου ως τελική απάντηση 7
  8. 8. Παρουσίαση του συστήματος 8
  9. 9. 9
  10. 10. 10
  11. 11. 11
  12. 12. 12
  13. 13. Δομή του συστήματος • Elasticsearch – Αποθήκευση – Αναζήτηση – Ανάλυση – Υπολογισμός στατιστικών – JSON documents – near realtime • Offline τμήμα – Αναζήτηση εγγράφων – Πλήρωση της αποθήκης εγγράφων • Online τμήμα – Θεματική ανάλυση – Αλληλεπίδραση με τον χρήστη – Ταξινόμηση 13
  14. 14. • Αναζήτηση διαδικτυακών εγγράφων • Εξαγωγή κειμένου • Γλωσσολογική ανάλυση • Αποθήκευση πληροφορίας – Σε επίπεδο εγγράφων – Σε επίπεδο παραγράφων 14 Offline
  15. 15. Online 1 – Δημιουργία θεμάτων σε επίπεδο εγγράφων 15 • Εισαγωγή ερωτήματος • Αναζήτηση εγγράφων • Επιλογή των 𝐷 πρώτων • Θεματική ανάλυση με τον LDA • Παραγωγή 𝐾 𝑑 θεμάτων D = 50 𝐾 𝑑 = 30
  16. 16. Online 2 – Ταξινόμηση θεμάτων σε επίπεδο εγγράφων 16 • Ταξινόμηση ενός θέματος 𝑘 με βάση το ερώτημα 𝑞: • Παράδειγμα 𝑞 = “Dog or cat for pet?”
  17. 17. Online 3 – Ταξινόμηση εγγράφων 17 • Επιλογή 𝑘 ≤ 𝑘 𝑑 θεμάτων από τον χρήστη • Ταξινόμηση των 𝐷 εγγράφων με βάση τα 𝑘 θέματα: • Παράδειγμα Για μια επιλογή θεμάτων 𝑘 = {1, 4, 6}
  18. 18. Online 4 – Δημιουργία θεμάτων σε επίπεδο παραγράφων • Επιλογή των top-𝑑 εγγράφων από τη διαδικασία ταξινόμησης • Εξαγωγή των παραγράφων, P • Θεματική ανάλυση με τον LDA • Παραγωγή 𝐾 𝑝 θεμάτων 18 𝑑 = 10 𝐾 𝑝 = 50
  19. 19. Online 5 – Ταξινόμηση θεμάτων σε επίπεδο παραγράφων • Με βάση τις top-words των k θεμάτων του προηγούμενου βήματος • Παράδειγμα: 𝑠𝑐𝑜𝑟𝑒(𝑘) = 𝑤 𝑑𝑜𝑔 + 𝑤 𝑝𝑒𝑡 = 0.07 + 0.03 = 0.1 19 Document-level topic chosen by user Paragraph-level topic k to be ranked
  20. 20. Online 6 – Ταξινόμηση παραγράφων 20 • Επιλογή 𝑘′ θεμάτων από τον χρήστη • Ταξινόμηση 𝑃 παραγράφων με βάση τα 𝑘′ θέματα • Επιλογή top-𝑝 παραγράφων και αποστολή στον χρήστη 𝑝 = 5
  21. 21. 21 Πειράματα και αξιολόγηση
  22. 22. Αξιολόγηση 22 • Default Ranking: practical scoring function (Elasticsearch default) • Proposed Ranking
  23. 23. Μετρικές Αξιολόγησης - Precision 23
  24. 24. Μετρικές Αξιολόγησης - Recall 24
  25. 25. Μετρικές Αξιολόγησης – Improvement Factor 25
  26. 26. Πείραμα 1 – Improvement Factor 26 𝑘 𝑑 = 6 𝑘 = 1
  27. 27. Πείραμα 2 – Precision Συγκεντρωτικά αποτελέσματα 27
  28. 28. Πείραμα 2 – Recall Συγκεντρωτικά αποτελέσματα 28
  29. 29. 29

×