SlideShare a Scribd company logo
ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΑΝΑΚΑΛΥΨΗ
ΟΜΑΔΑΣ ΕΙΔΙΚΩΝ ΓΙΑ ΤΗΝ ΚΑΛΥΨΗ
ΣΥΝΟΛΟΥ ΤΟΜΕΩΝ
ΕΝΔΙΑΦΕΡΟΝΤΟΣ
Τμήμα Ψηφιακών Συστημάτων
Π.Μ.Σ. Ψηφιακά Συστήματα Υπηρεσίες
ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
Φράγκος Νικόλαος
Επιβλέπων: Χρήστος Δουλκερίδης
Περιεχόμενα
• Το πρόβλημα
• Μέθοδος Επίλυσης
• Μετρήσεις
• Συμπεράσματα
• Μελλοντική Εργασία
Το πρόβλημα (1)
• O τεράστιος όγκος δεδομένων και η ανάγκη για
αξιοποίηση της πληροφορίας αυτής κάνουν
ιδιαίτερα χρήσιμη την δυνατότητα
αυτοματοποιημένης αναζήτησης ειδικών
• Δύο από τα πολλά παραδείγματα:
– Η συγκρότηση επιτροπών για αξιολόγηση
δημοσιεύσεων
– Η επιλογή κατάλληλων υπαλλήλων για πρόσληψη
Το πρόβλημα (2)
• Αυτοματοποιημένη αναζήτηση ειδικών
– Οι κλασικές μηχανές αναζήτησης δεν επαρκούν
καθώς επιστρέφουν κείμενα και όχι άτομα
• Εύρεση ενός εξειδικευμένου ατόμου
– Εκτενώς μελετημένο στην βιβλιογραφία
• Σημασιολογία (Semantics)
• Μη τοπικά στοιχεία (Non Local Evidence)
• Μπορεί να βρεθεί ένα σύνολο ειδικών R με Κ
στοιχεία των οποίων η εξειδίκευση καλύπτει ένα
σύνολο λέξεων Q; Και εάν ναι ποιο είναι αυτό;
Μοντελοποίηση
Μέθοδος Επίλυσης
• Η μέθοδος αναλύεται σε τρία διακριτά στάδια.
Ευρετήριο
Δημιουργία
προφίλ
Εφαρμογή
αλγορίθμου
Ψευδοκείμενο
• Το ψευδοκείμενο αποτελεί την συνένωση όλων
των πληροφοριών που περιγράφουν έναν ειδικό.
• Ο τρόπος δημιουργίας του ψευδοκειμένου είναι
ορθογώνιος στην προσέγγισή μας
• Χρησιμοποιήθηκαν τίτλοι άρθρων από συνέδρια
και περιοδικά
• Διαισθητικά στο ψευδοκείμενο περιέχονται όροι
που αντικατοπτρίζουν τους τομείς έρευνας ενός
ειδικού
Ευρετήριο
…
Κλειδί: Όνομα
Συγγραφέα
Περιεχόμενα
Ερευνητής 1 Άρθρο Α d1
Ερευνητής 1 Άρθρο Β
Ερευνητής 1 Άρθρο Γ
Ερευνητής 2 Άρθρο Δ d2
Ερευνητής 2 Άρθρο Ε
Ερευνητής 4 Άρθρο ΣΤ …
… …
Δημιουργία προφίλ (1)
Δημιουργία προφίλ (2)
Συνολική Βαθμολόγηση
• Επίλυση ‘ισοπαλίας’ μεταξύ συγγραφέων με ίδιο
πλήθος τομέων εξειδίκευσης
• Έστω ο συγγραφέας Alexandros G. Dimakis και
οι όροι αναζήτησης
– index, storage, network.
Όρος αναζήτησης Βαθμολογία
Πλήθος σχετικών
άρθρων
index 3 3
storage 29 29
network 12 12
Μέγιστη Κάλυψη Συνόλου (Max-Cover)
• Έστω ένα πλήθος συνόλων 𝑆 = 𝑆1, 𝑆2, … , 𝑆 𝑚
• Να επιλεχθούν το πολύ Κ υποσύνολα
• Η ένωση των υποσυνόλων έχει τον μέγιστο
δυνατό αριθμό διαφορετικών στοιχείων.
• Λύση: Άπληστος αλγόριθμος
– Greedy Set Cover (GSC)
• Επιλέγει το υποσύνολο που καλύπτει τα
περισσότερα μη επιλεγμένα στοιχεία.
Παράδειγμα
Αξιολόγηση (1)
• Δεδομένα: Τίτλοι δημοσιεύσεων από το
DBLP.XML (1.2GB)
• Διαδικασία επεξεργασίας αρχείου:
– XML Parsing
– Εισαγωγή σε σχεσιακή βάση
– Ομαδοποίηση πληροφορίας ανά ειδικό
– Ευρετηριοποίηση
• Στατιστικά
– 6.498.625 Τίτλοι
– 1.314.915 Ειδικοί => 1.314.915 Ψευδοκείμενα
Αξιολόγηση (2)
• Κάθε διαδικασία αξιολόγησης απαιτεί
τουλάχιστον ένα μέτρο σύγκρισης
• Goodness: το πλήθος των άρθρων που έχει
γράψει κάποιος σε συναφή συνέδρια και
περιοδικά
• Το Goodness ορίζεται από τον χρήστη και
αφορά μόνο την διαδικασία της αξιολόγησης
• Όσα περισσότερα άρθρα έχει κάποιος τόσο
καλύτερος είναι
Αξιολόγηση (3)
• Επίσημες λίστες συνεδρίων
• ICDE 13’
• SIGMOD 13’
• VLDB 13’
– Σύγκριση λίστας συνεδρίου με αυτήν της εφαρμογής.
– Όροι αναζήτησης είναι οι τομείς ενδιαφέροντος του
εκάστοτε συνεδρίου (50 λέξεις)
• Τυχαίες λέξεις
– Επιλέχθηκαν τυχαία 15 λέξεις από το σύνολο των
τομέων ενδιαφέροντος κάθε συνεδρίου
• Όροι με αύξουσα σειρά (από 5 έως 30)
• Π.χ. Q = {index, storage, network…}
Αλγόριθμος βάσης
• Cosine Similarity (CS)
• Συγκρίνει δύο διανύσματα μετρώντας το
συνημίτονο της γωνίας μεταξύ τους
• cos 𝑑1, 𝑑2 = 𝑑𝑜𝑡 𝑑1, 𝑑2 / 𝑑1 𝑑2
• 𝑑𝑜𝑡 𝑑1, 𝑑2 = 𝑑1 0 ∗ 𝑑2 0 + 𝑑1 1 ∗ 𝑑2 1 …
• 𝑑1 = 𝑑1
2
0 + 𝑑1
2
[1]
• Όπου
– 𝑑1 = Σύνολο όρων αναζήτησης
– 𝑑2 = Ψευδοκείμενο
Μετρήσεις (1) Συνέδρια
0
100
200
300
400
500
600
700
CS GSC
Goodness
Αλγόριθμοι
ICDE SIGMOD VLDB
Μετρήσεις (2) Τυχαίες Λέξεις
0
50
100
150
200
250
300
350
400
CS GSC
Goodness
Αλγόριθμοι
ICDE SIGMOD VLDB
Μετρήσεις (3) Όροι με αύξουσα σειρά
0
500
1000
1500
2000
2500
5 10 15 20 25 30
Goodness
Πλήθος όρων αναζήτησης
CS GSC
Συμπεράσματα
• Ο GSC διατηρεί καλή βαθμολογία κάτω από
όλες τις συνθήκες και παραμένει ψηλά
ανεξάρτητα της εισόδου
• Μεγάλο προβάδισμα στις δοκιμές με πλήθος
λέξεων μικρότερο των 20
• Τα αποτέλεσμα τον καθιστούν με διαφορά
σαφώς πιο αξιόπιστο από τον βασικό αλγόριθμο
CS
Μελλοντικές Επεκτάσεις
• Δυναμικά δεδομένα
• Εμπλουτισμένα προφίλ
– Πρόλογοι αντί τίτλων
– Βιογραφικά
• Σύνδεση με το TREC
• Σημασιολογία Semantics (Wordnet)
• Αξιολόγηση με βάση το πού έχει δημοσιευτεί,
από ποιόν έχει γραφτεί και πόσες παραπομπές
έχει μία δημοσίευση

More Related Content

Similar to Παρουσίαση

Nikolaos Oikonomou
Nikolaos OikonomouNikolaos Oikonomou
Nikolaos Oikonomou
ISSEL
 
Source code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphsSource code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphs
ISSEL
 
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
ISSEL
 
Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...
ISSEL
 
Loutroukis Anastasios
Loutroukis AnastasiosLoutroukis Anastasios
Loutroukis Anastasios
ISSEL
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
ISSEL
 
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
ISSEL
 
Γεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-ΖήλοςΓεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-Ζήλος
ISSEL
 
C6 3 Tables
C6 3 TablesC6 3 Tables
C6 3 Tables
papettas
 
Σωτήρης Μπέης
Σωτήρης ΜπέηςΣωτήρης Μπέης
Σωτήρης Μπέης
ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
ISSEL
 
θέματα διπλωματικών εργασιών - 2015/09
θέματα διπλωματικών εργασιών - 2015/09θέματα διπλωματικών εργασιών - 2015/09
θέματα διπλωματικών εργασιών - 2015/09
Yannis Charalabidis
 
Narlis Eystratios
Narlis EystratiosNarlis Eystratios
Narlis Eystratios
ISSEL
 
Aspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for Reviews
ISSEL
 
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
ISSEL
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
ISSEL
 
Microsoft Access Θεωρία 3/6
Microsoft Access Θεωρία 3/6Microsoft Access Θεωρία 3/6
Microsoft Access Θεωρία 3/6
Michael Ntallas
 
Νικόλαος Κατιρτζής 7185
Νικόλαος Κατιρτζής 7185Νικόλαος Κατιρτζής 7185
Νικόλαος Κατιρτζής 7185
ISSEL
 
Stelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentationStelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentation
ISSEL
 
ThesisPresentation
ThesisPresentationThesisPresentation
ThesisPresentation
ThomasKanoutas
 

Similar to Παρουσίαση (20)

Nikolaos Oikonomou
Nikolaos OikonomouNikolaos Oikonomou
Nikolaos Oikonomou
 
Source code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphsSource code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphs
 
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
 
Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...
 
Loutroukis Anastasios
Loutroukis AnastasiosLoutroukis Anastasios
Loutroukis Anastasios
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
 
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
 
Γεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-ΖήλοςΓεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-Ζήλος
 
C6 3 Tables
C6 3 TablesC6 3 Tables
C6 3 Tables
 
Σωτήρης Μπέης
Σωτήρης ΜπέηςΣωτήρης Μπέης
Σωτήρης Μπέης
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
θέματα διπλωματικών εργασιών - 2015/09
θέματα διπλωματικών εργασιών - 2015/09θέματα διπλωματικών εργασιών - 2015/09
θέματα διπλωματικών εργασιών - 2015/09
 
Narlis Eystratios
Narlis EystratiosNarlis Eystratios
Narlis Eystratios
 
Aspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for Reviews
 
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
 
Microsoft Access Θεωρία 3/6
Microsoft Access Θεωρία 3/6Microsoft Access Θεωρία 3/6
Microsoft Access Θεωρία 3/6
 
Νικόλαος Κατιρτζής 7185
Νικόλαος Κατιρτζής 7185Νικόλαος Κατιρτζής 7185
Νικόλαος Κατιρτζής 7185
 
Stelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentationStelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentation
 
ThesisPresentation
ThesisPresentationThesisPresentation
ThesisPresentation
 

Παρουσίαση

  • 1. ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΑΝΑΚΑΛΥΨΗ ΟΜΑΔΑΣ ΕΙΔΙΚΩΝ ΓΙΑ ΤΗΝ ΚΑΛΥΨΗ ΣΥΝΟΛΟΥ ΤΟΜΕΩΝ ΕΝΔΙΑΦΕΡΟΝΤΟΣ Τμήμα Ψηφιακών Συστημάτων Π.Μ.Σ. Ψηφιακά Συστήματα Υπηρεσίες ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Φράγκος Νικόλαος Επιβλέπων: Χρήστος Δουλκερίδης
  • 2. Περιεχόμενα • Το πρόβλημα • Μέθοδος Επίλυσης • Μετρήσεις • Συμπεράσματα • Μελλοντική Εργασία
  • 3. Το πρόβλημα (1) • O τεράστιος όγκος δεδομένων και η ανάγκη για αξιοποίηση της πληροφορίας αυτής κάνουν ιδιαίτερα χρήσιμη την δυνατότητα αυτοματοποιημένης αναζήτησης ειδικών • Δύο από τα πολλά παραδείγματα: – Η συγκρότηση επιτροπών για αξιολόγηση δημοσιεύσεων – Η επιλογή κατάλληλων υπαλλήλων για πρόσληψη
  • 4. Το πρόβλημα (2) • Αυτοματοποιημένη αναζήτηση ειδικών – Οι κλασικές μηχανές αναζήτησης δεν επαρκούν καθώς επιστρέφουν κείμενα και όχι άτομα • Εύρεση ενός εξειδικευμένου ατόμου – Εκτενώς μελετημένο στην βιβλιογραφία • Σημασιολογία (Semantics) • Μη τοπικά στοιχεία (Non Local Evidence) • Μπορεί να βρεθεί ένα σύνολο ειδικών R με Κ στοιχεία των οποίων η εξειδίκευση καλύπτει ένα σύνολο λέξεων Q; Και εάν ναι ποιο είναι αυτό;
  • 6. Μέθοδος Επίλυσης • Η μέθοδος αναλύεται σε τρία διακριτά στάδια. Ευρετήριο Δημιουργία προφίλ Εφαρμογή αλγορίθμου
  • 7. Ψευδοκείμενο • Το ψευδοκείμενο αποτελεί την συνένωση όλων των πληροφοριών που περιγράφουν έναν ειδικό. • Ο τρόπος δημιουργίας του ψευδοκειμένου είναι ορθογώνιος στην προσέγγισή μας • Χρησιμοποιήθηκαν τίτλοι άρθρων από συνέδρια και περιοδικά • Διαισθητικά στο ψευδοκείμενο περιέχονται όροι που αντικατοπτρίζουν τους τομείς έρευνας ενός ειδικού
  • 8. Ευρετήριο … Κλειδί: Όνομα Συγγραφέα Περιεχόμενα Ερευνητής 1 Άρθρο Α d1 Ερευνητής 1 Άρθρο Β Ερευνητής 1 Άρθρο Γ Ερευνητής 2 Άρθρο Δ d2 Ερευνητής 2 Άρθρο Ε Ερευνητής 4 Άρθρο ΣΤ … … …
  • 11. Συνολική Βαθμολόγηση • Επίλυση ‘ισοπαλίας’ μεταξύ συγγραφέων με ίδιο πλήθος τομέων εξειδίκευσης • Έστω ο συγγραφέας Alexandros G. Dimakis και οι όροι αναζήτησης – index, storage, network. Όρος αναζήτησης Βαθμολογία Πλήθος σχετικών άρθρων index 3 3 storage 29 29 network 12 12
  • 12. Μέγιστη Κάλυψη Συνόλου (Max-Cover) • Έστω ένα πλήθος συνόλων 𝑆 = 𝑆1, 𝑆2, … , 𝑆 𝑚 • Να επιλεχθούν το πολύ Κ υποσύνολα • Η ένωση των υποσυνόλων έχει τον μέγιστο δυνατό αριθμό διαφορετικών στοιχείων. • Λύση: Άπληστος αλγόριθμος – Greedy Set Cover (GSC) • Επιλέγει το υποσύνολο που καλύπτει τα περισσότερα μη επιλεγμένα στοιχεία.
  • 14. Αξιολόγηση (1) • Δεδομένα: Τίτλοι δημοσιεύσεων από το DBLP.XML (1.2GB) • Διαδικασία επεξεργασίας αρχείου: – XML Parsing – Εισαγωγή σε σχεσιακή βάση – Ομαδοποίηση πληροφορίας ανά ειδικό – Ευρετηριοποίηση • Στατιστικά – 6.498.625 Τίτλοι – 1.314.915 Ειδικοί => 1.314.915 Ψευδοκείμενα
  • 15. Αξιολόγηση (2) • Κάθε διαδικασία αξιολόγησης απαιτεί τουλάχιστον ένα μέτρο σύγκρισης • Goodness: το πλήθος των άρθρων που έχει γράψει κάποιος σε συναφή συνέδρια και περιοδικά • Το Goodness ορίζεται από τον χρήστη και αφορά μόνο την διαδικασία της αξιολόγησης • Όσα περισσότερα άρθρα έχει κάποιος τόσο καλύτερος είναι
  • 16. Αξιολόγηση (3) • Επίσημες λίστες συνεδρίων • ICDE 13’ • SIGMOD 13’ • VLDB 13’ – Σύγκριση λίστας συνεδρίου με αυτήν της εφαρμογής. – Όροι αναζήτησης είναι οι τομείς ενδιαφέροντος του εκάστοτε συνεδρίου (50 λέξεις) • Τυχαίες λέξεις – Επιλέχθηκαν τυχαία 15 λέξεις από το σύνολο των τομέων ενδιαφέροντος κάθε συνεδρίου • Όροι με αύξουσα σειρά (από 5 έως 30) • Π.χ. Q = {index, storage, network…}
  • 17. Αλγόριθμος βάσης • Cosine Similarity (CS) • Συγκρίνει δύο διανύσματα μετρώντας το συνημίτονο της γωνίας μεταξύ τους • cos 𝑑1, 𝑑2 = 𝑑𝑜𝑡 𝑑1, 𝑑2 / 𝑑1 𝑑2 • 𝑑𝑜𝑡 𝑑1, 𝑑2 = 𝑑1 0 ∗ 𝑑2 0 + 𝑑1 1 ∗ 𝑑2 1 … • 𝑑1 = 𝑑1 2 0 + 𝑑1 2 [1] • Όπου – 𝑑1 = Σύνολο όρων αναζήτησης – 𝑑2 = Ψευδοκείμενο
  • 18. Μετρήσεις (1) Συνέδρια 0 100 200 300 400 500 600 700 CS GSC Goodness Αλγόριθμοι ICDE SIGMOD VLDB
  • 19. Μετρήσεις (2) Τυχαίες Λέξεις 0 50 100 150 200 250 300 350 400 CS GSC Goodness Αλγόριθμοι ICDE SIGMOD VLDB
  • 20. Μετρήσεις (3) Όροι με αύξουσα σειρά 0 500 1000 1500 2000 2500 5 10 15 20 25 30 Goodness Πλήθος όρων αναζήτησης CS GSC
  • 21. Συμπεράσματα • Ο GSC διατηρεί καλή βαθμολογία κάτω από όλες τις συνθήκες και παραμένει ψηλά ανεξάρτητα της εισόδου • Μεγάλο προβάδισμα στις δοκιμές με πλήθος λέξεων μικρότερο των 20 • Τα αποτέλεσμα τον καθιστούν με διαφορά σαφώς πιο αξιόπιστο από τον βασικό αλγόριθμο CS
  • 22. Μελλοντικές Επεκτάσεις • Δυναμικά δεδομένα • Εμπλουτισμένα προφίλ – Πρόλογοι αντί τίτλων – Βιογραφικά • Σύνδεση με το TREC • Σημασιολογία Semantics (Wordnet) • Αξιολόγηση με βάση το πού έχει δημοσιευτεί, από ποιόν έχει γραφτεί και πόσες παραπομπές έχει μία δημοσίευση

Editor's Notes

  1. Μη τοπικό στοιχείο ένα κείμενο d που δεν σχετίζεται θεματολογικά με άλλα.
  2. TC Term Count
  3. Εμείς θεωρήσαμε μια ομάδα συνεδρίων SIGMOD,VLDB,ICDE… με αντικείμενο τις βάσεις δεδομένων
  4. Για να αξιολογήσουμε… [0,1]
  5. Ανάθεση δημοσιεύσεων σε αξιολογητές