Παρουσίαση

ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΑΝΑΚΑΛΥΨΗ
ΟΜΑΔΑΣ ΕΙΔΙΚΩΝ ΓΙΑ ΤΗΝ ΚΑΛΥΨΗ
ΣΥΝΟΛΟΥ ΤΟΜΕΩΝ
ΕΝΔΙΑΦΕΡΟΝΤΟΣ
Τμήμα Ψηφιακών Συστημάτων
Π.Μ.Σ. Ψηφιακά Συστήματα Υπηρεσίες
ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
Φράγκος Νικόλαος
Επιβλέπων: Χρήστος Δουλκερίδης

Περιεχόμενα
• Το πρόβλημα
• Μέθοδος Επίλυσης
• Μετρήσεις
• Συμπεράσματα
• Μελλοντική Εργασία

Το πρόβλημα (1)
• O τεράστιος όγκος δεδομένων και η ανάγκη για
αξιοποίηση της πληροφορίας αυτής κάνουν
ιδιαίτερα χρήσιμη την δυνατότητα
αυτοματοποιημένης αναζήτησης ειδικών
• Δύο από τα πολλά παραδείγματα:
– Η συγκρότηση επιτροπών για αξιολόγηση
δημοσιεύσεων
– Η επιλογή κατάλληλων υπαλλήλων για πρόσληψη

Το πρόβλημα (2)
• Αυτοματοποιημένη αναζήτηση ειδικών
– Οι κλασικές μηχανές αναζήτησης δεν επαρκούν
καθώς επιστρέφουν κείμενα και όχι άτομα
• Εύρεση ενός εξειδικευμένου ατόμου
– Εκτενώς μελετημένο στην βιβλιογραφία
• Σημασιολογία (Semantics)
• Μη τοπικά στοιχεία (Non Local Evidence)
• Μπορεί να βρεθεί ένα σύνολο ειδικών R με Κ
στοιχεία των οποίων η εξειδίκευση καλύπτει ένα
σύνολο λέξεων Q; Και εάν ναι ποιο είναι αυτό;

Μέθοδος Επίλυσης
• Η μέθοδος αναλύεται σε τρία διακριτά στάδια.
Ευρετήριο
Δημιουργία
προφίλ
Εφαρμογή
αλγορίθμου

Ψευδοκείμενο
• Το ψευδοκείμενο αποτελεί την συνένωση όλων
των πληροφοριών που περιγράφουν έναν ειδικό.
• Ο τρόπος δημιουργίας του ψευδοκειμένου είναι
ορθογώνιος στην προσέγγισή μας
• Χρησιμοποιήθηκαν τίτλοι άρθρων από συνέδρια
και περιοδικά
• Διαισθητικά στο ψευδοκείμενο περιέχονται όροι
που αντικατοπτρίζουν τους τομείς έρευνας ενός
ειδικού

Ευρετήριο
…
Κλειδί: Όνομα
Συγγραφέα
Περιεχόμενα
Ερευνητής 1 Άρθρο Α d1
Ερευνητής 1 Άρθρο Β
Ερευνητής 1 Άρθρο Γ
Ερευνητής 2 Άρθρο Δ d2
Ερευνητής 2 Άρθρο Ε
Ερευνητής 4 Άρθρο ΣΤ …
… …

Δημιουργία προφίλ (1)

Δημιουργία προφίλ (2)

Συνολική Βαθμολόγηση
• Επίλυση ‘ισοπαλίας’ μεταξύ συγγραφέων με ίδιο
πλήθος τομέων εξειδίκευσης
• Έστω ο συγγραφέας Alexandros G. Dimakis και
οι όροι αναζήτησης
– index, storage, network.
Όρος αναζήτησης Βαθμολογία
Πλήθος σχετικών
άρθρων
index 3 3
storage 29 29
network 12 12

Μέγιστη Κάλυψη Συνόλου (Max-Cover)
• Έστω ένα πλήθος συνόλων 𝑆 = 𝑆1, 𝑆2, … , 𝑆 𝑚
• Να επιλεχθούν το πολύ Κ υποσύνολα
• Η ένωση των υποσυνόλων έχει τον μέγιστο
δυνατό αριθμό διαφορετικών στοιχείων.
• Λύση: Άπληστος αλγόριθμος
– Greedy Set Cover (GSC)
• Επιλέγει το υποσύνολο που καλύπτει τα
περισσότερα μη επιλεγμένα στοιχεία.

Αξιολόγηση (1)
• Δεδομένα: Τίτλοι δημοσιεύσεων από το
DBLP.XML (1.2GB)
• Διαδικασία επεξεργασίας αρχείου:
– XML Parsing
– Εισαγωγή σε σχεσιακή βάση
– Ομαδοποίηση πληροφορίας ανά ειδικό
– Ευρετηριοποίηση
• Στατιστικά
– 6.498.625 Τίτλοι
– 1.314.915 Ειδικοί => 1.314.915 Ψευδοκείμενα

• Κάθε διαδικασία αξιολόγησης απαιτεί
τουλάχιστον ένα μέτρο σύγκρισης
• Goodness: το πλήθος των άρθρων που έχει
γράψει κάποιος σε συναφή συνέδρια και
περιοδικά
• Το Goodness ορίζεται από τον χρήστη και
αφορά μόνο την διαδικασία της αξιολόγησης
• Όσα περισσότερα άρθρα έχει κάποιος τόσο
καλύτερος είναι

• Επίσημες λίστες συνεδρίων
• ICDE 13’
• SIGMOD 13’
• VLDB 13’
– Σύγκριση λίστας συνεδρίου με αυτήν της εφαρμογής.
– Όροι αναζήτησης είναι οι τομείς ενδιαφέροντος του
εκάστοτε συνεδρίου (50 λέξεις)
• Τυχαίες λέξεις
– Επιλέχθηκαν τυχαία 15 λέξεις από το σύνολο των
τομέων ενδιαφέροντος κάθε συνεδρίου
• Όροι με αύξουσα σειρά (από 5 έως 30)
• Π.χ. Q = {index, storage, network…}

Αλγόριθμος βάσης
• Cosine Similarity (CS)
• Συγκρίνει δύο διανύσματα μετρώντας το
συνημίτονο της γωνίας μεταξύ τους
• cos 𝑑1, 𝑑2 = 𝑑𝑜𝑡 𝑑1, 𝑑2 / 𝑑1 𝑑2
• 𝑑𝑜𝑡 𝑑1, 𝑑2 = 𝑑1 0 ∗ 𝑑2 0 + 𝑑1 1 ∗ 𝑑2 1 …
• 𝑑1 = 𝑑1
2
0 + 𝑑1
2
[1]
• Όπου
– 𝑑1 = Σύνολο όρων αναζήτησης
– 𝑑2 = Ψευδοκείμενο

Μετρήσεις (1) Συνέδρια
0
100
200
300
400
500
600
700
CS GSC
Goodness
Αλγόριθμοι
ICDE SIGMOD VLDB

Μετρήσεις (2) Τυχαίες Λέξεις
0
50
100
150
200
250
300
350
400
CS GSC
Goodness
Αλγόριθμοι
ICDE SIGMOD VLDB

Μετρήσεις (3) Όροι με αύξουσα σειρά
0
500
1000
1500
2000
2500
5 10 15 20 25 30
Goodness
Πλήθος όρων αναζήτησης
CS GSC

Συμπεράσματα
• Ο GSC διατηρεί καλή βαθμολογία κάτω από
όλες τις συνθήκες και παραμένει ψηλά
ανεξάρτητα της εισόδου
• Μεγάλο προβάδισμα στις δοκιμές με πλήθος
λέξεων μικρότερο των 20
• Τα αποτέλεσμα τον καθιστούν με διαφορά
σαφώς πιο αξιόπιστο από τον βασικό αλγόριθμο
CS

Μελλοντικές Επεκτάσεις
• Δυναμικά δεδομένα
• Εμπλουτισμένα προφίλ
– Πρόλογοι αντί τίτλων
– Βιογραφικά
• Σύνδεση με το TREC
• Σημασιολογία Semantics (Wordnet)
• Αξιολόγηση με βάση το πού έχει δημοσιευτεί,
από ποιόν έχει γραφτεί και πόσες παραπομπές
έχει μία δημοσίευση

Παρουσίαση

Recommended

Recommended

More Related Content

Similar to Παρουσίαση

Similar to Παρουσίαση (20)

Παρουσίαση

Editor's Notes