2. REVISITING LEXICAL SIGNATURES
TO (RE-)DISCOVER WEB PAGES
MARTIN KLEIN AND L. NELSON
OLD DOMINION UNIVERSITY, DEPARTMENT OF
COMPUTER SCIENCE
3. ΠΕΡΙΛΗΨΗ
Στο άρθρο παρουσιάζεται ένα πείραμα που
έγινε στα πλαίσια μιας έρευνας για τις
σελίδες του διαδικτύου που χάνονται
Για το πείραμα αυτό χρησιμοποιήθηκαν
λεκτικές υπογραφές (Lexical Signatures) με
τις οποίες πραγματοποιείται η ανακάλυψη
των χαμένων ιστοσελίδων
4. ΤΟ ΠΡΟΒΛΗΜΑ
Χαμένες ιστοσελίδες – σύνδεσμοι στο web που «σπάνε»
404 http status code
“page not found”
H πληροφορία στο web χάνεται πραγματικά?
Ο ισχυρισμός είναι ότι απλά λείπει και σπάνια χάνεται
ολοκληρωτικά από το web
To περιεχόμενο μετακινείται από το ένα URL στο άλλο
5. ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ
(LEXICAL SIGNATURES)
λεκτική υπογραφή είναι ένα μικρό σύνολο
όρων που προέρχονται από ένα έγγραφο και
δίνουν τη «σχετικότητα» του.
Λεκτικές υπογραφές παράγονται για
δυνητικά χαμένα έγγραφα και
ανατροφοδοτούνται σε αυτό που
αποκαλούμε web Infrastructure για την
επανεύρεση αυτών των εγγράφων.
6. ΤΟ ΠΕΡΙΒΑΛΛΟΝ
WEB INFRASTRUCTURE (WI)
Web μηχανές αναζήτησης (google,Yahoo, MSN Live)
Projects έρευνας (CiteSeer, NSDL)
Αρχεία στο Web (Internet Archive, Web Base)
7. ΠΩΣ ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ
ΕΞΕΛΙΣΣΟΝΤΑΙ ΣΤΗΝ ΠΟΡΕΙΑ ΤΟΥ ΧΡΟΝΟΥ
ΚΑΙ ΠΩΣ ΑΥΤΟΣ ΕΠΗΡΕΑΖΕΙ ΤΗΝ ΑΠΟΔΟΣΗ
ΤΟΥΣ ΣΤΗΝ ΕΠΑΝΕΥΡΕΣΗ ΙΣΤΟΣΕΛΙΔΩΝ?
8.
9. ΜΕΡΗ ΕΡΕΥΝΑΣ
Υποβάλλονται οι λεκτικές υπογραφές στο google και ερευνάται
η απόδοσή τους αναλύοντας την κατάταξη του URL
Η σύνθεση των λεκτικών υπογραφών γίνεται με διάκριση τους
σε 2-10 όρους
Διεξήχθη μια ανάλυση επικάλυψης όλων των λεκτικών
υπογραφών για περαιτέρω έρευνα της εξέλιξης τους στη
διάρκεια του χρόνου.
Σ’ αυτή την έρευνα υποτέθηκε ότι ιστοσελίδες λείπουν και
χρησιμοποιήθηκαν αντίγραφα τους από το αρχείο του
διαδικτύου για την παραγωγή λεκτικών υπογραφών.
10.
11. ΤΙ ΕΙΝΑΙ ΜΙΑ ΛΕΚΤΙΚΗ
ΥΠΟΓΡΑΦΗ?
Ο όρος εισήχθη από τους Phelps και Wilensky
Μικρό σύνολο όρων που συλλαμβάνει τη «σχετικότητα» ενός
εγγράφου
Οι Phelps και Wilensky υπέθεσαν 5 όρους
Χαρακτηρίζονται ως «lightweight metadata»
12. ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΟΠΩΣ
ΠΡΟΤΕΙΝΟΝΤΑΙ ΑΠΟ ΤΟΥΣ PHELPS KAI
WILENSKY
“Robust Hyperlink” κοστίζει 5 λέξεις η κάθε μία
Επισυνάπτεται η λεκτική υπογραφή στο URL:
Περιορισμοί:
1. εφαρμογές (φυλλομετρητές) χρειάζεται να τροποποιηθούν για να
εκμεταλλευτούν τις λεκτικές υπογραφές
2. οι λεκτικές υπογραφές χρειάζεται να υπολογιστούν
προκαταβολικά
3. δουλεύουν καλά με τα περισσότερα URLs αλλά όχι με όλα
13.
14. ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ
ΥΠΟΓΡΑΦΕΣ
Τerm Frequency (TF) = «πόσο συχνά
εμφανίζεται ο όρος σε ένα έγγραφο?»
Inverse Document Frequency (IDF) = «σε
πόσα έγγραφα εμφανίζεται ο όρος?»
15. ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ
ΥΠΟΓΡΑΦΕΣ (2)
Park et al. ερεύνησαν την απόδοση από ποικίλους
αλγόριθμους παραγωγής λεκτικών υπογραφών
Αξιολόγηση των TF – IDF
Η βαρύτητα στην TF αυξάνει την ανάκτηση
Η βαρύτητα στην IDF βελτιώνει την ακρίβεια
Υπέθεσαν ότι το «5» είναι καλό νούμερο
Συνέκριναν τα αποτελέσματα μετά από 6 μήνες αλλά
δεν ανέλυσαν σε βάθος τις λεκτικές υπογραφές στη
διάρκεια των χρόνων.
16. ΣΧΕΔΙΑΣΜΟΣ ΠΕΙΡΑΜΑΤΟΣ
Κύριο αντικείμενο πειράματος= έρευνα εξέλιξης
λεκτικών υπογραφών στο χρόνο, η επικάλυψη των
όρων τους και η απόδοσή τους στην ανακάλυψη του
URL του πόρου.
Για λόγους απλότητας λήφθησαν ως δείγμα τυχαία
300 ιστοσελίδες από το dmoz.org
Επιλέχθηκαν μόνο URLs με κατάληξη
.com,.org,.net,.edu διότι θα είχαν περισσότερα
αντίγραφα στο αρχείο του διαδικτύου
Αποκλείστηκαν οι μη αγγλόγλωσσες ιστοσελίδες και
όλες οι ιστοσελίδες με λιγότερες από 50 λέξεις στο
περιεχόμενο.
17. ΕΞΕΛΙΞΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΗ
ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ
ΑΝΤΙΓΡΑΦΑ ΙΣΤΟΣΕΛΙΔΩΝ ΑΠΟ ΤΟ ΑΡΧΕΙΟ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ
(1996-2007)
18. ΕΞΕΛΙΞΗ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ
ΤΟΥ ΧΡΟΝΟΥ-- ΠΑΡΑΔΕΙΓΜΑ
Στο πείραμα υπάρχουν αντίγραφα από ιστοσελίδες από το 1996 ως το
2007 και η επιθυμία είναι να δημιουργηθούν οι λεκτικές υπογραφές
τους- υπολογίζονται οι συχνότητες όρων από όλες τις ιστοσελίδες για
ένα συγκεκριμένο χρόνο.
19. ΔΥΟ ΜΕΘΟΔΟΙ ΓΙΑ ΤΗ ΜΕΤΡΗΣΗ
ΤΗΣ ΕΞΕΛΙΞΗΣ
Παράγονται λεκτικές υπογραφές από αντίγραφα των
URLs
Διεξάγεται μια ανάλυση επικάλυψης
Rooted= επικάλυψη μεταξύ λεκτικής υπογραφής του
χρόνου της πρώτης παρατήρησης στο αρχείο του
διαδικτύου και όλες οι λεκτικές υπογραφές των
συνεχόμενων χρόνων των οποίων παρατηρούνται
τα URLs.
Sliding= επικάλυψη μεταξύ δύο λεκτικών
υπογραφών συνεχόμενων χρόνων ξεκινώντας από
το πρώτο έτος και τελειώνοντας με το τελευταίο.
Η επικάλυψη όρων είναι ο αριθμός των όρων δύο
λεκτικών υπογραφών που έχουν κοινούς π.χ. αν
δύο λεκτικές υπογραφές των 10 όρων έχουν 4 όρους
κοινούς η επικάλυψη τους είναι 4/10=0,4
20. ΕΞΕΛΙΞΗ ΣΤΟ ΧΡΟΝΟ - ROOTED
Γενικά παρατηρείται χαμηλή βαθμολογία επικάλυψης στην
Rooted
Οι αξίες είναι υψηλές τα πρώτα χρόνια μετά τη δημιουργία της
LS και μετά πέφτουν
Αποδεικνύεται ότι οι LS φθείρονται μέσα σε λίγα χρόνια μετά
τη δημιουργία τους
21. ΕΞΕΛΙΞΗ ΑΝΑ ΤΟ ΧΡΟΝΟ -
SLIDING
H επικάλυψη αυξάνεται στην πορεία του
χρόνου
22. ΥΠΟΒΟΛΗ ΛΕΚΤΙΚΩΝ
ΥΠΟΓΡΑΦΩΝ ΣΤΟ GOOGLE
Με τις λεκτικές υπογραφές σχηματίστηκαν
ερωτήματα που εισήχθησαν στο google για την
ταυτοποίηση της κατάταξης των ανταποκρινόμενων
URLs
Διάκριση 3 περιπτώσεων ταυτοποίησης URL:
Κατάταξη στην κορυφή
Κατάταξη μεταξύ 1 και 100
Κατάταξη μετά το 100 (θεωρείται μη ανακαλύψιμο)
23. ΚΑΤΑΝΟΜΗ URL VS ΑΡΙΘΜΟ ΟΡΩΝ ΣΤΙΣ
ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ
2-3 και 4 όρων λεκτικές υπογραφές αποδίδουν φτωχά
5-6 και 7 όρων λεκτικές υπογραφές φαίνονται καλύτερες
κύρια αξία μέσης κατάταξης με 5 όρους
Οι περισσότερες κορυφαία καταταγμένες με 7 όρους
Binary pattern: είτε στην κορυφαία 10 ή μη ανακαλύψιμα
8+ όροι – μειώνεται η απόδοση
24. ΒΑΘΜΟΛΟΓΙΑ ΑΞΙΟΛΟΓΗΣΗΣ
ΛΕΚΤΙΚΗΣ ΥΠΟΓΡΑΦΗΣ
Park et al. κατηγοριοποίησαν τα
επιστρεφόμενα URLs σε 4 κατηγορίες για την
αξιολόγηση της απόδοσης των λεκτικών
υπογραφών
Οι 4 κατηγορίες εντάχθησαν σε δύο
βαθμολογίες αξιολόγησης της απόδοσης των
λεκτικών υπογραφών : fair και optimistic
25. Στο σχήμα 3 παρουσιάζονται οι μέσες αξίες για τις
βαθμολογίες fair και optimistic σε όλα τα χρόνια.
26.
27. ΣΥΜΠΕΡΑΣΜΑΤΑ
Οι λεκτικές υπογραφές φθίνουν κατά τη
διάρκεια του χρόνου, οι τίτλοι λιγότερο
Rooted: αμέσως μετά την παραγωγή
Sliding: φαίνεται να σταθεροποιεί τις
LS από το 2003 και μετά
Οι LS δεν πρέπει να δημιουργούνται
προκαταβολικά διότι το περιεχόμενο
των ιστοσελίδων αλλάζει δραματικά
στην πορεία του χρόνου
28. ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ
Οι λεκτικές υπογραφές=ακριβές για να
παραχθούν
Οι τίτλοι των ιστοσελίδων είναι διαθέσιμοι με
χαμηλότερο κόστος
Χαμηλός βαθμός αλλαγής τίτλων στην
διάρκεια του χρόνου σε σχέση με τις LS
Οι LS βασίζονται στο περιεχόμενο
ολόκληρης της σελίδας, το οποίο αλλάζει πιο
συχνά από το γενικό τίτλο της ιστοσελίδας.