SlideShare a Scribd company logo
1 of 35
ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ
       ΣΠΟΥΔΩΝ


 ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ
     ΔΗΜΟΣΙΕΥΣΗ

    ΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ




  ΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗ
REVISITING LEXICAL SIGNATURES
 TO (RE-)DISCOVER WEB PAGES

      MARTIN KLEIN AND L. NELSON


   OLD DOMINION UNIVERSITY, DEPARTMENT OF
             COMPUTER SCIENCE
ΠΕΡΙΛΗΨΗ
Στο άρθρο παρουσιάζεται ένα πείραμα που
έγινε στα πλαίσια μιας έρευνας για τις
σελίδες του διαδικτύου που χάνονται

Για το πείραμα αυτό χρησιμοποιήθηκαν
λεκτικές υπογραφές (Lexical Signatures) με
τις οποίες πραγματοποιείται η ανακάλυψη
των χαμένων ιστοσελίδων
ΤΟ ΠΡΟΒΛΗΜΑ

Χαμένες ιστοσελίδες – σύνδεσμοι στο web που «σπάνε»
   404 http status code
    “page not found”

H πληροφορία στο web χάνεται πραγματικά?

Ο ισχυρισμός είναι ότι απλά λείπει και σπάνια χάνεται
ολοκληρωτικά από το web

To περιεχόμενο μετακινείται από το ένα URL στο άλλο
ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ
    (LEXICAL SIGNATURES)
λεκτική υπογραφή είναι ένα μικρό σύνολο
όρων που προέρχονται από ένα έγγραφο και
δίνουν τη «σχετικότητα» του.

Λεκτικές υπογραφές παράγονται για
δυνητικά χαμένα έγγραφα και
ανατροφοδοτούνται σε αυτό που
αποκαλούμε web Infrastructure για την
επανεύρεση αυτών των εγγράφων.
ΤΟ ΠΕΡΙΒΑΛΛΟΝ
WEB INFRASTRUCTURE (WI)
Web μηχανές αναζήτησης (google,Yahoo, MSN Live)
Projects έρευνας (CiteSeer, NSDL)
Αρχεία στο Web (Internet Archive, Web Base)
ΠΩΣ ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ
ΕΞΕΛΙΣΣΟΝΤΑΙ ΣΤΗΝ ΠΟΡΕΙΑ ΤΟΥ ΧΡΟΝΟΥ
ΚΑΙ ΠΩΣ ΑΥΤΟΣ ΕΠΗΡΕΑΖΕΙ ΤΗΝ ΑΠΟΔΟΣΗ
 ΤΟΥΣ ΣΤΗΝ ΕΠΑΝΕΥΡΕΣΗ ΙΣΤΟΣΕΛΙΔΩΝ?
ΜΕΡΗ ΕΡΕΥΝΑΣ

Υποβάλλονται οι λεκτικές υπογραφές στο google και ερευνάται
η απόδοσή τους αναλύοντας την κατάταξη του URL

Η σύνθεση των λεκτικών υπογραφών γίνεται με διάκριση τους
σε 2-10 όρους

Διεξήχθη μια ανάλυση επικάλυψης όλων των λεκτικών
υπογραφών για περαιτέρω έρευνα της εξέλιξης τους στη
διάρκεια του χρόνου.

Σ’ αυτή την έρευνα υποτέθηκε ότι ιστοσελίδες λείπουν και
χρησιμοποιήθηκαν αντίγραφα τους από το αρχείο του
διαδικτύου για την παραγωγή λεκτικών υπογραφών.
ΤΙ ΕΙΝΑΙ ΜΙΑ ΛΕΚΤΙΚΗ
            ΥΠΟΓΡΑΦΗ?
Ο όρος εισήχθη από τους Phelps και Wilensky
Μικρό σύνολο όρων που συλλαμβάνει τη «σχετικότητα» ενός
εγγράφου
Οι Phelps και Wilensky υπέθεσαν 5 όρους
Χαρακτηρίζονται ως «lightweight metadata»
ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΟΠΩΣ
  ΠΡΟΤΕΙΝΟΝΤΑΙ ΑΠΟ ΤΟΥΣ PHELPS KAI
              WILENSKY
“Robust Hyperlink” κοστίζει 5 λέξεις η κάθε μία
Επισυνάπτεται η λεκτική υπογραφή στο URL:
Περιορισμοί:
  1. εφαρμογές (φυλλομετρητές) χρειάζεται να τροποποιηθούν για να
εκμεταλλευτούν τις λεκτικές υπογραφές
  2. οι λεκτικές υπογραφές χρειάζεται να υπολογιστούν
προκαταβολικά

  3. δουλεύουν καλά με τα περισσότερα URLs αλλά όχι με όλα
ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ
      ΥΠΟΓΡΑΦΕΣ
Τerm Frequency (TF) = «πόσο συχνά
εμφανίζεται ο όρος σε ένα έγγραφο?»
Inverse Document Frequency (IDF) = «σε
πόσα έγγραφα εμφανίζεται ο όρος?»
ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ
     ΥΠΟΓΡΑΦΕΣ (2)

Park et al. ερεύνησαν την απόδοση από ποικίλους
αλγόριθμους παραγωγής λεκτικών υπογραφών
Αξιολόγηση των TF – IDF
Η βαρύτητα στην TF αυξάνει την ανάκτηση
Η βαρύτητα στην IDF βελτιώνει την ακρίβεια
Υπέθεσαν ότι το «5» είναι καλό νούμερο
Συνέκριναν τα αποτελέσματα μετά από 6 μήνες αλλά
δεν ανέλυσαν σε βάθος τις λεκτικές υπογραφές στη
διάρκεια των χρόνων.
ΣΧΕΔΙΑΣΜΟΣ ΠΕΙΡΑΜΑΤΟΣ
Κύριο αντικείμενο πειράματος= έρευνα εξέλιξης
λεκτικών υπογραφών στο χρόνο, η επικάλυψη των
όρων τους και η απόδοσή τους στην ανακάλυψη του
URL του πόρου.
Για λόγους απλότητας λήφθησαν ως δείγμα τυχαία
300 ιστοσελίδες από το dmoz.org
Επιλέχθηκαν μόνο URLs με κατάληξη
.com,.org,.net,.edu διότι θα είχαν περισσότερα
αντίγραφα στο αρχείο του διαδικτύου
Αποκλείστηκαν οι μη αγγλόγλωσσες ιστοσελίδες και
όλες οι ιστοσελίδες με λιγότερες από 50 λέξεις στο
περιεχόμενο.
ΕΞΕΛΙΞΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΗ
         ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ
ΑΝΤΙΓΡΑΦΑ ΙΣΤΟΣΕΛΙΔΩΝ ΑΠΟ ΤΟ ΑΡΧΕΙΟ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ
                    (1996-2007)
ΕΞΕΛΙΞΗ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ
ΤΟΥ ΧΡΟΝΟΥ-- ΠΑΡΑΔΕΙΓΜΑ
Στο πείραμα υπάρχουν αντίγραφα από ιστοσελίδες από το 1996 ως το
2007 και η επιθυμία είναι να δημιουργηθούν οι λεκτικές υπογραφές
τους- υπολογίζονται οι συχνότητες όρων από όλες τις ιστοσελίδες για
ένα συγκεκριμένο χρόνο.
ΔΥΟ ΜΕΘΟΔΟΙ ΓΙΑ ΤΗ ΜΕΤΡΗΣΗ
       ΤΗΣ ΕΞΕΛΙΞΗΣ
 Παράγονται λεκτικές υπογραφές από αντίγραφα των
 URLs
 Διεξάγεται μια ανάλυση επικάλυψης
 Rooted= επικάλυψη μεταξύ λεκτικής υπογραφής του
 χρόνου της πρώτης παρατήρησης στο αρχείο του
 διαδικτύου και όλες οι λεκτικές υπογραφές των
 συνεχόμενων χρόνων των οποίων παρατηρούνται
 τα URLs.
 Sliding= επικάλυψη μεταξύ δύο λεκτικών
 υπογραφών συνεχόμενων χρόνων ξεκινώντας από
 το πρώτο έτος και τελειώνοντας με το τελευταίο.
 Η επικάλυψη όρων είναι ο αριθμός των όρων δύο
 λεκτικών υπογραφών που έχουν κοινούς π.χ. αν
 δύο λεκτικές υπογραφές των 10 όρων έχουν 4 όρους
 κοινούς η επικάλυψη τους είναι 4/10=0,4
ΕΞΕΛΙΞΗ ΣΤΟ ΧΡΟΝΟ - ROOTED
Γενικά παρατηρείται χαμηλή βαθμολογία επικάλυψης στην
Rooted
Οι αξίες είναι υψηλές τα πρώτα χρόνια μετά τη δημιουργία της
LS και μετά πέφτουν
Αποδεικνύεται ότι οι LS φθείρονται μέσα σε λίγα χρόνια μετά
τη δημιουργία τους
ΕΞΕΛΙΞΗ ΑΝΑ ΤΟ ΧΡΟΝΟ -
         SLIDING
H επικάλυψη αυξάνεται στην πορεία του
χρόνου
ΥΠΟΒΟΛΗ ΛΕΚΤΙΚΩΝ
ΥΠΟΓΡΑΦΩΝ ΣΤΟ GOOGLE

Με τις λεκτικές υπογραφές σχηματίστηκαν
ερωτήματα που εισήχθησαν στο google για την
ταυτοποίηση της κατάταξης των ανταποκρινόμενων
URLs
Διάκριση 3 περιπτώσεων ταυτοποίησης URL:
Κατάταξη στην κορυφή
Κατάταξη μεταξύ 1 και 100
Κατάταξη μετά το 100 (θεωρείται μη ανακαλύψιμο)
ΚΑΤΑΝΟΜΗ URL VS ΑΡΙΘΜΟ ΟΡΩΝ ΣΤΙΣ
      ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ
 2-3 και 4 όρων λεκτικές υπογραφές αποδίδουν φτωχά
 5-6 και 7 όρων λεκτικές υπογραφές φαίνονται καλύτερες
 κύρια αξία μέσης κατάταξης με 5 όρους
 Οι περισσότερες κορυφαία καταταγμένες με 7 όρους
 Binary pattern: είτε στην κορυφαία 10 ή μη ανακαλύψιμα
 8+ όροι – μειώνεται η απόδοση
ΒΑΘΜΟΛΟΓΙΑ ΑΞΙΟΛΟΓΗΣΗΣ
  ΛΕΚΤΙΚΗΣ ΥΠΟΓΡΑΦΗΣ

Park et al. κατηγοριοποίησαν τα
επιστρεφόμενα URLs σε 4 κατηγορίες για την
αξιολόγηση της απόδοσης των λεκτικών
υπογραφών

Οι 4 κατηγορίες εντάχθησαν σε δύο
βαθμολογίες αξιολόγησης της απόδοσης των
λεκτικών υπογραφών : fair και optimistic
Στο σχήμα 3 παρουσιάζονται οι μέσες αξίες για τις
βαθμολογίες fair και optimistic σε όλα τα χρόνια.
ΣΥΜΠΕΡΑΣΜΑΤΑ

Οι λεκτικές υπογραφές φθίνουν κατά τη
διάρκεια του χρόνου, οι τίτλοι λιγότερο
Rooted: αμέσως μετά την παραγωγή
Sliding: φαίνεται να σταθεροποιεί τις
LS από το 2003 και μετά
Οι LS δεν πρέπει να δημιουργούνται
προκαταβολικά διότι το περιεχόμενο
των ιστοσελίδων αλλάζει δραματικά
στην πορεία του χρόνου
ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ
Οι λεκτικές υπογραφές=ακριβές για να
παραχθούν
Οι τίτλοι των ιστοσελίδων είναι διαθέσιμοι με
χαμηλότερο κόστος
Χαμηλός βαθμός αλλαγής τίτλων στην
διάρκεια του χρόνου σε σχέση με τις LS
Οι LS βασίζονται στο περιεχόμενο
ολόκληρης της σελίδας, το οποίο αλλάζει πιο
συχνά από το γενικό τίτλο της ιστοσελίδας.
ΠΟΣΟ ΜΕΡΟΣ ΑΠΟ ΤΟ WEB
EINAI ΕΥΡΕΤΗΡΙΑΣΜΕΝΟ?
ΙΔΙΟ URL , ΙΔΙΟ ΠΕΡΙΕΧΟΜΕΝΟ
ΙΔΙΟ URL, ΔΙΑΦΟΡΕΤΙΚΟ
     ΠΕΡΙΕΧΟΜΕΝΟ
ΙΔΙΟ ΠΕΡΙΕΧΟΜΕΝΟ,
 ΔΙΑΦΟΡΕΤΙΚΟ URL
ΠΑΡΟΜΟΙΟ ΠΕΡΙΕΧΟΜΕΝΟ,
   ΔΙΑΦΟΡΕΤΙΚΟ URL
ΠΕΡΙΕΧΟΜΕΝΟ ΠΟΥ ΔΕΝ
ΕΝΤΟΠΙΖΕΤΑΙ ΣΕ ΚΑΝΕΝΑ URL
ΤΕΛΟΣ!!!!!!

ΣΑΣ ΕΥΧΑΡΙΣΤΩ!!!!

More Related Content

Viewers also liked

Viewers also liked (12)

Mojo contents page and double page spred analisis (2)
Mojo contents page and double page spred analisis (2)Mojo contents page and double page spred analisis (2)
Mojo contents page and double page spred analisis (2)
 
Jb fezard2
Jb fezard2Jb fezard2
Jb fezard2
 
Ativ 2 8_poster_kcalves
Ativ 2 8_poster_kcalvesAtiv 2 8_poster_kcalves
Ativ 2 8_poster_kcalves
 
Animating yourcoursebook
Animating yourcoursebookAnimating yourcoursebook
Animating yourcoursebook
 
Veeloomad
VeeloomadVeeloomad
Veeloomad
 
Robocode
RobocodeRobocode
Robocode
 
Presentation1
Presentation1Presentation1
Presentation1
 
Vorzel residency
Vorzel residencyVorzel residency
Vorzel residency
 
HR organizer e iDocCloud
HR organizer e iDocCloudHR organizer e iDocCloud
HR organizer e iDocCloud
 
6. proyecto integral para el desarrollo agrícola pidaasse
6.  proyecto integral para el desarrollo agrícola pidaasse6.  proyecto integral para el desarrollo agrícola pidaasse
6. proyecto integral para el desarrollo agrícola pidaasse
 
Finding history resources 2000
Finding history resources 2000Finding history resources 2000
Finding history resources 2000
 
CSS
CSSCSS
CSS
 

ηλεκτρονικη δημοσιευση

  • 1. ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ ΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗ
  • 2. REVISITING LEXICAL SIGNATURES TO (RE-)DISCOVER WEB PAGES MARTIN KLEIN AND L. NELSON OLD DOMINION UNIVERSITY, DEPARTMENT OF COMPUTER SCIENCE
  • 3. ΠΕΡΙΛΗΨΗ Στο άρθρο παρουσιάζεται ένα πείραμα που έγινε στα πλαίσια μιας έρευνας για τις σελίδες του διαδικτύου που χάνονται Για το πείραμα αυτό χρησιμοποιήθηκαν λεκτικές υπογραφές (Lexical Signatures) με τις οποίες πραγματοποιείται η ανακάλυψη των χαμένων ιστοσελίδων
  • 4. ΤΟ ΠΡΟΒΛΗΜΑ Χαμένες ιστοσελίδες – σύνδεσμοι στο web που «σπάνε» 404 http status code “page not found” H πληροφορία στο web χάνεται πραγματικά? Ο ισχυρισμός είναι ότι απλά λείπει και σπάνια χάνεται ολοκληρωτικά από το web To περιεχόμενο μετακινείται από το ένα URL στο άλλο
  • 5. ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ (LEXICAL SIGNATURES) λεκτική υπογραφή είναι ένα μικρό σύνολο όρων που προέρχονται από ένα έγγραφο και δίνουν τη «σχετικότητα» του. Λεκτικές υπογραφές παράγονται για δυνητικά χαμένα έγγραφα και ανατροφοδοτούνται σε αυτό που αποκαλούμε web Infrastructure για την επανεύρεση αυτών των εγγράφων.
  • 6. ΤΟ ΠΕΡΙΒΑΛΛΟΝ WEB INFRASTRUCTURE (WI) Web μηχανές αναζήτησης (google,Yahoo, MSN Live) Projects έρευνας (CiteSeer, NSDL) Αρχεία στο Web (Internet Archive, Web Base)
  • 7. ΠΩΣ ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΕΞΕΛΙΣΣΟΝΤΑΙ ΣΤΗΝ ΠΟΡΕΙΑ ΤΟΥ ΧΡΟΝΟΥ ΚΑΙ ΠΩΣ ΑΥΤΟΣ ΕΠΗΡΕΑΖΕΙ ΤΗΝ ΑΠΟΔΟΣΗ ΤΟΥΣ ΣΤΗΝ ΕΠΑΝΕΥΡΕΣΗ ΙΣΤΟΣΕΛΙΔΩΝ?
  • 8.
  • 9. ΜΕΡΗ ΕΡΕΥΝΑΣ Υποβάλλονται οι λεκτικές υπογραφές στο google και ερευνάται η απόδοσή τους αναλύοντας την κατάταξη του URL Η σύνθεση των λεκτικών υπογραφών γίνεται με διάκριση τους σε 2-10 όρους Διεξήχθη μια ανάλυση επικάλυψης όλων των λεκτικών υπογραφών για περαιτέρω έρευνα της εξέλιξης τους στη διάρκεια του χρόνου. Σ’ αυτή την έρευνα υποτέθηκε ότι ιστοσελίδες λείπουν και χρησιμοποιήθηκαν αντίγραφα τους από το αρχείο του διαδικτύου για την παραγωγή λεκτικών υπογραφών.
  • 10.
  • 11. ΤΙ ΕΙΝΑΙ ΜΙΑ ΛΕΚΤΙΚΗ ΥΠΟΓΡΑΦΗ? Ο όρος εισήχθη από τους Phelps και Wilensky Μικρό σύνολο όρων που συλλαμβάνει τη «σχετικότητα» ενός εγγράφου Οι Phelps και Wilensky υπέθεσαν 5 όρους Χαρακτηρίζονται ως «lightweight metadata»
  • 12. ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΟΠΩΣ ΠΡΟΤΕΙΝΟΝΤΑΙ ΑΠΟ ΤΟΥΣ PHELPS KAI WILENSKY “Robust Hyperlink” κοστίζει 5 λέξεις η κάθε μία Επισυνάπτεται η λεκτική υπογραφή στο URL: Περιορισμοί: 1. εφαρμογές (φυλλομετρητές) χρειάζεται να τροποποιηθούν για να εκμεταλλευτούν τις λεκτικές υπογραφές 2. οι λεκτικές υπογραφές χρειάζεται να υπολογιστούν προκαταβολικά 3. δουλεύουν καλά με τα περισσότερα URLs αλλά όχι με όλα
  • 13.
  • 14. ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ Τerm Frequency (TF) = «πόσο συχνά εμφανίζεται ο όρος σε ένα έγγραφο?» Inverse Document Frequency (IDF) = «σε πόσα έγγραφα εμφανίζεται ο όρος?»
  • 15. ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ (2) Park et al. ερεύνησαν την απόδοση από ποικίλους αλγόριθμους παραγωγής λεκτικών υπογραφών Αξιολόγηση των TF – IDF Η βαρύτητα στην TF αυξάνει την ανάκτηση Η βαρύτητα στην IDF βελτιώνει την ακρίβεια Υπέθεσαν ότι το «5» είναι καλό νούμερο Συνέκριναν τα αποτελέσματα μετά από 6 μήνες αλλά δεν ανέλυσαν σε βάθος τις λεκτικές υπογραφές στη διάρκεια των χρόνων.
  • 16. ΣΧΕΔΙΑΣΜΟΣ ΠΕΙΡΑΜΑΤΟΣ Κύριο αντικείμενο πειράματος= έρευνα εξέλιξης λεκτικών υπογραφών στο χρόνο, η επικάλυψη των όρων τους και η απόδοσή τους στην ανακάλυψη του URL του πόρου. Για λόγους απλότητας λήφθησαν ως δείγμα τυχαία 300 ιστοσελίδες από το dmoz.org Επιλέχθηκαν μόνο URLs με κατάληξη .com,.org,.net,.edu διότι θα είχαν περισσότερα αντίγραφα στο αρχείο του διαδικτύου Αποκλείστηκαν οι μη αγγλόγλωσσες ιστοσελίδες και όλες οι ιστοσελίδες με λιγότερες από 50 λέξεις στο περιεχόμενο.
  • 17. ΕΞΕΛΙΞΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΗ ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ ΑΝΤΙΓΡΑΦΑ ΙΣΤΟΣΕΛΙΔΩΝ ΑΠΟ ΤΟ ΑΡΧΕΙΟ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ (1996-2007)
  • 18. ΕΞΕΛΙΞΗ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ-- ΠΑΡΑΔΕΙΓΜΑ Στο πείραμα υπάρχουν αντίγραφα από ιστοσελίδες από το 1996 ως το 2007 και η επιθυμία είναι να δημιουργηθούν οι λεκτικές υπογραφές τους- υπολογίζονται οι συχνότητες όρων από όλες τις ιστοσελίδες για ένα συγκεκριμένο χρόνο.
  • 19. ΔΥΟ ΜΕΘΟΔΟΙ ΓΙΑ ΤΗ ΜΕΤΡΗΣΗ ΤΗΣ ΕΞΕΛΙΞΗΣ Παράγονται λεκτικές υπογραφές από αντίγραφα των URLs Διεξάγεται μια ανάλυση επικάλυψης Rooted= επικάλυψη μεταξύ λεκτικής υπογραφής του χρόνου της πρώτης παρατήρησης στο αρχείο του διαδικτύου και όλες οι λεκτικές υπογραφές των συνεχόμενων χρόνων των οποίων παρατηρούνται τα URLs. Sliding= επικάλυψη μεταξύ δύο λεκτικών υπογραφών συνεχόμενων χρόνων ξεκινώντας από το πρώτο έτος και τελειώνοντας με το τελευταίο. Η επικάλυψη όρων είναι ο αριθμός των όρων δύο λεκτικών υπογραφών που έχουν κοινούς π.χ. αν δύο λεκτικές υπογραφές των 10 όρων έχουν 4 όρους κοινούς η επικάλυψη τους είναι 4/10=0,4
  • 20. ΕΞΕΛΙΞΗ ΣΤΟ ΧΡΟΝΟ - ROOTED Γενικά παρατηρείται χαμηλή βαθμολογία επικάλυψης στην Rooted Οι αξίες είναι υψηλές τα πρώτα χρόνια μετά τη δημιουργία της LS και μετά πέφτουν Αποδεικνύεται ότι οι LS φθείρονται μέσα σε λίγα χρόνια μετά τη δημιουργία τους
  • 21. ΕΞΕΛΙΞΗ ΑΝΑ ΤΟ ΧΡΟΝΟ - SLIDING H επικάλυψη αυξάνεται στην πορεία του χρόνου
  • 22. ΥΠΟΒΟΛΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΟ GOOGLE Με τις λεκτικές υπογραφές σχηματίστηκαν ερωτήματα που εισήχθησαν στο google για την ταυτοποίηση της κατάταξης των ανταποκρινόμενων URLs Διάκριση 3 περιπτώσεων ταυτοποίησης URL: Κατάταξη στην κορυφή Κατάταξη μεταξύ 1 και 100 Κατάταξη μετά το 100 (θεωρείται μη ανακαλύψιμο)
  • 23. ΚΑΤΑΝΟΜΗ URL VS ΑΡΙΘΜΟ ΟΡΩΝ ΣΤΙΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ 2-3 και 4 όρων λεκτικές υπογραφές αποδίδουν φτωχά 5-6 και 7 όρων λεκτικές υπογραφές φαίνονται καλύτερες κύρια αξία μέσης κατάταξης με 5 όρους Οι περισσότερες κορυφαία καταταγμένες με 7 όρους Binary pattern: είτε στην κορυφαία 10 ή μη ανακαλύψιμα 8+ όροι – μειώνεται η απόδοση
  • 24. ΒΑΘΜΟΛΟΓΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΛΕΚΤΙΚΗΣ ΥΠΟΓΡΑΦΗΣ Park et al. κατηγοριοποίησαν τα επιστρεφόμενα URLs σε 4 κατηγορίες για την αξιολόγηση της απόδοσης των λεκτικών υπογραφών Οι 4 κατηγορίες εντάχθησαν σε δύο βαθμολογίες αξιολόγησης της απόδοσης των λεκτικών υπογραφών : fair και optimistic
  • 25. Στο σχήμα 3 παρουσιάζονται οι μέσες αξίες για τις βαθμολογίες fair και optimistic σε όλα τα χρόνια.
  • 26.
  • 27. ΣΥΜΠΕΡΑΣΜΑΤΑ Οι λεκτικές υπογραφές φθίνουν κατά τη διάρκεια του χρόνου, οι τίτλοι λιγότερο Rooted: αμέσως μετά την παραγωγή Sliding: φαίνεται να σταθεροποιεί τις LS από το 2003 και μετά Οι LS δεν πρέπει να δημιουργούνται προκαταβολικά διότι το περιεχόμενο των ιστοσελίδων αλλάζει δραματικά στην πορεία του χρόνου
  • 28. ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ Οι λεκτικές υπογραφές=ακριβές για να παραχθούν Οι τίτλοι των ιστοσελίδων είναι διαθέσιμοι με χαμηλότερο κόστος Χαμηλός βαθμός αλλαγής τίτλων στην διάρκεια του χρόνου σε σχέση με τις LS Οι LS βασίζονται στο περιεχόμενο ολόκληρης της σελίδας, το οποίο αλλάζει πιο συχνά από το γενικό τίτλο της ιστοσελίδας.
  • 29. ΠΟΣΟ ΜΕΡΟΣ ΑΠΟ ΤΟ WEB EINAI ΕΥΡΕΤΗΡΙΑΣΜΕΝΟ?
  • 30. ΙΔΙΟ URL , ΙΔΙΟ ΠΕΡΙΕΧΟΜΕΝΟ
  • 31. ΙΔΙΟ URL, ΔΙΑΦΟΡΕΤΙΚΟ ΠΕΡΙΕΧΟΜΕΝΟ
  • 33. ΠΑΡΟΜΟΙΟ ΠΕΡΙΕΧΟΜΕΝΟ, ΔΙΑΦΟΡΕΤΙΚΟ URL

Editor's Notes

  1. ωφγγγγξηγγφηγη