Ws 13-3(2010-11)

542 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
542
On SlideShare
0
From Embeds
0
Number of Embeds
116
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ws 13-3(2010-11)

  1. 1. INTERNET TECHNOLOGIES The Syntactic Web, Web Information Retrieval algorithms & Search Engine Technologies Part I Αναγνωστόπουλος Ι. INTERNET TECHNOLOGIESΠερισσότερα στατιστικά:nua.ie, mids.org, ripe.net, netcraft.com, gvu.gatech.edu, netsizer.com (Telcordia), caida.com,isoc.org 1
  2. 2. INTERNET TECHNOLOGIESΜηχανές Αναζήτησης (ΜΑ)Οι µηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισµικού µε την βοήθεια των οποίων οιχρήστες µπορούν να προσπελάσουν αποµακρυσµένες πηγές πληροφορίας και δικτυακούςτόπους – ιστοχώρους.∆ιακρίνονται σε: Αυτόµατες ΜΑ [Crawlers] Google, AltaVista, Excite, AllTheWeb, Lycos, MSN (Bing) Θεµατικούς Κατάλογους Yahoo!, Open Directory Project (DMOZ), Looksmart Άλλες AskJeeves (επεξεργασία φυσικής γλώσσας), Overture (Paid Listings Search Engines ) Συνεργασία µεταξύ τους ... INTERNET TECHNOLOGIES Μηχανισµοί µιας Αυτόµατης Μ.Α. 2
  3. 3. INTERNET TECHNOLOGIES Αντεστραµµένα αρχείαΛέξεις IDs κειµένων βιβλίο 1, 2, 10, 30, ... µολύβι 1, 2, 10, 40, 43, ... ταινία 11, 21, 22, 23, ... ήχος 4, 6, 8, ...• Μία δοµή αντεστραµµένου αρχείου αποτελείται από: – Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές λέξεις του κειµένου, και – Μία λίστα κειµένων για κάθε διακριτή λέξη INTERNET TECHNOLOGIES 3
  4. 4. INTERNET TECHNOLOGIES INTERNET TECHNOLOGIESΧαρακτηριστικά των Μ.Α.: Εξωτερικά χαρακτηριστικάAφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήµατα της “σύλληψης”, της συλλογής καιτης σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών,επηρεάζουν την αναζήτησή του και τα επιστρεφόµενα αποτελέσµατα που λαµβάνει. Από τηνάλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιµη για τουςυπεύθυνους και τους δηµιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο µε τονοποίο µια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης τηςιστοσελίδας ανάλογα µε τις ερωτήσεις που υποβάλλει ο χρήστης. Εσωτερικά χαρακτηριστικάΤο σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριώναπό την µεριά του χρήστη. Σε αντίθεση µε τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τουςδηµιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούνπερισσότερο τους τελικούς χρήστες των Μ.Α. (δεν ισχύει βέβαια πάντα αυτό) 4
  5. 5. INTERNET TECHNOLOGIESΕξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόµατης αναζήτησης ιστοσελίδων Υποστήριξη πλαισίων Σύνταξη - Χαρτογράφηση εικόνων Αποτροπή αυτόµατης ανίχνευσης ιστοχώρου Robots Exclusion Protocol Η αποτροπή αυτή γίνεται µε την εφαρµογή µιας εντολής που προστίθεται σε ένα ειδικά καθορισµένο πεδίο των µετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας Υπερκειµενικής Σήµανσης της ιστοσελίδας. Αποτροπή αυτόµατης ανίχνευσης ιστοσελίδας Robots Exclusion META tag Αναφορά από άλλες υπερσυνδέσµους Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί ταυτόχρονα και ένα µέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους καταλόγους και τα ευρετήρια αναζήτησης. Ανίχνευση ανανέωσης περιεχοµένου Ειδική προβολή µε πληρωµή INTERNET TECHNOLOGIESΕξωτερικά χαρακτηριστικά – χαρακτηριστικά σύνταξης ιστοσελίδων Σύνταξη “ορατού” κειµένου Αποβολή κοινών λέξεων Υποστήριξη πεδίων µετά-ετικετών ∆ηµιουργία παραγώγων λέξεωνΕξωτερικά χαρακτηριστικά – χαρακτηριστικά κατάταξης αποτελεσµάτων Στάθµιση των πεδίων µετα-ετικετών Στάθµιση σε αναφορές από άλλους υπερσυνδέσµους Στάθµιση ανάλογα µε την επιλογή των αποτελεσµάτων Μέθοδοι σχετικής ανατροφοδότησης – HotbotΕξωτερικά χαρακτηριστικά – Αναγνώριση και αντιµετώπιση τεχνικών Spam Αντιµετώπιση “αόρατου” κειµένου Αντιµετώπιση κειµένου ελάχιστου µεγέθους 5
  6. 6. INTERNET TECHNOLOGIESΕσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίαςΜαθηµατικές Εντολές αναζήτησης – εντολές Boolean τύπου Τελεστής "AND" ή "+" Τελεστής "NOT" ή "-" Τελεστής "OR" Ο τελεστής "ADJ" ή "" "όρος1" ADJ "όρος2" ADJ "όρος3" Ο τελεστής "NEAR" Ο τελεστής "FAR" Φώλιασµα ή Σύνθεση τελεστών "Ακριβής Φράση" AND ("όρος1" OR "όρος2")Ενισχυµένες εντολές αναζήτησηςΧρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*") ca?s cars ή cats ca*s cars ή cats ή cameras ή careers INTERNET TECHNOLOGIESΕσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίαςΧαρακτηριστικά αναζήτησης Σχετικές αναζητήσεις Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να πραγµατοποιήσουν πιο συγκεκριµένες αναζητήσεις ή να τους προτείνει παρεµφερείς ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εµφανίζουν συνήθως µια λίστα µε υπερσυνδέσεις µε σχετικές αναζητήσεις χρησιµοποιώντας γνωστούς όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσµατα. Συγκέντρωση αποτελεσµάτων Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εµφάνιση πολλών ιστοσελίδων που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσµατα. Έτσι παρουσιάζεται ένα πιο συνοπτικό και αντιπροσωπευτικό δείγµα απαντήσεων ενώ ο χρήστης έχει µεγαλύτερη πιθανότητα να ανακτήσει µια ενδιαφέρουσα πληροφορία γρήγορα. ∆ηµιουργία παραγώγων λέξεων Εσωτερική Αναζήτηση Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να πραγµατοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόµενων αποτελεσµάτων. Πρόκειται για µια πολύ χρήσιµη λειτουργία γιατί το σύνολο των αποτελεσµάτων παραµένει αναλλοίωτο, ενώ ταυτόχρονα “στενεύουν” οι αναζητήσεις του χρήστη. 6
  7. 7. INTERNET TECHNOLOGIES Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά αναζήτησης Αναζήτηση αποθηκευµένων ιστοσελίδων Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί πριν ανανεωθούν εκ νέου από τους µηχανισµούς µιας υπηρεσίας αναζήτησης. Έτσι, είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές. (µια εφαρµογή στην επόµενη διαφάνεια) Μετάφραση ιστοσελίδας Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτηµα στέλνεται από τον χρήστη στον διακοµιστή της Μ.Α., όπου πραγµατοποιείται σε πραγµατικό χρόνο η µετάφραση Έλεγχος και φιλτράρισµα “επικίνδυνου” περιεχοµένου INTERNET TECHNOLOGIES Google MSN 20000 18000 16000amount of examined results 14000 12000 10000 8000 6000 4000 2000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 days Up-to-dateness rate through caching service (Google – MSN) 7
  8. 8. INTERNET TECHNOLOGIESΕσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίαςΧαρακτηριστικά προσαρµογής απεικόνισης και προβολής Ταξινόµηση αποτελεσµάτων ανά ηµεροµηνία Ταξινόµηση αποτελεσµάτων σε καθορισµένο εύρος ηµεροµηνίας Προβολή ηµεροµηνίας δηµιουργίας ή µορφοποίησης της ιστοσελίδας Παροχή περιβάλλοντος ενισχυµένης αναζήτησης Παροχή βοήθειας INTERNET TECHNOLOGIES Ο Αλγόριθµος Page Rank (Google) 8
  9. 9. INTERNET TECHNOLOGIESΕπισκόπηση Αυτόµατων Μηχανών ΑναζήτησηςGoogle Αλγόριθµος PageRank [Brin, Page - 1998] πλήθος υπερσυνδέσµων που “δείχνουν” στο επιστρεφόµενο αποτέλεσµα (αναφορές) σηµαντικότητα υπερσυνδέσµων – βαρύτητα υπερσυνδέσµωνΜεγαλύτερη κάλυψη, φιλικό περιβάλλον Ιστοσελίδα Άµεση 1η έµµεση Αναφορά αναφορά A C A, B, D B A C C A, B, D D 1. C 2. A 3. B 4. D http://www.iprcom.com/papers/pagerank INTERNET TECHNOLOGIESWe assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is adamping factor which can be set between 0 and 1. We usually set d to 0.85.C(A) is defined as the number of links going out of page A. The PageRank of a page A is givenas follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) T1 Tn A T2 citations outgoing links 9
  10. 10. INTERNET TECHNOLOGIES ΑΛΓΟΡΙΘΜΟΣ HITS Ο Αλγόριθµος HITS (Hypertext Induced Topic Search) προτάθηκε από τον Kleinberg (1998). Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριµένο θέµα (topic), αναλύοντας το σχετικό υπογράφο του Ιστού.Βασικές έννοιεςHub = µια σελίδα που δεν δίνει πολλές πληροφορίες για συγκεκριµένο θέµα, αλλά µας λεειπου θα βρούµε αυτές τις πληροφορίες.πχ το www.autochanell.com είναι ένα hub για αυτοκίνητα.Authority = µια σελίδα που δίνει πληροφορία κύρους για κάποιο θέµα.πχ το http://www.bmw.com/ είναι ένα authority για το ερώτηµα “BMW cars”. INTERNET TECHNOLOGIES Ένα hub δείχνει σε πολλά authorities. Σε ένα authority αναφέρονται πολλά hubs. 10
  11. 11. INTERNET TECHNOLOGIESΤα βήµατα που διακρίνονται σε αυτό τον αλγόριθµο είναι:1) Θέτουµε µία ερώτηση στην search engine και λαµβάνουµε απ’ αυτήν ένα αρχικό σύνολοσελίδων (root set) - έστω πήραµε 200 σελίδες ως απάντηση στην ερώτηση.2) ∆ηµιουργούµε ένα βασικό σύνολο (base set) S, το οποίο αποτελείται από το αρχικό σύνολοκαι όλες τις σελίδες που συνδέονται µε αυτό, µέσω links. Έστω έγιναν 1000 οι σελίδες.3) Σε κάθε σελίδα p του συνόλου S αντιστοιχούν δύο τιµές - βάρη: µία τιµή authority Α(p) καιµία τιµή hub Η(p).4) Αρχικά θέτουµε όλες τις τιµές ίσες µε 1:Α(p) = Η(p) = 1 INTERNET TECHNOLOGIES5) Ενηµερώνουµε τις αρχικές τιµές authority και hub κάθε σελίδας εφαρµόζοντας επαναληπτικάτις διαδικασίες In-degree και Out-degree.6) Τα βάρη A(p) και H(p) όλων των σελίδων είναι κανονικοποιηµένα, δηλ αφού υπολογιστούναπό τους προηγούµενους τύπους, διαιρούνται µε και αντίστοιχα. 11
  12. 12. INTERNET TECHNOLOGIES Παράδειγµα: Στο παρακάτω σχήµα να γίνει page rank εφαρµόζοντας τον αλγόριθµο hits Θέτουµε αρχικά H(α) = H(β) = H(γ) = H(δ) = H(ε) = 1 A(α) = A(β) = A(γ) = A(δ) = A(ε) = 1 1η επανάληψη I – operation Ο – operation Α(α) = H(δ) = 1, Η(α) = A(δ) + A(ε) = 5, Α(β) = 0 H(β) = Α(δ) = 3 Α(γ) = 0 H(γ) = A(δ) + A(ε) = 5 Α(δ) = H(α) + H(β) + H(γ) = 3 H(δ) = Α(α) = 1 Α(ε) = H(α) + H(γ) = 2 H(ε) = 0 INTERNET TECHNOLOGIESΚάνουµε κανονικοποίησηΚαι οι νέες τιµές που προκύπτουν είναι οι ακόλουθεςΑ(α) = 1 / 3.74 = 0.267 Η(α) = 5 / 7.746 = 0.645Α(β) = 0 H(β) = Α(δ) = 3 / 7.746 = 0.387Α(γ) = 0 H(γ) = 5 / 7.746 = 0.645Α(δ) = 3 / 3.74 = 0.802Α(ε) = 2 / 3.74 = 0.535 H(δ) = 1 / 7.746 = 0.129 H(ε) = 0 12
  13. 13. INTERNET TECHNOLOGIES 2η επανάληψη I – operation Ο – operation Α(α) = H(δ) = 0.129, Α(β) = 0 Η(α) = A(δ) + A(ε) = 2.967 Α(γ) = 0 H(β) = Α(δ) = 1.677 Α(δ) = H(α) + H(β) + H(γ) = 1.677 H(γ) = A(δ) + A(ε) = 2.967 Α(ε) = H(α) + H(γ) = 1.29 H(δ) = Α(α) = 0.129 H(ε) = 0 INTERNET TECHNOLOGIESΚάνουµε κανονικοποίηση Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες Α(α) = 0.129 / 2.12 = 0.061 Η(α) = 2.967 / 4.5 = 0.659 Α(β) = 0 H(β) = 1.677 / 4.5 = 0.373 Α(γ) = 0 H(γ) = 2.967 / 4.5 = 0.659 Α(δ) = 1.677 / 2.12 = 0.791 Α(ε) = 1.29 / 2.12 = 0.608 H(δ) = 0.129 / 4.5 = 0.029 H(ε) = 0 Οµοιώς συνεχίζουµε µέχρι ένα δεδοµένο σηµείο σύγκλισης... 13
  14. 14. INTERNET TECHNOLOGIES5η επανάληψη και κανονικοποίησηI – operation Ο – operationΑ(α) = 0 Η(α) = 0.657Α(β) = 0 H(β) = 0.369Α(γ) = 0 H(γ) = A(δ) + A(ε) = 0.657Α(δ) = 0.788 H(δ) = Α(α) = 0Α(ε) = 0.615 H(ε) = 0Τελική κατάταξη ? (ανάλογα µε την θεώρηση για το ρόλο των σελίδων Hub - Authority) Συµπεράσµατα Εκτελείται σε ένα σύνολο ανακτηµένων σελίδων και για κάθε query. Υπολογίζει authorities και hubs. Είναι εύκολος στον υπολογισµό αλλά η εκτέλεση σε πραγµατικό χρόνο είναι δύσκολη. 14

×