• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Ws 13-4(2010-11)
 

Ws 13-4(2010-11)

on

  • 541 views

 

Statistics

Views

Total Views
541
Views on SlideShare
437
Embed Views
104

Actions

Likes
0
Downloads
0
Comments
0

2 Embeds 104

http://www.webvistas.org 103
http://www.slideshare.net 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Ws 13-4(2010-11) Ws 13-4(2010-11) Document Transcript

    • INTERNET TECHNOLOGIES The Syntactic Web, Web Information Retrieval algorithms & Search Engine Technologies Part II Αναγνωστόπουλος Ι. INTERNET TECHNOLOGIES Χώρο-∆ιανυσµατικό Μοντέλο d1 v Λεξιλόγιοd3 V = [t1, t2, ..., tm] d2 Ερώτηση χρήστη v q = [ q1, q 2, ..., q m] v Έγγραφο q d = [ w 1, w 2 , ..., w m ] d4 Βασικές έννοιες: ∆ιάνυσµα, Συχνότητα Όρου, Αντίστροφη Συχνότητα Εγγράφου 1
    • INTERNET TECHNOLOGIES d1 d3 d2 q d4Για πιο απλούς υπολογισµούς να υποτεθεί ότι ο υπολογισµός του wi,q πραγµατοποιείται µεπαρόµοιο τρόπο όπως του wi,j INTERNET TECHNOLOGIES Ra Συλλογή Ανάκληση = Σχετικά R έγγραφα (R) Ra Ακρίβεια = Α Συνολικά ανακτόµενα έγγραφα (A) Σχετικά ανακτόµενα έγγραφα (Ra) ∆ιάγραµµα ανταλλαγής Ακρίβειας - Ανάκλησης Test reference collections: • TREC • Reuters Ακρίβεια • CACM Ανάκληση 2
    • INTERNET TECHNOLOGIES Rank Doc Rel Recall Precision 0 0% 0% d 3 , d 5 , d 9 , d 25 , d 39 ,  Rq =   1 d 123 10% 100% d 44 , d 56 , d 71 , d 89 , d123  2 d 84 10% 50% 3 d 56 20% 67% 4 d6 20% 50% 100 5 d 84 20% 40% 6 d9 30% 50% 80 7 d 511 30% 43%Precision 60 8 d 129 30% 38% 40 9 d 187 30% 33% 10 d 25 40% 40% 20 11 40% 36% d 38 0 12 d 48 40% 33% 10 20 30 40 50 13 d 250 40% 31% 14 d 113 40% 29% Recall 15 d3 50% 33% Μετρήσεις µε µεθόδους παρεµβολής (interpolation) σε 11 επίπεδα recall: 0%, 10%, 20%, …, 100% a + bx Γραµµική a + bx a = Y − bX , b = n ∑ xy − ( ∑ x )(∑ y ) n∑ x − ( ∑ x ) παρεµβολή 2 2 INTERNET TECHNOLOGIESΜέση τιµή ακρίβειας στο r επίπεδο Αρµονικός µέσος όρος Μετρική Ε ανάκλησης µε Nq ερωτήσεις Nq 2 1+ b2 P (r ) F( j ) = E( j ) = 1 − P (r ) = ∑ i 1 1 b2 + 1 i =1 N q + R( j ) P( j ) R( j ) P( j ) 1 0,9 0,8 0,7 0,6 Μέτρηση σηµείου ισορροπίας Ακρίβεια 0,5 (σ.ε.) breakeven-point 0,4 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Ανάκληση 3
    • INTERNET TECHNOLOGIES Μηχανές Μετα-Αναζήτησης Meta-Search Engines INTERNET TECHNOLOGIESΛύση... Χρήση πολλών ΜΑ από το χρήστη Αύξηση της κίνησης στο ∆ιαδίκτυο Γνώση της σύνταξης ερωτήσεων ∆ιαγραφή διπλότυπων αποτελεσµάτων Χρονοβόρα και δύσκολη διαδικασία Επεξεργασία ξεχωριστών αποτελεσµάτων Μηχανές Μετα-Αναζήτησης (ΜΜΑ) – Meta-Search EnginesΟι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδοµένων /ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδοµένων των ΜΑ πουχρησιµοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσµατα και τα επιστρέφουν σε µια ενιαίαµορφή (µετα-αποτελέσµατα).Παραδείγµατα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion 4
    • INTERNET TECHNOLOGIES Χρήση ΜΜΑΠλεονεκτήµατα Μειονεκτήµατα• Αναζήτηση σε ενιαίο • Συνήθως δεν καθορίζονται από το χρήστη οι περιβάλλον χρησιµοποιούµενες υπηρεσίες αναζήτησης• Υποβολή ερώτησης µια φορά • Χάνεται η προσωπικότητα των υπηρεσιών• Γνώση µιας σύνταξης αναζήτησης που χρησιµοποιούνται ερωτήσεων • Τα επιστρεφόµενα αποτελέσµατα είναι µια• Μεγαλύτερη κάλυψη της “συλλογή” µε τα πιο top ranked από κάθε Μ.Α. πληροφορίας INTERNET TECHNOLOGIES Προβλήµατα που πρέπει να λυθούν... Υπό-συστήµατα ΜΜΑ Μετάφραση των ερωτήσεων (queries) ∆ιεπαφή χρήστη Επεξεργασία των µετα-αποτελεσµάτων ∆ιεκπεραιωτής ή Αποστολέας της ερώτησης Συλλέκτης Αποτελεσµάτων Τοπική Βάση ∆εδοµένων 5
    • INTERNET TECHNOLOGIESΕισαγωγήερώτησης INTERNET TECHNOLOGIES Επεξεργασία και υποβολή ερώτησης 6
    • INTERNET TECHNOLOGIES Συλλογή και επεξεργασία αποτελεσµάτων INTERNET TECHNOLOGIESΠαρουσίαση µετα- αποτελεσµάτων 7
    • INTERNET TECHNOLOGIESΑπεικόνιση προβλήµατος... Rm = Dm , om R1 = D1,o1 R 2 = D 2 , o2 Ri = Di ,oi om Dm o1 D1 o2 D2 om Dm 1 δ1 1 α1 1 β1 1 γ1 2 δ2 2 α2 2 β2 2 γ2 … … … … … … … … … … … … k βk … … ... ... p αp ... ... ... ... i γi ... ... j δj D m = D1 U K U D NΛύση...Αλγόριθµοι κατάταξης αποτελεσµάτων από διαφορετικές πηγέςΚάποια πρόταση ? INTERNET TECHNOLOGIESΜέθοδοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές Μέθοδοι ενσωµάτωσης (rank aggregation methods)Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εµφάνισης όρωνκαι εγγράφων στην εξεταζόµενη συλλογή. Χρησιµοποιούν ειδικές µεθόδους για νααντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιµωνβαθµών οµοιότητας στα επιστρεφόµενα αποτελέσµατα.Fagin [2001], Quick-combine [Guntzer,2000], Proximity search [Goldman,1998], WSQ[Widom,2000], COMBSUM, COMBMNZ [Fox & Shaw, 1998] Μέθοδοι αποµόνωσης (isolated ranking methods)Βάσει ανατιθέµενου βαθµού στάθµισης [Selberg,1995]Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998]Βάσει ακολουθίας κατάταξης [Yuwono,1997]Βάσει του περιεχοµένου [Lawrence,1998] 8
    • INTERNET TECHNOLOGIES p1 r1 p2 r1 … pp r1 δείκτης βαρύτητας εξυπηρετητή (χρήστης) … pN r1 Τάξη προτεραιότητας µηχανής αναζήτησης (x) p1 r2 1 2 … p … N p2 r2 … Τάξη αποτελέσµατος 1 p1 r1 p2 r1 … pp r1 … pN r1 pp r2 Ακολουθία 2 p1 r2 p2 r2 … pp r2 … pN r2 … κατάταξης … … … … … … … (y) pN r2 r p1 rr p2 rr … pp rr … pN rr … … … … … … … … … … K p1 rk p2 rk … pp rk … pN rk p1 rκ p2 rκ … pp rκ … pN rκ INTERNET TECHNOLOGIESΑναζήτηση Εικόνων στο ∆ιαδίκτυο∆ύσκολη γιατί ...• οι περισσότερες Μ.Α. δεν υποστηρίζουν αναζήτηση εικόνων• συντάσσουν τα ευρετήριά τους βάσει του περιεχοµένου των ιστοσελίδων και όχι βάσει τηςοπτικής πληροφορίας που παρουσιάζουν• η αναζήτηση δεν περιλαµβάνει boolean τελεστέςγια άλλη µια φορά ...• έλλειψη συνοχής• διαφορετικά επιστρεφόµενα αποτελέσµατα στον τελικό χρήστη• χαµένη πληροφορία• Τεράστιο ποσό µη επιθυµητής πληροφορίαςΠρόταση: Υβριδική Μ.Μ.Α. (ΜetaΗunter)Η υβριδική φύση του προτεινόµενου συστήµατος έγκειται στο γεγονός ότι η ανάλυση κειµένουκαι η επεξεργασία εικόνας, δρουν συµπληρωµατικά προκειµένου να παρασχεθεί ένας πιοαποτελεσµατικός και ακριβής τρόπος αναζήτησης εικόνων στο ∆ιαδίκτυο.(εφαρµογή: Φωτογραφίες ανθρώπων)Άλλες λύσεις: MPEG-21… 9
    • INTERNET TECHNOLOGIES Παράδειγµα αναζήτησης URLΠρόβληµα:Αναζητούµε ιστοσελίδες που αφορούν τον µπασκετµπολίστα Michael Jordan• Jordan 43/100• Michael AND Jordan 78/100• (Michael Jordan) AND (Chicago Bulls) 89/100Boolean operators increase precision INTERNET TECHNOLOGIES Παράδειγµα αναζήτησης εικόνων στο ∆ιαδίκτυοΠρόβληµα:Αναζητούµε εικόνες που αφορούν τον µπασκετµπολίστα Michael Jordan• Jordan 29/100• Michael AND Jordan 58/100• (Michael Jordan) AND (Chicago Bulls) 71/100Αν όµως… (Michael Jordan) AND (Chicago Bulls) [AND “human appearance”] Textual information + Visual information 10
    • INTERNET TECHNOLOGIES PhotoSearch button MetaHunter interface INTERNET TECHNOLOGIES Αναζήτηση εικόνων στο ∆ιαδίκτυο / Λειτουργία PhotoSearchΣτηρίζεται ... Στην προτεινόµενη µέθοδο κατάταξης αποτελεσµάτων από διαφορετικές πηγές Αρχές επεξεργασίας εικόνας Εντοπισµός περιοχής ενδιαφέροντος Γεωµετρικός µετασχηµατισµός εικόνων Κβαντοποίηση και δειγµατοληψία εικόνων Εφαρµογή Κανόνων Ασαφούς Λογικής (ΚΑΛ) Αλγόριθµος skin masking [Umbaugh] Τεχνητά Νευρωνικά ∆ίκτυα (ΤΝ∆) Πιθανοτικό Νευρωνικό ∆ίκτυο (ΠΝ∆) Αναγνώριση προσώπουΣτόχος: Μείωση του “θορύβου” της πληροφορίας σε αναζήτηση φωτογραφιών µε πρόσωπαΤρόπος: µετα-αναζήτηση σε υπηρεσίες που υποστηρίζουν εύρεση εικόνων επεξεργασία όλων των αποτελεσµάτων Ανάκτηση Φωτογραφιών 11
    • INTERNET TECHNOLOGIES ΥΒΡΙ∆ΙΚΗ ΜΜΑ “Meta-Hunter” – ΛΕΙΤΟΥΡΓΙΑ PhotoSearch INTERNET TECHNOLOGIES 0,3-0,5 sec Fuzzification of Umbaugh’s skin masking algorithm ≈0,1 sec 2 nodes 425 nodes 225 nodes ≈0,1 sec 0,1-0,2“face” 195 209 211 210 205 194 171 161 142 121 113 94 203 209 209 210 209 202 186 174 162 143 130 121 109 61 28 84 138 139 169 199 199 184 146 114 102 108 114 110 109 117 109 11 56 sec 142 123 146 186 191 164 128 119 121 108 120 132 136 150 147 133 84 126 162 207 152 124 121 147 69 108 135 164 175 171 176 151 145 166 210 163 158 142 169 148 170 184 196 190 176 200 192 189 199 214 174 191 178 170 177 193 207 202 190 168 228 215 209 233 219 179 192 209 206 210 216 208 197 183 157 225 210 216 239 218 182 177 196 206 210 207 198 190 174 150 215 200 216 216 194 177 176 186 200 201 197 189 182 162 154 208 203 212 202 178 163 177 200 197 199 194 185 176 162 154 211 201 219 207 176 190 195 192 186 193 193 180 173 157 149 220 193 182 169 146 154 149 148 154 191 193 176 173 152 142 226 212 213 199 178 176 170 176 190 196 185 178 164 139 131 190 225 224 210 199 193 193 191 194 195 180 169 144 133 132“no face” 12
    • INTERNET TECHNOLOGIES Training Set Total color Number of Skin areas - Other objects images faces 103 129 296 Other skin area Face – object Testing Set 99.22% 0.88% Total images Number of faces Face (128/129) (1/129) 317 482Other skin FL rules 1.01% 98.99% area - (3/296) (293/296) 452 faces + Object Segmented areas 841 389 possible skin areas Training confusion matrix FL Rules 452/482 93.77% performance Training time: 122 sec Artificial Neural Network (ANN) Faces 397 No faces 444 ANN 397/452 87.83% Performance Total System 397/482 82.36% Performance System Performance INTERNET TECHNOLOGIES ΑΠΟ∆ΟΣΗ MetaHunter Submitted image queries 324 Total returned meta-results Photos Other 14875 8932 5925 FL rules /image processing Human Skin Identification 8562 2271 Probabilistic Neural Network (PNN) Face Recognition 8059 176 "PhotoSearch“ returned meta-results 8235 Excluded meta-results 6622 Excluded relevant Excluded irrelevant FL rules / im. procc. 370 3654 PNN 503 2095 Total 873 5749 Reduction of irrelevant information 5749/5925 97.03% Information loss 873/8932 9.77% 13
    • INTERNET TECHNOLOGIES 1 Precision-Recall diagrams 0,9 0,8 break-even point 0,7 0,6 0,5 Precision break-even 0,4 point 0,3 0,2 0,1 PhotoSearch_on PhotoSearch_off 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall INTERNET TECHNOLOGIES Υποβαλλόµενες ερωτήσεις 120 URLs / 90 εικόνες Υβριδική Copernic Ixquick Profusion Μ.Μ.Α. µ.ο. µετα- αποτελεσµάτων 238,4 119,9 166,3 364,5 URLsΣΥΓΚΡΙΣΗ µε Copernic, µ.ο. απόκρισης (sec) 5,2 5,4 6,1 12,7 Ixquick και Profusion µ.ο. αύξησης 52% 204% 119% - κάλυψης URLs µ.ο. µετα- αποτελεσµάτων 63,6 18,4 - 44,8 εικόνων µ.ο. απόκρισης (sec) 6,3 5,8 - 15,2 7 6 AllTheWeb AltaVista 5 Direct Hit DMOZ 4 sec Excite Hotbot 3 Lycos Northern Light 2 Yahoo! 1 0 Ιαν-02 Μαϊ-02 Σεπ -02 Ιαν-03 Μαϊ-03 Σεπ -03 14