Web Mining

940 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
940
On SlideShare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
58
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Web Mining

  1. 1. Web Mining
  2. 2. Web Mining <ul><li>Στόχος : μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό </li></ul><ul><li>Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού ( Web Content Mining ) </li></ul><ul><li>Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού ( Web Structure Mining ) </li></ul><ul><li>Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού ( Web Usage Mining ) </li></ul>
  3. 3. Web Mining Εισαγωγή <ul><li>Τεράστιο μέγεθος </li></ul><ul><ul><li>2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες </li></ul></ul><ul><ul><li>Μέγεθος Λεξικού : 10 -100άδες εκατομμύρια λέξεις </li></ul></ul>http://www.netcraft.com/Survey
  4. 4. Web Data <ul><li>No design/co-ordination </li></ul><ul><li>Distributed content creation, linking, democratization of publishing </li></ul><ul><li>Content includes truth, lies, obsolete information, contradictions … </li></ul><ul><li>Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… </li></ul><ul><li>Scale much larger than previous text corpora , and also corporate records are catching up. </li></ul><ul><li>Growth – slowed down from initial “volume doubling every few months” but still expanding </li></ul><ul><li>Content can be dynamically generated </li></ul>The Web
  5. 5. Web Mining Taxonomy
  6. 6. Web Content Mining <ul><li>Βασικό συστατικό των μηχανών αναζήτησης </li></ul><ul><li>Εφαρμογές </li></ul><ul><ul><li>Ιεραρχίες εννοιών και συνώνυμα </li></ul></ul><ul><ul><li>Προφίλ χρηστών </li></ul></ul><ul><ul><li>Ανάλυση συνδέσμου μεταξύ σελίδων </li></ul></ul><ul><ul><li>Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών </li></ul></ul><ul><ul><li>Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων) </li></ul></ul>
  7. 7. Keyword Term Association Similarity Search Classification Clustering Natural Language Processing
  8. 8. Crawlers <ul><li>Robot (spider) διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας </li></ul><ul><li>Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. </li></ul><ul><li>Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. </li></ul><ul><li>Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. </li></ul><ul><li>Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο. </li></ul>
  9. 9. Διαπερνώντας το διαδίκτυο ( Crawling) <ul><li>ποιες σελίδες πρέπει να προσπελαστούν ; </li></ul><ul><li>τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; </li></ul><ul><li>( refresh policy) </li></ul><ul><li>πως πραγματοποιείται εστιασμένη διαπέραση ; </li></ul>Διαπερνώντας τον Παγκόσμιο Ιστό
  10. 10. Unseen Web Seed Pages URL frontier Crawling thread URLs crawled and parsed
  11. 11. Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας Searching the Web Interest Driven
  12. 12. Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Searching the Web Interest Driven & Ομοιότητα Κειμένων “ A new approach to topic-specific web resource discovery” Chakrabarti et al. 8 th WWW conference 1999
  13. 13. Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven
  14. 14. Crawling - Ανανέωση Σελίδων <ul><li>f= σταθερή </li></ul><ul><li>f=F( λ i ) </li></ul>
  15. 15. Focused Crawler <ul><li>Χρήση ιεραρχικής ταξινόμησης </li></ul><ul><li>Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes </li></ul><ul><li>Βασική ιδέα : o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός </li></ul>
  16. 16. Context Focused Crawler (εστιασμένος σε συμφραζόμενα crawler) <ul><li>Γράφος Συμφραζομένων ( Context Graph): </li></ul><ul><ul><li>Δημιουργείται για κάθε γόνο ( seed document ) με ρίζα αυτόν </li></ul></ul><ul><ul><li>Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου </li></ul></ul><ul><ul><li>Ενημερώνεται κατά τη διάρκεια της διαπέρασης </li></ul></ul><ul><li>Συγχώνευσε και δημιούργησε ένα ενιαίο context graph </li></ul><ul><li>Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph </li></ul>
  17. 17. <ul><li>Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. </li></ul><ul><li>Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές </li></ul>Προβλήματα
  18. 18. Context Graph Χρήση tf-idf μετρικής
  19. 19. Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.) <ul><li>Πολλαπλών Επιπέδων Βάση Δεδομένων ( MLDB) πάνω από τα δεδομένα του παγκόσμιου ιστού . </li></ul><ul><li>Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). </li></ul><ul><li>Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. </li></ul><ul><li>Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές </li></ul><ul><li>Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. </li></ul><ul><li>Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML. </li></ul>
  20. 20. Εξατομίκευση <ul><li>Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη . </li></ul><ul><li>Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. </li></ul><ul><li>Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες . </li></ul><ul><li>Το φιλτράρισμα με βάση το περιεχόμενο ανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών. </li></ul>
  21. 21. Web Structure Mining <ul><li>Εξόρυξη Δομής ( σύνδεσμοι , γράφημα ) του παγκόσμιου ιστού </li></ul><ul><li>Τεχνικές </li></ul><ul><ul><li>PageRank </li></ul></ul><ul><ul><li>CLEVER </li></ul></ul><ul><li>Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού . </li></ul><ul><li>Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες . </li></ul>
  22. 22. Ranking and Link Analysis Searching the Web O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία ! <ul><li>PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998 . ( Google) </li></ul><ul><li>HITS: ” Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM , 46(5):604-632, November 1999. ( Clever – IBM). </li></ul>
  23. 23. PageRank Searching the Web <ul><li>Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της (αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου) </li></ul>www.upatras.gr #in_links=760 www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu
  24. 24. PageRank strongly connected graph
  25. 25. PageRank Searching the Web <ul><li>random surfer model </li></ul>
  26. 26. PageRank Searching the Web <ul><li>random surfer model </li></ul>
  27. 27. Λεπτομέρειες Υπολογισμού (1) <ul><li>Μία αλυσίδα Markov αποτελείται από n καταστάσεις , και ένα n  n πιθανοτικό πίνακα μεταβάσεων P . </li></ul><ul><li>Σε κάθε βήμα , είμαστε σε μία μόνο από τις καταστάσεις. </li></ul><ul><li>Για 1  i,j  n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση , υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. </li></ul><ul><li>Μία Markov chain είναι εργοδική εάν </li></ul><ul><ul><li>Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη </li></ul></ul><ul><ul><li>Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα . </li></ul></ul>
  28. 28. Λεπτομέρειες Υπολογισμού (2) <ul><li>Για κάθε εργοδική Markov αλυσίδα , υπάρχει μία Steady-state distribution . </li></ul><ul><li>Έστω a = (a 1 , … a n ) το row vector με τις steady-state πιθανότητες . </li></ul><ul><li>Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. </li></ul><ul><li>Άρα a=aP , και συνεπώς </li></ul><ul><ul><li>το a είναι το ( αριστερό ) ιδιοδιάνυσμα του P. </li></ul></ul><ul><ul><li>( αντιστοιχεί στο “ βασικό ” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή .) </li></ul></ul>
  29. 29. Hypertext Induced Topic Search (HITS) Searching the Web <ul><li>Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q. </li></ul>authority hub Q=“greek university” Authority : www.upatras.gr www.auth.gr students.ceid.upatras.gr/~antonid Hub: www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html www.cti.gr
  30. 30. Hypertext Induced Topic Search (HITS) Searching the Web max{d} Απάντηση στο Q R S : root set (~10 3 ) S: focused subgraph
  31. 31. Hypertext Induced Topic Search (HITS)
  32. 32. Hypertext Induced Topic Search (HITS) Searching the Web
  33. 33. Hypertext Induced Topic Search (HITS)
  34. 34. Searching the Web Graph structure in the Web, Computer Networks,2000. Andrei Broder, Ravi Kumar, et al.
  35. 35. <ul><li>Για τυχαίες σελίδες p1,p2 : </li></ul><ul><ul><li>Pr[ p1 να προσπελαύνεται από p2 ] ~ 1/4 </li></ul></ul><ul><li>Μέγιστη απόσταση μεταξύ 2 SCC κόμβων : >28 </li></ul><ul><li>Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων : ~16 </li></ul><ul><li>Μέση μη κατευθυνόμενη απόσταση : ~7 </li></ul>
  36. 36. Power Laws - Γενικά <ul><li>Δύο ποσότητες x και y συνδέονται με έναν power law όταν </li></ul><ul><li>y  x-c  log y = -c*log x </li></ul>
  37. 37. Ένας γνωστός power law <ul><li>Κατανομή Zipf </li></ul><ul><ul><li>y : συχνότητα λέξης σε κείμενο </li></ul></ul><ul><ul><li>x : o x- οστός πιο συχνός όρος </li></ul></ul><ul><ul><li>Power law για c=1 </li></ul></ul><ul><ul><li>y  1/x </li></ul></ul>
  38. 38. Power laws και στο Web? <ul><li>Broder et. al. 1999 </li></ul><ul><ul><li>y = #links που εισέρχονται σε σελίδα i </li></ul></ul><ul><ul><li>x = # σελίδων με y εισερχόμενα links </li></ul></ul><ul><ul><li>y  x-2.09 </li></ul></ul>
  39. 39. Power laws και στο Web? <ul><li>( συνέχεια) </li></ul><ul><ul><li>y = #links που εξέρχονται από σελίδα i </li></ul></ul><ul><ul><li>x = # σελίδων με y εξερχόμενα links </li></ul></ul><ul><ul><li>y  x-2. 72 </li></ul></ul>
  40. 40. Χρησιμότητα Παρατήρησης <ul><ul><li>Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web </li></ul></ul><ul><ul><li>Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης </li></ul></ul><ul><ul><li>Εκτέλεση προσομοιώσεων σε σχέση με το Web </li></ul></ul><ul><ul><li>Μοντελοποίηση του Web </li></ul></ul>
  41. 41. <ul><li>Για τον t+1 φτιάξε d συνδέσμους d>1 </li></ul><ul><li>Πως επιλέγεται ο ι-στος σύνδεσμος? </li></ul>v t+1 Πιθανότητα α μια τυχαία σελίδα Πιθανότητα 1- α ο i- στός σύνδεσμος του v
  42. 42. Γενικά <ul><li>Εφαρμογές: </li></ul><ul><ul><li>σχεδιασμός web sites </li></ul></ul><ul><ul><li>υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing </li></ul></ul><ul><ul><li>εξατομίκευση </li></ul></ul><ul><ul><li>μελέτες χρηστικότητας </li></ul></ul><ul><ul><li>ανάλυση της κίνησης του δικτύου </li></ul></ul><ul><ul><li>ασφάλεια </li></ul></ul><ul><li>Προκλήσεις: </li></ul><ul><ul><li>προεπεξεργασία της ακατέργαστης πληροφορίας </li></ul></ul><ul><ul><li>φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining </li></ul></ul><ul><li>Ορισμός: </li></ul><ul><li>Το Web Usage Mining είναι η εφαρμογή τεχνικών data mining σε δεδομένα Web με σκοπό την εξαγωγή προτύπων ( patterns ) που αφορούν τον τρόπο χρήσης του. </li></ul>
  43. 43. Web Usage Mining Activities <ul><li>Προπαρασκευή Web log ( σύνολο τριπλετών ( u i , p i , t i )) </li></ul><ul><ul><li>Φιιλτράρισμα </li></ul></ul><ul><ul><li>Απομάκρυνση μη αξιοποιήσιμης πληροφορίας </li></ul></ul><ul><ul><li>Χωρισμός σε συνόδους (sessions) </li></ul></ul><ul><ul><ul><li>Σύνοδος : ακολουθία σελίδων που αναφέρονται από ένα χρήστη κατά τη διάρκεια μίας λογικής περιόδου </li></ul></ul></ul><ul><li>Προβλήματα (χρήση cookies), δομές δεδομένων ( tries, patricia tries) </li></ul><ul><li>Αναγνώριση προτύπων </li></ul><ul><ul><li>Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. </li></ul></ul><ul><ul><li>Πρότυπο είναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο . </li></ul></ul><ul><ul><li>Παρόμοιο με κανόνες συσχέτισης </li></ul></ul><ul><ul><ul><li>Συναλλαγή : σύνοδος </li></ul></ul></ul><ul><ul><ul><li>Itemset: πρότυπο ( ή υποσύνολο ) </li></ul></ul></ul><ul><ul><ul><li>Η σειρά είναι σημαντική </li></ul></ul></ul><ul><li>Ανάλυση προτύπων </li></ul>
  44. 44. Web Log Cleansing <ul><li>Replace source IP address with unique but non-identifying ID. </li></ul><ul><li>Replace exact URL of pages referenced with unique but non-identifying ID. </li></ul><ul><li>Delete error records and records containing not page data (such as figures and code) </li></ul>
  45. 45. Sessionizing <ul><li>Divide Web log into sessions. </li></ul><ul><li>Two common techniques: </li></ul><ul><ul><li>Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). </li></ul></ul><ul><ul><li>All consecutive page references from a source IP address where the interclick time is less than a predefined threshold. </li></ul></ul>
  46. 46. Διάταξη Διπλο - αναφορές Συνεχόμενες Μέγιστο πρότυπο Υποστήριξη Κ.Σ. ΌΧΙ ΟΧΙ ΌΧΙ ΟΧΙ Freq(X)/#transactions Επεισόδια ΝΑΙ ΌΧΙ ΌΧΙ ΌΧΙ Freq(X)/#timewindows Ακολουθιακά Πρότυπα ΝΑΙ ΌΧΙ ΌΧΙ ΝΑΙ Freq(X)/#customers Μέγιστες Εμπρόσθιες Ακολουθίες ΝΑΙ ΟΧΙ ΝΑΙ ΝΑΙ Freq(X)/#forward sequences Μέγιστες Συχνές Ακολουθίες ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ Freq(X)/#clicks
  47. 47. Πηγές και Μοντελοποίηση Δεδομένων Λεπτομερής περιγραφή διαδικασίας Web Usage Mining
  48. 48. <ul><li>Πηγές Δεδομένων Web </li></ul><ul><li>Συλλογή σε επίπεδο Server </li></ul><ul><ul><li>Web logs </li></ul></ul><ul><ul><li>Cookies </li></ul></ul><ul><ul><li>Embedded IDs </li></ul></ul><ul><ul><li>Packet sniffers </li></ul></ul><ul><ul><li>Content Server logs </li></ul></ul>Διάγραμμα Προσπέλασης του Web <ul><li>Συλλογή σε επίπεδο Client </li></ul><ul><ul><li>Remote Agent (Java scripts/applets) </li></ul></ul><ul><ul><li>Τροποποίηση του browser </li></ul></ul><ul><li>Συλλογή σε επίπεδο Proxy </li></ul><ul><ul><li>Proxy server logs </li></ul></ul>

×