• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Web Mining
 

Web Mining

on

  • 881 views

 

Statistics

Views

Total Views
881
Views on SlideShare
877
Embed Views
4

Actions

Likes
0
Downloads
23
Comments
0

1 Embed 4

http://www.slideshare.net 4

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Web Mining Web Mining Presentation Transcript

    • Web Mining
    • Web Mining
      • Στόχος : μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό
      • Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού ( Web Content Mining )
      • Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού ( Web Structure Mining )
      • Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού ( Web Usage Mining )
    • Web Mining Εισαγωγή
      • Τεράστιο μέγεθος
        • 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες
        • Μέγεθος Λεξικού : 10 -100άδες εκατομμύρια λέξεις
      http://www.netcraft.com/Survey
    • Web Data
      • No design/co-ordination
      • Distributed content creation, linking, democratization of publishing
      • Content includes truth, lies, obsolete information, contradictions …
      • Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)…
      • Scale much larger than previous text corpora , and also corporate records are catching up.
      • Growth – slowed down from initial “volume doubling every few months” but still expanding
      • Content can be dynamically generated
      The Web
    • Web Mining Taxonomy
    • Web Content Mining
      • Βασικό συστατικό των μηχανών αναζήτησης
      • Εφαρμογές
        • Ιεραρχίες εννοιών και συνώνυμα
        • Προφίλ χρηστών
        • Ανάλυση συνδέσμου μεταξύ σελίδων
        • Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών
        • Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων)
    • Keyword Term Association Similarity Search Classification Clustering Natural Language Processing
    • Crawlers
      • Robot (spider) διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας
      • Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή.
      • Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή.
      • Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή.
      • Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο.
    • Διαπερνώντας το διαδίκτυο ( Crawling)
      • ποιες σελίδες πρέπει να προσπελαστούν ;
      • τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ;
      • ( refresh policy)
      • πως πραγματοποιείται εστιασμένη διαπέραση ;
      Διαπερνώντας τον Παγκόσμιο Ιστό
    • Unseen Web Seed Pages URL frontier Crawling thread URLs crawled and parsed
    • Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας Searching the Web Interest Driven
    • Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Searching the Web Interest Driven & Ομοιότητα Κειμένων “ A new approach to topic-specific web resource discovery” Chakrabarti et al. 8 th WWW conference 1999
    • Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven
    • Crawling - Ανανέωση Σελίδων
      • f= σταθερή
      • f=F( λ i )
    • Focused Crawler
      • Χρήση ιεραρχικής ταξινόμησης
      • Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes
      • Βασική ιδέα : o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός
    • Context Focused Crawler (εστιασμένος σε συμφραζόμενα crawler)
      • Γράφος Συμφραζομένων ( Context Graph):
        • Δημιουργείται για κάθε γόνο ( seed document ) με ρίζα αυτόν
        • Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου
        • Ενημερώνεται κατά τη διάρκεια της διαπέρασης
      • Συγχώνευσε και δημιούργησε ένα ενιαίο context graph
      • Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph
      • Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες.
      • Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές
      Προβλήματα
    • Context Graph Χρήση tf-idf μετρικής
    • Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.)
      • Πολλαπλών Επιπέδων Βάση Δεδομένων ( MLDB) πάνω από τα δεδομένα του παγκόσμιου ιστού .
      • Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός).
      • Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries.
      • Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές
      • Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ.
      • Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML.
    • Εξατομίκευση
      • Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη .
      • Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά.
      • Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες .
      • Το φιλτράρισμα με βάση το περιεχόμενο ανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών.
    • Web Structure Mining
      • Εξόρυξη Δομής ( σύνδεσμοι , γράφημα ) του παγκόσμιου ιστού
      • Τεχνικές
        • PageRank
        • CLEVER
      • Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού .
      • Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες .
    • Ranking and Link Analysis Searching the Web O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία !
      • PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998 . ( Google)
      • HITS: ” Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM , 46(5):604-632, November 1999. ( Clever – IBM).
    • PageRank Searching the Web
      • Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της (αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου)
      www.upatras.gr #in_links=760 www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu
    • PageRank strongly connected graph
    • PageRank Searching the Web
      • random surfer model
    • PageRank Searching the Web
      • random surfer model
    • Λεπτομέρειες Υπολογισμού (1)
      • Μία αλυσίδα Markov αποτελείται από n καταστάσεις , και ένα n  n πιθανοτικό πίνακα μεταβάσεων P .
      • Σε κάθε βήμα , είμαστε σε μία μόνο από τις καταστάσεις.
      • Για 1  i,j  n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση , υποθέτοντας ότι βρισκόμαστε στην κατάσταση i.
      • Μία Markov chain είναι εργοδική εάν
        • Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη
        • Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα .
    • Λεπτομέρειες Υπολογισμού (2)
      • Για κάθε εργοδική Markov αλυσίδα , υπάρχει μία Steady-state distribution .
      • Έστω a = (a 1 , … a n ) το row vector με τις steady-state πιθανότητες .
      • Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP.
      • Άρα a=aP , και συνεπώς
        • το a είναι το ( αριστερό ) ιδιοδιάνυσμα του P.
        • ( αντιστοιχεί στο “ βασικό ” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή .)
    • Hypertext Induced Topic Search (HITS) Searching the Web
      • Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q.
      authority hub Q=“greek university” Authority : www.upatras.gr www.auth.gr students.ceid.upatras.gr/~antonid Hub: www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html www.cti.gr
    • Hypertext Induced Topic Search (HITS) Searching the Web max{d} Απάντηση στο Q R S : root set (~10 3 ) S: focused subgraph
    • Hypertext Induced Topic Search (HITS)
    • Hypertext Induced Topic Search (HITS) Searching the Web
    • Hypertext Induced Topic Search (HITS)
    • Searching the Web Graph structure in the Web, Computer Networks,2000. Andrei Broder, Ravi Kumar, et al.
      • Για τυχαίες σελίδες p1,p2 :
        • Pr[ p1 να προσπελαύνεται από p2 ] ~ 1/4
      • Μέγιστη απόσταση μεταξύ 2 SCC κόμβων : >28
      • Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων : ~16
      • Μέση μη κατευθυνόμενη απόσταση : ~7
    • Power Laws - Γενικά
      • Δύο ποσότητες x και y συνδέονται με έναν power law όταν
      • y  x-c  log y = -c*log x
    • Ένας γνωστός power law
      • Κατανομή Zipf
        • y : συχνότητα λέξης σε κείμενο
        • x : o x- οστός πιο συχνός όρος
        • Power law για c=1
        • y  1/x
    • Power laws και στο Web?
      • Broder et. al. 1999
        • y = #links που εισέρχονται σε σελίδα i
        • x = # σελίδων με y εισερχόμενα links
        • y  x-2.09
    • Power laws και στο Web?
      • ( συνέχεια)
        • y = #links που εξέρχονται από σελίδα i
        • x = # σελίδων με y εξερχόμενα links
        • y  x-2. 72
    • Χρησιμότητα Παρατήρησης
        • Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web
        • Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης
        • Εκτέλεση προσομοιώσεων σε σχέση με το Web
        • Μοντελοποίηση του Web
      • Για τον t+1 φτιάξε d συνδέσμους d>1
      • Πως επιλέγεται ο ι-στος σύνδεσμος?
      v t+1 Πιθανότητα α μια τυχαία σελίδα Πιθανότητα 1- α ο i- στός σύνδεσμος του v
    • Γενικά
      • Εφαρμογές:
        • σχεδιασμός web sites
        • υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing
        • εξατομίκευση
        • μελέτες χρηστικότητας
        • ανάλυση της κίνησης του δικτύου
        • ασφάλεια
      • Προκλήσεις:
        • προεπεξεργασία της ακατέργαστης πληροφορίας
        • φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining
      • Ορισμός:
      • Το Web Usage Mining είναι η εφαρμογή τεχνικών data mining σε δεδομένα Web με σκοπό την εξαγωγή προτύπων ( patterns ) που αφορούν τον τρόπο χρήσης του.
    • Web Usage Mining Activities
      • Προπαρασκευή Web log ( σύνολο τριπλετών ( u i , p i , t i ))
        • Φιιλτράρισμα
        • Απομάκρυνση μη αξιοποιήσιμης πληροφορίας
        • Χωρισμός σε συνόδους (sessions)
          • Σύνοδος : ακολουθία σελίδων που αναφέρονται από ένα χρήστη κατά τη διάρκεια μίας λογικής περιόδου
      • Προβλήματα (χρήση cookies), δομές δεδομένων ( tries, patricia tries)
      • Αναγνώριση προτύπων
        • Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους.
        • Πρότυπο είναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο .
        • Παρόμοιο με κανόνες συσχέτισης
          • Συναλλαγή : σύνοδος
          • Itemset: πρότυπο ( ή υποσύνολο )
          • Η σειρά είναι σημαντική
      • Ανάλυση προτύπων
    • Web Log Cleansing
      • Replace source IP address with unique but non-identifying ID.
      • Replace exact URL of pages referenced with unique but non-identifying ID.
      • Delete error records and records containing not page data (such as figures and code)
    • Sessionizing
      • Divide Web log into sessions.
      • Two common techniques:
        • Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes).
        • All consecutive page references from a source IP address where the interclick time is less than a predefined threshold.
    • Διάταξη Διπλο - αναφορές Συνεχόμενες Μέγιστο πρότυπο Υποστήριξη Κ.Σ. ΌΧΙ ΟΧΙ ΌΧΙ ΟΧΙ Freq(X)/#transactions Επεισόδια ΝΑΙ ΌΧΙ ΌΧΙ ΌΧΙ Freq(X)/#timewindows Ακολουθιακά Πρότυπα ΝΑΙ ΌΧΙ ΌΧΙ ΝΑΙ Freq(X)/#customers Μέγιστες Εμπρόσθιες Ακολουθίες ΝΑΙ ΟΧΙ ΝΑΙ ΝΑΙ Freq(X)/#forward sequences Μέγιστες Συχνές Ακολουθίες ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ Freq(X)/#clicks
    • Πηγές και Μοντελοποίηση Δεδομένων Λεπτομερής περιγραφή διαδικασίας Web Usage Mining
      • Πηγές Δεδομένων Web
      • Συλλογή σε επίπεδο Server
        • Web logs
        • Cookies
        • Embedded IDs
        • Packet sniffers
        • Content Server logs
      Διάγραμμα Προσπέλασης του Web
      • Συλλογή σε επίπεδο Client
        • Remote Agent (Java scripts/applets)
        • Τροποποίηση του browser
      • Συλλογή σε επίπεδο Proxy
        • Proxy server logs