ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΔΙΑΔΙΚΤΥΟ
Upcoming SlideShare
Loading in...5
×
 

ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΔΙΑΔΙΚΤΥΟ

on

  • 918 views

 

Statistics

Views

Total Views
918
Views on SlideShare
916
Embed Views
2

Actions

Likes
0
Downloads
3
Comments
0

1 Embed 2

http://www.webvistas.org 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΔΙΑΔΙΚΤΥΟ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΔΙΑΔΙΚΤΥΟ Document Transcript

  • ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΔΙΑΔΙΚΤΥΟ Ιωάννης Αντωνίου, Μιχάλης Βαφόπουλος και Πολυχρόνης Μωυσιάδης Τμήμα Μαθηματικών Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης {iantonio, vafopoulos, cmoi}@math.auth.gr ΠΕΡΙΛΗΨΗΤο World Wide Web είναι μια τεχνολογική επινόηση της τελευταίας εικοσαετίας, που διαρκώςμεταλλάσσεται, αναπτύσσεται και διαδίδεται, αποτελώντας αναπόσπαστο κομμάτι τηςκαθημερινότητάς μας. Η γνώση μας για πολύπλοκα, όπως και για απλά, καθημερινά θέματααυξάνεται σε σημαντικό βαθμό εξ αιτίας κυρίως της κατασκευής του ενιαίου οικουμενικούυπόβαθρου επικοινωνίας και αναπαράστασης που έχει δημιουργήσει το Web. Ο χώρος, οχρόνος και το κόστος συρρικνώνονται και απελευθερώνουν πλεονάζουσα ενέργεια για νέεςκαι διαφορετικές ενασχολήσεις σε όλο και περισσότερους ανθρώπους. Περιγράφονται ταγεγονότα που οδήγησαν στην εμφάνιση του Διαδικτύου, οι βασικές ιδιότητες του, οι λόγοι τηςραγδαίας εξέλιξής του και o ρόλος της Στατιστικής και της μαθηματικής μοντελοποίησηςστην κατανόησή του.1. ΕΙΣΑΓΩΓΗΤο World Wide Web (WWW, Web ή Παγκόσμιος Ιστός) είναι μια τεχνολογικήεπινόηση της τελευταίας εικοσαετίας, που διαρκώς αναπτύσσεται, μεταλλάσσεται καιδιαδίδεται, ως αναπόσπαστο κομμάτι της καθημερινότητάς μας. Η δυνατότηταγνώσης, διαχείρισης και επεξεργασίας πολύπλοκων όπως και απλών, καθημερινώνζητημάτων αυξάνει διαρκώς εξ αιτίας, κυρίως, του ενιαίου δυναμικού οικουμενικούυπόβαθρου επικοινωνίας και αναπαράστασης, που έχει δημιουργήσει το Web. Οχώρος, ο χρόνος και το κόστος συρρικνώνονται και απελευθερώνουν πλεονάζουσαενέργεια για νέες και διαφορετικές ενασχολήσεις σε όλο και περισσότερουςανθρώπους. Η ραγδαία εξέλιξη του διαδικτύου δεν άφησε πολλά περιθώρια ναεντρυφήσουμε στη δομή, τη λειτουργία και τις επιπτώσεις της τεχνολογίας του. Ανκαι ο αριθμός των χρηστών του Web ξεπερνάει τα δύο δισεκατομμύρια, δεν έχειβρεθεί τρόπος εκτίμησης της άμεσης και έμμεσης ωφέλειας που προκύπτει από τηχρήση του. Αυτή η εκτίμηση είναι πλέον απαραίτητη για την αποτελεσματικότερηαξιοποίηση και πρόληψη προβλημάτων στο μέλλον.Είναι βέβαιο ότι η εκτίμηση αυτή δεν μπορεί να γίνει αξιόπιστα χωρίς ταΜαθηματικά και ιδιαίτερα τη Στατιστική που καλούνται να διαδραματίσουνκαθοριστικό ρόλο προσφέροντας τα υφιστάμενα εργαλεία τους καθώς και τη βάσηγια τη δημιουργία των νέων μεθόδων και πρακτικών και την πληρέστερη μελέτη και -1-
  • αξιοποίηση του πολύπλοκου τεχνουργήματος του Web. Για παράδειγμα, όταν έγινεαντιληπτό στα μέσα της δεκαετίας του 1990 ότι η θεωρία Δικτύων είναι το πλαίσιομελέτης του Διαδικτύου, διαπιστώθηκε ότι το Διαδίκτυο είναι αυτο-όμοιο, ιδιότηταπου δεν είχε ανακαλυφθεί στα έως τότε γνωστά θεωρητικά είτε πραγματικά δίκτυακαι ορίστηκε μια νέα κλάση δικτύων [1]. Πρόσφατα η εφαρμογή της ΥπερβολικήςΔιαφορικής Γεωμετρίας σε Δίκτυα (ενσωμάτωση Δικτύων σε επιφάνειες) προσέφερεόχι μόνο καλύτερη αναπαράσταση του Διαδικτύου αλλά και σημαντική βελτίωση τωναλγορίθμων αναζήτησης [2]. Επιπλέον το Web, ως κατανεμημένο δυναμικό σύστημα,προσφέρεται ως μοντέλο για την κατανόηση άλλων κατανεμημένων συστημάτων,όπως ο εγκέφαλος [3].Τα βασικά χαρακτηριστικά του Web και οι σχετικοί ορισμοί δίνονται στην Ενότητα 2.Στην Ενότητα 3 ανατρέχουμε στην αρχική σύλληψη της ιδέας ενός οικουμενικούχώρου αναπαράστασης και επικοινωνίας, περιγράφουμε τις εποχές του Web, τηνυφισταμένη κατάσταση και τις διαφαινόμενες εξελίξεις. Στην Ενότητα 4παρουσιάζουμε την επιστημονική μελέτη του Διαδικτύου. Στην Ενότητα 5 εισάγουμετα Δίκτυα ως μαθηματική δομή του Web και στην Ενότητα 6 μελετώνται προβλήματαδειγματοληψίας στα δίκτυα. Η διακίνηση πληροφορίας στο Web συζητείται στηνΕνότητα 7 και στην τελευταία Ενότητα επισημαίνονται τα βήματα προς έναπληρέστερο μαθηματικό πλαίσιο μελέτης του Web.2. TΙ ΕΙΝΑΙ ΤΟ ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΤΟ WEB;Με τον όρο «Διαδίκτυο» (Internet) νοούνται συνολικά οι τεχνολογίες που βοηθούνστην ανάκτηση ιστοσελίδων και οι οποίες ξεκίνησαν με τη δικτύωση τωνυπολογιστών. Το Web είναι το λογισμικό που έκανε δυνατή την πρόσβαση στοπεριεχόμενο των ιστοσελίδων, ανεξάρτητα από το Λειτουργικό Σύστημα τωνσυνδεδεμένων Υπολογιστών. Σήμερα το Web είναι η πιο επιτυχημένη εφαρμογή τουInternet.Ως Web θεωρείται ο εικονικός χώρος όπου η επικοινωνία γίνεται μέσω ειδικώναρχείων υπερκειμένου (hypertext), που ονομάζονται ιστοσελίδες (webpages). Οιιστοσελίδες είναι αποθηκευμένες σε υπολογιστές, οι οποίοι λειτουργούν με ειδικόλογισμικό (εξυπηρετητές ή servers) και διαθέτουν μεγάλη υπολογιστική ισχύ καιμόνιμη σύνδεση με το Internet, ώστε οι ιστοσελίδες να είναι διαρκώς διαθέσιμεςστους χρήστες. Ο χρήστης αρκεί να διαθέτει ένα πρόγραμμα που να μεταφέρει τιςιστοσελίδες από τον εξυπηρετητή στον τοπικό υπολογιστή. Τα προγράμματα αυτάονομάζονται πλοηγοί (browsers, για παράδειγμα Internet Explorer, Firefox). Σήμερα,δίνεται η δυνατότητα να αναρτήσουμε ψηφιακό περιεχόμενο (κείμενο, φωτογραφίες,ήχο, βίντεο και διάφορους τύπους αρχείων) στο Web χωρίς ειδικές γνώσεις καικόστος. Το ψηφιακό περιεχόμενο κατέχει μοναδικές διευθύνσεις (URI),αναπαρίσταται και διασυνδέεται με συγκεκριμένη κωδικοποίηση (π.χ. HTML) καιεπικοινωνεί με ειδικό πρωτόκολλο (http) δημιουργώντας μια οικουμενικήπληροφοριακή πλατφόρμα. -2-
  • 3. ΑΠΟ ΤΗΝ ΑΡΧΙΚΗ ΣΥΛΛΗΨΗ ΣΤΗ ΣΗΜΕΡΙΝΗ ΕΚΡΗΞΗΠριν την ολοκληρωμένη λειτουργία του Web η σύλληψη και η υλοποίηση τηςαρχικής ιδέας πέρασε από διάφορα εξελικτικά στάδια. Καθοριστικό ρόλο πριν τηνπαρουσίαση του Web έπαιξαν οι εργασίες των Bush, Lickleder, Englebart, Nelson καιη δημιουργία των hypertext, ARPANET, email, DNS και TCP. Πιο συγκεκριμένα, ηΦωτο-ηλεκτρική μηχανική συσκευή, που ονομάστηκε memex, παρουσιάστηκε απότον Bush το 1945 και χρησιμοποιήθηκε για την επέκταση της μνήμης, η οποία θαμπορούσε να δημιουργήσει και να αξιοποιήσει συνδέσμους μεταξύ εγγράφων σεμικροδελτία (microfiche) [4]. Στη συνέχεια ο Lickleder [5], το 1960, μελέτησε τησυμβίωση ανθρώπου και μηχανής και ιδιαίτερα τη βελτίωση της συνεισφοράς τωνυπολογιστών στην επίλυση καλώς ορισμένων προβλημάτων και την παραγωγικήσυνεργασία ανθρώπου και υπολογιστικής μηχανής στη στατιστική λήψη αποφάσεωνσε πολύπλοκες καταστάσεις χωρίς η χρήση να εξαρτάται από το λογισμικό. Έδειξεπως η συμβιωτική αυτή σχέση αποβαίνει αποτελεσματική όταν οι άνθρωποικαθορίζουν τους στόχους, τις αναγκαίες υποθέσεις, τα κριτήρια και τον τρόποεκτέλεσης των αξιολογήσεων και οι μηχανές εκτελούν τους υπολογισμούς. Αμέσωςμετά ο Engelbart [6] μελέτησε τη βελτίωση της πνευματικής αποτελεσματικότηταςτου ανθρώπου με τη χρήση του υπολογιστή. Στην εργασία αυτή αναλύεται έναλεπτομερές εννοιολογικό πλαίσιο, το οποίο διερευνά το σύστημα που συγκροτείταιαπό τον άνθρωπο μαζί με τα εργαλεία (με σημαντικότερο τον υπολογιστή), τιςέννοιες και τις μεθόδους που ταιριάζουν με τις βασικές ικανότητές του για τηνεπίλυση προβλημάτων. Το 1965 ο Ted Nelson εισάγει την έννοια του«Υπερκειμένου» (Hypertext) στο 20ο Συνέδριο της ACM [7], ενώ το 1968 οEngelbart επανέρχεται με τη δημιουργία του oNLine System (NLS) [8]. Το NLS ήτανη πρώτη επιτυχής εφαρμογή του υπερκειμένου και εισήγαγε τη χρήση του ποντικιού.Είχε ως στόχο τη δημιουργία ψηφιακών βιβλιοθηκών με δυνατότητα αποθήκευσηςκαι ανάκτησης των ηλεκτρονικών εγγράφων με τη χρήση υπερκειμένου. Ένα χρόνοαργότερα το Υπουργείο Εθνικής Άμυνας των ΗΠΑ δημιουργεί τους πρώτουςδιασυνδεδεμένους κόμβους του ARPANET (Advanced Research Projects AgencyNetwork). Το 1971 ο Ray Tomlinson της εταιρείας BBN δημιουργεί το λογισμικό γιανα στέλνει μηνύματα email σε ένα κατανεμημένο δίκτυο και ένα χρόνο αργότεραεπεκτείνει την εφαρμογή του στους χρήστες του ARPANET με τη χρήση τουσυμβόλου "@". Οι Cerf και Kahn δημοσιεύουν το 1974 την εργασία τους σχετικά μετο πρωτόκολλο μεταφοράς TCP (Transmission Control Protocol) [9] και το 1978δημιουργείται το Internet Protocol (IP) από τη διάσπαση ενός μέρους του TCP. Το1980 ο Tim Berners-Lee δημιουργεί, αλλά δε δημοσιοποιεί σε ευρεία κλίμακα, τολογισμικό "Enquire-Within-Upon-Everything" που επιτρέπει να δημιουργηθούναυθαίρετα σύνδεσμοι μεταξύ κόμβων. Το πρώτο ιεραρχικό σύστημα ονοματοδοσίαςγια ηλεκτρονικούς υπολογιστές, υπηρεσίες, ή κάθε πόρο που συνδέεται σε ένα δίκτυοή το Διαδίκτυο εισάγεται το 1984 από τον Mockapetris με την ονομασία DomainName System (DNS) [10]. Το Μάρτιο του 1989 ο Tim Berners-Lee δημοσιεύει στοCERN [11] την πρώτη μορφή της ιδέας του με τίτλο “Information Management: AProposal” η οποία είχε περιορισμένη επιτυχία και ανανεώθηκε το Μάιο του επόμενου -3- View slide
  • έτους [12]. Μετά την περιορισμένη απήχηση των γραπτών κειμένων του, ο TimBerners-Lee αποφασίζει να δημιουργήσει τον πρώτο εξυπηρετητή (server) WorldWide Web ("httpd") και τον πελάτη (client) με την ονομασία "WorldWideWeb" πουαποτελούσε έναν φυλλομετρητή/συντάκτη WYSIWYG [13] υπερκειμένων σε έναπεριβάλλον NeXTStep. Το πρόγραμμα "WorldWideWeb" ενεργοποιήθηκε για πρώτηφορά τα Χριστούγεννα του 1990 στο CERN. Στο ευρύ φάσμα του Διαδικτύουεφαρμόσθηκε από το καλοκαίρι του 1991 και η σχετική μελέτη του Tim Berners-Leeέγινε δεκτή ως απλή ανακοίνωση (poster) στο συνέδριο Hypertext 1991 στο ΣανΑντόνιο των ΗΠΑ. Από το 1991 έως το 1993 ο Tim συνέχισε να εργάζεται στησχεδίαση του Web αξιοποιώντας τις παρατηρήσεις και τα σχόλια των χρηστών απόόλο το Διαδίκτυο. Οι αρχικοί ορισμοί των URI, του HTTP και της HTMLτροποποιήθηκαν και έγιναν αντικείμενο ευρείας συζήτησης με την εξάπλωση τηςτεχνολογίας του Web.Το 1994, με πρωτοβουλία του Γιώργου Μητακίδη (εκ μέρους της Ευρώπης) και τουΜιχάλη Δερτούζου (εκ μέρους των ΗΠΑ) δημιουργούν το World Wide WebConsortium (W3C) [14] με έδρα το Εργαστήριο Πληροφορικής του ΜΙΤ (LCS) μετον Τim Berners-Lee ως διευθυντή που συντονίζει έως σήμερα την παγκόσμιαδιάδοση του Web και συνεργάζεται με το ERCIM [15] στην Ευρώπη και τοΠανεπιστήμιο του Keio της Ιαπωνίας. Η αποστολή του W3C είναι να οδηγήσει τοWeb στο μέγιστο των δυνατοτήτων του με πρωτόκολλα και οδηγίες, πουεξασφαλίζουν τη μακροπρόθεσμη ανάπτυξή του.Εν ολίγοις, τα βασικά χαρακτηριστικά του Web συνοψίζονται στο ότι:  αποτελεί ένα ενιαίο σύστημα επικοινωνίας και αναπαράστασης της πληροφορίας,  είναι ανοικτό (ελεύθερου κώδικα), ανεξάρτητο από λογισμικό και τεχνολογική υποδομή, επεκτάσιμο και ουδέτερο απέναντι στη γλώσσα, την πολιτιστική ταυτότητα, το φύλο, τη φυλή,  προσφέρει πρόσβαση στην ανάγνωση και τη δημοσίευση κειμένων σε όλους με ασήμαντο κόστος,  ως λογισμικό λειτουργεί και με «τυχαίες» συνάψεις όπως ο εγκέφαλος,  αξιοποίησε και διεύρυνε σε οικουμενική κλίμακα τη μετάβαση από το ASCII [16] στο Υπερκείμενο [17]. Αυτό το γεγονός αποτελεί θεμελιώδη εξέλιξη στην αναπαράσταση της γνώσης, διότι η επεξεργασία μέσω Υπερκειμένου προσομοιάζει τη συνειρμική επεξεργασία του νου. Μέσω του Web επιτυγχάνεται ταχεία συλλογική γνωσιακή επεξεργασία η οποία εκμηδενίζει τους περιορισμούς του χώρου και του χρόνου.Πριν τη δημιουργία του Διαδικτύου ο προσωπικός υπολογιστής λειτουργούσεαπομονωμένος πραγματοποιώντας περιορισμένης κλίμακας υπολογισμούς χωρίς νασυνδέεται σε κάποιας μορφής δίκτυο, συνεπώς χωρίς το επιπλέον όφελος πουσυνεπάγεται η δικτύωση (γνωστό και ως αποτέλεσμα δικτύου, network effect). Τηδεκαετία του 1990 η εισαγωγή του Web δημιούργησε τη δυνατότητα πλοήγησης σεδιασυνδεδεμένα αρχεία (ως επί το πλείστον κείμενα και φωτογραφίες). Ένα πολύμικρό ποσοστό χρηστών προσέθετε περιεχόμενο στο Διαδίκτυο, ενώ η συντριπτική -4- View slide
  • πλειοψηφία αρκούνταν στην πλοήγηση του περιεχομένου αυτού. Η εισαγωγή καιεξάπλωση των wikis (π.χ. Wikipedia), της κοινωνικής δικτύωσης (π.χ. Facebook) τωνιστολογίων (blogs) και της ανάρτησης φωτογραφιών και πολυμέσων (π.χ. YouTube)σηματοδότησε το Web 2.0 και την ευρεία συμμετοχή στη δημοσίευση ψηφιακούπεριεχομένου και επικοινωνία εκατοντάδων εκατομμυρίων χρηστών σε οικουμενικόεπίπεδο. Η κύρια πηγή οικονομικής αξίας προέρχεται από τη διαρκή δημιουργίαπεριεχομένου και την κοινωνική δικτύωση στο Web. Η τρίτη εποχή του Web έχει ωςεπίκεντρο τη σημασιολογική δικτύωση του περιεχομένου με στόχο την επέκταση τωνδυνατοτήτων στο πεδίο των συλλογισμών και της αυτόματης συναγωγήςσυμπερασμάτων. Το σημασιολογικό Web βρίσκεται σε φάση ανάπτυξης μεπρομετωπίδα την αξιοποίησή του από την ερευνητική, επιχειρηματική κοινότητα καιπροσφάτως από κυβερνήσεις μεγάλων χωρών όπως οι ΗΠΑ, η Μεγάλη Βρετανία, ηΑυστραλία και προσφάτως η Ελλάδα. Στην τέταρτη εποχή του Web, διαβλέπουμεκαθολική σημασιολογική επεξεργασία με δυνατότητα σύγκρισης και σύνθεσηςσυλλογισμών (μετα-συλλογισμοί) σε ευρεία κλίμακα εντός του λεγομένου “νέφους”(cloud). Σήμερα η συγκεκριμένη τεχνολογική υλοποίηση γνωρίζει μεγάλη άνθιση(π.χ. Amazon elastic cloud), όμως παραμένουν ανοικτά σημαντικά ζητήματαασφάλειας, αξιοπιστίας και νομικής ευθύνης. Σε ένα πιο προχωρημένο σενάριο θαμπορούσαμε να εικάσουμε ότι όλοι οι προηγούμενοι παράγοντες δια-λειτουργούν καισυνθέτουν ένα γόνιμο περιβάλλον δια-δημιουργικότητας όπου είναι εφικτή ηκινητοποίηση τεράστιων υλικών και ανθρώπινων πόρων διαμέσου του Web σε μερικάδευτερόλεπτα. Στην περίπτωση αυτή μιλάμε για την «εκθετική» εποχή του Web τηνWeb 2w, με χαρακτηριστικά Παγκόσμιου «Nου». Τα ανωτέρω συνοψίζονται στονΠίνακα 1 Πίνακας 1: Οι εποχές του Web παραγωγήΕποχή Περιγραφή οικονομικής αξίαςπρο-Web υπολογισμοί ο επιτραπέζιος υπολογιστής είναι ηέως 1990 δεν υπάρχει πλατφόρμαυπολογισμοί αποτέλεσμα δικτύουWeb 1.0 πλοήγηση στο Web: ο πλοηγός είναι ηδεκαετία 1990 διασύνδεση κειμένων πλατφόρμαανάγνωσηWeb 2.0 δημιουργίαδεκαετία 2000 κοινωνικό Web: το Web είναι η πλατφόρμα περιεχομένου καισυμμετοχή κοινωνική δικτύωσηWeb 3.0 σημασιολογικό Web (οντολογίες και σημασιολογικήδεκαετία 2010 Διασυνδεδεμένα Δεδομένα-Linked Data): το επεξεργασίασυλλογισμοί σημασιολογικό δίκτυο είναι η πλατφόρμαWeb 4.0 Καθολική Το δίκτυο όντων (Web of beings) είναι ηΜετά το 2015 σημασιολογική “πλατφόρμα”μετα-συλλογισμοί επεξεργασίαWeb 2w ΜέλλονΔυνητική πανταχού Παγκόσμιος “Noυς” δια-δημιουργία παρουσία και συμμετοχή! -5-
  • Σύμφωνα με την Google [18] η ανάπτυξη του Web δείχνει να υπερβαίνει κάθεεκτίμηση. Με βάση τα δεδομένα του 2009 υπάρχουν περισσότερες από 1τρισεκατομμύριο ιστοσελίδες, ενώ το 2001 υπήρχαν λιγότερες από 1 δισεκατομμύριο.Οι αναζητήσεις στην ίδια μηχανή ξεπερνούν το 1 δισεκατομμύριο την ημέρα, ενώστην ίδια τάξη μεγέθους κινείται η επισκεψιμότητα του youtube.com. Η δημιουργίαιστοχώρων αυξάνει επίσης «εκρηκτικά» τα τελευταία χρόνια ξεπερνώντας τις αρχικέςεκτιμήσεις (Διάγραμμα 1). Διάγραμμα 1: Εξέλιξη αριθμού ιστοχώρων 1996-2010 (πηγή netcraft.com)Στη σημερινή εποχή του κοινωνικού Web 2.0, το 72% των χρηστών διαθέτειτουλάχιστον έναν λογαριασμό σε κοινωνικό δίκτυο. Στην κορυφή των κοινωνικώνδικτύων του Web βρίσκεται το Facebook με 400.000.000 ενεργούς χρήστες. Η νέααυτή “ήπειρος” χαρακτηρίζεται από τα εξής γεγονότα:  50% των χρηστών κάνουν επίσκεψη σε καθημερινή βάση  35.000.000 χρήστες ανανεώνουν το προφίλ τους σε καθημερινή βάση  3.000.000.000 φωτογραφίες αναρτώνται από τους χρήστες κάθε μήνα.Το Twitter αποτελεί το ανερχόμενο “αστέρι” της κοινωνικής δικτύωσης, καθώς με75.000.000 ενεργούς χρήστες και λίγες εκατοντάδες εργαζόμενους έχει καταφέρει ναμετατοπίσει το ενδιαφέρον από τα ιστολόγια στα σύντομα μηνύματα (μέχρι 140χαρακτήρες) των χρηστών του.Εκτός από τη στατιστική ανάλυση της χρήσης του Web 2.0, μεγάλο ενδιαφέρονσυγκεντρώνουν και οι οικονομικοί μετασχηματισμοί που επιφέρει το νέο μέσο.Σύμφωνα με το BBC στις 30/9/2009 η δαπάνη για διαδικτυακή διαφήμιση ξεπέρασετην αντίστοιχη της τηλεόρασης. Το ίδιο συνέβη το 2010 και στην αγορά των ΗΠΑ.Το πολυκατάστημα Amazon.com αριθμεί πέραν των 50.000.000 επισκεπτών σεημερήσια βάση, η χρηματιστηριακή του κεφαλαιοποίηση είναι 60.000.000.000δολάρια και απασχολεί 24.000 εργαζομένους. -6-
  • Σε κοινωνικό επίπεδο 75% των νέων δεν μπορούν να σκεφθούν τον εαυτό τους χωρίςτην ύπαρξη του Web [19]. Για αυτούς αλλά και για σημαντικές κοινότητες χρηστώντο Web, ως πλατφόρμα αναπαράστασης και επικοινωνίας, αποτελεί καθημερινόεργαλείο για τη μάθηση, την επιστήμη, την επιχειρηματικότητα και την κοινωνικήσυμμετοχή. Σε εθνικό και διεθνές επίπεδο το Διαδίκτυο αναδείχθηκε πλέον ωςκρίσιμη υποδομή για την καθημερινή ατομική και συλλογική λειτουργία. Ωςπαραδείγματα αναφέρουμε τον καθοριστικό ρόλο του Διαδικτύου (ιδιαίτερα τωνιστολογίων) στην προεδρική εκλογή του προέδρου Ομπάμα και την ακολουθούμενηανοικτή πολιτική διαφάνειας των δημόσιων δεδομένων κυβερνήσεων, όπως τωνΗΠΑ (data.gov), της Μεγάλης Βρετανίας (data.gov.uk), της Αυστραλίας(data.australia.gov.au) και πρόσφατα της Ελλάδας (et.diavgeia.gov.gr).Ο εκθετικός ρυθμός διάδοσης του Web οφείλεται στο γεγονός ότι προσφέρειπρωτόγνωρη και μοναδική εμπειρία πλοήγησης σε γνώση, ειδήσεις, πληροφορίες,ανθρώπους, γεγονότα. Οποιοσδήποτε μπορεί να πραγματοποιεί συναλλαγές, αγορές,όποτε και από όπου επιθυμεί. Την ίδια στιγμή είναι το μοναδικό σύστημα στηνιστορία που δεν απαιτεί καμία αδειοδότηση από κεντρική αρχή για τη μεταβολήπεριεχομένου και στηρίζεται στην ενεργό συμμετοχή μας την οποία ενσωματώνει εκκατασκευής. Όμως αυτή η ελευθερία καταστρατηγείται από ορισμένους ώστεαποτελεί αντικείμενο μελέτης η οριοθέτηση της χρήσης του διαδικτύου για τηνπροστασία των χρηστών.4. ΕΠΙΣΤΗΜΗ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥΕίκοσι χρόνια μετά τη δημιουργία του και έχοντας σχηματίσει μια –όχι απλά κρίσιμηαλλά– εκρηκτική μάζα, το Web αποτελεί μαζί με τα Δίκτυα της Ζωής την επανάστασητου 21ου αιώνα. Μαζί με τις τεράστιες νέες ευκαιρίες και δυνατότητες πουπροκύπτουν και διαφαίνονται, ανέκυψαν και σημαντικά ζητήματα σχετικά με τηναξιοπιστία, την ασφάλεια, την ιδιωτικότητα. Τα ζητήματα αυτά αποτελούν νέεςεκδοχές υφιστάμενων προβλημάτων (πχ. εκβιασμός, πορνογραφία), είτε συνιστούννεότευκτα ερωτήματα για την καθημερινότητα (πχ. σχέσεις ανάμεσα σε τρισδιάστατααβατάρ), τη Στατιστική (πχ. δειγματοληψία από πολύπλοκα δίκτυα με βάρη) και ταΜαθηματικά (πχ. μοντελοποίηση λειτουργιών, συλλογισμών και εξέλιξης σεκατανεμημένα συστήματα).Σήμερα έχει πλέον καταστεί απαραίτητη η μαθηματική μελέτη της δομής καιλειτουργίας, των κοινωνικών και οικονομικών επιπτώσεων καθώς και αυτήςκαθαυτής της διακυβέρνησης του Web. Αυτό τονίστηκε επανειλημμένα στις εργασίεςτου πανηγυρικού συνεδρίου για την Επιστήμη του Διαδικτύου που οργάνωσε ηΒασιλική Ακαδημία της Μεγάλης Βρετανίας στα πλαίσια των εορτασμών για τα 350χρόνια από την ίδρυσή της. [20].Η επιστήμη του Διαδικτύου (Web Science) [21, 22] προχωρά πέρα από την απλήεκμάθηση και μελέτη των τεχνολογιών δημιουργίας και φιλοξενίας ιστοσελίδων,αξιοποιώντας τα πολύτιμα πορίσματα της Στατιστικής και της ΜαθηματικήςΜοντελοποίησης σε συνδυασμό με την έρευνα των κοινωνικών συστημάτων,συνθέτοντας ουσιαστικά ένα νέο διεπιστημονικό πεδίο. Στην κατεύθυνση αυτή το -7-
  • 2006 δημιουργήθηκε η Ερευνητική Πρωτοβουλία για την επιστήμη του Web (WSRI).Το WSRI είναι μια κοινή προσπάθεια μεταξύ του Computer Science and ArtificialIntelligence Laboratory (CSAIL) στο MIT και του Τμήματος επιστήμης τωνΥπολογιστών στο Πανεπιστήμιο του Southampton. Η στόχευση του WSRI είναι ναοργανώσει και να συστηματοποιήσει τις ερευνητικές μεθόδους για τον μελλοντικόσχεδιασμό και τη χρήση του World Wide Web.Κατά τη διάρκεια του 2009, το WSRI μετεξελίχθηκε σε μια αυτόνομη οντότηταφιλανθρωπικού χαρακτήρα με την ονομασία Web Science Trust η οποία οδήγησε σεεκρηκτική διάδοση την επιστημονική μελέτη του Διαδικτύου. Στα πλαίσια αυτάεντάσσεται και η δημιουργία του ΠΜΣ στην Επιστήμη του Διαδικτύου στο ΤμήμαΜαθηματικών του ΑΠΘ, το οποίο λειτουργεί από το 2009 (Πίνακας 2). Πίνακας 2: Το χρονολόγιο της Web Science 2005-2010 1ο Web Science Workshop στο Λονδίνο9/2005 T. Berners-Lee, W. Hall , J.Hendler, N. Shadbolt, D. Weitzner11/2006 Ίδρυση Web Science Research Initiative2007 Έκδοση βιβλίου "A Framework for Web Science"2008 Μετάφραση στα ελληνικά του "A Framework for Web Science"4/2008 2ο Web Science Workshop στη Κίνα7/2008 Θερινό Σχολείο υποψήφιων διδακτόρων στην Οξφόρδη9/2008 1o Web Science curriculum Workshop στην Αγγλία9/2008 Ίδρυση World Web Foundation3/2009 1o Συνέδριο Web Science στην Αθήνα ΠΜΣ στην Επιστήμη του Διαδικτύου στο Τμήμα Μαθηματικών του10/2009 ΑΠΘ4/2010 Πτυχίο Web Science στο Rensselaer Polytechnic Institute (RPI), ΗΠΑ6/2010 Δημιουργία διεθνούς δικτύου συνεργαζόμενων φορέων στη Web Science9/2010 Συνέδριο της Royal Society για τη Web Science στο ΛονδίνοΕάν δεν κατανοήσουμε τους μηχανισμούς και τους παράγοντες ανάπτυξης καιεξέλιξης του Web, θα μας διαφύγουν οι ευκαιρίες βελτίωσης της επικοινωνιακής καιπαραστατικής του ικανότητας. Για παράδειγμα, στην τελευταία πενταετία του 20ουαιώνα οι τεχνολόγοι έκαναν έκκληση προς τους μαθηματικούς να ασχοληθούν με τοΔιαδίκτυο για να εξηγήσουν τους λόγους που άλλαξε η δομή του τηλεφωνικούδικτύου από Poisson σε αυτο-όμοια. Αυτές οι ιδιότητες μελετώνται στα πλαίσια τηςθεωρίας γραφημάτων και δικτύων.5. ΔΙΚΤΥΑΤα γραφήματα είναι η φυσική γλώσσα περιγραφής των αλληλεξαρτήσεων τωνπολύπλοκων συστημάτων. Ο Prigogine όρισε ένα σύστημα ως Πολύπλοκο [23], ανδεν είναι εφικτή η αναγωγή του σε ανεξάρτητα απλά υποσυστήματα. Δηλαδή στα -8-
  • πολύπλοκα συστήματα δεν εφαρμόζεται η στρατηγική «διαίρει και βασίλευε», ούτε ηαναγωγή σε επί μέρους ανεξάρτητες Τυχαίες Μεταβλητές. Είμαστε αναγκασμένοι νατα μελετήσουμε με ολιστικές μεθόδους που αναπτύσσονται στα πλαίσια τηςΣτατιστικής, της Θεωρίας Πιθανοτήτων και της Θεωρίας Πληροφορίας σεσυνδυασμό με τη Θεωρία Δικτύων.Ως γράφημα (graph) ορίζεται ένα ζεύγος δύο συνόλων G = (V , E ) , όπου V είναιένα σύνολο n στοιχείων που ονομάζονται κόμβοι (nodes) ή κορυφές (vertices) ήσημεία (points) και E είναι ένα σύνολο m συνδέσεων (links), ή ακμών (edges) ήγραμμών (lines) μεταξύ των στοιχείων του V. Αν τα ζεύγη των κόμβων u,v πουορίζουν τις συνδέσεις e = (u , v), u , v Î V είναι διατεταγμένα δηλαδή υπάρχει διάταξηστη σχέση που συνδέει τους κόμβους u, v, το γράφημα λέγεται κατευθυνόμενο(directed graph ή digraph). Αν σε κάθε σύνδεση e Î E αντιστοιχίσουμε μία τιμή w(e) Î  το γράφημα λέγεται σταθμισμένο (weighted). Ένα γράφημα στο οποίοορίζονται τυχαίες μεταβλητές στους κόμβους ή/και στις συνδέσεις τους λέγεταιδίκτυο (network). Η έννοια αυτή είναι γενίκευση των ηλεκτρικών δικτύων σταοποία το δυναμικό και το ηλεκτρικό ρεύμα είναι οι τυχαίες μεταβλητές στουςκόμβους και στις συνδέσεις, αντίστοιχα. Το Web είναι ένα δίκτυο με κόμβους τιςΙστοσελίδες και συνδέσεις τους υπερ-συνδέσμους (hyperlinks) μεταξύ ιστοσελίδων(Σχήμα 1). Το γράφημα του Web σήμερα έχει περισσότερες από ένα τρισεκατομμύριοκόμβους και αρκετά δισεκατομμύρια συνδέσεις και αναπτύσσεται εκθετικά.Από ένα δίκτυο μπορούμε να συλλέξουμε διαφόρων ειδών δεδομένα [24]: Δεδομένα απαρίθμησης (enumerated data). Τέτοια δεδομένα διαθέτουμε όταν κάνουμε τη συλλογή τους με εξαντλητικό τρόπο σε όλους τους κόμβους του δι- κτύου. Για παράδειγμα σε κοινωνικά δίκτυα όπως αυτά των αποφοίτων από ένα σχολείο ή πανεπιστήμιο, είναι εύκολο να έχουμε δεδομένα απαρίθμησης που τα καταγράφουν οι ίδιοι που είναι κόμβοι του δικτύου. Επίσης, δίκτυα συνεργασιών ερευνητών ή επιστημονικών περιοδικών, για τις οποίες συνεργασίες υπάρχουν βάσεις δεδομένων από αρκετά χρόνια πριν, που καταγράφουν τις διασυνδέσεις (citations). Δεδομένα μερικής απαρίθμησης (partial data). Προκύπτουν από συλλογή με εξαντλητικό τρόπο από ένα υποσύνολο του πληθυσμού. Για παράδειγμα, προκει- μένου να μελετηθεί το διαδίκτυο στο ΑΠΘ, μπορούν να ληφθούν καταγραφές των επικοινωνιών μεταξύ χρηστών-κόμβων του ΑΠΘ. Τα δεδομένα που παίρνου- με με τον τρόπο αυτό είναι μερικής απαρίθμησης. Μπορούν να βοηθήσουν στη μελέτη διάφορων χαρακτηριστικών του δικτύου, σε άλλα όμως αποτυγχάνουν. Π.χ. αν θέλουμε να υπολογίσουμε την πιθανότητα να καταρρεύσει το δίκτυο δεν αρκούν αυτά, αφού οι χρήστες συνδέονται επίσης και με άλλους κόμβους που δεν ανήκουν στο ΑΠΘ. Δειγματοληπτικά Δεδομένα. Προκύπτουν από κόμβους που επελέγησαν με κά- ποια δειγματοληψία. Η δειγματοληψία όμως σε κόμβους γραφήματος έχει διάφο- ρα μειονεκτήματα. Πρώτον οι κόμβοι του γραφήματος δεν είναι εν γένει ανεξάρ- τητοι μεταξύ τους και δεύτερον δεν έχουν όλοι την ίδια σημασία. Για παράδειγ- μα, αν σε ένα δίκτυο ιατρών οι οποίοι συνδέονται με κοινούς ασθενείς επιλεγούν -9-
  • τυχαία μόνο κάποιοι από τους πλέον γνωστούς, το αποτέλεσμα της μελέτης δεν είναι αντιπροσωπευτικό του δικτύου. Επειδή οι υπάρχουσες τεχνικές και μέθοδοι της Στατιστικής δεν μπορούν να ε-φαρμοστούν άμεσα στο τεραστίων διαστάσεων διαδίκτυο και δεν μπορούν να αντιμε-τωπίσουν άμεσα όλα τα είδη δεδομένων που διαθέτουμε, διανοίγεται ένα νέο πεδίοέρευνας για την ανάπτυξη στατιστικών μεθόδων, στοχαστικών μοντέλων και αλγο-ρίθμων προσομοίωσης του Web. Ένας παράγοντας που επηρεάζει και τη στατιστική ανάλυση είναι ο τρόποςαπεικόνισης (drawing) ενός γραφήματος. Σε εισαγωγικές μελέτες γραφημάτων, όπουοι κόμβοι είναι σχετικά λίγοι, τα γραφήματα σχεδιάζονται με το χέρι και οαναγνώστης μπορεί να αντιληφθεί τη σημασία ενός καλού σχεδιασμού. Γιαπαράδειγμα, τα τρία γραφήματα του σχήματος 1 παριστάνουν το ίδιο γράφημα, αλλάδημιουργούν διαφορετική εντύπωση. Έχει κατασκευαστεί πλήθος αλγορίθμων που σχεδιάζουν τα γραφήματα, τωνοποίων έχουν δοθεί τα απαραίτητα στοιχεία, με τρόπο ώστε να είναι πιο όμορφα καιπιο λειτουργικά. Γνωστά πακέτα όπως το Mathematica, το Excel (NodeXL) και άλλαέχουν ενσωματώσει τέτοιους αλγορίθμους για καλές κατασκευές γραφημάτων. Σ’αυτούς δίνεται και δυνατότητα τελικής παρέμβασης του χρήστη για ένα καλύτεροαποτέλεσμα, αφού μια καλή παράσταση του γραφήματος είναι και τέχνη. Σχήμα 1: Τρεις διαφορετικές σχεδιάσεις του ίδιου γραφήματος Για την κατασκευή ορισμένων δικτύων χρειάζεται να προηγηθεί στατιστικήανάλυση του φαινομένου που πρόκειται να παρασταθεί. Ας υποθέσουμε ότι σε μιαβιολογική μελέτη έχουμε Ν γονίδια {1,2,…, Ν} και για κάθε γονίδιο μετρούμε τησυμπεριφορά του κάτω από m διαφορετικές πειραματικές καταστάσεις. Οι μετρήσειςαυτές δίνονται με ένα m ´1 διάνυσμα xi = ( xi1 , xi 2 , ¼, xim )΄ . Ένας συνήθης τρόποςσύγκρισης των γονιδίων i και j είναι με την εύρεση του συντελεστή συσχέτισης rijτων διανυσμάτων xi και x j . Ζεύγη γονιδίων που έχουν μεγάλο συντελεστήσυσχέτισης θεωρούμε ότι αλληλεπιδρούν και στο γράφημα με κορυφές τα γονίδιαπροσθέτουμε την ακμή ij που δείχνει ότι σχετίζονται τα αντίστοιχα γονίδια. Για νααποφασίσουμε τώρα αν ο συντελεστής συσχέτισης είναι «μεγάλος» κάνουμε ένανέλεγχο υπόθεσης χρησιμοποιώντας κατάλληλο κατώφλι. - 10 -
  • Ένας άλλος τρόπος κατασκευής δικτύων είναι με τη χρήση μεθόδωνπαλινδρόμησης. Ας θεωρήσουμε ότι έχουμε ένα κοινωνικό δίκτυο G(V,E), όπου το Vείναι τα άτομα που αποτελούν τα άτομα του κοινωνικού δικτύου και E οι μεταξύ τωνατόμων ύπαρξη κοινωνικού δεσμού (π.χ. φιλία, συνεργασιμότητα, εντοπιότητα,επαγγελματική σχέση, προσωπική σχέση). Αν ο δεσμός αυτός εξαρτάται από κάποιεςελέγξιμες μεταβλητές όπως για παράδειγμα ηλικία, φύλο, κλπ, παριστάνουμε με Y τοδεσμό (δηλαδή Y=1 αν υπάρχει, Y=0 αν δεν υπάρχει) και με X το διάνυσμα τωνπροβλεπουσών μεταβλητών. Στη συνέχεια εκτιμούμε την πιθανότηταP (Yij = 1| X i = xi , X j = x j ) και αν αυτή ξεπερνά κάποιο όριο εισάγουμε την ακμή ijστο γράφημα G.Το πλήθος των συνδέσεων κάποιου κόμβου u λέγεται βαθμός (degree) του κόμβουκαι συμβολίζεται d(u). Αν το γράφημα είναι κατευθυνόμενο διακρίνουμε τον έσω-βαθμό (in-degree) din(u) και τον έξω-βαθμό (out-degree) dout(u). Στο σχήμα 2 δίνονταιένα απλό και ένα κατευθυνόμενο γράφημα και οι βαθμοί των κορυφών τους. Για τουςβαθμούς των κορυφών ισχύουν οι σχέσεις (Σχήμα 2): n å d (i ) = 2 m i =1 (Θεώρημα Euler) για τα απλά γραφήματα, και n n å din (i ) = m και i =1 åd i =1 out (i ) = m για τα κατευθυνόμενα. d(5)=1 din(2)=3, 2 dout(2)=1 d(2)=4 5 c c din(1)=1, 2c 1.7 5 dout(1)=1 0.5 3 d(1)=2 2 3 c 1 c 1.2 3 9 c 1c 0.2 d(3)=2 2 din(3)=1, 4 c dout(3)=2 2.1 4 c din(4)=1, d(4)=3 dout(4)=2 Σχήμα 2: Βαθμοί κορυφών απλού και κατευθυνόμενου γραφήματοςΗ κατανομή των βαθμών των κορυφών σε ένα γράφημα ενδιαφέρει ιδιαίτερα στατυχαία γραφήματα αλλά ιδιαίτερα σε μεγάλα γραφήματα όπως το Web. Συμβολίζουμεμε P(k) την πιθανότητα μία κορυφή επιλεγμένη τυχαία να έχει βαθμό k.Ένας περίπατος (walk ή chain) είναι μία διαδοχή κορυφών και ακμών που συνδέουνδύο κορυφές του γραφήματος. Αν ο περίπατος διέρχεται από διαφορετικές ακμέςλέγεται διαδρομή (trail), ενώ αν διέρχεται από διαφορετικές κορυφές (άρα και ακμές) - 11 -
  • λέγεται μονοπάτι (path). Αν η αρχική κορυφή ταυτίζεται με την τελική τότεαναφερόμαστε αντίστοιχα σε κλειστό περίπατο, κλειστή διαδρομή και κύκλο (cycle).Μήκος (length) περιπάτου, διαδρομής κλπ λέγεται το πλήθος των ακμών πουπεριέχει.Η απόσταση δύο κόμβων, d (u, v ), u, v Î V , σε ένα γράφημα ορίζεται ως το μήκος τουσυντομότερου μονοπατιού που συνδέει τις κορυφές u, v. Η μέγιστη απόσταση μιαςκορυφής u από όλες τις άλλες λέγεται εκκεντρότητα (eccentricity) e(u) της κορυφήςαυτής, ενώ η μέγιστη εκκεντρότητα, δηλαδή η μέγιστη των αποστάσεων τωνκορυφών, λέγεται διάμετρος (diameter). Κορυφές με την ελάχιστη εκκεντρότητασυγκροτούν το κέντρο (center) του γραφήματος. Η μέση απόσταση (average distance) 1σε ένα συνδετικό γράφημα υπολογίζεται από τον τύπο L = å d (u, v ) . n ( n - 1) u , vÎVΗ ύπαρξη πλήρους υπογραφήματος (δηλαδή γραφήματος που έχει όλες τις δυνατέςακμές) σε ένα γράφημα αναφέρεται ως κλίκα (clique). Για παράδειγμα η ύπαρξηυποσυνόλου ατόμων σε ένα κοινωνικό δίκτυο φιλίας ή συνεργασίας που είναι όλοιμεταξύ τους φίλοι ή συνεργάτες αποτελεί μία κλίκα. Ένας συντελεστής που εκφράζειτο βαθμό κατά τον οποίο μια κορυφή ανήκει σε κλίκα είναι ο συντελεστής σύμπλεξης(clustering coefficient) που ορίζεται Cu = Eu (ku ( ku -1) / 2) , όπου Eu είναι τοπλήθος των ακμών που συνδέουν τις ku άμεσα συνδεδεμένες κορυφές με την u. Οσυντελεστής αυτός κυμαίνεται από 0 (καμία σχέση μεταξύ των γειτόνων της u) έως 1(οι γείτονες της u έχουν όλες τις μεταξύ τους συνδέσεις και άρα μαζί με την uαποτελούν κλίκα). Ο συντελεστής σύμπλεξης του γραφήματος ορίζεται ωςC = n å uÎV C u . 1Ας θεωρήσουμε ένα τυχαίο γράφημα G όπου το τυχαίο ζεύγος κορυφών συνδέεται μεπιθανότητα p. Τότε το αναμενόμενο πλήθος ακμών του γραφήματος είναι p ⋅ n( n -1) / 2 και άρα ο αναμενόμενος μέσος βαθμός κορυφών θα είναι p ⋅ ( n -1) . Η æn -1÷ k öκατανομή των βαθμών κορυφών του G είναι P (k ) = ç ç k ÷ p (1 - p) ç ÷ n-1-k , δηλ. è øδιωνυμική B(n -1, p ) . Η κατανομή αυτή για μεγάλο n και μικρό p ώστε το όριο τουp (n -1) να είναι σταθερό και ίσο με k τείνει στην Poisson με παράμετρο k , k -k kδηλαδή P (k ) = e (Σχήμα 3) k!Εμπειρικές έρευνες απέδειξαν ότι στα περισσότερα πραγματικά δίκτυα η κατανομήτων βαθμών των κορυφών αποκλίνει σημαντικά από την κατανομή Poisson και είναιδιακριτή εκθετική (power-law distribution) με συνάρτηση πιθανότητας P(k )  k -γ ,όπου γ σταθερά μεταξύ 2 και 3. Για κατευθυνόμενα δίκτυα παρατηρούνται δύοκατανομές που αντιστοιχούν στους έσω-βαθμούς κορυφών με σταθερά γin και στουςέξω-βαθμούς με σταθερά γout . - 12 -
  • Σχήμα 3: Τυχαίο δίκτυο Poisson και η κατανομή P(k) του αριθμού συνδέσεων k των κόμβωνΟι στατιστικές ιδιότητες δικτύων στα οποία οι βαθμοί των κόμβων ακολουθούναυτήν την κατανομή είναι αναλλοίωτες σε αλλαγή της κλίμακας γι’ αυτό τα δίκτυααυτά αναφέρονται ως ανεξάρτητα κλίμακας (scale-free networks) ή αυτό-όμοια (self-similar). Στα δίκτυα αυτά ο συντελεστής σύμπλεξης μειώνεται όσο ο βαθμόςκορυφών αυξάνει. Η αυτό-ομοιότητα στα δίκτυα ανακαλύφθηκε για πρώτη φοράκατά τη μελέτη του Web, που ήταν το πρώτο αυτό-όμοιο πραγματικό δίκτυο [1]. Οικατανομές φαίνονται στο σχήμα 4. Σχήμα 4: Κατανομή Συνδέσεων στο World-Wide Web P(k) k−γ power law a) Εξερχόμενες Συνδέσεις b) Εισερχόμενες Συνδέσεις c) Μέση συντομότερη διαδρομή μεταξύ 2 ιστοσελίδων ως συνάρτηση του μεγέθους του WWW [1]Η αυτο-ομοιότητα είναι στατιστική γενίκευση των fractals [25, 26], μιαεπαναδιατύπωση της ρήσης του Αναξαγόρα: «αρχάς των όντων ομοιομέρειαςαπεφήνατο» [27]. Δίκτυα με αυτο-όμοια δυναμική προσαρμόζονται γρήγορα, είναιανθεκτικά σε τυχαίες επιθέσεις καταστροφής των κόμβων, όμως καταρρέουν ότανυποστούν στοχευόμενες επιθέσεις στους ομφαλούς (hubs, κόμβοι υψηλήςσυνδεσιμότητας), Στο Σχήμα 5 φαίνεται η διαφορά ενός αυτό-όμοιου από ένα τυχαίοδίκτυο. - 13 -
  • Σχήμα 5: Οι Ομφαλοί (μαύροι κόμβοι) Αυτο-ομοίου δικτύου και σύγκριση με Τυχαίο ΔίκτυοΤο Web ως δίκτυο έχει επιπλέον την ιδιότητα του Μικρόκοσμου. Οι μικρόκοσμοιείναι δίκτυα με χαρακτηριστικά μεταξύ των κανονικών, περιοδικών δομών (αριστεράστο Σχήμα 6) και των τυχαίων δομών (δεξιά στο Σχήμα 6) που είδαμε στα τηλέφωνα(Σχήμα 3). Σχήμα 6: Δίκτυα Κανονικά, Μικρόκοσμοι, Τυχαία.Οι μικρόκοσμοι επιτρέπουν γρήγορη επικοινωνία μεταξύ των κόμβων. Γιαπαράδειγμα στο δίκτυο επικοινωνίας της Ανθρωπότητας αρκούν κατά μέσο όρο 6άνθρωποι-κόμβοι για να επικοινωνήσει κάποιος με οποιονδήποτε άλλον άνθρωπο,Six degrees of Separation Theorem [28, 29]. Στο Διαδίκτυο αντίστοιχα, απαιτούνται19 κόμβοι. Είμαστε όμως, ακόμα πολύ μακριά από αυτή την επίδοση λόγω τηςσυντακτικής επεξεργασίας της πληροφορίας. Ευελπιστούμε ότι το σημασιολογικόWeb, σε συνδυασμό με την αυτοματοποιημένη επεξεργασία σε Φυσική Γλώσσα θαμας επιτρέψει αυτή την επίδοση [30].6. ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΣΕ ΔΙΚΤΥΑΗ δειγματοληψία στα δίκτυα δεν μπορεί να αντιμετωπιστεί εφαρμόζοντας τηνκλασική δειγματοληψία. Θα αποδείξουμε αυτό τον ισχυρισμό με ένα παράδειγμα απότο βιβλίο του Kolaczyk [24] στο οποίο ζητείται η εκτίμηση του μέσου βαθμούκόμβων σε ένα μεγάλο δίκτυο G=(V, E) με δειγματοληψία. Αν το δίκτυο περιέχει Nvκόμβους και Ne συνδέσεις τότε η ακριβής τιμή του μέσου βαθμού κόμβων δίνεται απότον τύπο d = N1 å vÎV d v και ισούται με 2Ne/Nv. v - 14 -
  • Για να εκτιμήσουμε το μέσο βαθμό λαμβάνουμε ένα τυχαίο δείγμα V* κόμβων καιένα τυχαίο δείγμα E* συνδέσεων. Το ζεύγος G*=(V*, E*) δεν είναι γράφημα στηγενική περίπτωση. Αν είναι γράφημα τότε θα είναι υπογράφημα του G. Σε κάθεπερίπτωση η εκτίμηση του μέσου βαθμού από το δείγμα θα δίνεται από τον τύπο 1δ = n å vÎV * d v , όπου n το πλήθος κόμβων του δείγματος και όπου το dv έχει νόημαβαθμού κόμβου μόνο αν το δείγμα είναι γράφημα. Αλλιώς είναι απλά το πλήθοςσυνδέσεων του E* που έχουν ως άκρο τον κόμβο v.Στο παράδειγμα επιλέγεται το E* με δύο διαφορετικές μεθόδους.Μέθοδος 1: Για κάθε κόμβο u του V* θεωρούνται όλες οι συνδέσεις του G που έχουνως ένα εκ των άκρων τους το u και συμπεριλαμβάνονται στο E*.Μέθοδος 2: Για κάθε ζεύγος κόμβων {u, v} του V* εξετάζεται αν η σύνδεση {u, v}ανήκει στο E. Τότε συμπεριλαμβάνεται στο E*. (Στη μέθοδο αυτή το δείγμα είναιυπογράφημα).Η εφαρμογή της ανωτέρω διαδικασίας έγινε σε ένα πραγματικό γράφημα με Nv=5151κόμβους και Ne=31201 συνδέσεις. Άρα η πραγματική τιμή του μέσου βαθμού είναιd = 2 ⋅ N e / N v = 12.115 . Έγιναν 10000 δειγματοληψίες με τις δύο μεθόδους και τααποτελέσματα φαίνονται στο σχήμα 7 Σχήμα 7. Ιστογράμματα 10000 δειγμάτων με τις Μεθόδους 1 και 2Το ιστόγραμμα δεξιά προέκυψε από τους μέσους βαθμούς κόμβων των δειγμάτων μετη μέθοδο 1 και έχει μέση τιμή 12.117 και τ.α. 0.3797, ενώ το αριστερό προέκυψεαπό τη μέθοδο 2 και έχει μέση τιμή 3.528 και τ.α. 0. 2260. Δηλαδή η μέθοδος 1 πουτο δείγμα δεν σχηματίζει γράφημα έχει μία εξαιρετική ακρίβεια, ενώ η μέθοδος 2,που σχηματίζει γράφημα αποκλίνει πάρα πολύ. Προσεγγιστικά η απόδοση τηςμεθόδου 2 μειώνεται κατά ένα συντελεστή n/Nv.Με κατάλληλη δειγματοληψία στο Web γίνεται εκτίμηση του πλήθους των υπερ-συνδέσεων του Διαδικτύου. Κατασκευάζεται έτσι ο πίνακας μεταβάσεων Markov Μ,του οποίου το αναλλοίωτο ιδιοδιάνυσμα ρeq: Μρeq = ρeq καθορίζει την κατάταξη τωνιστοσελίδων (Pagerank), όπως στη μηχανή αναζήτησης Google [30, 31]. - 15 -
  • 7. ΠΩΣ ΔΙΑΚΙΝΕΙΤΑΙ Η ΠΛΗΡΟΦΟΡΙΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ;Η προσαρμογή του επιτυχημένου μοντέλου Διακίνησης Οχημάτων των Prigogine-Hermann στο Διαδίκτυο θεωρώντας τη διακίνηση πακέτων πληροφορίας [32, 33, 34, A 1 é 1 ù35], f ( x) = exp ê- 2 (log x - μ ) 2 ú , επιβεβαίωσε τον αυτο-όμοιο χαρακτήρα 2πσ x êë 2σ úûτου (κατανομή log-Normal, Σχήμα 8) . Σχήμα 8: κατανομή πακέτων πληροφορίας στο Διαδίκτυο8. ΠΡΟΣ ΕΝΑ ΕΥΡΥΤΕΡΟ ΜΑΘΗΜΑΤΙΚΟ ΠΛΑΙΣΙΟ ΜΕΛΕΤΗΣ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥH μαθηματική μοντελοποίηση αποτελεί ένδειξη ωρίμανσης της γνώσης μας μετά τηστατιστική επεξεργασία των δεδομένων.Το Web αναπτύχθηκε αξιοσημείωτα την τελευταία δεκαετία και η συστηματική τουμέτρηση σε ευρεία κλίμακα ξεκίνησε μόλις μετά το 2000, χωρίς να έχει προσεγγίσειτο επίπεδο κατανόησης το οποίο θα μας επιτρέψει να εξάγουμε ασφαλήσυμπεράσματα για το μέγεθος, τη δομή, τη λειτουργία και εν γένει την εξελικτική τουπορεία.Η σχετική ερευνητική προσπάθεια που ξεκίνησε με το μοντέλο του Barabasi [1],παρότι κατέδειξε τις βασικές στατιστικές ιδιότητες του Διαδικτύου δεν καταφέρνει ναερμηνεύσει και να υποδειγματοποιήσει τις βασικές λειτουργίες των μερών του(χρήστες, δημιουργοί ψηφιακού περιεχομένου και μηχανές αναζήτησης) που οδηγούνστη δημιουργία αυτο-όμοιων δομών. Επομένως, απαιτείται η αναζήτησημαθηματικών μοντέλων που θα λαμβάνουν υπόψη τους τα δομικά στοιχεία του Webκαθώς και τις αλληλεξαρτήσεις και τη διαχρονική εξέλιξη τους. Ως παράδειγμααναφέρουμε την ανάλυση των Κουρούπα και άλλων [36] για την ερμηνεία τηςανάδυσης της αυτο-ομοιότητος στο Web και τη γενίκευση της [37]. Τα εξελικτικάαυτά μοντέλα σε συνδυασμό με την σημασιολογική επεξεργασία αναμένεται ότι θαοδηγήσουν στην μαθηματική περιγραφή και ανάλυση του Διαδικτύου.Στην εποχή μας βιώνουμε την ανάπτυξη των Μαθηματικών των Συλλογισμών(σημασιολογική επεξεργασία), αντίστοιχα με την ανάπτυξη των Μαθηματικών τωνΥπολογισμών στα μέσα του 20ου αιώνα. - 16 -
  • ABSTRACTThe World Wide Web is a recent unique technological creation that changes, develops andpropagates as an integral part of our everyday life. Our knowledge for both the complex andthe simple issues of everyday life is significantly increasing, mainly due to the globalcommunication platform provided by the Web. Space, time and cost are significantlycontracted, releasing possibilities for new activities to more and more people. After describingthe Web, its development and its salient features, we discuss issues related to the statisticalanalysis and mathematical modeling. ΑΝΑΦΟΡΕΣ[1] Barabasi A.-L., Réka A. (1999). Emergence of Scaling in Random Networks, Science 286, 509-512[2] Papadopoulos F., Kitsak M., Vahdat A. and Boguna M. (2010). Hyperbolic Geometry of Complex Networks Dmitri Krioukov, Physical Review E, 82, 036106.[3] Boguna M., Papadopoulos F. Krioukov D. (2010). Sustaining the Internet with hyperbolic mapping, Nature Communications 1:62, DOI:10.1038[4] Bush V. (1945). As we may think, The Atlantic Monthly p. 101-108; July. www.theatlantic.com/doc/194507/bush[5] Lickleder, J. C. R., and Clark, W. (1962). On-Line Man-Computer Communication, Proceedings of the Spring Joint Computer Conference, San Francisco, California, May 1.3, vol. 21, pp. 113.128.[6] Engelbart, D. C. (1962). Augmenting human intellect; a conceptual framework. Menlo Park, Calif: Stanford Research Institute.[7] Nelson, T. H., (1965). A file structure for the complex, the changing, and the indeterminate. Proceedings of the ACM National Conference, pp. 84–100.[8] Engelbart, D C. (1972). Online Team Environment. (Network Information Center and Computer Augmented Team Interaction). Ft. Belvoir: Defense Technical Information Center.[9] Cerf, V.G., and Kahn, R.E. (1974). A protocol for packet network interconnection. IEEE Trans. Comm. Tech 5 (May), 627–641.[10] Mockapetris P. (1987). Domain Names: Concepts and Facilities. RFC 1034.[11] CERN, Ευρωπαϊκό Κέντρο Πυρηνικών Ερευνών στη Γενεύη (Γαλλικά: Organisation Européenne pour la Recherche Nucléaire), www.cern.ch.[12] Berners-Lee, T., (1989). Information Management: A Proposal. CERN document, March 1989, May 1990. www.w3.org/History/1989/proposal.html[13] WYSIWYG acronym for What You See Is What You Get, en.wikipedia.org/wiki/ WYSIWYG[14] World Wide Web Consortium, en.wikipedia.org/wiki/World_Wide_Web_ Consortium[15] ERCIM, European Research Consortium for Informatics and Mathematics, www.ercim.eu/ - 17 -
  • [16] ASCII, American Standard Code for Information Interchange, en.wikipedia.org/wiki/ASCII[17] Υπερκείμενο (Hypertext), http://el.wikipedia.org/wiki/%CE%A5%CF%80%CE%B5%CF%81%CE%BA%C E%B5%CE%AF%CE%BC%CE%B5%CE%BD%CE%BF[18] We knew the web was big…(2008), googleblog.blogspot.com/2008/07/we-knew- web-was-big.html[19] BBC (2009). Youth cannot live without web news.bbc.co.uk/2/hi/technology/8305731.stm[20] Web science: A new frontier, Philosophical Transactions A, http://royalsociety.org/Event.aspx?id=1743.[21] Tim Berners-Lee, Wendy Hall, James Hendler, Nigel Shadbolt, Daniel J. Weitzner (2007). Το επιστημονικό πλαίσιο της επιστήμης του Web, Μετάφραση Μιχάλη Βαφόπουλου εκδόσεις hyperconsult.[22] Βαφόπουλος Μ. και Γ. Μητακίδης, (2008). Το πλαίσιο της επιστήμης του Web, ΓΓΕΤ, τεύχος 30, Ιανουάριος-Φεβρουάριος.[23] Prigogine I. (1999). The End of Certainty, Free Press, New York.[24] Kolaczyk, E. (2009). Statistical Analysis of Network Data. Methods and Models, Springer, New York[25] Mandelbrot B. (1982). The Fractal Geometry of Nature, Freeman, San Francisco, CA.[26] Mandelbrot B. (1997). Fractals and Scaling in Finance, Springer-Verlag, New York.[27] Αέτιος, DK 59A46[28] Lewis T. (2009). Networks Science. Theory and Practice, Wiley, New York.[29] Dorogovtsef S. , Mendes J. (2003). Evolution of Networks. From Biological Nets to the Internet and WWW, Oxford, UK.[30] Wilks Y., Brewster Ch. (2006). Natural Language Processing as a Foundation of the Semantic Web, Foundations and Trends in Web Science 1, 199-327[31] Brin S. and Page L. (1998). The anatomy of a large-scale hypertextual Web search engine, Computer Networks and ISDN Systems. 30 (1-7): 107.[32] Langville A. and Meyer C. (2006). Googles PageRank and Beyond: The Science of Search Engine Rankings, Princeton Univwersity Press, New Jersey.[33] Antoniou I., Ivanov V., Kalinovsky Yu. (2002). Kinetic model of network traffic, Physica A 308, 533-544.[34] Antoniou I., Ivanov V.V., Ivanov Valery V. , Zrelov P.V. (2002). On the log- normal distribution of Network Traffic, Physica D 167, 72-85 .[35] Antoniou I., Ivanov Vi., Ivanov Va., Zrelov P.(2003). Wavelet filtering of Network Traffic Measurements, Physica A 324, 733-753 .[36] Kouroupas, G., E. Koutsoupias, C. H. Papadimitriou, and M. Sideri. (2005). Experiments with an Economic Model of the Worldwide Web. Lecture Notes in Computer Science. (3828): 46-54.[37] Amarantidis Ε., Antoniou I, and Vafopoulos M. (2010). Stochastic Modeling of Web Evolution, SMTDA 2010 Conference Proceedings. - 18 -