SlideShare a Scribd company logo
1 of 212
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΑΘΗΝΑΣ
     ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ
  ΤΜΗΜΑ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ & ΣΥΣΤΗΜΑΤΩΝ
             ΠΛΗΡΟΦΟΡΗΣΗΣ




             ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ


<<ΕΡΕΥΝΑ ΚΑΙ ΑΝΑΛΥΣΗ ΣΥΓΧΡΟΝΩΝ ΜΟΝΤΕΛΩΝ
         ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ>>

        Κωλέτση Αικατερίνη   Α.Μ.: 02/080
        Ψαρουδάκη Ευτυχία    Α.Μ.: 02/081


   Επιβλέπων Καθηγητής: Τριανταφύλλου Ιωάννης




                   Αθήνα, 2007
              Πίνακας Περιεχομένων
Κεφ.   Ενότ.   Υποενότ.                        Τίτλοι               Σελ.
                               Εισαγωγή                               9
1                              Παλαιότερα μοντέλα                    12
                               CORE Project (1993)                   12
                               Περίληψη                              12
                               Εισαγωγή                              12
       1                       Αρχιτεκτονική                         13
               1.1.            Οι συλλογές του Project Core          15
               1.2.            Στόχοι του project Core               15
               1.3.            Σχεδιασμός βάσης δεδομένων και        16
                               χρήση
               1.4.            Μηχανή αναζήτησης Newton             16
               1.5.            Διεπαφές που χρησιμοποιήθηκαν        18
       2                       Τεχνικά θέματα                       19
               2.1.            Πρόσκτηση δεδομένων μέσω ASCII       19
2                              Informedia I                         21
                               Περίληψη                             21
                               Εισαγωγή                             21
       1                       Αρχιτεκτονική                        22
               1.1.            Επισκόπηση συστήματος                22
               1.2.            Μεταγραφή και τμηματοποίηση βίντεο   24
               1.3.            Προστασία δεδομένων                  24
               1.4.            Multilingual Informedia              24
                               Εισαγωγή                             24
       2                       Τεχνικά θέματα                       25
               2.1.            Αναβαθμίσεις λογισμικού του          25
                               Informedia I
               2.2.            Multilingual Informedia              26
                      2.2.1.   Καινοτομίες                          26
                      2.2.2.   Αναβαθμίσεις                         26
3                              Stanford Protocol for Internet       27
                               Retrieval and search (STARTS)
                               Περίληψη                             27
                               Εισαγωγή                             27
       1                       Αρχιτεκτονική                        28
               1.1.            Βασικά χαρακτηριστικά του μοντέλου   28
                               Starts
               1.2.            Πρωτόκολλο Z39.50                    30
               1.3.            Η έννοια του πόρου                   30
               1.4.            Σύνταξη και επικοινωνία              31
       2                       Τεχνικά θέματα                       31
               2.1.            Περίληψη πηγής                       31
               2.2.            Περίληψη περιεχομένου πηγών          32
               2.3.            Πηγή μεταδεδομένων                   33
               2.4.            Χαρακτηριστικά πηγής                 33
                               μεταδεδομένων
               2.5.            Πηγή χαρακτηριστικών                 34
               2.6.            Μεταδεδομένα πηγής                   36
                               χαρακτηριστικών
               2.7.            Μεταδεδομένα πόρων                   36



                                                                           2
2.8.            Γλώσσα ερωτήματος                   37
4                       Greenstone                          39
                        Περίληψη                            39
                        Εισαγωγή                            39
    1                   Αρχιτεκτονική                       41
        1.1.        Αρχεία                                  41
               1.1.1.
                    Οργάνωση αρχείων                        41
               1.1.2.
                    Περιεχόμενα καταλόγων                   41
               1.1.3.
                    Εισαγωγή αρχικών εντύπων στη            41
                    συλλογή
             1.1.4. Το εσωτερικό των αρχείων                42
             1.1.5. Προσδιορισμός εισαγόμενων αρχείων       43
        1.2.        Αναζήτηση πληροφοριών στο               43
                    Greenstone
        1.3.        Σύνολο χαρακτήρων Unicode               46
        1.4.        Παροχές Greenstone προς τους            47
                    χρήστες
    2                   Τεχνικά θέματα                      49
        2.1.            Λογισμικό συστήματος                49
        2.2.            Λειτουργικότητα λογισμικού          49
                        εφαρμογής
        2.3.            Διαχείριση διαφορετικών ειδών       49
                        αρχείων
        2.4.            Αναβαθμίσεις υπάρχουσων             50
                        συλλογών
        2.5.            Εργαλεία για τη δημιουργία νέων     50
                        συλλογών
        2.6.            Διάθεση συλλογών και πρόσβαση σε    51
                        αυτές
        2.7.            Ιδιαίτερα τεχνικά θέματα            51
5                       Μοντέλο NCSTRL-Dienst               54
                        Περίληψη                            54
                        Εισαγωγή                            54
    1                   Αρχιτεκτονική συστήματος            55
        1.1.            Μοντέλο αρχείου                     56
        1.2.            Δομή υπηρεσίας                      57
        1.3.            Συλλογές                            59
        1.4.            Επικοινωνία Dienst μέσω δικτυακών   60
                        κόμβων (‘’περιοχών’’)
        1.5.            Υπηρεσίες συστήματος Dienst         60
    2                   Τεχνικά θέματα                      61
        2.1.            Γλώσσα προγραμματισμού Perl         61
        2.2.            Αναβαθμίσεις λογισμικού NCSTRL-     62
                        Dienst
6                       Το μοντέλο SODA                     65
                        Περίληψη                            65
                        Εισαγωγή                            65
    1                   Αρχιτεκτονική SODA                  68
        1.1.            Χαζά-Έξυπνα αντικείμενα             68
        1.2.            Υπηρεσίες κάδου                     68
        1.3.            Τεχνολογία του μοντέλου κάδου       70
        1.4.            Χαρακτηριστικά κάδων                71
    2                   Τεχνικά θέματα                      72


                                                                 3
2.1.            Υπηρεσίες αποθετηρίου                72
        2.2.            Καινοτομίες NCSTRL+                  72
        2.3.            Η λειτουργία του Χαζού Αποθετηρίου   73
        2.4.            Μελλονική εργασία και ανάπτυξη       73
                        κάδων
        2.5.            Προγράμματα σαν κάδοι                74
7                       Νεότερα μοντέλα ψηφιακών             75
                        βιβλιοθηκών
                        Informedia II                        75
                        Περίληψη                             75
                        Εισαγωγή                             75
    1                   Αρχιτεκτονική                        76
        1.1.            Οργάνωση αρχείων και δεδομένων       76
        1.2.            Σχεδίαση βάσης δεδομένων             77
        1.3.            Αναγνώριση λόγου (Speech             77
                        Recognition)
        1.4.            Επεξεργασία φυσικής γλώσσας          78
                        (Natural Language Processing)
        1.5.            Κατανόηση εικόνας (Image             79
                        Understanding)
        1.6.            Τμηματοποίηση (Segmentation)         80
        1.7.            Εξαγωγή μεταδεδομένων                81
    2                   Τεχνικά θέματα                       82
        2.1.            Ανάκτηση και παρουσίαση              82
                        δεδομένων
        2.2.            Επισκόπηση αποτελεσμάτων             82
        2.3.            Νέες τεχνικές και συστήματα          83
8                       DSpace                               85
                        Περίληψη                             85
                        Εισαγωγή                             85
    1                   Αρχιτεκτονική                        88
        1.1.            Αρχιτεκτονική συστήματος             88
        1.2.            Σχεδιασμός συστήματος                89
        1.3.            Περιεχόμενα συλλογής                 90
        1.4.            Διαλειτουργικότητα συλλογής          91
        1.5.            Ψηφιακή Συντήρηση                    91
    2                   Τεχνικά θέματα                       93
        2.1.            Πρότυπα μεταδεδομένων                93
        2.2.            Διεπαφή με τον χρήστη                93
        2.3.            Τεχνολογική υποδομή                  94
        2.4.            Αναβάθμιση διαλειτουργικότητας       94
9                       Το πρωτόκολλο OAI-PMH                95
                        Περίληψη                             95
                        Εισαγωγή                             95
    1                   Αρχιτεκτονική                        99
        1.1.            Το στατικό μοντέλο αποθετηρίου       99
                        O.A.I
               1.1.1.   Το στατικό αποθετήριο                100
               1.1.2.   Η πύλη συζευξης του στατικού         100
                        αποθετηρίου
        1.2.            Πρωτόκολλο Ο.Α.Ι: Αιτήματα           101
               1.2.1.   Το αίτημα ‘’GetRecord’’              101
               1.2.2.   Το αίτημα ‘’Identify’’               101


                                                                   4
1.2.3.   Το αίτημα ‘’ListIdentifier’’            102
                1.2.4.   Το αίτημα ‘’ListMetadata Formats’’      102
                1.2.5.   Το αίτημα ‘’ListRecords’’               102
                1.2.6.   Το αίτημα ‘’ListSets’’                  102
         1.3.            Διαλειτουργικότητα και καταχωρήσεις     103
                         μεταδεδομένων
         1.4.            Επιλεκτική συλλογή και κριτήρια που     106
                         ακολουθήθηκαν
         1.5.            Επίπεδα προμηθευτών                     107
     2                   Τεχνικά θέματα                          108
         2.1.            Τα στοιχεία που βασίστηκε η πύλη        108
                         σύζευξης
                2.1.1.   Αρχιτεκτονική και λειτουργία της        108
                         διασύνδεσης OAI-PMH
                2.1.2.   Προσωρινή μνήμη (Τhe Cache)             110
                2.1.3.   Ζώνη ασφαλείας (Lock Zone)              111
                2.1.4.   ‘’Δαίμονας’’ (Daemon)                   111
         2.2.            Αλληλουχία URL της πύλης σύζευξης       113
         2.3.            Τεχνικό πλαίσιο εργασίας                114
         2.4.            Αναθεωρήσεις και Προγράμματα            115
                         Υποστήριξης
10                       Το μοντέλο Fedora                       117
                         Περίληψη                                117
                         Εισαγωγή                                117
     1                   Αρχιτεκτονική                           120
         1.1.            Ενοποίηση κατανεμημένων                 120
                         αποθετηρίων
         1.2.            Αλληλεπιδράσεις πελάτη και              121
                         εξυπηρετητή Fedora
         1.3.            Το Ψηφιακό Αντικείμενο                  122
                1.3.1.   Σχέσεις μεταξύ αντικειμένων             123
                1.3.2.   Ροές δεδομένων (Datastreams)            124
         1.4.            Πλεονεκτήματα Fedora                    125
                1.4.1.   Διατήρηση και αρχειοθέτηση              126
                1.4.2.   Πολλαπλή παρουσίαση περιεχομένου        126
                1.4.3.   Εύκολη ενσωμάτωση νέων εφαρμογών        127
                1.4.4.   Ευέλικτη και επεκτάσιμη αρχιτεκτονική   127
     2                   Τεχνικά θέματα                          129
         2.1.            Πρόσβαση του χρήστη                     129
         2.2.            Πλαίσιο εργασίας υπηρεσίας Fedora       131
                         (Fedora Service Framework)
         2.3             Δωρεάν διαθέσιμο με πολλαπλές           132
                         εφαρμογές
11                       Η Ευρωπαϊκή Ψηφιακή                     134
                         Βιβλιοθήκη (European Digital
                         Library)
                         Περίληψη                                134
                         Εισαγωγή                                134
                         Το πρόγραμμα TEL                        135
     1                   Αρχιτεκτονική                           136
         1.1.          Ευρωπαϊκή Βιβλιοθήκη (The                 136
                       European Library, TEL)
                1.1.1. Προτεινόμενη Αρχιτεκτονική                136



                                                                       5
1.1.2. Επιλογή μεταδεδομένων                   137
                  1.1.3. Δημιουργία Πρωτοκόλλων Έρευνας και      138
                         Αναζήτησης (SRU)
             1.2.        TEL-ME-MOR: Αναβάθμιση της              140
                         Ευρωπαϊκής Βιβλιοθήκης (TEL)
                  1.2.1. Το πρόγραμμα TEL-ME-MOR (2006)          140
                  1.2.2. Στόχοι του προγράμματος TEL-ME-MOR      141
                  1.2.3. Κοινό που επικεντρώθηκε το TEL-ME-      141
                         MOR
                  1.2.4. Έρευνα και ανάπτυξη στο TEL-ME-MOR      142
                  1.2.5. Πολυγλωσσικότητα                        142
                  1.2.6. Πλαίσιο Εργασίας TEL-ME-MOR             143
             1.3.        EDL (European Digital Library):         144
                         Αναβάθμιση του TEL-ME-MOR
                  1.3.1. Το πρόγραμμα EDL                        144
                  1.3.2. EDL: συνέχεια των TEL και TEL-ME-       144
                         MOR
                  1.3.3. Στόχοι του προγράμματος EDL             145
                  1.3.4. Πλεονεκτήματα του EDL                   146
                  1.3.5. Πλαίσιο εργασίας EDL                    146
     2                  Τεχνικά θέματα                           147
                         Ευρωπαϊκή Βιβλιοθήκη (The               147
                         European Library)
             2.1.        Υλοποίηση των πυλών σύζευξης του        147
                         TEL
                  2.1.1. Η πύλη σύζευξης TEL                     148
                  2.1.2. Η πύλη σύζευξης Ζ39.50-SRU              149
             2.2.        Καταχώρηση μεταδεδομένων                150
             2.3.        Συνδυάζοντας Μεταδεδομένα και SRU       152
12                      Η Ελληνική Πραγματικότητα                155
                        Εισαγωγή                                 155
13                      Το Εθνικό Κέντρο Τεκμηρίωσης             157
                        (ΕΚΤ) και η ψηφιακή βιβλιοθήκη
                        του ΕΚΤ
                        Περίληψη                                 157
                        Εισαγωγή                                 157
         1              Αρχιτεκτονική                            158
             1.1.        Συλλογή ηλεκτρονικών περιοδικών         159
                  1.1.1. Συλλογή περιοδικών πλήρους κειμένου     160
                         σε CD-ROM
             1.2.        Δίκτυο διαδανεισμού ελληνικών           160
                         βιβλιοθηκών
                  1.2.1. Υπηρεσία παραγγελίας δημοσιευμάτων      161
                         από το εξωτερικό
                  1.2.2. Συλλογικός κατάλογος περιοδικών         161
             1.3.        Ψηφιοποιημένες συλλογές                 162
                  1.3.1. Συλλογή ψηφιοποιημένων διδακτορικών     163
                         διατριβών
                  1.3.2. Ψηφιοποίηση πολιτιστικού περιεχομένου   163
                  1.3.3. Ψηφιοποίηση πρακτικών συνεδρίων         163
                         (γκρίζα βιβλιογραφία)
                  1.3.4. Ψηφιοποίηση ελληνικών περιοδικών        164




                                                                       6
1.4.            Διάθεση και αξιοποίηση                164
                         εγκατεστημένων βάσεων δεδομένων
     2                   Τεχνικά θέματα                        164
         2.1.            Υλικό (hardware) που                  164
                         χρησιμοποιείται
                2.1.1.   Υλικό του κεντρικού συστήματος        164
                2.1.2.   Δημιουργία ηλεκτρονικού               165
                         αναγνωστηρίου
         2.2.            Λογισμικό (software) που              165
                         χρησιμοποιείται
                2.2.1.   Λογισμικό πρόσβασης                   165
                2.2.2.   Λογισμικό συλλογής                    165
                2.2.3.   Επεξεργασία δεδομένων                 165
                2.2.4.   Συστήματα αναζήτησης                  166
14                       Ελληνικά Ψηφιακά Μοντέλα              167
                         Σύστημα Άρτεμις                       167
                         Περίληψη                              167
                         Εισαγωγή                              167
     1                   Αρχιτεκτονική                         168
         1.1.            Σχεδιασμός αρχιτεκτονικής             168
                         συστήματος
         1.2.            Χαρακτηριστικά του συστήματος         171
         1.3.            Τοπολογία συστήματος                  172
         1.4.            To σύστημα Dienst                     175
         1.5.            Η τελικά προτεινόμενη αρχιτεκτονική   177
     2                   Τεχνικά θέματα                        182
         2.1.        Εγκατάσταση Λογισμικού                    182
              2.1.1. Πρώτο στάδιο                              183
              2.1.2. Δεύτερο στάδιο                            183
         2.2.        Εισαγωγή νέων εγγράφων                    184
15                       Πέργαμος                              185
                         Περίληψη                              185
                         Εισαγωγή                              185
     1                   Αρχιτεκτονική                         186
         1.1.            Πρωτότυπα και στιγμιότυπα             186
                         ψηφιακών αντικειμένων
         1.2.            Λειτουργικότητα ψηφιακών              190
                         αντικειμένων
         1.3.            Διαχείριση συλλογών                   191
         1.4.            Δυναμικές διεπαφές                    192
     2                   Τεχνικά θέματα                        194
         2.1.            Αυτοματοποίηση στη μετατροπή του      194
                         ψηφιακού υλικού
                         ΠΑΡΑΡΤΗΜΑ Ι                           196
                         Πίνακας Ι                             196
                         Πλεονεκτήματα-Μειονεκτήματα CORE      196
                         Πίνακας ΙΙ                            197
                         Πλεονεκτήματα-Μειονεκτήματα           197
                         STARTS
                         Πίνακας ΙΙΙ                           198
                         Πλεονεκτήματα-Μειονεκτήματα           198
                         NCSTRL-DIENST
                         Πίνακας IV                            199


                                                                     7
Πλεονεκτήματα-Μειονεκτήματα SODA   199
Πίνακας V                          200
Πλεονεκτήματα-Μειονεκτήματα        200
Greenstone
Πίνακας VI                         201
Πλεονεκτήματα-Μειονεκτήματα        201
Informedia
Πίνακας VII                        202
Πλεονεκτήματα-Μειονεκτήματα        202
DSpace
Πίνακας VIII                       203
Πλεονεκτήματα-Μειονεκτήματα OAI-   203
PMH
Πίνακας ΙΧ                         204
Πλεονεκτήματα-Μειονεκτήματα        204
Fedora
ΠΑΡΑΡΤΗΜΑ ΙΙ                       205
Ακρωνύμια                          205
Βιβλιογραφία                       209
 Ηλεκτρονική                       209
 Έντυπη                            212




                                         8
Εισαγωγή

  Η έκρηξη της τεχνολογίας επέφερε μεγάλες αλλαγές στον τομέα της
βιβλιοθηκονομίας και των συστημάτων πληροφόρησης. Για δεκαετίες οι
χρήστες     συνήθισαν    να   χρησιμοποιούν    τις   έντυπες    πηγές
πληροφόρησης. Οι εκδότες έπαιξαν σημαντικό ρόλο στην γενιά της
έντυπης πληροφορίας ενώ οι διανομείς πωλητές βιβλίων και κυρίως οι
βιβλιοθήκες έπαιξαν εξίσου σημαντικό ρόλο στην κατανομή της
πληροφορίας. Για χρόνια ήταν συνηθισμένο να χρησιμοποιούνται οι
έντυπες πηγής πληροφόρησης είτε μέσω της απόκτησής τους, είτε με το
να χρησιμοποιούνται στις βιβλιοθήκες. Η κατάσταση άρχισε να αλλάζει
τέσσερις δεκαετίες νωρίτερα με την εισαγωγή των υπολογιστών στη
διαχείριση της πληροφορίας, όπου και έγιναν ριζικές αλλαγές σε σχέση
με τα παλαιότερα χρόνια.
  Η πρώτη χρήση των υπολογιστών στη διαχείριση της πληροφορίας
άνοιξε το μέλλον σε νέους τρόπους πρόσβασης και χρήσης
πληροφορίας. Έτσι ήταν ικανό να δημιουργείται και να παρέχεται
πρόσβαση σε ηλεκτρονικά ευρετήρια των συλλογών, ηλεκτρονικές
βάσεις δεδομένων των άρθρων των περιοδικών, πρακτικά συνεδρίων
κ.α. Αυτή ήταν μια νέα εποχή και επιπλέον της χρήσης των έντυπων
πηγών πληροφόρησης, οι χρήστες μπορούσαν να έχουν πρόσβαση στις
ηλεκτρονικές βάσεις δεδομένων των πηγών πληροφόρησης που
δημιουργήθηκαν τοπικά και ήταν εξ’ αποστάσεως προσβάσιμες. Με τα
χρόνια, οι απομακρυσμένες υπηρεσίες αναζήτησης πληροφοριών online
έγιναν ένα καθιερωμένο μέρος της αναζήτησης πληροφορίας και της
χρήσης     προτύπων     πληροφορίας.   Αυτές    οι   υπηρεσίες    δεν
αντικατέστησαν τις βιβλιοθήκες του έντυπου υλικού, αλλά αύξησαν την
πρόσβαση και την εκμετάλλευση της πληροφορίας και την χρήση της με
την τεχνολογία των επικοινωνιών. Κατόπιν οι βιβλιοθήκες άρχισαν να
μετατρέπουν τους δελτιοκαταλόγους τους σε ηλεκτρονικούς καταλόγους
βάσεων δεδομένων οι οποίοι μετέπειτα έγιναν online προσβάσιμοι
δημόσιοι κατάλογοι (OPACs), παρέχοντας τοπική και εξ’ αποστάσεως
πρόσβαση.
  Άλλη μία μεγάλη αλλαγή στη διαδικασία της αποθήκευσης ανάκτησης
και διάδοσης πληροφοριών επέφερε η εφεύρεση των CD-ROM. Μεγάλες
βάσεις δεδομένων άρχισαν να εμφανίζονται ως νέο μέσο διευκόλυνσης
της κατανομής και της πρόσβασης. Οι χρήστες μπόρεσαν να έχουν
πρόσβαση στις ηλεκτρονικές πηγές πληροφόρησης, βιβλιογραφικές και
μη βάσεις δεδομένων, από μόνοι τους, σε βιβλιοθήκες , γραφεία κ.α.
Ενώ οι βάσεις δεδομένων CD-ROM έγιναν ένας υποδειγματικός
ανταγωνιστής    των    online   υπηρεσιών    αναζήτησης,     δεν   τις
αντικατέστησαν. Ως αποτέλεσμα οι τελικοί χρήστες είχαν περισσότερες
επιλογές για πρόσβαση στην πληροφορία, οι εκδότες συνέχισαν να
εκδίδουν έντυπες όπως και ηλεκτρονικές πηγές πληροφόρησης, σε CD-
ROM και / ή σε μορφή ηλεκτρονικών βάσεων δεδομένων για τοπική και
απομακρυσμένη πρόσβαση. Λεξικά, εγκυκλοπαίδειες και πολλές άλλες
πηγές πληροφόρησης άρχισαν να εμφανίζονται σε περισσότερα από ένα
τυπωμένα έντυπα όπως και ηλεκτρονικά. Τις περισσότερες φορές, οι
χρήστες είτε έπρεπε να αγοράσουν τις πηγές πληροφόρησης είτε να
επισκεφτούν τις βιβλιοθήκες για να τις χρησιμοποιήσουν, ελεύθερα ή


                                                                    9
μέσω πληρωμής ενός αντιτίμου. Αυτή η κατάσταση συνεχίστηκε μέχρι
την εμφάνιση του διαδικτύου και κυρίως του παγκόσμιου ιστού. Μέσα σε
διάστημα δέκα χρόνων , ο ιστός είχε μια μεγάλη επίδραση σε όλες τις
απόψεις της ζωής, κυρίως σε θέματα σχετικά με την παραγωγή,
κατανομή και χρήση της πληροφορίας.
  Εκτός από τον καθιερωμένο όρο της ‘’βιβλιοθήκης’’ που υπήρχε
εμφανίστηκαν τρεις νέοι όροι, οι οποίοι ήταν οι: ‘‘ηλεκτρονική’’,
‘‘ψηφιακή’’, ‘‘εικονική’’.
‘‘Ηλεκτρονική’’ θεωρείται η βιβλιοθήκη της οποίας το σύνολο (ή ένα μεγάλο
μέρος) των καθημερινών λειτουργιών της πραγματοποιείται με την χρήση
υπολογιστή. Τέτοιες λειτουργίες είναι συνήθως η καταλογογράφηση, η
αναζήτηση και κυκλοφορία του υλικού, η καταγραφή και διαχείριση των
χρηστών, η παραγγελία νέων αποκτημάτων, η παρακολούθηση των τευχών
των περιοδικών και η εκτέλεση των παραγγελιών που έχουν προηγηθεί, η
εξαγωγή στατιστικών χρήσης κλπ. Ο όρος ‘’ηλεκτρονική’’ βιβλιοθήκη
αναφέρεται δηλαδή στον τρόπο διαχείρισης του υλικού, το οποίο φυσικά
μπορεί να είναι και έντυπο.
     ‘‘Ψηφιακή’’ είναι η βιβλιοθήκη η οποία αναφέρεται στον υλικό φορέα
(μορφή) του υλικού (περιεχόμενο) της συλλογής μιας βιβλιοθήκης. Το υλικό
αυτό μπορεί να περιλαμβάνει τα πάντα σε ψηφιακή μορφή, περιοδικά,
πολυμέσα, εκπαιδευτικά πακέτα, εγκυκλοπαίδειες, χάρτες, οδηγούς,
μουσικούς δίσκους, μαγνητοσκοπημένα συνέδρια, ταινίες, συνδέσεις με
ιστοσελίδες του διαδικτύου, ακόμη και βιβλία (ψηφιακά). Είναι φανερό ότι η
ψηφιακή βιβλιοθήκη προϋποθέτει την ύπαρξη και λειτουργία ηλεκτρονικής
βιβλιοθήκης.
   ‘‘Εικονική’’ είναι η βιβλιοθήκη η οποία δεν υπάρχει στην πραγματικότητα,
είναι δηλ. η λεγόμενη ‘’library without walls’’. Ουσιαστικά είναι ο συνδυασμός
ηλεκτρονικής και ψηφιακής βιβλιοθήκης στην περίπτωση που υπάρχουν μόνο
‘’εικονικά’’. Για παράδειγμα η εικονική βιβλιοθήκη μπορεί να περιλαμβάνει
υλικό από διαφορετικές βιβλιοθήκες που είναι οργανωμένες σε ένα εικονικό
χώρο χρησιμοποιώντας υπολογιστές και δίκτυα υπολογιστών. Μία βιβλιοθήκη
τέτοιας μορφής είναι το NCSTRL.
    Από όλους τους τύπους βιβλιοθήκης που αναφέρθηκαν παραπάνω την
μεγαλύτερη επιρροή σε όλες τις χώρες του κόσμου, αλλά και στην Ελλάδα την
είχε η ψηφιακή βιβλιοθήκη γιατί παρείχε:

        Πληροφορία στον χρήστη
        Ανεπτυγμένη έρευνα και επιδέξιο χειρισμό της πληροφορίας
        Ανεπτυγμένες δραστηριότητες για την διανομή των πληροφοριών
        Έγκαιρη πρόσβαση στην πληροφορία
        Ανεπτυγμένη χρήση της πληροφορίας
        Ανεπτυγμένη συνεργασία
        Μείωση του ψηφιακού χάσματος

  Ως αποτέλεσμα αυτής της επιρροής ήταν να δημιουργηθούν τύποι
ψηφιακών βιβλιοθηκών στις Η.Π.Α. σαν τμήματα του DLI 1 και DLI2
(Digital Libraries Initiatives), αυτές που αναπτύχθηκαν στο στάδιο του
προγράμματος e-lib (electronic libraries) στην Αγγλία, ψηφιακές
βιβλιοθήκες που δημιουργήθηκαν από ανεξάρτητα ιδρύματα, ψηφιακές
βιβλιοθήκες οι οποίες είναι μέρος των εθνικών βιβλιοθηκών, ψηφιακές


                                                                           10
βιβλιοθήκες που είναι τμήματα του Πανεπιστημίου, από χώρα
προέλευσης κ.λ.π.
  Η γρήγορη ανάπτυξη στον τομέα των ψηφιακών βιβλιοθηκών σε όλο
τον κόσμο ώθησε στην εμφάνιση ενός μεγάλου αριθμού εκδόσεων σε
διαφορετικές μορφές: Communications of the ACM (Association of
Computing Machinery), Journal of the American Society for Information
Science, Information Processing and Management, Journal of Visual
Communication and Image Representation, D-Lib Magazine και Ariadne
ήταν τα πρώτα περιοδικά που βγήκαν στον τομέα των ψηφιακών
βιβλιοθηκών.
   Τον 21 ο αιώνα έχουμε τα πρώτα βήματα αλλά και τις πρώτες
υλοποιήσεις ψηφιακών βιβλιοθηκών τοπικού χαρακτήρα (κυρίως στην
Αμερικάνικη Ήπειρο και σε τεχνολογικά εξελιγμένες χώρες της
Ευρωπαϊκής Ένωσης). Το επόμενο βήμα ήταν να γίνει μια παγκόσμια
διασύνδεση μεταξύ των ψηφιακών βιβλιοθηκών που ήδη υπήρχαν στις
χώρες της Ευρώπης. Όμως, υπήρχε ένα σημαντικό πρόβλημα το οποίο
ήταν η διαλειτουργικότητα ενός τέτοιου συστήματος λόγω των
διαφορετικών τύπων MARC που χρησιμοποιούνταν σ’ εκείνες τις χώρες.
  Συνέπεια αυτού ήταν να δημιουργηθεί το πιο σημαντικό πρωτόκολλο
για την τεχνολογική επικοινωνία και διάδοση πληροφοριών το Ζ39.50
καθώς και να δοθεί ιδιαίτερη έμφαση στα μεταδεδομένα : Dublin Core,
METS και MODS, και RDF. Σε αυτά βασίστηκαν και τα μοντέλα τα οποία
πρωτοεμφανίστηκαν στα μέσα του 20 ου αιώνα (1996 και μετά) που είναι
τα εξής : CORE (1993), STARTS (1996), NCSTRL-DIENST (1998),
SODA, Greenstone, Informedia I και II (1994, 2000), DSpace (2000) και
στην Ελλάδα το ΑΒΕΚΤ το οποίο πρωτοχρησιμοποίηθηκε από το ΕΚΤ.
 Έχοντας ως βάση τα συγκεκριμένα μοντέλα δημιουργήθηκαν οι πρώτες
ψηφιακές βιβλιοθήκες στην Ευρώπη και από το 2001 και μετά υπάρχει
διαρκής αναβάθμισή τους και εμφάνιση νέων μοντέλων.
   Στην παρούσα εργασία θα αναφερθούν παλαιότερα (Core project,
Starts, NCSTRL-DIENST, SODA) και νεότερα μοντέλα ψηφιακών
βιβλιοθηκών (European Digital Library, Πέργαμος, Fedora, Άρτεμις)
καθώς και πρωτόκολλα (Open Archives Initiative, Ζ39.50) που
χρησιμοποιούνται από τα συγκεκριμένα μοντέλα. Θα αναλυθούν, επίσης,
η αρχιτεκτονική καθώς και οι τεχνικές λειτουργίες του κάθε μοντέλου
ξεχωριστά.




                                                                  11
Παλαιότερα μοντέλα

                              Κεφάλαιο 1

                         CORE PROJECT (1993)


Περίληψη

      Εμφανίστηκε τέλη του 1993
      Δημιουργήθηκε από την Βιβλιοθήκη Mann του Πανεπιστημίου
       Cornell, την ομάδα έρευνας επικοινωνίας του Bellcore, την
       Αμερικάνικη Χημική Κοινότητα (ACS), την Χημική Υπηρεσία
       Περιλήψεων (CAS), την OCLC
      Είναι ερευνητικό μοντέλο
      Δεν βασίστηκε σε προηγούμενο μοντέλο
      Μεταδεδομένα: προσαρμοσμένη SGML ειδικά για το μοντέλο
      Εφαρμογές: σε αμερικάνικα χημικά περιοδικά του Πανεπιστημίου
       Cornell
      Τεχνικά χαρακτηριστικά: τρεις διεπαφές για τους χρήστες (OCLC,
       Bellcore, Pixlook)



   Εισαγωγή

Το πρόγραμμα CORE (Πυρήνων) ήταν ένα ηλεκτρονικό πρόγραμμα
συνεργασίας βιβλιοθηκών που φιλοξενήθηκε από τη βιβλιοθήκη Mann του
Πανεπιστημίου Cornell. Παρείχε ηλεκτρονική πρόσβαση σε όλα τα χημικά
περιοδικά της αμερικάνικης κοινωνίας (με τις σχετικές χημικές υπηρεσίες
περιλήψεων που συντάσσουν ευρετήριο) που χρονολογούνται από το 1980.
Έγινε ετήσια αναθεώρηση την περίοδο 1992-93 κατά την διάρκεια της οποίας
η διασύνδεση του χρήστη, οι εγκαταστάσεις δικτύωσης και το πρότυπο
βάσεων δεδομένων εξετάστηκαν με τη χρήση περίπου 31.000 άρθρων από
20 περιοδικά χημείας (1991-92). Η βιβλιοθήκη Mann του Πανεπιστημίου του
Cornell, η έρευνα επικοινωνίας Bellcore, η Αμερικανική Χημική Κοινότητα
(ACS), η Χημική Υπηρεσία Περιλήψεων (CAS) και η OCLC λειτούργησαν μαζί
για την πραγματοποίηση αυτής της προσπάθειας.
Οι χρήστες θα ήταν σε θέση να ψάξουν και να παρουσιάσουν το πλήρες
κείμενο των περιοδικών, των γραφικών παραστάσεων και σελίδες πλήρων
εικόνων, και να εκτυπώσουν υψηλής ευκρίνειας πιστά αντίγραφα από
επιλεγμένα άρθρα. Το πλήρες τμήμα κειμένων της βάσης δεδομένων CORE
κωδικοποιείται γενικευμένα στη πρότυπη γλώσσα SGML όπως μεταφράζεται
από τα γνήσια αρχεία τυπογραφίας. Οι μεμονωμένοι αριθμοί και η γραφική
παράσταση αποσπάστηκαν με αλγόριθμους από τις ανιχνευμένες εικόνες
σελίδων και συνδέθηκαν με τις εικόνες στο κείμενο, επιτρέποντας στο χρήστη
να παρουσιάσει μια αναπαράσταση ενώ παράλληλα βλέπει το κείμενο όπου
η αναπαράσταση συζητείται. Οι πλήρεις σε σημεία εικόνες των αρχικών
σελίδων είναι διαθέσιμες για την εκτύπωση (σε 300 σημεία ανά ίντσα) και για
την επίδειξη στην οθόνη (σε 100 σημεία ανά ίντσα).


                                                                     12
Η πλήρης βάση δεδομένων, που αντιπροσώπευσε περισσότερες από
600.000 σελίδες του πλήρους κειμένου και της γραφικής παράστασης, ήταν
το μεγαλύτερο ηλεκτρονικό σώμα του είδους της. Προγραμματισμένο για τη
διαθεσιμότητα στο Πανεπιστήμιο Cornell στα τέλη του 1993, αυτή η βάση
δεδομένων είναι πλέον σήμερα διαθέσιμη για χρήση από τη σχολή και τους
σπουδαστές του τμήματος χημείας του Πανεπιστημίου σε ένα δίκτυο τοπικής
περιοχής (αν και η αρχιτεκτονική του συστήματος CORE είναι εκτεταμένη στις
ευρείς περιοχές των δικτύων).
Η επιφάνεια του χρήστη και το σύστημα βάσεων δεδομένων ήταν βασισμένα
σε μια αρχιτεκτονική πελατών εξυπηρετητών X-Windows που παρείχε
ευελιξία για τη διανεμημένη πρόσβαση καθώς επίσης και για τη πρόσβαση
στο δίκτυο τοπικής περιοχής. Η εφαρμογή των επιφανειών εργασίας του
χρήστη στα X-Windows επέτρεψε τη χρήση του συστήματος σε ποικίλες
πλατφόρμες υλικού. Αυτή η δυνατότητα να λειτουργήσει στις πλατφόρμες
υλικού είναι ένα σημαντικό πλεονέκτημα του λογισμικού X-Windows.



Ενότητα 1 η

Αρχιτεκτονική

Το σύστημα Core βασίστηκε στην αρχιτεκτονική πελάτη-εξυπηρετητή,
Unix που λειτουργεί στο Τμήμα Χημείας του Πανεπιστημίου Cornell, που
είναι συνδεδεμένο με έναν εξυπηρετητή στην βιβλιοθήκη Albert Mann. Το
ερευνώμενο κείμενο και τα εξαγόμενα γραφικά καταχωρήθηκαν στο
μαγνητικό τμήμα του υπολογιστή που αποθήκευε τα δεδομένα για
γρήγορη εύρεση. Η OCLC προμήθευσε τη μηχανή ανάκτησης Newton, η
οποία υποστήριζε μια ποικιλία από προϊόντα βάσεων δεδομένων και
αναφορών της OCLC και η οποία εξυπηρετούσε τη μηχανή βάσεων
δεδομένων και για τις δύο επιφάνειες χρηστών που εγκαταστάθηκαν στο
σύστημα. Το Newton ήταν ένα σύστημα βάσης δεδομένων πελάτη-
εξυπηρετητή που υποστήριζε ουσιαστική λειτουργικότητα από τις απόψεις
σχεδιασμού δεδομένων και δικτύου.
Το σχέδιο Core ήταν μοναδικό στην παροχή πληροφοριακών πηγών, και
στο ότι ήταν ικανό να συγκρίνει αποτελέσματα. Παρακάτω παρατίθενται τα
στοιχεία του συστήματος που δείχνουν τη ροή της πληροφορίας από τους
προμηθευτές της Αμερικάνικης Κοινότητας Χημικών (A.C.S) και της
Υπηρεσίας Περιλήψεων Χημείας (C.A.S), πρώτα στα αρχεία της μηχανής
αναζήτησης OCLC Newton, και μετά στους χρήστες (σχ.1).




                                                                    13
σχ1.Ροή πληροφορίας στο σύστημα CORE.




                                        14
1.1. Οι συλλογές του Project Core

Η πιο σημαντική περιουσία μιας ηλεκτρονικής βιβλιοθήκης όπως και μιας
απλής βιβλιοθήκης, είναι η συλλογή της 1 . Η επιλογή ποιοτικού υλικού είναι
το πιο σημαντικό χαρακτηριστικό. Άχρηστο υλικό ακόμα και αν
παρουσιάζεται ωραιοποιημένο παραμένει πάλι άχρηστο. Συνεντεύξεις με
χημικούς του Πανεπιστημίου Cornell έδειξαν τα πρωτογενή περιοδικά σαν
την πιο σημαντική πηγή.·Το σχέδιο Core, λοιπόν, κατάφερε να αποκτήσει
το υλικό του από την Αμερικάνικη Κοινότητα Χημικών (American Chemical
Society, A.C.S.). Η Αμερικάνικη Κοινότητα Χημικών δημοσιεύει περιοδικά
χημείας υψηλού κύρους στις Η.Π.Α, και τα περιοδικά της είναι η κύρια
πηγή για τη χημική έρευνα. Τα 20 πρώτα περιοδικά που δημοσιεύτηκαν
στην αρχή του σχεδίου ήταν τα εξής : Accounts of Chemical Research,
Analytical Chemistry, Biochemistry, Chemistry of Materials, Chemical
Research in Toxicology, Chemical Reviews, Energy and Fuels,
Environmental Science & Technology, Inorganic Chemistry, Industrial &
Engineering Chemistry, J. Agricultural and Food Chemistry, J. American
Chemical Society, J. Chemical Engineering Data, J. Chemical Information
& Computer Science, J. Medicinal Chemistry, J. Organic Chemistry, J.
Physical Chemistry, Langmuir, Macromolecules, and Organometallics.



    1.2. Στόχοι τ o υ Project Core

Το σχέδιο CORE είχε πέντε στόχους:

    1. Να προσδιορίσει μια εφαρμόσιμη αρχιτεκτονική για διανομή
       πληροφοριών πλήρους κειμένου σε ένα συνεισφερόμενο δικτυακό
       περιβάλλον με διαφορετικούς σταθμούς εργασίας 2 .
    2. Να μετατρέψει και να καταχωρήσει αρκετό όγκο δεδομένων
       χημικών περιοδικών σε μία μορφοποιημένη βάση δεδομένων
       κατάλληλη για εύκολη διανομή και παρουσίαση.
    3. Να μελετήσει τα στοιχεία για λειτουργικότητα της επιφάνειας
       εργασίας πλήρους κειμένου που είναι απαραίτητα για εξυπηρέτηση
       των αναγκών των υποτρόφων σε ένα δικτυακό περιβάλλον
       διανομής εγγράφου.
    4. Να αναπτύξει την κατανόηση της κατάλληλης μορφοποίησης
       κειμένου για τις ηλεκτρονικές βάσεις δεδομένων πλήρους κειμένου.
    5. Να ερευνήσει πληροφορίες διανομής ερωτήσεων σχετικών με την
       επερχόμενη εποχή της διανομής πλήρους κειμένου.




1
 Miksa, 1994.
2
 σταθμός εργασίας: ορ.1 συνδυασμός υλικού εισόδου, εξόδου, και επεξεργασίας , που μπορεί
να χρησιμοποιηθεί από ένα άτομο για εκτέλεση εργασιών.
                    ορ.2 μικροϋπολογιστής ή τερματικό, συνδεδεμένα σε δίκτυο.


                                                                                      15
1.3. Σχεδιασμός βάσης δεδομένων και χρήση

   Ο σχεδιασμός βάσης δεδομένων και η λειτουργικότητα της διεπαφής με
 τον χρήστη είναι άρρηκτα συνδεδεμένα. Ο αποτελεσματικός σχεδιασμός
 της βάσης δεδομένων πρέπει να έχει πληροφορηθεί για την επιθυμητή
 λειτουργικότητα της επιφάνειας εργασίας και η λειτουργικότητα της
 επιφάνειας εργασίας έχει περιοριστεί από τους πρακτικούς περιορισμούς
 της δομής της βάσης δεδομένων. Αντίθετα, έγινε σύγκριση των
 διαφορετικών επιφανειών εργασίας, χωρίς να χρειαστεί ευρετηρίαση
 πανομοιότυπων αρχείων. Γι’ αυτό και κρίθηκε απαραίτητο, ο σχεδιασμός
 της βάσης δεδομένων να είναι χρησιμοποιήσιμος.
   Κωδικοποιήθηκαν τρεις επιφάνειες εργασίας, οι οποίες είχαν σαν βάση
 το σύστημα των παραθύρων X-Windows οι οποίες ήταν: η Scepter OCLC
 (SCientific Electronic Publishing and TExt Retrieval interface), η Pixlook
 (image interface) και η Bellcore Superbook (Bellcore Superbook
 interface).



 1.4. Μηχανή αναζήτησης Newton

  H μηχανή αναζήτησης Newton σχεδιάστηκε και τέθηκε σε εφαρμογή από
την OCLC για πρόσβαση στη δενδρική δομή των δεδομένων ίσης
πολυπλοκότητας. Η μηχανή αναζήτησης μπορούσε να χρησιμοποιηθεί σαν
βάση ενός πλήρους λειτουργικού συστήματος απόκτησης πληροφοριών για
αυτούσια δομικά δεδομένα και εικόνες. Το κείμενο στα δεδομένα CORE
επισημάνθηκε στη γλώσσα επισήμανσης SGML, αλλά κάθε τυπική γλώσσα
επισήμανσης μπορεί να χρησιμοποιηθεί για να προσδιορίσει τη διαδικασία
για σχεδίαση και δημιουργία της μηχανής αναζήτησης βάσης δεδομένων.


        Δυνατότητες αναζήτησης / Ξεφυλλίσματος

        Η μηχανή αναζήτησης Newton παρείχε δυνατότητες εκτενής
        αναζήτησης συμπεριλαμβάνοντας ανάκτηση λέξεων-κλειδιών και
        τελεστών Boolean όπως και εγγύτητα και ανάκτηση περιορισμένων
        ομάδων. Η αναζήτηση ανά σειρά, περικοπή 3 , και η αναζήτηση
        ‘‘άτακτων’’ καρτελών υποστηρίζονται πλήρως. Όλα τα ευρετήρια
        βάσεων δεδομένων είναι εύκολο να εντοπιστούν.
        Επειδή     υπάρχει   μια  καλά     προσδιορισμένη      εφαρμογή
        προγραμματιστή διασύνδεσης στη μηχανή αναζήτησης Newton, μια
        ποικιλία από διασυνδέσεις με τον χρήστη μπορούν να
        δημιουργηθούν για να χρησιμοποιήσουν τη μηχανή αναζήτησης.
        Αυτό βοήθησε στην υποστήριξη και της Pixlook του Bellcore και της
        SCEPTER της OCLC σε μία βάση δεδομένων.



 3
  περικοπή (truncation) : βιβλιοθηκονομικά είναι η αποκοπή μιας λέξης προκειμένου να
 ανακτηθούν περισσότερα δεδομένα κατά την αναζήτηση κυρίως όταν ο τίτλος που αναζητείται
 είναι πολύ μεγάλος για να εισαχθεί στην μηχανή αναζήτησης.


                                                                                     16
Πλεονεκτήματα μηχανής αναζήτησης Newton

          Δύναμη και ευκαμψία του συστήματος ευρετηρίασης.
       Τα συστήματα ευρετηρίασης οδηγούνται από μία βάση δεδομένων
       περιγραφής αρχείου. Αυτό το αρχείο περιλαμβάνει πληροφορίες
       που περιγράφουν τη δομή των εισαγόμενων δεδομένων των
       εγγραφών και τους κανόνες για ευρετηρίαση σε καθένα από τα
       πεδία της εγγραφής. Η γλώσσα στη βάση δεδομένων περιγραφής
       αρχείου συλλέχτηκε από τα προγράμματα ευρετηρίασης στους
       πίνακες που καταχωρήθηκαν από μόνα τους στα αρχεία βάσεων
       δεδομένων και χρησιμοποιήθηκαν για να οδηγήσουν στην αρχική
       φόρτωση των δεδομένων και σε όλες τις μεταγενέστερες
       αναβαθμίσεις και προσθήκες στη βάση δεδομένων.
          Μπορεί να αναγνωρίσει και φυσικές και λογικές εικόνες βάσεων
       δεδομένων. Μια λογική βάση δεδομένων μπορεί να γίνει αρκετά
       μεγάλη στην διάταξη εκατοντάδων εκατομμυρίων όρων και
       εκατομμυρίων εγγραφών. Μια λογική βάση δεδομένων είναι ένας
       ειδικός τρόπος ομαδοποίησης μικρών, και πιο εύχρηστων, φυσικών
       καταχωρήσεων βάσεων δεδομένων έτσι ώστε να παρουσιάζονται
       σαν μία μονάδα από την πλευρά του αναζητούμενου. Αυτό
       επιτρέπει στη βάση δεδομένων να αναπτύξει ένα απεριόριστο
       μέγεθος μέσω μιας απλής μεθόδου προσθήκης επιπλέον
       καταχωρήσεων.



       Μειονεκτήματα μηχανής αναζήτησης Newton

          Υπάρχει ένα μεγάλο εύρος ειδίκευσης χρηστών, και πολλοί
       χρήστες δεν γνωρίζουν αρκετά για την αναζήτηση με τελεστές
       Boolean. Η εφαρμογή Scepter βασίστηκε κυρίως σε καταλόγους
       οπτικών επιλογών (menu) για να επιλέξουν περιοδικά ή
       χρονολογίες, ώστε να αποφύγουν τον εξαναγκασμό των χρηστών
       στην εκμάθηση γραφής τέτοιων πολύπλοκων εκφράσεων γλώσσας.
          Η βάση δεδομένων ήταν πολύ μεγάλη, και ήταν εύκολο να
       γραφτεί ένα επερώτημα που ανακτά έναν αρκετά μεγάλο αριθμό
       ντοκουμέντων. Μία πιθανότητα μείωσης αυτού του αριθμού ήταν η
       χρήση σχετικών επανατροφοδοτήσεων 4 για να κάνουν αυτόματη
       διόρθωση.




4
 επανατροφοδότηση (feedback) : περίπτωση κατά την οποία στοιχεία, που προήλθαν από μια
πρώτη φάση επεξεργασίας ενός προγράμματος, εισάγονται και πάλι σε άλλη φάση επεξεργασίας
του ίδιου προγράμματος, για να τροποποιηθούν ή να διορθωθούν οι παράγοντες που προήλθαν
από την πρώτη φάση.


                                                                                     17
1.5. Διεπαφές που χρησιμοποιήθηκαν

Οι   προκαταρκτικές    μελέτες   χρηστών    πραγματοποιήθηκαν    στο
Πανεπιστήμιο του Cornell πριν από την εγκατάσταση της πλήρους βάσης
δεδομένων και της απελευθέρωσης του λογισμικού ενδιαμέσων με τον
χρήστη στο τμήμα χημείας του Cornell. Οι χρήστες δοκιμής ήταν έντεκα
εθελοντές, κατά ένα μεγάλο μέρος διαβαθμισμένοι σπουδαστές στο τμήμα
χημείας. Οι περισσότεροι είχαν κάποια προγενέστερη εμπειρία σε μία ή
άλλη εφαρμογή ηλεκτρονικών πληροφοριών.
Από τις παραπάνω μελέτες που έγιναν τρεις διεπαφές ήταν διαθέσιμες
στους χρήστες του συστήματος CORE:

  1. Η OCLC και
  2. η Bellcore είχαν πλήρως ανεπτυγμένες τις διεπαφές κειμένων που
  επαναμορφοποίησαν χαρακτηρισμένο το SGML κείμενο για την
  επίδειξη οθόνης και που επέτρεψαν στους χρήστες να παρουσιάσουν
  τη σχετική γραφική παράσταση με την επιλογή μιας εικόνας μέσα στο
  κείμενο.

  3. Η διεπαφή Pixlook του Bellcore χρησιμοποιήθηκε σε αυτές τις
  προκαταρκτικές δοκιμές. Το Pixlook ενσωμάτωσε ένα απλό πρότυπο
  που επέτρεψε στους χρήστες να εκδώσουν τις ερωτήσεις έναντι ενός
  πλήρους κειμένου μιας δομημένης βάσης δεδομένων, αλλά που αυτό
  όμως θα επιδείκνυε μόνο τις εικόνες σελίδες των ανακτημένων
  άρθρων. Κατά συνέπεια, οι χρήστες δεν είχαν την πλήρη λειτουργία
  επίδειξης κειμένων που θα ήταν διαθέσιμη στο ενδιάμεσο με τον
  χρήστη του SCEPTER OCLC (σχ.2) και το ενδιάμεσο με τον χρήστη
  Superbook Bellcore.Το πρότυπο Pixloook ήταν σημαντικό, εντούτοις,
  γιατί αντιπροσώπευε την πιο οικονομική προσέγγιση αφού παρείχε τα
  προηγουμένως δημοσιευμένα έγγραφα στον ηλεκτρονικό κόσμο, μια
  προσέγγιση που ήταν σημαντική και διαδεδομένη ως «τεχνολογία
  γεφύρωσης».

Αυτές οι μελέτες αποκάλυψαν τις ενδιαφέρουσες δυνάμεις και αδυναμίες
του ηλεκτρονικού μέσου. Μερικές από τις αδυναμίες υπέστησαν
διόρθωση, αλλά άλλες ήταν δύσκολο να υπερνικηθούν λόγω των
περιορισμών της τότε τρέχουσας τεχνολογίας.




                  σχ.2. Παράδειγμα SCEPTER OCLC.


                                                                  18
Ενότητα 2 η

Τεχνικά θέματα

2.1. Πρόσκτηση δεδομένων μέσω ASCII

Τα δεδομένα που εισέρχονται σε ASCII 5 παρέχονται σε μια
μορφοποιημένη παρουσίαση από την Αμερικάνικη Κοινότητα Χημικών. Σε
αυτό το μορφότυπο, αριθμημένες αναγραφές πεδίων κωδικοποιούν μια
ποικιλία από τύπους δεδομένων : ISSN, τίτλο, προτάσεις, υπότιτλο, και
άλλα παρόμοια. Χρησιμοποιείται ένα ειδικό χαρακτηριστικό σύνολο,
ξεχωριστά. Τα μορφότυπα δεικτών A.C.S, οι εκθέτες, και οι αλλαγές
γραμματοσειρών έχουν κωδικοποιηθεί στο σύνολο των χαρακτήρων. Η
ACS επίσης χρησιμοποιεί διαφορετικούς τύπους παρουσίασης
μεταδεδομένων : μερικές αναφορές παραπομπών σημειώνονται με ##-
περιορισμένες πηγές, και οι προσκτήσεις έχουν τελείως διαφορετικό
φορμάρισμα συστήματος στο κείμενο. Η ACS 6 ήταν ένας από τους
αρχηγούς στην γραφή σε Η/Υ στα πρωτογενή περιοδικά πριν από 20
χρόνια, και αυτό το μορφότυπο, παρόλο που δεν ακολουθεί τη φιλοσοφία
της σύγχρονης γλώσσας επισήμανσης SGML (Standard Generalized
Markup Language), ήταν αποτελεσματικό για την λειτουργία της βάσης
δεδομένων τους.
Τα κατάλληλα μαρκαρισμένα δεδομένα της ACS αναπαριστούν τη δομή
των δεδομένων σαν μέθοδο έκφρασης της δομής και διάταξης των
εγγραφών σε αντίθεση με τα συνηθισμένα ηλεκτρονικά συστήματα
τυπογραφίας της εκδοτικής βιομηχανίας. Για να παραχθεί μια μοναδική
φορητή βάση δεδομένων που συμβιβάζεται με τα σύγχρονα πρότυπα και
για να απλοποιηθούν τα προβλήματα κατασκευής λογισμικού έγινε
μετατροπή των κατάλληλων μαρκαρισμένων δεδομένων στη γλώσσα
επισήμανσης SGML. Η SGML είναι πρότυπο της ISO για την περιγραφή
του κειμένου σε αναγνώσιμη μορφή από μηχανή, και της μετατροπής του
βοηθώντας το να τροφοδοτεί τα συστήματα λογισμικού που μπορούν να
τοποθετούν βάσεις δεδομένων ευρείας επισκόπησης και διαφορετικών
πηγών 7 . Το κείμενο CORE έχει μεταφραστεί από τη Bellcore από τα
δομημένα αρχεία της ACS στην SGML γλώσσα. Η τελευταία
χαρακτηριστική έκδοση του κειμένου μετέπειτα χρησιμοποιήθηκε για να
δημιουργηθεί η βάση δεδομένων Newton που εξυπηρετεί τις πολλαπλές
επιφάνειες εργασίας στο σχέδιο.
Ο χαρακτηρισμός αυτής της βάσης δεδομένων είναι σημαντικός:
προσδιορίζει τη δομή της βάσης δεδομένων και διαφοροποιεί στοιχεία
εγγράφου για τους σκοπούς της οπτικής παρουσίασης. Ο χαρακτηρισμός
5
  ASCII (American Standard Code for Information Interchange): ο δυαδικός κώδικας που
χρησιμοποιήθηκε για να αναπαριστά έναν χαρακτήρα σε έναν η/υ. Υπάρχει ένας αριθμός από
πρότυπους κώδικες όπως ISO7, EBCDIC κ.α.
6
  Η υπηρεσία χημικών περιλήψεων (Chemical Abstract Service,CAS), ένα περιφερειακό τμήμα
της Αμερικάνικης Χημικής Κοινότητας (American Chemical Society ACS), περιλαμβάνει τον
εκδότη των πρωτογενών περιοδικών. Η ACS κρατάει τη βάση δεδομένων σε ακρίβεια και είναι
συνδεδεμένη στον ακριβή αριθμό σελίδων περιοδικών. Για το σχέδιο CORE, η CAS παρέχει το
αντίστοιχο ευρετήριο δεδομένων για κάθε άρθρο έτσι ώστε οι χρήστες να μπορούν και εκείνοι
να αποκτούν πληροφορίες μέσω της μηχανής αναζήτησης δεδομένων Χημικών Περιλήψεων.
7
  Coombs, 1987.


                                                                                      19
της SGML επιτρέπει τις επιφάνειες εργασίας να ψάχνουν για
συγκεκριμένα μέρη εγγράφου. Η χρήση της SGML αναβαθμίζει σε μεγάλο
βαθμό τη λειτουργικότητα μιας βάσης δεδομένων, αλλά ο προσδιορισμός
της δομής της βάσης απαιτεί μία λεπτομερή κατανόηση της
λειτουργικότητας που θα απαιτήσει η διασύνδεση με τον χρήστη. Η
κυριότερη δραστηριότητα του σχεδίου CORE κατά τη διάρκεια του έτους
1993 ήταν ένα συνεργαζόμενο, επαναλαμβανόμενο καθάρισμα του
μοντέλου της βάσης δεδομένων έτσι ώστε ολόκληρη η βάση δεδομένων
του CORE να μπορεί να εξυπηρετεί τις ανάγκες που χαρακτηρίζουν τις
μελέτες των προηγούμενων χρηστών καθώς και αναβαθμίσεις που έχουν
προστεθεί.
Ένα έγγραφο SGML αποτελείται από κείμενο που είναι μαρκαρισμένο με
περιγραφικές ετικέτες 8 που προσδιορίζουν την λειτουργία ενός διδόμενου
στοιχείου μέσα στο ντοκουμέντο. Σαν κύρια γλώσσα ερμηνείας, ένα
έγγραφο SGML μπορεί να αναλυθεί, ενώ ένα Έγγραφο Ορισμού Τύπου
(Document Type Definition , DTD) προσδιορίζει ποια στοιχεία
επιτρέπονται και που μέσα στο έγγραφο μπορούν (ή πρέπει) να
υπάρχουν. Αυτός ο φορμαρισμένος χάρτης της δομής του άρθρου,
επιτρέπει στον σχεδιασμό της διασύνδεσης με τον χρήστη να
αποσυνδεθεί από το υποκείμενο σύστημα βάσης δεδομένων, ένα
σημαντικό βήμα προς την διαλειτουργικότητα.
Η μετατροπή της SGML παρουσιάζει κάποια δυσκολία. Για παράδειγμα,
στην παρουσίαση χαρακτήρων που χρησιμοποιήθηκαν οι αλλαγές στην
έκδοση της γραμματοσειράς του συστήματος ACS και η θέση της γραμμής
βάσης 9 χρησιμοποιήθηκαν στο σύνολο χαρακτήρων απ’ ότι στις ετικέτες.
Γι’ αυτό αργότερα έγινε μετατροπή αυτού του μηχανισμού σε ετικέτες
SGML (δηλ. σε κωδικούς που προσδιορίζουν ένα στοιχείο σε ένα έγγραφο
π.χ. μια επικεφαλίδα ή μια παράγραφο που διευκολύνει την μορφοποίηση
και την ευρετηρίαση και τη σύνδεση των πληροφοριών στο έγγραφο) 10 .




8
 περιγραφικές ετικέτες (descriptive tags) : περιέχουν πληροφορίες για μία εγγραφή, ένα
αρχείο ή μια άλλη δομή.
9
  γραμμή Βάσης (baseline) : στην εκτύπωση και στην απεικόνιση χαρακτήρων σε οθόνη, μια
φανταστική οριζόντια γραμμή με την οποία ευθυγραμμίζεται η βάση κάθε χαρακτήρα (χωρίς τις
κάτω πατούρες), π.χ. Μ ά γ μ α      γραμμή βάσης
                             κάτω πατούρα
10
   Ουσιαστικά αυτές οι ετικέτες είναι ένα ζεύγος γωνιακών αγκυλών που περιέχουν ένα ή
περισσότερα γράμματα ή αριθμούς το οποίο τοποθετείται πριν από το προς επισήμανση
στοιχείο και ένα άλλο ζεύγος μετά το στοιχείο ώστε να δηλώνεται που αρχίζει και που
τελειώνει το στοιχείο. Παραδ. σε HTML το <ΙΤ>καλημέρα</ΙΤ> σημαίνει ότι το ‘‘καλημέρα’’
θα εμφανιστεί με πλάγιους χαρακτήρες (italics).


                                                                                      20
Κεφάλαιο 2

                                    Informedia I


Περίληψη

        Εμφανίστηκε το 1994
        Δημιουργήθηκε από το Πανεπιστήμιο Carnegie Mellon σε
         συνεργασία με τις Επικοινωνίες QED
        Είναι εμπορικό μοντέλο
        Δε βασίστηκε σε κάποιο άλλο μοντέλο
        Μεταδεδομένα:      XML,    XML     Schema 11 ,    XSLT 12 (XSL
                                13
         Transformations), SMIL , Dublin Core Metadata Initiative
        Εφαρμογές: Τηλεοπτικό κανάλι Discovery, CNN
        Τεχνικά χαρακτηριστικά: εύχρηστη διεπαφή εργασίας χρήστη,
         επιταχυνόμενη επισκόπηση βίντεο (video skimming), εισαγωγή
         συστήματος pay-per-view για προστασία δεδομένων



Εισαγωγή

Ο πρωταρχικός στόχος του Informedia ήταν να επιτύχει τη μηχανική
κατανόηση των οπτικών μέσων, όπως του βίντεο και του φίλμ γεγονός
που περιλαμβάνει όλες τις πτυχές της αναζήτησης, ανάκτησης,
οπτικοποίησης, και δημιουργίας περιλήψεων για συλλογές από πρόσφατο
και αρχειακό περιεχόμενο. Οι ερευνητικές προσπάθειες που εντάχτηκαν
στο πρόγραμμα Informedia περιελάμβαναν το Informedia I, II καθώς και
το Multilingual και το NSDL 14 ενώ παράλληλα αναπτύχθηκαν και άλλες
προσπάθειες όπως το VACE 15 , το CCRHE 16 , το CareMedia που
εφαρμόστηκαν σε άλλους τομείς εκτός των βιβλιοθηκών. Τα συγκεκριμένα
ερευνητικά προγράμματα αναπτύχθηκαν σε διαφορετικές χρονικές
περιόδους, με πρώτο το Informedia I.




11
   XML Schema: εκφράζει διανεμημένα λεξιλόγια που προσδιορίζουν τις αντιστοιχίες των
εγγράφων XML
12
   XSLT (XSL Transformations): γλώσσα μετατροπής των εγγράφων XML.
13
   SMIL (Synchronized Multimedia Integration Language)
14
   NSDL (National Science Digital Library)
15
   VACE (Video Analysis and Content Exploitation) : περαιτέρω αναβάθμιση του βίντεο του
Informedia.
16
   CCRHE (CapturingCoordinating and Remembering Human Experience): πρόγραμμα που
βασίστηκε στο Informedia.


                                                                                    21
Ενότητα 1 η

Αρχιτεκτονική

1.1. Επισκόπηση Συστήματος

Το Informedia I (σχ. 3) που αναπτύχθηκε το 1994, αποτελεί συνεργασία
του Πανεπιστημίου Carnegie Mellon με την εταιρεία QED Communications
και ήταν μία από τις έξι προσπάθειες δημιουργίας ψηφιακής βιβλιοθήκης
στις Η.Π.Α από το National Science Foundation (NSF) με παράλληλη
χρηματοδότηση από τη NASA και την DARPA (Defense Advanced
Research Project Agency). Η βασική τεχνολογία του Informedia ήταν ο
συνδυασμός της κατανόησης λόγου, εικόνας και φυσικής γλώσσας που
βρίσκουν εφαρμογή στην αυτόματη μεταγραφή, τμηματοποίηση και
ευρετηρίαση των γραμμικών βίντεο με σκοπό την έξυπνη αναζήτηση και
ανάκτηση εικόνων.




                        σχ.3. Παρουσίαση συστήματος Informedia.

Στη συνέχεια αναπτύχθηκε την περίοδο 1997-2000 από την ερευνητική
ομάδα του προγράμματος, το Multilingual Informedia. Στόχος του
συγκεκριμένου προγράμματος ήταν η ανάπτυξη ενός αυτοματοποιημένου
συστήματος και των εργαλείων του που θα επέτρεπε την σύλληψη,
αναζήτηση, ανάκτηση τη δημιουργία περίληψης και επαναχρησιμοποίησης
πολύγλωσσων      πολυμεσικών     δεδομένων.   Το   πρόγραμμα      αυτό
χρηματοδοτήθηκε από την DARPA, την SPAWAR (Space and Naval
Warfare Systems) και από την NRaD (Naval Research and Development).
Η υποδομή της Ψηφιακής Βιβλιοθήκης που άρχισε να δημιουργείται με το
Informedia I συνεχίστηκε και ολοκληρώθηκε το 2000 με το Informedia II 17 .
17
     Θα παρουσιαστεί αναλυτικότερα στα επόμενα κεφάλαια.


                                                                       22
Το πρόγραμμα αυτό επιζητά να βελτιώσει τις τεχνικές εξαγωγής,
δημιουργίας περίληψης, της οπτικοποίησης και της παρουσίασης των
κατανεμημένων βίντεο για την αυτόματη παραγωγή ‘‘collage’’ και
‘‘αυτόματων τεκμηρίων’’ τα οποία συνοψίζουν τις πληροφορίες από
οπτικά και ηχητικά μέσα καθώς και από εικόνες και κείμενο σε μία
μοναδική περίληψη.
Την αρχική συλλογή της Ψηφιακής Πολυμεσικής            Βιβλιοθήκης του
Informedia αποτέλεσαν βίντεο από τα αρχεία του WQED 18 (QED
Comunications) και από το Ανοιχτό Βρετανικό Πανεπιστήμιο. Η τρέχουσα
συλλογή περιλαμβάνει ντοκιμαντέρ και γενικές ειδησεογραφικές
μαγνητοσκοπήσεις από διάφορες πηγές, όπως είναι το αμερικάνικο κανάλι
CNN το οποίο είναι ένα από τα μεγαλύτερα τηλεοπτικά και ραδιοφωνικά
δίκτυα ή το Discovery (σχ. 4).
Σε γενικές γραμμές η λειτουργία και η αποτελεσματικότητα των υπηρεσιών
της βιβλιοθήκης και συνεπώς των τεχνικών που έχουν εισαχθεί σε αυτήν
βασίζεται σε δύο βασικές λειτουργίες: της μεταγραφής (transcribe) 19 και
της τμηματοποίησης 20 των βίντεο.




     σχ.4. Παρουσίαση 12 τεκμηρίων που εμφανίστηκαν στην αναζήτηση που έγινε
                          με βάση το φαινόμενο ‘‘El Niňo’’.
1.2. Μεταγραφή και τμηματοποίηση βίντεο

Αρχικά, το βίντεο καθώς εισάγεται στην βιβλιοθήκη υφίσταται επεξεργασία
από ένα σύστημα αναγνώρισης λόγου, το οποίο δρα ανεξάρτητα από τον
18
   WQED : τηλεοπτικός σταθμός του PBS που βρίσκεται στο Πίτσμπουργκ της Πενσυλβάνια
(Η.Π.Α). Ήταν ο πρώτος τηλεοπτικός σταθμός (1954) που δημιουργήθηκε σε κοινότητα των
Η.Π.Α.
19
   αντιγραφή ή μεταγραφή (transcribe): αποτελεί τμήμα της αναγνώρισης λόγου. Όυσιαστικά
είναι η διαδικασία με την οποία ένα σύστημα αναγνώρισης λόγου ακούει μία ομιλία που έχει
γραφτεί από πριν και έπειτα το συγκεκριμένο σύστημα εισάγει τις αναγνωρίσιμες λέξεις σε ένα
έγγραφο για μετέπειτα διόρθωση.
20
   τμηματοποίηση: η κατάτμηση του βίντεο σε ανεξάρτητες εννοιολογικές παραγράφους.


                                                                                        23
εκφωνητή του βίντεο. Ο ομιλητής μπορεί, δηλαδή, να είναι από εκφωνητής
ειδήσεων ή δημοσιογράφος ως και ένας απλός πολίτης ή ερευνητής ή
εργαζόμενος σε κάποια εταιρία, με ότι συνεπάγεται την πληθώρα των
περιστάσεων, όσον αφορά τις διάφορες προφορές και το επίπεδο
καλλιέργειας της γλώσσας. Ο αναγνωριστής λόγου μεταγράφει αυτόματα
το ηχητικό μέρος (soundtrack) του βίντεο, το οποίο στη συνέχεια
αποθηκεύεται σε ένα σύστημα ανάκτησης πληροφοριών πλήρους
περιεχομένου. Η βάση δεδομένων που συνεπώς δημιουργείται από την
καταγραφή του ηχητικού τμήματος πολυάριθμων βίντεο, επιτρέπει την
γρήγορη ανάκτηση ξεχωριστών παραγράφων. Οι παράγραφοι αυτοί
δημιουργήθηκαν από την κατάτμηση των βίντεο και η ανάκτησή τους
βασίζεται στο ηχητικό τμήμα και στο ερώτημα που θέτει ο χρήστης.



1.3. Προστασία δεδομένων

Ένα πρόβλημα που διευθετήθηκε στην αρχική έκδοση ήταν η προστασία
των δεδομένων και του πνευματικού εμπορίου της πνευματικής
κληρονομιάς και γι’ αυτό τον λόγο στις εμπορικές εκδόσεις του
συστήματος εισήχθηκε το σύστημα pay-per-view. Η ουσία του συστήματος
αυτού είναι ότι ο χρήστης πληρώνει ανάλογα με τα δεδομένα που ανακτά,
την ποιότητά τους και τον προμηθευτή από τον οποίο παρέχονται.



1.4. Multilingual Informedia

Εισαγωγή

Σταθμό στην πορεία της Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου
Carnegie Mellon αποτέλεσε το πρόγραμμα Multilingual. Σκοπός του ήταν
η   διερεύνηση    των   πολυμεσικών    πληροφοριακών     πηγών    σε
ειδησεογραφικά δεδομένα που προέρχονται από άλλες χώρες.
Οι ουσιαστικές αλλαγές που επήλθαν ήταν:

      Ευρετηριάσεις πλήρους κειμένου, έρευνας και ανάκτησης κειμένου,
   τεκμηρίων ήχου και βίντεο μέσω συνδεόμενων τεχνικών αναγνώρισης
   ομιλίας και νέας στατιστικής επεξεργασίας της φυσικής γλώσσας.
      Πρόσβαση πολύγλωσσων εγγράφων μέσω επερωτήσεων στην
   αγγλική ή σε άλλες γλώσσες. Αγγλικές επερωτήσεις συνδυάζονται με
   μετάφραση αντιστοιχιών επέκτασης σε κάθε στοχευμένη γλώσσα
   (Γερμανικά, Σερβο-Κροατικά, και σαν επιλογή άλλες γλώσσες των
   συμμαχικών δυνάμεων συμπεριλαμβανομένων των Γαλλικών,
   Ιταλικών, Ισπανικών, Ιαπωνικών, Κορεάτικων).
      Ένα λογισμικό μετάφρασης του οποίου η λειτουργία βασίζεται σε
   λέξεις-κλειδιά, μετατρέπει τα διατυπωμένα σε αγγλική γλώσσα
   ερωτήματα στην σερβο-κροατική γλώσσα επιτρέποντας την αναζήτηση
   για ισοδύναμες λέξεις σε μία γενική συλλογή αγγλικών και
   σερβοκροατικών ειδησεογραφικών αναμεταδόσεων.


                                                                   24
Θεματικές επικεφαλίδες στα αγγλικά για την σερβοκροατική
   ειδησεογραφία επιτρέπουν στον χρήστη να αναγνωρίζει αντίστοιχο
   ρεπορτάζ στην ξένη γλώσσα.
      Τμηματοποίηση βίντεο, ευρετηρίαση και περίληψη σε νοηματικά και
   ευρετηριασμένα    τμήματα,    κατανοητές   περιλήψεις   γρήγορης
   επισκόπησης,     εργαλεία    για    εξαγωγή,    επεξήγηση,     και
   επαναχρησιμοποίηση του σχεδιαζόμενου περιεχομένου.

Γενικός σκοπός του προγράμματος ήταν η ανάπτυξη αυτοματοποιημένων
συστημάτων και εργαλείων που θα επέτρεπαν την πολύγλωσση και
πολυμεσική σύλληψη πληροφοριών καθώς και την αναζήτηση, ανάκτηση,
περιληπτική παρουσίαση και την επαναχρησιμοποίησή τους. Το σύστημα
αυτό δημιουργήθηκε με βάση την τεχνολογία και την επικείμενη υποδομή
της Ψηφιακής Βιβλιοθήκης του Informedia. Στον χρήστη παρεχόταν πλέον
η δυνατότητα προσπέλασης γραπτών, ηχητικών και οπτικών
πληροφοριών όπως και στην αρχική έκδοση της βιβλιοθήκης με την
διαφορά ότι πλέον οι πληροφορίες διατίθονταν σε μία ή και περισσότερες
γλώσσες. Ακόμα, το σύστημα χρησιμοποιούσε τεχνικές για την
ευρετηρίαση, την κατηγοριοποίηση, και την ανάλυση πληροφοριών χωρίς
να αντιμετώπιζε γλωσσικούς περιορισμούς. Αρχικά, οι ερευνητές του
προγράμματος επικεντρώθηκαν στην σερβοκροάτικη γλώσσα για να
αποδείξουν την βιωσιμότητα και την πρακτικότητα του προτεινόμενου
εγχειρήματος.



Ενότητα 2 η

Τεχνικά θέματα

2.1. Αναβαθμίσεις λογισμικού του Informedia I

Μία από τις καινοτομίες που εισήχθησαν στην ψηφιακή βιβλιοθήκη του
Informedia ήταν ότι μέσω της διεπιφάνειάς της ο χρήστης μπορούσε να
εισάγει τόσο γραπτά όσο και προφορικά ερωτήματα προς το σύστημα.
Μία δεύτερη καινοτομία του συστήματος ήταν η διαδικασία που
αναφερόταν ως video skimming (επιταχυνόμενη επισκόπηση βίντεο). Η
διαδικασία αυτή επέτρεψε την επιταχυνόμενη επισκόπηση του βασικού
βίντεο και των ηχητικών ακολουθιών του από τον χρήστη. Για τη
διαδικασία αυτή δημιουργήθηκε μια περίληψη του βίντεο η οποία απέδιδε
την ουσία του περιεχομένου στο 5 έως 20% του αρχικού χρόνου, ενώ
παλαιότερα απλά αυξανόταν ο ρυθμός που έτρεχε το βίντεο χωρίς αυτό
να διευκολύνει ουσιαστικά τον χρήστη.




2.2. Multilingual Informedia



                                                                   25
2.2.1. Καινοτομίες

Μία καινοτομία που εισήχθη στο Multilingual Informedia είναι ότι πλέον
επιτεύχθηκε η συνεργασία αποσπασμένων ως τώρα περιοχών έρευνας. Η
συγκεκριμένη καινοτομία περιλαμβάνει τον αναγνωριστή λόγου-
ανεξάρτητου εκφωνητή, την ανάκτηση κειμένου και απευθείας περίληψη,
την μηχανική μετάφραση, την επεξεργασία εικόνας, την αυτόματη
σύλληψη και ψηφιακή επεξεργασία των πολυμεσικών πληροφοριών και
τέλος την έξυπνη βοήθεια στην δημιουργία και επαναχρησιμοποίηση των
πληροφοριών αυτών.




2.2.2. Αναβαθμίσεις

Η ερευνητική ομάδα στα πλαίσια ανάπτυξης του προγράμματος
Multilingual Informedia δημιούργησε και εισήγαγε ένα αρκετά πρωτότυπο
σύστημα: έναν πολύγλωσσο φυλλομετρητή (browser) κειμένου και
οπτικοακουστικού υλικού που δέχεται ερωτήματα διατυπωμένα στην
αγγλική γλώσσα και επιστρέφει τα πιο σχετικά ρεπορτάζ ή τμήματα αυτών
σε αγγλική και σερβοκροάτικη γλώσσα. Για παράδειγμα, παραθέτει
ειδησεογραφικά τεκμήρια των δύο αυτών γλωσσών δίνοντας την
δυνατότητα στον χρήστη να πληροφορηθεί και να συγκρίνει τους τρόπους
αντιμετώπισης ενός συγκεκριμένου θέματος ή γεγονότος σε δύο
διαφορετικές χώρες. Το λογισμικό που πραγματοποιεί την μετάφραση
ανοικοδομεί όλες τις λογικές ερμηνείες των λέξεων και των φράσεων του
αγγλικού ερωτήματος. Αποτέλεσμα της συγκεκριμένης διαδικασίας είναι η
δημιουργία ενός διευρυμένου ερωτήματος στην γλώσσα προορισμού,
δηλαδή στην σερβοκροάτικη χωρίς απώλεια αλλά με κάποιο κόστος στην
ακρίβεια.




                             Κεφάλαιο 3

    Stanford Protocol Proposal for Internet Retrieval and Search
                            (STARTS)




                                                                   26
Περίληψη

      Εμφανίστηκε το 1996
      Δημιουργήθηκε από την ψηφιακή βιβλιοθήκη του Stanford από
       σύμπραξη εμπορικών μηχανών αναζήτησης και άλλων μηχανισμών
       (Verity, WAIS, Infoseek, Microsoft Network, PLS)
      Είναι ερευνητικό μοντέλο
      Δεν βασίστηκε σε κάποιο άλλο μοντέλο
      Μεταδεδομένα: περιγραφή χαρακτηριστικών πηγής (Mbasic-1,
       GILS), περίληψη περιεχομένου πηγής (αντικείμενο SOIF).
      Εφαρμoγές: Ψηφιακή Βιβλιοθήκη Πανεπιστημίου Stanford
      Τεχνικά χαρακτηριστικά: σύνταξη των αιτημάτων με προσθήκη νέων
       πεδίων και δεικτών, πρωτόκολλο επικοινωνίας μεταδεδομένων
       Z39.50



Εισαγωγή

Μέχρι τώρα οι τωρινές μηχανές αναζήτησης (π.χ. Yahoo, Google,
Altavista):
 δεν εξήγαγαν πληροφορίες σχετικά με τις πηγές (το πρόβλημα
   πηγής-μεταδεδομένων)
 χρησιμοποιούσαν διαφορετικές γλώσσες ερωτημάτων (το πρόβλημα
   ερωτήματος-γλώσσας)
 ταξινομούσαν     τα   αρχεία  στα    αποτελέσματα   ερωτήσεων
   χρησιμοποιώντας    μυστικούς   αλγόριθμους   (το   πρόβλημα
   ταξινόμησης-συγχώνευσης)

Για να βελτιώσουν αυτήν την κατάσταση, η ομάδα σχεδίασης της
Ψηφιακής βιβλιοθήκης στο Πανεπιστήμιο Stanford ώθησε τους
ανθρώπους που ασχολούνται με την προώθηση των μηχανών
αναζήτησης (δηλ. του Search Engine Marketing) και άλλους σημαντικούς
συντελεστές, να σχεδιάσουν ανεπίσημα ένα πρωτόκολλο το οποίο θα
επέτρεπε βασικές αλληλεπιδράσεις των πηγών μεταξύ των τριών
παραπάνω περιοχών. Παρακάτω παρατίθεται το τέταρτο και τελικό
προσχέδιο της προσπάθειας ‘‘προτύπων’’. Αυτό εδώ το προσχέδιο
βασίζεται στην υποστήριξή του από την εξής ομάδα ανθρώπων: Excite,
Fulcrum, GILS, Harvest,      Hewlett Packard Laboratories, Infoseek,
Microsoft Network, Netscape, PLS, Verity, και WAIS. Αυτό το προσχέδιο
συμπεριλαμβάνει υποστήριξη από τους συμμετέχοντες στο εργαστήριο
του STARTS το οποίο οργανώθηκε στο Stanford την 1 η Αυγούστου του
2006.

Ενότητα 1 η

Αρχιτεκτονική

1.1. Βασικά χαρακτηριστικά του μοντέλου Starts



                                                                  27
Η αρχιτεκτονική του πρωτοκόλλου Starts βασίζεται σε ένα μεγάλο αριθμό
πόρων. Κάθε πόρος αποτελείται από μία ή περισσότερες πηγές και απλά
εξάγει πληροφορίες επικοινωνίας για τις πηγές τους. Μια πηγή είναι μια
συλλογή από αμετάβλητα αρχεία (π.χ. στο σχ. 5 δεν θεωρείται καμία
παρεμβολή στα συγκεκριμένα αρχεία) τα οποία συσχετίζονται με τις
μηχανές αναζήτησης, οι οποίες δέχονται ερωτήσεις από τους χρήστες και
δίνουν τα αντίστοιχα αποτελέσματα.
Το συγκεκριμένο πρωτόκολλο σχεδιάστηκε για επικοινωνία μεταξύ των
μηχανών (οι χρήστες δηλαδή δεν χρειάζεται να γράφουν τα επερωτήματα
χρησιμοποιώντας μια γλώσσα ερωτήσεων). Επίσης, όλες οι επικοινωνίες
με τις πηγές είναι μη καταργήσιμες και μη καθορισμένες.




                      σχ.5. Αρχιτεκτονική STARTS.


Γενικά, μία προχωρημένη μηχανή αναζήτησης ή ένας οποιοσδήποτε
τελικός αποδέκτης υπηρεσιών θα μπορούσαν τυπικά να διανείμουν
ερωτήματα σε πολλαπλές πηγές.
Βάση των παραπάνω προκύπτουν τα εξής χαρακτηριστικά για το μοντέλο
STARTS:
   1) Διανομή της ερώτησης σε μία πηγή προς τον πόρο (όπως
      αναφέρεται στο παρακάτω σχήμα ,σχ. 6, δηλ. Source 1) μπορεί να
      προσδιορίσει άλλες πηγές στον πόρο όπου μπορούν επίσης να
      αξιολογήσουν το ερώτημα (δηλ. Source 2).
   2) Διανομή του ερωτήματος σε άλλες καλύτερες πηγές (ουσιαστικά σε
      μικρά σύνολα από συλλογές με πολλά υποσχόμενους πόρους).


                                                                   28
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia
Ptihiaki ergasia

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
 

Featured (20)

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 

Ptihiaki ergasia

  • 1. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΑΘΗΝΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ & ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΗΣΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ <<ΕΡΕΥΝΑ ΚΑΙ ΑΝΑΛΥΣΗ ΣΥΓΧΡΟΝΩΝ ΜΟΝΤΕΛΩΝ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ>> Κωλέτση Αικατερίνη Α.Μ.: 02/080 Ψαρουδάκη Ευτυχία Α.Μ.: 02/081 Επιβλέπων Καθηγητής: Τριανταφύλλου Ιωάννης Αθήνα, 2007 Πίνακας Περιεχομένων
  • 2. Κεφ. Ενότ. Υποενότ. Τίτλοι Σελ. Εισαγωγή 9 1 Παλαιότερα μοντέλα 12 CORE Project (1993) 12 Περίληψη 12 Εισαγωγή 12 1 Αρχιτεκτονική 13 1.1. Οι συλλογές του Project Core 15 1.2. Στόχοι του project Core 15 1.3. Σχεδιασμός βάσης δεδομένων και 16 χρήση 1.4. Μηχανή αναζήτησης Newton 16 1.5. Διεπαφές που χρησιμοποιήθηκαν 18 2 Τεχνικά θέματα 19 2.1. Πρόσκτηση δεδομένων μέσω ASCII 19 2 Informedia I 21 Περίληψη 21 Εισαγωγή 21 1 Αρχιτεκτονική 22 1.1. Επισκόπηση συστήματος 22 1.2. Μεταγραφή και τμηματοποίηση βίντεο 24 1.3. Προστασία δεδομένων 24 1.4. Multilingual Informedia 24 Εισαγωγή 24 2 Τεχνικά θέματα 25 2.1. Αναβαθμίσεις λογισμικού του 25 Informedia I 2.2. Multilingual Informedia 26 2.2.1. Καινοτομίες 26 2.2.2. Αναβαθμίσεις 26 3 Stanford Protocol for Internet 27 Retrieval and search (STARTS) Περίληψη 27 Εισαγωγή 27 1 Αρχιτεκτονική 28 1.1. Βασικά χαρακτηριστικά του μοντέλου 28 Starts 1.2. Πρωτόκολλο Z39.50 30 1.3. Η έννοια του πόρου 30 1.4. Σύνταξη και επικοινωνία 31 2 Τεχνικά θέματα 31 2.1. Περίληψη πηγής 31 2.2. Περίληψη περιεχομένου πηγών 32 2.3. Πηγή μεταδεδομένων 33 2.4. Χαρακτηριστικά πηγής 33 μεταδεδομένων 2.5. Πηγή χαρακτηριστικών 34 2.6. Μεταδεδομένα πηγής 36 χαρακτηριστικών 2.7. Μεταδεδομένα πόρων 36 2
  • 3. 2.8. Γλώσσα ερωτήματος 37 4 Greenstone 39 Περίληψη 39 Εισαγωγή 39 1 Αρχιτεκτονική 41 1.1. Αρχεία 41 1.1.1. Οργάνωση αρχείων 41 1.1.2. Περιεχόμενα καταλόγων 41 1.1.3. Εισαγωγή αρχικών εντύπων στη 41 συλλογή 1.1.4. Το εσωτερικό των αρχείων 42 1.1.5. Προσδιορισμός εισαγόμενων αρχείων 43 1.2. Αναζήτηση πληροφοριών στο 43 Greenstone 1.3. Σύνολο χαρακτήρων Unicode 46 1.4. Παροχές Greenstone προς τους 47 χρήστες 2 Τεχνικά θέματα 49 2.1. Λογισμικό συστήματος 49 2.2. Λειτουργικότητα λογισμικού 49 εφαρμογής 2.3. Διαχείριση διαφορετικών ειδών 49 αρχείων 2.4. Αναβαθμίσεις υπάρχουσων 50 συλλογών 2.5. Εργαλεία για τη δημιουργία νέων 50 συλλογών 2.6. Διάθεση συλλογών και πρόσβαση σε 51 αυτές 2.7. Ιδιαίτερα τεχνικά θέματα 51 5 Μοντέλο NCSTRL-Dienst 54 Περίληψη 54 Εισαγωγή 54 1 Αρχιτεκτονική συστήματος 55 1.1. Μοντέλο αρχείου 56 1.2. Δομή υπηρεσίας 57 1.3. Συλλογές 59 1.4. Επικοινωνία Dienst μέσω δικτυακών 60 κόμβων (‘’περιοχών’’) 1.5. Υπηρεσίες συστήματος Dienst 60 2 Τεχνικά θέματα 61 2.1. Γλώσσα προγραμματισμού Perl 61 2.2. Αναβαθμίσεις λογισμικού NCSTRL- 62 Dienst 6 Το μοντέλο SODA 65 Περίληψη 65 Εισαγωγή 65 1 Αρχιτεκτονική SODA 68 1.1. Χαζά-Έξυπνα αντικείμενα 68 1.2. Υπηρεσίες κάδου 68 1.3. Τεχνολογία του μοντέλου κάδου 70 1.4. Χαρακτηριστικά κάδων 71 2 Τεχνικά θέματα 72 3
  • 4. 2.1. Υπηρεσίες αποθετηρίου 72 2.2. Καινοτομίες NCSTRL+ 72 2.3. Η λειτουργία του Χαζού Αποθετηρίου 73 2.4. Μελλονική εργασία και ανάπτυξη 73 κάδων 2.5. Προγράμματα σαν κάδοι 74 7 Νεότερα μοντέλα ψηφιακών 75 βιβλιοθηκών Informedia II 75 Περίληψη 75 Εισαγωγή 75 1 Αρχιτεκτονική 76 1.1. Οργάνωση αρχείων και δεδομένων 76 1.2. Σχεδίαση βάσης δεδομένων 77 1.3. Αναγνώριση λόγου (Speech 77 Recognition) 1.4. Επεξεργασία φυσικής γλώσσας 78 (Natural Language Processing) 1.5. Κατανόηση εικόνας (Image 79 Understanding) 1.6. Τμηματοποίηση (Segmentation) 80 1.7. Εξαγωγή μεταδεδομένων 81 2 Τεχνικά θέματα 82 2.1. Ανάκτηση και παρουσίαση 82 δεδομένων 2.2. Επισκόπηση αποτελεσμάτων 82 2.3. Νέες τεχνικές και συστήματα 83 8 DSpace 85 Περίληψη 85 Εισαγωγή 85 1 Αρχιτεκτονική 88 1.1. Αρχιτεκτονική συστήματος 88 1.2. Σχεδιασμός συστήματος 89 1.3. Περιεχόμενα συλλογής 90 1.4. Διαλειτουργικότητα συλλογής 91 1.5. Ψηφιακή Συντήρηση 91 2 Τεχνικά θέματα 93 2.1. Πρότυπα μεταδεδομένων 93 2.2. Διεπαφή με τον χρήστη 93 2.3. Τεχνολογική υποδομή 94 2.4. Αναβάθμιση διαλειτουργικότητας 94 9 Το πρωτόκολλο OAI-PMH 95 Περίληψη 95 Εισαγωγή 95 1 Αρχιτεκτονική 99 1.1. Το στατικό μοντέλο αποθετηρίου 99 O.A.I 1.1.1. Το στατικό αποθετήριο 100 1.1.2. Η πύλη συζευξης του στατικού 100 αποθετηρίου 1.2. Πρωτόκολλο Ο.Α.Ι: Αιτήματα 101 1.2.1. Το αίτημα ‘’GetRecord’’ 101 1.2.2. Το αίτημα ‘’Identify’’ 101 4
  • 5. 1.2.3. Το αίτημα ‘’ListIdentifier’’ 102 1.2.4. Το αίτημα ‘’ListMetadata Formats’’ 102 1.2.5. Το αίτημα ‘’ListRecords’’ 102 1.2.6. Το αίτημα ‘’ListSets’’ 102 1.3. Διαλειτουργικότητα και καταχωρήσεις 103 μεταδεδομένων 1.4. Επιλεκτική συλλογή και κριτήρια που 106 ακολουθήθηκαν 1.5. Επίπεδα προμηθευτών 107 2 Τεχνικά θέματα 108 2.1. Τα στοιχεία που βασίστηκε η πύλη 108 σύζευξης 2.1.1. Αρχιτεκτονική και λειτουργία της 108 διασύνδεσης OAI-PMH 2.1.2. Προσωρινή μνήμη (Τhe Cache) 110 2.1.3. Ζώνη ασφαλείας (Lock Zone) 111 2.1.4. ‘’Δαίμονας’’ (Daemon) 111 2.2. Αλληλουχία URL της πύλης σύζευξης 113 2.3. Τεχνικό πλαίσιο εργασίας 114 2.4. Αναθεωρήσεις και Προγράμματα 115 Υποστήριξης 10 Το μοντέλο Fedora 117 Περίληψη 117 Εισαγωγή 117 1 Αρχιτεκτονική 120 1.1. Ενοποίηση κατανεμημένων 120 αποθετηρίων 1.2. Αλληλεπιδράσεις πελάτη και 121 εξυπηρετητή Fedora 1.3. Το Ψηφιακό Αντικείμενο 122 1.3.1. Σχέσεις μεταξύ αντικειμένων 123 1.3.2. Ροές δεδομένων (Datastreams) 124 1.4. Πλεονεκτήματα Fedora 125 1.4.1. Διατήρηση και αρχειοθέτηση 126 1.4.2. Πολλαπλή παρουσίαση περιεχομένου 126 1.4.3. Εύκολη ενσωμάτωση νέων εφαρμογών 127 1.4.4. Ευέλικτη και επεκτάσιμη αρχιτεκτονική 127 2 Τεχνικά θέματα 129 2.1. Πρόσβαση του χρήστη 129 2.2. Πλαίσιο εργασίας υπηρεσίας Fedora 131 (Fedora Service Framework) 2.3 Δωρεάν διαθέσιμο με πολλαπλές 132 εφαρμογές 11 Η Ευρωπαϊκή Ψηφιακή 134 Βιβλιοθήκη (European Digital Library) Περίληψη 134 Εισαγωγή 134 Το πρόγραμμα TEL 135 1 Αρχιτεκτονική 136 1.1. Ευρωπαϊκή Βιβλιοθήκη (The 136 European Library, TEL) 1.1.1. Προτεινόμενη Αρχιτεκτονική 136 5
  • 6. 1.1.2. Επιλογή μεταδεδομένων 137 1.1.3. Δημιουργία Πρωτοκόλλων Έρευνας και 138 Αναζήτησης (SRU) 1.2. TEL-ME-MOR: Αναβάθμιση της 140 Ευρωπαϊκής Βιβλιοθήκης (TEL) 1.2.1. Το πρόγραμμα TEL-ME-MOR (2006) 140 1.2.2. Στόχοι του προγράμματος TEL-ME-MOR 141 1.2.3. Κοινό που επικεντρώθηκε το TEL-ME- 141 MOR 1.2.4. Έρευνα και ανάπτυξη στο TEL-ME-MOR 142 1.2.5. Πολυγλωσσικότητα 142 1.2.6. Πλαίσιο Εργασίας TEL-ME-MOR 143 1.3. EDL (European Digital Library): 144 Αναβάθμιση του TEL-ME-MOR 1.3.1. Το πρόγραμμα EDL 144 1.3.2. EDL: συνέχεια των TEL και TEL-ME- 144 MOR 1.3.3. Στόχοι του προγράμματος EDL 145 1.3.4. Πλεονεκτήματα του EDL 146 1.3.5. Πλαίσιο εργασίας EDL 146 2 Τεχνικά θέματα 147 Ευρωπαϊκή Βιβλιοθήκη (The 147 European Library) 2.1. Υλοποίηση των πυλών σύζευξης του 147 TEL 2.1.1. Η πύλη σύζευξης TEL 148 2.1.2. Η πύλη σύζευξης Ζ39.50-SRU 149 2.2. Καταχώρηση μεταδεδομένων 150 2.3. Συνδυάζοντας Μεταδεδομένα και SRU 152 12 Η Ελληνική Πραγματικότητα 155 Εισαγωγή 155 13 Το Εθνικό Κέντρο Τεκμηρίωσης 157 (ΕΚΤ) και η ψηφιακή βιβλιοθήκη του ΕΚΤ Περίληψη 157 Εισαγωγή 157 1 Αρχιτεκτονική 158 1.1. Συλλογή ηλεκτρονικών περιοδικών 159 1.1.1. Συλλογή περιοδικών πλήρους κειμένου 160 σε CD-ROM 1.2. Δίκτυο διαδανεισμού ελληνικών 160 βιβλιοθηκών 1.2.1. Υπηρεσία παραγγελίας δημοσιευμάτων 161 από το εξωτερικό 1.2.2. Συλλογικός κατάλογος περιοδικών 161 1.3. Ψηφιοποιημένες συλλογές 162 1.3.1. Συλλογή ψηφιοποιημένων διδακτορικών 163 διατριβών 1.3.2. Ψηφιοποίηση πολιτιστικού περιεχομένου 163 1.3.3. Ψηφιοποίηση πρακτικών συνεδρίων 163 (γκρίζα βιβλιογραφία) 1.3.4. Ψηφιοποίηση ελληνικών περιοδικών 164 6
  • 7. 1.4. Διάθεση και αξιοποίηση 164 εγκατεστημένων βάσεων δεδομένων 2 Τεχνικά θέματα 164 2.1. Υλικό (hardware) που 164 χρησιμοποιείται 2.1.1. Υλικό του κεντρικού συστήματος 164 2.1.2. Δημιουργία ηλεκτρονικού 165 αναγνωστηρίου 2.2. Λογισμικό (software) που 165 χρησιμοποιείται 2.2.1. Λογισμικό πρόσβασης 165 2.2.2. Λογισμικό συλλογής 165 2.2.3. Επεξεργασία δεδομένων 165 2.2.4. Συστήματα αναζήτησης 166 14 Ελληνικά Ψηφιακά Μοντέλα 167 Σύστημα Άρτεμις 167 Περίληψη 167 Εισαγωγή 167 1 Αρχιτεκτονική 168 1.1. Σχεδιασμός αρχιτεκτονικής 168 συστήματος 1.2. Χαρακτηριστικά του συστήματος 171 1.3. Τοπολογία συστήματος 172 1.4. To σύστημα Dienst 175 1.5. Η τελικά προτεινόμενη αρχιτεκτονική 177 2 Τεχνικά θέματα 182 2.1. Εγκατάσταση Λογισμικού 182 2.1.1. Πρώτο στάδιο 183 2.1.2. Δεύτερο στάδιο 183 2.2. Εισαγωγή νέων εγγράφων 184 15 Πέργαμος 185 Περίληψη 185 Εισαγωγή 185 1 Αρχιτεκτονική 186 1.1. Πρωτότυπα και στιγμιότυπα 186 ψηφιακών αντικειμένων 1.2. Λειτουργικότητα ψηφιακών 190 αντικειμένων 1.3. Διαχείριση συλλογών 191 1.4. Δυναμικές διεπαφές 192 2 Τεχνικά θέματα 194 2.1. Αυτοματοποίηση στη μετατροπή του 194 ψηφιακού υλικού ΠΑΡΑΡΤΗΜΑ Ι 196 Πίνακας Ι 196 Πλεονεκτήματα-Μειονεκτήματα CORE 196 Πίνακας ΙΙ 197 Πλεονεκτήματα-Μειονεκτήματα 197 STARTS Πίνακας ΙΙΙ 198 Πλεονεκτήματα-Μειονεκτήματα 198 NCSTRL-DIENST Πίνακας IV 199 7
  • 8. Πλεονεκτήματα-Μειονεκτήματα SODA 199 Πίνακας V 200 Πλεονεκτήματα-Μειονεκτήματα 200 Greenstone Πίνακας VI 201 Πλεονεκτήματα-Μειονεκτήματα 201 Informedia Πίνακας VII 202 Πλεονεκτήματα-Μειονεκτήματα 202 DSpace Πίνακας VIII 203 Πλεονεκτήματα-Μειονεκτήματα OAI- 203 PMH Πίνακας ΙΧ 204 Πλεονεκτήματα-Μειονεκτήματα 204 Fedora ΠΑΡΑΡΤΗΜΑ ΙΙ 205 Ακρωνύμια 205 Βιβλιογραφία 209 Ηλεκτρονική 209 Έντυπη 212 8
  • 9. Εισαγωγή Η έκρηξη της τεχνολογίας επέφερε μεγάλες αλλαγές στον τομέα της βιβλιοθηκονομίας και των συστημάτων πληροφόρησης. Για δεκαετίες οι χρήστες συνήθισαν να χρησιμοποιούν τις έντυπες πηγές πληροφόρησης. Οι εκδότες έπαιξαν σημαντικό ρόλο στην γενιά της έντυπης πληροφορίας ενώ οι διανομείς πωλητές βιβλίων και κυρίως οι βιβλιοθήκες έπαιξαν εξίσου σημαντικό ρόλο στην κατανομή της πληροφορίας. Για χρόνια ήταν συνηθισμένο να χρησιμοποιούνται οι έντυπες πηγής πληροφόρησης είτε μέσω της απόκτησής τους, είτε με το να χρησιμοποιούνται στις βιβλιοθήκες. Η κατάσταση άρχισε να αλλάζει τέσσερις δεκαετίες νωρίτερα με την εισαγωγή των υπολογιστών στη διαχείριση της πληροφορίας, όπου και έγιναν ριζικές αλλαγές σε σχέση με τα παλαιότερα χρόνια. Η πρώτη χρήση των υπολογιστών στη διαχείριση της πληροφορίας άνοιξε το μέλλον σε νέους τρόπους πρόσβασης και χρήσης πληροφορίας. Έτσι ήταν ικανό να δημιουργείται και να παρέχεται πρόσβαση σε ηλεκτρονικά ευρετήρια των συλλογών, ηλεκτρονικές βάσεις δεδομένων των άρθρων των περιοδικών, πρακτικά συνεδρίων κ.α. Αυτή ήταν μια νέα εποχή και επιπλέον της χρήσης των έντυπων πηγών πληροφόρησης, οι χρήστες μπορούσαν να έχουν πρόσβαση στις ηλεκτρονικές βάσεις δεδομένων των πηγών πληροφόρησης που δημιουργήθηκαν τοπικά και ήταν εξ’ αποστάσεως προσβάσιμες. Με τα χρόνια, οι απομακρυσμένες υπηρεσίες αναζήτησης πληροφοριών online έγιναν ένα καθιερωμένο μέρος της αναζήτησης πληροφορίας και της χρήσης προτύπων πληροφορίας. Αυτές οι υπηρεσίες δεν αντικατέστησαν τις βιβλιοθήκες του έντυπου υλικού, αλλά αύξησαν την πρόσβαση και την εκμετάλλευση της πληροφορίας και την χρήση της με την τεχνολογία των επικοινωνιών. Κατόπιν οι βιβλιοθήκες άρχισαν να μετατρέπουν τους δελτιοκαταλόγους τους σε ηλεκτρονικούς καταλόγους βάσεων δεδομένων οι οποίοι μετέπειτα έγιναν online προσβάσιμοι δημόσιοι κατάλογοι (OPACs), παρέχοντας τοπική και εξ’ αποστάσεως πρόσβαση. Άλλη μία μεγάλη αλλαγή στη διαδικασία της αποθήκευσης ανάκτησης και διάδοσης πληροφοριών επέφερε η εφεύρεση των CD-ROM. Μεγάλες βάσεις δεδομένων άρχισαν να εμφανίζονται ως νέο μέσο διευκόλυνσης της κατανομής και της πρόσβασης. Οι χρήστες μπόρεσαν να έχουν πρόσβαση στις ηλεκτρονικές πηγές πληροφόρησης, βιβλιογραφικές και μη βάσεις δεδομένων, από μόνοι τους, σε βιβλιοθήκες , γραφεία κ.α. Ενώ οι βάσεις δεδομένων CD-ROM έγιναν ένας υποδειγματικός ανταγωνιστής των online υπηρεσιών αναζήτησης, δεν τις αντικατέστησαν. Ως αποτέλεσμα οι τελικοί χρήστες είχαν περισσότερες επιλογές για πρόσβαση στην πληροφορία, οι εκδότες συνέχισαν να εκδίδουν έντυπες όπως και ηλεκτρονικές πηγές πληροφόρησης, σε CD- ROM και / ή σε μορφή ηλεκτρονικών βάσεων δεδομένων για τοπική και απομακρυσμένη πρόσβαση. Λεξικά, εγκυκλοπαίδειες και πολλές άλλες πηγές πληροφόρησης άρχισαν να εμφανίζονται σε περισσότερα από ένα τυπωμένα έντυπα όπως και ηλεκτρονικά. Τις περισσότερες φορές, οι χρήστες είτε έπρεπε να αγοράσουν τις πηγές πληροφόρησης είτε να επισκεφτούν τις βιβλιοθήκες για να τις χρησιμοποιήσουν, ελεύθερα ή 9
  • 10. μέσω πληρωμής ενός αντιτίμου. Αυτή η κατάσταση συνεχίστηκε μέχρι την εμφάνιση του διαδικτύου και κυρίως του παγκόσμιου ιστού. Μέσα σε διάστημα δέκα χρόνων , ο ιστός είχε μια μεγάλη επίδραση σε όλες τις απόψεις της ζωής, κυρίως σε θέματα σχετικά με την παραγωγή, κατανομή και χρήση της πληροφορίας. Εκτός από τον καθιερωμένο όρο της ‘’βιβλιοθήκης’’ που υπήρχε εμφανίστηκαν τρεις νέοι όροι, οι οποίοι ήταν οι: ‘‘ηλεκτρονική’’, ‘‘ψηφιακή’’, ‘‘εικονική’’. ‘‘Ηλεκτρονική’’ θεωρείται η βιβλιοθήκη της οποίας το σύνολο (ή ένα μεγάλο μέρος) των καθημερινών λειτουργιών της πραγματοποιείται με την χρήση υπολογιστή. Τέτοιες λειτουργίες είναι συνήθως η καταλογογράφηση, η αναζήτηση και κυκλοφορία του υλικού, η καταγραφή και διαχείριση των χρηστών, η παραγγελία νέων αποκτημάτων, η παρακολούθηση των τευχών των περιοδικών και η εκτέλεση των παραγγελιών που έχουν προηγηθεί, η εξαγωγή στατιστικών χρήσης κλπ. Ο όρος ‘’ηλεκτρονική’’ βιβλιοθήκη αναφέρεται δηλαδή στον τρόπο διαχείρισης του υλικού, το οποίο φυσικά μπορεί να είναι και έντυπο. ‘‘Ψηφιακή’’ είναι η βιβλιοθήκη η οποία αναφέρεται στον υλικό φορέα (μορφή) του υλικού (περιεχόμενο) της συλλογής μιας βιβλιοθήκης. Το υλικό αυτό μπορεί να περιλαμβάνει τα πάντα σε ψηφιακή μορφή, περιοδικά, πολυμέσα, εκπαιδευτικά πακέτα, εγκυκλοπαίδειες, χάρτες, οδηγούς, μουσικούς δίσκους, μαγνητοσκοπημένα συνέδρια, ταινίες, συνδέσεις με ιστοσελίδες του διαδικτύου, ακόμη και βιβλία (ψηφιακά). Είναι φανερό ότι η ψηφιακή βιβλιοθήκη προϋποθέτει την ύπαρξη και λειτουργία ηλεκτρονικής βιβλιοθήκης. ‘‘Εικονική’’ είναι η βιβλιοθήκη η οποία δεν υπάρχει στην πραγματικότητα, είναι δηλ. η λεγόμενη ‘’library without walls’’. Ουσιαστικά είναι ο συνδυασμός ηλεκτρονικής και ψηφιακής βιβλιοθήκης στην περίπτωση που υπάρχουν μόνο ‘’εικονικά’’. Για παράδειγμα η εικονική βιβλιοθήκη μπορεί να περιλαμβάνει υλικό από διαφορετικές βιβλιοθήκες που είναι οργανωμένες σε ένα εικονικό χώρο χρησιμοποιώντας υπολογιστές και δίκτυα υπολογιστών. Μία βιβλιοθήκη τέτοιας μορφής είναι το NCSTRL. Από όλους τους τύπους βιβλιοθήκης που αναφέρθηκαν παραπάνω την μεγαλύτερη επιρροή σε όλες τις χώρες του κόσμου, αλλά και στην Ελλάδα την είχε η ψηφιακή βιβλιοθήκη γιατί παρείχε:  Πληροφορία στον χρήστη  Ανεπτυγμένη έρευνα και επιδέξιο χειρισμό της πληροφορίας  Ανεπτυγμένες δραστηριότητες για την διανομή των πληροφοριών  Έγκαιρη πρόσβαση στην πληροφορία  Ανεπτυγμένη χρήση της πληροφορίας  Ανεπτυγμένη συνεργασία  Μείωση του ψηφιακού χάσματος Ως αποτέλεσμα αυτής της επιρροής ήταν να δημιουργηθούν τύποι ψηφιακών βιβλιοθηκών στις Η.Π.Α. σαν τμήματα του DLI 1 και DLI2 (Digital Libraries Initiatives), αυτές που αναπτύχθηκαν στο στάδιο του προγράμματος e-lib (electronic libraries) στην Αγγλία, ψηφιακές βιβλιοθήκες που δημιουργήθηκαν από ανεξάρτητα ιδρύματα, ψηφιακές βιβλιοθήκες οι οποίες είναι μέρος των εθνικών βιβλιοθηκών, ψηφιακές 10
  • 11. βιβλιοθήκες που είναι τμήματα του Πανεπιστημίου, από χώρα προέλευσης κ.λ.π. Η γρήγορη ανάπτυξη στον τομέα των ψηφιακών βιβλιοθηκών σε όλο τον κόσμο ώθησε στην εμφάνιση ενός μεγάλου αριθμού εκδόσεων σε διαφορετικές μορφές: Communications of the ACM (Association of Computing Machinery), Journal of the American Society for Information Science, Information Processing and Management, Journal of Visual Communication and Image Representation, D-Lib Magazine και Ariadne ήταν τα πρώτα περιοδικά που βγήκαν στον τομέα των ψηφιακών βιβλιοθηκών. Τον 21 ο αιώνα έχουμε τα πρώτα βήματα αλλά και τις πρώτες υλοποιήσεις ψηφιακών βιβλιοθηκών τοπικού χαρακτήρα (κυρίως στην Αμερικάνικη Ήπειρο και σε τεχνολογικά εξελιγμένες χώρες της Ευρωπαϊκής Ένωσης). Το επόμενο βήμα ήταν να γίνει μια παγκόσμια διασύνδεση μεταξύ των ψηφιακών βιβλιοθηκών που ήδη υπήρχαν στις χώρες της Ευρώπης. Όμως, υπήρχε ένα σημαντικό πρόβλημα το οποίο ήταν η διαλειτουργικότητα ενός τέτοιου συστήματος λόγω των διαφορετικών τύπων MARC που χρησιμοποιούνταν σ’ εκείνες τις χώρες. Συνέπεια αυτού ήταν να δημιουργηθεί το πιο σημαντικό πρωτόκολλο για την τεχνολογική επικοινωνία και διάδοση πληροφοριών το Ζ39.50 καθώς και να δοθεί ιδιαίτερη έμφαση στα μεταδεδομένα : Dublin Core, METS και MODS, και RDF. Σε αυτά βασίστηκαν και τα μοντέλα τα οποία πρωτοεμφανίστηκαν στα μέσα του 20 ου αιώνα (1996 και μετά) που είναι τα εξής : CORE (1993), STARTS (1996), NCSTRL-DIENST (1998), SODA, Greenstone, Informedia I και II (1994, 2000), DSpace (2000) και στην Ελλάδα το ΑΒΕΚΤ το οποίο πρωτοχρησιμοποίηθηκε από το ΕΚΤ. Έχοντας ως βάση τα συγκεκριμένα μοντέλα δημιουργήθηκαν οι πρώτες ψηφιακές βιβλιοθήκες στην Ευρώπη και από το 2001 και μετά υπάρχει διαρκής αναβάθμισή τους και εμφάνιση νέων μοντέλων. Στην παρούσα εργασία θα αναφερθούν παλαιότερα (Core project, Starts, NCSTRL-DIENST, SODA) και νεότερα μοντέλα ψηφιακών βιβλιοθηκών (European Digital Library, Πέργαμος, Fedora, Άρτεμις) καθώς και πρωτόκολλα (Open Archives Initiative, Ζ39.50) που χρησιμοποιούνται από τα συγκεκριμένα μοντέλα. Θα αναλυθούν, επίσης, η αρχιτεκτονική καθώς και οι τεχνικές λειτουργίες του κάθε μοντέλου ξεχωριστά. 11
  • 12. Παλαιότερα μοντέλα Κεφάλαιο 1 CORE PROJECT (1993) Περίληψη  Εμφανίστηκε τέλη του 1993  Δημιουργήθηκε από την Βιβλιοθήκη Mann του Πανεπιστημίου Cornell, την ομάδα έρευνας επικοινωνίας του Bellcore, την Αμερικάνικη Χημική Κοινότητα (ACS), την Χημική Υπηρεσία Περιλήψεων (CAS), την OCLC  Είναι ερευνητικό μοντέλο  Δεν βασίστηκε σε προηγούμενο μοντέλο  Μεταδεδομένα: προσαρμοσμένη SGML ειδικά για το μοντέλο  Εφαρμογές: σε αμερικάνικα χημικά περιοδικά του Πανεπιστημίου Cornell  Τεχνικά χαρακτηριστικά: τρεις διεπαφές για τους χρήστες (OCLC, Bellcore, Pixlook) Εισαγωγή Το πρόγραμμα CORE (Πυρήνων) ήταν ένα ηλεκτρονικό πρόγραμμα συνεργασίας βιβλιοθηκών που φιλοξενήθηκε από τη βιβλιοθήκη Mann του Πανεπιστημίου Cornell. Παρείχε ηλεκτρονική πρόσβαση σε όλα τα χημικά περιοδικά της αμερικάνικης κοινωνίας (με τις σχετικές χημικές υπηρεσίες περιλήψεων που συντάσσουν ευρετήριο) που χρονολογούνται από το 1980. Έγινε ετήσια αναθεώρηση την περίοδο 1992-93 κατά την διάρκεια της οποίας η διασύνδεση του χρήστη, οι εγκαταστάσεις δικτύωσης και το πρότυπο βάσεων δεδομένων εξετάστηκαν με τη χρήση περίπου 31.000 άρθρων από 20 περιοδικά χημείας (1991-92). Η βιβλιοθήκη Mann του Πανεπιστημίου του Cornell, η έρευνα επικοινωνίας Bellcore, η Αμερικανική Χημική Κοινότητα (ACS), η Χημική Υπηρεσία Περιλήψεων (CAS) και η OCLC λειτούργησαν μαζί για την πραγματοποίηση αυτής της προσπάθειας. Οι χρήστες θα ήταν σε θέση να ψάξουν και να παρουσιάσουν το πλήρες κείμενο των περιοδικών, των γραφικών παραστάσεων και σελίδες πλήρων εικόνων, και να εκτυπώσουν υψηλής ευκρίνειας πιστά αντίγραφα από επιλεγμένα άρθρα. Το πλήρες τμήμα κειμένων της βάσης δεδομένων CORE κωδικοποιείται γενικευμένα στη πρότυπη γλώσσα SGML όπως μεταφράζεται από τα γνήσια αρχεία τυπογραφίας. Οι μεμονωμένοι αριθμοί και η γραφική παράσταση αποσπάστηκαν με αλγόριθμους από τις ανιχνευμένες εικόνες σελίδων και συνδέθηκαν με τις εικόνες στο κείμενο, επιτρέποντας στο χρήστη να παρουσιάσει μια αναπαράσταση ενώ παράλληλα βλέπει το κείμενο όπου η αναπαράσταση συζητείται. Οι πλήρεις σε σημεία εικόνες των αρχικών σελίδων είναι διαθέσιμες για την εκτύπωση (σε 300 σημεία ανά ίντσα) και για την επίδειξη στην οθόνη (σε 100 σημεία ανά ίντσα). 12
  • 13. Η πλήρης βάση δεδομένων, που αντιπροσώπευσε περισσότερες από 600.000 σελίδες του πλήρους κειμένου και της γραφικής παράστασης, ήταν το μεγαλύτερο ηλεκτρονικό σώμα του είδους της. Προγραμματισμένο για τη διαθεσιμότητα στο Πανεπιστήμιο Cornell στα τέλη του 1993, αυτή η βάση δεδομένων είναι πλέον σήμερα διαθέσιμη για χρήση από τη σχολή και τους σπουδαστές του τμήματος χημείας του Πανεπιστημίου σε ένα δίκτυο τοπικής περιοχής (αν και η αρχιτεκτονική του συστήματος CORE είναι εκτεταμένη στις ευρείς περιοχές των δικτύων). Η επιφάνεια του χρήστη και το σύστημα βάσεων δεδομένων ήταν βασισμένα σε μια αρχιτεκτονική πελατών εξυπηρετητών X-Windows που παρείχε ευελιξία για τη διανεμημένη πρόσβαση καθώς επίσης και για τη πρόσβαση στο δίκτυο τοπικής περιοχής. Η εφαρμογή των επιφανειών εργασίας του χρήστη στα X-Windows επέτρεψε τη χρήση του συστήματος σε ποικίλες πλατφόρμες υλικού. Αυτή η δυνατότητα να λειτουργήσει στις πλατφόρμες υλικού είναι ένα σημαντικό πλεονέκτημα του λογισμικού X-Windows. Ενότητα 1 η Αρχιτεκτονική Το σύστημα Core βασίστηκε στην αρχιτεκτονική πελάτη-εξυπηρετητή, Unix που λειτουργεί στο Τμήμα Χημείας του Πανεπιστημίου Cornell, που είναι συνδεδεμένο με έναν εξυπηρετητή στην βιβλιοθήκη Albert Mann. Το ερευνώμενο κείμενο και τα εξαγόμενα γραφικά καταχωρήθηκαν στο μαγνητικό τμήμα του υπολογιστή που αποθήκευε τα δεδομένα για γρήγορη εύρεση. Η OCLC προμήθευσε τη μηχανή ανάκτησης Newton, η οποία υποστήριζε μια ποικιλία από προϊόντα βάσεων δεδομένων και αναφορών της OCLC και η οποία εξυπηρετούσε τη μηχανή βάσεων δεδομένων και για τις δύο επιφάνειες χρηστών που εγκαταστάθηκαν στο σύστημα. Το Newton ήταν ένα σύστημα βάσης δεδομένων πελάτη- εξυπηρετητή που υποστήριζε ουσιαστική λειτουργικότητα από τις απόψεις σχεδιασμού δεδομένων και δικτύου. Το σχέδιο Core ήταν μοναδικό στην παροχή πληροφοριακών πηγών, και στο ότι ήταν ικανό να συγκρίνει αποτελέσματα. Παρακάτω παρατίθενται τα στοιχεία του συστήματος που δείχνουν τη ροή της πληροφορίας από τους προμηθευτές της Αμερικάνικης Κοινότητας Χημικών (A.C.S) και της Υπηρεσίας Περιλήψεων Χημείας (C.A.S), πρώτα στα αρχεία της μηχανής αναζήτησης OCLC Newton, και μετά στους χρήστες (σχ.1). 13
  • 15. 1.1. Οι συλλογές του Project Core Η πιο σημαντική περιουσία μιας ηλεκτρονικής βιβλιοθήκης όπως και μιας απλής βιβλιοθήκης, είναι η συλλογή της 1 . Η επιλογή ποιοτικού υλικού είναι το πιο σημαντικό χαρακτηριστικό. Άχρηστο υλικό ακόμα και αν παρουσιάζεται ωραιοποιημένο παραμένει πάλι άχρηστο. Συνεντεύξεις με χημικούς του Πανεπιστημίου Cornell έδειξαν τα πρωτογενή περιοδικά σαν την πιο σημαντική πηγή.·Το σχέδιο Core, λοιπόν, κατάφερε να αποκτήσει το υλικό του από την Αμερικάνικη Κοινότητα Χημικών (American Chemical Society, A.C.S.). Η Αμερικάνικη Κοινότητα Χημικών δημοσιεύει περιοδικά χημείας υψηλού κύρους στις Η.Π.Α, και τα περιοδικά της είναι η κύρια πηγή για τη χημική έρευνα. Τα 20 πρώτα περιοδικά που δημοσιεύτηκαν στην αρχή του σχεδίου ήταν τα εξής : Accounts of Chemical Research, Analytical Chemistry, Biochemistry, Chemistry of Materials, Chemical Research in Toxicology, Chemical Reviews, Energy and Fuels, Environmental Science & Technology, Inorganic Chemistry, Industrial & Engineering Chemistry, J. Agricultural and Food Chemistry, J. American Chemical Society, J. Chemical Engineering Data, J. Chemical Information & Computer Science, J. Medicinal Chemistry, J. Organic Chemistry, J. Physical Chemistry, Langmuir, Macromolecules, and Organometallics. 1.2. Στόχοι τ o υ Project Core Το σχέδιο CORE είχε πέντε στόχους: 1. Να προσδιορίσει μια εφαρμόσιμη αρχιτεκτονική για διανομή πληροφοριών πλήρους κειμένου σε ένα συνεισφερόμενο δικτυακό περιβάλλον με διαφορετικούς σταθμούς εργασίας 2 . 2. Να μετατρέψει και να καταχωρήσει αρκετό όγκο δεδομένων χημικών περιοδικών σε μία μορφοποιημένη βάση δεδομένων κατάλληλη για εύκολη διανομή και παρουσίαση. 3. Να μελετήσει τα στοιχεία για λειτουργικότητα της επιφάνειας εργασίας πλήρους κειμένου που είναι απαραίτητα για εξυπηρέτηση των αναγκών των υποτρόφων σε ένα δικτυακό περιβάλλον διανομής εγγράφου. 4. Να αναπτύξει την κατανόηση της κατάλληλης μορφοποίησης κειμένου για τις ηλεκτρονικές βάσεις δεδομένων πλήρους κειμένου. 5. Να ερευνήσει πληροφορίες διανομής ερωτήσεων σχετικών με την επερχόμενη εποχή της διανομής πλήρους κειμένου. 1 Miksa, 1994. 2 σταθμός εργασίας: ορ.1 συνδυασμός υλικού εισόδου, εξόδου, και επεξεργασίας , που μπορεί να χρησιμοποιηθεί από ένα άτομο για εκτέλεση εργασιών. ορ.2 μικροϋπολογιστής ή τερματικό, συνδεδεμένα σε δίκτυο. 15
  • 16. 1.3. Σχεδιασμός βάσης δεδομένων και χρήση Ο σχεδιασμός βάσης δεδομένων και η λειτουργικότητα της διεπαφής με τον χρήστη είναι άρρηκτα συνδεδεμένα. Ο αποτελεσματικός σχεδιασμός της βάσης δεδομένων πρέπει να έχει πληροφορηθεί για την επιθυμητή λειτουργικότητα της επιφάνειας εργασίας και η λειτουργικότητα της επιφάνειας εργασίας έχει περιοριστεί από τους πρακτικούς περιορισμούς της δομής της βάσης δεδομένων. Αντίθετα, έγινε σύγκριση των διαφορετικών επιφανειών εργασίας, χωρίς να χρειαστεί ευρετηρίαση πανομοιότυπων αρχείων. Γι’ αυτό και κρίθηκε απαραίτητο, ο σχεδιασμός της βάσης δεδομένων να είναι χρησιμοποιήσιμος. Κωδικοποιήθηκαν τρεις επιφάνειες εργασίας, οι οποίες είχαν σαν βάση το σύστημα των παραθύρων X-Windows οι οποίες ήταν: η Scepter OCLC (SCientific Electronic Publishing and TExt Retrieval interface), η Pixlook (image interface) και η Bellcore Superbook (Bellcore Superbook interface). 1.4. Μηχανή αναζήτησης Newton H μηχανή αναζήτησης Newton σχεδιάστηκε και τέθηκε σε εφαρμογή από την OCLC για πρόσβαση στη δενδρική δομή των δεδομένων ίσης πολυπλοκότητας. Η μηχανή αναζήτησης μπορούσε να χρησιμοποιηθεί σαν βάση ενός πλήρους λειτουργικού συστήματος απόκτησης πληροφοριών για αυτούσια δομικά δεδομένα και εικόνες. Το κείμενο στα δεδομένα CORE επισημάνθηκε στη γλώσσα επισήμανσης SGML, αλλά κάθε τυπική γλώσσα επισήμανσης μπορεί να χρησιμοποιηθεί για να προσδιορίσει τη διαδικασία για σχεδίαση και δημιουργία της μηχανής αναζήτησης βάσης δεδομένων. Δυνατότητες αναζήτησης / Ξεφυλλίσματος Η μηχανή αναζήτησης Newton παρείχε δυνατότητες εκτενής αναζήτησης συμπεριλαμβάνοντας ανάκτηση λέξεων-κλειδιών και τελεστών Boolean όπως και εγγύτητα και ανάκτηση περιορισμένων ομάδων. Η αναζήτηση ανά σειρά, περικοπή 3 , και η αναζήτηση ‘‘άτακτων’’ καρτελών υποστηρίζονται πλήρως. Όλα τα ευρετήρια βάσεων δεδομένων είναι εύκολο να εντοπιστούν. Επειδή υπάρχει μια καλά προσδιορισμένη εφαρμογή προγραμματιστή διασύνδεσης στη μηχανή αναζήτησης Newton, μια ποικιλία από διασυνδέσεις με τον χρήστη μπορούν να δημιουργηθούν για να χρησιμοποιήσουν τη μηχανή αναζήτησης. Αυτό βοήθησε στην υποστήριξη και της Pixlook του Bellcore και της SCEPTER της OCLC σε μία βάση δεδομένων. 3 περικοπή (truncation) : βιβλιοθηκονομικά είναι η αποκοπή μιας λέξης προκειμένου να ανακτηθούν περισσότερα δεδομένα κατά την αναζήτηση κυρίως όταν ο τίτλος που αναζητείται είναι πολύ μεγάλος για να εισαχθεί στην μηχανή αναζήτησης. 16
  • 17. Πλεονεκτήματα μηχανής αναζήτησης Newton Δύναμη και ευκαμψία του συστήματος ευρετηρίασης. Τα συστήματα ευρετηρίασης οδηγούνται από μία βάση δεδομένων περιγραφής αρχείου. Αυτό το αρχείο περιλαμβάνει πληροφορίες που περιγράφουν τη δομή των εισαγόμενων δεδομένων των εγγραφών και τους κανόνες για ευρετηρίαση σε καθένα από τα πεδία της εγγραφής. Η γλώσσα στη βάση δεδομένων περιγραφής αρχείου συλλέχτηκε από τα προγράμματα ευρετηρίασης στους πίνακες που καταχωρήθηκαν από μόνα τους στα αρχεία βάσεων δεδομένων και χρησιμοποιήθηκαν για να οδηγήσουν στην αρχική φόρτωση των δεδομένων και σε όλες τις μεταγενέστερες αναβαθμίσεις και προσθήκες στη βάση δεδομένων. Μπορεί να αναγνωρίσει και φυσικές και λογικές εικόνες βάσεων δεδομένων. Μια λογική βάση δεδομένων μπορεί να γίνει αρκετά μεγάλη στην διάταξη εκατοντάδων εκατομμυρίων όρων και εκατομμυρίων εγγραφών. Μια λογική βάση δεδομένων είναι ένας ειδικός τρόπος ομαδοποίησης μικρών, και πιο εύχρηστων, φυσικών καταχωρήσεων βάσεων δεδομένων έτσι ώστε να παρουσιάζονται σαν μία μονάδα από την πλευρά του αναζητούμενου. Αυτό επιτρέπει στη βάση δεδομένων να αναπτύξει ένα απεριόριστο μέγεθος μέσω μιας απλής μεθόδου προσθήκης επιπλέον καταχωρήσεων. Μειονεκτήματα μηχανής αναζήτησης Newton Υπάρχει ένα μεγάλο εύρος ειδίκευσης χρηστών, και πολλοί χρήστες δεν γνωρίζουν αρκετά για την αναζήτηση με τελεστές Boolean. Η εφαρμογή Scepter βασίστηκε κυρίως σε καταλόγους οπτικών επιλογών (menu) για να επιλέξουν περιοδικά ή χρονολογίες, ώστε να αποφύγουν τον εξαναγκασμό των χρηστών στην εκμάθηση γραφής τέτοιων πολύπλοκων εκφράσεων γλώσσας. Η βάση δεδομένων ήταν πολύ μεγάλη, και ήταν εύκολο να γραφτεί ένα επερώτημα που ανακτά έναν αρκετά μεγάλο αριθμό ντοκουμέντων. Μία πιθανότητα μείωσης αυτού του αριθμού ήταν η χρήση σχετικών επανατροφοδοτήσεων 4 για να κάνουν αυτόματη διόρθωση. 4 επανατροφοδότηση (feedback) : περίπτωση κατά την οποία στοιχεία, που προήλθαν από μια πρώτη φάση επεξεργασίας ενός προγράμματος, εισάγονται και πάλι σε άλλη φάση επεξεργασίας του ίδιου προγράμματος, για να τροποποιηθούν ή να διορθωθούν οι παράγοντες που προήλθαν από την πρώτη φάση. 17
  • 18. 1.5. Διεπαφές που χρησιμοποιήθηκαν Οι προκαταρκτικές μελέτες χρηστών πραγματοποιήθηκαν στο Πανεπιστήμιο του Cornell πριν από την εγκατάσταση της πλήρους βάσης δεδομένων και της απελευθέρωσης του λογισμικού ενδιαμέσων με τον χρήστη στο τμήμα χημείας του Cornell. Οι χρήστες δοκιμής ήταν έντεκα εθελοντές, κατά ένα μεγάλο μέρος διαβαθμισμένοι σπουδαστές στο τμήμα χημείας. Οι περισσότεροι είχαν κάποια προγενέστερη εμπειρία σε μία ή άλλη εφαρμογή ηλεκτρονικών πληροφοριών. Από τις παραπάνω μελέτες που έγιναν τρεις διεπαφές ήταν διαθέσιμες στους χρήστες του συστήματος CORE: 1. Η OCLC και 2. η Bellcore είχαν πλήρως ανεπτυγμένες τις διεπαφές κειμένων που επαναμορφοποίησαν χαρακτηρισμένο το SGML κείμενο για την επίδειξη οθόνης και που επέτρεψαν στους χρήστες να παρουσιάσουν τη σχετική γραφική παράσταση με την επιλογή μιας εικόνας μέσα στο κείμενο. 3. Η διεπαφή Pixlook του Bellcore χρησιμοποιήθηκε σε αυτές τις προκαταρκτικές δοκιμές. Το Pixlook ενσωμάτωσε ένα απλό πρότυπο που επέτρεψε στους χρήστες να εκδώσουν τις ερωτήσεις έναντι ενός πλήρους κειμένου μιας δομημένης βάσης δεδομένων, αλλά που αυτό όμως θα επιδείκνυε μόνο τις εικόνες σελίδες των ανακτημένων άρθρων. Κατά συνέπεια, οι χρήστες δεν είχαν την πλήρη λειτουργία επίδειξης κειμένων που θα ήταν διαθέσιμη στο ενδιάμεσο με τον χρήστη του SCEPTER OCLC (σχ.2) και το ενδιάμεσο με τον χρήστη Superbook Bellcore.Το πρότυπο Pixloook ήταν σημαντικό, εντούτοις, γιατί αντιπροσώπευε την πιο οικονομική προσέγγιση αφού παρείχε τα προηγουμένως δημοσιευμένα έγγραφα στον ηλεκτρονικό κόσμο, μια προσέγγιση που ήταν σημαντική και διαδεδομένη ως «τεχνολογία γεφύρωσης». Αυτές οι μελέτες αποκάλυψαν τις ενδιαφέρουσες δυνάμεις και αδυναμίες του ηλεκτρονικού μέσου. Μερικές από τις αδυναμίες υπέστησαν διόρθωση, αλλά άλλες ήταν δύσκολο να υπερνικηθούν λόγω των περιορισμών της τότε τρέχουσας τεχνολογίας. σχ.2. Παράδειγμα SCEPTER OCLC. 18
  • 19. Ενότητα 2 η Τεχνικά θέματα 2.1. Πρόσκτηση δεδομένων μέσω ASCII Τα δεδομένα που εισέρχονται σε ASCII 5 παρέχονται σε μια μορφοποιημένη παρουσίαση από την Αμερικάνικη Κοινότητα Χημικών. Σε αυτό το μορφότυπο, αριθμημένες αναγραφές πεδίων κωδικοποιούν μια ποικιλία από τύπους δεδομένων : ISSN, τίτλο, προτάσεις, υπότιτλο, και άλλα παρόμοια. Χρησιμοποιείται ένα ειδικό χαρακτηριστικό σύνολο, ξεχωριστά. Τα μορφότυπα δεικτών A.C.S, οι εκθέτες, και οι αλλαγές γραμματοσειρών έχουν κωδικοποιηθεί στο σύνολο των χαρακτήρων. Η ACS επίσης χρησιμοποιεί διαφορετικούς τύπους παρουσίασης μεταδεδομένων : μερικές αναφορές παραπομπών σημειώνονται με ##- περιορισμένες πηγές, και οι προσκτήσεις έχουν τελείως διαφορετικό φορμάρισμα συστήματος στο κείμενο. Η ACS 6 ήταν ένας από τους αρχηγούς στην γραφή σε Η/Υ στα πρωτογενή περιοδικά πριν από 20 χρόνια, και αυτό το μορφότυπο, παρόλο που δεν ακολουθεί τη φιλοσοφία της σύγχρονης γλώσσας επισήμανσης SGML (Standard Generalized Markup Language), ήταν αποτελεσματικό για την λειτουργία της βάσης δεδομένων τους. Τα κατάλληλα μαρκαρισμένα δεδομένα της ACS αναπαριστούν τη δομή των δεδομένων σαν μέθοδο έκφρασης της δομής και διάταξης των εγγραφών σε αντίθεση με τα συνηθισμένα ηλεκτρονικά συστήματα τυπογραφίας της εκδοτικής βιομηχανίας. Για να παραχθεί μια μοναδική φορητή βάση δεδομένων που συμβιβάζεται με τα σύγχρονα πρότυπα και για να απλοποιηθούν τα προβλήματα κατασκευής λογισμικού έγινε μετατροπή των κατάλληλων μαρκαρισμένων δεδομένων στη γλώσσα επισήμανσης SGML. Η SGML είναι πρότυπο της ISO για την περιγραφή του κειμένου σε αναγνώσιμη μορφή από μηχανή, και της μετατροπής του βοηθώντας το να τροφοδοτεί τα συστήματα λογισμικού που μπορούν να τοποθετούν βάσεις δεδομένων ευρείας επισκόπησης και διαφορετικών πηγών 7 . Το κείμενο CORE έχει μεταφραστεί από τη Bellcore από τα δομημένα αρχεία της ACS στην SGML γλώσσα. Η τελευταία χαρακτηριστική έκδοση του κειμένου μετέπειτα χρησιμοποιήθηκε για να δημιουργηθεί η βάση δεδομένων Newton που εξυπηρετεί τις πολλαπλές επιφάνειες εργασίας στο σχέδιο. Ο χαρακτηρισμός αυτής της βάσης δεδομένων είναι σημαντικός: προσδιορίζει τη δομή της βάσης δεδομένων και διαφοροποιεί στοιχεία εγγράφου για τους σκοπούς της οπτικής παρουσίασης. Ο χαρακτηρισμός 5 ASCII (American Standard Code for Information Interchange): ο δυαδικός κώδικας που χρησιμοποιήθηκε για να αναπαριστά έναν χαρακτήρα σε έναν η/υ. Υπάρχει ένας αριθμός από πρότυπους κώδικες όπως ISO7, EBCDIC κ.α. 6 Η υπηρεσία χημικών περιλήψεων (Chemical Abstract Service,CAS), ένα περιφερειακό τμήμα της Αμερικάνικης Χημικής Κοινότητας (American Chemical Society ACS), περιλαμβάνει τον εκδότη των πρωτογενών περιοδικών. Η ACS κρατάει τη βάση δεδομένων σε ακρίβεια και είναι συνδεδεμένη στον ακριβή αριθμό σελίδων περιοδικών. Για το σχέδιο CORE, η CAS παρέχει το αντίστοιχο ευρετήριο δεδομένων για κάθε άρθρο έτσι ώστε οι χρήστες να μπορούν και εκείνοι να αποκτούν πληροφορίες μέσω της μηχανής αναζήτησης δεδομένων Χημικών Περιλήψεων. 7 Coombs, 1987. 19
  • 20. της SGML επιτρέπει τις επιφάνειες εργασίας να ψάχνουν για συγκεκριμένα μέρη εγγράφου. Η χρήση της SGML αναβαθμίζει σε μεγάλο βαθμό τη λειτουργικότητα μιας βάσης δεδομένων, αλλά ο προσδιορισμός της δομής της βάσης απαιτεί μία λεπτομερή κατανόηση της λειτουργικότητας που θα απαιτήσει η διασύνδεση με τον χρήστη. Η κυριότερη δραστηριότητα του σχεδίου CORE κατά τη διάρκεια του έτους 1993 ήταν ένα συνεργαζόμενο, επαναλαμβανόμενο καθάρισμα του μοντέλου της βάσης δεδομένων έτσι ώστε ολόκληρη η βάση δεδομένων του CORE να μπορεί να εξυπηρετεί τις ανάγκες που χαρακτηρίζουν τις μελέτες των προηγούμενων χρηστών καθώς και αναβαθμίσεις που έχουν προστεθεί. Ένα έγγραφο SGML αποτελείται από κείμενο που είναι μαρκαρισμένο με περιγραφικές ετικέτες 8 που προσδιορίζουν την λειτουργία ενός διδόμενου στοιχείου μέσα στο ντοκουμέντο. Σαν κύρια γλώσσα ερμηνείας, ένα έγγραφο SGML μπορεί να αναλυθεί, ενώ ένα Έγγραφο Ορισμού Τύπου (Document Type Definition , DTD) προσδιορίζει ποια στοιχεία επιτρέπονται και που μέσα στο έγγραφο μπορούν (ή πρέπει) να υπάρχουν. Αυτός ο φορμαρισμένος χάρτης της δομής του άρθρου, επιτρέπει στον σχεδιασμό της διασύνδεσης με τον χρήστη να αποσυνδεθεί από το υποκείμενο σύστημα βάσης δεδομένων, ένα σημαντικό βήμα προς την διαλειτουργικότητα. Η μετατροπή της SGML παρουσιάζει κάποια δυσκολία. Για παράδειγμα, στην παρουσίαση χαρακτήρων που χρησιμοποιήθηκαν οι αλλαγές στην έκδοση της γραμματοσειράς του συστήματος ACS και η θέση της γραμμής βάσης 9 χρησιμοποιήθηκαν στο σύνολο χαρακτήρων απ’ ότι στις ετικέτες. Γι’ αυτό αργότερα έγινε μετατροπή αυτού του μηχανισμού σε ετικέτες SGML (δηλ. σε κωδικούς που προσδιορίζουν ένα στοιχείο σε ένα έγγραφο π.χ. μια επικεφαλίδα ή μια παράγραφο που διευκολύνει την μορφοποίηση και την ευρετηρίαση και τη σύνδεση των πληροφοριών στο έγγραφο) 10 . 8 περιγραφικές ετικέτες (descriptive tags) : περιέχουν πληροφορίες για μία εγγραφή, ένα αρχείο ή μια άλλη δομή. 9 γραμμή Βάσης (baseline) : στην εκτύπωση και στην απεικόνιση χαρακτήρων σε οθόνη, μια φανταστική οριζόντια γραμμή με την οποία ευθυγραμμίζεται η βάση κάθε χαρακτήρα (χωρίς τις κάτω πατούρες), π.χ. Μ ά γ μ α γραμμή βάσης κάτω πατούρα 10 Ουσιαστικά αυτές οι ετικέτες είναι ένα ζεύγος γωνιακών αγκυλών που περιέχουν ένα ή περισσότερα γράμματα ή αριθμούς το οποίο τοποθετείται πριν από το προς επισήμανση στοιχείο και ένα άλλο ζεύγος μετά το στοιχείο ώστε να δηλώνεται που αρχίζει και που τελειώνει το στοιχείο. Παραδ. σε HTML το <ΙΤ>καλημέρα</ΙΤ> σημαίνει ότι το ‘‘καλημέρα’’ θα εμφανιστεί με πλάγιους χαρακτήρες (italics). 20
  • 21. Κεφάλαιο 2 Informedia I Περίληψη  Εμφανίστηκε το 1994  Δημιουργήθηκε από το Πανεπιστήμιο Carnegie Mellon σε συνεργασία με τις Επικοινωνίες QED  Είναι εμπορικό μοντέλο  Δε βασίστηκε σε κάποιο άλλο μοντέλο  Μεταδεδομένα: XML, XML Schema 11 , XSLT 12 (XSL 13 Transformations), SMIL , Dublin Core Metadata Initiative  Εφαρμογές: Τηλεοπτικό κανάλι Discovery, CNN  Τεχνικά χαρακτηριστικά: εύχρηστη διεπαφή εργασίας χρήστη, επιταχυνόμενη επισκόπηση βίντεο (video skimming), εισαγωγή συστήματος pay-per-view για προστασία δεδομένων Εισαγωγή Ο πρωταρχικός στόχος του Informedia ήταν να επιτύχει τη μηχανική κατανόηση των οπτικών μέσων, όπως του βίντεο και του φίλμ γεγονός που περιλαμβάνει όλες τις πτυχές της αναζήτησης, ανάκτησης, οπτικοποίησης, και δημιουργίας περιλήψεων για συλλογές από πρόσφατο και αρχειακό περιεχόμενο. Οι ερευνητικές προσπάθειες που εντάχτηκαν στο πρόγραμμα Informedia περιελάμβαναν το Informedia I, II καθώς και το Multilingual και το NSDL 14 ενώ παράλληλα αναπτύχθηκαν και άλλες προσπάθειες όπως το VACE 15 , το CCRHE 16 , το CareMedia που εφαρμόστηκαν σε άλλους τομείς εκτός των βιβλιοθηκών. Τα συγκεκριμένα ερευνητικά προγράμματα αναπτύχθηκαν σε διαφορετικές χρονικές περιόδους, με πρώτο το Informedia I. 11 XML Schema: εκφράζει διανεμημένα λεξιλόγια που προσδιορίζουν τις αντιστοιχίες των εγγράφων XML 12 XSLT (XSL Transformations): γλώσσα μετατροπής των εγγράφων XML. 13 SMIL (Synchronized Multimedia Integration Language) 14 NSDL (National Science Digital Library) 15 VACE (Video Analysis and Content Exploitation) : περαιτέρω αναβάθμιση του βίντεο του Informedia. 16 CCRHE (CapturingCoordinating and Remembering Human Experience): πρόγραμμα που βασίστηκε στο Informedia. 21
  • 22. Ενότητα 1 η Αρχιτεκτονική 1.1. Επισκόπηση Συστήματος Το Informedia I (σχ. 3) που αναπτύχθηκε το 1994, αποτελεί συνεργασία του Πανεπιστημίου Carnegie Mellon με την εταιρεία QED Communications και ήταν μία από τις έξι προσπάθειες δημιουργίας ψηφιακής βιβλιοθήκης στις Η.Π.Α από το National Science Foundation (NSF) με παράλληλη χρηματοδότηση από τη NASA και την DARPA (Defense Advanced Research Project Agency). Η βασική τεχνολογία του Informedia ήταν ο συνδυασμός της κατανόησης λόγου, εικόνας και φυσικής γλώσσας που βρίσκουν εφαρμογή στην αυτόματη μεταγραφή, τμηματοποίηση και ευρετηρίαση των γραμμικών βίντεο με σκοπό την έξυπνη αναζήτηση και ανάκτηση εικόνων. σχ.3. Παρουσίαση συστήματος Informedia. Στη συνέχεια αναπτύχθηκε την περίοδο 1997-2000 από την ερευνητική ομάδα του προγράμματος, το Multilingual Informedia. Στόχος του συγκεκριμένου προγράμματος ήταν η ανάπτυξη ενός αυτοματοποιημένου συστήματος και των εργαλείων του που θα επέτρεπε την σύλληψη, αναζήτηση, ανάκτηση τη δημιουργία περίληψης και επαναχρησιμοποίησης πολύγλωσσων πολυμεσικών δεδομένων. Το πρόγραμμα αυτό χρηματοδοτήθηκε από την DARPA, την SPAWAR (Space and Naval Warfare Systems) και από την NRaD (Naval Research and Development). Η υποδομή της Ψηφιακής Βιβλιοθήκης που άρχισε να δημιουργείται με το Informedia I συνεχίστηκε και ολοκληρώθηκε το 2000 με το Informedia II 17 . 17 Θα παρουσιαστεί αναλυτικότερα στα επόμενα κεφάλαια. 22
  • 23. Το πρόγραμμα αυτό επιζητά να βελτιώσει τις τεχνικές εξαγωγής, δημιουργίας περίληψης, της οπτικοποίησης και της παρουσίασης των κατανεμημένων βίντεο για την αυτόματη παραγωγή ‘‘collage’’ και ‘‘αυτόματων τεκμηρίων’’ τα οποία συνοψίζουν τις πληροφορίες από οπτικά και ηχητικά μέσα καθώς και από εικόνες και κείμενο σε μία μοναδική περίληψη. Την αρχική συλλογή της Ψηφιακής Πολυμεσικής Βιβλιοθήκης του Informedia αποτέλεσαν βίντεο από τα αρχεία του WQED 18 (QED Comunications) και από το Ανοιχτό Βρετανικό Πανεπιστήμιο. Η τρέχουσα συλλογή περιλαμβάνει ντοκιμαντέρ και γενικές ειδησεογραφικές μαγνητοσκοπήσεις από διάφορες πηγές, όπως είναι το αμερικάνικο κανάλι CNN το οποίο είναι ένα από τα μεγαλύτερα τηλεοπτικά και ραδιοφωνικά δίκτυα ή το Discovery (σχ. 4). Σε γενικές γραμμές η λειτουργία και η αποτελεσματικότητα των υπηρεσιών της βιβλιοθήκης και συνεπώς των τεχνικών που έχουν εισαχθεί σε αυτήν βασίζεται σε δύο βασικές λειτουργίες: της μεταγραφής (transcribe) 19 και της τμηματοποίησης 20 των βίντεο. σχ.4. Παρουσίαση 12 τεκμηρίων που εμφανίστηκαν στην αναζήτηση που έγινε με βάση το φαινόμενο ‘‘El Niňo’’. 1.2. Μεταγραφή και τμηματοποίηση βίντεο Αρχικά, το βίντεο καθώς εισάγεται στην βιβλιοθήκη υφίσταται επεξεργασία από ένα σύστημα αναγνώρισης λόγου, το οποίο δρα ανεξάρτητα από τον 18 WQED : τηλεοπτικός σταθμός του PBS που βρίσκεται στο Πίτσμπουργκ της Πενσυλβάνια (Η.Π.Α). Ήταν ο πρώτος τηλεοπτικός σταθμός (1954) που δημιουργήθηκε σε κοινότητα των Η.Π.Α. 19 αντιγραφή ή μεταγραφή (transcribe): αποτελεί τμήμα της αναγνώρισης λόγου. Όυσιαστικά είναι η διαδικασία με την οποία ένα σύστημα αναγνώρισης λόγου ακούει μία ομιλία που έχει γραφτεί από πριν και έπειτα το συγκεκριμένο σύστημα εισάγει τις αναγνωρίσιμες λέξεις σε ένα έγγραφο για μετέπειτα διόρθωση. 20 τμηματοποίηση: η κατάτμηση του βίντεο σε ανεξάρτητες εννοιολογικές παραγράφους. 23
  • 24. εκφωνητή του βίντεο. Ο ομιλητής μπορεί, δηλαδή, να είναι από εκφωνητής ειδήσεων ή δημοσιογράφος ως και ένας απλός πολίτης ή ερευνητής ή εργαζόμενος σε κάποια εταιρία, με ότι συνεπάγεται την πληθώρα των περιστάσεων, όσον αφορά τις διάφορες προφορές και το επίπεδο καλλιέργειας της γλώσσας. Ο αναγνωριστής λόγου μεταγράφει αυτόματα το ηχητικό μέρος (soundtrack) του βίντεο, το οποίο στη συνέχεια αποθηκεύεται σε ένα σύστημα ανάκτησης πληροφοριών πλήρους περιεχομένου. Η βάση δεδομένων που συνεπώς δημιουργείται από την καταγραφή του ηχητικού τμήματος πολυάριθμων βίντεο, επιτρέπει την γρήγορη ανάκτηση ξεχωριστών παραγράφων. Οι παράγραφοι αυτοί δημιουργήθηκαν από την κατάτμηση των βίντεο και η ανάκτησή τους βασίζεται στο ηχητικό τμήμα και στο ερώτημα που θέτει ο χρήστης. 1.3. Προστασία δεδομένων Ένα πρόβλημα που διευθετήθηκε στην αρχική έκδοση ήταν η προστασία των δεδομένων και του πνευματικού εμπορίου της πνευματικής κληρονομιάς και γι’ αυτό τον λόγο στις εμπορικές εκδόσεις του συστήματος εισήχθηκε το σύστημα pay-per-view. Η ουσία του συστήματος αυτού είναι ότι ο χρήστης πληρώνει ανάλογα με τα δεδομένα που ανακτά, την ποιότητά τους και τον προμηθευτή από τον οποίο παρέχονται. 1.4. Multilingual Informedia Εισαγωγή Σταθμό στην πορεία της Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Carnegie Mellon αποτέλεσε το πρόγραμμα Multilingual. Σκοπός του ήταν η διερεύνηση των πολυμεσικών πληροφοριακών πηγών σε ειδησεογραφικά δεδομένα που προέρχονται από άλλες χώρες. Οι ουσιαστικές αλλαγές που επήλθαν ήταν: Ευρετηριάσεις πλήρους κειμένου, έρευνας και ανάκτησης κειμένου, τεκμηρίων ήχου και βίντεο μέσω συνδεόμενων τεχνικών αναγνώρισης ομιλίας και νέας στατιστικής επεξεργασίας της φυσικής γλώσσας. Πρόσβαση πολύγλωσσων εγγράφων μέσω επερωτήσεων στην αγγλική ή σε άλλες γλώσσες. Αγγλικές επερωτήσεις συνδυάζονται με μετάφραση αντιστοιχιών επέκτασης σε κάθε στοχευμένη γλώσσα (Γερμανικά, Σερβο-Κροατικά, και σαν επιλογή άλλες γλώσσες των συμμαχικών δυνάμεων συμπεριλαμβανομένων των Γαλλικών, Ιταλικών, Ισπανικών, Ιαπωνικών, Κορεάτικων). Ένα λογισμικό μετάφρασης του οποίου η λειτουργία βασίζεται σε λέξεις-κλειδιά, μετατρέπει τα διατυπωμένα σε αγγλική γλώσσα ερωτήματα στην σερβο-κροατική γλώσσα επιτρέποντας την αναζήτηση για ισοδύναμες λέξεις σε μία γενική συλλογή αγγλικών και σερβοκροατικών ειδησεογραφικών αναμεταδόσεων. 24
  • 25. Θεματικές επικεφαλίδες στα αγγλικά για την σερβοκροατική ειδησεογραφία επιτρέπουν στον χρήστη να αναγνωρίζει αντίστοιχο ρεπορτάζ στην ξένη γλώσσα. Τμηματοποίηση βίντεο, ευρετηρίαση και περίληψη σε νοηματικά και ευρετηριασμένα τμήματα, κατανοητές περιλήψεις γρήγορης επισκόπησης, εργαλεία για εξαγωγή, επεξήγηση, και επαναχρησιμοποίηση του σχεδιαζόμενου περιεχομένου. Γενικός σκοπός του προγράμματος ήταν η ανάπτυξη αυτοματοποιημένων συστημάτων και εργαλείων που θα επέτρεπαν την πολύγλωσση και πολυμεσική σύλληψη πληροφοριών καθώς και την αναζήτηση, ανάκτηση, περιληπτική παρουσίαση και την επαναχρησιμοποίησή τους. Το σύστημα αυτό δημιουργήθηκε με βάση την τεχνολογία και την επικείμενη υποδομή της Ψηφιακής Βιβλιοθήκης του Informedia. Στον χρήστη παρεχόταν πλέον η δυνατότητα προσπέλασης γραπτών, ηχητικών και οπτικών πληροφοριών όπως και στην αρχική έκδοση της βιβλιοθήκης με την διαφορά ότι πλέον οι πληροφορίες διατίθονταν σε μία ή και περισσότερες γλώσσες. Ακόμα, το σύστημα χρησιμοποιούσε τεχνικές για την ευρετηρίαση, την κατηγοριοποίηση, και την ανάλυση πληροφοριών χωρίς να αντιμετώπιζε γλωσσικούς περιορισμούς. Αρχικά, οι ερευνητές του προγράμματος επικεντρώθηκαν στην σερβοκροάτικη γλώσσα για να αποδείξουν την βιωσιμότητα και την πρακτικότητα του προτεινόμενου εγχειρήματος. Ενότητα 2 η Τεχνικά θέματα 2.1. Αναβαθμίσεις λογισμικού του Informedia I Μία από τις καινοτομίες που εισήχθησαν στην ψηφιακή βιβλιοθήκη του Informedia ήταν ότι μέσω της διεπιφάνειάς της ο χρήστης μπορούσε να εισάγει τόσο γραπτά όσο και προφορικά ερωτήματα προς το σύστημα. Μία δεύτερη καινοτομία του συστήματος ήταν η διαδικασία που αναφερόταν ως video skimming (επιταχυνόμενη επισκόπηση βίντεο). Η διαδικασία αυτή επέτρεψε την επιταχυνόμενη επισκόπηση του βασικού βίντεο και των ηχητικών ακολουθιών του από τον χρήστη. Για τη διαδικασία αυτή δημιουργήθηκε μια περίληψη του βίντεο η οποία απέδιδε την ουσία του περιεχομένου στο 5 έως 20% του αρχικού χρόνου, ενώ παλαιότερα απλά αυξανόταν ο ρυθμός που έτρεχε το βίντεο χωρίς αυτό να διευκολύνει ουσιαστικά τον χρήστη. 2.2. Multilingual Informedia 25
  • 26. 2.2.1. Καινοτομίες Μία καινοτομία που εισήχθη στο Multilingual Informedia είναι ότι πλέον επιτεύχθηκε η συνεργασία αποσπασμένων ως τώρα περιοχών έρευνας. Η συγκεκριμένη καινοτομία περιλαμβάνει τον αναγνωριστή λόγου- ανεξάρτητου εκφωνητή, την ανάκτηση κειμένου και απευθείας περίληψη, την μηχανική μετάφραση, την επεξεργασία εικόνας, την αυτόματη σύλληψη και ψηφιακή επεξεργασία των πολυμεσικών πληροφοριών και τέλος την έξυπνη βοήθεια στην δημιουργία και επαναχρησιμοποίηση των πληροφοριών αυτών. 2.2.2. Αναβαθμίσεις Η ερευνητική ομάδα στα πλαίσια ανάπτυξης του προγράμματος Multilingual Informedia δημιούργησε και εισήγαγε ένα αρκετά πρωτότυπο σύστημα: έναν πολύγλωσσο φυλλομετρητή (browser) κειμένου και οπτικοακουστικού υλικού που δέχεται ερωτήματα διατυπωμένα στην αγγλική γλώσσα και επιστρέφει τα πιο σχετικά ρεπορτάζ ή τμήματα αυτών σε αγγλική και σερβοκροάτικη γλώσσα. Για παράδειγμα, παραθέτει ειδησεογραφικά τεκμήρια των δύο αυτών γλωσσών δίνοντας την δυνατότητα στον χρήστη να πληροφορηθεί και να συγκρίνει τους τρόπους αντιμετώπισης ενός συγκεκριμένου θέματος ή γεγονότος σε δύο διαφορετικές χώρες. Το λογισμικό που πραγματοποιεί την μετάφραση ανοικοδομεί όλες τις λογικές ερμηνείες των λέξεων και των φράσεων του αγγλικού ερωτήματος. Αποτέλεσμα της συγκεκριμένης διαδικασίας είναι η δημιουργία ενός διευρυμένου ερωτήματος στην γλώσσα προορισμού, δηλαδή στην σερβοκροάτικη χωρίς απώλεια αλλά με κάποιο κόστος στην ακρίβεια. Κεφάλαιο 3 Stanford Protocol Proposal for Internet Retrieval and Search (STARTS) 26
  • 27. Περίληψη  Εμφανίστηκε το 1996  Δημιουργήθηκε από την ψηφιακή βιβλιοθήκη του Stanford από σύμπραξη εμπορικών μηχανών αναζήτησης και άλλων μηχανισμών (Verity, WAIS, Infoseek, Microsoft Network, PLS)  Είναι ερευνητικό μοντέλο  Δεν βασίστηκε σε κάποιο άλλο μοντέλο  Μεταδεδομένα: περιγραφή χαρακτηριστικών πηγής (Mbasic-1, GILS), περίληψη περιεχομένου πηγής (αντικείμενο SOIF).  Εφαρμoγές: Ψηφιακή Βιβλιοθήκη Πανεπιστημίου Stanford  Τεχνικά χαρακτηριστικά: σύνταξη των αιτημάτων με προσθήκη νέων πεδίων και δεικτών, πρωτόκολλο επικοινωνίας μεταδεδομένων Z39.50 Εισαγωγή Μέχρι τώρα οι τωρινές μηχανές αναζήτησης (π.χ. Yahoo, Google, Altavista):  δεν εξήγαγαν πληροφορίες σχετικά με τις πηγές (το πρόβλημα πηγής-μεταδεδομένων)  χρησιμοποιούσαν διαφορετικές γλώσσες ερωτημάτων (το πρόβλημα ερωτήματος-γλώσσας)  ταξινομούσαν τα αρχεία στα αποτελέσματα ερωτήσεων χρησιμοποιώντας μυστικούς αλγόριθμους (το πρόβλημα ταξινόμησης-συγχώνευσης) Για να βελτιώσουν αυτήν την κατάσταση, η ομάδα σχεδίασης της Ψηφιακής βιβλιοθήκης στο Πανεπιστήμιο Stanford ώθησε τους ανθρώπους που ασχολούνται με την προώθηση των μηχανών αναζήτησης (δηλ. του Search Engine Marketing) και άλλους σημαντικούς συντελεστές, να σχεδιάσουν ανεπίσημα ένα πρωτόκολλο το οποίο θα επέτρεπε βασικές αλληλεπιδράσεις των πηγών μεταξύ των τριών παραπάνω περιοχών. Παρακάτω παρατίθεται το τέταρτο και τελικό προσχέδιο της προσπάθειας ‘‘προτύπων’’. Αυτό εδώ το προσχέδιο βασίζεται στην υποστήριξή του από την εξής ομάδα ανθρώπων: Excite, Fulcrum, GILS, Harvest, Hewlett Packard Laboratories, Infoseek, Microsoft Network, Netscape, PLS, Verity, και WAIS. Αυτό το προσχέδιο συμπεριλαμβάνει υποστήριξη από τους συμμετέχοντες στο εργαστήριο του STARTS το οποίο οργανώθηκε στο Stanford την 1 η Αυγούστου του 2006. Ενότητα 1 η Αρχιτεκτονική 1.1. Βασικά χαρακτηριστικά του μοντέλου Starts 27
  • 28. Η αρχιτεκτονική του πρωτοκόλλου Starts βασίζεται σε ένα μεγάλο αριθμό πόρων. Κάθε πόρος αποτελείται από μία ή περισσότερες πηγές και απλά εξάγει πληροφορίες επικοινωνίας για τις πηγές τους. Μια πηγή είναι μια συλλογή από αμετάβλητα αρχεία (π.χ. στο σχ. 5 δεν θεωρείται καμία παρεμβολή στα συγκεκριμένα αρχεία) τα οποία συσχετίζονται με τις μηχανές αναζήτησης, οι οποίες δέχονται ερωτήσεις από τους χρήστες και δίνουν τα αντίστοιχα αποτελέσματα. Το συγκεκριμένο πρωτόκολλο σχεδιάστηκε για επικοινωνία μεταξύ των μηχανών (οι χρήστες δηλαδή δεν χρειάζεται να γράφουν τα επερωτήματα χρησιμοποιώντας μια γλώσσα ερωτήσεων). Επίσης, όλες οι επικοινωνίες με τις πηγές είναι μη καταργήσιμες και μη καθορισμένες. σχ.5. Αρχιτεκτονική STARTS. Γενικά, μία προχωρημένη μηχανή αναζήτησης ή ένας οποιοσδήποτε τελικός αποδέκτης υπηρεσιών θα μπορούσαν τυπικά να διανείμουν ερωτήματα σε πολλαπλές πηγές. Βάση των παραπάνω προκύπτουν τα εξής χαρακτηριστικά για το μοντέλο STARTS: 1) Διανομή της ερώτησης σε μία πηγή προς τον πόρο (όπως αναφέρεται στο παρακάτω σχήμα ,σχ. 6, δηλ. Source 1) μπορεί να προσδιορίσει άλλες πηγές στον πόρο όπου μπορούν επίσης να αξιολογήσουν το ερώτημα (δηλ. Source 2). 2) Διανομή του ερωτήματος σε άλλες καλύτερες πηγές (ουσιαστικά σε μικρά σύνολα από συλλογές με πολλά υποσχόμενους πόρους). 28