5. 1.2.3. Το αίτημα ‘’ListIdentifier’’ 102
1.2.4. Το αίτημα ‘’ListMetadata Formats’’ 102
1.2.5. Το αίτημα ‘’ListRecords’’ 102
1.2.6. Το αίτημα ‘’ListSets’’ 102
1.3. Διαλειτουργικότητα και καταχωρήσεις 103
μεταδεδομένων
1.4. Επιλεκτική συλλογή και κριτήρια που 106
ακολουθήθηκαν
1.5. Επίπεδα προμηθευτών 107
2 Τεχνικά θέματα 108
2.1. Τα στοιχεία που βασίστηκε η πύλη 108
σύζευξης
2.1.1. Αρχιτεκτονική και λειτουργία της 108
διασύνδεσης OAI-PMH
2.1.2. Προσωρινή μνήμη (Τhe Cache) 110
2.1.3. Ζώνη ασφαλείας (Lock Zone) 111
2.1.4. ‘’Δαίμονας’’ (Daemon) 111
2.2. Αλληλουχία URL της πύλης σύζευξης 113
2.3. Τεχνικό πλαίσιο εργασίας 114
2.4. Αναθεωρήσεις και Προγράμματα 115
Υποστήριξης
10 Το μοντέλο Fedora 117
Περίληψη 117
Εισαγωγή 117
1 Αρχιτεκτονική 120
1.1. Ενοποίηση κατανεμημένων 120
αποθετηρίων
1.2. Αλληλεπιδράσεις πελάτη και 121
εξυπηρετητή Fedora
1.3. Το Ψηφιακό Αντικείμενο 122
1.3.1. Σχέσεις μεταξύ αντικειμένων 123
1.3.2. Ροές δεδομένων (Datastreams) 124
1.4. Πλεονεκτήματα Fedora 125
1.4.1. Διατήρηση και αρχειοθέτηση 126
1.4.2. Πολλαπλή παρουσίαση περιεχομένου 126
1.4.3. Εύκολη ενσωμάτωση νέων εφαρμογών 127
1.4.4. Ευέλικτη και επεκτάσιμη αρχιτεκτονική 127
2 Τεχνικά θέματα 129
2.1. Πρόσβαση του χρήστη 129
2.2. Πλαίσιο εργασίας υπηρεσίας Fedora 131
(Fedora Service Framework)
2.3 Δωρεάν διαθέσιμο με πολλαπλές 132
εφαρμογές
11 Η Ευρωπαϊκή Ψηφιακή 134
Βιβλιοθήκη (European Digital
Library)
Περίληψη 134
Εισαγωγή 134
Το πρόγραμμα TEL 135
1 Αρχιτεκτονική 136
1.1. Ευρωπαϊκή Βιβλιοθήκη (The 136
European Library, TEL)
1.1.1. Προτεινόμενη Αρχιτεκτονική 136
5
6. 1.1.2. Επιλογή μεταδεδομένων 137
1.1.3. Δημιουργία Πρωτοκόλλων Έρευνας και 138
Αναζήτησης (SRU)
1.2. TEL-ME-MOR: Αναβάθμιση της 140
Ευρωπαϊκής Βιβλιοθήκης (TEL)
1.2.1. Το πρόγραμμα TEL-ME-MOR (2006) 140
1.2.2. Στόχοι του προγράμματος TEL-ME-MOR 141
1.2.3. Κοινό που επικεντρώθηκε το TEL-ME- 141
MOR
1.2.4. Έρευνα και ανάπτυξη στο TEL-ME-MOR 142
1.2.5. Πολυγλωσσικότητα 142
1.2.6. Πλαίσιο Εργασίας TEL-ME-MOR 143
1.3. EDL (European Digital Library): 144
Αναβάθμιση του TEL-ME-MOR
1.3.1. Το πρόγραμμα EDL 144
1.3.2. EDL: συνέχεια των TEL και TEL-ME- 144
MOR
1.3.3. Στόχοι του προγράμματος EDL 145
1.3.4. Πλεονεκτήματα του EDL 146
1.3.5. Πλαίσιο εργασίας EDL 146
2 Τεχνικά θέματα 147
Ευρωπαϊκή Βιβλιοθήκη (The 147
European Library)
2.1. Υλοποίηση των πυλών σύζευξης του 147
TEL
2.1.1. Η πύλη σύζευξης TEL 148
2.1.2. Η πύλη σύζευξης Ζ39.50-SRU 149
2.2. Καταχώρηση μεταδεδομένων 150
2.3. Συνδυάζοντας Μεταδεδομένα και SRU 152
12 Η Ελληνική Πραγματικότητα 155
Εισαγωγή 155
13 Το Εθνικό Κέντρο Τεκμηρίωσης 157
(ΕΚΤ) και η ψηφιακή βιβλιοθήκη
του ΕΚΤ
Περίληψη 157
Εισαγωγή 157
1 Αρχιτεκτονική 158
1.1. Συλλογή ηλεκτρονικών περιοδικών 159
1.1.1. Συλλογή περιοδικών πλήρους κειμένου 160
σε CD-ROM
1.2. Δίκτυο διαδανεισμού ελληνικών 160
βιβλιοθηκών
1.2.1. Υπηρεσία παραγγελίας δημοσιευμάτων 161
από το εξωτερικό
1.2.2. Συλλογικός κατάλογος περιοδικών 161
1.3. Ψηφιοποιημένες συλλογές 162
1.3.1. Συλλογή ψηφιοποιημένων διδακτορικών 163
διατριβών
1.3.2. Ψηφιοποίηση πολιτιστικού περιεχομένου 163
1.3.3. Ψηφιοποίηση πρακτικών συνεδρίων 163
(γκρίζα βιβλιογραφία)
1.3.4. Ψηφιοποίηση ελληνικών περιοδικών 164
6
7. 1.4. Διάθεση και αξιοποίηση 164
εγκατεστημένων βάσεων δεδομένων
2 Τεχνικά θέματα 164
2.1. Υλικό (hardware) που 164
χρησιμοποιείται
2.1.1. Υλικό του κεντρικού συστήματος 164
2.1.2. Δημιουργία ηλεκτρονικού 165
αναγνωστηρίου
2.2. Λογισμικό (software) που 165
χρησιμοποιείται
2.2.1. Λογισμικό πρόσβασης 165
2.2.2. Λογισμικό συλλογής 165
2.2.3. Επεξεργασία δεδομένων 165
2.2.4. Συστήματα αναζήτησης 166
14 Ελληνικά Ψηφιακά Μοντέλα 167
Σύστημα Άρτεμις 167
Περίληψη 167
Εισαγωγή 167
1 Αρχιτεκτονική 168
1.1. Σχεδιασμός αρχιτεκτονικής 168
συστήματος
1.2. Χαρακτηριστικά του συστήματος 171
1.3. Τοπολογία συστήματος 172
1.4. To σύστημα Dienst 175
1.5. Η τελικά προτεινόμενη αρχιτεκτονική 177
2 Τεχνικά θέματα 182
2.1. Εγκατάσταση Λογισμικού 182
2.1.1. Πρώτο στάδιο 183
2.1.2. Δεύτερο στάδιο 183
2.2. Εισαγωγή νέων εγγράφων 184
15 Πέργαμος 185
Περίληψη 185
Εισαγωγή 185
1 Αρχιτεκτονική 186
1.1. Πρωτότυπα και στιγμιότυπα 186
ψηφιακών αντικειμένων
1.2. Λειτουργικότητα ψηφιακών 190
αντικειμένων
1.3. Διαχείριση συλλογών 191
1.4. Δυναμικές διεπαφές 192
2 Τεχνικά θέματα 194
2.1. Αυτοματοποίηση στη μετατροπή του 194
ψηφιακού υλικού
ΠΑΡΑΡΤΗΜΑ Ι 196
Πίνακας Ι 196
Πλεονεκτήματα-Μειονεκτήματα CORE 196
Πίνακας ΙΙ 197
Πλεονεκτήματα-Μειονεκτήματα 197
STARTS
Πίνακας ΙΙΙ 198
Πλεονεκτήματα-Μειονεκτήματα 198
NCSTRL-DIENST
Πίνακας IV 199
7
8. Πλεονεκτήματα-Μειονεκτήματα SODA 199
Πίνακας V 200
Πλεονεκτήματα-Μειονεκτήματα 200
Greenstone
Πίνακας VI 201
Πλεονεκτήματα-Μειονεκτήματα 201
Informedia
Πίνακας VII 202
Πλεονεκτήματα-Μειονεκτήματα 202
DSpace
Πίνακας VIII 203
Πλεονεκτήματα-Μειονεκτήματα OAI- 203
PMH
Πίνακας ΙΧ 204
Πλεονεκτήματα-Μειονεκτήματα 204
Fedora
ΠΑΡΑΡΤΗΜΑ ΙΙ 205
Ακρωνύμια 205
Βιβλιογραφία 209
Ηλεκτρονική 209
Έντυπη 212
8
9. Εισαγωγή
Η έκρηξη της τεχνολογίας επέφερε μεγάλες αλλαγές στον τομέα της
βιβλιοθηκονομίας και των συστημάτων πληροφόρησης. Για δεκαετίες οι
χρήστες συνήθισαν να χρησιμοποιούν τις έντυπες πηγές
πληροφόρησης. Οι εκδότες έπαιξαν σημαντικό ρόλο στην γενιά της
έντυπης πληροφορίας ενώ οι διανομείς πωλητές βιβλίων και κυρίως οι
βιβλιοθήκες έπαιξαν εξίσου σημαντικό ρόλο στην κατανομή της
πληροφορίας. Για χρόνια ήταν συνηθισμένο να χρησιμοποιούνται οι
έντυπες πηγής πληροφόρησης είτε μέσω της απόκτησής τους, είτε με το
να χρησιμοποιούνται στις βιβλιοθήκες. Η κατάσταση άρχισε να αλλάζει
τέσσερις δεκαετίες νωρίτερα με την εισαγωγή των υπολογιστών στη
διαχείριση της πληροφορίας, όπου και έγιναν ριζικές αλλαγές σε σχέση
με τα παλαιότερα χρόνια.
Η πρώτη χρήση των υπολογιστών στη διαχείριση της πληροφορίας
άνοιξε το μέλλον σε νέους τρόπους πρόσβασης και χρήσης
πληροφορίας. Έτσι ήταν ικανό να δημιουργείται και να παρέχεται
πρόσβαση σε ηλεκτρονικά ευρετήρια των συλλογών, ηλεκτρονικές
βάσεις δεδομένων των άρθρων των περιοδικών, πρακτικά συνεδρίων
κ.α. Αυτή ήταν μια νέα εποχή και επιπλέον της χρήσης των έντυπων
πηγών πληροφόρησης, οι χρήστες μπορούσαν να έχουν πρόσβαση στις
ηλεκτρονικές βάσεις δεδομένων των πηγών πληροφόρησης που
δημιουργήθηκαν τοπικά και ήταν εξ’ αποστάσεως προσβάσιμες. Με τα
χρόνια, οι απομακρυσμένες υπηρεσίες αναζήτησης πληροφοριών online
έγιναν ένα καθιερωμένο μέρος της αναζήτησης πληροφορίας και της
χρήσης προτύπων πληροφορίας. Αυτές οι υπηρεσίες δεν
αντικατέστησαν τις βιβλιοθήκες του έντυπου υλικού, αλλά αύξησαν την
πρόσβαση και την εκμετάλλευση της πληροφορίας και την χρήση της με
την τεχνολογία των επικοινωνιών. Κατόπιν οι βιβλιοθήκες άρχισαν να
μετατρέπουν τους δελτιοκαταλόγους τους σε ηλεκτρονικούς καταλόγους
βάσεων δεδομένων οι οποίοι μετέπειτα έγιναν online προσβάσιμοι
δημόσιοι κατάλογοι (OPACs), παρέχοντας τοπική και εξ’ αποστάσεως
πρόσβαση.
Άλλη μία μεγάλη αλλαγή στη διαδικασία της αποθήκευσης ανάκτησης
και διάδοσης πληροφοριών επέφερε η εφεύρεση των CD-ROM. Μεγάλες
βάσεις δεδομένων άρχισαν να εμφανίζονται ως νέο μέσο διευκόλυνσης
της κατανομής και της πρόσβασης. Οι χρήστες μπόρεσαν να έχουν
πρόσβαση στις ηλεκτρονικές πηγές πληροφόρησης, βιβλιογραφικές και
μη βάσεις δεδομένων, από μόνοι τους, σε βιβλιοθήκες , γραφεία κ.α.
Ενώ οι βάσεις δεδομένων CD-ROM έγιναν ένας υποδειγματικός
ανταγωνιστής των online υπηρεσιών αναζήτησης, δεν τις
αντικατέστησαν. Ως αποτέλεσμα οι τελικοί χρήστες είχαν περισσότερες
επιλογές για πρόσβαση στην πληροφορία, οι εκδότες συνέχισαν να
εκδίδουν έντυπες όπως και ηλεκτρονικές πηγές πληροφόρησης, σε CD-
ROM και / ή σε μορφή ηλεκτρονικών βάσεων δεδομένων για τοπική και
απομακρυσμένη πρόσβαση. Λεξικά, εγκυκλοπαίδειες και πολλές άλλες
πηγές πληροφόρησης άρχισαν να εμφανίζονται σε περισσότερα από ένα
τυπωμένα έντυπα όπως και ηλεκτρονικά. Τις περισσότερες φορές, οι
χρήστες είτε έπρεπε να αγοράσουν τις πηγές πληροφόρησης είτε να
επισκεφτούν τις βιβλιοθήκες για να τις χρησιμοποιήσουν, ελεύθερα ή
9
10. μέσω πληρωμής ενός αντιτίμου. Αυτή η κατάσταση συνεχίστηκε μέχρι
την εμφάνιση του διαδικτύου και κυρίως του παγκόσμιου ιστού. Μέσα σε
διάστημα δέκα χρόνων , ο ιστός είχε μια μεγάλη επίδραση σε όλες τις
απόψεις της ζωής, κυρίως σε θέματα σχετικά με την παραγωγή,
κατανομή και χρήση της πληροφορίας.
Εκτός από τον καθιερωμένο όρο της ‘’βιβλιοθήκης’’ που υπήρχε
εμφανίστηκαν τρεις νέοι όροι, οι οποίοι ήταν οι: ‘‘ηλεκτρονική’’,
‘‘ψηφιακή’’, ‘‘εικονική’’.
‘‘Ηλεκτρονική’’ θεωρείται η βιβλιοθήκη της οποίας το σύνολο (ή ένα μεγάλο
μέρος) των καθημερινών λειτουργιών της πραγματοποιείται με την χρήση
υπολογιστή. Τέτοιες λειτουργίες είναι συνήθως η καταλογογράφηση, η
αναζήτηση και κυκλοφορία του υλικού, η καταγραφή και διαχείριση των
χρηστών, η παραγγελία νέων αποκτημάτων, η παρακολούθηση των τευχών
των περιοδικών και η εκτέλεση των παραγγελιών που έχουν προηγηθεί, η
εξαγωγή στατιστικών χρήσης κλπ. Ο όρος ‘’ηλεκτρονική’’ βιβλιοθήκη
αναφέρεται δηλαδή στον τρόπο διαχείρισης του υλικού, το οποίο φυσικά
μπορεί να είναι και έντυπο.
‘‘Ψηφιακή’’ είναι η βιβλιοθήκη η οποία αναφέρεται στον υλικό φορέα
(μορφή) του υλικού (περιεχόμενο) της συλλογής μιας βιβλιοθήκης. Το υλικό
αυτό μπορεί να περιλαμβάνει τα πάντα σε ψηφιακή μορφή, περιοδικά,
πολυμέσα, εκπαιδευτικά πακέτα, εγκυκλοπαίδειες, χάρτες, οδηγούς,
μουσικούς δίσκους, μαγνητοσκοπημένα συνέδρια, ταινίες, συνδέσεις με
ιστοσελίδες του διαδικτύου, ακόμη και βιβλία (ψηφιακά). Είναι φανερό ότι η
ψηφιακή βιβλιοθήκη προϋποθέτει την ύπαρξη και λειτουργία ηλεκτρονικής
βιβλιοθήκης.
‘‘Εικονική’’ είναι η βιβλιοθήκη η οποία δεν υπάρχει στην πραγματικότητα,
είναι δηλ. η λεγόμενη ‘’library without walls’’. Ουσιαστικά είναι ο συνδυασμός
ηλεκτρονικής και ψηφιακής βιβλιοθήκης στην περίπτωση που υπάρχουν μόνο
‘’εικονικά’’. Για παράδειγμα η εικονική βιβλιοθήκη μπορεί να περιλαμβάνει
υλικό από διαφορετικές βιβλιοθήκες που είναι οργανωμένες σε ένα εικονικό
χώρο χρησιμοποιώντας υπολογιστές και δίκτυα υπολογιστών. Μία βιβλιοθήκη
τέτοιας μορφής είναι το NCSTRL.
Από όλους τους τύπους βιβλιοθήκης που αναφέρθηκαν παραπάνω την
μεγαλύτερη επιρροή σε όλες τις χώρες του κόσμου, αλλά και στην Ελλάδα την
είχε η ψηφιακή βιβλιοθήκη γιατί παρείχε:
Πληροφορία στον χρήστη
Ανεπτυγμένη έρευνα και επιδέξιο χειρισμό της πληροφορίας
Ανεπτυγμένες δραστηριότητες για την διανομή των πληροφοριών
Έγκαιρη πρόσβαση στην πληροφορία
Ανεπτυγμένη χρήση της πληροφορίας
Ανεπτυγμένη συνεργασία
Μείωση του ψηφιακού χάσματος
Ως αποτέλεσμα αυτής της επιρροής ήταν να δημιουργηθούν τύποι
ψηφιακών βιβλιοθηκών στις Η.Π.Α. σαν τμήματα του DLI 1 και DLI2
(Digital Libraries Initiatives), αυτές που αναπτύχθηκαν στο στάδιο του
προγράμματος e-lib (electronic libraries) στην Αγγλία, ψηφιακές
βιβλιοθήκες που δημιουργήθηκαν από ανεξάρτητα ιδρύματα, ψηφιακές
βιβλιοθήκες οι οποίες είναι μέρος των εθνικών βιβλιοθηκών, ψηφιακές
10
11. βιβλιοθήκες που είναι τμήματα του Πανεπιστημίου, από χώρα
προέλευσης κ.λ.π.
Η γρήγορη ανάπτυξη στον τομέα των ψηφιακών βιβλιοθηκών σε όλο
τον κόσμο ώθησε στην εμφάνιση ενός μεγάλου αριθμού εκδόσεων σε
διαφορετικές μορφές: Communications of the ACM (Association of
Computing Machinery), Journal of the American Society for Information
Science, Information Processing and Management, Journal of Visual
Communication and Image Representation, D-Lib Magazine και Ariadne
ήταν τα πρώτα περιοδικά που βγήκαν στον τομέα των ψηφιακών
βιβλιοθηκών.
Τον 21 ο αιώνα έχουμε τα πρώτα βήματα αλλά και τις πρώτες
υλοποιήσεις ψηφιακών βιβλιοθηκών τοπικού χαρακτήρα (κυρίως στην
Αμερικάνικη Ήπειρο και σε τεχνολογικά εξελιγμένες χώρες της
Ευρωπαϊκής Ένωσης). Το επόμενο βήμα ήταν να γίνει μια παγκόσμια
διασύνδεση μεταξύ των ψηφιακών βιβλιοθηκών που ήδη υπήρχαν στις
χώρες της Ευρώπης. Όμως, υπήρχε ένα σημαντικό πρόβλημα το οποίο
ήταν η διαλειτουργικότητα ενός τέτοιου συστήματος λόγω των
διαφορετικών τύπων MARC που χρησιμοποιούνταν σ’ εκείνες τις χώρες.
Συνέπεια αυτού ήταν να δημιουργηθεί το πιο σημαντικό πρωτόκολλο
για την τεχνολογική επικοινωνία και διάδοση πληροφοριών το Ζ39.50
καθώς και να δοθεί ιδιαίτερη έμφαση στα μεταδεδομένα : Dublin Core,
METS και MODS, και RDF. Σε αυτά βασίστηκαν και τα μοντέλα τα οποία
πρωτοεμφανίστηκαν στα μέσα του 20 ου αιώνα (1996 και μετά) που είναι
τα εξής : CORE (1993), STARTS (1996), NCSTRL-DIENST (1998),
SODA, Greenstone, Informedia I και II (1994, 2000), DSpace (2000) και
στην Ελλάδα το ΑΒΕΚΤ το οποίο πρωτοχρησιμοποίηθηκε από το ΕΚΤ.
Έχοντας ως βάση τα συγκεκριμένα μοντέλα δημιουργήθηκαν οι πρώτες
ψηφιακές βιβλιοθήκες στην Ευρώπη και από το 2001 και μετά υπάρχει
διαρκής αναβάθμισή τους και εμφάνιση νέων μοντέλων.
Στην παρούσα εργασία θα αναφερθούν παλαιότερα (Core project,
Starts, NCSTRL-DIENST, SODA) και νεότερα μοντέλα ψηφιακών
βιβλιοθηκών (European Digital Library, Πέργαμος, Fedora, Άρτεμις)
καθώς και πρωτόκολλα (Open Archives Initiative, Ζ39.50) που
χρησιμοποιούνται από τα συγκεκριμένα μοντέλα. Θα αναλυθούν, επίσης,
η αρχιτεκτονική καθώς και οι τεχνικές λειτουργίες του κάθε μοντέλου
ξεχωριστά.
11
12. Παλαιότερα μοντέλα
Κεφάλαιο 1
CORE PROJECT (1993)
Περίληψη
Εμφανίστηκε τέλη του 1993
Δημιουργήθηκε από την Βιβλιοθήκη Mann του Πανεπιστημίου
Cornell, την ομάδα έρευνας επικοινωνίας του Bellcore, την
Αμερικάνικη Χημική Κοινότητα (ACS), την Χημική Υπηρεσία
Περιλήψεων (CAS), την OCLC
Είναι ερευνητικό μοντέλο
Δεν βασίστηκε σε προηγούμενο μοντέλο
Μεταδεδομένα: προσαρμοσμένη SGML ειδικά για το μοντέλο
Εφαρμογές: σε αμερικάνικα χημικά περιοδικά του Πανεπιστημίου
Cornell
Τεχνικά χαρακτηριστικά: τρεις διεπαφές για τους χρήστες (OCLC,
Bellcore, Pixlook)
Εισαγωγή
Το πρόγραμμα CORE (Πυρήνων) ήταν ένα ηλεκτρονικό πρόγραμμα
συνεργασίας βιβλιοθηκών που φιλοξενήθηκε από τη βιβλιοθήκη Mann του
Πανεπιστημίου Cornell. Παρείχε ηλεκτρονική πρόσβαση σε όλα τα χημικά
περιοδικά της αμερικάνικης κοινωνίας (με τις σχετικές χημικές υπηρεσίες
περιλήψεων που συντάσσουν ευρετήριο) που χρονολογούνται από το 1980.
Έγινε ετήσια αναθεώρηση την περίοδο 1992-93 κατά την διάρκεια της οποίας
η διασύνδεση του χρήστη, οι εγκαταστάσεις δικτύωσης και το πρότυπο
βάσεων δεδομένων εξετάστηκαν με τη χρήση περίπου 31.000 άρθρων από
20 περιοδικά χημείας (1991-92). Η βιβλιοθήκη Mann του Πανεπιστημίου του
Cornell, η έρευνα επικοινωνίας Bellcore, η Αμερικανική Χημική Κοινότητα
(ACS), η Χημική Υπηρεσία Περιλήψεων (CAS) και η OCLC λειτούργησαν μαζί
για την πραγματοποίηση αυτής της προσπάθειας.
Οι χρήστες θα ήταν σε θέση να ψάξουν και να παρουσιάσουν το πλήρες
κείμενο των περιοδικών, των γραφικών παραστάσεων και σελίδες πλήρων
εικόνων, και να εκτυπώσουν υψηλής ευκρίνειας πιστά αντίγραφα από
επιλεγμένα άρθρα. Το πλήρες τμήμα κειμένων της βάσης δεδομένων CORE
κωδικοποιείται γενικευμένα στη πρότυπη γλώσσα SGML όπως μεταφράζεται
από τα γνήσια αρχεία τυπογραφίας. Οι μεμονωμένοι αριθμοί και η γραφική
παράσταση αποσπάστηκαν με αλγόριθμους από τις ανιχνευμένες εικόνες
σελίδων και συνδέθηκαν με τις εικόνες στο κείμενο, επιτρέποντας στο χρήστη
να παρουσιάσει μια αναπαράσταση ενώ παράλληλα βλέπει το κείμενο όπου
η αναπαράσταση συζητείται. Οι πλήρεις σε σημεία εικόνες των αρχικών
σελίδων είναι διαθέσιμες για την εκτύπωση (σε 300 σημεία ανά ίντσα) και για
την επίδειξη στην οθόνη (σε 100 σημεία ανά ίντσα).
12
13. Η πλήρης βάση δεδομένων, που αντιπροσώπευσε περισσότερες από
600.000 σελίδες του πλήρους κειμένου και της γραφικής παράστασης, ήταν
το μεγαλύτερο ηλεκτρονικό σώμα του είδους της. Προγραμματισμένο για τη
διαθεσιμότητα στο Πανεπιστήμιο Cornell στα τέλη του 1993, αυτή η βάση
δεδομένων είναι πλέον σήμερα διαθέσιμη για χρήση από τη σχολή και τους
σπουδαστές του τμήματος χημείας του Πανεπιστημίου σε ένα δίκτυο τοπικής
περιοχής (αν και η αρχιτεκτονική του συστήματος CORE είναι εκτεταμένη στις
ευρείς περιοχές των δικτύων).
Η επιφάνεια του χρήστη και το σύστημα βάσεων δεδομένων ήταν βασισμένα
σε μια αρχιτεκτονική πελατών εξυπηρετητών X-Windows που παρείχε
ευελιξία για τη διανεμημένη πρόσβαση καθώς επίσης και για τη πρόσβαση
στο δίκτυο τοπικής περιοχής. Η εφαρμογή των επιφανειών εργασίας του
χρήστη στα X-Windows επέτρεψε τη χρήση του συστήματος σε ποικίλες
πλατφόρμες υλικού. Αυτή η δυνατότητα να λειτουργήσει στις πλατφόρμες
υλικού είναι ένα σημαντικό πλεονέκτημα του λογισμικού X-Windows.
Ενότητα 1 η
Αρχιτεκτονική
Το σύστημα Core βασίστηκε στην αρχιτεκτονική πελάτη-εξυπηρετητή,
Unix που λειτουργεί στο Τμήμα Χημείας του Πανεπιστημίου Cornell, που
είναι συνδεδεμένο με έναν εξυπηρετητή στην βιβλιοθήκη Albert Mann. Το
ερευνώμενο κείμενο και τα εξαγόμενα γραφικά καταχωρήθηκαν στο
μαγνητικό τμήμα του υπολογιστή που αποθήκευε τα δεδομένα για
γρήγορη εύρεση. Η OCLC προμήθευσε τη μηχανή ανάκτησης Newton, η
οποία υποστήριζε μια ποικιλία από προϊόντα βάσεων δεδομένων και
αναφορών της OCLC και η οποία εξυπηρετούσε τη μηχανή βάσεων
δεδομένων και για τις δύο επιφάνειες χρηστών που εγκαταστάθηκαν στο
σύστημα. Το Newton ήταν ένα σύστημα βάσης δεδομένων πελάτη-
εξυπηρετητή που υποστήριζε ουσιαστική λειτουργικότητα από τις απόψεις
σχεδιασμού δεδομένων και δικτύου.
Το σχέδιο Core ήταν μοναδικό στην παροχή πληροφοριακών πηγών, και
στο ότι ήταν ικανό να συγκρίνει αποτελέσματα. Παρακάτω παρατίθενται τα
στοιχεία του συστήματος που δείχνουν τη ροή της πληροφορίας από τους
προμηθευτές της Αμερικάνικης Κοινότητας Χημικών (A.C.S) και της
Υπηρεσίας Περιλήψεων Χημείας (C.A.S), πρώτα στα αρχεία της μηχανής
αναζήτησης OCLC Newton, και μετά στους χρήστες (σχ.1).
13
15. 1.1. Οι συλλογές του Project Core
Η πιο σημαντική περιουσία μιας ηλεκτρονικής βιβλιοθήκης όπως και μιας
απλής βιβλιοθήκης, είναι η συλλογή της 1 . Η επιλογή ποιοτικού υλικού είναι
το πιο σημαντικό χαρακτηριστικό. Άχρηστο υλικό ακόμα και αν
παρουσιάζεται ωραιοποιημένο παραμένει πάλι άχρηστο. Συνεντεύξεις με
χημικούς του Πανεπιστημίου Cornell έδειξαν τα πρωτογενή περιοδικά σαν
την πιο σημαντική πηγή.·Το σχέδιο Core, λοιπόν, κατάφερε να αποκτήσει
το υλικό του από την Αμερικάνικη Κοινότητα Χημικών (American Chemical
Society, A.C.S.). Η Αμερικάνικη Κοινότητα Χημικών δημοσιεύει περιοδικά
χημείας υψηλού κύρους στις Η.Π.Α, και τα περιοδικά της είναι η κύρια
πηγή για τη χημική έρευνα. Τα 20 πρώτα περιοδικά που δημοσιεύτηκαν
στην αρχή του σχεδίου ήταν τα εξής : Accounts of Chemical Research,
Analytical Chemistry, Biochemistry, Chemistry of Materials, Chemical
Research in Toxicology, Chemical Reviews, Energy and Fuels,
Environmental Science & Technology, Inorganic Chemistry, Industrial &
Engineering Chemistry, J. Agricultural and Food Chemistry, J. American
Chemical Society, J. Chemical Engineering Data, J. Chemical Information
& Computer Science, J. Medicinal Chemistry, J. Organic Chemistry, J.
Physical Chemistry, Langmuir, Macromolecules, and Organometallics.
1.2. Στόχοι τ o υ Project Core
Το σχέδιο CORE είχε πέντε στόχους:
1. Να προσδιορίσει μια εφαρμόσιμη αρχιτεκτονική για διανομή
πληροφοριών πλήρους κειμένου σε ένα συνεισφερόμενο δικτυακό
περιβάλλον με διαφορετικούς σταθμούς εργασίας 2 .
2. Να μετατρέψει και να καταχωρήσει αρκετό όγκο δεδομένων
χημικών περιοδικών σε μία μορφοποιημένη βάση δεδομένων
κατάλληλη για εύκολη διανομή και παρουσίαση.
3. Να μελετήσει τα στοιχεία για λειτουργικότητα της επιφάνειας
εργασίας πλήρους κειμένου που είναι απαραίτητα για εξυπηρέτηση
των αναγκών των υποτρόφων σε ένα δικτυακό περιβάλλον
διανομής εγγράφου.
4. Να αναπτύξει την κατανόηση της κατάλληλης μορφοποίησης
κειμένου για τις ηλεκτρονικές βάσεις δεδομένων πλήρους κειμένου.
5. Να ερευνήσει πληροφορίες διανομής ερωτήσεων σχετικών με την
επερχόμενη εποχή της διανομής πλήρους κειμένου.
1
Miksa, 1994.
2
σταθμός εργασίας: ορ.1 συνδυασμός υλικού εισόδου, εξόδου, και επεξεργασίας , που μπορεί
να χρησιμοποιηθεί από ένα άτομο για εκτέλεση εργασιών.
ορ.2 μικροϋπολογιστής ή τερματικό, συνδεδεμένα σε δίκτυο.
15
16. 1.3. Σχεδιασμός βάσης δεδομένων και χρήση
Ο σχεδιασμός βάσης δεδομένων και η λειτουργικότητα της διεπαφής με
τον χρήστη είναι άρρηκτα συνδεδεμένα. Ο αποτελεσματικός σχεδιασμός
της βάσης δεδομένων πρέπει να έχει πληροφορηθεί για την επιθυμητή
λειτουργικότητα της επιφάνειας εργασίας και η λειτουργικότητα της
επιφάνειας εργασίας έχει περιοριστεί από τους πρακτικούς περιορισμούς
της δομής της βάσης δεδομένων. Αντίθετα, έγινε σύγκριση των
διαφορετικών επιφανειών εργασίας, χωρίς να χρειαστεί ευρετηρίαση
πανομοιότυπων αρχείων. Γι’ αυτό και κρίθηκε απαραίτητο, ο σχεδιασμός
της βάσης δεδομένων να είναι χρησιμοποιήσιμος.
Κωδικοποιήθηκαν τρεις επιφάνειες εργασίας, οι οποίες είχαν σαν βάση
το σύστημα των παραθύρων X-Windows οι οποίες ήταν: η Scepter OCLC
(SCientific Electronic Publishing and TExt Retrieval interface), η Pixlook
(image interface) και η Bellcore Superbook (Bellcore Superbook
interface).
1.4. Μηχανή αναζήτησης Newton
H μηχανή αναζήτησης Newton σχεδιάστηκε και τέθηκε σε εφαρμογή από
την OCLC για πρόσβαση στη δενδρική δομή των δεδομένων ίσης
πολυπλοκότητας. Η μηχανή αναζήτησης μπορούσε να χρησιμοποιηθεί σαν
βάση ενός πλήρους λειτουργικού συστήματος απόκτησης πληροφοριών για
αυτούσια δομικά δεδομένα και εικόνες. Το κείμενο στα δεδομένα CORE
επισημάνθηκε στη γλώσσα επισήμανσης SGML, αλλά κάθε τυπική γλώσσα
επισήμανσης μπορεί να χρησιμοποιηθεί για να προσδιορίσει τη διαδικασία
για σχεδίαση και δημιουργία της μηχανής αναζήτησης βάσης δεδομένων.
Δυνατότητες αναζήτησης / Ξεφυλλίσματος
Η μηχανή αναζήτησης Newton παρείχε δυνατότητες εκτενής
αναζήτησης συμπεριλαμβάνοντας ανάκτηση λέξεων-κλειδιών και
τελεστών Boolean όπως και εγγύτητα και ανάκτηση περιορισμένων
ομάδων. Η αναζήτηση ανά σειρά, περικοπή 3 , και η αναζήτηση
‘‘άτακτων’’ καρτελών υποστηρίζονται πλήρως. Όλα τα ευρετήρια
βάσεων δεδομένων είναι εύκολο να εντοπιστούν.
Επειδή υπάρχει μια καλά προσδιορισμένη εφαρμογή
προγραμματιστή διασύνδεσης στη μηχανή αναζήτησης Newton, μια
ποικιλία από διασυνδέσεις με τον χρήστη μπορούν να
δημιουργηθούν για να χρησιμοποιήσουν τη μηχανή αναζήτησης.
Αυτό βοήθησε στην υποστήριξη και της Pixlook του Bellcore και της
SCEPTER της OCLC σε μία βάση δεδομένων.
3
περικοπή (truncation) : βιβλιοθηκονομικά είναι η αποκοπή μιας λέξης προκειμένου να
ανακτηθούν περισσότερα δεδομένα κατά την αναζήτηση κυρίως όταν ο τίτλος που αναζητείται
είναι πολύ μεγάλος για να εισαχθεί στην μηχανή αναζήτησης.
16
17. Πλεονεκτήματα μηχανής αναζήτησης Newton
Δύναμη και ευκαμψία του συστήματος ευρετηρίασης.
Τα συστήματα ευρετηρίασης οδηγούνται από μία βάση δεδομένων
περιγραφής αρχείου. Αυτό το αρχείο περιλαμβάνει πληροφορίες
που περιγράφουν τη δομή των εισαγόμενων δεδομένων των
εγγραφών και τους κανόνες για ευρετηρίαση σε καθένα από τα
πεδία της εγγραφής. Η γλώσσα στη βάση δεδομένων περιγραφής
αρχείου συλλέχτηκε από τα προγράμματα ευρετηρίασης στους
πίνακες που καταχωρήθηκαν από μόνα τους στα αρχεία βάσεων
δεδομένων και χρησιμοποιήθηκαν για να οδηγήσουν στην αρχική
φόρτωση των δεδομένων και σε όλες τις μεταγενέστερες
αναβαθμίσεις και προσθήκες στη βάση δεδομένων.
Μπορεί να αναγνωρίσει και φυσικές και λογικές εικόνες βάσεων
δεδομένων. Μια λογική βάση δεδομένων μπορεί να γίνει αρκετά
μεγάλη στην διάταξη εκατοντάδων εκατομμυρίων όρων και
εκατομμυρίων εγγραφών. Μια λογική βάση δεδομένων είναι ένας
ειδικός τρόπος ομαδοποίησης μικρών, και πιο εύχρηστων, φυσικών
καταχωρήσεων βάσεων δεδομένων έτσι ώστε να παρουσιάζονται
σαν μία μονάδα από την πλευρά του αναζητούμενου. Αυτό
επιτρέπει στη βάση δεδομένων να αναπτύξει ένα απεριόριστο
μέγεθος μέσω μιας απλής μεθόδου προσθήκης επιπλέον
καταχωρήσεων.
Μειονεκτήματα μηχανής αναζήτησης Newton
Υπάρχει ένα μεγάλο εύρος ειδίκευσης χρηστών, και πολλοί
χρήστες δεν γνωρίζουν αρκετά για την αναζήτηση με τελεστές
Boolean. Η εφαρμογή Scepter βασίστηκε κυρίως σε καταλόγους
οπτικών επιλογών (menu) για να επιλέξουν περιοδικά ή
χρονολογίες, ώστε να αποφύγουν τον εξαναγκασμό των χρηστών
στην εκμάθηση γραφής τέτοιων πολύπλοκων εκφράσεων γλώσσας.
Η βάση δεδομένων ήταν πολύ μεγάλη, και ήταν εύκολο να
γραφτεί ένα επερώτημα που ανακτά έναν αρκετά μεγάλο αριθμό
ντοκουμέντων. Μία πιθανότητα μείωσης αυτού του αριθμού ήταν η
χρήση σχετικών επανατροφοδοτήσεων 4 για να κάνουν αυτόματη
διόρθωση.
4
επανατροφοδότηση (feedback) : περίπτωση κατά την οποία στοιχεία, που προήλθαν από μια
πρώτη φάση επεξεργασίας ενός προγράμματος, εισάγονται και πάλι σε άλλη φάση επεξεργασίας
του ίδιου προγράμματος, για να τροποποιηθούν ή να διορθωθούν οι παράγοντες που προήλθαν
από την πρώτη φάση.
17
18. 1.5. Διεπαφές που χρησιμοποιήθηκαν
Οι προκαταρκτικές μελέτες χρηστών πραγματοποιήθηκαν στο
Πανεπιστήμιο του Cornell πριν από την εγκατάσταση της πλήρους βάσης
δεδομένων και της απελευθέρωσης του λογισμικού ενδιαμέσων με τον
χρήστη στο τμήμα χημείας του Cornell. Οι χρήστες δοκιμής ήταν έντεκα
εθελοντές, κατά ένα μεγάλο μέρος διαβαθμισμένοι σπουδαστές στο τμήμα
χημείας. Οι περισσότεροι είχαν κάποια προγενέστερη εμπειρία σε μία ή
άλλη εφαρμογή ηλεκτρονικών πληροφοριών.
Από τις παραπάνω μελέτες που έγιναν τρεις διεπαφές ήταν διαθέσιμες
στους χρήστες του συστήματος CORE:
1. Η OCLC και
2. η Bellcore είχαν πλήρως ανεπτυγμένες τις διεπαφές κειμένων που
επαναμορφοποίησαν χαρακτηρισμένο το SGML κείμενο για την
επίδειξη οθόνης και που επέτρεψαν στους χρήστες να παρουσιάσουν
τη σχετική γραφική παράσταση με την επιλογή μιας εικόνας μέσα στο
κείμενο.
3. Η διεπαφή Pixlook του Bellcore χρησιμοποιήθηκε σε αυτές τις
προκαταρκτικές δοκιμές. Το Pixlook ενσωμάτωσε ένα απλό πρότυπο
που επέτρεψε στους χρήστες να εκδώσουν τις ερωτήσεις έναντι ενός
πλήρους κειμένου μιας δομημένης βάσης δεδομένων, αλλά που αυτό
όμως θα επιδείκνυε μόνο τις εικόνες σελίδες των ανακτημένων
άρθρων. Κατά συνέπεια, οι χρήστες δεν είχαν την πλήρη λειτουργία
επίδειξης κειμένων που θα ήταν διαθέσιμη στο ενδιάμεσο με τον
χρήστη του SCEPTER OCLC (σχ.2) και το ενδιάμεσο με τον χρήστη
Superbook Bellcore.Το πρότυπο Pixloook ήταν σημαντικό, εντούτοις,
γιατί αντιπροσώπευε την πιο οικονομική προσέγγιση αφού παρείχε τα
προηγουμένως δημοσιευμένα έγγραφα στον ηλεκτρονικό κόσμο, μια
προσέγγιση που ήταν σημαντική και διαδεδομένη ως «τεχνολογία
γεφύρωσης».
Αυτές οι μελέτες αποκάλυψαν τις ενδιαφέρουσες δυνάμεις και αδυναμίες
του ηλεκτρονικού μέσου. Μερικές από τις αδυναμίες υπέστησαν
διόρθωση, αλλά άλλες ήταν δύσκολο να υπερνικηθούν λόγω των
περιορισμών της τότε τρέχουσας τεχνολογίας.
σχ.2. Παράδειγμα SCEPTER OCLC.
18
19. Ενότητα 2 η
Τεχνικά θέματα
2.1. Πρόσκτηση δεδομένων μέσω ASCII
Τα δεδομένα που εισέρχονται σε ASCII 5 παρέχονται σε μια
μορφοποιημένη παρουσίαση από την Αμερικάνικη Κοινότητα Χημικών. Σε
αυτό το μορφότυπο, αριθμημένες αναγραφές πεδίων κωδικοποιούν μια
ποικιλία από τύπους δεδομένων : ISSN, τίτλο, προτάσεις, υπότιτλο, και
άλλα παρόμοια. Χρησιμοποιείται ένα ειδικό χαρακτηριστικό σύνολο,
ξεχωριστά. Τα μορφότυπα δεικτών A.C.S, οι εκθέτες, και οι αλλαγές
γραμματοσειρών έχουν κωδικοποιηθεί στο σύνολο των χαρακτήρων. Η
ACS επίσης χρησιμοποιεί διαφορετικούς τύπους παρουσίασης
μεταδεδομένων : μερικές αναφορές παραπομπών σημειώνονται με ##-
περιορισμένες πηγές, και οι προσκτήσεις έχουν τελείως διαφορετικό
φορμάρισμα συστήματος στο κείμενο. Η ACS 6 ήταν ένας από τους
αρχηγούς στην γραφή σε Η/Υ στα πρωτογενή περιοδικά πριν από 20
χρόνια, και αυτό το μορφότυπο, παρόλο που δεν ακολουθεί τη φιλοσοφία
της σύγχρονης γλώσσας επισήμανσης SGML (Standard Generalized
Markup Language), ήταν αποτελεσματικό για την λειτουργία της βάσης
δεδομένων τους.
Τα κατάλληλα μαρκαρισμένα δεδομένα της ACS αναπαριστούν τη δομή
των δεδομένων σαν μέθοδο έκφρασης της δομής και διάταξης των
εγγραφών σε αντίθεση με τα συνηθισμένα ηλεκτρονικά συστήματα
τυπογραφίας της εκδοτικής βιομηχανίας. Για να παραχθεί μια μοναδική
φορητή βάση δεδομένων που συμβιβάζεται με τα σύγχρονα πρότυπα και
για να απλοποιηθούν τα προβλήματα κατασκευής λογισμικού έγινε
μετατροπή των κατάλληλων μαρκαρισμένων δεδομένων στη γλώσσα
επισήμανσης SGML. Η SGML είναι πρότυπο της ISO για την περιγραφή
του κειμένου σε αναγνώσιμη μορφή από μηχανή, και της μετατροπής του
βοηθώντας το να τροφοδοτεί τα συστήματα λογισμικού που μπορούν να
τοποθετούν βάσεις δεδομένων ευρείας επισκόπησης και διαφορετικών
πηγών 7 . Το κείμενο CORE έχει μεταφραστεί από τη Bellcore από τα
δομημένα αρχεία της ACS στην SGML γλώσσα. Η τελευταία
χαρακτηριστική έκδοση του κειμένου μετέπειτα χρησιμοποιήθηκε για να
δημιουργηθεί η βάση δεδομένων Newton που εξυπηρετεί τις πολλαπλές
επιφάνειες εργασίας στο σχέδιο.
Ο χαρακτηρισμός αυτής της βάσης δεδομένων είναι σημαντικός:
προσδιορίζει τη δομή της βάσης δεδομένων και διαφοροποιεί στοιχεία
εγγράφου για τους σκοπούς της οπτικής παρουσίασης. Ο χαρακτηρισμός
5
ASCII (American Standard Code for Information Interchange): ο δυαδικός κώδικας που
χρησιμοποιήθηκε για να αναπαριστά έναν χαρακτήρα σε έναν η/υ. Υπάρχει ένας αριθμός από
πρότυπους κώδικες όπως ISO7, EBCDIC κ.α.
6
Η υπηρεσία χημικών περιλήψεων (Chemical Abstract Service,CAS), ένα περιφερειακό τμήμα
της Αμερικάνικης Χημικής Κοινότητας (American Chemical Society ACS), περιλαμβάνει τον
εκδότη των πρωτογενών περιοδικών. Η ACS κρατάει τη βάση δεδομένων σε ακρίβεια και είναι
συνδεδεμένη στον ακριβή αριθμό σελίδων περιοδικών. Για το σχέδιο CORE, η CAS παρέχει το
αντίστοιχο ευρετήριο δεδομένων για κάθε άρθρο έτσι ώστε οι χρήστες να μπορούν και εκείνοι
να αποκτούν πληροφορίες μέσω της μηχανής αναζήτησης δεδομένων Χημικών Περιλήψεων.
7
Coombs, 1987.
19
20. της SGML επιτρέπει τις επιφάνειες εργασίας να ψάχνουν για
συγκεκριμένα μέρη εγγράφου. Η χρήση της SGML αναβαθμίζει σε μεγάλο
βαθμό τη λειτουργικότητα μιας βάσης δεδομένων, αλλά ο προσδιορισμός
της δομής της βάσης απαιτεί μία λεπτομερή κατανόηση της
λειτουργικότητας που θα απαιτήσει η διασύνδεση με τον χρήστη. Η
κυριότερη δραστηριότητα του σχεδίου CORE κατά τη διάρκεια του έτους
1993 ήταν ένα συνεργαζόμενο, επαναλαμβανόμενο καθάρισμα του
μοντέλου της βάσης δεδομένων έτσι ώστε ολόκληρη η βάση δεδομένων
του CORE να μπορεί να εξυπηρετεί τις ανάγκες που χαρακτηρίζουν τις
μελέτες των προηγούμενων χρηστών καθώς και αναβαθμίσεις που έχουν
προστεθεί.
Ένα έγγραφο SGML αποτελείται από κείμενο που είναι μαρκαρισμένο με
περιγραφικές ετικέτες 8 που προσδιορίζουν την λειτουργία ενός διδόμενου
στοιχείου μέσα στο ντοκουμέντο. Σαν κύρια γλώσσα ερμηνείας, ένα
έγγραφο SGML μπορεί να αναλυθεί, ενώ ένα Έγγραφο Ορισμού Τύπου
(Document Type Definition , DTD) προσδιορίζει ποια στοιχεία
επιτρέπονται και που μέσα στο έγγραφο μπορούν (ή πρέπει) να
υπάρχουν. Αυτός ο φορμαρισμένος χάρτης της δομής του άρθρου,
επιτρέπει στον σχεδιασμό της διασύνδεσης με τον χρήστη να
αποσυνδεθεί από το υποκείμενο σύστημα βάσης δεδομένων, ένα
σημαντικό βήμα προς την διαλειτουργικότητα.
Η μετατροπή της SGML παρουσιάζει κάποια δυσκολία. Για παράδειγμα,
στην παρουσίαση χαρακτήρων που χρησιμοποιήθηκαν οι αλλαγές στην
έκδοση της γραμματοσειράς του συστήματος ACS και η θέση της γραμμής
βάσης 9 χρησιμοποιήθηκαν στο σύνολο χαρακτήρων απ’ ότι στις ετικέτες.
Γι’ αυτό αργότερα έγινε μετατροπή αυτού του μηχανισμού σε ετικέτες
SGML (δηλ. σε κωδικούς που προσδιορίζουν ένα στοιχείο σε ένα έγγραφο
π.χ. μια επικεφαλίδα ή μια παράγραφο που διευκολύνει την μορφοποίηση
και την ευρετηρίαση και τη σύνδεση των πληροφοριών στο έγγραφο) 10 .
8
περιγραφικές ετικέτες (descriptive tags) : περιέχουν πληροφορίες για μία εγγραφή, ένα
αρχείο ή μια άλλη δομή.
9
γραμμή Βάσης (baseline) : στην εκτύπωση και στην απεικόνιση χαρακτήρων σε οθόνη, μια
φανταστική οριζόντια γραμμή με την οποία ευθυγραμμίζεται η βάση κάθε χαρακτήρα (χωρίς τις
κάτω πατούρες), π.χ. Μ ά γ μ α γραμμή βάσης
κάτω πατούρα
10
Ουσιαστικά αυτές οι ετικέτες είναι ένα ζεύγος γωνιακών αγκυλών που περιέχουν ένα ή
περισσότερα γράμματα ή αριθμούς το οποίο τοποθετείται πριν από το προς επισήμανση
στοιχείο και ένα άλλο ζεύγος μετά το στοιχείο ώστε να δηλώνεται που αρχίζει και που
τελειώνει το στοιχείο. Παραδ. σε HTML το <ΙΤ>καλημέρα</ΙΤ> σημαίνει ότι το ‘‘καλημέρα’’
θα εμφανιστεί με πλάγιους χαρακτήρες (italics).
20
21. Κεφάλαιο 2
Informedia I
Περίληψη
Εμφανίστηκε το 1994
Δημιουργήθηκε από το Πανεπιστήμιο Carnegie Mellon σε
συνεργασία με τις Επικοινωνίες QED
Είναι εμπορικό μοντέλο
Δε βασίστηκε σε κάποιο άλλο μοντέλο
Μεταδεδομένα: XML, XML Schema 11 , XSLT 12 (XSL
13
Transformations), SMIL , Dublin Core Metadata Initiative
Εφαρμογές: Τηλεοπτικό κανάλι Discovery, CNN
Τεχνικά χαρακτηριστικά: εύχρηστη διεπαφή εργασίας χρήστη,
επιταχυνόμενη επισκόπηση βίντεο (video skimming), εισαγωγή
συστήματος pay-per-view για προστασία δεδομένων
Εισαγωγή
Ο πρωταρχικός στόχος του Informedia ήταν να επιτύχει τη μηχανική
κατανόηση των οπτικών μέσων, όπως του βίντεο και του φίλμ γεγονός
που περιλαμβάνει όλες τις πτυχές της αναζήτησης, ανάκτησης,
οπτικοποίησης, και δημιουργίας περιλήψεων για συλλογές από πρόσφατο
και αρχειακό περιεχόμενο. Οι ερευνητικές προσπάθειες που εντάχτηκαν
στο πρόγραμμα Informedia περιελάμβαναν το Informedia I, II καθώς και
το Multilingual και το NSDL 14 ενώ παράλληλα αναπτύχθηκαν και άλλες
προσπάθειες όπως το VACE 15 , το CCRHE 16 , το CareMedia που
εφαρμόστηκαν σε άλλους τομείς εκτός των βιβλιοθηκών. Τα συγκεκριμένα
ερευνητικά προγράμματα αναπτύχθηκαν σε διαφορετικές χρονικές
περιόδους, με πρώτο το Informedia I.
11
XML Schema: εκφράζει διανεμημένα λεξιλόγια που προσδιορίζουν τις αντιστοιχίες των
εγγράφων XML
12
XSLT (XSL Transformations): γλώσσα μετατροπής των εγγράφων XML.
13
SMIL (Synchronized Multimedia Integration Language)
14
NSDL (National Science Digital Library)
15
VACE (Video Analysis and Content Exploitation) : περαιτέρω αναβάθμιση του βίντεο του
Informedia.
16
CCRHE (CapturingCoordinating and Remembering Human Experience): πρόγραμμα που
βασίστηκε στο Informedia.
21
22. Ενότητα 1 η
Αρχιτεκτονική
1.1. Επισκόπηση Συστήματος
Το Informedia I (σχ. 3) που αναπτύχθηκε το 1994, αποτελεί συνεργασία
του Πανεπιστημίου Carnegie Mellon με την εταιρεία QED Communications
και ήταν μία από τις έξι προσπάθειες δημιουργίας ψηφιακής βιβλιοθήκης
στις Η.Π.Α από το National Science Foundation (NSF) με παράλληλη
χρηματοδότηση από τη NASA και την DARPA (Defense Advanced
Research Project Agency). Η βασική τεχνολογία του Informedia ήταν ο
συνδυασμός της κατανόησης λόγου, εικόνας και φυσικής γλώσσας που
βρίσκουν εφαρμογή στην αυτόματη μεταγραφή, τμηματοποίηση και
ευρετηρίαση των γραμμικών βίντεο με σκοπό την έξυπνη αναζήτηση και
ανάκτηση εικόνων.
σχ.3. Παρουσίαση συστήματος Informedia.
Στη συνέχεια αναπτύχθηκε την περίοδο 1997-2000 από την ερευνητική
ομάδα του προγράμματος, το Multilingual Informedia. Στόχος του
συγκεκριμένου προγράμματος ήταν η ανάπτυξη ενός αυτοματοποιημένου
συστήματος και των εργαλείων του που θα επέτρεπε την σύλληψη,
αναζήτηση, ανάκτηση τη δημιουργία περίληψης και επαναχρησιμοποίησης
πολύγλωσσων πολυμεσικών δεδομένων. Το πρόγραμμα αυτό
χρηματοδοτήθηκε από την DARPA, την SPAWAR (Space and Naval
Warfare Systems) και από την NRaD (Naval Research and Development).
Η υποδομή της Ψηφιακής Βιβλιοθήκης που άρχισε να δημιουργείται με το
Informedia I συνεχίστηκε και ολοκληρώθηκε το 2000 με το Informedia II 17 .
17
Θα παρουσιαστεί αναλυτικότερα στα επόμενα κεφάλαια.
22
23. Το πρόγραμμα αυτό επιζητά να βελτιώσει τις τεχνικές εξαγωγής,
δημιουργίας περίληψης, της οπτικοποίησης και της παρουσίασης των
κατανεμημένων βίντεο για την αυτόματη παραγωγή ‘‘collage’’ και
‘‘αυτόματων τεκμηρίων’’ τα οποία συνοψίζουν τις πληροφορίες από
οπτικά και ηχητικά μέσα καθώς και από εικόνες και κείμενο σε μία
μοναδική περίληψη.
Την αρχική συλλογή της Ψηφιακής Πολυμεσικής Βιβλιοθήκης του
Informedia αποτέλεσαν βίντεο από τα αρχεία του WQED 18 (QED
Comunications) και από το Ανοιχτό Βρετανικό Πανεπιστήμιο. Η τρέχουσα
συλλογή περιλαμβάνει ντοκιμαντέρ και γενικές ειδησεογραφικές
μαγνητοσκοπήσεις από διάφορες πηγές, όπως είναι το αμερικάνικο κανάλι
CNN το οποίο είναι ένα από τα μεγαλύτερα τηλεοπτικά και ραδιοφωνικά
δίκτυα ή το Discovery (σχ. 4).
Σε γενικές γραμμές η λειτουργία και η αποτελεσματικότητα των υπηρεσιών
της βιβλιοθήκης και συνεπώς των τεχνικών που έχουν εισαχθεί σε αυτήν
βασίζεται σε δύο βασικές λειτουργίες: της μεταγραφής (transcribe) 19 και
της τμηματοποίησης 20 των βίντεο.
σχ.4. Παρουσίαση 12 τεκμηρίων που εμφανίστηκαν στην αναζήτηση που έγινε
με βάση το φαινόμενο ‘‘El Niňo’’.
1.2. Μεταγραφή και τμηματοποίηση βίντεο
Αρχικά, το βίντεο καθώς εισάγεται στην βιβλιοθήκη υφίσταται επεξεργασία
από ένα σύστημα αναγνώρισης λόγου, το οποίο δρα ανεξάρτητα από τον
18
WQED : τηλεοπτικός σταθμός του PBS που βρίσκεται στο Πίτσμπουργκ της Πενσυλβάνια
(Η.Π.Α). Ήταν ο πρώτος τηλεοπτικός σταθμός (1954) που δημιουργήθηκε σε κοινότητα των
Η.Π.Α.
19
αντιγραφή ή μεταγραφή (transcribe): αποτελεί τμήμα της αναγνώρισης λόγου. Όυσιαστικά
είναι η διαδικασία με την οποία ένα σύστημα αναγνώρισης λόγου ακούει μία ομιλία που έχει
γραφτεί από πριν και έπειτα το συγκεκριμένο σύστημα εισάγει τις αναγνωρίσιμες λέξεις σε ένα
έγγραφο για μετέπειτα διόρθωση.
20
τμηματοποίηση: η κατάτμηση του βίντεο σε ανεξάρτητες εννοιολογικές παραγράφους.
23
24. εκφωνητή του βίντεο. Ο ομιλητής μπορεί, δηλαδή, να είναι από εκφωνητής
ειδήσεων ή δημοσιογράφος ως και ένας απλός πολίτης ή ερευνητής ή
εργαζόμενος σε κάποια εταιρία, με ότι συνεπάγεται την πληθώρα των
περιστάσεων, όσον αφορά τις διάφορες προφορές και το επίπεδο
καλλιέργειας της γλώσσας. Ο αναγνωριστής λόγου μεταγράφει αυτόματα
το ηχητικό μέρος (soundtrack) του βίντεο, το οποίο στη συνέχεια
αποθηκεύεται σε ένα σύστημα ανάκτησης πληροφοριών πλήρους
περιεχομένου. Η βάση δεδομένων που συνεπώς δημιουργείται από την
καταγραφή του ηχητικού τμήματος πολυάριθμων βίντεο, επιτρέπει την
γρήγορη ανάκτηση ξεχωριστών παραγράφων. Οι παράγραφοι αυτοί
δημιουργήθηκαν από την κατάτμηση των βίντεο και η ανάκτησή τους
βασίζεται στο ηχητικό τμήμα και στο ερώτημα που θέτει ο χρήστης.
1.3. Προστασία δεδομένων
Ένα πρόβλημα που διευθετήθηκε στην αρχική έκδοση ήταν η προστασία
των δεδομένων και του πνευματικού εμπορίου της πνευματικής
κληρονομιάς και γι’ αυτό τον λόγο στις εμπορικές εκδόσεις του
συστήματος εισήχθηκε το σύστημα pay-per-view. Η ουσία του συστήματος
αυτού είναι ότι ο χρήστης πληρώνει ανάλογα με τα δεδομένα που ανακτά,
την ποιότητά τους και τον προμηθευτή από τον οποίο παρέχονται.
1.4. Multilingual Informedia
Εισαγωγή
Σταθμό στην πορεία της Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου
Carnegie Mellon αποτέλεσε το πρόγραμμα Multilingual. Σκοπός του ήταν
η διερεύνηση των πολυμεσικών πληροφοριακών πηγών σε
ειδησεογραφικά δεδομένα που προέρχονται από άλλες χώρες.
Οι ουσιαστικές αλλαγές που επήλθαν ήταν:
Ευρετηριάσεις πλήρους κειμένου, έρευνας και ανάκτησης κειμένου,
τεκμηρίων ήχου και βίντεο μέσω συνδεόμενων τεχνικών αναγνώρισης
ομιλίας και νέας στατιστικής επεξεργασίας της φυσικής γλώσσας.
Πρόσβαση πολύγλωσσων εγγράφων μέσω επερωτήσεων στην
αγγλική ή σε άλλες γλώσσες. Αγγλικές επερωτήσεις συνδυάζονται με
μετάφραση αντιστοιχιών επέκτασης σε κάθε στοχευμένη γλώσσα
(Γερμανικά, Σερβο-Κροατικά, και σαν επιλογή άλλες γλώσσες των
συμμαχικών δυνάμεων συμπεριλαμβανομένων των Γαλλικών,
Ιταλικών, Ισπανικών, Ιαπωνικών, Κορεάτικων).
Ένα λογισμικό μετάφρασης του οποίου η λειτουργία βασίζεται σε
λέξεις-κλειδιά, μετατρέπει τα διατυπωμένα σε αγγλική γλώσσα
ερωτήματα στην σερβο-κροατική γλώσσα επιτρέποντας την αναζήτηση
για ισοδύναμες λέξεις σε μία γενική συλλογή αγγλικών και
σερβοκροατικών ειδησεογραφικών αναμεταδόσεων.
24
25. Θεματικές επικεφαλίδες στα αγγλικά για την σερβοκροατική
ειδησεογραφία επιτρέπουν στον χρήστη να αναγνωρίζει αντίστοιχο
ρεπορτάζ στην ξένη γλώσσα.
Τμηματοποίηση βίντεο, ευρετηρίαση και περίληψη σε νοηματικά και
ευρετηριασμένα τμήματα, κατανοητές περιλήψεις γρήγορης
επισκόπησης, εργαλεία για εξαγωγή, επεξήγηση, και
επαναχρησιμοποίηση του σχεδιαζόμενου περιεχομένου.
Γενικός σκοπός του προγράμματος ήταν η ανάπτυξη αυτοματοποιημένων
συστημάτων και εργαλείων που θα επέτρεπαν την πολύγλωσση και
πολυμεσική σύλληψη πληροφοριών καθώς και την αναζήτηση, ανάκτηση,
περιληπτική παρουσίαση και την επαναχρησιμοποίησή τους. Το σύστημα
αυτό δημιουργήθηκε με βάση την τεχνολογία και την επικείμενη υποδομή
της Ψηφιακής Βιβλιοθήκης του Informedia. Στον χρήστη παρεχόταν πλέον
η δυνατότητα προσπέλασης γραπτών, ηχητικών και οπτικών
πληροφοριών όπως και στην αρχική έκδοση της βιβλιοθήκης με την
διαφορά ότι πλέον οι πληροφορίες διατίθονταν σε μία ή και περισσότερες
γλώσσες. Ακόμα, το σύστημα χρησιμοποιούσε τεχνικές για την
ευρετηρίαση, την κατηγοριοποίηση, και την ανάλυση πληροφοριών χωρίς
να αντιμετώπιζε γλωσσικούς περιορισμούς. Αρχικά, οι ερευνητές του
προγράμματος επικεντρώθηκαν στην σερβοκροάτικη γλώσσα για να
αποδείξουν την βιωσιμότητα και την πρακτικότητα του προτεινόμενου
εγχειρήματος.
Ενότητα 2 η
Τεχνικά θέματα
2.1. Αναβαθμίσεις λογισμικού του Informedia I
Μία από τις καινοτομίες που εισήχθησαν στην ψηφιακή βιβλιοθήκη του
Informedia ήταν ότι μέσω της διεπιφάνειάς της ο χρήστης μπορούσε να
εισάγει τόσο γραπτά όσο και προφορικά ερωτήματα προς το σύστημα.
Μία δεύτερη καινοτομία του συστήματος ήταν η διαδικασία που
αναφερόταν ως video skimming (επιταχυνόμενη επισκόπηση βίντεο). Η
διαδικασία αυτή επέτρεψε την επιταχυνόμενη επισκόπηση του βασικού
βίντεο και των ηχητικών ακολουθιών του από τον χρήστη. Για τη
διαδικασία αυτή δημιουργήθηκε μια περίληψη του βίντεο η οποία απέδιδε
την ουσία του περιεχομένου στο 5 έως 20% του αρχικού χρόνου, ενώ
παλαιότερα απλά αυξανόταν ο ρυθμός που έτρεχε το βίντεο χωρίς αυτό
να διευκολύνει ουσιαστικά τον χρήστη.
2.2. Multilingual Informedia
25
26. 2.2.1. Καινοτομίες
Μία καινοτομία που εισήχθη στο Multilingual Informedia είναι ότι πλέον
επιτεύχθηκε η συνεργασία αποσπασμένων ως τώρα περιοχών έρευνας. Η
συγκεκριμένη καινοτομία περιλαμβάνει τον αναγνωριστή λόγου-
ανεξάρτητου εκφωνητή, την ανάκτηση κειμένου και απευθείας περίληψη,
την μηχανική μετάφραση, την επεξεργασία εικόνας, την αυτόματη
σύλληψη και ψηφιακή επεξεργασία των πολυμεσικών πληροφοριών και
τέλος την έξυπνη βοήθεια στην δημιουργία και επαναχρησιμοποίηση των
πληροφοριών αυτών.
2.2.2. Αναβαθμίσεις
Η ερευνητική ομάδα στα πλαίσια ανάπτυξης του προγράμματος
Multilingual Informedia δημιούργησε και εισήγαγε ένα αρκετά πρωτότυπο
σύστημα: έναν πολύγλωσσο φυλλομετρητή (browser) κειμένου και
οπτικοακουστικού υλικού που δέχεται ερωτήματα διατυπωμένα στην
αγγλική γλώσσα και επιστρέφει τα πιο σχετικά ρεπορτάζ ή τμήματα αυτών
σε αγγλική και σερβοκροάτικη γλώσσα. Για παράδειγμα, παραθέτει
ειδησεογραφικά τεκμήρια των δύο αυτών γλωσσών δίνοντας την
δυνατότητα στον χρήστη να πληροφορηθεί και να συγκρίνει τους τρόπους
αντιμετώπισης ενός συγκεκριμένου θέματος ή γεγονότος σε δύο
διαφορετικές χώρες. Το λογισμικό που πραγματοποιεί την μετάφραση
ανοικοδομεί όλες τις λογικές ερμηνείες των λέξεων και των φράσεων του
αγγλικού ερωτήματος. Αποτέλεσμα της συγκεκριμένης διαδικασίας είναι η
δημιουργία ενός διευρυμένου ερωτήματος στην γλώσσα προορισμού,
δηλαδή στην σερβοκροάτικη χωρίς απώλεια αλλά με κάποιο κόστος στην
ακρίβεια.
Κεφάλαιο 3
Stanford Protocol Proposal for Internet Retrieval and Search
(STARTS)
26
27. Περίληψη
Εμφανίστηκε το 1996
Δημιουργήθηκε από την ψηφιακή βιβλιοθήκη του Stanford από
σύμπραξη εμπορικών μηχανών αναζήτησης και άλλων μηχανισμών
(Verity, WAIS, Infoseek, Microsoft Network, PLS)
Είναι ερευνητικό μοντέλο
Δεν βασίστηκε σε κάποιο άλλο μοντέλο
Μεταδεδομένα: περιγραφή χαρακτηριστικών πηγής (Mbasic-1,
GILS), περίληψη περιεχομένου πηγής (αντικείμενο SOIF).
Εφαρμoγές: Ψηφιακή Βιβλιοθήκη Πανεπιστημίου Stanford
Τεχνικά χαρακτηριστικά: σύνταξη των αιτημάτων με προσθήκη νέων
πεδίων και δεικτών, πρωτόκολλο επικοινωνίας μεταδεδομένων
Z39.50
Εισαγωγή
Μέχρι τώρα οι τωρινές μηχανές αναζήτησης (π.χ. Yahoo, Google,
Altavista):
δεν εξήγαγαν πληροφορίες σχετικά με τις πηγές (το πρόβλημα
πηγής-μεταδεδομένων)
χρησιμοποιούσαν διαφορετικές γλώσσες ερωτημάτων (το πρόβλημα
ερωτήματος-γλώσσας)
ταξινομούσαν τα αρχεία στα αποτελέσματα ερωτήσεων
χρησιμοποιώντας μυστικούς αλγόριθμους (το πρόβλημα
ταξινόμησης-συγχώνευσης)
Για να βελτιώσουν αυτήν την κατάσταση, η ομάδα σχεδίασης της
Ψηφιακής βιβλιοθήκης στο Πανεπιστήμιο Stanford ώθησε τους
ανθρώπους που ασχολούνται με την προώθηση των μηχανών
αναζήτησης (δηλ. του Search Engine Marketing) και άλλους σημαντικούς
συντελεστές, να σχεδιάσουν ανεπίσημα ένα πρωτόκολλο το οποίο θα
επέτρεπε βασικές αλληλεπιδράσεις των πηγών μεταξύ των τριών
παραπάνω περιοχών. Παρακάτω παρατίθεται το τέταρτο και τελικό
προσχέδιο της προσπάθειας ‘‘προτύπων’’. Αυτό εδώ το προσχέδιο
βασίζεται στην υποστήριξή του από την εξής ομάδα ανθρώπων: Excite,
Fulcrum, GILS, Harvest, Hewlett Packard Laboratories, Infoseek,
Microsoft Network, Netscape, PLS, Verity, και WAIS. Αυτό το προσχέδιο
συμπεριλαμβάνει υποστήριξη από τους συμμετέχοντες στο εργαστήριο
του STARTS το οποίο οργανώθηκε στο Stanford την 1 η Αυγούστου του
2006.
Ενότητα 1 η
Αρχιτεκτονική
1.1. Βασικά χαρακτηριστικά του μοντέλου Starts
27
28. Η αρχιτεκτονική του πρωτοκόλλου Starts βασίζεται σε ένα μεγάλο αριθμό
πόρων. Κάθε πόρος αποτελείται από μία ή περισσότερες πηγές και απλά
εξάγει πληροφορίες επικοινωνίας για τις πηγές τους. Μια πηγή είναι μια
συλλογή από αμετάβλητα αρχεία (π.χ. στο σχ. 5 δεν θεωρείται καμία
παρεμβολή στα συγκεκριμένα αρχεία) τα οποία συσχετίζονται με τις
μηχανές αναζήτησης, οι οποίες δέχονται ερωτήσεις από τους χρήστες και
δίνουν τα αντίστοιχα αποτελέσματα.
Το συγκεκριμένο πρωτόκολλο σχεδιάστηκε για επικοινωνία μεταξύ των
μηχανών (οι χρήστες δηλαδή δεν χρειάζεται να γράφουν τα επερωτήματα
χρησιμοποιώντας μια γλώσσα ερωτήσεων). Επίσης, όλες οι επικοινωνίες
με τις πηγές είναι μη καταργήσιμες και μη καθορισμένες.
σχ.5. Αρχιτεκτονική STARTS.
Γενικά, μία προχωρημένη μηχανή αναζήτησης ή ένας οποιοσδήποτε
τελικός αποδέκτης υπηρεσιών θα μπορούσαν τυπικά να διανείμουν
ερωτήματα σε πολλαπλές πηγές.
Βάση των παραπάνω προκύπτουν τα εξής χαρακτηριστικά για το μοντέλο
STARTS:
1) Διανομή της ερώτησης σε μία πηγή προς τον πόρο (όπως
αναφέρεται στο παρακάτω σχήμα ,σχ. 6, δηλ. Source 1) μπορεί να
προσδιορίσει άλλες πηγές στον πόρο όπου μπορούν επίσης να
αξιολογήσουν το ερώτημα (δηλ. Source 2).
2) Διανομή του ερωτήματος σε άλλες καλύτερες πηγές (ουσιαστικά σε
μικρά σύνολα από συλλογές με πολλά υποσχόμενους πόρους).
28