1. La biblioteca digitale:
interrogazione e gestione degli oggetti
digitali
SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito
1
2. LA BIBLIOTECA DIGITALE E IL WEB
IPERTESTO
Insieme di documenti messi in
relazione tra loro per mezzo di parole
chiave.
Può essere visto come una rete:
i documenti ne costituiscono i nodi.
IPERTESTO = CAPACITA’ CONNETTIVA
IPERTESTO = FACILITA’ DI ACCESSO AI
DOCUMENTI DIGITALI
2
3. COME FUNZIONA IL WEB
CLIENT
(utente)
SERVER
(recupero documenti digitali da
vari repositories)
WEB
(sistema di intermediazione)
3
4. IL REPOSITORY
Non un semplice archivio di dati
Server che contengono
dati e software
Repository = archivi software
Un repository è un "deposito" online di
software dal quale attingere, ad es., dei
programmi per un'installazione
semplificata.
4
5. IL REPOSITORY (definizione)
Un Repository
(ital. deposito o ripostiglio)
è un ambiente di un sistema
informativo
in cui vengono gestiti i metadati,
attraverso tabelle relazionali;
l'insieme di tabelle, regole e motori di
calcolo tramite cui si gestiscono i
metadati
si chiama metabase.
Si tratta di qualcosa di più sofisticato del mero dizionario dati, ed è un ambiente
che può essere implementato attraverso numerose piattaforme hardware
e sistemi di gestione dei database (o DBMS, acronimo di DataBase Management Systems).
5
6. RAPPORTO TRA LA BD E IL WEB
Web = tecnologia per la trasmissione
dei dati
Web = tecnologia «editoriale». Modo di
organizzare e pubblicare i dati
all’interno della Biblioteca Digitale.
(SISTEMA DI REFERENCE IPERTESTUALE)
Web = formattazione dei dati
(.pdf, .html, .doc)
6
7. GLI STANDARD DEL WEB
HTML
(Hyper-Text Markup Language)
URL
(Uniform Resource Locator)
HTTP
(Hyper-Text Transfer Protocol)
7
8. HTML
HTML è l'acronimo di
Hyper Text Markup Language
("Linguaggio di contrassegno per gli Ipertesti")
con cui sono scritte le pagine web.
Attraverso dei marcatori, detti "tag", indica
come disporre gli elementi all'interno di una
pagina web:
•che sfondo applicare alla pagina
•che carattere e grandezza usare per il testo
•dove disporre le immagini
•dove inserire tabelle e liste
•porre dei collegamenti ad altre parti
all'interno della pagina o del sito stesso o a
8
risorse esterne
9. XHTML
Necessità di soluzioni grafiche
sempre più sofisticate?
Solo la struttura delle pagine è
definita tramite TAG.
Le specifiche grafiche sono
realizzate tramite i CSS
(o FOGLI DI STILE)
9
10. CSS
I fogli di stile o CSS
(acronimo di Cascading Style Sheets)
sono uno strumento di formattazione
delle pagine web che consente di
personalizzare l'aspetto della pagina
senza agire direttamente sul codice
HTML della stessa.
Grazie ai CSS è possibile:
•definire i margini del documento;
•definire lo stile dell testo;
•dare l'allineamento al testo;
•gestire lo sfondo della pagina o di singoli
elementi;
•gestire elementi testuali e d'immagine;
•creare effetti di transizione;
•rendere dinamici i link
10
11. Dall’HTML all’XML
XML (eXtensible Markup Language)
nasce dall’intento di applicare il
paradigma dei tag in campi diversi
dalla presentazione di ipertesti
•Si basa sul markup in modo simile
ad HTML
•XML è pensato per descrivere dati
•I tag XML non sono predefiniti
•XML non è un linguaggio, ma un
insieme di regole per costruire
linguaggi (metalinguaggio)
11
12. URL
L'Url, acronimo di
Uniform Resource Locator,
è una sequenza di caratteri
che identifica l'indirizzo
di una risorsa su Internet
(collocazione del documento
all’interno del server)
SI: http://www.google.it
NO: «404 Object Not Found»
12
14. HTTP
L'Hyper Text Transfer Protocol
(HTTP) e' un protocollo di
comunicazione utilizzato per il
trasferimento delle pagine web
in internet.
Esso viene utilizzato durante la
navigazione in rete attraverso i
piu' comuni browser (Internet
Explorer, Firefox, Safari e simili)
14
15. Protocollo Z39.50
Z39.50 = Protocollo specifico per
l’INFORMATION RETRIEVAL
(recupero informazioni tra server
in rete):
•L’informazione bibliografica
viene strutturata in un formato
standard (UNIMARC)
•Sessione di lavoro
15
16. Il protocollo Z39.50. Caratteristiche
Il protocollo Z39.50 è uno standard dell’American National
Standards Institute. E' mantenuto dalla Library of Congress e
detta le regole per la ricerca ed il recupero delle informazioni
(Information Retrieval). La sua funzione e la sua struttura sono
nate per facilitare l' interoperabilità tra sistemi in rete.
Rende possibile consultare le basi dati di qualsiasi biblioteca (ma
è usato anche per basi dati non bibliografiche, quali quelle
multimediali), indipendentemente da quale sia il suo sistema di
database.
Le potenzialità di questo protocollo stanno nel consentire
la consultazione di basi dati molto diverse tra loro attraverso
un
unico linguaggio di interrogazione e con un'unica interfaccia.
16
17. HTTP Vs Z39.50
STATELESS contro SESSIONE DI RICERCA
Anche se nella ricerca Web è possibile navigare
(browsing) all'interno dei campi della registrazione
bibliografica verso altre registrazioni bibliografiche in
una navigazione virtualmente infinita.
Questa operazione non è effettuata in un ambiente
basato su Z39.50, che utilizza invece una logica di tipo
booleano.
17
18. Z39.50: Origin e Target
Il protocollo è basato
sull'architettura CLIENT/SERVER
Specifica le strutture dei dati e le regole di
scambio, che permettono ad un sistema client
(chiamato Origin) di effettuare ricerche nelle
basi dati di un sistema server (chiamato Target)
e poter consultare i records risultanti.
18
19. I punti di accesso
al SERVER SBN Z39.50
L'utente che effettua ricerche su server Z39.50,
può scegliere per ciascuno dei punti di accesso
le modalità di ricerca che ritiene più funzionali.
Il profilo SBN offre una serie di opzioni.
Alcune di queste opzioni sono state definite come valori di
default, nel senso che, se l'utente non seleziona la modalità di
ricerca, il sistema ne sceglie automaticamente una
preimpostata.
I canali di ricerca sono: (1=nome personale, 4=titolo, etc.),
mentre gli attributi di struttura specificano il tipo di ricerca
(6=lista parole, 1=frase, etc.): SEMANTICS. 19
20. Opzioni di accesso al SERVER
SBN Z39.50
Frase (1) La frase consiste di uno o più gruppi di caratteri separati da spazi
vuoti. Il valore può essere cercato esattamente come appare nel termine di
ricerca rispettando l'ordine delle parole e l'adiacenza.
Parola (2) Una parola consiste in un gruppo di caratteri. Specifica che la
parola è da ricercare esattamente, a meno che non sia esplicitamente
troncata. Il termine parola non contiene spazi vuoti.
Anno (4) Una ricerca per anno consiste in un termine numerico composto da
4 caratteri.
Data normalizzata (5) Il giorno, mese, anno e ora in cui una transazione o
evento si è svolto.
Lista parole (6) Una lista di parole consiste in una o più parole separate da
spazi vuoti. Non è considerato l'ordine delle parole. Ogni singola parola può
essere troncata.
Stringa (108) Il termine di ricerca è trattato come una stringa, una sequenza
o un insieme di parole singole. 20
21. La struttura della richiesta
La richiesta si costruisce utilizzando degli operatori booleani
(AND, OR, AND-NOT), e degli operandi.
Un operando è formato dal termine di ricerca, che può essere
una parola, un numero, una frase, un gruppo di parole, e da un
attributo riferito al termine. Ad esempio nella stringa
"autore=Rossi", "autore" è l'attributo, "Rossi" il termine.
Gli attributi possono essere di vari tipi, bibliografici (ad esempio
"autore persona", "titolo"), di relazione (ad esempio "maggiore
di"), di posizione (ad esempio "prima posizione nel campo"), di
struttura (ad esempio "frase", "parola"), di troncamento (ad
esempio "troncamento a destra"), di completezza (ad esempio
"sottocampo parziale")
21
23. «In altre parole alla risposta finale si potrà arrivare attraverso
approssimazioni successive perché successive richieste
del client possono basarsi sulle precedenti risposte ottenute
dal server, che vengono riutilizzate dal server stesso. E’
questa una tradizionale funzione dell'information retrieval:
per ciascuna richiesta vengono creati dei gruppi (sets) di
registrazioni che soddisfano la richiesta e questi gruppi
costituiscono la base per ulteriori elaborazioni. Da questo
punto di vista Z39.50 è senz'altro uno strumento più potente
e raffinato per eseguire ricerche bibliografiche.»
Antonio Scolari, World Wide Web e Z39.50: standard per la
ricerca a confronto, Bollettino AIB, Vol 36, N° 4 (1996)
(Versione online all’indirizzo
http://bollettino.aib.it/article/view/8181/)
23
24. IL PROTOCOLLO Z39.50. UN DIALOGO IMMAGINARIO
“OK, let's try explaining it with an example...
Simplifying, Init might be seen as a greeting from the Origin ("Hello, do you
speak English?") and a related response from the Target ("Hello. Yes, I do.
Let's talk"). Without this positive two-way dialogue, the session cannot
proceed.
A Search request is then transmitted from the Origin ("OK — can I have
everything you've got about a place called 'Bath'?"), and is responded to by
the Target ("I've got 25 records matching your request, and here are the
first five. As you didn't specify anything else, I've sent them to you in
MARC format, so I hope that's OK").
Finally, the Origin uses Present to ask for the data they want ("25, eh? Can
I have the first ten, please. Oh, and I don't really like MARC. If you can
send me some Dublin Core that would be great, and if not I'll settle for
some unstructured text (SUTRS)"), resulting in the transmission of the
records themselves from the Target.
24
AH... NOW I UNDERSTAND...»
25. Riferimenti bibliografici
- Alberto Salarelli, Anna Maria Tammaro, La
biblioteca digitale, Nuova ed., Milano,
Bibliografica, 2006.
- Susanna Peruginelli, Metadati descrittivi e
biblioteca digitale, 2006
(http://www.rinascimento-
digitale.it/eventi/seminari2006/metadati/MetadatiDescrittivi-
BD-Peruginelli.pdf)
- Claudio Gnoli, Il tavolino di Ranganathan
(http://didattica.spbo.unibo.it/bibliotime/num-iii-3/gnoli.htm )
25