Conferenza tenuta presso la ex SSAB da Anna Lucarelli il 3-05-2013 nell'ambito del 7. ciclo "Biblioteche libri documenti: dall'informazione alla conoscenza", a.a. 2012-2013, Prof.ssa M.T. Biagetti
Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli
1. 1
La conversione dei metadati del Thesaurus del
Nuovo soggettario nel formato SKOS/RDF
Problematiche generali
Anna Lucarelli
(Biblioteca Nazionale Centrale Firenze)
3 maggio 2013
Università di Roma La Sapienza
Dip. Scienze Documentarie, Linguistico-
Filologiche e Geografiche
(blog.semantic-web.at)
2. 2
Sommario
• Nuovo soggettario:
uno strumento di indicizzazione in colloquio con altri strumenti (di
ambito bibliotecario e non)
• Dall’interoperabilità semantica a quella tecnica: evoluzione del NS
nell'ottica del Web semantico
• L’impiego dello standard SKOS per potenziarne l'interoperabilità
– Un work in progress
– Le caratteristiche
– I punti critici
– Le nostre soluzioni attuali
• Dati qualitativi e quantitativi della conversione in SKOS del Thesaurus
3. 3
Uno strumento italiano per l’indicizzazione semantica
Due settori della BNCF al lavoro:
1. “Ricerche e strumenti di indicizzazione semantica”
2. “Servizi informatici”
Il Nuovo soggettario concepito per
• l’indicizzazione e la ricerca di risorse eterogenee
• l’uso da parte biblioteche generali e specializzate
• l’uso in ambito archivistico, museale, ecc.
• l’integrazione con gli Opac
Un apparato di regole semantiche e sintattiche
Un sistema a più componenti
4. 4
I Prodotti
del Nuovo soggettario
Corredo sintattico – applicativo
• Note sintattiche
• Manuale applicativo
(on-line da febbraio 2010)
OPAC
Archivio dei soggettiAggiornamenti semestrali
5. 5
Il primo Thesaurus italiano generale (“universale”)
• disponibile sul Web dal 2007: http://thes.bncf.firenze.sbn.it/ricerca.php
da aprile 2013 con interfaccia anche in inglese
• strumento “in progress”, in continua evoluzione
ad oggi oltre 47.800 termini
dati quantitativi disaggregati
• costruito secondo gli standard ISO
• integrato con l’OPAC della BNCF
• interoperabile con altri thesauri, con enciclopedie,
ecc.
• prevede accessi multilingue
6. 6
Uno strumento costruito in cooperazione
Accoglie e gestisce terminologia proposta da altre biblioteche, istituzioni, archivi
Biblioteca Naz. Centrale
Firenze
Privati
IDEST (LIBER)
ICCU - Istituto centrale per il catalogo
unico delle biblioteche italiane e per le
Informaz. bibliografiche
Biblioteche generali e special.
Universitarie
Mario Rostoni – LIUC
Università di Pisa
Università degli studi di Milano
Università Bocconi
Altre biblioteche
Biblioteca Centrale Giuridica
Accademia della Crusca
Polimoda
Reti di biblioteche
Biblioteche ecclesiastiche
COBIS
SDIAF
CNR
Istituto di Teoria e Tecnica della
Informazione giuridica (ITTIG)
Ambiti della cooperazione:
1. proposte di terminologia per l’incremento del Thesaurus
2. interoperabilità semantica e tecnica
Istituto Enciclopedia
Italiana Treccani
- Sopr. Archivistica Toscana
- Cesvot
7. 7
Esempi di termini del Nuovo soggettario
che attivano interoperabilità
STRUTTURA del RECORD
Dati gestionali
Area delle note e altri
elementi
Area delle relazioni
storiche
Area delle relazioni
standard
Area del termine
Web semantico Motori di ricerca Mediatori Badanti
Questi esempi evidenziano collegamenti con altri
strumenti come Thesauri, altri sistemi di indicizzazione (es.
LCSH), Enciclopedie on-line, ecc.
In particolare:
•Web semantico DDC23 ; Wikipedia; Rameau; LCSH
•Motori di ricerca proposto da Bocconi; relazioni recipr.
LIUC /NS; da rdf: Treccani non
espone i dati in SKOS
•Mediatori relazioni reciproche LIUC / NS
•Badanti relazioni reciproche Acc. Crusca / NS
8. 8
Linee di sviluppo del NS (2010-2013)
1. Interoperabilità
– metadati disponibili in:
• Zthes dal 2007
• SKOS/RDF dal 2010 http://thes.bncf.firenze.sbn.it/thes-dati.htm
– Implementazione di collegamenti con altri strumenti online
http://digitale.bncf.firenze.sbn.it/NS-SPARQL/ (pag.provvisoria)
– uso del NS in ambiti non bibliotecari (es. opendata del Comune di
Firenze; Cesvot)
2. Indicizzazione (semi) automatica
sviluppi in linea con quanto si sta realizzando in altri Paesi
nell'ambito dell'indicizzazione
9. 9
SKOS per i Thesauri
• Simple Knowledge Organisation System
sviluppato dal W3C Semantic Web Deployment Working Group (SWDWG)
• SKOS si autodefinisce come data model
– il suo oggetto non sono le cose (entità) ma i concetti e le gerarchie
concettuali presi in considerazione senza un diretto riferimento alle cose
(entità)
– I concetti sono considerati indipendentemente dalla loro espressione
linguistica/letterale
L’assegnazione di un valore univoco ai concetti facilita l’interoperabilità
tra KOS differenti, cioè la possibilità di mappare entità semantiche di
schemi concettuali diversi
• Utilizza il linguaggio RDF (Resource Description Framework)
• Largamente usato per far migrare Thesauri esistenti (conformi a ISO)
nel mondo dei Linked data
10. 10
SKOS, i metadati e la terminologia del Web semantico
Nell'ambito del web semantico non si è ancora raggiunto un
consenso nell'uso della terminologia di settore. La tabella che
segue mostra concordanze e differenze di significati.
Nella colonna di destra possibili usi italiani nella terminologia
relativa ai metadati, secondo una proposta elaborata da Giovanni
Bergamin
12. 12
Etichette SKOS
L’assegnazione di un valore univoco ai concetti facilita
l’interoperabilità tra KOS differenti, cioè la possibilità di mappare
entità semantiche di schemi concettuali diversi.
A tale scopo, lo standard definisce alcune “etichette”
Le relazioni thesaurali tra concetti vengono codificate con le
seguenti “etichette”:
skos:closeMatch / skos:exactMatch (differenti livelli di equivalenza)
skos:broaderMatch
skos:narrowerMatch
skos:relatedMatch
13. 13
Il Thesaurus del Nuovo soggettario nel formato SKOS
• Prima mappatura nel 2010
• Il lavoro ha seguito varie fasi ed è in continua evoluzione
La Scomposizione non ha trovato
un’adeguata esplicitazione in SKOS
Hanno tutte trovato un’adeguata
esplicitazione in SKOS
– Collezioni / etichette di nodo
– Relazione di variante storica
(per termini che hanno cambiato forma)
– Relazione di scomposizione
Note
• Definizione
• Scope note
• History note
• Fonti
• DDC, ecc.
Problemi incontratiNessun problema
16. 16
Composizione / Scomposizione
• In SKOS non è prevista la relazione tra concetti (Concept) e termini (Label)
• Estensione SKOSXL ? Non abbiamo trovato applicazioni. Proposta una
soluzione nell’ambito del Thesaurus Eurovoc.
17. 17
Implementazione dei linked data
Come abbiamo potuto vedere dagli esempi mostrati, nel NS le corrispondenze
possono essere attivate mediante:
• “Citazione” nel campo “Fonte” dello strumento che si desidera collegare
(es. Agrovoc, Treccani ecc).
Se il “citato” è disponibile in SKOS/RDF, NS si arricchisce della relazione
skos:closeMatch
• Indicazione esplicita di equivalenza nel campo apposito Equiv. LCSH
(corrispettivi previsti da Library of Congress Subject Headings)
Viene utilizzata la relazione closeMatch, concettualmente più ampia di
exactMatch inizialmente impiegata
• Viene creato sempre un deep link allo strumento “citato”
• Le diverse scelte e “politiche” di LoC; BNF; DNB: es. Basque language
21. 21
Pubblicazione dei dati e trasparenza informativa
• Dati pubblicati open source: http://thes.bncf.firenze.sbn.it/thes-dati.htm
• Licenza Creative Commons
(dati usabili liberamente purché ne venga citata la paternità BNCF)
http://creativecommons.org/licenses/by/2.5/it/deed.it
• Non imponiamo la registrazione a chi scarica il nostro SKOS (Agrovoc invece
chiede di registrarsi prima di scaricare i dati)
Il nostro interesse è che il Nuovo soggettario venga utilizzato:
non vogliamo blindare lo strumento!!
• Al momento possiamo:
– Avere statistiche sugli accessi al server
– Vedere quali e quanti utenti lo scaricano, anche mese per mese, anno per anno
Anche nel mondo del Web semantico è importante lavorare sul piano
delle politiche oltre che delle tecnologie !! …..