Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Accesso remoto, interfaccia ed architettura dell'informazione

1,048 views

Published on

AIB Toscana Formazione. Accesso all'informazione e collaborazione virtuale. Corso di aggiornamento finanziato dalla Regione Toscana per le biblioteche pubbliche (9 gennaio - 16 febbraio 2012). Giovanni Bergamin

Published in: Education
  • Be the first to comment

Accesso remoto, interfaccia ed architettura dell'informazione

  1. 1. Accesso all'informazione  e collaborazione virtuale Giovanni Bergamin 16 gennaio 2012
  2. 2. Che cosa sono i metadati <ul><ul><li>Non tanto “ dati relativi a (che informano su) altri dati ” </li></ul></ul><ul><ul><li>Ma (prendendo spunto da Karen Coyle) dati: </li></ul></ul><ul><ul><ul><li>costruiti con l ’ obiettivo di facilitare una determinata attività </li></ul></ul></ul><ul><ul><ul><li>azionabili e riusabili </li></ul></ul></ul><ul><ul><li>Una definizione funzionale: “ più grande è una biblioteca, più è necessario distinguere tra di loro i libri …” (Panizzi 1850) </li></ul></ul>
  3. 3. Alcuni esempi <ul><ul><li>3 diapositive da Karen Coyle </li></ul></ul><ul><ul><li>1 gita - mia - per sentieri toscani </li></ul></ul>
  4. 6. La nostra madre Terra Latitudine e longitudine metadati
  5. 10. Organizzare l ’ informazione <ul><ul><li>“ Librarians and Google share a similar mission: to organize the world's information and make it universally accessible and useful. ” </li></ul></ul><ul><ul><li>http://www.google.com/librariancenter/index.html </li></ul></ul><ul><ul><li>“ Universal Bibliographic Control (UBC) as a long-term programme for the development of a world-wide system for the control and exchange of bibliographic information ” [IFLA] </li></ul></ul>
  6. 11. Google è una Biblioteca Digitale? <ul><ul><li>Tesi 4 Manifesto : “ Le biblioteche digitali sono biblioteche ” </li></ul></ul><ul><ul><li>Che cosa è una biblioteca? </li></ul></ul><ul><ul><ul><li>a) un servizio di mediazione: organizzare la conoscenza per renderla accessibile </li></ul></ul></ul><ul><ul><ul><li>b) un servizio di “ custodia ” : si assicura che le risorse siano accessibili per il servizio a) che intende offrire </li></ul></ul></ul><ul><ul><ul><li>c) un mandato da parte della comunità di riferimento  per i servizi a) e b) </li></ul></ul></ul>
  7. 12. Di che cosa parleremo assieme <ul><ul><li>I metadati: </li></ul></ul><ul><ul><li>permettono il “ controllo ” di un progetto (di un servizio) a tutti i livelli </li></ul></ul><ul><ul><li>sono “ parte costitutiva ” di una risorsa digitale </li></ul></ul>
  8. 13. Metadati (definizioni e tipologie) <ul><ul><li>Non esistono solo i metadati descrittivi </li></ul></ul><ul><ul><li>Definizione funzionale </li></ul></ul><ul><ul><ul><li>metadati finalizzati al recupero della risorsa (metadati descrittivi ); </li></ul></ul></ul><ul><ul><ul><li>metadati necessari alla gestione della risorsa (metadati gestionali). </li></ul></ul></ul>
  9. 14. Chi li crea? <ul><ul><li>Automatica (generata dal software: il relevance ranking dei motori di ricerca; la marcatura delle foto digitali con le coordinate spazio temporali) </li></ul></ul><ul><ul><li>Alla fonte (p. es. l ’ autore) </li></ul></ul><ul><ul><li>Un intermediario (p. es. il bibliotecario) </li></ul></ul><ul><ul><li>L ’ utente (es connotea ,ma anche - indirettamente - nell ’ influenzare il risultato dei motori di ricerca ecc) </li></ul></ul>
  10. 15. Si parla di metadati <ul><ul><li>Con il diffondersi delle risorse digitali su web </li></ul></ul><ul><ul><li>… i tag “ meta ” delle pagine web </li></ul></ul><ul><ul><li>Una contrapposizione ormai superata: </li></ul></ul><ul><ul><ul><li>M. Gorman, catalogazione e “ metadata boys ” </li></ul></ul></ul><ul><ul><li>È necessario partire dalla “ risorsa digitale ” </li></ul></ul>
  11. 16. ISOC-- Resource <ul><ul><li>ISOC – RFC 2396 (URL, URI) </li></ul></ul><ul><ul><li>Tutto che quello che ha una identità può essere visto come “ risorsa ” come ad esempio un documento digitale, una immagine o un servizio (es. il bollettino meteorologico di oggi per Los Angeles), oppure una raccolta di altre risorse. </li></ul></ul><ul><ul><li>Non tutte le risorse sono ricuperabili in rete (=si possono avere con un “ clic ” ): ad es. gli esseri umani, i libri in una biblioteca possono essere considerati risorse (ma non si possono avere con un “ clic ” ) </li></ul></ul>
  12. 17. OAIS – Content information <ul><ul><li>Content information come insieme di: </li></ul></ul><ul><ul><ul><li>Content data object </li></ul></ul></ul><ul><ul><ul><li>Representation information </li></ul></ul></ul><ul><ul><li>Distingue tra (metadati esterni): </li></ul></ul><ul><ul><ul><li>Descriptive information </li></ul></ul></ul><ul><ul><ul><li>Packaging information </li></ul></ul></ul><ul><ul><ul><li>Preservation description information </li></ul></ul></ul>
  13. 18. PREMIS – Digital object <ul><ul><li>Digital object come unità distinta di informazione in forma digitale suddiviso in tre tipologie </li></ul></ul><ul><ul><ul><li>File (bit più formato) </li></ul></ul></ul><ul><ul><ul><li>Bitstream (parte di un File) </li></ul></ul></ul><ul><ul><ul><li>Representation (uno o più File in grado di veicolare una Intellectual entity ) </li></ul></ul></ul>
  14. 19. PREMIS – Digital object -2 <ul><ul><li>definisce la Intellectual entity come “ insieme coerente di contenuti  identificato, descritto e trattato come unità ” </li></ul></ul><ul><ul><li>definisce nel dettaglio i Preservation metadata : ovvero quelle specifiche informazioni che un “ archivio ” ha bisogno di conoscere per supportare il processo di conservazione </li></ul></ul>
  15. 20. ISO 27001 - Asset <ul><ul><li>Tutto quello che ha valore per una organizzazione e per il quale occorre assicurare disponibilità, confidenzialità, integrità </li></ul></ul>
  16. 21. ISO21000/MPEG21 – digital item / resource <ul><ul><li>digital item (elemento) = oggetto digitale strutturato e normalizzato a livello di rappresentazione, identificazione e metadati </li></ul></ul><ul><ul><li>Resource = qualsiasi bene (asset) che sia identificabile (una immagine, un brano audio, un testo – il livello di granularità non è predeterminato) </li></ul></ul>
  17. 22. Dati e Metadati <ul><ul><li>a. dati – le sequenze di bit </li></ul></ul><ul><ul><li>b. metadati interni (formati) </li></ul></ul><ul><ul><li>c. metadati esterni (possono essere distinti per tipologie funzionali, es. metadati descrittivi, metadati per i diritti d ’ uso della risorsa, ecc.) </li></ul></ul>
  18. 23. Risorse: Dati e metadati - 2 <ul><ul><li>di solito per risorsa si intende a. + b. </li></ul></ul><ul><ul><li>per metadati si fa riferimento a c. </li></ul></ul><ul><ul><li>Le risorse possono essere viste/trattate a differenti livelli di granularità di ordine logico e fisico </li></ul></ul>
  19. 24. Le risorse digitali sono “ oggetti sociali ” <ul><ul><li>a differenza degli oggetti naturali,   stanno nello spazio e nel tempo solo per il fatto che soggetti li rappresentano . </li></ul></ul><ul><ul><li>In particolare l' oggetto sociale: </li></ul></ul><ul><ul><ul><li>“ è il risultato di atti sociali ” (sono coinvolti almeno due soggetti); </li></ul></ul></ul><ul><ul><ul><li>è caratterizzato dal fatto di essere “ iscritto su carta, su un file di computer, o anche semplicemente nella testa delle persone ” [M. Ferraris]. </li></ul></ul></ul>
  20. 25. Le risorse digitali sono “ oggetti sociali ” - 2 <ul><ul><li>Rispetto alla “ iscrizione ” su carta – tipica della risorsa tradizionale (ad esempio, il libro) – quella su file presenta almeno due sostanziali novità: </li></ul></ul><ul><ul><ul><li>l'indipendenza della risorsa dalla fisicità del supporto (un file come sequenza di bit può essere facilmente riprodotto e viene meno la distinzione tra originale, copia, clone e duplicato); </li></ul></ul></ul><ul><ul><ul><li>la dipendenza della risorsa dalle tecnologie informatiche con tutti i ben noti rischi (ad esempio l'obsolescenza di una tecnologia pregiudica la fruibilità di un file - magari perfettamente  conservato a livello di bit). L'espressione metadati interni o formato rende evidente questo particolare tipo di “ iscrizione ” che consiste nel mettere i bit in un determinato ordine. </li></ul></ul></ul>
  21. 26. Come bibliotecari siamo consapevoli da tempo che i metadati durano più a lungo delle applicazioni
  22. 27. Siamo anche consapevoli che il MARC non basta più …
  23. 28. Il problema <ul><ul><li>“ Sebbene i sistemi possano oggi esporre i metadati per la raccolta automatica e standardizzata (harvesting es OAI) le risorse digitali rimangono ancora rinchiuse in contenitori di tipo proprietario ” </li></ul></ul><ul><ul><li>Dobbiamo rompere questi contenitori ed esporre la semantica delle risorse depositate: la struttura di una risorsa  dovrebbe essere esplorabile da una macchina senza l'intervento dell'essere umano che clicca e segue un link ” [M Witt - 2010] </li></ul></ul>
  24. 29. La ricetta di TBL: il web semantico <ul><ul><li>Usa URI per identificare dati e metadati </li></ul></ul><ul><ul><li>Usa HTTP URI così che possono essere cliccate(&quot; dereferenced &quot;) sia dalle persone che da user agents . </li></ul></ul><ul><ul><li>Quando l ’ URI viene cliccata dalle macchine rispondi con informazioni in formati standard come RDF/XML . </li></ul></ul><ul><ul><li>Includi tra le informazioni collegamenti a altre URI nel web . </li></ul></ul>
  25. 30. La ricetta di VDS: OAI - ORE <ul><ul><li>“ Open Archives Initiative Object Reuse and Exchange (OAI-ORE) definisce standard per la descrizione e lo scambio di aggregazioni di risorse presenti in rete ” </li></ul></ul><ul><ul><li>“ L'obiettivo di questi standard è di esporre la ricchezza di queste aggregazioni alle applicazioni che supportano la creazione, il deposito, lo scambio, la visualizzazione, il riuso e la conservazione ” </li></ul></ul>
  26. 31. OAI - ORE in breve <ul><ul><li>Fornisce convenzioni per aggregare dati primari (o dati tout court ) e secondari (o metadati )  in un contenitore  che rispetta una delle seguenti sintassi:  RDF/XML, Atom XML oppure RDFa </li></ul></ul><ul><ul><li>E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity) </li></ul></ul><ul><ul><li>I dati e metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo indirizzo di tipo URL) </li></ul></ul><ul><ul><li>E' una proposta consapevole del Web semantico (in generale e dei Linked data (in particolare) </li></ul></ul>
  27. 33. Scenari - 1
  28. 34. Scenari - 2 <ul><ul><li>http://openlibrary.org/authors/OL22022A/Barbara_Cartland </li></ul></ul><ul><ul><li>http://openlibrary.org/authors/OL22022A.rdf </li></ul></ul><ul><ul><li>http://viaf.org/viaf/64003092/#Cartland,_Barbara,_1902-2000 </li></ul></ul><ul><ul><li>http://viaf.org/viaf/64003092/rdf.xml </li></ul></ul><ul><ul><ul><li>[dal blog di Karen Koyle, 2011-04-24] </li></ul></ul></ul>
  29. 35. Un identificatore di tipo URI = 1 risorsa identificata e descritta (da tutti riusabile)? <ul><ul><li>http://richard.cyganiak.de/2007/10/lod/imagemap.html </li></ul></ul><ul><ul><li>http://www.w3.org/2005/Incubator/lld/wiki/Cluster_BibData </li></ul></ul><ul><ul><li>Ci vuole un Indice (anzi un Sindice )? </li></ul></ul>
  30. 36. Intanto … uso diffuso dei formati di aggregazione <ul><ul><li>WARC </li></ul></ul><ul><ul><li>MAG </li></ul></ul><ul><ul><li>METS </li></ul></ul><ul><ul><li>BAGIT </li></ul></ul>
  31. 37. WARC ISO 28500 <ul><ul><li>Il formato WARC (Web ARChive) mette a disposizione convenzioni per concatenare in un file - anche di grandi dimensioni - risorse digitali anche eterogene </li></ul></ul><ul><ul><ul><li>le risorse digitali sono viste come Bitstream (PREMIS), </li></ul></ul></ul><ul><ul><ul><li>ogni Bistream è composto da una intestazione testuale e da un blocco di dati di lunghezza non predefinita </li></ul></ul></ul><ul><ul><li>E' usato nei progetti di archiviazione del web </li></ul></ul><ul><ul><li>Deriva dal formato ARC  ( Internet Archive ) e viene usato per la raccolta (harvesting) dei siti web . </li></ul></ul>
  32. 38. WARC ISO 28500 - 2
  33. 39. WARC pro e contro <ul><ul><li>[p] facilita l'archiviazione di massa in un file system convenzionale (come i contenitori ci aiutano a mettere ordine in un ripostiglio che contiene una rilevante quantità di oggetti di differenti dimensioni) </li></ul></ul><ul><ul><li>[p] ha dato prova di essere scalabile: archiviazione e accesso a grandi quantità di dati per Internet Archive </li></ul></ul><ul><ul><li>[p]  si possono trovare in rete tutti gli strumenti per la gestione di questo tipo di file </li></ul></ul><ul><ul><li>[p] E' uno standard ISO  </li></ul></ul><ul><ul><li>[c] E' pensato per l'archiviazione dei siti web </li></ul></ul>
  34. 40. MPEG21 DIDL <ul><ul><li>MPEG-21 (ISO 21000) è uno standard ISO  che  “ definisce un insieme di regole per la fornitura e l'uso (comsumption) delle risorse digitali  ” </li></ul></ul><ul><ul><li>DIDL = Digital Item Declaration Language per la rappresentazione di oggetti digitali complessi ; </li></ul></ul><ul><ul><ul><li>is the part 2 (out of 10) of MPEG-21 </li></ul></ul></ul>
  35. 41. MPEG 21 DIDL - 2 <ul><ul><li>Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)   </li></ul></ul><ul><ul><li>E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity) </li></ul></ul><ul><ul><li>I dati e metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo indirizzo di tipo URL) </li></ul></ul><ul><ul><li>I dati di tipo binario - se inseriti all'interno del contenitore XML - sono codificati in BASE64 come gli allegati delle nostre mail </li></ul></ul>
  36. 43. MPEG21 DIDL pro e contro <ul><ul><li>[p] sintassi XML basata su uno Schema XML  </li></ul></ul><ul><ul><li>[p] è uno standard per tutte le risorse digitali (non è limitato alle sole biblioteche) </li></ul></ul><ul><ul><li>[p] è uno standard ISO  </li></ul></ul><ul><ul><li>[p] usato dai sw per IR (Eprints, Dspace ecc) </li></ul></ul><ul><ul><li>[c] non ci sono molti strumenti open source per la gestione dei file DIDL </li></ul></ul>
  37. 44. METS <ul><ul><li>METS = Metadata Encoding and Transmission Standard </li></ul></ul><ul><ul><li>Uno Schema  XML per   “ codificare metadati  descrittivi, amministrativi e strutturali  relativi a risorse digitali di una biblioteca digitale&quot; </li></ul></ul><ul><ul><li>Mantenuto dalla Library of Congress e sviluppato come una  iniziativa della Digital Library Federation. </li></ul></ul>
  38. 45. METS 2 <ul><ul><li>Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)   </li></ul></ul><ul><ul><li>E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity) </li></ul></ul><ul><ul><li>I metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo un indirizzo di tipo URL) </li></ul></ul><ul><ul><li>I dati non possono essere inseriti all'interno del contenitore XML ma devono essere  referenziati (dei dati dentro il file XML troviamo sempre e solo un indirizzo di tipo URL) </li></ul></ul>
  39. 47. METS pro e contro <ul><ul><li>[p]  sintassi XML basata su uno Schema XML </li></ul></ul><ul><ul><li>[p] oggi molto usato (anche da GBS … ) </li></ul></ul><ul><ul><li>[p] Ci sono molti strumenti open source disponibili </li></ul></ul><ul><ul><li>[c] limitato ai progetti di digitalizzazione </li></ul></ul>
  40. 48. MAG <ul><ul><li>Uno Schema  XML per  codificare metadati  descrittivi e gestionali </li></ul></ul><ul><ul><li>un progetto tutto italiano </li></ul></ul><ul><ul><li>Esistono XSLT per la trasformazione da MAG in METS </li></ul></ul>
  41. 49. MAG - 2 <ul><ul><li>Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati) </li></ul></ul><ul><ul><li>E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity) </li></ul></ul><ul><ul><li>I metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo un indirizzo di tipo URL) </li></ul></ul><ul><ul><li>I dati non possono essere inseriti all'interno del contenitore XML ma devono essere  referenziati (dei dati dentro il file XML troviamo sempre e solo un indirizzo di tipo URL) </li></ul></ul>
  42. 51. MAG pro e contro <ul><ul><li>[p] Una risposta a problemi reali (nasce più di 10 anni fa quando METS era ancora agli albori):   … semplice ma applicabile subito </li></ul></ul><ul><ul><li>[c] usato solo in Italia </li></ul></ul>
  43. 52. Bagit <ul><ul><li>Specifiche per aggregare risorse digitali al fine di facilitare il trasferimento tra archivi </li></ul></ul><ul><ul><li>Creato dalla Library of Congress –   con la California Digital Library e la Stanford University </li></ul></ul><ul><ul><li>Le risorse sono aggregate per formare un bag comprendente - oltre alle risorse  - anche una etichetta di tipo testuale  (il   tag ) che ha lo scopo di facilitare il ricevimento, l'archiviazione e il recupero delle risorse </li></ul></ul><ul><ul><li>E' di solito usato per inviare risorse digitali a un deposito che si fa carico della conservazione </li></ul></ul>
  44. 54. Bagit pro e contro <ul><ul><li>[p] Buona diffusione (a partire dalla Library of Congress). </li></ul></ul><ul><ul><li>[p] facile da capire e da implementare (in pratica uno zip ...) </li></ul></ul><ul><ul><li>[p] molti strumenti disponibili per l'utente  </li></ul></ul><ul><ul><li>[c] limitata standardizzazione dei metadati  </li></ul></ul>
  45. 55. Per una discussione - 1 <ul><ul><li>I formati per l'uso delle risorse digitali oggi più diffusi non fanno uso di RDF (e a volte nemmeno di XML) </li></ul></ul><ul><ul><li>Esiste da tempo una buona sperimentazione con soluzioni che spesso si sovrappongono </li></ul></ul><ul><ul><li>Qualche segnale da considerare: </li></ul></ul><ul><ul><ul><li>L'acquisizione da parte di Google di Freebase </li></ul></ul></ul><ul><ul><ul><li>46 milioni di DOI disponibili come Linked data (aprile 2011) </li></ul></ul></ul><ul><ul><ul><li>la comparsa di OAI-ORE nei sw per i repository istituzionali (Eprints, Dspace ecc) </li></ul></ul></ul>
  46. 56. Per una discussione - 2 <ul><ul><li>l'enorme produzione di open data (anche se non linked) </li></ul></ul><ul><ul><li>la discussione su un  tld .data </li></ul></ul><ul><ul><li>l'emergere di strumenti utili &quot;a prescindere&quot; p. es Google Refine, Google Fusion Tables, SILK, MINT, D3  </li></ul></ul>

×