10.Open Archive

Architetture e protocolli
dell’OPEN ARCHIVE

Sapienza Università di Roma
Anno Accademico 2012 – 2013
Informatica per gli Archivi e le Biblioteche
Prof.ssa Linda Giuva

Prof. Maurizio Caminito
Lezione 10 1

Premesse

L’avvento delle nuove tecnologie ha:
• portato allo scoperto la crisi del modello
tradizionale di comunicazione scientifica
• fornito soluzioni alternative e innovative
per disseminare la letteratura scientifica
a costi molto più contenuti
• offerto strategie complementari e non
concorrenti per garantire l’open access
2

Open Archive o E-prints Server

Noti come Open Archive, o E-prints server, sono
archivi preposti al deposito dei documenti scientifici,
in forma elettronica, alla loro gestione e
conservazione.

3

Archivi Aperti: tipologie

Contenuti
E-prints: pre e post-prints
Materiali multimediali

Archivi Aperti Istituzionali
Collezioni che raccolgono la produzione scientifica o le attività culturali
di una istituzione (Università, centri di ricerca, etc)
Alma-DL (Università di Bologna)
M.U.S. (Università di Messina)

Archivi Aperti Disciplinari
Collezione di contributi della stessa disciplina
E-LIS (E-prints in Library and Information Science)
arXiv (E-prints in Physics, Mathematics, Computer Science and
Quantitative Biology)
4

Archivi Aperti: tipologie

• Organizzati a livello istituzionale o a livello
disciplinare.
• I documenti elettronici depositati direttamente
dagli autori attraverso l’auto-archiviazione.

N.B. Non va confusa l’auto-archiviazione (self-archiving)
con l’auto-pubblicazione (self-publishing) 5

Archivi Aperti: caratteristiche
• Software “open source” di semplice gestione,
distribuiti con licenza GNU-GPL, con interfaccia
web grafica sia per l’amministrazione che per
l’utente finale
• Funzione di “self-archiving”: l’autore deposita
autonomamente i propri lavori
• Accesso aperto ai contenuti dell’archivio:
l’utente finale recupera il “full-text”
attraverso diverse modalità di ricerca
6

Gli strumenti per l’Open Access
Metodi e tecnologie per garantire l’accesso aperto
alla letteratura scientifica

Sono applicativi software per archivi aperti
basati sull’interoperabilità,
ossia sulla possibilità di condividere, trasportare, scambiare
metadati
attraverso l’architettura e il protocollo
della Open Archives Initiative

Sono iniziative di editoria elettronica che garantiscono al
lettore l’accesso al full-text senza pagamento
7

OAI: un po’ di storia

Open Archives Initiative, nota anche con l'acronimo OAI, è un
progetto nato per rendere facilmente fruibili gli archivi che
contengono documenti prodotti in ambito accademico. L'intento è
di promuovere strumenti semplici per consentire di ricercare e
creare servizi che, a costi non troppo elevati, rendano utilizzabili
tutti i contenuti dell'attività di ricerca degli atenei.
Il progetto ha avuto inizio con un convegno di esperti e studiosi
tenutosi a Santa Fe (Nuovo Messico) nel 1999. Dopo un paio di
anni la comunità che utilizzava l'OAI si è resa conto che il suo
schema può essere generalizzato anche per altri tipi di materiali
digitali non strettamente legati alla ricerca accademica.
8

Open Archives Initiative

Open Archives Initiative sviluppa dispositivi per
l’interoperabilità con lo scopo di agevolare l’efficacia
della disseminazione dei contenuti sul web.
I documenti sono depositati in archivi (repository)
per consentire:
•la condivisione dei metadati,
•la pubblicazione dei contentui
•l’archiviazione delle risorse

la descrizione dei documenti avviente mediante Dublin
Core non qualificato
http://www.openarchives.org 9

Open Access Initiative
MISSION: miglioramento dell'accesso ai documenti
entro gli archivi e-print:

• mette a disposizione strumenti, software e
documentazione (protocolli, standard)

• promuove l'utilizzo di metadati standard

10

I protocolli dell’OAI
• L'Open Archives Initiative (OAI) ha sviluppato un
protocollo standard per la raccolta dei dati – metadata –
relativi ad ogni singolo documento (ad esempio, “data”,
“autore”, “titolo”, “rivista”, ecc.).
• In questo modo, anche se i documenti si trovano in
archivi e formati differenti, l'utilizzo del protocollo comune
assicura la loro interoperabilità e rende possibile la
ricerca e il recupero dei documenti proprio come se
fossero contenuti in un unico archivio globale,
accessibile a tutti.
• Grazie al comune protocollo, tutti i documenti contenuti
negli archivi che aderiscono all'OAI rispondono a criteri
di interoperabilità.
11

Open Access: le strategie

Le Strategie Per raggiungere l’obiettivo dell’accesso aperto
alla letteratura scientifica, sono due e sono complementari:

Open Access self-archiving
Attraverso l’implementazione di Archivi Aperti gli autori
depositano i loro lavori “certificati” in archivi aperti conformi
agli standard OAI
Open Access Publishing
(Per sostenere la creazione di nuove riviste ad accesso
aperto e/o la conversione di riviste accademiche già
esistenti)
Gli autori pubblicano i loro lavori in riviste ad accesso aperto,
in cui il copyright serve ad assicurare l’accesso permanente e
non a limitarlo 12

La prima strategia:

• Implementare archivi aperti
• Favorire e promuovere l’immissione dei lavori
precedentemente pubblicati dai ricercatori
(quindi ‘certificati’, già sottoposti al controllo di
qualità) nelle riviste scientifiche

Sotto forma di pre-print
Sotto forma di post-print,
(in accordo con le politiche editoriali della rivista)
13

Archivi Aperti: cosa sono

• Collezioni digitali che raccolgono e conservano
la letteratura accademica
• Probabilmente, la componente più importante
nell’evoluzione della struttura dei nuovi modelli
di comunicazione scientifica

Nel caso degli OA istituzionali, indicatori tangibili di
qualità didattica, canale privilegiato di incremento
della visibilità di un’università 14

Archivi Aperti e interoperabilità

• Ciascun documento depositato è corredato da
metadati in formato standard che vengono
esposti per la raccolta (harvesting)
• Gli archivi sono detti “aperti” in quanto possono
essere interrogati da un servizio (“service
provider”) che si occupa di indicizzare i
metadati raccolti dai vari archivi attraverso la
funzione di harvesting

Un deposito entro l’architettura OAI Open Archive
Initivative è noto come “data provider”

15

La licenza GNU-GPL

GNU's Not Unix !!

GNU General Public License:
l’autore del software concede agli utilizzatori di eseguirlo,
copiarlo, distribuirlo, modificarlo e ridistribuire le
modifiche, nel rispetto dell’unica restrizione imposta, ossia
che ciascuna copia o modifica erediti le stesse libertà e sia
accompagnata dal codice sorgente “aperto”.

GNU è la licenza basilare del software libero.
16

MEMO: Creative Commons
Le licenze Creative Commons offrono sei diverse articolazioni
dei diritti d'autore per chi desideri condividere in maniera
ampia le proprie opere secondo il modello "alcuni diritti
riservati".
Il detentore dei diritti puo' non autorizzare a priori usi
prevalentemente commerciali dell'opera (opzione Non
commerciale, acronimo inglese: NC) o la creazione di opere
derivate (Non opere derivate, acronimo: ND); e se sono possibili
opere derivate, può imporre l'obbligo di rilasciarle con la stessa
licenza dell'opera originaria (Condividi allo stesso modo,
acronimo: SA, da "Share-Alike"). Le combinazioni di queste
scelte generano le sei licenze CC, disponibili anche in versione
italiana. 17

Archivi Aperti: architettura

Centralizzata
I contributi vengono depositati tutti in un unico
server centrale

Distribuita
I contributi vengono depositati su più servers
remoti che sono connessi tra loro da un’unica
interfaccia di ricerca

19

Archivi aperti: modello “tradizionale”

“In un certo senso, il modello OA si basa su una concezione
‘tradizionale’ di archivio: i dati sono registrati, certificati,
descritti, messi a disposizione… ma finché qualcuno non li
richiede non si muovono dall’archivio, e quando qualcuno li
richiede, il trasferimento ha solo conseguenze locali.

In forme diverse, attraverso feed RSS e sistemi P2P i dati si
muovono (il trasferimento ha conseguenze sistemiche)”

(Citazione da: G. Roncaglia, Open archives e altre forme di pubblicazione in rete)

20

Repertori di Open Archive

Il CILEA raccoglie repertori relativi a Open
Archive, archivi elettronici istituzionali o
disciplinari ad architettura centralizzata o
distribuita, allestiti tramite l'impiego di
tecnologia open source e incrementati tramite
auto-deposito.
http://www.virtual-library.it/SPT--BrowseResources.php?ParentId=211

21

Il caso di E-LIS

• L’archivio E-LIS è stato costituito nel 2003 per il deposito di
documenti in biblioteconomia e scienza dell'informazione (LIS
– Library and Information Science).

• E‘ la prima esperienza internazionale di e-server in questo
(
settore http://eprints.rclis.org/ )

• Deriva dal progetto DoIS (Documents in Information Science) , promosso
dal Ministero della Cultura spagnolo e ospitato su macchine del Consorzio
Interuniversitario Lombardo italiano per Elaborazione Automatica (CILEA).
• E-LIS si basa sul lavoro volontario ed è non-commerciale.
• E-LIS porta avanti la filosofia Open Access, rendendo disponibili documenti
in LIS e campi correlati.
22

Le regole di E-LIS

• E 'possibile depositare le opere in qualsiasi lingua,
anche se abstract e parole chiave devono essere inserite
in inglese, oltre a abstract e parole chiave nella lingua
originale del documento.

• COPYRIGHT: Tutti i lavori sul server E-LIS rimangono di
proprietà dell'autore. Le opere possono essere lette
online, scaricate per uso personale; l'URL di un
documento (da questo server) può essere inclusa in altri
documenti elettronici. Il testo stesso non può essere
pubblicato commercialmente (a stampa o in formato
elettronico) o comunque alterato senza il permesso
dell'autore.
24

Archivi Aperti: il modello distribuito

RePEc - Research Papers in Economics
(http://repec.org/)
E’ la più grande collezione del mondo di documenti
per l'economia ad accesso libero, a modello distribuito.

È nato nel 1999 per opera di Thomas Krichel

Ciascun archivio diventa mirror
e garantisce l’accesso anche ai dati
di tutti gli altri archivi

25

I numeri di RePEc
RePEc (Research Papers in Economics) is a collaborative effort of
hundreds of volunteers in 75 countries to enhance the
dissemination of research in Economics and related sciences. The
heart of the project is a decentralized bibliographic database of
working papers, journal articles, books, books chapters and
software components, all maintained by volunteers. The
collected data is then used in various services.
So far, over 1400 archives from 75 countries have contributed
about 1.2 million research pieces from 1,500 journals and 3,300
working paper series. Over 30,000 authors have registered and
70,000 email subscriptions are served every week.

26

Disponibilità delle informazioni
attraverso il servizio RePEc
I dati presenti nell’archivio RePEc sono accessibili da siti web
come IDEAS (http://ideas.repec.org), EconPapers
(http://econpapers.repec.org), NetEc e Inomics.

Le stesse informazioni sono inoltre utilizzate per il servizio NEP
(New Economic Papers – nuovi articoli di economia – disponibile
all’url http://nep.repec.org) che fornisce mailing list organizzate
per materia degli articoli resi disponibili in un dato momento.

Tutti si possono registrare su RePEc (http://authors.repec.org).
Registrandosi e inserendo un link ai propri lavori, inseriti
nell’archivio, il sistema crea automaticamente un “CV RePEc”
personale collegato ai (e raggiungibile dai) propri articoli.
27

Il protocollo per OAI-PMH

OAI-PMH Protocol for Metadata Harvesting
E’ un protocollo standard, sviluppato nell'ambito
dell'Open Archive Initiative, che permette di migliorare
la raccolta delle informazioni – metadata – relative ai
documenti contenuti negli archivi di tutto il mondo.

Il protocollo PMH-OAI si basa sui protocolli HTTP per il
trasporto e XML per la rappresentazione dei dati e
garantisce la massima interoperabilità tra i sistemi che
lo utilizzano.
28

OAI-PMH
Open Archives Initiative
Protocol for Metadata Harvesting

“The Open Archives Initiative Protocol for Metadata Harvesting
provides an application-Independent interoperability framework
based on Metadata harvesting.”

Ci sono due tipologie di “attori”
nell’architettura OAI-PMH
http://www.openarchives.org/OAI/openarchivesprotocol.html#Definitions
Concepts 29

OAI: gli attori
Data Providers
Sono gli archivi dove vengono depositati sia i
metadati
che il full-text del lavoro di ricerca (articoli,
presentazioni, etc.), essi sono i contenitori “fisici”
(repository)

Service Providers
Rispetto ai Data Providers, sono sistemi che offrono
servizi a valore aggiunto, come la raccolta e
l’indicizzazione di metadati da altri Data Providers 30

OAI: gli attori 2

il Data Provider (repository) esporta i propri metadati in
formato Dublin Core (simple) a sua volta codificati in
uno schema XML

il Service Provider, così come i più importanti motori di
ricerca del web, raccoglie i metadati secondo il
protocollo OAI-PMH (harvesting)
31

Harvesting mediante OAI-PMH

• Data Providers (open archives repositories) forniscono
libero accesso ai metadati ed, eventualmente anche ai
testi (full text) o ad altre risorse

• Service Providers utilizzano le interfacce OAI dei Data
Providers per raccogliere e archiviare metadata.
– le sessioni di ricerca non avvengono
direttamente sulla repository del Data Provider
– i servizi si basano sui dati raccolti mediante
harvesting 32

Funzionamento di OAI-PMH

33

Data providers
• metadati Dublin Core
convertiti dinamicamente mediante mappatura da un
altro schema di metadati a DC
oppure archiviati direttamente come DC
• sono disponibili mappature tra DC, EAD, MARC 21
• i dati sono codificati in XML
• tutti i record vengono contrassegnati da un
elemento cronologico (datestamp)
34

Service providers
• dispongono di dispositivi per l’harvesting
– software per l’harvesting automatico
– web robots, cioè programmi che scandiscono lo
spazio web automaticamente (crawlers, spiders)
• i web robot fanno uso di protocolli HTTP
• forniscono servizi relativi a tutti i dati raccolti
– interfaccia di ricerca
– sistemi di peer-review

35

Archivi Aperti: infrastruttura

Il software per gli archivi aperti è distribuito in modalità “open
source” così come il loro software di supporto:

• MySQL e PostgreSQL come RDBMS databases
(Relational DataBase Management System)
• Linux come sistema operativo
• Java, Perl, PHP e Python come linguaggi di
programmazione e per la loro implementazione
• Metadati standard

36

Il modello OAIS

SIP - (Submission Information Package) - IP di Immissione, riversato dal produttore nel
deposito.
AIP - (Archival Information Package) - IP di Archiviazione, che è il pacchetto conservato nel
deposito.
DIP - (Dissemination Information Package) - IP di Distribuzione trasferito dal deposito 37
all'utente in risposta ad una richiesta di accesso.

[e-prints] - archive software- 1

sviluppato dall’Università di Southampton
tra i primi progetti a sviluppare un OAS

• oltre 200 implementazioni in tutto il mondo
• “semplice” installazione e facilità d’uso
• vasta e attenta comunità di supporto

un punto di riferimento tra gli OA

38

[e-prints] – archive software - 2

• Facile da installare
– Script di installazione automatici nella maggior parte dei
processi di installazione
• Requisiti minimi: meno di 500 MB di spazio per lo
storage.
• Indipendenza da altri software di supporto
• Facile da usare e da amministrare: basato su Web
39

http://e-prints.unifi.it/

40

La seconda strategia:
Open Access Publishing

Implementare (nuove) riviste con accesso aperto agli articoli
Convertire le riviste esistenti in riviste ad accesso aperto

44

Mendeley

Mendeley (www.mendeley.com) is a free reference manager
and academic social network that can help you organize your
research, collaborate with others online, and discover the latest
research.

• Automatically generate bibliographies
• Collaborate easily with other researchers online
• Easily import papers from other research software
• Find relevant papers based on what you’re reading
• Access your papers from anywhere online
• Read papers on the go, with our new iPhone app
45

Crescita dell’OA nel mondo:
i dati (marzo 2011)
Mendeley, che unisce i servizi di un reference manager tool a quelli di un social
network di area accademica, è passato da 300.000 a 800.000 Open Access full
text nei primi tre mesi del 2011.

• oltre 6000 riviste “peer reviewed” ad accesso aperto (fonte: Directory of
Open Access journals (DOAJ) Tasso di crescita : 4 al giorno
• Oltre 1800 archivi ad accesso aperto (fonte OpenDOAR). Tasso di crescita 1
al giorno
• 25 milioni di documenti (di qualità) liberamente disponibili (Fonte: Motore di
ricerca (BASE) Tasso di crescita : 6,000 al giorno
• 271 istituzioni hanno deliberato sull’obbligo di deposito degli articoli da parte
degli autori (open access mandate policies) Fonte: ROARMAP. Tasso di
crescita: 1 a settimana
• 20% della letteratura scientifca “peer reviewed” è disponibile liberamente:
20% (fonte Bjork et al)

Fonte: Heather Morrison: http://poeticeconomics.blogspot.com/2011/03/dramatic-growth-
of-open-access-march-31.html

46

Dati e cifre sull'Open Access in Italia -
2012
35 Atenei applicano le Linee Guida OA sulle tesi di dottorato
L'elenco degli atenei che applicano le linee guida CRUI sulle tesi di dottorato sono
riportati alla pagina
http://wiki.openarchives.it/index.php/Applicazione_delle_linee_guida
con la descrizione del Regolamento che prevede il deposito delle tesi di
dottorato nell'archivio istituzionale.
Nel 2012, si è aggiunta all’elenco l’Università degli studi di Udine.

PLEIADI, il Portale per la Letteratura scientifica Elettronica Italiana su Archivi
aperti e Depositi Istituzionali http://www.openarchives.it/pleiadi/, indicizza (al
25/03/2013) oltre 605.000 record da archivi e riviste ad accesso aperto. PLEIADI
è il service provider nazionale per l’accesso alla letteratura scientifica prodotta in
Italia.

Le nuove riviste open access registrate su DOAJ (Directory of Open Access
Journals) nel 2012 sono 37.
47

10.Open Archive

Recommended

Recommended

More Related Content

Similar to 10.Open Archive

Similar to 10.Open Archive (20)

More from Maurizio Caminito

More from Maurizio Caminito (13)

10.Open Archive