SlideShare a Scribd company logo
1 of 17
CONSERVAZIONE 
DIGITALE 
Riflessioni sulla 
conservazione del web 
Seminario per il corso Archivistica Informatica, a.a. 2012/2013, prof. Francesca Tomasi
“La conservazione degli archivi digitali costituisce da tempo uno dei problemi che più impegnano la 
comunità scientifica e professionale sia dal punto di vista teorico e metodologico sia per quanto 
riguarda l’individuazione e la messa in opera di soluzioni applicative di basso costo e facile 
adozione” 
• Mariella Guercio 
Come fare a conservare la Cultura presente sul web? Il 
problema non è di poco conto e riguarda riviste on-line, musei virtuali, 
archivi digitali, testi, immagini, video. L’accelerazione tecnologica fa sì 
che la frontiera teorica della riflessione su archivi e informatica sia in 
continuo movimento e che i risultati raggiunti appaiano ben presto 
superati da nuove opportunità e da nuove riflessioni. La tecnologia, con 
la sua evoluzione, espone a tutti i rischi che derivano dalla rapida 
obsolescenza.
I rischi specifici che i documenti digitali 
devono affrontare 
I primi personal computer stanno alla tecnologia attuale come i fonografi a manovella stanno agli 
impianti di riproduzione di suono di ultima genetazione. 
-Giancarlo Buzzanca 
• Scarsa durata fisica dei supporti per la memorizzazione 
dei dati (cd, dvd, floppy, ecc.) 
• Obsolescenza dell’hardware per la decodifica dei supporti 
(lettori di vario tipo) 
• Obsolescenza del software per l’interpretazione dei dati 
(word processor, programmi di grafica, browser, ecc.) 
• Obsolescenza dell’hardware per l’esecuzione dei 
programmi di interpretazione (microprocessori, computer, 
ecc)
Azioni concrete mirate alla conservazione 
• Una autorevole conferma nella direzione di un 
impegno serio da parte delle istituzioni operanti 
nel mondo della cultura proviena dalla Charter for 
the Preservation of the Digital Heritage (CPDH) 
adottata dall’Unesco (2003 ca.) 
• Bibliotecari e archivisti hanno posto i temi della 
conservazione del digitale al centro di un dibattito
CPDH 
• Il documento ha posto i documenti digitali sullo stesso piano 
di quelli esistenti su supporti e in formati tradizionali 
• Esigenza di attività mirate alla conservazione (assicurare 
trasmissione al futuro e accessibilità nel tempo) 
• Uno degli strumenti chiave è il deposito legale o volontario dei 
documenti digitali in archivi, biblioteche, musei e altri depositi 
pubblici  Associazione italiana biblioteche. Nuova legge sul 
deposito legale e documenti digitali 
• La conservazione è quindi compito di archivisti e bibliotecari. 
(Da sottolineare, in particolare, il progetto ERPANET)
Il web al centro delle discussioni 
• Problemi di archiviazione, indicizzazione, conservazione 
fisica degli archivi, reperibilità ed effettiva accessibilità alla 
fonte archiviata 
• Problema della fragilità intrinseca del digitale come 
questione di carattere culturale 
• Si inizia a circoscrivere l’ambito di interesse 
delimitandone contenuti e dimensioni 
• Web = non solo pagine ipertestuali tradizionalmente 
intese ma anche forum, blog, basi di dati accessibili 
esclusivamente attraverso maschere di query, pagine a 
livelli non accessibili (DEEP WEB, che ha dimensioni 
inusitate)
Quanto è grande internet? Quante 
informazioni contiene? 
• Tabella dati 2003 
• La grandezza di internet 
oggi 
Fonte http://www.worldwidewebsize.com/
Dimensioni della Library of Congress 
• I dati riguardanti la grandezza di internet hanno maggiore evidenza se 
confrontati con quelli calcolati per la LC, che è la maggiore tra le biblioteche 
esistenti al mondo 
• La dimensioni di 20-terabyte che vengono comunemente attribuite alla 
Library of Congress, derivano dall’aver assunto che la LC ha 20 milioni di libri 
e che ciascuno di essi richieda 1 MB. Naturalmente la LC è composta da 
molti altri materiali, affianco al testo stampato, e questi materiali potrebbero 
esigere molto spazio in più: 
• tredici milioni di fotografie, le quali seppure fossero compresse in files JPG da 1 Mb ciascuno, 
potrebbero richiedere 13 TB; 
• i 4 milioni di mappe raccolte nella Geography Division potrebbe essere scansionate e richiedere 
almeno 200 TB; 
• la LC possiede oltre 500 mila film, calcolando 1 GB per ciascuno questo potrebbe significare 500 
TB (molti film non sono a colori); 
• la massa maggiore dovrebbe esse costituita dai 3,5 milioni di registrazioni sonore le quali, 
considerando un CD per ciascuna di queste, significherebbe almeno 2.000 TB. 
Tutto ciò porta il peso totale ad almeno 3.000 TB (Fonte: Michael Lesk, How much information 
is there in the world)
Non solo quantità, 
STRUTTURA ADEGUATA 
• Quantità enormi di dati significa altrettano enormi quantità di 
supporti di registrazione delle informazioni e loro cura sia fisica 
che organizzativa 
• Il problema della conservazione non è solo un problema 
quantitativo 
• Conservare il web = disporre di adeguati strumenti di raccolta 
(WEB CRAWLER), validazione delle attività di raccolta 
perautenticità e per completezza, selezione e scarto del 
materiale di base 
• Investire enormi quantità di fondi 
• Delimitare un campo preciso di intervento (ad esempio le 
biblioteche nazionali o quelle orientate a finalità specifiche)
• Per le biblioteche nazionali il campo corrisponde agli ambiti 
individuati dai domini nazionali (country codes top level 
domain) = le biblioteche nazionali centrali in Italia registrano e 
conservano i siti il cui CC sia .it 
• Problema della lingua (possono aver attivato un website in 
lingua straniera su server italiano) e del server su cui risiede 
l’informazione (il sito in lingua italiana e con dominio .it 
potrebbe essere ospitato su un server nella città di Hong Kong) 
• Punto di vista pratico = disporre di adeguati supporti per la 
memorizzazione sia che questa venga compiuta una volta per 
tutte sia che questa sia stata progettata ripetuta nel tempo 
intervalli definiti e secondo la modalità di download
La situazione oggi 
• Sperimentalismo  quale metodologia di raccolta, quale livello di 
selezione e scarto della fonte e quali strumenti tecnologici sono da 
adottare e quali sono gli eventuali problemai legati alla 
registrazione di siti protetti da vincoli di copyright? 
• Tentativi come INTERNET ARCHIVE 
• Da “conservazione integrale del dato” a “selezione e 
catalogazione” tipica degli archivisti 
• Esigenza di conoscere, indicizzare  problema della dimensione 
del web 
• La pubblicazione di documenti è diventata ancora più semplice e 
alla portata di chiunque  problema dell’autorevolezza e della 
fondatezza dei materiali e del sapere esposto nella rete
METADATI 
• Selezione, raccolta e indicizzazione delle pagine dei siti introducono il tema 
dei METADATI: I metadati esprimono in un linguaggio strutturato e codificato, 
alcune caratteristiche relative all’oggetto, o alla classe d’oggetti, cui sono 
associati 
• Web come incunabolo digitale 
• Una delle funzioni essenziali per archiviare il web è quella della descrizione 
codificata 
• È raccomandato l’utilizzo dei metadati all’interno del linguaggio HTML in fase 
di creazione (http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4) 
• Per la struttura dei metadati numerosi sono gli standard accettati e tra questi 
il Dublin Core Metadata Initiative è quello che ha raccolto intorno a sé 
consensi (http://dublincore.org) 
• In alternativa è possibile ricavare automaticamente dati dalla pagina 
mediante appositi software 
• ICCU, per quanto riguarda le linee guida e gli standard per i metadati per 
quanto concerne la situazione italiana
Esempi di progetti 
• Internet Archive 
• International Internet Preservation 
Consortium 
• National Library of Australia (PADI e 
PANDORA)
Internet Archive 
• Sta costruendo una biblioteca digitale dei siti internet così come degli 
altri prodotti culturali che siano in formato digitale 
• Accesso libero e gratuito al patrimonio scritto e alle altre forma di 
scrittura è essenziale per motivi educativi e per il mantenimento di 
una società aperta 
• 1996 per iniziativa di Alexa Research e altre società e istituzioni 
americane 
• WAYBACK MACHINE = interfaccia utente che consente di prendere 
visione e navigare nei siti ed è uno dei siti più popolari al web (222th 
http://www.alexa.com/siteinfo/archive.org). La sua dimensione ha 
raggiunto oltre 400 TB nel 2002, e oggi siamo arrivati a 5 petabytes 
http://blog.archive.org/2013/01/09/updated-wayback/ 
• L’archivio è composto dalle pagine raccolte da Alexa internet a partire 
dal 1996 (240,000,000,000 URLs)
IIPC 
International Internet Presevation Consortium 
• Fondato nel 2003 al fine di preservare il contenuto di Internet per le future 
generazioni ( to acquire, preserve and make accessible knowledge and 
information from the Internet for future generations everywhere, promoting 
global exchange and international relations.) 
• Esempio attuale : http://netpreserve.org/about-us/news/twitter-archive-update 
• Della collaborazione fa parte anche la Biblioteca nazionale di Firenze 
• Obiettivi: 
• rendere possibile che una parte essenziale di Internet possa essere 
preservato garantendo la capacità di archiviare il contenuto ed accedere 
nel tempo ai dati archiviati; 
• spingere allo sviluppo ed all’uso di strumenti, tecnologie e standard che 
rendano possibile la creazione di archivi internazionali; 
• incoraggiare e assistere le biblioteche nazionali a formulare programmi di 
archiviazione e conservazione del Web.
National Library of Australia 
• Considera l’attività di digitalizzazione obiettivo prioritario 
• Il termine “to preserve” è adottato nelle linee guida per identificare tutte quelle fasi 
che includono l’archiviazione, l’organizzazione, la descrizione, l’aggiornamento e 
la migrazione dei dati tutte compiute per assicurare long term access 
• Sono stati attivati due diversi progetti: 
• PADI (Preserving Access to Digital Information) 
• Provvedere meccanismi che possano consentire che l’informazione in format sia gestita 
con una appropriate considerazione alle esigenze della conservazione e dell’accesso, nel 
tempo, alle stesse fonti 
• Obiettivi: 
• Favorire lo sviluppo di strategie e linee guida per la preservazione dell’accesso alle 
informazioni digitali 
• Sviluppare e mantenere un sito web dedicato all’informazione e alla promozione 
dell’iniziativa 
• Identificare e promuovere progetti ed attività rilevanti nel settore 
• PANDORA 
• La finalità è quella di raccogliere e assicurare long-term access a pubblicazioni on line 
selezionate e a siti che siano relativi all’Australia 
• Istituire un archivio digitale delle pubblicazioni elettroniche a livello nazionale
BIBLIOGRAFIA 
• GUERCIO Mariella, Archivistica informatica : i documenti 
in ambiente digitale. Roma, Carocci, 2002; 
SITOGRAFIA 
• Giancarlo Buzzanca. Digit fugit ovvero osservazioni sulla conservazione del 
web. In: Minerva, knowledge base, 
2006. (http://www.minervaeurope.org/publications/qualitycriteria-i/ 
indice0512/buzzancadigitfugit.html) 
• http://cdn.thenextweb.com/ 
• http://worldwidewebsize.com/ 
• http://www.alexa.com 
• http://blog.archive.org

More Related Content

What's hot

DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.Lucia Bertini
 
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...libriedocumenti
 
Introduzione biblioteca digitale
Introduzione biblioteca digitaleIntroduzione biblioteca digitale
Introduzione biblioteca digitaleAnna Maria Tammaro
 
Internet In Biblioteca
Internet In BibliotecaInternet In Biblioteca
Internet In Bibliotecaeziotarantino
 
Storia e scenari futuri della digital library
Storia e scenari futuri della digital libraryStoria e scenari futuri della digital library
Storia e scenari futuri della digital libraryDaniele Satta
 
Biblioteche digitalizzate: tra limiti di accesso e pubblico dominio
Biblioteche digitalizzate: tra limiti di accesso e pubblico dominioBiblioteche digitalizzate: tra limiti di accesso e pubblico dominio
Biblioteche digitalizzate: tra limiti di accesso e pubblico dominioUniversità di Padova
 
Digitalizzazione di documenti
Digitalizzazione di documentiDigitalizzazione di documenti
Digitalizzazione di documentiandreadigrazia
 
Diritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De RobbioDiritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De Robbiolibriedocumenti
 
Standard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenutiStandard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenutiCulturaItalia
 
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...libriedocumenti
 
2c. architettura open archive
2c. architettura open archive2c. architettura open archive
2c. architettura open archiveMau-Messenger
 
LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)locloud
 
Convegno il digitale nell'accesso al patrimonio librario e documentale 15-...
Convegno    il digitale nell'accesso al patrimonio librario e documentale 15-...Convegno    il digitale nell'accesso al patrimonio librario e documentale 15-...
Convegno il digitale nell'accesso al patrimonio librario e documentale 15-...Università di Cagliari
 
Digilab march 20100315 progetti comphumanities lariccia
Digilab  march 20100315 progetti comphumanities   laricciaDigilab  march 20100315 progetti comphumanities   lariccia
Digilab march 20100315 progetti comphumanities laricciaStefano Lariccia
 
Google Books: per le biblioteche sarà la fine o un nuovo inizio?
Google Books: per le biblioteche sarà la fine o un nuovo inizio?Google Books: per le biblioteche sarà la fine o un nuovo inizio?
Google Books: per le biblioteche sarà la fine o un nuovo inizio?Università di Padova
 
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...libriedocumenti
 

What's hot (20)

DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.
 
Bncf 2014 slide_lucarelli
Bncf 2014 slide_lucarelliBncf 2014 slide_lucarelli
Bncf 2014 slide_lucarelli
 
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
 
Introduzione biblioteca digitale
Introduzione biblioteca digitaleIntroduzione biblioteca digitale
Introduzione biblioteca digitale
 
Internet In Biblioteca
Internet In BibliotecaInternet In Biblioteca
Internet In Biblioteca
 
Storia e scenari futuri della digital library
Storia e scenari futuri della digital libraryStoria e scenari futuri della digital library
Storia e scenari futuri della digital library
 
Biblioteche digitalizzate: tra limiti di accesso e pubblico dominio
Biblioteche digitalizzate: tra limiti di accesso e pubblico dominioBiblioteche digitalizzate: tra limiti di accesso e pubblico dominio
Biblioteche digitalizzate: tra limiti di accesso e pubblico dominio
 
Digitalizzazione di documenti
Digitalizzazione di documentiDigitalizzazione di documenti
Digitalizzazione di documenti
 
Diritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De RobbioDiritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De Robbio
 
10.Open Archive
10.Open Archive10.Open Archive
10.Open Archive
 
Standard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenutiStandard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenuti
 
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
 
Biblio virtuali collezioni
Biblio virtuali collezioniBiblio virtuali collezioni
Biblio virtuali collezioni
 
2c. architettura open archive
2c. architettura open archive2c. architettura open archive
2c. architettura open archive
 
LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)
 
Convegno il digitale nell'accesso al patrimonio librario e documentale 15-...
Convegno    il digitale nell'accesso al patrimonio librario e documentale 15-...Convegno    il digitale nell'accesso al patrimonio librario e documentale 15-...
Convegno il digitale nell'accesso al patrimonio librario e documentale 15-...
 
Digilab march 20100315 progetti comphumanities lariccia
Digilab  march 20100315 progetti comphumanities   laricciaDigilab  march 20100315 progetti comphumanities   lariccia
Digilab march 20100315 progetti comphumanities lariccia
 
Google Books: per le biblioteche sarà la fine o un nuovo inizio?
Google Books: per le biblioteche sarà la fine o un nuovo inizio?Google Books: per le biblioteche sarà la fine o un nuovo inizio?
Google Books: per le biblioteche sarà la fine o un nuovo inizio?
 
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
 
SHARE e l'editoria accademica Open Access
SHARE e l'editoria accademica Open AccessSHARE e l'editoria accademica Open Access
SHARE e l'editoria accademica Open Access
 

Similar to Conservazione digitale

Corso Chieti Pescara2
Corso Chieti Pescara2Corso Chieti Pescara2
Corso Chieti Pescara2tittiono
 
Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...
Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...
Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...Chiara Storti
 
2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitaliMau-Messenger
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca DigitaleCoimbra group2
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Web 2.0 e Library 2.0 / Rossana Morriello
Web 2.0 e Library 2.0 / Rossana MorrielloWeb 2.0 e Library 2.0 / Rossana Morriello
Web 2.0 e Library 2.0 / Rossana Morriellobibliotekcare
 
La formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. PigliapocoLa formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. PigliapocoSergio Primo Del Bello
 
201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013Stefano Lariccia
 
Una biblioteca digitale per l'antichistica
Una biblioteca digitale per l'antichisticaUna biblioteca digitale per l'antichistica
Una biblioteca digitale per l'antichisticaAnna Maria Tammaro
 
Conservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPEConservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPEMaurizio Messina
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitalenomenick
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitalenomenick
 
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008Maurizio Messina
 
LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)locloud
 
La Biblioteca Digitale come metafora
La Biblioteca Digitale come metaforaLa Biblioteca Digitale come metafora
La Biblioteca Digitale come metaforaDARIAH-IT
 
Il nuovo catalogo della rete URBS - La migrazione akoha
Il nuovo catalogo della rete URBS - La migrazione akohaIl nuovo catalogo della rete URBS - La migrazione akoha
Il nuovo catalogo della rete URBS - La migrazione akohaAndrea Marchitelli
 
La descrizione degli archivi. xDams open source
La descrizione degli archivi.   xDams open source La descrizione degli archivi.   xDams open source
La descrizione degli archivi. xDams open source Giovanni Bruno
 
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...Maurizio Messina
 

Similar to Conservazione digitale (20)

Corso Chieti Pescara2
Corso Chieti Pescara2Corso Chieti Pescara2
Corso Chieti Pescara2
 
Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...
Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...
Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione de...
 
2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitale
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Web 2.0 e Library 2.0 / Rossana Morriello
Web 2.0 e Library 2.0 / Rossana MorrielloWeb 2.0 e Library 2.0 / Rossana Morriello
Web 2.0 e Library 2.0 / Rossana Morriello
 
La formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. PigliapocoLa formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. Pigliapoco
 
201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013
 
Una biblioteca digitale per l'antichistica
Una biblioteca digitale per l'antichisticaUna biblioteca digitale per l'antichistica
Una biblioteca digitale per l'antichistica
 
Conservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPEConservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPE
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitale
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitale
 
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
 
Accesso
AccessoAccesso
Accesso
 
LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)LoCloud: Local Content in a Europeana Cloud (IT)
LoCloud: Local Content in a Europeana Cloud (IT)
 
La Biblioteca Digitale come metafora
La Biblioteca Digitale come metaforaLa Biblioteca Digitale come metafora
La Biblioteca Digitale come metafora
 
Il nuovo catalogo della rete URBS - La migrazione akoha
Il nuovo catalogo della rete URBS - La migrazione akohaIl nuovo catalogo della rete URBS - La migrazione akoha
Il nuovo catalogo della rete URBS - La migrazione akoha
 
Introduzione al corso accesso
Introduzione al corso accessoIntroduzione al corso accesso
Introduzione al corso accesso
 
La descrizione degli archivi. xDams open source
La descrizione degli archivi.   xDams open source La descrizione degli archivi.   xDams open source
La descrizione degli archivi. xDams open source
 
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
 

More from silviaddea

Che cosa indossano?
Che cosa indossano?Che cosa indossano?
Che cosa indossano?silviaddea
 
Le professioni
Le professioniLe professioni
Le professionisilviaddea
 
Le parti del corpo
Le parti del corpoLe parti del corpo
Le parti del corposilviaddea
 
Archivio di stato di Siena
Archivio di stato di SienaArchivio di stato di Siena
Archivio di stato di Sienasilviaddea
 

More from silviaddea (6)

Che cosa indossano?
Che cosa indossano?Che cosa indossano?
Che cosa indossano?
 
La briscola
La briscolaLa briscola
La briscola
 
Le professioni
Le professioniLe professioni
Le professioni
 
Le parti del corpo
Le parti del corpoLe parti del corpo
Le parti del corpo
 
Pronuncia
PronunciaPronuncia
Pronuncia
 
Archivio di stato di Siena
Archivio di stato di SienaArchivio di stato di Siena
Archivio di stato di Siena
 

Conservazione digitale

  • 1. CONSERVAZIONE DIGITALE Riflessioni sulla conservazione del web Seminario per il corso Archivistica Informatica, a.a. 2012/2013, prof. Francesca Tomasi
  • 2. “La conservazione degli archivi digitali costituisce da tempo uno dei problemi che più impegnano la comunità scientifica e professionale sia dal punto di vista teorico e metodologico sia per quanto riguarda l’individuazione e la messa in opera di soluzioni applicative di basso costo e facile adozione” • Mariella Guercio Come fare a conservare la Cultura presente sul web? Il problema non è di poco conto e riguarda riviste on-line, musei virtuali, archivi digitali, testi, immagini, video. L’accelerazione tecnologica fa sì che la frontiera teorica della riflessione su archivi e informatica sia in continuo movimento e che i risultati raggiunti appaiano ben presto superati da nuove opportunità e da nuove riflessioni. La tecnologia, con la sua evoluzione, espone a tutti i rischi che derivano dalla rapida obsolescenza.
  • 3. I rischi specifici che i documenti digitali devono affrontare I primi personal computer stanno alla tecnologia attuale come i fonografi a manovella stanno agli impianti di riproduzione di suono di ultima genetazione. -Giancarlo Buzzanca • Scarsa durata fisica dei supporti per la memorizzazione dei dati (cd, dvd, floppy, ecc.) • Obsolescenza dell’hardware per la decodifica dei supporti (lettori di vario tipo) • Obsolescenza del software per l’interpretazione dei dati (word processor, programmi di grafica, browser, ecc.) • Obsolescenza dell’hardware per l’esecuzione dei programmi di interpretazione (microprocessori, computer, ecc)
  • 4. Azioni concrete mirate alla conservazione • Una autorevole conferma nella direzione di un impegno serio da parte delle istituzioni operanti nel mondo della cultura proviena dalla Charter for the Preservation of the Digital Heritage (CPDH) adottata dall’Unesco (2003 ca.) • Bibliotecari e archivisti hanno posto i temi della conservazione del digitale al centro di un dibattito
  • 5. CPDH • Il documento ha posto i documenti digitali sullo stesso piano di quelli esistenti su supporti e in formati tradizionali • Esigenza di attività mirate alla conservazione (assicurare trasmissione al futuro e accessibilità nel tempo) • Uno degli strumenti chiave è il deposito legale o volontario dei documenti digitali in archivi, biblioteche, musei e altri depositi pubblici  Associazione italiana biblioteche. Nuova legge sul deposito legale e documenti digitali • La conservazione è quindi compito di archivisti e bibliotecari. (Da sottolineare, in particolare, il progetto ERPANET)
  • 6. Il web al centro delle discussioni • Problemi di archiviazione, indicizzazione, conservazione fisica degli archivi, reperibilità ed effettiva accessibilità alla fonte archiviata • Problema della fragilità intrinseca del digitale come questione di carattere culturale • Si inizia a circoscrivere l’ambito di interesse delimitandone contenuti e dimensioni • Web = non solo pagine ipertestuali tradizionalmente intese ma anche forum, blog, basi di dati accessibili esclusivamente attraverso maschere di query, pagine a livelli non accessibili (DEEP WEB, che ha dimensioni inusitate)
  • 7. Quanto è grande internet? Quante informazioni contiene? • Tabella dati 2003 • La grandezza di internet oggi Fonte http://www.worldwidewebsize.com/
  • 8. Dimensioni della Library of Congress • I dati riguardanti la grandezza di internet hanno maggiore evidenza se confrontati con quelli calcolati per la LC, che è la maggiore tra le biblioteche esistenti al mondo • La dimensioni di 20-terabyte che vengono comunemente attribuite alla Library of Congress, derivano dall’aver assunto che la LC ha 20 milioni di libri e che ciascuno di essi richieda 1 MB. Naturalmente la LC è composta da molti altri materiali, affianco al testo stampato, e questi materiali potrebbero esigere molto spazio in più: • tredici milioni di fotografie, le quali seppure fossero compresse in files JPG da 1 Mb ciascuno, potrebbero richiedere 13 TB; • i 4 milioni di mappe raccolte nella Geography Division potrebbe essere scansionate e richiedere almeno 200 TB; • la LC possiede oltre 500 mila film, calcolando 1 GB per ciascuno questo potrebbe significare 500 TB (molti film non sono a colori); • la massa maggiore dovrebbe esse costituita dai 3,5 milioni di registrazioni sonore le quali, considerando un CD per ciascuna di queste, significherebbe almeno 2.000 TB. Tutto ciò porta il peso totale ad almeno 3.000 TB (Fonte: Michael Lesk, How much information is there in the world)
  • 9. Non solo quantità, STRUTTURA ADEGUATA • Quantità enormi di dati significa altrettano enormi quantità di supporti di registrazione delle informazioni e loro cura sia fisica che organizzativa • Il problema della conservazione non è solo un problema quantitativo • Conservare il web = disporre di adeguati strumenti di raccolta (WEB CRAWLER), validazione delle attività di raccolta perautenticità e per completezza, selezione e scarto del materiale di base • Investire enormi quantità di fondi • Delimitare un campo preciso di intervento (ad esempio le biblioteche nazionali o quelle orientate a finalità specifiche)
  • 10. • Per le biblioteche nazionali il campo corrisponde agli ambiti individuati dai domini nazionali (country codes top level domain) = le biblioteche nazionali centrali in Italia registrano e conservano i siti il cui CC sia .it • Problema della lingua (possono aver attivato un website in lingua straniera su server italiano) e del server su cui risiede l’informazione (il sito in lingua italiana e con dominio .it potrebbe essere ospitato su un server nella città di Hong Kong) • Punto di vista pratico = disporre di adeguati supporti per la memorizzazione sia che questa venga compiuta una volta per tutte sia che questa sia stata progettata ripetuta nel tempo intervalli definiti e secondo la modalità di download
  • 11. La situazione oggi • Sperimentalismo  quale metodologia di raccolta, quale livello di selezione e scarto della fonte e quali strumenti tecnologici sono da adottare e quali sono gli eventuali problemai legati alla registrazione di siti protetti da vincoli di copyright? • Tentativi come INTERNET ARCHIVE • Da “conservazione integrale del dato” a “selezione e catalogazione” tipica degli archivisti • Esigenza di conoscere, indicizzare  problema della dimensione del web • La pubblicazione di documenti è diventata ancora più semplice e alla portata di chiunque  problema dell’autorevolezza e della fondatezza dei materiali e del sapere esposto nella rete
  • 12. METADATI • Selezione, raccolta e indicizzazione delle pagine dei siti introducono il tema dei METADATI: I metadati esprimono in un linguaggio strutturato e codificato, alcune caratteristiche relative all’oggetto, o alla classe d’oggetti, cui sono associati • Web come incunabolo digitale • Una delle funzioni essenziali per archiviare il web è quella della descrizione codificata • È raccomandato l’utilizzo dei metadati all’interno del linguaggio HTML in fase di creazione (http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4) • Per la struttura dei metadati numerosi sono gli standard accettati e tra questi il Dublin Core Metadata Initiative è quello che ha raccolto intorno a sé consensi (http://dublincore.org) • In alternativa è possibile ricavare automaticamente dati dalla pagina mediante appositi software • ICCU, per quanto riguarda le linee guida e gli standard per i metadati per quanto concerne la situazione italiana
  • 13. Esempi di progetti • Internet Archive • International Internet Preservation Consortium • National Library of Australia (PADI e PANDORA)
  • 14. Internet Archive • Sta costruendo una biblioteca digitale dei siti internet così come degli altri prodotti culturali che siano in formato digitale • Accesso libero e gratuito al patrimonio scritto e alle altre forma di scrittura è essenziale per motivi educativi e per il mantenimento di una società aperta • 1996 per iniziativa di Alexa Research e altre società e istituzioni americane • WAYBACK MACHINE = interfaccia utente che consente di prendere visione e navigare nei siti ed è uno dei siti più popolari al web (222th http://www.alexa.com/siteinfo/archive.org). La sua dimensione ha raggiunto oltre 400 TB nel 2002, e oggi siamo arrivati a 5 petabytes http://blog.archive.org/2013/01/09/updated-wayback/ • L’archivio è composto dalle pagine raccolte da Alexa internet a partire dal 1996 (240,000,000,000 URLs)
  • 15. IIPC International Internet Presevation Consortium • Fondato nel 2003 al fine di preservare il contenuto di Internet per le future generazioni ( to acquire, preserve and make accessible knowledge and information from the Internet for future generations everywhere, promoting global exchange and international relations.) • Esempio attuale : http://netpreserve.org/about-us/news/twitter-archive-update • Della collaborazione fa parte anche la Biblioteca nazionale di Firenze • Obiettivi: • rendere possibile che una parte essenziale di Internet possa essere preservato garantendo la capacità di archiviare il contenuto ed accedere nel tempo ai dati archiviati; • spingere allo sviluppo ed all’uso di strumenti, tecnologie e standard che rendano possibile la creazione di archivi internazionali; • incoraggiare e assistere le biblioteche nazionali a formulare programmi di archiviazione e conservazione del Web.
  • 16. National Library of Australia • Considera l’attività di digitalizzazione obiettivo prioritario • Il termine “to preserve” è adottato nelle linee guida per identificare tutte quelle fasi che includono l’archiviazione, l’organizzazione, la descrizione, l’aggiornamento e la migrazione dei dati tutte compiute per assicurare long term access • Sono stati attivati due diversi progetti: • PADI (Preserving Access to Digital Information) • Provvedere meccanismi che possano consentire che l’informazione in format sia gestita con una appropriate considerazione alle esigenze della conservazione e dell’accesso, nel tempo, alle stesse fonti • Obiettivi: • Favorire lo sviluppo di strategie e linee guida per la preservazione dell’accesso alle informazioni digitali • Sviluppare e mantenere un sito web dedicato all’informazione e alla promozione dell’iniziativa • Identificare e promuovere progetti ed attività rilevanti nel settore • PANDORA • La finalità è quella di raccogliere e assicurare long-term access a pubblicazioni on line selezionate e a siti che siano relativi all’Australia • Istituire un archivio digitale delle pubblicazioni elettroniche a livello nazionale
  • 17. BIBLIOGRAFIA • GUERCIO Mariella, Archivistica informatica : i documenti in ambiente digitale. Roma, Carocci, 2002; SITOGRAFIA • Giancarlo Buzzanca. Digit fugit ovvero osservazioni sulla conservazione del web. In: Minerva, knowledge base, 2006. (http://www.minervaeurope.org/publications/qualitycriteria-i/ indice0512/buzzancadigitfugit.html) • http://cdn.thenextweb.com/ • http://worldwidewebsize.com/ • http://www.alexa.com • http://blog.archive.org