Klaus Kempf Keynote presentation Panel: Una proposta (non?) sovversiva: le competenze per la cura dei dati. A cura di DILL, in collaborazione con IOSSG, Convegno Stelline 16 marzo 2018
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
Data curation ovvero quanto durevoli sono i nostri sforzi per una biblioteca digitale?
1. Klaus Kempf
Data curation oppure quanto
durevoli sono i nostri sforzi per
una biblioteca digitale’?
Milano, 15-16 marzo 2018Klaus Kempf
2. Aspetti fondamentali della „biblioteca digitale“
• Visione d‘insieme dell‘argomento ipercomplesso
• Conta il punto di vista d‘utente, non quello all‘interno
della biblioteca/quello tecnologico (obiettivo maggiore:
riuso dei contenuti)
• Cooperazione tra vari partner (parola chiave:
standardizzazione in ogni campo d‘attività)
• Cura dei relativi dati nel senso vasto del termine ed in
modo permanente
2Milano, 15-16 marzo 2018
8. Il nostro servizio digitale, basato sul posseduto delle
nostre collezioni, si può definire come:
• un successo eclatante
• ma deve continuamente fare i conti con la gestione di
risorse umane estremamente limitate
• e con costi sempre straripanti (almeno 9 volte di più per
l'hosting e la gestione dei dati rispetto al mondo
analogico).
Milano, 15-16 marzo 2018 8
9. Milano, 15-16 marzo 2018
Definition „Data curation“
Data curation is a broad term to indicate processes and activities related to the
organization and integration of data collected from various sources, their enrichment as
well as their publication and presentation in a way that their value is maintained over
time and they remain available for reuse and preservation. Data curation includes „all
the processes needed for principled and controlled data creation, maintenance, and
management, together with the capacity to add value to data.” In science, data curation
may indicate the process of extraction of important information from scientific texts,
such as research articles by experts, and its conversion into an electronic format, such as
an entry of a biological database.
In the modern era of big data the curation of data has become more prominent,
particularly for software processing high volume and complex data systems. The term is
also used in the science of history and in the humanities, where increasing cultural and
scholarly data from digital humanities projects require the expertise and analytical
practices of data curation. In broad terms, curation means a range of activities and
processes done to create, manage, maintain, and validate a component.
(see: Wikipedia)
9
10. „data curation“ – definizione + spiegazione
Data curation includes „tutti i processi necessari per la
creazione, la manutenzione e la gestione controllate dei
dati, insieme alla capacità di aggiungere valore ai dati“.
Commento: con dati sono ritenuti naturalmente anche i relativi
metadati. E l‘obiettivo maggiore è sempre l‘aumentare il riuso degli
oggetti/dei dati
10Milano, 15-16 marzo 2018
11. Data curation è come una matryoshka, cioè una
bambola russa …
11Milano, 15-16 marzo 2018
12. 1. „Data curation“ include fondamentalmente le
quattro sotto-attività seguenti:
1. Consentire e migliorare la ricercabilità e la reperibilità dei dati,
ad esempio mediante il miglioramento della loro presentazione
e visualizzazione (ricerca dei dati)
2. Adottare ampie misure per la garanzia della qualità, compresa
la correzione dei dati e dei relativi metadati (mantenimento e
miglioramento della qualità dei dati)
3. Aggiungere valore, ad esempio mediante l’indicizzazione
approfondita o l’arricchimento di dati / metadati, creando nuovi
contesti e connessioni di ricerca, ma anche sviluppando e
offrendo nuovi servizi originali (aggiunta di valore ai dati)
4. Rendere disponibili i dati generati per le più svariate forme di
riutilizzo (riutilizzo dei dati inclusa la conservazione)
Milano, 15-16 marzo 2018 12
13. 1.1. L'estensione e la qualità del recupero dei dati è
determinata fondamentalmente nella fase di produzione
Milano, 15-16 marzo 2018
• Sviluppo di un flusso di lavoro completo e standardizzato /
computerizzato
• Produzione di oggetti / contenuti digitali nella migliore qualità
possibile
• Aggiunta di un insieme di metadati il più completo possibile
(metadati tecnico-amministrativi, bibliografici e strutturali,
incluso un identificativo persistente)
• Collegamento o inserimento dei (meta)dati all’interno di
quanti più strumenti bibliografici e di accesso (= cataloghi e
portali) possibile.
13
15. Milano, 15-16 marzo 2018
• Un aspetto essenziale di una politica sistematica di gestione
dei dati è l'inclusione di una politica di qualità e di un controllo
costante della qualità durante la produzione di immagini
digitali. La risoluzione e la nitidezza delle immagini, insieme
alla gestione del colore, sono parametri essenziali.
• In un simile contesto, la tecnologia di riproduzione disponibile
(scanner e fotocamere digitali) deve essere rinnovata su base
continuativa.
• Oltre a tutto questo, nel nostro centro di scansione vengono
prese altre misure di garanzia della qualità. Una di queste è
l'uso sistematico del protocollo <Metamorfoze> (linee guida
per la produzione e la conservazione di immagini sviluppate
dalla Biblioteca Nazionale dei Paesi Bassi).
1.2. Politica di gestione dei dati: controllo di qualità
15
16. Milano, 15-16 marzo 2018
1.3. Politica di gestione dei dati: flussi di lavoro
• Alla BSB la nostra politica sulla gestione dei dati include anche
una gestione delle risorse mirata ad ottimizzare l'impiego dei
dipendenti.
• Considerando la dimensione raggiunta dai nostri dati digitali (oltre
2 milioni di volumi) e in particolare la necessità di migrare molte
sotto-raccolte fino ad ora basate su soluzioni software individuali,
un ulteriore aumento e un miglioramento dell'efficienza possono
essere raggiunti solo con la conseguente standardizzazione e
organizzazione strettamente orientata al flusso di lavoro di
tutte le possibili fasi di lavoro nella produzione digitale.
• L'efficienza della programmazione e degli altri compiti, ad
esempio nel campo dei metadati / gestione dei dati, è accresciuta
(tra le altre misure) dagli strumenti utilizzati. Questi sono, ad
esempio, strumenti software (middleware) come RabbitMQ.
16
20. 1.4. Miglioramento del recupero e della qualità della
ricerca dei dati tramite ...
• Il rafforzamento della visibilità e dell'accessibilità della propria
produzione digitale mediante la consegna dei metadati a
cataloghi regionali, nazionali e mondiali e a vari portali
specializzati:
Deutsche Digitale Bibliothek
Europeana
World Digital Library
bavarikon
• Il nostro sito web: "Collezioni digitali del Munich Digitization
Centre (MDZ)"
• Prossimo passo: mostre online/virtuali
Milano, 15-16 marzo 2018 20
24. 2. Mantenere e migliorare la qualità dei dati – parte 1
• Miglioramento della qualità dei volumi digitalizzati da
Google, tramite:
Una continua attenzione dedicata alla correzione delle
immagini digitali e / o dei metadati
Inserimento delle pagine ripiegate fuori-testo (mappe,
ecc.) non digitalizzate da Google
Milano, 15-16 marzo 2018 24
25. 2. Mantenere e migliorare la qualità dei dati – parte 2
• Creare nuovi/addizionali metadati (ad esempio indici
elettronici)
• Produrre testi ricercabili (fulltext mediante tools OCR)
• Generare nuovi contesti di ricerca tramite l’interconnessione
delle risorse digitali e/o migrazione dei dati su nuove base
software (come, per esempio, il DFG project “I verbali del
Deutschen Reichstag”; o il Zedler-Lexikon)
Milano, 15-16 marzo 2018 25
26. 3. Aggiungere valore ai dati grazie a nuovi servizi e/o
prodotti
• Migliorare la presentazione e la consegna dei dati tramite
"dati per la ricerca scientifica" (= Daten für die Forschung
/ DaFo)
• Offrire un nuovo visualizzatore online per le immagini
(IIIF manifest)
• Proporre un nuovo modo di fruire dei quotidiani storici:
digiPress
• Produzione di nuovi oggetti digitali: digitalizzazione 3D
• Ricerca basata non solo sul testo, ma anche sull’analisi
della similarità delle immagini
Milano, 15-16 marzo 2018 26
40. 4. Rendere disponibili i dati generati per le più
svariate forme di riutilizzo (riuso dei dati)
• Il nostro obiettivo principale è preservare l'originale. Per
noi questo significa che ogni originale viene scansionato
solo una volta nella migliore qualità possibile
• La scansione ad alta qualità e ad alta risoluzione richiede
un controllo di qualità permanente e sistematico (utilizzo
del protocollo <Metamorfoze>)
• Esempio: document delivery „Altes Buch - old book“
Milano, 15-16 marzo 2018 40
41. Sommario
Data curation è
• un processo in corso e senza fine,
• che offre sempre nuove sfide, a causa del cambiamento
delle tecnologie e delle esigenze degli utenti.
• Una parte essenziale delle soluzioni ai problemi è l'ampia
cooperazione non solo tra le istituzioni che detengono i
dati, ma anche la stretta interazione con gli utenti.
• Per questo, però, in particolare i ricercatori devono
sviluppare una sensibilità molto più ampia verso la
conservazione e l'uso di dati a lungo termine.
Milano, 15-16 marzo 2018 41
42. 42Milano, 15-16 marzo 2018
Grazie per l‘attenzione!
Contatto: klaus.kempf@bsb-muenchen.de