Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data curation ovvero quanto durevoli sono i nostri sforzi per una biblioteca digitale?

278 views

Published on

Klaus Kempf Keynote presentation Panel: Una proposta (non?) sovversiva: le competenze per la cura dei dati. A cura di DILL, in collaborazione con IOSSG, Convegno Stelline 16 marzo 2018

Published in: Education
  • Login to see the comments

Data curation ovvero quanto durevoli sono i nostri sforzi per una biblioteca digitale?

  1. 1. Klaus Kempf Data curation oppure quanto durevoli sono i nostri sforzi per una biblioteca digitale’? Milano, 15-16 marzo 2018Klaus Kempf
  2. 2. Aspetti fondamentali della „biblioteca digitale“ • Visione d‘insieme dell‘argomento ipercomplesso • Conta il punto di vista d‘utente, non quello all‘interno della biblioteca/quello tecnologico (obiettivo maggiore: riuso dei contenuti) • Cooperazione tra vari partner (parola chiave: standardizzazione in ogni campo d‘attività) • Cura dei relativi dati nel senso vasto del termine ed in modo permanente 2Milano, 15-16 marzo 2018
  3. 3. Milano, 15-16 marzo 2018 3
  4. 4. Milano, 15-16 marzo 2018 Bayerische Staatsbibliothek a uno sguardo… Photos: BSB/H.-R. Schulz 4
  5. 5. • Dal 1997 >500 progetti di digitalizzazione terminati • > 2.3 milioni volumi digitalizzati • >1,800,000,000 data files • = 980 terabyte • > 200 offerte digitali disponibili sull’internet Milano, 15-16 marzo 2018 Digitalizzazione alla Bayerische Staatsbibliothek (situazione fine febbraio 2018) 5
  6. 6. Produzione digitale e archivazione a lungo termine Milano, 15-16 marzo 2018 6
  7. 7. (Ri)Uso: numero di PDF-downloads Milano, 15-16 marzo 2018 7
  8. 8. Il nostro servizio digitale, basato sul posseduto delle nostre collezioni, si può definire come: • un successo eclatante • ma deve continuamente fare i conti con la gestione di risorse umane estremamente limitate • e con costi sempre straripanti (almeno 9 volte di più per l'hosting e la gestione dei dati rispetto al mondo analogico). Milano, 15-16 marzo 2018 8
  9. 9. Milano, 15-16 marzo 2018 Definition „Data curation“ Data curation is a broad term to indicate processes and activities related to the organization and integration of data collected from various sources, their enrichment as well as their publication and presentation in a way that their value is maintained over time and they remain available for reuse and preservation. Data curation includes „all the processes needed for principled and controlled data creation, maintenance, and management, together with the capacity to add value to data.” In science, data curation may indicate the process of extraction of important information from scientific texts, such as research articles by experts, and its conversion into an electronic format, such as an entry of a biological database. In the modern era of big data the curation of data has become more prominent, particularly for software processing high volume and complex data systems. The term is also used in the science of history and in the humanities, where increasing cultural and scholarly data from digital humanities projects require the expertise and analytical practices of data curation. In broad terms, curation means a range of activities and processes done to create, manage, maintain, and validate a component. (see: Wikipedia) 9
  10. 10. „data curation“ – definizione + spiegazione Data curation includes „tutti i processi necessari per la creazione, la manutenzione e la gestione controllate dei dati, insieme alla capacità di aggiungere valore ai dati“. Commento: con dati sono ritenuti naturalmente anche i relativi metadati. E l‘obiettivo maggiore è sempre l‘aumentare il riuso degli oggetti/dei dati 10Milano, 15-16 marzo 2018
  11. 11. Data curation è come una matryoshka, cioè una bambola russa … 11Milano, 15-16 marzo 2018
  12. 12. 1. „Data curation“ include fondamentalmente le quattro sotto-attività seguenti: 1. Consentire e migliorare la ricercabilità e la reperibilità dei dati, ad esempio mediante il miglioramento della loro presentazione e visualizzazione (ricerca dei dati) 2. Adottare ampie misure per la garanzia della qualità, compresa la correzione dei dati e dei relativi metadati (mantenimento e miglioramento della qualità dei dati) 3. Aggiungere valore, ad esempio mediante l’indicizzazione approfondita o l’arricchimento di dati / metadati, creando nuovi contesti e connessioni di ricerca, ma anche sviluppando e offrendo nuovi servizi originali (aggiunta di valore ai dati) 4. Rendere disponibili i dati generati per le più svariate forme di riutilizzo (riutilizzo dei dati inclusa la conservazione) Milano, 15-16 marzo 2018 12
  13. 13. 1.1. L'estensione e la qualità del recupero dei dati è determinata fondamentalmente nella fase di produzione Milano, 15-16 marzo 2018 • Sviluppo di un flusso di lavoro completo e standardizzato / computerizzato • Produzione di oggetti / contenuti digitali nella migliore qualità possibile • Aggiunta di un insieme di metadati il più completo possibile (metadati tecnico-amministrativi, bibliografici e strutturali, incluso un identificativo persistente) • Collegamento o inserimento dei (meta)dati all’interno di quanti più strumenti bibliografici e di accesso (= cataloghi e portali) possibile. 13
  14. 14. Processo di digitalizzazione a uno sguardo Milano, 15-16 marzo 2018 14
  15. 15. Milano, 15-16 marzo 2018 • Un aspetto essenziale di una politica sistematica di gestione dei dati è l'inclusione di una politica di qualità e di un controllo costante della qualità durante la produzione di immagini digitali. La risoluzione e la nitidezza delle immagini, insieme alla gestione del colore, sono parametri essenziali. • In un simile contesto, la tecnologia di riproduzione disponibile (scanner e fotocamere digitali) deve essere rinnovata su base continuativa. • Oltre a tutto questo, nel nostro centro di scansione vengono prese altre misure di garanzia della qualità. Una di queste è l'uso sistematico del protocollo <Metamorfoze> (linee guida per la produzione e la conservazione di immagini sviluppate dalla Biblioteca Nazionale dei Paesi Bassi). 1.2. Politica di gestione dei dati: controllo di qualità 15
  16. 16. Milano, 15-16 marzo 2018 1.3. Politica di gestione dei dati: flussi di lavoro • Alla BSB la nostra politica sulla gestione dei dati include anche una gestione delle risorse mirata ad ottimizzare l'impiego dei dipendenti. • Considerando la dimensione raggiunta dai nostri dati digitali (oltre 2 milioni di volumi) e in particolare la necessità di migrare molte sotto-raccolte fino ad ora basate su soluzioni software individuali, un ulteriore aumento e un miglioramento dell'efficienza possono essere raggiunti solo con la conseguente standardizzazione e organizzazione strettamente orientata al flusso di lavoro di tutte le possibili fasi di lavoro nella produzione digitale. • L'efficienza della programmazione e degli altri compiti, ad esempio nel campo dei metadati / gestione dei dati, è accresciuta (tra le altre misure) dagli strumenti utilizzati. Questi sono, ad esempio, strumenti software (middleware) come RabbitMQ. 16
  17. 17. RabbitMQ Milano, 15-16 marzo 2018 17
  18. 18. Workflow- oriented organization of the Digital Library at the BSB - 1 Milano, 15-16 marzo 2018 18
  19. 19. Workflow- oriented organization of the Digital Library at the BSB - 2 Milano, 15-16 marzo 2018 19
  20. 20. 1.4. Miglioramento del recupero e della qualità della ricerca dei dati tramite ... • Il rafforzamento della visibilità e dell'accessibilità della propria produzione digitale mediante la consegna dei metadati a cataloghi regionali, nazionali e mondiali e a vari portali specializzati:  Deutsche Digitale Bibliothek  Europeana  World Digital Library  bavarikon • Il nostro sito web: "Collezioni digitali del Munich Digitization Centre (MDZ)" • Prossimo passo: mostre online/virtuali Milano, 15-16 marzo 2018 20
  21. 21. Milano, 15-16 marzo 2018 21
  22. 22. Milano, 15-16 marzo 2018 22
  23. 23. 23Milano, 15-16 marzo 2018
  24. 24. 2. Mantenere e migliorare la qualità dei dati – parte 1 • Miglioramento della qualità dei volumi digitalizzati da Google, tramite:  Una continua attenzione dedicata alla correzione delle immagini digitali e / o dei metadati  Inserimento delle pagine ripiegate fuori-testo (mappe, ecc.) non digitalizzate da Google Milano, 15-16 marzo 2018 24
  25. 25. 2. Mantenere e migliorare la qualità dei dati – parte 2 • Creare nuovi/addizionali metadati (ad esempio indici elettronici) • Produrre testi ricercabili (fulltext mediante tools OCR) • Generare nuovi contesti di ricerca tramite l’interconnessione delle risorse digitali e/o migrazione dei dati su nuove base software (come, per esempio, il DFG project “I verbali del Deutschen Reichstag”; o il Zedler-Lexikon) Milano, 15-16 marzo 2018 25
  26. 26. 3. Aggiungere valore ai dati grazie a nuovi servizi e/o prodotti • Migliorare la presentazione e la consegna dei dati tramite "dati per la ricerca scientifica" (= Daten für die Forschung / DaFo) • Offrire un nuovo visualizzatore online per le immagini (IIIF manifest) • Proporre un nuovo modo di fruire dei quotidiani storici: digiPress • Produzione di nuovi oggetti digitali: digitalizzazione 3D • Ricerca basata non solo sul testo, ma anche sull’analisi della similarità delle immagini Milano, 15-16 marzo 2018 26
  27. 27. Milano, 15-16 marzo 2018 27
  28. 28. Milano, 15-16 marzo 2018 28
  29. 29. Milano, 15-16 marzo 2018 29
  30. 30. bavarikon 3D digitization Milano, 15-16 marzo 2018 30
  31. 31. Milano, 15-16 marzo 2018 31
  32. 32. Ricerca basata sulla similarità delle imagini Milano, 15-16 marzo 2018 32
  33. 33. Milano, 15-16 marzo 2018 33
  34. 34. Milano, 15-16 marzo 2018 34
  35. 35. DaFo –Data for scientific research Milano, 15-16 marzo 2018 35
  36. 36. DaFo – order form (english version) Milano, 15-16 marzo 2018 36
  37. 37. Milano, 15-16 marzo 2018 37
  38. 38. Providing IIIF manifests Milano, 15-16 marzo 2018 38
  39. 39. Milano, 15-16 marzo 2018 39
  40. 40. 4. Rendere disponibili i dati generati per le più svariate forme di riutilizzo (riuso dei dati) • Il nostro obiettivo principale è preservare l'originale. Per noi questo significa che ogni originale viene scansionato solo una volta nella migliore qualità possibile • La scansione ad alta qualità e ad alta risoluzione richiede un controllo di qualità permanente e sistematico (utilizzo del protocollo <Metamorfoze>) • Esempio: document delivery „Altes Buch - old book“ Milano, 15-16 marzo 2018 40
  41. 41. Sommario Data curation è • un processo in corso e senza fine, • che offre sempre nuove sfide, a causa del cambiamento delle tecnologie e delle esigenze degli utenti. • Una parte essenziale delle soluzioni ai problemi è l'ampia cooperazione non solo tra le istituzioni che detengono i dati, ma anche la stretta interazione con gli utenti. • Per questo, però, in particolare i ricercatori devono sviluppare una sensibilità molto più ampia verso la conservazione e l'uso di dati a lungo termine. Milano, 15-16 marzo 2018 41
  42. 42. 42Milano, 15-16 marzo 2018 Grazie per l‘attenzione! Contatto: klaus.kempf@bsb-muenchen.de

×