E Manus

650 views

Published on

Electronic manuscript and OPAC

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
650
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

E Manus

  1. 1. eManus<br />Roma, 24 Marzo 2010<br />
  2. 2. eManus<br />L’ipotesi di progetto eManus del Gruppo AlmavivA si propone di rendere fruibile agli utenti il patrimonio dei manoscritti italiani, attraverso l’utilizzo di strumenti elettronici che ne facilitino individuazione e consultazione.<br />
  3. 3. Le fasi del progetto<br />FASE 1<br />Acquisizione manoscritto<br />Si parte avendo a disposizione il manoscritto originale, o, in alternativa, una buona riproduzione<br />
  4. 4. Le fasi del progetto<br />FASE 1 (continua)<br />Acquisizione digitale<br />Il manoscritto viene passato allo scanner e ne viene acquisita una immagine digitale (ad almeno 300 dpi)<br />
  5. 5. Le fasi del progetto<br />FASE 2<br />OCR<br />Gli strumenti di Optical Character Recognition - riconoscimento ottico dei caratteri - consentono di acquisire in formato elettronico un testo a partire da una immagine<br />
  6. 6. Le fasi del progetto<br />FASE 2 (continua)<br />Definizione del set dei caratteri manuali che compongono il character set da usare (OCR training) <br />Riconoscimento elettronico del testo<br />Conversione del documento elettronico in XML<br />Il file di testo ottenuto tramite OCR viene trasformato in un file di tipo xml <br />Sostituzione termini non riconosciuti<br />Nel file di tipo xml vengono sostituiti, nelle opportune posizioni, i termini che l’OCR non è stato in grado di riconoscere<br />
  7. 7. Le fasi del progetto<br />FASE 2 (continua)<br />Trasformazione in DJVU<br />Il file di tipo xml viene usato per la creazione del file di formato djvu (simile al pdf) <br />
  8. 8. Le fasi del progetto<br />FASE 2 (continua)<br />Controllo e correzione del testo acquisito tramite OCR<br />
  9. 9. Le fasi del progetto<br />FASE 3 <br />Integrazione del documento elettronico acquisito con l’OPAC della Biblioteca Nazionale<br />
  10. 10. Le fasi del progetto<br />FASE 3 (continua) <br />Ricerca e consultazione del manoscritto<br />E’ possibile individuare il manoscritto tramite ricerca su metadati (schede unimarc) e/o tramite il canale di ricerca full text nella lingua della trascrizione del manoscritto<br />
  11. 11. Le fasi del progetto<br />FASE 3 (continua) <br />Ricerca e consultazione del manoscritto<br />Viene visualizzata una scheda catalografica con link al documento elettronico<br />
  12. 12. Le fasi del progetto<br />FASE 3 (continua) <br />Fruizione elettronica del manoscritto<br />Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf.<br />Nell’ambito della fruizione si possono ipotizzare due diverse modalità, che presentano livelli di impegno nella realizzazione e livelli di utilizzo diversi.<br />
  13. 13. Le fasi del progetto<br />Livello di accesso al solo documento elettronico<br />Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf<br />
  14. 14. Le fasi del progetto<br />Livello di accesso al documento elettronico ed alla sua trascrizione<br />E’ possibile accedere contemporaneamente al manoscritto elettronico ed alla relativa trascrizione, con ricerca effettuabile in entrambe le viste<br />
  15. 15. Attori<br />
  16. 16. Il cliente fornisce il documento in formato digitale compresso<br />Non si tratta di un progetto di digitalizzazione, bensì di un progetto che ha come punto di partenza le immagini digitali dei manoscritti; non è richiesta dunque la disponibilità dei manoscritti originali.<br />Il committente mette a disposizione le immagini (in formato standard tipo .tif o .jpg) su supporto fisico oppure tramite server.<br />
  17. 17. Almaviva elabora le immagini in formato elettronico<br />Si possono ipotizzare due diversi scenari<br />Scenario A <br />e’ disponibile, per ogni manoscritto, un file di testo contenente la trascrizione <br />Il file di trascrizione viene elaborato in un file testuale di interscambio per le attività di verifica e validazione (.tra).<br />Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr).<br />Nel file .xml, tramite un tool appositamente realizzato da Almaviva, vengono sostituiti, all’interno delle relative coordinate, i vocaboli non riconosciuti da OCR con i vocaboli presenti nella trascrizione.<br />
  18. 18. Almaviva elabora le immagini in formato elettronico<br />Scenario B <br />non e’ disponibile il file di testo contenente la trascrizione<br />E’ necessaria una fase preventiva di apprendimento della scrittura manuale presente nel manoscritto (OCR training). Tale fase crea un modello di riconoscimento che verrà usato dall’OCR/ICR.<br />Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr).<br />
  19. 19. Il committente controlla e valida<br />Nel caso dello scenario B, cioè della non disponibilità della trascrizione, i file trattati vanno controllati da parte del committente: è necessario verificare che i testi, trascritti dall’OCR, corrispondano a quelli presenti nei manoscritti. <br />A questo scopo Almaviva mette a disposizione i file, ottenuti tramite OCR, in formato di interscambio ( .tra).<br />Il committente verifica che il testo ricavato corrisponda a quanto presente nel manoscritto, con un controllo puntuale su tutto il manoscritto: tale controllo si rende necessario in quanto il livello di attendibilità degli strumenti utilizzabili per l’OCR di scrittura non a stampa è molto basso.<br />Gli errori vengono sanati direttamente dal committente.<br />Nel caso di errori generati da un processo di training non corretto il committente comunica ad Almaviva gli aggiustamenti da apportare.<br />
  20. 20. Almaviva aggancia i file elettronici all’OPAC<br />E’ necessario realizzare una procedura software che integri l’attuale scarico unimarc (per il ricarico dell’OPAC) con i seguenti passi:<br /><ul><li>la procedura deve verificare se esiste, per il documento (bid) in trattamento, un file di eManus (formato .xml per djvu)
  21. 21. se esiste deve creare uno o più tag 9xx che conterranno il testo presente nel file di eManus
  22. 22. al termine della procedura verranno prodotti dei record in formato unimarc in cui sarà presente anche il tag 9xx associato al canale full text.</li></li></ul><li>Riferimenti<br />eManus è una ipotesi di progetto AlmavivA<br />Si ringrazia per la cortese attenzione<br />Contatti p.tersigni@almavivaitalia.it<br />a.trombin@almavivaitalia.it<br />

×