Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Ricerca semantica:
annotazioni manuali e automatiche
per l'Archivio storico de La Stampa
Andrea Bolioli
27 ottobre 2014, B...
Ovvero, dalle pagine alle infografiche
Come si costruisce
un motore di ricerca semantico
per un archivio storico digitale ...
Dietro le quinte del processo
Microfilm
Copia digitale
e OCR Indicizzazione full text
Annnotazione semantica
e infografich...
Cosa abbiamo ottenuto ? Alcuni numeri
4.800.000 Articoli annotati automaticamente
dal 1910 al 2005
113.000 Nomi di persona...
Dietro le quinte: la piattaforma di sviluppo
Dietro le quinte:
annotazione manuale e automatica
Testi e
Metadati
->
Testi
Annotazioni
Tags
Facets
Dashboard: infografiche in tempo reale, es.
1
Citazioni delle persone nella prima pagina del giornale
Citazioni delle persone in tutte le pagine del giornale
Dashboard: infografiche in tempo reale, es.
2
Come abbiamo fatto ?
Selezione dei corpora di training e test: un campione significativo
partendo da 12 milioni di articol...
Quali difficoltà abbiamo incontrato ?
Errori di OCR:
la quantità di errori di OCR è
considerevole. Abbiamo annotato
circa ...
Difficoltà ? Dimensioni ed estensione temporale
12 milioni di articoli e un periodo temporale di quasi 150 anni.
Non esist...
Che cosa può essere utile per
gli archivi e le biblioteche digitali ?
Studiare la user experience per realizzare interfacc...
Archeologia del sapere
"L'archivio è anche ciò che fa sì che tutte queste cose dette non si
accumulino all'infinito in una...
Grazie per l'attenzione !
Per maggiori informazioni:
Andrea Bolioli
bolioli@cross-library.com info@celi.it
@CrossLib @CELI...
Upcoming SlideShare
Loading in …5
×

Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa

662 views

Published on

Andrea Bolioli 27 ottobre 2014, Bolzano – Bozen Convegno: I giornali storici nell'era digitale. Dal file immagine al full text. Un incontro tra esperti.
Historische Zeitungen im digitalen Zeitalter. Von der Bilddatei zum Volltext. Ein Expertenaustausch

Published in: Data & Analytics
  • D0WNL0AD FULL ▶ ▶ ▶ ▶ http://1url.pw/7mJtc ◀ ◀ ◀ ◀
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... ...................................ALL FOR EBOOKS................................................. Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes ,Download or read Ebooks here ... ......................................................................................................................... Download FULL PDF EBOOK here { https://urlzs.com/UABbn }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • (Unlimited)....ACCESS WEBSITE Over for All Ebooks ................ accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THAT BOOKS/FILE INTO AVAILABLE FORMAT - (Unlimited) ......................................................................................................................... ......................................................................................................................... Download FULL PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes Christian, Classics, Comics, Contemporary, Cookbooks, Art, Biography, Business, Chick Lit, Children's, Manga, Memoir, Music, Science, Science Fiction, Self Help, History, Horror, Humor And Comedy, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa

  1. 1. Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa Andrea Bolioli 27 ottobre 2014, Bolzano – Bozen Convegno: I giornali storici nell'era digitale. Dal file immagine al full text. Un incontro tra esperti. Historische Zeitungen im digitalen Zeitalter. Von der Bilddatei zum Volltext. Ein Expertenaustausch 1
  2. 2. Ovvero, dalle pagine alle infografiche Come si costruisce un motore di ricerca semantico per un archivio storico digitale ? Trasformando i contenuti testuali in dati analizzabili.
  3. 3. Dietro le quinte del processo Microfilm Copia digitale e OCR Indicizzazione full text Annnotazione semantica e infografiche 1 2 3
  4. 4. Cosa abbiamo ottenuto ? Alcuni numeri 4.800.000 Articoli annotati automaticamente dal 1910 al 2005 113.000 Nomi di persona riconosciuti (PER con freq > 10) 10.200 Nomi di entità geopolitiche (GPE con freq > 10) 6.500 Nomi di organizzazioni (ORG con freq > 10) 1.020 Autori degli articoli (Author con freq > 10)
  5. 5. Dietro le quinte: la piattaforma di sviluppo
  6. 6. Dietro le quinte: annotazione manuale e automatica Testi e Metadati -> Testi Annotazioni Tags Facets
  7. 7. Dashboard: infografiche in tempo reale, es. 1 Citazioni delle persone nella prima pagina del giornale
  8. 8. Citazioni delle persone in tutte le pagine del giornale Dashboard: infografiche in tempo reale, es. 2
  9. 9. Come abbiamo fatto ? Selezione dei corpora di training e test: un campione significativo partendo da 12 milioni di articoli dal 1867 al 2005 Connettore con i dati dell'archivio storico in standard XML METS ALTO (Analyzed Layout and Text Object) Annotazione manuale dei corpora: interfaccia web collaborativa per annotare velocemente Analisi degli errori di OCR: report e statistiche Annotazione automatica: pipeline NLP con classificatori automatici SVM (Support Vector Machine) e basati su regole linguistiche Verifiche di accuratezza dei risultati e correzioni
  10. 10. Quali difficoltà abbiamo incontrato ? Errori di OCR: la quantità di errori di OCR è considerevole. Abbiamo annotato circa 16000 errori (e le loro correzioni) in un campione di 900 articoli. Alcuni esempi: dustin hoflman, hoftman, holfman, hollman, hotfman, hotlman (dustin hoffmann) , pohtica (politica), poh (poli), de (dc) , pei (pci), doc um e nto (documento) , re- latore (relatore), … Distribuzione dei tipi di errore per anno
  11. 11. Difficoltà ? Dimensioni ed estensione temporale 12 milioni di articoli e un periodo temporale di quasi 150 anni. Non esistevano casi analoghi in Italia di analisi semantica di testi su un intervallo così ampio. Distribuzione delle citazioni di alcuni personaggi storici
  12. 12. Che cosa può essere utile per gli archivi e le biblioteche digitali ? Studiare la user experience per realizzare interfacce usabili, accessibili, semplici. Annotazione automatica, validazione degli esperti, annotazione manuale in crowdsourcing (per correggere gli errori di OCR e annotare e correggere le entità rilevanti). Esplorazione visuale e infografiche (grafi, grafici, timelines) Integrazione di thesauri e ontologie (entità, concetti, sinonimi, altre relazioni semantiche); espansione delle queries (ad es. scuola media <-> scuola secondaria di primo grado; edifici religiosi del 700 -> Basilica di Superga); ricerca multilingue e cross-lingue.
  13. 13. Archeologia del sapere "L'archivio è anche ciò che fa sì che tutte queste cose dette non si accumulino all'infinito in una moltitudine amorfa, non si iscrivano in una linearità senza fratture, e non scompaiano solo per casuali accidentualità esterne; ma che si raggruppino in figure distinte, si compongano le une con le altre secondo molteplici rapporti, si conservino o si attenuino secondo regolarità specifiche." Michel Foucault (1969) L'archeologia del sapere / Die Archäologie des Wissens "Aber das Archiv ist auch das, was bewirkt, daß all diese gesagten Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl anhäufen, auch nicht allein schon bei zufälligen äußeren Umständen verschwinden.[…]"
  14. 14. Grazie per l'attenzione ! Per maggiori informazioni: Andrea Bolioli bolioli@cross-library.com info@celi.it @CrossLib @CELI_NLP 14

×