Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Het Europeana Newspapers Project

968 views

Published on

A presentation in Dutch language, presented at Kranten symposium in Den Haag, 22.11.2012

  • Be the first to comment

  • Be the first to like this

Het Europeana Newspapers Project

  1. 1. Het Europeana NewspapersProjectHistorische kranten onlineDen Haag, 22-11-2012Lotte Wilms@lottewilms @eurnews
  2. 2. Europeana Newspapers – waarom kranten?Waarom kranten?• Belangrijke bron voor onderzoek• Relevant voor het algemeen publiek Bronnen: http://digi.kansalliskirjasto.fi/sanomalehti/secure/showPage.html?id=395644&conversationId=1&action=entryPage; http://kranten.kb.nl/view/paper/id/ddd%3A010212139%3Ampeg21%3Ap001%3Aa0001/backlink/home http://gallica.bnf.fr/ark:/12148/bpt6k265203z ; 2
  3. 3. Projectprofiel: Consortium & stakeholders• 17 partners uit 12 landen: • Nationale bibliotheken • Universiteitsbibliotheken • Onderzoeksinstituten • Commerciële partij• Framework: • Best Practice Network • ICT-PSP programma van de Europese Commissie • Projectduur: februari 2012 – januari 2015 3
  4. 4. Europeana NewspapersConsortium
  5. 5. Europeana Newspapers: Doelen • Aggregatie en verrijking van kranten voor Europeana • Circa 18 miljoen krantenpagina’s naar Europeana • Verrijken met OCR, layout herkenning (OLR) en named entity recognition • Analyse bestaande krantencollecties • Overzicht bestaande projecten • Aanmoedigen om ook kranten bij te dragen 5
  6. 6. Europeana Newspapers: Doelen • Quality assurance en best practice aanbevelingen • Voortbouwen op andere projecten (o.a. IMPACT en Europeana Libraries) • Bijdragen aan geoptimaliseerde workflows • Aanbevelingen voor digitalisering, verrijking, workflows, metadata, etc. • Presentatie en full-text doorzoeken • 18 miljoen Europese krantenpagina’s • Verbeteren van de toegang van kranten in Europeana
  7. 7. Aggregatie en verrijking van kranten voor Europeana• Aggregatie in Europeana en The European Library • 18 miljoen gedigitaliseerde krantenpagina’s • 8 miljoen pagina’s zonder bewerkingen www.europeana.eu/ (content leveranciers) • 8 miljoen verrijkte pagina’s: OCR (UIBK, Oostenrijk) • 2 miljoen verrijkte pagina’s: OCR/OLR (artikelsegmentatie) (CCS, Duitsland) www.theeuropeanlibrary.org/ 7
  8. 8. Verrijking – OCR en OLR• 8 miljoen verrijkte pagina’s: OCR (UIBK, Oostenrijk) • OCR (ABBYY) • Output in ALTO formaat • Test met Document Understanding Platform (FEP) • Ontwikkeld binnen IMPACT • Profielen aangepast aan kranten UIBK: Herkenning van titels, voetnoten, etc. Extractie van inhoudsopgave
  9. 9. Verrijking – OCR en OLR• 2 miljoen verrijkte pagina’s: • Automatische layout herkenning OCR/OLR (artikelsegmentatie) • Kolommen (CCS, Duitsland) • Zones • OCR (ABBYY) • Pagina types • Automatische artikelsegmentatie • Aanvullende handmatige verificatie en quality control CCS: Kolomherkenning en artikelsegmentatie
  10. 10. Verrijking - Named Entity Recognition• Named entity herkenning (KB, Nederland) • Tot drie talen • Nederlands • Engels • Duits
  11. 11. Analyse bestaande krantencollecties• Enquête over digitale krantencollecties • Zomer 2012 • Circa 45 Europese bibliotheken• De resultaten naar “Zeitschriftendatenbank” van de Staatsbibliotheek van Berlijn• Potentiële nieuwe partners• Informatie over de technische status van gedigitaliseerd materiaal
  12. 12. Quality assurance en best practice aanbevelingen• Ontwikkeling van een • Evaluatie van de metadataprofiel (METS) digitaliseringsworkflow voor • Gebruik binnen het project kranten, inclusief verrijking • Aanbeveling voor toekomstige • M.b.v. een quality assessment digitaliseer- en framework verrijkingsprojecten • Inclusief tools uit IMPACT • Aanbevelingen voor het digitaliseren en verrijken van kranten
  13. 13. Presentatie en full-text doorzoeken• Content browser • Onderdeel van het TEL portal • Zoeken op full-text • Zoekterm • Named entities • Per collectie • Op datum • Krantenafbeeldingen • Link naar bibliotheek Nb. Mock-ups
  14. 14. Promotie• Doelen: • Publiciteit van het project • Vergroten van gebruik Europeana• Media • @eurnews • www.facebook.com/EuropeanaNewspapers• Workshops en conferenties • Drie dissemination workshops • Nationale informatie dagen • Uitbreiding van het netwerk 14
  15. 15. Voordeel voor de KB kranten en gebruikers• Beschikbaar via Europeana• 2 miljoen KB krantenpagina’s doorzoekbaar in combinatie met 16 miljoen andere Europese krantenpagina’s uit 12 landen • Duitse kranten • Franse kranten • Oostenrijkse kranten • Finse kranten • Poolse kranten • Etc.• Verrijking met Named Entities
  16. 16. Bedankt! Vragen?http://www.europeana-newspapers.eu/Lotte Wilmslotte.wilms@kb.nl@lottewilms @eurnews

×