Het Europeana Newspapers Project

Het Europeana Newspapers
Project
Historische kranten online
Den Haag, 22-11-2012
Lotte Wilms
@lottewilms @eurnews

Europeana Newspapers – waarom kranten?

Waarom kranten?
• Belangrijke bron voor onderzoek

• Relevant voor het algemeen publiek

Bronnen:
http://digi.kansalliskirjasto.fi/sanomalehti/secure/showPage.html?id=395644&conversationId=1&action=entryPage;
http://kranten.kb.nl/view/paper/id/ddd%3A010212139%3Ampeg21%3Ap001%3Aa0001/backlink/home
http://gallica.bnf.fr/ark:/12148/bpt6k265203z ; 2

Projectprofiel: Consortium & stakeholders
• 17 partners uit 12 landen:
• Nationale bibliotheken

• Universiteitsbibliotheken

• Onderzoeksinstituten

• Commerciële partij

• Framework:
• Best Practice Network

• ICT-PSP programma van de Europese Commissie

• Projectduur: februari 2012 – januari 2015

3

Europeana Newspapers
Consortium

Europeana Newspapers: Doelen

• Aggregatie en verrijking van kranten voor Europeana
• Circa 18 miljoen krantenpagina’s naar Europeana

• Verrijken met OCR, layout herkenning (OLR) en named entity
recognition

• Analyse bestaande krantencollecties
• Overzicht bestaande projecten

• Aanmoedigen om ook kranten bij te dragen

5

Europeana Newspapers: Doelen

• Quality assurance en best practice aanbevelingen
• Voortbouwen op andere projecten (o.a. IMPACT en Europeana
Libraries)

• Bijdragen aan geoptimaliseerde workflows

• Aanbevelingen voor digitalisering, verrijking, workflows, metadata, etc.

• Presentatie en full-text doorzoeken
• 18 miljoen Europese krantenpagina’s

• Verbeteren van de toegang van kranten in Europeana

Aggregatie en verrijking van kranten voor Europeana

• Aggregatie in Europeana en The European
Library
• 18 miljoen gedigitaliseerde krantenpagina’s

• 8 miljoen pagina’s zonder bewerkingen
www.europeana.eu/
(content leveranciers)

• 8 miljoen verrijkte pagina’s: OCR (UIBK,
Oostenrijk)

• 2 miljoen verrijkte pagina’s: OCR/OLR
(artikelsegmentatie) (CCS, Duitsland)

www.theeuropeanlibrary.org/

7

Verrijking – OCR en OLR

• 8 miljoen verrijkte pagina’s:
OCR (UIBK, Oostenrijk)
• OCR (ABBYY)

• Output in ALTO formaat

• Test met Document Understanding
Platform (FEP)
• Ontwikkeld binnen IMPACT

• Profielen aangepast aan kranten

UIBK: Herkenning van titels, voetnoten, etc.
Extractie van inhoudsopgave

Verrijking – OCR en OLR

• 2 miljoen verrijkte pagina’s: • Automatische layout herkenning
OCR/OLR (artikelsegmentatie) • Kolommen
(CCS, Duitsland)
• Zones
• OCR (ABBYY)
• Pagina types

• Automatische artikelsegmentatie

• Aanvullende handmatige verificatie
en quality control
CCS: Kolomherkenning en artikelsegmentatie

Verrijking - Named Entity Recognition
• Named entity herkenning (KB, Nederland)
• Tot drie talen

• Nederlands

• Engels

• Duits

Analyse bestaande krantencollecties
• Enquête over digitale krantencollecties
• Zomer 2012
• Circa 45 Europese bibliotheken

• De resultaten naar “Zeitschriftendatenbank” van de Staatsbibliotheek van
Berlijn

• Potentiële nieuwe partners

• Informatie over de technische status van gedigitaliseerd materiaal

Quality assurance en best practice aanbevelingen

• Ontwikkeling van een • Evaluatie van de
metadataprofiel (METS) digitaliseringsworkflow voor

• Gebruik binnen het project kranten, inclusief verrijking

• Aanbeveling voor toekomstige • M.b.v. een quality assessment

digitaliseer- en framework

verrijkingsprojecten • Inclusief tools uit IMPACT

• Aanbevelingen voor het digitaliseren
en verrijken van kranten

Presentatie en full-text doorzoeken

• Content browser
• Onderdeel van het TEL portal

• Zoeken op full-text
• Zoekterm

• Named entities

• Per collectie

• Op datum

• Krantenafbeeldingen

• Link naar bibliotheek

Nb. Mock-ups

Promotie
• Doelen:
• Publiciteit van het project

• Vergroten van gebruik Europeana

• Media
• @eurnews

• www.facebook.com/EuropeanaNewspapers

• Workshops en conferenties
• Drie dissemination workshops

• Nationale informatie dagen

• Uitbreiding van het netwerk

14

Voordeel voor de KB kranten en gebruikers

• Beschikbaar via Europeana

• 2 miljoen KB krantenpagina’s doorzoekbaar in combinatie met 16 miljoen
andere Europese krantenpagina’s uit 12 landen
• Duitse kranten
• Franse kranten
• Oostenrijkse kranten
• Finse kranten
• Poolse kranten
• Etc.

• Verrijking met Named Entities

Bedankt! Vragen?
http://www.europeana-newspapers.eu/

Lotte Wilms
lotte.wilms@kb.nl
@lottewilms @eurnews

Het Europeana Newspapers Project

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Viewers also liked

Viewers also liked (20)

Similar to Het Europeana Newspapers Project

Similar to Het Europeana Newspapers Project (20)

More from Europeana Newspapers

More from Europeana Newspapers (19)

Het Europeana Newspapers Project