M4 b presentatie-dagvanhetboekenvak03112014_nstc_v3boek_be
Presentatie gegeven door Tine Philips op de "Dag v/h boekenvak" op 3/11/2014 op de boekenbeurs te Antwerpen.In deze presentatie worden nieuwe ontwikkelingen voorgesteld voor het boekenvak waaronder NSTC. Deze identifiër maakt het mogelijk clusters van prodicten te tonen aan de gebruikers van websites of webshops.
M4 b presentatie-dagvanhetboekenvak03112014_nstc_v3boek_be
Presentatie gegeven door Tine Philips op de "Dag v/h boekenvak" op 3/11/2014 op de boekenbeurs te Antwerpen.In deze presentatie worden nieuwe ontwikkelingen voorgesteld voor het boekenvak waaronder NSTC. Deze identifiër maakt het mogelijk clusters van prodicten te tonen aan de gebruikers van websites of webshops.
David Coppoolse (Vlaamse Erfgoedbibliotheek)
Digitalisering is een speerpunt van de Vlaamse Erfgoedbibliotheek en het netwerk is rechtstreeks betrokken bij twee digitale bibliotheken: het eigen Flandrica.be dat eind 2012 in de lucht kwam en sinds dit jaar ook bij de Digitale Bibliotheek voor de Nederlandse Letteren. Een korte update over de toekomstige ontwikkelingen van deze online bibliotheken.
The Europeana Newspapers Project aims to aggregate and refine over 18 million digitized newspaper pages for Europeana and The European Library. It will perform optical character recognition (OCR) and named entity recognition to convert images to searchable text. The 17-partner consortium, representing 12 countries, will survey existing newspaper collections, develop best practices for digitization workflows, and build a content browser for searching and accessing newspaper pages. The project seeks to improve access to and reuse of historical newspapers in Europe.
Europeana Libraries: bringing content to the researcherLIBER Europe
The document summarizes the Europeana Libraries project, which aims to add over 5 million digital objects from 19 participating research and university libraries to Europeana. The project is coordinated by The European Library and brings together four library networks - LIBER, CERL, CENL, and The European Library. The goal is to make more library content available to researchers through Europeana by aggregating, improving, and providing meaningful access to digital content in a sustainable way. This will create a valuable research resource with full-text search capabilities.
The document summarizes the Europeana Newspapers Project, which digitized 18 million newspaper pages from across Europe between the 17th-20th centuries. The project aims to improve search capabilities and access to these historical newspapers by applying optical character recognition (OCR) and extracting metadata on people, places and organizations mentioned in articles. A network of 12 content providers, technical partners and others collaborated on enrichment, aggregation and dissemination of the newspaper content so it can be explored through Europeana and other online interfaces.
Europeana Newspapers (Project Details and Aggregation Workflow)The European Library
The document summarizes the Europeana Newspapers Content Browser project. The 3-year project aggregated 18 million historic newspaper pages from multiple partners to create a searchable online collection. 10 million newspaper pages were converted to full-text to allow users to quickly search articles. The browser also included a special content viewer and tools to help professionals assess digitization quality. The goal was to make historic European newspapers more accessible to the public and support research.
David Coppoolse (Vlaamse Erfgoedbibliotheek)
Digitalisering is een speerpunt van de Vlaamse Erfgoedbibliotheek en het netwerk is rechtstreeks betrokken bij twee digitale bibliotheken: het eigen Flandrica.be dat eind 2012 in de lucht kwam en sinds dit jaar ook bij de Digitale Bibliotheek voor de Nederlandse Letteren. Een korte update over de toekomstige ontwikkelingen van deze online bibliotheken.
The Europeana Newspapers Project aims to aggregate and refine over 18 million digitized newspaper pages for Europeana and The European Library. It will perform optical character recognition (OCR) and named entity recognition to convert images to searchable text. The 17-partner consortium, representing 12 countries, will survey existing newspaper collections, develop best practices for digitization workflows, and build a content browser for searching and accessing newspaper pages. The project seeks to improve access to and reuse of historical newspapers in Europe.
Europeana Libraries: bringing content to the researcherLIBER Europe
The document summarizes the Europeana Libraries project, which aims to add over 5 million digital objects from 19 participating research and university libraries to Europeana. The project is coordinated by The European Library and brings together four library networks - LIBER, CERL, CENL, and The European Library. The goal is to make more library content available to researchers through Europeana by aggregating, improving, and providing meaningful access to digital content in a sustainable way. This will create a valuable research resource with full-text search capabilities.
The document summarizes the Europeana Newspapers Project, which digitized 18 million newspaper pages from across Europe between the 17th-20th centuries. The project aims to improve search capabilities and access to these historical newspapers by applying optical character recognition (OCR) and extracting metadata on people, places and organizations mentioned in articles. A network of 12 content providers, technical partners and others collaborated on enrichment, aggregation and dissemination of the newspaper content so it can be explored through Europeana and other online interfaces.
Europeana Newspapers (Project Details and Aggregation Workflow)The European Library
The document summarizes the Europeana Newspapers Content Browser project. The 3-year project aggregated 18 million historic newspaper pages from multiple partners to create a searchable online collection. 10 million newspaper pages were converted to full-text to allow users to quickly search articles. The browser also included a special content viewer and tools to help professionals assess digitization quality. The goal was to make historic European newspapers more accessible to the public and support research.
This document summarizes a presentation about using digital technologies and "big data" to study the emergence of the United States as a "reference culture" in public discourse in the Netherlands between 1890-1990. It discusses both the promises and limitations of digital approaches, including the ability to analyze large amounts of newspaper text but also the need to move from just finding information to exploring meaningful patterns and relationships in the data.
The document discusses The European Library's plans to create an open dataset of its aggregated metadata made up of 119 million bibliographic records. By making the data openly available under a Creative Commons 0 license, it could be freely used and reused for both commercial and non-commercial purposes without attribution. This would allow others to deliver new search and discovery services, create subject-specific subsets of the data, enrich the data through entity recognition and record clustering, and visualize publication trends over time and location. The European Library aims to release the open dataset by the end of 2013 after addressing technical and legal issues.
The document discusses the Europeana Newspapers project, which aims to digitize over 18 million newspaper pages from various European newspapers ranging from the 17th to 20th centuries. The project involves 12 content providers, 2 networking partners, 4 technology providers and 1 aggregator working together to improve access to historical newspapers. Key aspects of the project include cultural cooperation, skills sharing, improved search capabilities through technologies like optical character recognition. The project highlights how digitization has improved access to historical newspapers and their coverage of events like the Titanic disaster across different European countries.
The document announces the launch of Welsh Newspapers Online, a collection of digitized Welsh newspaper articles that will be indexed by the European Library. Over 130 million newspaper pages from around 29,000 titles across Europe have already been digitized and indexed, with 85% available for free. The Welsh Newspapers collection is well-positioned to contribute content and benefit from increased exposure of Welsh language, history, and ideas to an international audience through the European Library's efforts.
De webdossiers van Bibliotheek De Krook - een bibliotheek en collectie in bew...Bibliotheek De Krook
Een bibliotheek die zijn basistaak vandaag herdenkt, moet juist (meer) inzetten op het versterken van mensen in een kennissamenleving, op het oriënteren in de veelheid aan informatie en op het verbinden van informatiebronnen tot betekenisvolle gehelen. De bibliotheek geeft niet louter toegang tot informatie, maar creëert mee de voorwaarden om van informatie tot kennis en cultuur te komen. Goed (leren) lezen en het verwerken van informatie is essentieel om genuanceerd en kritisch te denken en als goed geïnformeerde burger te functioneren in de maatschappij.
Via de website met de publieke dossiers wil Bibliotheek De Krook de context van informatiebronnen duidelijk maken (betrouwbaarheid, kwaliteit) en met elkaar in verband brengen via thema’s, werken, intrigerende personen, gebeurtenissen en locaties. We vertrekken hierbij telkens vanuit de collectie, leggen soms onverwachte dwarsverbanden verrijkt met citaten, beelden, klank, video, onlinebronnen, en tot slot geven we vaak ook extra lees-, kijk- en luistertips uit de collectie. Zo zijn er bijvoorbeeld dossiers in verband met literaire debuten, Gent en de film, wanderlust, burn-out en zijn er ook de kaarten en boekenwebben van Pieter en Jet Steinz.
Het gaat dus niet louter om een aanbod, maar ook om maatwerk en om het inspireren. Het gaat om actief werken mét de collectie en mét het publiek.
Charlotte Vandamme
https://www.vvbad.be/activiteiten/informatie-aan-zee-2017/ontdek-de-dossiers-van-bibliotheek-de-krook-met-verrassende
The Youtube of Dutch digital publications - one national platform for full-te...Olaf Janssen
Olaf Janssen talking about the ambitions of the Koninklijke Bibliotheek - the national library of the Netherlands - to build the "YouTube of Dutch digital publications" - one national platform for accessing full-text digital books, newspapers and magazines.
I gave this presentation during the Connect! conference on 12th November 2010 in Zeist, the Netherlands
The presentation is in Dutch
Naar een geïntegreerde ontsluiting van de KADOC erfgoedcollecties met LimoLIBIS
Tijdens de LIBISnet gebruikersdag van 6 juni 2019 gaf Luc Schokkaert (KADOC) een plenaire sessie "Naar een geïntegreerde ontsluiting van de KADOC-erfgoedcollecties met Limo". Inhoud: KADOC-data zijn verspreid over diverse databanken: boeken, tijdschriften en audiovisuele documenten in Alma, archieven in scopeArchiv, naslaggegevens in ODIS,… Voor de gebruiker was het moeilijk een algemeen overzicht te krijgen van al het in KADOC beschikbare erfgoed. In de uiteenzetting komt aan bod hoe Limo werd ingezet om een geïntegreerde ontsluiting te realiseren en hoe de diverse systemen met elkaar zijn verbonden.
Presentatie over de evaluatie van My Discoveries, een 8-jaar oude tool voor lijstjes, waarderingen, recensies en tags in AquaBrowser (TM) software, ter voorbereiding van de ontwikkeling van een nieuwe toepassing voor lijstjes in Mijn Bibliotheek
TYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en FluidTYPO3 Nederland
Met de lancering van de nieuwste TYPO3 CMS versies wordt het belang van werken met Extbase en Fluid steeds groter. Wanneer je nog extensies ontwikkelt op basis van pi_base of je wilt graag extensies gaan ontwikkelen maar je vindt de drempel is hoog, in deze sessie leer je de basics van een extase / fluid extensie en zie je hoe eenvoudig het is om extensies te ontwikkelen.
Henjo Hoeksma
Na enkele jaren als hobby met TYPO3 gewerkt te hebben, heeft Henjo zijn beroep gemaakt van het ontwikkelen van websites en webapplicaties op basis van het TYPO3 framework. Na een korte periode gewerkt te hebben als ontwikkelaar bij alterNET en een internationaal bedrijf in LED verlichting is hij als freelancer aan de slag gegaan.
Met een passie voor nieuwe technieken, kwalitatieve oplossingen & code en de TYPO3 producten & community ondersteunt hij vanuit zijn bedrijf Stylence zowel grote als minder grote organisaties in de ontwikkeling van websites en maatwerk oplossingen.
Overzicht van het onderzoek van Bibnet, VGC en de 5 provincies naar de haalbaarheid van een eengemaakt systeem ter consolidatie van de provinciale bibliotheeksystemen.
Een vereniging bewaart documenten voor de werking maar ook om later de geschiedenis van de vereniging te kunnen schrijven. Tijdens deze presentatie worden aspecten aangeraakt over hoe je beter je collectie archief (papier en digitaal) kan bewaren.
Progress report Wikipedian-in-Residence national library & archives Netherlan...Olaf Janssen
Progress report (in Dutch) on the Wikipedian-in-Residence project of the national library and national archives of the Netherlands dd 19-2-2014
De voortgang van het Wikipedian-in-Residence project van de Koninklijke Bibliotheek en het Nationaal Archief dd 19-2-2014
Complete presentatie van Bookshelf platform voor distributie van digitale studieboeken.
In online versie ontbreken interactieve elementen binnen de slides, if needed, PPT downloaden.
The Presentation of Hans-Jörg Lieder, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, at the BnF Information Day for Europeana Newspapers (November 2014).
Optical Character Recognition (OCR) technology can help users in their research by digitizing printed texts and enabling full-text search. However, OCR quality varies and error rates can be as high as 10-40% depending on factors like language and publication date. This can negatively impact researchers seeking all occurrences of search terms. Crowd-sourcing corrections for searched words and utilizing external knowledge sources like Wikipedia could help improve search results and researchers' experiences. Machine learning applied to large digitized collections also has potential to extract additional useful information and insights not readily apparent from the text alone.
The document discusses Optical Layout Recognition (OLR) to convert scanned newspaper pages into structured digital files. It describes CCS's role in providing OLR technology and services to structure over 2 million newspaper pages from 5 European library partners. The general OLR workflow involves scanning, layout analysis to identify text blocks and zones, OCR, and quality assurance. CCS will analyze page layouts to recognize elements like articles, headlines, images and classify page types. Libraries can perform final quality assurance checking on the structured output, which is packaged in METS and ALTO formats for preservation and improved search and access capabilities.
The Europeana Newspapers project is digitizing newspapers from the 17th-20th centuries across 22 European languages. It has provided full text for over 2 million newspaper pages and metadata for over 18 million additional pages. Usability testing was conducted with researchers and improvements were made to search, browsing, and display functionality based on feedback. Researchers value the project for enabling new large-scale, interdisciplinary, and computational analyses of digitized newspaper archives.
This document discusses optical character recognition (OCR) of historical newspapers. It describes the digitization process, which includes image capturing, text and structure recognition, natural language processing, and content representation. OCR accuracy can be improved through layout analysis, structural metadata extraction, and identifying different content units like articles, advertisements, and entertainment sections. The goal is to make the content and knowledge within digitized newspapers accessible beyond the scanned text.
The document describes a project called OPATCH that aims to create an advanced online search infrastructure for a historical newspaper archive. OPATCH will use computational linguistic methods like parsing, tagging, and named entity recognition to correct errors from optical character recognition (OCR) processing on the newspapers, which are from 1910-1920 and in difficult-to-read Fraktur font. The project will start with error-prone OCR text that cannot be manually corrected at scale. It will develop and test a method to generate and select candidates for correcting OCR errors using edit distances and ngram frequencies.
2. Europeana Newspapers – waarom kranten?
Waarom kranten?
• Belangrijke bron voor onderzoek
• Relevant voor het algemeen publiek
Bronnen:
http://digi.kansalliskirjasto.fi/sanomalehti/secure/showPage.html?id=395644&conversationId=1&action=entryPage;
http://kranten.kb.nl/view/paper/id/ddd%3A010212139%3Ampeg21%3Ap001%3Aa0001/backlink/home
http://gallica.bnf.fr/ark:/12148/bpt6k265203z ; 2
3. Projectprofiel: Consortium & stakeholders
• 17 partners uit 12 landen:
• Nationale bibliotheken
• Universiteitsbibliotheken
• Onderzoeksinstituten
• Commerciële partij
• Framework:
• Best Practice Network
• ICT-PSP programma van de Europese Commissie
• Projectduur: februari 2012 – januari 2015
3
5. Europeana Newspapers: Doelen
• Aggregatie en verrijking van kranten voor Europeana
• Circa 18 miljoen krantenpagina’s naar Europeana
• Verrijken met OCR, layout herkenning (OLR) en named entity
recognition
• Analyse bestaande krantencollecties
• Overzicht bestaande projecten
• Aanmoedigen om ook kranten bij te dragen
5
6. Europeana Newspapers: Doelen
• Quality assurance en best practice aanbevelingen
• Voortbouwen op andere projecten (o.a. IMPACT en Europeana
Libraries)
• Bijdragen aan geoptimaliseerde workflows
• Aanbevelingen voor digitalisering, verrijking, workflows, metadata, etc.
• Presentatie en full-text doorzoeken
• 18 miljoen Europese krantenpagina’s
• Verbeteren van de toegang van kranten in Europeana
7. Aggregatie en verrijking van kranten voor Europeana
• Aggregatie in Europeana en The European
Library
• 18 miljoen gedigitaliseerde krantenpagina’s
• 8 miljoen pagina’s zonder bewerkingen
www.europeana.eu/
(content leveranciers)
• 8 miljoen verrijkte pagina’s: OCR (UIBK,
Oostenrijk)
• 2 miljoen verrijkte pagina’s: OCR/OLR
(artikelsegmentatie) (CCS, Duitsland)
www.theeuropeanlibrary.org/
7
8. Verrijking – OCR en OLR
• 8 miljoen verrijkte pagina’s:
OCR (UIBK, Oostenrijk)
• OCR (ABBYY)
• Output in ALTO formaat
• Test met Document Understanding
Platform (FEP)
• Ontwikkeld binnen IMPACT
• Profielen aangepast aan kranten
UIBK: Herkenning van titels, voetnoten, etc.
Extractie van inhoudsopgave
9. Verrijking – OCR en OLR
• 2 miljoen verrijkte pagina’s: • Automatische layout herkenning
OCR/OLR (artikelsegmentatie) • Kolommen
(CCS, Duitsland)
• Zones
• OCR (ABBYY)
• Pagina types
• Automatische artikelsegmentatie
• Aanvullende handmatige verificatie
en quality control
CCS: Kolomherkenning en artikelsegmentatie
10. Verrijking - Named Entity Recognition
• Named entity herkenning (KB, Nederland)
• Tot drie talen
• Nederlands
• Engels
• Duits
11. Analyse bestaande krantencollecties
• Enquête over digitale krantencollecties
• Zomer 2012
• Circa 45 Europese bibliotheken
• De resultaten naar “Zeitschriftendatenbank” van de Staatsbibliotheek van
Berlijn
• Potentiële nieuwe partners
• Informatie over de technische status van gedigitaliseerd materiaal
12. Quality assurance en best practice aanbevelingen
• Ontwikkeling van een • Evaluatie van de
metadataprofiel (METS) digitaliseringsworkflow voor
• Gebruik binnen het project kranten, inclusief verrijking
• Aanbeveling voor toekomstige • M.b.v. een quality assessment
digitaliseer- en framework
verrijkingsprojecten • Inclusief tools uit IMPACT
• Aanbevelingen voor het digitaliseren
en verrijken van kranten
13. Presentatie en full-text doorzoeken
• Content browser
• Onderdeel van het TEL portal
• Zoeken op full-text
• Zoekterm
• Named entities
• Per collectie
• Op datum
• Krantenafbeeldingen
• Link naar bibliotheek
Nb. Mock-ups
14. Promotie
• Doelen:
• Publiciteit van het project
• Vergroten van gebruik Europeana
• Media
• @eurnews
• www.facebook.com/EuropeanaNewspapers
• Workshops en conferenties
• Drie dissemination workshops
• Nationale informatie dagen
• Uitbreiding van het netwerk
14
15. Voordeel voor de KB kranten en gebruikers
• Beschikbaar via Europeana
• 2 miljoen KB krantenpagina’s doorzoekbaar in combinatie met 16 miljoen
andere Europese krantenpagina’s uit 12 landen
• Duitse kranten
• Franse kranten
• Oostenrijkse kranten
• Finse kranten
• Poolse kranten
• Etc.
• Verrijking met Named Entities