Projekt Europeana Newspapers - online brána k evropským historickým novinámEuropeana Newspapers
Presentation held at invited public lecture of the "Jinonice Information Mondays" series at the Institute of Information Studies and Librarienship, Faculty of Arts, Charles University in Prague, December 3, 2012
Knihovny.cz - centrální portál českých knihovenKnihovny.cz
1. Současný stav projektu:
Co jsou Knihovny.cz a proč vznikají, Milníky ve vývoji projektu, Pracovní skupiny, zakládající knihovny, Vývoj vlastní cestou - proč a jak, Inspirace
2. Ukázky beta verze, portál z pohledu uživatele:
Představení beta verze a služeb portálu, Technické řešení jednotlivých služeb, Portál z pohledu uživatele
3. Spolupráce knihoven a závěrečná diskuse
Jak se připojit, Časté dotazy
Projekt Europeana Newspapers - online brána k evropským historickým novinámEuropeana Newspapers
Presentation held at invited public lecture of the "Jinonice Information Mondays" series at the Institute of Information Studies and Librarienship, Faculty of Arts, Charles University in Prague, December 3, 2012
Knihovny.cz - centrální portál českých knihovenKnihovny.cz
1. Současný stav projektu:
Co jsou Knihovny.cz a proč vznikají, Milníky ve vývoji projektu, Pracovní skupiny, zakládající knihovny, Vývoj vlastní cestou - proč a jak, Inspirace
2. Ukázky beta verze, portál z pohledu uživatele:
Představení beta verze a služeb portálu, Technické řešení jednotlivých služeb, Portál z pohledu uživatele
3. Spolupráce knihoven a závěrečná diskuse
Jak se připojit, Časté dotazy
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...locloud
Presentation on LoCloud by Irena Blažková and Zuzana Syrová, Národní památkový ústav (National Heritage Institute, at the NPU Workshop of GIS editors, Ostrava, Důl Michal, Czech Republic, 21-24 May 2014
The Europeana Newspapers Project aims to aggregate and refine over 18 million digitized newspaper pages for Europeana and The European Library. It will perform optical character recognition and article segmentation to convert images to searchable text. The project involves 17 partners from 12 countries who will provide newspaper content and refinements. It seeks to improve access to historical newspapers, establish best practices for digitization, and increase usage of Europeana's newspaper collections.
This document summarizes a workshop on the Europeana Newspapers Project. The project aims to digitize 18 million newspaper pages from 18 partners in 12 European countries. It will refine optical character recognition (OCR) and other metadata for 10 million pages and article segmentation for 2 million pages. The goals are to spread best practices for newspaper digitization, aggregate content for Europeana and The European Library, and encourage more libraries to contribute newspaper content to Europeana. Future work includes processing more content, addressing copyright issues for 20th century papers, and improving accessibility through full text search.
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...Europeana Newspapers
This document summarizes a presentation about using digitized newspaper archives as sources for digital historical research. It discusses how the speaker's research project analyzes the emergence of the United States as a reference culture in Dutch public discourse from 1890-1990 by mining over 9 million digitized newspaper pages. Examples are given of how text mining tools can be used to analyze trends in topic frequency over time and compare occurrences of words across periods. Challenges around data storage, processing power needs, and ensuring long-term access are also mentioned. Issues of data representativeness, gaps in digitized records, and properly interpreting results are raised as important aspects of source criticism for this type of digital historical research.
This document discusses publishers' perspectives on access to digitized newspapers. It outlines that publishers rely on exclusive rights to content as the basis for their business models and generating revenue through products and services. However, exceptions in copyright law aim to balance these rights with public interest. The options for policymakers regarding access include individual licensing, collective licensing, legal/compulsory licensing, and restricting rights. Publishers face challenges of declining print revenues but rising costs as they shift to developing digital services and new business models to survive. The key question is how to monetize content on digital platforms. The document advocates finding a "win-win" solution through licensing that considers various elements such as rights, costs, customers, and price.
The Europeana Newspapers Project aims to aggregate over 18 million digitized newspaper pages from European newspaper collections onto the Europeana platform. The 17-partner consortium will refine newspaper collections, develop best practices for metadata and digitization workflows, and build a content browser for searching newspaper full texts. The project seeks to make Europeana the largest provider of pan-European newspaper collections and improve access to digitized newspapers for researchers, students, and citizens.
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...locloud
Presentation on LoCloud by Irena Blažková and Zuzana Syrová, Národní památkový ústav (National Heritage Institute, at the NPU Workshop of GIS editors, Ostrava, Důl Michal, Czech Republic, 21-24 May 2014
The Europeana Newspapers Project aims to aggregate and refine over 18 million digitized newspaper pages for Europeana and The European Library. It will perform optical character recognition and article segmentation to convert images to searchable text. The project involves 17 partners from 12 countries who will provide newspaper content and refinements. It seeks to improve access to historical newspapers, establish best practices for digitization, and increase usage of Europeana's newspaper collections.
This document summarizes a workshop on the Europeana Newspapers Project. The project aims to digitize 18 million newspaper pages from 18 partners in 12 European countries. It will refine optical character recognition (OCR) and other metadata for 10 million pages and article segmentation for 2 million pages. The goals are to spread best practices for newspaper digitization, aggregate content for Europeana and The European Library, and encourage more libraries to contribute newspaper content to Europeana. Future work includes processing more content, addressing copyright issues for 20th century papers, and improving accessibility through full text search.
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...Europeana Newspapers
This document summarizes a presentation about using digitized newspaper archives as sources for digital historical research. It discusses how the speaker's research project analyzes the emergence of the United States as a reference culture in Dutch public discourse from 1890-1990 by mining over 9 million digitized newspaper pages. Examples are given of how text mining tools can be used to analyze trends in topic frequency over time and compare occurrences of words across periods. Challenges around data storage, processing power needs, and ensuring long-term access are also mentioned. Issues of data representativeness, gaps in digitized records, and properly interpreting results are raised as important aspects of source criticism for this type of digital historical research.
This document discusses publishers' perspectives on access to digitized newspapers. It outlines that publishers rely on exclusive rights to content as the basis for their business models and generating revenue through products and services. However, exceptions in copyright law aim to balance these rights with public interest. The options for policymakers regarding access include individual licensing, collective licensing, legal/compulsory licensing, and restricting rights. Publishers face challenges of declining print revenues but rising costs as they shift to developing digital services and new business models to survive. The key question is how to monetize content on digital platforms. The document advocates finding a "win-win" solution through licensing that considers various elements such as rights, costs, customers, and price.
The Europeana Newspapers Project aims to aggregate over 18 million digitized newspaper pages from European newspaper collections onto the Europeana platform. The 17-partner consortium will refine newspaper collections, develop best practices for metadata and digitization workflows, and build a content browser for searching newspaper full texts. The project seeks to make Europeana the largest provider of pan-European newspaper collections and improve access to digitized newspapers for researchers, students, and citizens.
Elektronické publikování a vědecká komunikacelindask
Prezentace byla využita 1. 4. 2011 na Ústavu informačních studií a knihovnictví FF UK v Praze jako podklad při přednášce v rámci kurzu Univerzity 3. věku.
Open Access - OA Week v KJP 2012 (22. 10. 2012 v KJP)e-zdroje FFUK
Open Access – KJP se připojuje k mezinárodnímu Open Access Week na podporu otevřeného přístupu k vědeckým informacím a v pondělí 22. 10. od 10:30 do 12:00 hod zve všechny zájemce na seminář Open Access do týmové studovny, který povede Věra Pilecká, UISK FF UK.
Seminář je prakticky zaměřený na možnosti vyhledávání a publikování v otevřených informačních zdrojích (s podporou notebooků pro účastníky).
Záležitosti elektronického publikování a současné metody vědecké komunikacelindask
Prezentace využitá při přednášce v rámci kurzu Role knihoven a informačních institucí v informační společnosti (Ústav informačních studií a knihovnictví FF UK v Praze, 18. 1. 2013).
The Presentation of Hans-Jörg Lieder, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, at the BnF Information Day for Europeana Newspapers (November 2014).
Optical Character Recognition (OCR) technology can help users in their research by digitizing printed texts and enabling full-text search. However, OCR quality varies and error rates can be as high as 10-40% depending on factors like language and publication date. This can negatively impact researchers seeking all occurrences of search terms. Crowd-sourcing corrections for searched words and utilizing external knowledge sources like Wikipedia could help improve search results and researchers' experiences. Machine learning applied to large digitized collections also has potential to extract additional useful information and insights not readily apparent from the text alone.
The document discusses Optical Layout Recognition (OLR) to convert scanned newspaper pages into structured digital files. It describes CCS's role in providing OLR technology and services to structure over 2 million newspaper pages from 5 European library partners. The general OLR workflow involves scanning, layout analysis to identify text blocks and zones, OCR, and quality assurance. CCS will analyze page layouts to recognize elements like articles, headlines, images and classify page types. Libraries can perform final quality assurance checking on the structured output, which is packaged in METS and ALTO formats for preservation and improved search and access capabilities.
The Europeana Newspapers project is digitizing newspapers from the 17th-20th centuries across 22 European languages. It has provided full text for over 2 million newspaper pages and metadata for over 18 million additional pages. Usability testing was conducted with researchers and improvements were made to search, browsing, and display functionality based on feedback. Researchers value the project for enabling new large-scale, interdisciplinary, and computational analyses of digitized newspaper archives.
The document discusses the Europeana Newspapers project, which aims to digitize over 18 million newspaper pages from various European newspapers ranging from the 17th to 20th centuries. The project involves 12 content providers, 2 networking partners, 4 technology providers and 1 aggregator working together to improve access to historical newspapers. Key aspects of the project include cultural cooperation, skills sharing, improved search capabilities through technologies like optical character recognition. The project highlights how digitization has improved access to historical newspapers and their coverage of events like the Titanic disaster across different European countries.
This document discusses optical character recognition (OCR) of historical newspapers. It describes the digitization process, which includes image capturing, text and structure recognition, natural language processing, and content representation. OCR accuracy can be improved through layout analysis, structural metadata extraction, and identifying different content units like articles, advertisements, and entertainment sections. The goal is to make the content and knowledge within digitized newspapers accessible beyond the scanned text.
Europeana Newspapers - evropská brána k digitálním novinovým sbírkám
1. Projekt Europeana Newspapers
Evropská online brána k digitálním novinovým sbírkám
Aleš Pekárek, Asociace evropských vědeckých
knihoven (LIBER)
13. Konference „Archívy, knihovny a muzea v
digitálním světě, Praha, 28.11.2012
2. Obsah
• Cíle a záměry projektu
• Partnerské instituce
• Oblasti projektových aktivit
• Komunikace a diseminace projektu
• Přidružení partneři projektu
2
3. Proč zrovna noviny?
„Noviny jsou bazarem dějin“ (Die Zeitungen sind der Sekundenzeiger der
Geschichte)
Arthur Schopenhauer
„Noviny jsou jedním z nejpopulárnějších materiálů v naší knihovně, protože
přímo přetékají informacemi a mají co říci širokému spektru našich
návštěvníků. V rámci projektu dodáme do Europeany 2 milliony našich plně
digitalizovaných stránek, čímž je zpřístupníme mnohem většímu okruhu
uživatelů a v mnohem širším kontextu než doposud.“
Lily Knibbeler,
Ředitelka Marketingu a Služeb Královské (Národní) knihovny Nizozemí
V novinách si zkrátka každý něco najde!
3
4. Cíle & Záměry
1) Výběr, Rafinace („refinement“) a Agregace obsahu
• Učinit z Europeany největšího poskytovatele pan-evropské digitální sbírky
novin
• Dodání více než 18 million novinových stránek do Europeany, mnoho z
nich společně s vyextrahovaným fulltextem (OCR, OLR, NER)
2) Analýza existujících digitálních novinových sbírek
• Celoevropský průzkum
3) Kvalita & Doporučení nejlepší praxe
• Vytvoření optimalizovaného workflow a infrastruktur pro agregaci dat
• Doporučení nejlepších praxí pro pročištění, workflow, metadata a evaluačních
nástrojů v oblasti digitalizace novinových sbírek
4) Prezentace obsahu a fulltextové vyhledávání
• Vylepšený přístup k novinovým sbírkám v rámci Europeany (Content
Browser)
4
5. Projektové konsorcium & Stakeholdeři
• 17 partnerů z 12 zemí
• Národní knihovny – obsahoví a techničtí partneři
• Univerzitní knihovny – převážně techničtí partneři
• Malý a střední podnik (CCS – Content Conversion Specialists)
• Externí partneři a stakeholdeři:
• Zapojení knihoven vně projektového konsorcia
• Celkový rámec:
• Financováno jako Best Practice Network v programu ICT-PSP
Evropské komise
• Trvání projektu: Únor 2012 – Leden 2015
5
6. Partneři projektu Europeana Newspapers
NLE NLF
LIBER
TEL
SUB HH
NLL
CCS
USAL
NLP
BL SBB
KB ONB
NLT
UIBK
BnF
UB
LFT
7. Partneři projektu
1. Staatsbibliothek zu Berlin 9. University of Salford
(koordinátor projektu) 10. CCS Content Conversion
2. National Library of the Specialists GmbH
Netherlands 11. Stichting LIBER
3. National Library of Estonia 12. National Library of Latvia
4. Österreichische 13. National Library of Turkey
Nationalbibliothek 14. University Library of Belgrade
5. National Library of Finland 15. University of Innsbruck
6. Staats- und 16. Landesbibliothek Dr.
Universitätsbibliothek Hamburg Friedrich Tessmann
7. Bibliothèque nationale de 17. The British Library
France
8. National Library of Poland
8. Struktura projektových aktivit (+ koordinátoři)
• Work Package 1: Koordinace a řízení projektu
• Berlin State Library (SBB)
• Work Package 2: Výběr a rafinace digitalizovaných novin
• National Library of the Netherlands (KB)
• Work Package 3: Evaluace a hodnocení kvality výběru
• University of Salford (USAL)
• Work Package 4: Agregace a příprava novin pro Europeanu
• The European Library (TEL)
• Work Package 5: Doporučení „Best Practice“ v oblasti novinových
metadat
• University of Innsbruck (UIBK)
• Work Package 6: Diseminace a zužitkování projektu
• Association of European Research Libraries (LIBER)
9. WP 1: Koordinace a řízení projektu
• Administrace projektu
• Řízení všech finančních a organizačních záležitostí
• Finanční kontrola
• Projektová komunikace
• Sharepoint
• Zajištění kvality projektu
• monitoring, evaluace a reporting výsledků
• Risk managament
• Předcházení konfliktů v rámci konsorcia
10. WP 2: Rafinace digitalizovaných novin
• Analýza obsahu a výběr vhodných souborů z digitálních
novinových sbírek k “zušlechtění” (rafinaci)
• Definice požadavků na minimální kvalitu digitalizovaných
novin
• Koordinace zušlechťování vybraného novinového obsahu –
novin poskytnutých partnerskými institucemi
• Doporučení nejlepších praxí v oblasti rafinace digitálních
novinových sbírek
11. WP2: Rafinace – OCR and OLR
• 8 millionů stránek bude do Europeany
naagregováno „tak jak jsou”
==================================
• 10 millionů zrafinovaných stránek: CCS: Automatické rozpoznávání a
OCR (UIBK, Rakousko) segmentace novinových
Z toho: sloupků a článků
2 milliony:
OCR/OLR (segmentace článků)
(CCS, Německo)
UIBK obohatí vyextrahovaný obsah
strukturálními informacemi z její „Platformy
porozumění dokumentům“,
CCS pak informacemi o sloupcích, článcích;
zoning; segmentace článků a jejich úrovní
CCS zároveň poskytuje knihovnám
technologii pro manuální korekci výsledných UIBK: Detekce titulků a poznámek;
strukturálních informací Automatické generování obsahu
13. WP 3: Evaluace a hodnocení kvality
• Vytvoření uživatelských scénářů se vzorovými profily, datovými
sadami, „ground truth“ a nástroji hodnocení kvality výstupů
• Přehled faktorů využitelnosti, limitů a reálného potenciálu
existujících vstupních materiálů
• Identifikace kritických míst procesu společně s návrhem řešení
• Evaluace jednotlivých aktivit procesu
• Doporučení nejlepších praxí pro podobné post-digitalizační
pojekty
14. WP 4: Agregace a příprava pro Europeanu
• Identifikace a analýza veřejných i soukromých zdigitalizovaných
novinových sbírek napříč Evropou
• Vytvoření reálného časového rámce agregace novinového obsahu
• Vytvoření celoevropského registru digitalizovaných novinových
sbírek
• Doporučení, jak napasovat existující novinová metadata na EDM
(standard Europeany)
• Agregace novinových metadat partnerů projektu
• Vytvoření fulltextového indexu novinového obsahu
• Vývoj a spuštění prohlížeče obsahu (full-text + metadata +
originálni skeny či náhledy
15. WP 4: Agregace obsahu
• Agregace 18 millionů digitalizovaných
novinových stránek do služby Europeana
prostřednictvím Evropské knihovny
(jednotný portál evropských národních
knihoven)
www.europeana.eu
• Transformace vstupních metadat na bázi
EDM
• Distribuce dat do Europeany (po jejich
finální transformaci v rámci TEL)
www.theeuropeanlibrary.org
15
16. WP 4: Prezentace & Přístup k plným textům
Funkce obsahového browseru:
• Fulltextové vyhledávání, např.
• podle klíčového slova,
• podle jmenných entit
• podle novinových sbírek
• podle data vydání novin...
• Prohlížení naskenovaných
novinových stránek
• Propojení s příbuzným obsahem
nenovinového typu (fotky, hudba,
pohlednice...)
17. WP 5: Doporučení nejlepších praxí v oblasti metadat
• Analýza novinových metadatových formátů používaných
v evropských zemích
• Propojení existujících metadatových modelů se
standardem METS/ALTO a vydání doporučení
nejlepších praxí
• Použitelnost doporučení bude testováno v rámci
specifického evaluačního cyklu
18. WP 6: Komunikace a diseminace projektu
• Cíle
• Vytvoření celoevropské publicity
• Větší používanost Europeany
• Zajištění informovanosti cílových skupin
• Úkoly
1. Komunikace v mediích
2. Workshopy a účast na konferencích
• Tři hlavní diseminační workshopy
(rafinace, agregace, závěrečný)
• Národní informační dny (minimálně 10)
• Rozšíření sítě o další partnery
3. Zužitkování výsledků projektu
18
19. Hlavní komunikační kanály projektu
WWW: http://www.europeana-newspapers.eu/
Twitter: @eurnews
Facebook: https://www.facebook.com/EuropeanaNewspapers
Newsletter: http://bit.ly/TsoMpY (najdete na webové stránce projektu)
Slideshare: http://www.slideshare.net/Europeana_Newspapers
19
20. Přidružení partneři projektu
• Rozšíření sítě o tzv. Přidružené partnery projektu (nefinancované,
nepřímé benefity z partnerství)
• Možnost poskytnutí metadat digitálních novinových sbírek do Europeany v
rámci procesů projektu rapidní nárust návštěvníků
• Využití a přístup k výsledkům projektu (doporučení, dokumentace, SW
nástroje, metodika workflow)
• Hlavně pro držitele obsahu
• Většina identifikována v rámci průzkumu (40 vyplněných dotazníků, 35
potenciálních přidružených partnerů – o metodě výběru se stále diskutuje)
• Za ČR zájem projevila NK ČR a MZK (i ostatní instituce s digitálními
novinovými sbírkami jsou vítány)
20
21. Děkuji za pozornost
pekarek.ales@gmail.com
www.europeana-newspapers.eu
www.libereurope.eu