1. Europeana Newspapers
28 Oktober 2014 – Den Haag
Marieke Willems, LIBER
Originele presentatie gepubliceerd door Alastair Dunning, The European
Library @alastairdunning, www.slideshare.net/alastairdunning
2. Op 15 april 1912, voer het passagiers
schip Titanic, met meer dan 2.000
opvarenden, tegen een ijsschots op
zijn eerste reis van Southampton naar
New York
3. De Titanic ramp in de kranten
http://anno.onb.ac.at/cgi-content/anno?aid=nzg&datum=19120417&seite=1&zoom=33
4. De Titanic ramp in de kranten
http://kranten.delpher.nl/nl/view/index?query=de+telegraaf+titanic&coll=ddd&image=dd
d%3A110546692%3Ampeg21%3Aa0026&page=2&maxperpage=10&sortfield=date
5. De Titanic ramp in de kranten
http://gallica.bnf.fr/ark:/12148/bpt6k289555z
6. De Titanic ramp in de kranten
http://hemerotecadigital.bne.es/details.vm?q=id:0000817544&s=0
9. Nieuws verspreidt zich
op verschillende
snelheden, terwijl het
belang van nieuws in
verschillende mate
afneemt.
Dit is nu het geval,
maar dat was het ook
in 1912.
(maar internet verandert de zaak...)
11. The European Library ontwikkelde
een grensoverschrijdende
doorzoekbare kranten interface
(via Europeana zijn de meta-data
op editie niveau doorzoekbaar)
http://www.theeuropeanlibrary.org/tel4/newspapers
12. Nu:
Ongeveer 7
miljoen
pagina's full text
In 2015:
10
miljoen
pagina’s full text, tot
2 miljoen
kranten edities
Zoeken via trefwoord, en
filteren per taal, datum,
bibliotheek, titel
13. Blader per datum of via geografische kaart
Nu:
Ongeveer 7
miljoen
pagina's full text
In 2015:
10
miljoen
pagina’s full text, tot
2 miljoen
kranten edities
14. Full Text van de volgende bibliotheken
• Bibliotheque nationale de France / National
Library France
• Koninklijke Bibliotheek / National Library of the
Netherlands
• Landesbibliothek Dr. Friedrich Teßmann /
Teßmann Library
• Eesti Rahvusraamatukogu / Estonian National
Library
• Kansalliskirjasto / National Library of Finland
• Latvijas Nacionala Biblioteka / National Library
of Latvia
• Biblioteka Narodowa / National Library of
Poland
• Milli Kutuphane Baskanligi / National Library of
Turkey
• Österreichische Nationalbibliothek / Austrian
National Library
• Staatsbibliothek zu Berlin / Berlin State Library
• Staats- und Universitätsbibliothek Hamburg /
State and University Library
• Univerzitet u Beogradu / University Library of
Belgrade
Zoek per titel
15. Kranten-nummer records van de volgende
bibliotheken
• National Library of Wales
• St. Cyril and Methodius National Library / The
National Library of Bulgaria
• National Library of Czech Republic
• National and University Library in Zagreb
• Koninklijke Bibliotheek van België /
Bibliothèque royale de Belgique
• Narodna in univerzitetna knjinica / National and
University Library of Slovenia
• National Library of Portugal
• National Library of Romania
• Landsbókasafn Íslands - Háskólabókasafn /
National and Univeristy Library of
Iceland National Library of Spain
• Bibliothèque nationale de Luxembourg /
National Library of Luxembourg
Het vinden van de
bijpassende resultaten in
één enkele of meerdere
kranten-nummers.
17. To zover, OK. Een vergelijkbare
functionaliteit als van andere
nationale en regionale digitale
kranten archieven.
Zie andere archieven via:
https://www.google.com/maps/ms?msid=217164746645697066594.0004c3d764fcb71ed
2314&msa=0
18. Maar wat was de reactie van de
gebruiker op het samenvoegen van
Europese kranten bibliotheken?
Resultaten van de Usability Testing:
http://www.europeana-newspapers.eu/wp-content/
uploads/2014/05/The-European-Library-
Newspaper-Archive-Usability-testing-Report-
April-2014.pdf
19. “Overzicht van toegevoegde
inhoud van de diverse bronnen
werd zeer gewaardeerd. Zeer
positieve houding t.o.v. de
beschikbaarheid van het archief.”
21. “De mogelijkheid om via een
geografische kaart te zoeken werd
zeer gewaardeerd”
22. Opmerkingen over het design
- posities van de “advanced options”
- re-organiseren van de lijst van resultaten
- manipuleren van facetten
23. Veel hogere verwachtingen van de
functionaliteit wanneer men
eenmaal was ingelogd.
Bijvoorbeeld:
Bewaarde zoekopdrachten
Melding van nieuwe inhoud
24. “Voor veel deelnemers lag de waarde van de site
in de afbeeldingen van de documenten.
Deelnemers verwachtten een “lokale” kopie te
kunnen bewaren wanneer ze eenmaal de
relevante inhoud hadden gevonden.
Omdat er geen download faciliteit wordt
aangeboden, leidde dit tot enige frustratie en
ondermijnde dit de totale potentiële waarde van
de site voor sommige deelnemers.”
25. Planning voor de rest van het
project
Nu – Protoype versie van de interface gedeeld met project
Gedurende 2014 – Voortdurende creatie van OCR, en ander
gerelateerd technisch werk (OLR, Named Entities)
Gedurende 2014 – Live versie website verbeterd / usability
testing / toegevoegde inhoud
Eind 2014 - Newspaper browser voltooid met inhoud en
instrumenten van het project
Meer informatie hier:
http://www.europeana-newspapers.eu/
Interface hier:
http://www.theeuropeanlibrary.org/tel4/newspapers/
26. Dingen die de gebruikers niet
meldden
(maar waarvan we verwachtten dat ze dat wel zouden
doen)
27. Waarom kan ik de text niet
bewerken?
(Onze sample bestond uit wetenschappers: misschien
zijn het andere communities die geïnteresseerd zijn in
crowdsourcing?)
NB: Als de tijd het toestaat, zal The European Library
een crowdsourcing functie ontwikkelen.
28. Kan ik tekst downloaden voor data
mining?
Onthoudt: Digitale Humanisten vormen nog steeds een
klein percentage van alle humanisten en gebruikers
NB: Veel van de teksten zijn pubiek domein, dus dit is
wettelijk gezien haalbaar.
29. Aantal gedigitaliseerde paginas in
interface: c.7m
Aantal gedigitaliseerde paginas
Europese bibliotheken: c.130m
Aantal fysieke paginas in Europese
bibliotheken: 1.5bn+
Bron: European Newspaper Survey Report
http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-
survey-report.pdf
35. Erg lastig om de “gaps” in
archieven weer te geven als je
bedenkt dat er slechts 10% is
gedigitaliseerd. Dit creëert een
speld in een hooiberg…
Bron: enumerate.eu
39. Er zijn ook andere issues
OCR kwaliteit variereert
Sommige pagina’s (2m in 2015) hebben
artikel segmentatie
Deel van de inhoud heeft “named
entity”extractie: effect op zoekresultaten.
Verschillende vergunningen in
verschillende landen
Datum van copyright grenzen verschillen
van land tot land.
40. Hoe zouden we gebruikers kunnen
helpen om de digitale bibliotheek
beter te begrijpen?
41. Welke rol kan de API hierin spelen?
Zou het helpen om de data in de
digitale bibliotheek open te stellen
en verschillende manieren van
onderzoek toe te staan?
42. API – Application Programming Interfaces
Traditioneel
Model
Met een API
Interface
(gemaakt door
Bibliotheek)
Data
(gepubliceerd door
Bibliotheek)
Interface
(gemaakt door 3e partij)
Data
(gepubliceerd door
Bibliotheek)
44. Interface
(gemaakt door
bibliotheek)
Data
(gepubliceerd door
bibliotheek)
Trove Newspapers site zoals
gepubliceerd door National
Library of Australia, en gebaseerd
op data aangeboden door de
bibliotheek
http://trove.nla.gov.au/newspaper
45. Trove kranten statistieken ontwikkeld
door derden, gebaseerd op de data
aangeboden door de bibliotheek
http://wraggelabs.com/shed/trove/graphs/
Interface
(gemaakt door 3e
partij)
Data
(gepubliceerd door
bibliotheek)
46. Headline Roulette, ontwikkeld
door derden, gebaseerd op data
aangeboden door bibliotheek
http://wraggelabs.com/shed/headline-roulette/
Interface
(gemaakt door 3e
partij)
Data
(gepubliceerd door
bibliotheek)
47. Woorden tellen van artikelen,
ontwikkeld door derden,
gebaseerd op data aangeboden
door bibliotheek
http://dhistory.org/frontpages/53/words/
Interface
(gemaakt door 3e
partij)
Data
(Gepubliceerd door
bibliotheek)