SlideShare a Scribd company logo
Sessie: de ijsberg zichtbaar maken
#histoijsberg
Voorstellen
• Wie zijn wij en waarom zijn wij hier?
• Wie bent u en waarom bent u hier?
Ons doel
• Kijkje in de keuken, waar zijn archiefinstellingen mee bezig, wat zit er
onder water?
• Nieuwe methoden om bronnen toegankelijk te maken
• De ijsberg zichtbaar te maken
De uitdaging: vindbaar en bruikbaar
Uw doel
• Wat kun je hiermee als historicus?
• Hoe gaat dit onderzoek veranderen?
De ijsberg zichtbaar maken
1. VAN ANALOOG NAAR DIGITAAL
• Volautomatische Archiefontsluiting: Edwin Klijn (NOB)
• De ijsberg zichtbaar maken: serie-archieven: Ceciel Huitema (Nationaal
Archief) en Nico Vriend (Noord-Hollands Archief)
2. WAT ALS HET DIGITAAL IS
• Events modelling, Marieke van Erp (VU/KNAW Humanities Cluster)
• Koppelen, Personenportal WO2, Lizzy Jongma (NOB)
• Contextualisering, Wikipedia Verzetskrantenproject, Olaf Janssen
(Koninklijke Bibliotheek)
1. Van analoog naar digitaal
Edwin Klijn
Netwerk Oorlogsbronnen, Historicidagen 2017
Volautomatische archiefontsluiting
Netwerk Oorlogsbronnen (NOB)
• Sinds 2010
• Samenwerkingsverband van instellingen met WO2-collecties
• Onderwerp: Tweede Wereldoorlog
• Doel: vergroten gebruik Collectie WO2 Nederland
• Perspectief: archieven, musea, instituten, etc (+- 400)
• Programma 2016-2019
• Digitaal: verbinden van collecties
Onderzoeksteam
• Rafael Carrasco, Isabel Martínez (IMPACT Centre of Competence)
• Martin Reynaert (Centre for Language and Speech Technology,
Nijmegen)
• Anne Gorter, Liesbeth Keijser, Joop Korswagen (Nationaal Archief)
• Edwin Klijn (Netwerk Oorlogsbronnen)
Doel
• In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity
recognition”-tools?
• Met welke settings krijg je de beste OCR?
• Meten, meten, meten
• Volautomatisch
• Eindrapport met conclusie en aanbevelingen (okt 2016), zie
https://www.oorlogsbronnen.nl/volauto
Ontsluiting op DOCUMENT-niveau
Stappen
3. Voorbewerking
4. Transcriptie
(OCR of HTR)
Machineleesbaar
document
5. Postcorrectie
Origineel document
2. Scannen
1. Selectie
Selectie testset
• 89 scans
• Centraal Archief Bijzondere Rechtspleging
• Geen gewogen representatieve selectie
Word Accuracy Rate (ongewogen)
Word accuracy rates (gewogen)
• 81,06% word accuracy rate (volgorde onafhankelijk, “bag of words”)
• 75,95% word accuracy rate (volgorde afhankelijk)
Waar houdt OCR-software niet van?
• Doorslagen
• Tabellen, kolommen, complexe lay-out
• Handgeschreven notities in de tekst
• 1’tjes en I’tjes en l’tjes
• Onregelmatige inktdikte van tekst
• Weinig contrast achtergrond en tekst
Slecht: 52,86% word accuracy rate
(volgorde onafhankelijk)
bebendald.Deze lljaten werden ingaleverd bij do Ohef van de SBDoze Hoekte
hiervan een doorlopende 11 jat en met diana advlaa ging de 11 jat naar da Be*
fahlehaber dor Slchar&eltddlenat.Deze beellate dan wat ar set de pevanpanen
soaat gebeuren*ongeveer vier weken voor do atrijd om Groningen bevonden aldh
neg vereehlllende arrestanten ia het Halo van Bewaring te 9roalagen.ock hier
Slecht: een bloemlezing
Waar houdt OCR-software wel van?
• Eenvoudige lay-out (portret, geen tabellen of kolommen)
• Tekst met een gelijkmatige inktdikte
• Duidelijk contrast tussen tekstgebieden en lichte achtergrond
• Rechte tekstregels
• Ruimte tussen de woorden
Koploper: 98,31% word accuracy rate
(volgorde onafhankelijk)
zich ophield. Mijn zuster deelde mij mede, dat deze man de volgen(
de Maandag zou terugkomen. Ik ben toen Maandags naar de woning
van mijn zuster gegaan. Ik bevond mij in de woning van mijn zus
ter, toen volgens mijn zuster, de zelfde persoon, die enige dagen
terag aan haar woning was geweest, zich daar vervoegde. Mijn zus�
ter heeft deze man toen aan de deur van haar woning te woord ge
Gemiddeld, 81,95% word accuracy rate
(volgorde onafhankelijk)
Naam en voornamen: #achternaam#,#voornaam# Geboortep!aats en-datum: Zaandam, 29
October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats
en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te
Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche
personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D.
Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van
Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens
overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik,
optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het
Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A
Domeinspecifieke woorden: bewaring, agent van Politie, Persoonsbewijs, vijand, joodsche goederen, verdachte,
verdacht, Mode! A, in dienst was getreden
Personen: #achternaam#, #voornaam#, joodsche personen, Nederlander, Chef Opsporingsdienst D.P.M.
Organisaties: S.D., Opsporingsdienst D.P.M., Lippmann en Rosenthal, afdeeling joodsche zaken te Amsterdam, P.O.D.
Geografische lokatie: Zaandam, Kanaalstraat 25 II Amsterdam, Amsterdam, Huis van Bewaring, Leeuwarden
Datum : 29 October 1897, 28 Mei 1945
Postcorrectie met bestaande lijsten
• Geografie: Westerbora, Wester- 6^ Börk, Imsterdam, Sittara, Joasene
Scnouwbarg, Pen Helder, Ulterwaardestraat AMSTERDAM.
• Organisaties: Zentrallstelle f&r jEdische Auswanderung,
Bevolkiageregiêter
• Namen: HENNEIOKE, CHRISTCF^EL, LEOPüLD
• Datum: t943, 25 Ootober 1545, 2 October l9ü6
• Woorden: <olshorloge, recnercneur
• WO2-woorden: volkagonoo- ten, gédëpUrteerd, gevwgenan, die JGdin
Sophie, cndorgc oko&
• Ook spellingsfouten in origineel verbeteren?
Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
Ja het is zinvol.
Kansen: automatisch sorteren
Tribunaalarchieven als digitale
onderzoeksfaciliteit (TRIADO)
• Partners: Nationaal Archief, NIOD, Huygens ING, NOB
• Doel: analoog archief omvormen naar digitaal bruikbaar
onderzoeksarchief
• Optical Character Recognition en data-verrijking: wie, wat,
waar en wanneer
• 2016-2019
• Pilot: Centraal Archief Bijzondere Rechtspleging
• KNAW onderzoeksfonds
31
De ijsberg zichtbaar
maken
Ceciel Huitema (Nationaal Archief) &
Nico Vriend (Noord-Hollands Archief)
Historicidagen, Utrecht, 25 augustus 2017
De ijsberg…
Boven water (online)
• Beschrijvingen van documenten
• ‘Machine leesbare’ indexen: databases
• Scans van documenten
Illustratie Shutterstock © grop
Onder water
• Kilometers aan documenten
• Geschreven, getypte en gedrukte indexen
• Informatie in documenten zelf
Illustratie Shutterstock © grop
Seriearchieven in de ijsberg
Soms meer dan 75%!
• Bij ‘verbaalstelsel’ ministeries,
1813-1940
• Overgrote deel Nederlandse
overheidsarchieven
Berekening Charles Jeurgens
Een voorbeeld
• 140 meter aan documenten
• Tien jaar…
Archief Ministerie van Kolonien, 1910-1919
Toegankelijk?
• Beschrijvingen van afzonderlijke stukken zijn ‘onzichtbaar’
• Zoekopdrachten (bijvoorbeeld ‘Snouck Hurgronje’) leveren niets op…
Online ziet het er zo uit:
Maar, er zijn wél beschrijvingen beschikbaar…
• Destijds aangemaakt (1910-1919)
• 4 meter ‘indexen’ maken 140 meter aan documenten toegankelijk
Analoge situatie
De index als sleutel?
Voorbeeld index
Kenmerken:
• Kolommenstructuur
• Handgeschreven
• Van ieder onderliggend document: van wie & korte inhoud
• Verwijzingen naar de stukken (‘verbalen’)
 Online doorzoekbaar te maken?
Hoe komen we van dit…
Illustratie Shutterstock © grop
…naar dit?!
Illustratie Shutterstock © grop
voor handgeschreven bronnen?Naar een
Handwritten Text Recognition (HTR)
Full-text zoeken wordt mogelijk! Maar is er niet zomaar...
• Handmatige transcipties aanleveren (eerste … pagina’s)
• Lay-out analyse: tekstvelden worden herkend (wel vaak bijstellen)
• HTR resultaat: 10% foutmarge op karakterbasis acceptabel?
• Controle door The Crowd?
Voor- en nadelen index
• Voordelen:
• Uniform qua lay-out
• Weinig verschillende handschriften
• Meeste overheidsarchieven grotendeels op dezelfde manier gestructureerd
• Nadelen:
• (Nog) niet de teksten van de onderliggende documenten doorzoekbaar, maar metadata in bulk
De ijsberg zichtbaar maken
Wat we willen:
1) Pilots op verschillende archieven:
• Ministerie van Koloniën, 1910-1919 (Nationaal Archief)
• Gemeentebestuur Haarlem, 1886-1898 (Noord-Hollands Archief)
2) HTR testen
3) Crowdsourcingprojecten op resultaten HTR
• Marktpartijen zoeken
4) Samenwerken met gebruikers
• Historici?
Interesse?
• ceciel.huitema@nationaalarchief.nl
• nico.vriend@noord-hollandsarchief.nl
2. Wat als het digitaal is
Ontsluiten wat er ín zit
Marieke van Erp
merpeltje
Tekst in collecties
• Zoeken en koppelen gebeurt vaak
via gestructureerde
databasevelden
• In vrije tekstvelden kan via
trefwoorden gezocht worden
• Maar trefwoorden vertellen je niet
dat “brand” en “vuur” gerelateerde
concepten zijn
• Voor next-level collectie-ontsluiting
moeten we ook kijken naar wat er
ín de tekstvelden staat en dat
koppelen aan thesauri en/of andere
collecties
Image source: https://cdn.pixabay.com/photo/2017/05/28/16/01/wave-2351346_960_720.jp
Domeinen
Geschiedenis
Semantisch
Web
Taal-
technologie
Taaltechnologie
• Onderzoek en ontwikkeling van manieren om informatie uit
teksten te extraheren
• information retrieval, automatisch vertalen, deep reading
• meerderheid van datasets in het domein zijn contemporaine
kranten
• Digital Humanities taaltechnologen onderzoeken hoe deze
technologie zich gedraagt in een ander domein
Semantisch Web
• Onderzoekt en ontwikkelt mogelijkheden om een machine
leesbaar Web te creëeren
• kennismodelering, formaten, kennisrepresentatie, data delen
• Linked Open Data wolk is de portal tot een rijkdom aan
gestructureerde databronnen
• Semantisch Web technologie heeft moeite gebruikers buiten
het domein te bereiken
Image source: http://lod-cloud.net/versions/2017-02-20/lod.pn
Geschiedenis
• Geïnteresseerd in:
• mensen
• gebeurtenissen
• Veel historici zijn geïnteresseerd in:
• analyse van grotere datasets
• kwantitatieve methoden
image source: https://upload.wikimedia.org/wikipedia/commons/7/74/York_Pioneers'_social_re-union_St_George's_Hall,_Toronto,_March_3,_1911_(HS85-10-23694).jpg
Taal-
technologie
Components
Geschiedenis
Semantisch Web
kennismodellering
& representatie
kennis
kennis
informatie
extractie
event extractie
named entity
recognition and linking
vocabulaires
vocabulaires
entiteit
netwerken
standaardisatie
personen & gebeurtenissen
kwalitatief en kwantitatief
onderzoek
gestructureerde data
gestructureerde data
2009 - 2013
• Doel van het project: relaties leggen tussen Rijksmuseum en Beeld en Geluid collecties
• Digital Hermeneutics
• Herkennen van gebeurtenissen en participanten in objectbeschrijvingen (Taaltechnologie)
• Modelleren van gebeurtenissen en narratieven (Semantisch Web)
• Marieke van Erp, Johan Oomen, Roxane Segers, Chiel van den Akker, Lora Aroyo, Geertje
Jacobs, Susan Legêne, Lourens van der Meij, Jacco van Ossenbruggen and Guus Schreiber
(2011) Automatic Heritage Metadata Enrichment with Historic Events. Museums and the Web
2011. Philadelphia, PA, USA, April 6-9 2011.
• Van Den Akker, C., Legêne, S., Van Erp, M., Aroyo, L., Segers, R., van Der Meij, L., Van
Ossenbruggen, J., Schreiber, G., Wielinga, B., Oomen, J. and Jacobs, G., 2011, June. Digital
hermeneutics: Agora and the online understanding of cultural heritage. In Proceedings of the
3rd International Web Science Conference (p. 10). ACM.
Taal-
technologie
Components
Geschiedenis
Semantisch Web
image source: https://static.pexels.com/photos/7096/people-woman-coffee-meeting.jpg
http://mariekevanerp.com
Wat kan taaltechnologie voor jouw
collectie/onderzoek/hobbyproject betekenen?
Lizzy Jongma
Netwerk Oorlogsbronnen, Historicidagen 2017
Personenportal WO2
Van ‘web of documents’…
http://www.kampwesterbork.nl
Naar ‘web of data’
http://www.kampwesterbork.nl
Naar ‘web of data’
http://www.kampamersfoort.nl
Naar ‘web of data’
Geonames
https://github.com/NetwerkOorlogsBronnen/pilot-geocoderenZelhem
http://islandsofmeaning.nl/projects/falsepositives/Bunschoten-Spakenburg
Naar ‘web of data’
WO2-thesaurus
Semantic web
“The Semantic Web is not a separate Web but an
extension of the current one, in which information is
given well-defined meaning, better enabling computers
and people to work in cooperation” (Tim Berners-Lee,
Scientific American 2001)
WO2 thesaurus
WO2 thesaurus
Partners personenportal WO2
Personenportal Pilot – Per bron overzicht matches
Personenportal Pilot – Overzicht personen
Personenportal Pilot – Detailpagina
Personenportal Pilot – Detailpagina
Personenportal Pilot – Detailpagina
Personenportal Pilot – Detailpagina
Personenportal Pilot – Te weinig om te matchen
Personenportal Pilot – Hoe we matchen
Open data, Wikipedia en crowdsourcing voor ondergrondse
kranten uit WO2
Olaf Janssen, Koninklijke Bibliotheek
Historicidagen 2017, Utrecht, 25 augustus
olaf.janssen@kb.nl - @ookgezellig - slideshare.net/OlafJanssenNL
http://www.4en5meiamsterdam.nl/attachment/47454
Tijdens WO2 zijn
veel verzetsbladen
uitgegeven
In allerlei soorten en maten…
http://www.4en5meiamsterdam.nl/attachment/47454
http://resolver.kb.nl/resolve?urn=ddd:010436323 http://resolver.kb.nl/resolve?urn=ddd:010442948
http://resolver.kb.nl/resolve?urn=ddd:010447825 http://resolver.kb.nl/resolve?urn=ddd:010450508
Van de grote bekende titels
(o.a. Parool, Vrij Nederland, Trouw, de Waarheid)
tot hele kleine onbekende eenmalige uitgaven… (pamfletten, 1-
2 velletjes)
Na de oorlog heeft het NIOD
± 1.300 titels verzameld, bewaard…
https://commons.wikimedia.org/wiki/File:Verzetskrant_in_archiefdozen_bij_het_NIOD.jpg – CC-BY-SA - OlafJanssen
http://opac-gonext.oclc.org:8180/DB=8/XMLPRS=Y/PPN?PPN=107123223
.. en in bibliotheekcatalogi beschreven.
(1.300 titels)
Bibliografische
metadata
Illegale studentenkrant uit Den
Haag/Leiden
In 2010 zijn deze ondergrondse kranten gedigitaliseerd…..
www.delpher.nl/kranten
…en staan nu in Delpher.
(1.300 titels)
Verzamelplaats voor historische full-text
• Kranten
• Boeken
• Tijdschriften
Dus ook De Geus onder studenten
http://www.delpher.nl/nl/kranten/results?coll=dddtitel&cql[]=ppn+any+(107123223)
Op Delpher kun je deze krant
lezen en op woordniveau (full-text) doorzoeken…
Maar stel, ik wil meer over deze krant weten
• Wat voor soort verzetskrant was De Geus?
• Wat is de geschiedenis van deze krant?
• Wie werkten aan de krant?
• Waar werd deze krant gedrukt?
• Hoe werd De Geus verspreid?
• Waren er relaties met andere verzetskranten/groepen?
• Etc…
Maar stel, ik wil meer over deze krant weten
• Wat voor soort verzetskrant was De Geus?
• Wat is de geschiedenis van deze krant?
• Wie werkten aan de krant?
• Waar werd deze krant gedrukt?
• Hoe werd De Geus verspreid?
• Waren er relaties met andere verzetskranten/groepen?
• Etc…
Maar stel, ik wil meer over deze krant weten
• Wat voor soort verzetskrant was De Geus?
• Wat is de geschiedenis van deze krant?
• Wie werkten aan de krant?
• Waar werd deze krant gedrukt?
• Hoe werd De Geus verspreid?
• Waren er relaties met andere verzetskranten/groepen?
• Etc…
De antwoorden vindt je
niet op Delpher!
Gebrek in Delpher:
Geen contextuele informatie
over illegale kranten
https://thejungleisneutral.files.wordpress.com/2013/11/lost.jpg
Waar zouden veel mensen die meer over
De Geus willen weten, eerst gaan kijken?
Wikipedia zeer vermoedelijk! (via Google)
Waar zouden veel mensen die meer over
De Geus willen weten, eerst gaan kijken?
Wikipedia zeer vermoedelijk! (via Google)
http://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
Waar zouden veel mensen die meer over
De Geus willen weten, eerst gaan kijken?
Wikipedia zeer vermoedelijk! (via Google)
http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg
http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg
http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg
Informatie over Nederlandse ondergrondse kranten was verspreid over
verschillende, ongekoppelde bronnen
1. Beschrijvingen (metadata in bieb-cat, 1.300 titels)
2. Content (full-text in Delpher, 1.300 titels)
3. Context (in Wikipedia…. althans... )
http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg
Informatie over Nederlandse ondergrondse kranten was verspreid over
verschillende, ongekoppelde bronnen
1. Beschrijvingen (metadata in bieb-cat, 1.300 titels)
2. Content (full-texts in Delpher, 1.300 titels)
3. Context (in Wikipedia…. althans... )
Dit Wikipedia-artikel is
een zorgvuldig gekozen uitzondering
https://nl.wikipedia.org/wiki/Categorie:Illegale_pers_in_de_Tweede_Wereldoorlog
1. Er zijn maar weinig ondergrondse kranten met
een eigen WP-artikel
2. Het overzicht van deze kranten op Wikipedia is
(erg) incompleet
<<< 1.300 titels
We hebben beide problemen aangepakt!
Wikiproject Verzetskranten
“op Wikipedia systematisch en uniform beschrijven van alle ± 1.300
Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven”
tinyurl.com/verzetskranten
Wikiproject Verzetskranten
“op Wikipedia systematisch en uniform beschrijven van alle ± 1.300
Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven”
tinyurl.com/verzetskranten
Groot publieksbereik
https://thejungleisneutral.files.wordpress.com/2013/11/lost.jpg
We hadden dringend behoefte aan contextuele info over de kranten.
Hoe kwamen we daaraan?
De Ondergrondse Pers 1940-1945
Lydia E. Winkel, H. de Vries , 1989
Bevat beschrijvingen van
vrijwel alle
1.300 ondergrondse kranten
uit WO2
Lemma 199 – De Geus; (onder studenten)
Metadata
Uniek ID
Plaats van uitgave
Krantentitel Plaats van uitgave
Contextuele
informatie
Ruw materiaal voor Wikipedia-
artikel
Bij deze krant betrokken personen
Krantentitel  Personen
IDs van gerelateerde kranten
Deze krantentitel Andere titels
We hebben dit boek gescand en als
PDF met vrije licentie online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrije licentie (CC-BY-SA)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels  bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
Database-expert
Gerard Kuys
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels  bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
VIAF
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels  plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens  externe bronnen
Zomer 2016 - Unieke database
 Eerste keer dat data over verzetskranten
systematisch online bijeengebracht en gekoppeld is!
https://www.pinterest.com/freethewronged/world-war-ii/
Wikiproject Verzetskranten
“op Wikipedia systematisch en uniform beschrijven van alle ± 1.300
Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven”
https://c1.staticflickr.com/9/8281/7699231918_11a7356c38_b.jpg
We hebben dus een database met informatie over 1.300 verzetskranten
M.b.v. een artikelsjabloon kunnen we vervolgens systematisch uniforme WP-
artikelen gaan genereren
We hebben dus een database met informatie over 1.300 verzetskranten
M.b.v. een artikelsjabloon kunnen we vervolgens systematisch uniforme WP-
artikelbeginnetjes genereren
https://c1.staticflickr.com/9/8281/7699231918_11a7356c38_b.jpg
Database + sjabloon = WP-artikelbeginnetje
https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
Grijs = Wikipedia artikelbeginnetje
Automatisch uit database gegenereerd m.b.v. sjabloon
https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
Niet-grijs = Wikipedia artikelbeginnetje
Automatisch uit database gegenereerd m.b.v. sjabloon
Dit is handmatig toegevoegd om van het beginnetje
een volwaardig artikel te maken
 Crowdsourcing door Nederlandse
Wikipedia-gemeenschap
https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
Wikipedia-vrijwilligers breiden de
1.300 beginnetjes uit…
…en maken langzaam maar zeker steeds meer volwaardige artikelen.
Door Sebastiaan ter Burg [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons
Vóór het project
Stapje voor stapje…
… Nederlanders weer wat wijzer &
blijer!
http://www.formerdays.com/2011/05/dutch-liberation.html
Vielen Dank!
olaf.janssen@kb.nl - @ookgezellig
tinyurl.com/verzetskranten
Stellingen
1. Universiteiten en erfgoedinstellingen moeten meer gaan
samenwerken op het gebied van collectieontsluiting
Stellingen
2. Historici moeten leren programmeren.
Stellingen
3. Als een bron niet digitaal is, bestaat ie niet.
Stellingen
4. Digital Humanities-onderzoek gaat voor wetenschappelijke
doorbraken zorgen in ons vakgebied.
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken'.

More Related Content

Similar to Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken'.

Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open Data
Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open DataOp weg naar een Nederlandse Erfgoedthesaurus met Linked Open Data
Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open Data
Johan Oomen
 
Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -
Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD)
 
AI x Digital Humanities = > Inclusiviteit
AI x Digital Humanities = > Inclusiviteit AI x Digital Humanities = > Inclusiviteit
AI x Digital Humanities = > Inclusiviteit
Marieke van Erp
 
Bewaren van erfgoed
Bewaren van erfgoedBewaren van erfgoed
Bewaren van erfgoed
Heemkunde Vlaanderen
 
16 depuydt inl
16 depuydt inl16 depuydt inl
16 depuydt inl
ingeangevaare
 
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...
Netwerk Oorlogsbronnen
 
20150615 Linked data en bibliotheken
20150615 Linked data en bibliotheken20150615 Linked data en bibliotheken
20150615 Linked data en bibliotheken
Koninklijke Bibliotheek
 
VIAA SoTA wetenschappelijk onderzoek
VIAA SoTA wetenschappelijk onderzoekVIAA SoTA wetenschappelijk onderzoek
VIAA SoTA wetenschappelijk onderzoek
meemoo, Vlaams instituut voor het archief
 
Lunchlezing Triado en WO2-thesaurus | 10 januari 2017
Lunchlezing Triado en WO2-thesaurus | 10 januari 2017Lunchlezing Triado en WO2-thesaurus | 10 januari 2017
Lunchlezing Triado en WO2-thesaurus | 10 januari 2017
Netwerk Oorlogsbronnen
 
Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitaliseringNetwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerk Oorlogsbronnen
 
'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017
'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017 'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017
'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017
Netwerk Oorlogsbronnen
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
voginip
 
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
Enno Meijers
 
Ga op zoek naar jouw Mechelse voorouders
Ga op zoek naar jouw Mechelse vooroudersGa op zoek naar jouw Mechelse voorouders
Ga op zoek naar jouw Mechelse voorouders
Uw stadsmuseum is niet af
 
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...
Olaf Janssen
 
Internet, open bronnen, privacy en veiligheid
Internet, open bronnen, privacy en veiligheidInternet, open bronnen, privacy en veiligheid
Internet, open bronnen, privacy en veiligheid
pveenstra
 
Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05
Dirk Roorda
 
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
Vlaamse Erfgoedbibliotheken
 

Similar to Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken'. (20)

'Digital Scholarship in the Humanities' met Artes (KU Leuven) - Tom Willaert
 'Digital Scholarship in the Humanities' met Artes (KU Leuven) - Tom Willaert 'Digital Scholarship in the Humanities' met Artes (KU Leuven) - Tom Willaert
'Digital Scholarship in the Humanities' met Artes (KU Leuven) - Tom Willaert
 
Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open Data
Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open DataOp weg naar een Nederlandse Erfgoedthesaurus met Linked Open Data
Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open Data
 
Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -
 
AI x Digital Humanities = > Inclusiviteit
AI x Digital Humanities = > Inclusiviteit AI x Digital Humanities = > Inclusiviteit
AI x Digital Humanities = > Inclusiviteit
 
Bewaren van erfgoed
Bewaren van erfgoedBewaren van erfgoed
Bewaren van erfgoed
 
16 depuydt inl
16 depuydt inl16 depuydt inl
16 depuydt inl
 
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...
 
20150615 Linked data en bibliotheken
20150615 Linked data en bibliotheken20150615 Linked data en bibliotheken
20150615 Linked data en bibliotheken
 
VIAA SoTA wetenschappelijk onderzoek
VIAA SoTA wetenschappelijk onderzoekVIAA SoTA wetenschappelijk onderzoek
VIAA SoTA wetenschappelijk onderzoek
 
Lunchlezing Triado en WO2-thesaurus | 10 januari 2017
Lunchlezing Triado en WO2-thesaurus | 10 januari 2017Lunchlezing Triado en WO2-thesaurus | 10 januari 2017
Lunchlezing Triado en WO2-thesaurus | 10 januari 2017
 
Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitaliseringNetwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
 
'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017
'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017 'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017
'Digitaal omdat het moet!' - NOB tijdens KVAN-dagen 2017
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
 
Ga op zoek naar jouw Mechelse voorouders
Ga op zoek naar jouw Mechelse vooroudersGa op zoek naar jouw Mechelse voorouders
Ga op zoek naar jouw Mechelse voorouders
 
Digitalisering voor gebruik
Digitalisering voor gebruikDigitalisering voor gebruik
Digitalisering voor gebruik
 
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...
 
Internet, open bronnen, privacy en veiligheid
Internet, open bronnen, privacy en veiligheidInternet, open bronnen, privacy en veiligheid
Internet, open bronnen, privacy en veiligheid
 
Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05
 
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
 

More from Netwerk Oorlogsbronnen

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Netwerk Oorlogsbronnen
 
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Netwerk Oorlogsbronnen
 
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannSessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Netwerk Oorlogsbronnen
 
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaSessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Netwerk Oorlogsbronnen
 
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Netwerk Oorlogsbronnen
 
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
Netwerk Oorlogsbronnen
 
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Netwerk Oorlogsbronnen
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Netwerk Oorlogsbronnen
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
Netwerk Oorlogsbronnen
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de Vooren
Netwerk Oorlogsbronnen
 
Van archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin KlijnVan archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin Klijn
Netwerk Oorlogsbronnen
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Netwerk Oorlogsbronnen
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Netwerk Oorlogsbronnen
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Netwerk Oorlogsbronnen
 
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Netwerk Oorlogsbronnen
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Netwerk Oorlogsbronnen
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
Netwerk Oorlogsbronnen
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
Netwerk Oorlogsbronnen
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Netwerk Oorlogsbronnen
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Netwerk Oorlogsbronnen
 

More from Netwerk Oorlogsbronnen (20)

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
 
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
 
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannSessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
 
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaSessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
 
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
 
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
 
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de Vooren
 
Van archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin KlijnVan archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin Klijn
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
 
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
 

Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken'.

  • 1. Sessie: de ijsberg zichtbaar maken #histoijsberg
  • 2. Voorstellen • Wie zijn wij en waarom zijn wij hier? • Wie bent u en waarom bent u hier?
  • 3. Ons doel • Kijkje in de keuken, waar zijn archiefinstellingen mee bezig, wat zit er onder water? • Nieuwe methoden om bronnen toegankelijk te maken • De ijsberg zichtbaar te maken
  • 4. De uitdaging: vindbaar en bruikbaar
  • 5.
  • 6. Uw doel • Wat kun je hiermee als historicus? • Hoe gaat dit onderzoek veranderen?
  • 7. De ijsberg zichtbaar maken 1. VAN ANALOOG NAAR DIGITAAL • Volautomatische Archiefontsluiting: Edwin Klijn (NOB) • De ijsberg zichtbaar maken: serie-archieven: Ceciel Huitema (Nationaal Archief) en Nico Vriend (Noord-Hollands Archief) 2. WAT ALS HET DIGITAAL IS • Events modelling, Marieke van Erp (VU/KNAW Humanities Cluster) • Koppelen, Personenportal WO2, Lizzy Jongma (NOB) • Contextualisering, Wikipedia Verzetskrantenproject, Olaf Janssen (Koninklijke Bibliotheek)
  • 8. 1. Van analoog naar digitaal
  • 9. Edwin Klijn Netwerk Oorlogsbronnen, Historicidagen 2017 Volautomatische archiefontsluiting
  • 10. Netwerk Oorlogsbronnen (NOB) • Sinds 2010 • Samenwerkingsverband van instellingen met WO2-collecties • Onderwerp: Tweede Wereldoorlog • Doel: vergroten gebruik Collectie WO2 Nederland • Perspectief: archieven, musea, instituten, etc (+- 400) • Programma 2016-2019 • Digitaal: verbinden van collecties
  • 11. Onderzoeksteam • Rafael Carrasco, Isabel Martínez (IMPACT Centre of Competence) • Martin Reynaert (Centre for Language and Speech Technology, Nijmegen) • Anne Gorter, Liesbeth Keijser, Joop Korswagen (Nationaal Archief) • Edwin Klijn (Netwerk Oorlogsbronnen)
  • 12. Doel • In hoeverre is het zinvol om getypte of hybride archiefdocumenten te OCR’en en nader toegankelijk te maken met “named entity recognition”-tools? • Met welke settings krijg je de beste OCR? • Meten, meten, meten • Volautomatisch • Eindrapport met conclusie en aanbevelingen (okt 2016), zie https://www.oorlogsbronnen.nl/volauto
  • 14. Stappen 3. Voorbewerking 4. Transcriptie (OCR of HTR) Machineleesbaar document 5. Postcorrectie Origineel document 2. Scannen 1. Selectie
  • 15. Selectie testset • 89 scans • Centraal Archief Bijzondere Rechtspleging • Geen gewogen representatieve selectie
  • 16. Word Accuracy Rate (ongewogen)
  • 17. Word accuracy rates (gewogen) • 81,06% word accuracy rate (volgorde onafhankelijk, “bag of words”) • 75,95% word accuracy rate (volgorde afhankelijk)
  • 18. Waar houdt OCR-software niet van? • Doorslagen • Tabellen, kolommen, complexe lay-out • Handgeschreven notities in de tekst • 1’tjes en I’tjes en l’tjes • Onregelmatige inktdikte van tekst • Weinig contrast achtergrond en tekst
  • 19. Slecht: 52,86% word accuracy rate (volgorde onafhankelijk) bebendald.Deze lljaten werden ingaleverd bij do Ohef van de SBDoze Hoekte hiervan een doorlopende 11 jat en met diana advlaa ging de 11 jat naar da Be* fahlehaber dor Slchar&eltddlenat.Deze beellate dan wat ar set de pevanpanen soaat gebeuren*ongeveer vier weken voor do atrijd om Groningen bevonden aldh neg vereehlllende arrestanten ia het Halo van Bewaring te 9roalagen.ock hier
  • 21. Waar houdt OCR-software wel van? • Eenvoudige lay-out (portret, geen tabellen of kolommen) • Tekst met een gelijkmatige inktdikte • Duidelijk contrast tussen tekstgebieden en lichte achtergrond • Rechte tekstregels • Ruimte tussen de woorden
  • 22. Koploper: 98,31% word accuracy rate (volgorde onafhankelijk) zich ophield. Mijn zuster deelde mij mede, dat deze man de volgen( de Maandag zou terugkomen. Ik ben toen Maandags naar de woning van mijn zuster gegaan. Ik bevond mij in de woning van mijn zus ter, toen volgens mijn zuster, de zelfde persoon, die enige dagen terag aan haar woning was geweest, zich daar vervoegde. Mijn zus� ter heeft deze man toen aan de deur van haar woning te woord ge
  • 23. Gemiddeld, 81,95% word accuracy rate (volgorde onafhankelijk) Naam en voornamen: #achternaam#,#voornaam# Geboortep!aats en-datum: Zaandam, 29 October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D. Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik, optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A Domeinspecifieke woorden: bewaring, agent van Politie, Persoonsbewijs, vijand, joodsche goederen, verdachte, verdacht, Mode! A, in dienst was getreden Personen: #achternaam#, #voornaam#, joodsche personen, Nederlander, Chef Opsporingsdienst D.P.M. Organisaties: S.D., Opsporingsdienst D.P.M., Lippmann en Rosenthal, afdeeling joodsche zaken te Amsterdam, P.O.D. Geografische lokatie: Zaandam, Kanaalstraat 25 II Amsterdam, Amsterdam, Huis van Bewaring, Leeuwarden Datum : 29 October 1897, 28 Mei 1945
  • 24. Postcorrectie met bestaande lijsten • Geografie: Westerbora, Wester- 6^ Börk, Imsterdam, Sittara, Joasene Scnouwbarg, Pen Helder, Ulterwaardestraat AMSTERDAM. • Organisaties: Zentrallstelle f&r jEdische Auswanderung, Bevolkiageregiêter • Namen: HENNEIOKE, CHRISTCF^EL, LEOPüLD • Datum: t943, 25 Ootober 1545, 2 October l9ü6 • Woorden: <olshorloge, recnercneur • WO2-woorden: volkagonoo- ten, gédëpUrteerd, gevwgenan, die JGdin Sophie, cndorgc oko& • Ook spellingsfouten in origineel verbeteren?
  • 25. Algemene conclusie In hoeverre is het zinvol om getypte of hybride archiefdocumenten te OCR’en en nader toegankelijk te maken met “named entity recognition”- tools?
  • 26. Algemene conclusie In hoeverre is het zinvol om getypte of hybride archiefdocumenten te OCR’en en nader toegankelijk te maken met “named entity recognition”- tools? Ja het is zinvol.
  • 28.
  • 29.
  • 30. Tribunaalarchieven als digitale onderzoeksfaciliteit (TRIADO) • Partners: Nationaal Archief, NIOD, Huygens ING, NOB • Doel: analoog archief omvormen naar digitaal bruikbaar onderzoeksarchief • Optical Character Recognition en data-verrijking: wie, wat, waar en wanneer • 2016-2019 • Pilot: Centraal Archief Bijzondere Rechtspleging • KNAW onderzoeksfonds
  • 31. 31 De ijsberg zichtbaar maken Ceciel Huitema (Nationaal Archief) & Nico Vriend (Noord-Hollands Archief) Historicidagen, Utrecht, 25 augustus 2017
  • 32. De ijsberg… Boven water (online) • Beschrijvingen van documenten • ‘Machine leesbare’ indexen: databases • Scans van documenten Illustratie Shutterstock © grop Onder water • Kilometers aan documenten • Geschreven, getypte en gedrukte indexen • Informatie in documenten zelf Illustratie Shutterstock © grop
  • 33. Seriearchieven in de ijsberg Soms meer dan 75%! • Bij ‘verbaalstelsel’ ministeries, 1813-1940 • Overgrote deel Nederlandse overheidsarchieven Berekening Charles Jeurgens
  • 34. Een voorbeeld • 140 meter aan documenten • Tien jaar… Archief Ministerie van Kolonien, 1910-1919
  • 35. Toegankelijk? • Beschrijvingen van afzonderlijke stukken zijn ‘onzichtbaar’ • Zoekopdrachten (bijvoorbeeld ‘Snouck Hurgronje’) leveren niets op… Online ziet het er zo uit:
  • 36. Maar, er zijn wél beschrijvingen beschikbaar… • Destijds aangemaakt (1910-1919) • 4 meter ‘indexen’ maken 140 meter aan documenten toegankelijk
  • 38. De index als sleutel?
  • 39. Voorbeeld index Kenmerken: • Kolommenstructuur • Handgeschreven • Van ieder onderliggend document: van wie & korte inhoud • Verwijzingen naar de stukken (‘verbalen’)  Online doorzoekbaar te maken?
  • 40. Hoe komen we van dit… Illustratie Shutterstock © grop
  • 44. Full-text zoeken wordt mogelijk! Maar is er niet zomaar... • Handmatige transcipties aanleveren (eerste … pagina’s) • Lay-out analyse: tekstvelden worden herkend (wel vaak bijstellen) • HTR resultaat: 10% foutmarge op karakterbasis acceptabel? • Controle door The Crowd?
  • 45. Voor- en nadelen index • Voordelen: • Uniform qua lay-out • Weinig verschillende handschriften • Meeste overheidsarchieven grotendeels op dezelfde manier gestructureerd • Nadelen: • (Nog) niet de teksten van de onderliggende documenten doorzoekbaar, maar metadata in bulk
  • 46. De ijsberg zichtbaar maken Wat we willen: 1) Pilots op verschillende archieven: • Ministerie van Koloniën, 1910-1919 (Nationaal Archief) • Gemeentebestuur Haarlem, 1886-1898 (Noord-Hollands Archief) 2) HTR testen 3) Crowdsourcingprojecten op resultaten HTR • Marktpartijen zoeken 4) Samenwerken met gebruikers • Historici? Interesse? • ceciel.huitema@nationaalarchief.nl • nico.vriend@noord-hollandsarchief.nl
  • 47. 2. Wat als het digitaal is
  • 48. Ontsluiten wat er ín zit Marieke van Erp merpeltje
  • 49. Tekst in collecties • Zoeken en koppelen gebeurt vaak via gestructureerde databasevelden • In vrije tekstvelden kan via trefwoorden gezocht worden • Maar trefwoorden vertellen je niet dat “brand” en “vuur” gerelateerde concepten zijn • Voor next-level collectie-ontsluiting moeten we ook kijken naar wat er ín de tekstvelden staat en dat koppelen aan thesauri en/of andere collecties Image source: https://cdn.pixabay.com/photo/2017/05/28/16/01/wave-2351346_960_720.jp
  • 51. Taaltechnologie • Onderzoek en ontwikkeling van manieren om informatie uit teksten te extraheren • information retrieval, automatisch vertalen, deep reading • meerderheid van datasets in het domein zijn contemporaine kranten • Digital Humanities taaltechnologen onderzoeken hoe deze technologie zich gedraagt in een ander domein
  • 52. Semantisch Web • Onderzoekt en ontwikkelt mogelijkheden om een machine leesbaar Web te creëeren • kennismodelering, formaten, kennisrepresentatie, data delen • Linked Open Data wolk is de portal tot een rijkdom aan gestructureerde databronnen • Semantisch Web technologie heeft moeite gebruikers buiten het domein te bereiken Image source: http://lod-cloud.net/versions/2017-02-20/lod.pn
  • 53. Geschiedenis • Geïnteresseerd in: • mensen • gebeurtenissen • Veel historici zijn geïnteresseerd in: • analyse van grotere datasets • kwantitatieve methoden image source: https://upload.wikimedia.org/wikipedia/commons/7/74/York_Pioneers'_social_re-union_St_George's_Hall,_Toronto,_March_3,_1911_(HS85-10-23694).jpg
  • 54. Taal- technologie Components Geschiedenis Semantisch Web kennismodellering & representatie kennis kennis informatie extractie event extractie named entity recognition and linking vocabulaires vocabulaires entiteit netwerken standaardisatie personen & gebeurtenissen kwalitatief en kwantitatief onderzoek gestructureerde data gestructureerde data
  • 55. 2009 - 2013 • Doel van het project: relaties leggen tussen Rijksmuseum en Beeld en Geluid collecties • Digital Hermeneutics • Herkennen van gebeurtenissen en participanten in objectbeschrijvingen (Taaltechnologie) • Modelleren van gebeurtenissen en narratieven (Semantisch Web) • Marieke van Erp, Johan Oomen, Roxane Segers, Chiel van den Akker, Lora Aroyo, Geertje Jacobs, Susan Legêne, Lourens van der Meij, Jacco van Ossenbruggen and Guus Schreiber (2011) Automatic Heritage Metadata Enrichment with Historic Events. Museums and the Web 2011. Philadelphia, PA, USA, April 6-9 2011. • Van Den Akker, C., Legêne, S., Van Erp, M., Aroyo, L., Segers, R., van Der Meij, L., Van Ossenbruggen, J., Schreiber, G., Wielinga, B., Oomen, J. and Jacobs, G., 2011, June. Digital hermeneutics: Agora and the online understanding of cultural heritage. In Proceedings of the 3rd International Web Science Conference (p. 10). ACM.
  • 56.
  • 57.
  • 58.
  • 59.
  • 60.
  • 61.
  • 62.
  • 63.
  • 64.
  • 67. http://mariekevanerp.com Wat kan taaltechnologie voor jouw collectie/onderzoek/hobbyproject betekenen?
  • 68. Lizzy Jongma Netwerk Oorlogsbronnen, Historicidagen 2017 Personenportal WO2
  • 69. Van ‘web of documents’… http://www.kampwesterbork.nl
  • 70. Naar ‘web of data’ http://www.kampwesterbork.nl
  • 71. Naar ‘web of data’ http://www.kampamersfoort.nl
  • 72. Naar ‘web of data’ Geonames
  • 75. Naar ‘web of data’ WO2-thesaurus
  • 76. Semantic web “The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation” (Tim Berners-Lee, Scientific American 2001)
  • 77.
  • 80.
  • 81.
  • 83.
  • 84. Personenportal Pilot – Per bron overzicht matches
  • 85. Personenportal Pilot – Overzicht personen
  • 86. Personenportal Pilot – Detailpagina
  • 87. Personenportal Pilot – Detailpagina
  • 88. Personenportal Pilot – Detailpagina
  • 89. Personenportal Pilot – Detailpagina
  • 90. Personenportal Pilot – Te weinig om te matchen
  • 91. Personenportal Pilot – Hoe we matchen
  • 92. Open data, Wikipedia en crowdsourcing voor ondergrondse kranten uit WO2 Olaf Janssen, Koninklijke Bibliotheek Historicidagen 2017, Utrecht, 25 augustus olaf.janssen@kb.nl - @ookgezellig - slideshare.net/OlafJanssenNL
  • 94. Tijdens WO2 zijn veel verzetsbladen uitgegeven In allerlei soorten en maten… http://www.4en5meiamsterdam.nl/attachment/47454
  • 96. tot hele kleine onbekende eenmalige uitgaven… (pamfletten, 1- 2 velletjes)
  • 97. Na de oorlog heeft het NIOD ± 1.300 titels verzameld, bewaard… https://commons.wikimedia.org/wiki/File:Verzetskrant_in_archiefdozen_bij_het_NIOD.jpg – CC-BY-SA - OlafJanssen
  • 98. http://opac-gonext.oclc.org:8180/DB=8/XMLPRS=Y/PPN?PPN=107123223 .. en in bibliotheekcatalogi beschreven. (1.300 titels) Bibliografische metadata Illegale studentenkrant uit Den Haag/Leiden
  • 99. In 2010 zijn deze ondergrondse kranten gedigitaliseerd…..
  • 100. www.delpher.nl/kranten …en staan nu in Delpher. (1.300 titels) Verzamelplaats voor historische full-text • Kranten • Boeken • Tijdschriften
  • 101. Dus ook De Geus onder studenten http://www.delpher.nl/nl/kranten/results?coll=dddtitel&cql[]=ppn+any+(107123223)
  • 102. Op Delpher kun je deze krant lezen en op woordniveau (full-text) doorzoeken…
  • 103. Maar stel, ik wil meer over deze krant weten • Wat voor soort verzetskrant was De Geus? • Wat is de geschiedenis van deze krant? • Wie werkten aan de krant? • Waar werd deze krant gedrukt? • Hoe werd De Geus verspreid? • Waren er relaties met andere verzetskranten/groepen? • Etc…
  • 104. Maar stel, ik wil meer over deze krant weten • Wat voor soort verzetskrant was De Geus? • Wat is de geschiedenis van deze krant? • Wie werkten aan de krant? • Waar werd deze krant gedrukt? • Hoe werd De Geus verspreid? • Waren er relaties met andere verzetskranten/groepen? • Etc…
  • 105. Maar stel, ik wil meer over deze krant weten • Wat voor soort verzetskrant was De Geus? • Wat is de geschiedenis van deze krant? • Wie werkten aan de krant? • Waar werd deze krant gedrukt? • Hoe werd De Geus verspreid? • Waren er relaties met andere verzetskranten/groepen? • Etc… De antwoorden vindt je niet op Delpher!
  • 106. Gebrek in Delpher: Geen contextuele informatie over illegale kranten https://thejungleisneutral.files.wordpress.com/2013/11/lost.jpg
  • 107. Waar zouden veel mensen die meer over De Geus willen weten, eerst gaan kijken? Wikipedia zeer vermoedelijk! (via Google)
  • 108. Waar zouden veel mensen die meer over De Geus willen weten, eerst gaan kijken? Wikipedia zeer vermoedelijk! (via Google)
  • 109. http://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad) Waar zouden veel mensen die meer over De Geus willen weten, eerst gaan kijken? Wikipedia zeer vermoedelijk! (via Google)
  • 112. http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg Informatie over Nederlandse ondergrondse kranten was verspreid over verschillende, ongekoppelde bronnen 1. Beschrijvingen (metadata in bieb-cat, 1.300 titels) 2. Content (full-text in Delpher, 1.300 titels) 3. Context (in Wikipedia…. althans... )
  • 113. http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg Informatie over Nederlandse ondergrondse kranten was verspreid over verschillende, ongekoppelde bronnen 1. Beschrijvingen (metadata in bieb-cat, 1.300 titels) 2. Content (full-texts in Delpher, 1.300 titels) 3. Context (in Wikipedia…. althans... )
  • 114.
  • 115. Dit Wikipedia-artikel is een zorgvuldig gekozen uitzondering
  • 116. https://nl.wikipedia.org/wiki/Categorie:Illegale_pers_in_de_Tweede_Wereldoorlog 1. Er zijn maar weinig ondergrondse kranten met een eigen WP-artikel 2. Het overzicht van deze kranten op Wikipedia is (erg) incompleet <<< 1.300 titels
  • 117. We hebben beide problemen aangepakt!
  • 118. Wikiproject Verzetskranten “op Wikipedia systematisch en uniform beschrijven van alle ± 1.300 Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven” tinyurl.com/verzetskranten
  • 119. Wikiproject Verzetskranten “op Wikipedia systematisch en uniform beschrijven van alle ± 1.300 Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven” tinyurl.com/verzetskranten Groot publieksbereik
  • 120. https://thejungleisneutral.files.wordpress.com/2013/11/lost.jpg We hadden dringend behoefte aan contextuele info over de kranten. Hoe kwamen we daaraan? De Ondergrondse Pers 1940-1945 Lydia E. Winkel, H. de Vries , 1989 Bevat beschrijvingen van vrijwel alle 1.300 ondergrondse kranten uit WO2
  • 121. Lemma 199 – De Geus; (onder studenten)
  • 126. Bij deze krant betrokken personen Krantentitel  Personen
  • 127. IDs van gerelateerde kranten Deze krantentitel Andere titels
  • 128. We hebben dit boek gescand en als PDF met vrije licentie online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
  • 129. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrije licentie (CC-BY-SA) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  • 130. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  • 131. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  • 132. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  • 133. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  • 134. Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels  bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen Database-expert Gerard Kuys
  • 135. Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels  bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  • 136.
  • 137. VIAF
  • 138.
  • 139. Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  • 140. Zomer 2016 - Unieke database  Eerste keer dat data over verzetskranten systematisch online bijeengebracht en gekoppeld is! https://www.pinterest.com/freethewronged/world-war-ii/
  • 141. Wikiproject Verzetskranten “op Wikipedia systematisch en uniform beschrijven van alle ± 1.300 Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven”
  • 142. https://c1.staticflickr.com/9/8281/7699231918_11a7356c38_b.jpg We hebben dus een database met informatie over 1.300 verzetskranten M.b.v. een artikelsjabloon kunnen we vervolgens systematisch uniforme WP- artikelen gaan genereren
  • 143. We hebben dus een database met informatie over 1.300 verzetskranten M.b.v. een artikelsjabloon kunnen we vervolgens systematisch uniforme WP- artikelbeginnetjes genereren https://c1.staticflickr.com/9/8281/7699231918_11a7356c38_b.jpg
  • 144. Database + sjabloon = WP-artikelbeginnetje
  • 146. Grijs = Wikipedia artikelbeginnetje Automatisch uit database gegenereerd m.b.v. sjabloon
  • 147. https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad) Niet-grijs = Wikipedia artikelbeginnetje Automatisch uit database gegenereerd m.b.v. sjabloon
  • 148. Dit is handmatig toegevoegd om van het beginnetje een volwaardig artikel te maken  Crowdsourcing door Nederlandse Wikipedia-gemeenschap https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
  • 149. Wikipedia-vrijwilligers breiden de 1.300 beginnetjes uit… …en maken langzaam maar zeker steeds meer volwaardige artikelen. Door Sebastiaan ter Burg [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons
  • 152. … Nederlanders weer wat wijzer & blijer! http://www.formerdays.com/2011/05/dutch-liberation.html
  • 153. Vielen Dank! olaf.janssen@kb.nl - @ookgezellig tinyurl.com/verzetskranten
  • 154. Stellingen 1. Universiteiten en erfgoedinstellingen moeten meer gaan samenwerken op het gebied van collectieontsluiting
  • 155. Stellingen 2. Historici moeten leren programmeren.
  • 156. Stellingen 3. Als een bron niet digitaal is, bestaat ie niet.
  • 157. Stellingen 4. Digital Humanities-onderzoek gaat voor wetenschappelijke doorbraken zorgen in ons vakgebied.

Editor's Notes

  1. Standaard slide
  2. Standaard slide
  3. Standaard slide
  4. Standaard slide
  5. Standaard slide
  6. Standaard slide
  7. Standaard slide
  8. Standaard slide
  9. Standaard slide
  10. Standaard slide
  11. Benadruk: handgeschreven bronnen even buiten de scope gehouden, gefocust op getypt. Wij zijn enige op studiedag die aan getypt materiaal aandacht besteden. We hebben OCR-cijfers voor getypt materiaal: bijv. kranten in KB: automatische metingen van de Koninklijke Bibliotheek voor kranten uit het decennium 1990-2000 wijzen op een “word error rate” van circa 12% (intern document KB)
  12. Waar draait dit project om: hoe kun je van een ongestructureerd analoog archief bruikbare digitale data maken? Uitleggen dat veel archieven slechts beschreven zijn op metadataniveau, collectie of deelcollectie (bijvoorbeeld ‘correspondentie 33-39’, ‘het dossier van meneer Jansen’, etc.) Dit gaat erom om losse documenten machineleesbaar te maken.
  13. Standaard slide
  14. 89 scans afkomstig uit 2 dossiers van CABR, leg uit dat het privacy-gevoelige informatie omvat
  15. Meest documenten 80 of hoger Word Accuracy Rate, klein deel slecht
  16. Dit zijn belangrijkste cijfers uit het onderzoek: 4/5de van alle woorden correct machineleesbaar gemaakt in volautomatisch proces!!!! 30.000 woorden in totaal, dat staat gelijk aan de omvang van een gemiddelde roman.
  17. file:///F:/Eindanalyse/evaluation/542_003_report.html
  18. file:///F:/Eindanalyse/evaluation/542_007_report.html. Letters lopen dicht,a niet van s te onderscheiden, i niet van I of l, etc.
  19. file:///F:/Eindanalyse/evaluation/542_003_report.html
  20. file:///F:/Eindanalyse/evaluation/548_032_report.html
  21. file:///F:/Eindanalyse/evaluation/548_050_report.html. Alle data is bewerkt, namen veranderd en ook plaatsnamen en datums.
  22. Sittara is ook voornaam . Pen Helder kan ook oud-voetballer Glen Helder zijn 
  23. Voor CABR uitbreiden FROG met Engelse en Duitse termen. Uitbreiden voor het herkennen van date en time, monetaire waarden etc. Heideltime, dates and time.
  24. Volautomatisch machineleesbaar maken van getypte of hybride documenten heeft veel potentie. Zowel OCR als NER is veelbelovend.
  25. Het doel van dit project is ervoor te zorgen dat er meer kwalitatief hoogwaardige digitale bronnen rondom het thema Tweede Wereldoorlog ter beschikking worden gesteld aan het brede publiek. We doen dit door: voor een selecte set digitale collectiedata de rechten te onderzoeken en dit materiaal via een open licentie voor vrijelijk hergebruik door derden beschikbaar te stellen. via een aantal erkende en al goed zichtbare publiekskanalen (Wikipidia, WikiCommons, Wikidata, Tweedewereldoorlog.nl, Oorlogsbronnen.nl, OpenBeelden.nl, liberationroute.com, Youtube, Flickr, Instagram) de digitale collectiedata beschikbaar te stellen. Het verzamelde materiaal kan vrijelijk worden gebruikt door particulieren op eigen websites, door scholieren in hun werkstuk, door media in kranten, tijdschriften of anderszins, door documentairemakers in hun producties, door leraren in de klas, door conservatoren en curatoren in tentoonstellingen, door bedrijven in apps of games, etc. We bouwen niet de zoveelste website, maar het WO2 open data depot is een duurzaam reservoir met voorgeselecteerd, rechtenvrij, aantrekkelijk bronnenmateriaal rondom een dertigtal kernthema’s en gebeurtenissen. We werken actief samen met platforms waar het grote publiek al is, zoals bijvoorbeeld Wikipedia, WikiCommons en WikiData. Het project beoogt hiermee: het digitale bronnenaanbod in het publieke domein kwalitatief te versterken de zichtbaarheid van bronnenmateriaal te vergroten het vrijgeven van collectiedata als ‘open data’ onder erfgoedinstellingen te promoten de kennis rondom het “clearen” van de rechten van digitaal bronnenmateriaal te vergroten bronnen en publiek dichter bij elkaar te brengen Met “open data” wordt bedoeld: gegevens die je vrij mag (her)gebruiken en verspreiden, zie DEN, http://www.den.nl/thema/134/ zullen er 30 onderwerpen worden vastgesteld waarvan op voorhand kan worden aangenomen dat hier een breed publiek voor is. Als startpunt gelden de onderwerpen, die zijn benoemd in het kader van de Canon van de Duitse bezetting in 2010. De lijst zal worden aangescherpt op basis van een inventarisatie van de specifieke behoeften onder de leden van de SMH 40-45 en het Collectieoverleg Oorlogsmusea, Nationaal Comité 4 en 5 mei en de Stichting Liberation Route Europe. Deze leden zullen ook worden geraadpleegd over de algemene selectiecriteria voor het bronnenmateriaal. Om praktische redenen zal er een mix worden gemaakt tussen materiaal dat eenvoudig open gedeeld kan worden en lastigere, maar inhoudelijk prominente bronnen. David Barnouw, Geschiedenis van Nederland 1940-1945. De canon van de Duitse Bezetting (Zutphen 2010):
  26. Standaard slide
  27. Registratie van opgepakte joden in de Hollandsche Schouwburg aan de Plantage Middenlaan. Na de eerste transporten in de zomer van 1942 gaven steeds minder mensen gehoor aan de Duitse oproep zich te melden voor vertrek naar Westerbork. De Amsterdamse politie haalde de joden van huis op en bracht ze naar de Hollandsche Schouwburg. De Joodsche Raad had een aantal voorzieningen in het theater getroffen, maar deze bleken bij lange na niet voldoende om drie- tot vierhonderd mensen redelijk op te vangen. Soms verbleven de opgepakten er slechts een dag, maar het verblijf kon ook een week duren. In het duister van de nacht vertrokken de joden naar Westerbork.
  28. Verzet in Zelhem, Achterhoek, Doetinchem Het doel van de pilot Geocoderen Oorlogsbronnen was tweeledig: Een data-analyse van de huidige geografische metadata in portal oorlogsbronnen. - Hoe is de kwaliteit van de metadata en welke (niet)bruikbare resultaten levert geocoderen van de metadata op, - een goede en praktische wijze vinden om de door Oorlogsbronnen geharveste metadata te geocoderen en te verrijken. Deze wijze moet aansluiten bij de bestaande technische infrastructuur van oorlogsbronnen. Uitgangspunt van de pilot is dat geografische metadata in de volgende velden kan worden aangetroffen: titel (dc:title) beschrijving (dc:description) dekking/plaats/tijd (dc:coverage) onderwerp/trefwoorden (dc:subject) BAG (Basisadministratie Adressen en Gebouwen) Historische Geocoder, TGN, Geonames GeoNames is de handigste thesaurus gebleken om plaatsen, provincies, landen (en typen als water, eiland, museum, etc) mee te benoemen. Geografische thesauri verbeteren helpt jezelf en anderen. We hebben een aantal historische namen (‘Nederlands-Indië’, ‘Sovjet-Unie’, ‘Joegoslavië’, ‘Oranjehotel’) en een aantal kampen (‘Kampong Makassar’, ‘Lampersari’, ‘Kamp Westerbork’) aan GeoNames toegevoegd. Het NIOD zou kunnen overwegen de intern gebruikte lijst met kampen, etc. te publiceren, liefst als linked data. Daarbij kunnen o.a. links naar bestaande of aan te maken GeoNames items opgenomen worden. Dit vanuit het idee dat het NIOD niet alleen de aangewezen partij is om oorlogsgerelateerde collectiemetadata centraal te ontsluiten, maar dat datzelfde geldt voor oorlogsgerelateerde terminologie. De BAG is de beste (en eigenlijk ook de enige) thesaurus gebleken om (huidige Nederlandse) adressen en gebouwen te benoemen. Termen uit Coverage leveren vrijwel geen false positives op, maar een kwart tot een derde van de termen is niet in één keer eenduidig te geocoderen. Met NER verkregen termen uit tekstvelden komen we op 10-20% false positives. Met semi-automatische processen is dat percentage tot onder de 10% te brengen. In de hele keten (aggregatie, collectiebeheersysteem, data-ontsluiting) zou gebruik van URI’s mogelijk gemaakt moeten worden. Verrijkingen die niet in het collectiebeheersysteem, maar alleen bij een aggregator leven zijn beperkt houdbaar. De verrijkingen moeten aan de leverende instellingen worden aangeboden. Het NIOD zou de verrijkingen in ieder geval in haar eigen collectiebeheersystemen (Bibliotheek, Archief en Beeldbank) op moeten nemen.
  29. Anne Frank in Bunschoten
  30. Standaard slide
  31. Standaard slide
  32. Personen met de meeste beschrijvingen in bronnen bovenaan. Timeline per persoon: het grootste deel van de timeline is gereserveerd voor de periode 1940-1945. Gedateerde gebeurtenissen in een leven hebben een bolletje. Als een gebeurtenis (bijvoorbeeld verblijf in een kamp) een bekende begin- en einddatum hebben dan wordt het tussenliggende vlak oranje. Als een persoon op onbekende datum van een kamp naar een ander kamp is gegaan dan wordt dit aangegeven met oranje verloop.
  33. Per persoon worden beschrijvingen weergegeven, monumenten en beeldmateriaal getoond. De tijdbalk is uitgewerkt voor zovel bekend vanuit de bronnen.
  34. Per persoon een kaart van de plekken waar een persoon is geweest. Gebeurtenissen zonder begin en einddatum worden benoemd.
  35. Alle databronnen worden getoond. Je kunt vanuit hier direct naar de databron gaan (als deze online beschikbaar is) Er is nu een schuifje ingebouwd waarmee je kunt melden dat een databron niet juist is/niet aan de juiste persoon is gekoppeld). Dit is optioneel.
  36. Tot slot volgt een lijst van personen/namen waarvan de computer denkt dat het NIET dezelfde personen zijn. Hier zijn ook schuifjes geplaatst: je kunt een persoon alsnog koppelen aan een naam.
  37. Iedereen zit in de Personenportal, maar soms is er te weinig info om mensen te matchen of om gebeurtenissen te dateren. We tonen alles, maar deze gegevens blijven los/ongekoppeld. Waarschijnlijk betreft het wel dezelfde persoon maar matches gebeuren beargumenteerd. Met beargumenteerd bedoelen we dat we altijd een achternaam (inclusief voorvoegsels) en dateringen (geboorte- en sterfdatum, gevangenneming en lokatie) nodig hebben.
  38. De personenportal bestaat uit een aantal zoek- en match strategiën: met behulp van google en google achtige zoekstrategiën brengen we bronnen samen. We halen eerst brongegevens op. Dit kan als XML, excel, csv, JSON etc bestand. De brongegevens halen we door de zoekstrategiën heen. De resultaten van de zoekstrategiën slaan we op als indexen. Het hele proces duurt enkele minuten en daarna kunnen de bronbestanden in principe verwijderd worden waardoor we een beheersbare hoeveelheid data overhouden (belangrijk voor opslag en milieu). We kunnen periodiek nieuwe bronbestanden ophalen en opnieuw indexeren. Zo houden we de data actueel.
  39. Michel Velleman, beter bekend onder de artiestennaam Ben Ali Libi, (Groningen, 5 januari 1895 - Sobibór, 2 juli 1943) was een Nederlandse goochelaar en illusionist. Tijdens de Tweede Wereldoorlog is hij door de nazi's vermoord.
  40. Standaard slide
  41. Standaard slide
  42. Standaard slide
  43. Standaard slide