De sessie 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken' op vrijdag 25 augustus om 16 uur tijdens de Historicidagen 2017.
Vooral op het terrein van vindbaarheid van bronnen is nog veel winst te behalen. En met de voortschrijdende techniek kan dit ook. Op dit moment is slechts een klein deel van alle collecties - het topje van de ijsberg - digitaal beschikbaar. Hoeveel onvindbare schatten zitten er nog in de Nederlandse archieven? Deze sessie geeft een kijkje in de keuken aan de hand van enkele praktische voorbeelden: automatische tekst- en handschriftherkenning, event modelling, linked open data, crowdsourcing, named entity recognition en andere methodieken. Wat kun je ermee als historicus en hoe gaat dit het onderzoek veranderen?
Moderator: Puck Huitsing (Netwerk Oorlogsbronnen).
Sprekers: Marieke van Erp (VU), Ceciel Huitema (Nationaal Archief), Olaf Janssen (Koninklijke Bibliotheek), Edwin Klijn (Netwerk Oorlogsbronnen) en Nico Vriend (Noord-Hollands Archief).
Crowdsourcing Velehanden.nl | Workshop B | Noordelijke Netwerkdag Oorlogsbron...Netwerk Oorlogsbronnen
Presentatie van Sám Meijers en Thomas van Maaren (Picturae) tijdens de Noordelijke Netwerkdag Oorlogsbronnen op 6 juni 2017 bij HC Kamp Westerbork.
Presentatie is onderdeel van Workshop B: "Crowdsourcing: Archieven online toegankelijk maken".
Presentatie van het project 'Volautomatische archiefontsluiting' tijdens de studiedag Googelen door archieven op 13 oktober 2016 bij het Nationaal Archief.
New digital technology allows us to improve access to textual resources. In this session you will get a glimpse behind the scenes of two projects currently exploring new, fully or semi-automated ways to make archives searchable and create datasets for re-use.
De sessie 'Digging into archives' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Met Anne Gorter (project manager Dutch National Archives), Edwin Klijn (project manager Netwerk Oorlogsbronnen + projectleider TRIADO), Rutger van Koert (developer HuygensING / KNAW Humanities Cluster) en Marten Düring (member Scientific Advisory Committee TRIADO, University of Luxembourg.
Presentatie survey Oral History Today werkgroepErasmusStudio
Deze presentatie weergeeft de bevindingen die zijn gepresenteerd tijdens het laatste seminar van de werkgroep Oral History van het Huizinga instituut, vrijdag 1 november jl.. Er is uiteengezet welke mogelijkheden deze zoekomgeving biedt voor onderzoekers met interesse in mondelinge bronnen. Ook zijn de voorlopige uitslagen van een survey onder oral history collecties in Nederland bekend gemaakt
Op 10 april 2018 organiseerde het Netwerk Oorlogsbronnen een beleidsdag voor betrokken financiers, facilitators en andere ondersteuners van het programma. Deze presentatie laat de ontwikkelingen en plannen van NOB zien.
Crowdsourcing Velehanden.nl | Workshop B | Noordelijke Netwerkdag Oorlogsbron...Netwerk Oorlogsbronnen
Presentatie van Sám Meijers en Thomas van Maaren (Picturae) tijdens de Noordelijke Netwerkdag Oorlogsbronnen op 6 juni 2017 bij HC Kamp Westerbork.
Presentatie is onderdeel van Workshop B: "Crowdsourcing: Archieven online toegankelijk maken".
Presentatie van het project 'Volautomatische archiefontsluiting' tijdens de studiedag Googelen door archieven op 13 oktober 2016 bij het Nationaal Archief.
New digital technology allows us to improve access to textual resources. In this session you will get a glimpse behind the scenes of two projects currently exploring new, fully or semi-automated ways to make archives searchable and create datasets for re-use.
De sessie 'Digging into archives' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Met Anne Gorter (project manager Dutch National Archives), Edwin Klijn (project manager Netwerk Oorlogsbronnen + projectleider TRIADO), Rutger van Koert (developer HuygensING / KNAW Humanities Cluster) en Marten Düring (member Scientific Advisory Committee TRIADO, University of Luxembourg.
Presentatie survey Oral History Today werkgroepErasmusStudio
Deze presentatie weergeeft de bevindingen die zijn gepresenteerd tijdens het laatste seminar van de werkgroep Oral History van het Huizinga instituut, vrijdag 1 november jl.. Er is uiteengezet welke mogelijkheden deze zoekomgeving biedt voor onderzoekers met interesse in mondelinge bronnen. Ook zijn de voorlopige uitslagen van een survey onder oral history collecties in Nederland bekend gemaakt
Op 10 april 2018 organiseerde het Netwerk Oorlogsbronnen een beleidsdag voor betrokken financiers, facilitators en andere ondersteuners van het programma. Deze presentatie laat de ontwikkelingen en plannen van NOB zien.
Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open DataJohan Oomen
Steeds meer collectiebeheerders zijn bezig om de mogelijkheden voor eindgebruikers van Linked Open Data te onderzoeken en in praktijk te brengen. Door het toevoegen van externe informatie aan de eigen collectie (contextualisering) en het verbinden van de eigen collectie aan externe informatiebronnen wordt de collectie onderdeel van een groter geheel en ontstaat er een dynamische relatie van de inhoud van de eigen collectie met de buitenwereld. De thesauri van erfgoedinstellingen zijn bij uitstek geschikt om externe bronnen te verbinden. RCE, Nederlands Instituut voor Beeld en Geluid en Naturalis sloten een convenant om een erfgoedthesaurus voor het Nederlandse erfgoeddomein te ontwikkelen. Hiermee leggen zij de basis van een netwerk van thesauri, zodat instellingen en externe kennisnetwerken rijke verbindingen kunnen realiseren. Als onderdeel van dit proces ontwikkelen zij een gemeenschappelijke set tools die vrijelijk aan de Nederlandse erfgoedsector ter beschikking zullen worden gesteld. De presentatie toont de meerwaarde van Linked Open Data voor de erfgoedsector en plaatst de Nederlandse Erfgoedthesaurus in de context van de infrastructuur voor het erfgoeddomein. Verder zal de “Linked Open Data demonstrator” worden gepresenteerd, zoals deze door Beeld en Geluid en de RCE is gerealiseerd.
Een vereniging bewaart documenten voor de werking maar ook om later de geschiedenis van de vereniging te kunnen schrijven. Tijdens deze presentatie worden aspecten aangeraakt over hoe je beter je collectie archief (papier en digitaal) kan bewaren.
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...Netwerk Oorlogsbronnen
Het Netwerk Oorlogsbronnen gaf in januari een workshop over het project WO2 Open Data Depot tijdens het symposium Open Up!, georganiseerd door Erfgoed Gelderland.
Presentatie gegeven tijdens een lunchlezing voor medewerkers van het NIOD. Onderwerpen: de projecten Triado en de WO2-thesaurus van Netwerk Oorlogsbronnen.
De workflow voor het digitaliseren van archieven met getypt of gedrukt materiaal door Marian Hellema, ICT-erfgoedspecialist, tijdens de Netwerkdag Oorlogsbronnen 2017 op 16 november
20170407 Bruikbaar Erfgoed - Week van het Digitaal ErfgoedEnno Meijers
Het Netwerk Digitaal Erfgoed werkt vanuit het programma 'Bruikbaar' aan het beter bruikbaar maken van digitaal erfgoedinformatie. De presentatie geeft een update van de activiteiten, met bijdragen van Netwerk Oorlogsbronnen (@LizzyJongma) en Zuiderzeemuseum (Shannon van Muijden)
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...Olaf Janssen
Presentatie over Delpher (delpher.nl) voor de medewerkers van De Digitale Bibliotheek voor de Nederlandse Letteren. De DBNL vanaf 2015 ondergebracht bij de Koninklijke Bibliotheek (KB) in Den Haag (http://www.den.nl/nieuws/bericht/3697). De twee organisaties maken op dit moment kennis met elkaar en elkaars diensten, waaronder Delpher.
Prof. dr. Pierre Delsaerdt (Universiteit Antwerpen, bestuurslid van CERL)
Sinds enkele jaren zijn de Vlaamse Erfgoedbibliotheek en haar partners lid van het Consortium of European Research Libraries. Wat doet CERL nu eigenlijk? En vooral: wat kan CERL betekenen voor (grote en kleine) bibliotheken in Vlaanderen? Pierre Delsaerdt vertelt u over enkele belangrijke realisaties van CERL en hoe u daarvan de vruchten kunt rapen.
Marius Flothuis weigerde zich in te schrijven bij de Kultuurkamer en werd prompt ontslagen door het Concertgebouworkest. Met zijn vrouw Leentje bood hij onderdak aan Joden en gaf hij clandestiene huisconcerten. Op 18 september 1943 werd hij opgepakt en vervolgens gevangengezet in kamp Vught, waar hij muziek schreef voor medegevangenen. Lex van Delden dook onder en werd via het studentenverzet lid van de Persoonsbewijzen Centrale. Ook hij gaf in de onderduik illegale huisconcerten. De Leo Smit Stichting maakt via de website Forbidden Music Regained muziek van vervolgde componisten toegankelijk voor een internationaal publiek. De website bevat meer dan 2.000 composities van bijna 40 vervolgde componisten. Door een koppeling met Netwerk Oorlogsbronnen komt dit – vaak onderbelichte – verhaal over verzet en vervolging tot leven.
More Related Content
Similar to Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken'.
Op weg naar een Nederlandse Erfgoedthesaurus met Linked Open DataJohan Oomen
Steeds meer collectiebeheerders zijn bezig om de mogelijkheden voor eindgebruikers van Linked Open Data te onderzoeken en in praktijk te brengen. Door het toevoegen van externe informatie aan de eigen collectie (contextualisering) en het verbinden van de eigen collectie aan externe informatiebronnen wordt de collectie onderdeel van een groter geheel en ontstaat er een dynamische relatie van de inhoud van de eigen collectie met de buitenwereld. De thesauri van erfgoedinstellingen zijn bij uitstek geschikt om externe bronnen te verbinden. RCE, Nederlands Instituut voor Beeld en Geluid en Naturalis sloten een convenant om een erfgoedthesaurus voor het Nederlandse erfgoeddomein te ontwikkelen. Hiermee leggen zij de basis van een netwerk van thesauri, zodat instellingen en externe kennisnetwerken rijke verbindingen kunnen realiseren. Als onderdeel van dit proces ontwikkelen zij een gemeenschappelijke set tools die vrijelijk aan de Nederlandse erfgoedsector ter beschikking zullen worden gesteld. De presentatie toont de meerwaarde van Linked Open Data voor de erfgoedsector en plaatst de Nederlandse Erfgoedthesaurus in de context van de infrastructuur voor het erfgoeddomein. Verder zal de “Linked Open Data demonstrator” worden gepresenteerd, zoals deze door Beeld en Geluid en de RCE is gerealiseerd.
Een vereniging bewaart documenten voor de werking maar ook om later de geschiedenis van de vereniging te kunnen schrijven. Tijdens deze presentatie worden aspecten aangeraakt over hoe je beter je collectie archief (papier en digitaal) kan bewaren.
Workshop NOB 'Open Data #hoedan?' | Erfgoed Gelderland: Open Up! | 19 januari...Netwerk Oorlogsbronnen
Het Netwerk Oorlogsbronnen gaf in januari een workshop over het project WO2 Open Data Depot tijdens het symposium Open Up!, georganiseerd door Erfgoed Gelderland.
Presentatie gegeven tijdens een lunchlezing voor medewerkers van het NIOD. Onderwerpen: de projecten Triado en de WO2-thesaurus van Netwerk Oorlogsbronnen.
De workflow voor het digitaliseren van archieven met getypt of gedrukt materiaal door Marian Hellema, ICT-erfgoedspecialist, tijdens de Netwerkdag Oorlogsbronnen 2017 op 16 november
20170407 Bruikbaar Erfgoed - Week van het Digitaal ErfgoedEnno Meijers
Het Netwerk Digitaal Erfgoed werkt vanuit het programma 'Bruikbaar' aan het beter bruikbaar maken van digitaal erfgoedinformatie. De presentatie geeft een update van de activiteiten, met bijdragen van Netwerk Oorlogsbronnen (@LizzyJongma) en Zuiderzeemuseum (Shannon van Muijden)
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...Olaf Janssen
Presentatie over Delpher (delpher.nl) voor de medewerkers van De Digitale Bibliotheek voor de Nederlandse Letteren. De DBNL vanaf 2015 ondergebracht bij de Koninklijke Bibliotheek (KB) in Den Haag (http://www.den.nl/nieuws/bericht/3697). De twee organisaties maken op dit moment kennis met elkaar en elkaars diensten, waaronder Delpher.
Prof. dr. Pierre Delsaerdt (Universiteit Antwerpen, bestuurslid van CERL)
Sinds enkele jaren zijn de Vlaamse Erfgoedbibliotheek en haar partners lid van het Consortium of European Research Libraries. Wat doet CERL nu eigenlijk? En vooral: wat kan CERL betekenen voor (grote en kleine) bibliotheken in Vlaanderen? Pierre Delsaerdt vertelt u over enkele belangrijke realisaties van CERL en hoe u daarvan de vruchten kunt rapen.
Similar to Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken'. (20)
Marius Flothuis weigerde zich in te schrijven bij de Kultuurkamer en werd prompt ontslagen door het Concertgebouworkest. Met zijn vrouw Leentje bood hij onderdak aan Joden en gaf hij clandestiene huisconcerten. Op 18 september 1943 werd hij opgepakt en vervolgens gevangengezet in kamp Vught, waar hij muziek schreef voor medegevangenen. Lex van Delden dook onder en werd via het studentenverzet lid van de Persoonsbewijzen Centrale. Ook hij gaf in de onderduik illegale huisconcerten. De Leo Smit Stichting maakt via de website Forbidden Music Regained muziek van vervolgde componisten toegankelijk voor een internationaal publiek. De website bevat meer dan 2.000 composities van bijna 40 vervolgde componisten. Door een koppeling met Netwerk Oorlogsbronnen komt dit – vaak onderbelichte – verhaal over verzet en vervolging tot leven.
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannNetwerk Oorlogsbronnen
Janneke Jorna and Michael Hoffmann dive into the collection plan of Netwerk Oorlogsbronnen. This plan aims to enrich the Netwerk's collection portal and to collect data for the new portal Oorlogslevens.nl. The collection plan currently focuses on the liberation of the Netherlands, in the context of the celebration of 75 years Freedom and on adding international collections. The first international participant of Netwerk Oorlogsbronnen, Arolsen Archives (before: International Tracing Service) supplies data on prisoners at the concentration camps in Amersfoort and Vught. This gives new insight into the lives of people during the Second World War.
Janneke Jorna and Michael Hoffmann dive into the collection plan of Netwerk Oorlogsbronnen. This plan aims to enrich the Netwerk's collection portal and to collect data for the new portal Oorlogslevens.nl. The collection plan currently focuses on the liberation of the Netherlands, in the context of the celebration of 75 years Freedom and on adding international collections. The first international participant of Netwerk Oorlogsbronnen, Arolsen Archives (before: International Tracing Service) supplies data on prisoners at the concentration camps in Amersfoort and Vught. This gives new insight into the lives of people during the Second World War.
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen
Netwerk Oorlogsbronnen verzamelt en verrijkt data-collecties van honderden instellingen in Nederland. Deze rijkheid en verscheidenheid biedt in potentie ongekende perspectieven en verbanden, maar ook nieuwe uitdagingen. Welke risico’s komen we zoal tegen en hoe gaat het Netwerk Oorlogsbronnen daarmee om? Welke strategieën en tools hebben we tot onze beschikking? Hoe kunt u helpen? En uiteraard: wat levert het op?
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Netwerk Oorlogsbronnen
Nieuw historisch inzicht door bezoekersontsluiting data Nationaal Monument Kamp Vught. Perspekt heeft onder andere de reizende tentoonstelling ‘Een grenzeloos conflict’ gemaakt en is betrokken bij de nieuwe vaste expositie in NM Kamp Vught. Marièlle Beek en Marije van der Giessen zullen de case van Vught bespreken en het resultaat laten zien. Wat kan je van zo’n proces leren?
Uit de periode september 1944 tot mei 1945 zijn uit Nijmegen zo’n tachtig dagboeken bewaard. In combinatie met film- en fotobeelden geven deze op indringende wijze een beeld aan een traumatische ervaring. Maar wat voor methodologische lessen kunnen wij leren uit deze bronnencollectie?
Meteen na de Bevrijding had de Voetbalbond geen idee hoeveel voetballers het leven hadden verloren en hoe groot de schade aan de accommodaties was. Langzaam kwam die informatie vanuit heel het land binnen met vanuit Gelderland vooral somber nieuws. Wat vertelt de sport over de maatschappij van dat moment? Via de sport probeert Van de Vooren een algemeen beeld te schetsen van de chaos van 1945.
Hoe kunnen gedigitaliseerde archieven helpen bij het reconstrueren van persoonlijke verhalen? Edwin Klijn laat aan de hand van enkele Gelderse voorbeelden zien hoe digitale technologie archieven een nieuw leven kunnen bezorgen.
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Netwerk Oorlogsbronnen
Een sessie gericht op de techniek en ontsluitingsmethodes. Welke problemen kom je tegen bij een archief met een diversiteit aan stukken van wisselende kwaliteit? Wat kan je wel en niet met digitale gereedschappen, wat leveren ze op en hoe ziet de toekomst eruit?
De presentatie 'Kamp Westerbork 1945-1971' van Guido Abuys tijdens de Noordelijke Netwerkdag Oorlogsbronnen 'Wisseling van de wacht. De bevrijding van kampen en hun nieuwe bewoners' op 23 mei 2019 bij Groninger Archieven / OVCG.
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Netwerk Oorlogsbronnen
De presentatie 'Kamp de Beetse na de bevrijding' van Jochem Abbes tijdens de Noordelijke Netwerkdag Oorlogsbronnen 'Wisseling van de wacht. De bevrijding van kampen en hun nieuwe bewoners' op 23 mei 2019 bij Groninger Archieven / OVCG.
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Netwerk Oorlogsbronnen
De presentatie 'Van laboratorium naar praktijk: digitaal zoeken door historische archieven' van Edwin Klijn (NOB) tijdens de Noordelijke Netwerkdag Oorlogsbronnen 'Wisseling van de wacht. De bevrijding van kampen en hun nieuwe bewoners' op 23 mei 2019 bij Groninger Archieven / OVCG.
De presentatie 'Fries Verzetsmuseum online' van Nynke Kuipers tijdens de Noordelijke Netwerkdag Oorlogsbronnen 'Wisseling van de wacht. De bevrijding van kampen en hun nieuwe bewoners' op 23 mei 2019 bij Groninger Archieven / OVCG.
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...Netwerk Oorlogsbronnen
De presentatie 'De Holocaust als nieuws' van Huub Wijfjes tijdens de Noordelijke Netwerkdag Oorlogsbronnen 'Wisseling van de wacht. De bevrijding van kampen en hun nieuwe bewoners' op 23 mei 2019 bij Groninger Archieven / OVCG.
Presentatie over Netwerk Oorlogsbronnen tijdens de startbijeenkomst van het crowdsourcing-project 'Rotterdamse arrestanten' op 18 januari 2019. Een project van het Stadsarchief Rotterdam en Netwerk Oorlogsbronnen.
De clinic 'Patatje Oorlog' tijdens het KNVI-jaarcongres 'Smart Humanity' op 13 december 2018. Over het thematisch, intellectueel en cross-sectoraal ontsluiten van erfgoedcollecties. Presentatie door het Netwerk Oorlogsbronnen (Edwin Klijn, Tessa Free, Anne Helfrich).
3. Ons doel
• Kijkje in de keuken, waar zijn archiefinstellingen mee bezig, wat zit er
onder water?
• Nieuwe methoden om bronnen toegankelijk te maken
• De ijsberg zichtbaar te maken
6. Uw doel
• Wat kun je hiermee als historicus?
• Hoe gaat dit onderzoek veranderen?
7. De ijsberg zichtbaar maken
1. VAN ANALOOG NAAR DIGITAAL
• Volautomatische Archiefontsluiting: Edwin Klijn (NOB)
• De ijsberg zichtbaar maken: serie-archieven: Ceciel Huitema (Nationaal
Archief) en Nico Vriend (Noord-Hollands Archief)
2. WAT ALS HET DIGITAAL IS
• Events modelling, Marieke van Erp (VU/KNAW Humanities Cluster)
• Koppelen, Personenportal WO2, Lizzy Jongma (NOB)
• Contextualisering, Wikipedia Verzetskrantenproject, Olaf Janssen
(Koninklijke Bibliotheek)
10. Netwerk Oorlogsbronnen (NOB)
• Sinds 2010
• Samenwerkingsverband van instellingen met WO2-collecties
• Onderwerp: Tweede Wereldoorlog
• Doel: vergroten gebruik Collectie WO2 Nederland
• Perspectief: archieven, musea, instituten, etc (+- 400)
• Programma 2016-2019
• Digitaal: verbinden van collecties
11. Onderzoeksteam
• Rafael Carrasco, Isabel Martínez (IMPACT Centre of Competence)
• Martin Reynaert (Centre for Language and Speech Technology,
Nijmegen)
• Anne Gorter, Liesbeth Keijser, Joop Korswagen (Nationaal Archief)
• Edwin Klijn (Netwerk Oorlogsbronnen)
12. Doel
• In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity
recognition”-tools?
• Met welke settings krijg je de beste OCR?
• Meten, meten, meten
• Volautomatisch
• Eindrapport met conclusie en aanbevelingen (okt 2016), zie
https://www.oorlogsbronnen.nl/volauto
17. Word accuracy rates (gewogen)
• 81,06% word accuracy rate (volgorde onafhankelijk, “bag of words”)
• 75,95% word accuracy rate (volgorde afhankelijk)
18. Waar houdt OCR-software niet van?
• Doorslagen
• Tabellen, kolommen, complexe lay-out
• Handgeschreven notities in de tekst
• 1’tjes en I’tjes en l’tjes
• Onregelmatige inktdikte van tekst
• Weinig contrast achtergrond en tekst
19. Slecht: 52,86% word accuracy rate
(volgorde onafhankelijk)
bebendald.Deze lljaten werden ingaleverd bij do Ohef van de SBDoze Hoekte
hiervan een doorlopende 11 jat en met diana advlaa ging de 11 jat naar da Be*
fahlehaber dor Slchar&eltddlenat.Deze beellate dan wat ar set de pevanpanen
soaat gebeuren*ongeveer vier weken voor do atrijd om Groningen bevonden aldh
neg vereehlllende arrestanten ia het Halo van Bewaring te 9roalagen.ock hier
21. Waar houdt OCR-software wel van?
• Eenvoudige lay-out (portret, geen tabellen of kolommen)
• Tekst met een gelijkmatige inktdikte
• Duidelijk contrast tussen tekstgebieden en lichte achtergrond
• Rechte tekstregels
• Ruimte tussen de woorden
22. Koploper: 98,31% word accuracy rate
(volgorde onafhankelijk)
zich ophield. Mijn zuster deelde mij mede, dat deze man de volgen(
de Maandag zou terugkomen. Ik ben toen Maandags naar de woning
van mijn zuster gegaan. Ik bevond mij in de woning van mijn zus
ter, toen volgens mijn zuster, de zelfde persoon, die enige dagen
terag aan haar woning was geweest, zich daar vervoegde. Mijn zus�
ter heeft deze man toen aan de deur van haar woning te woord ge
23. Gemiddeld, 81,95% word accuracy rate
(volgorde onafhankelijk)
Naam en voornamen: #achternaam#,#voornaam# Geboortep!aats en-datum: Zaandam, 29
October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats
en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te
Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche
personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D.
Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van
Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens
overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik,
optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het
Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A
Domeinspecifieke woorden: bewaring, agent van Politie, Persoonsbewijs, vijand, joodsche goederen, verdachte,
verdacht, Mode! A, in dienst was getreden
Personen: #achternaam#, #voornaam#, joodsche personen, Nederlander, Chef Opsporingsdienst D.P.M.
Organisaties: S.D., Opsporingsdienst D.P.M., Lippmann en Rosenthal, afdeeling joodsche zaken te Amsterdam, P.O.D.
Geografische lokatie: Zaandam, Kanaalstraat 25 II Amsterdam, Amsterdam, Huis van Bewaring, Leeuwarden
Datum : 29 October 1897, 28 Mei 1945
25. Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
26. Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
Ja het is zinvol.
33. Seriearchieven in de ijsberg
Soms meer dan 75%!
• Bij ‘verbaalstelsel’ ministeries,
1813-1940
• Overgrote deel Nederlandse
overheidsarchieven
Berekening Charles Jeurgens
34. Een voorbeeld
• 140 meter aan documenten
• Tien jaar…
Archief Ministerie van Kolonien, 1910-1919
35. Toegankelijk?
• Beschrijvingen van afzonderlijke stukken zijn ‘onzichtbaar’
• Zoekopdrachten (bijvoorbeeld ‘Snouck Hurgronje’) leveren niets op…
Online ziet het er zo uit:
36. Maar, er zijn wél beschrijvingen beschikbaar…
• Destijds aangemaakt (1910-1919)
• 4 meter ‘indexen’ maken 140 meter aan documenten toegankelijk
39. Voorbeeld index
Kenmerken:
• Kolommenstructuur
• Handgeschreven
• Van ieder onderliggend document: van wie & korte inhoud
• Verwijzingen naar de stukken (‘verbalen’)
Online doorzoekbaar te maken?
44. Full-text zoeken wordt mogelijk! Maar is er niet zomaar...
• Handmatige transcipties aanleveren (eerste … pagina’s)
• Lay-out analyse: tekstvelden worden herkend (wel vaak bijstellen)
• HTR resultaat: 10% foutmarge op karakterbasis acceptabel?
• Controle door The Crowd?
45. Voor- en nadelen index
• Voordelen:
• Uniform qua lay-out
• Weinig verschillende handschriften
• Meeste overheidsarchieven grotendeels op dezelfde manier gestructureerd
• Nadelen:
• (Nog) niet de teksten van de onderliggende documenten doorzoekbaar, maar metadata in bulk
46. De ijsberg zichtbaar maken
Wat we willen:
1) Pilots op verschillende archieven:
• Ministerie van Koloniën, 1910-1919 (Nationaal Archief)
• Gemeentebestuur Haarlem, 1886-1898 (Noord-Hollands Archief)
2) HTR testen
3) Crowdsourcingprojecten op resultaten HTR
• Marktpartijen zoeken
4) Samenwerken met gebruikers
• Historici?
Interesse?
• ceciel.huitema@nationaalarchief.nl
• nico.vriend@noord-hollandsarchief.nl
49. Tekst in collecties
• Zoeken en koppelen gebeurt vaak
via gestructureerde
databasevelden
• In vrije tekstvelden kan via
trefwoorden gezocht worden
• Maar trefwoorden vertellen je niet
dat “brand” en “vuur” gerelateerde
concepten zijn
• Voor next-level collectie-ontsluiting
moeten we ook kijken naar wat er
ín de tekstvelden staat en dat
koppelen aan thesauri en/of andere
collecties
Image source: https://cdn.pixabay.com/photo/2017/05/28/16/01/wave-2351346_960_720.jp
51. Taaltechnologie
• Onderzoek en ontwikkeling van manieren om informatie uit
teksten te extraheren
• information retrieval, automatisch vertalen, deep reading
• meerderheid van datasets in het domein zijn contemporaine
kranten
• Digital Humanities taaltechnologen onderzoeken hoe deze
technologie zich gedraagt in een ander domein
52. Semantisch Web
• Onderzoekt en ontwikkelt mogelijkheden om een machine
leesbaar Web te creëeren
• kennismodelering, formaten, kennisrepresentatie, data delen
• Linked Open Data wolk is de portal tot een rijkdom aan
gestructureerde databronnen
• Semantisch Web technologie heeft moeite gebruikers buiten
het domein te bereiken
Image source: http://lod-cloud.net/versions/2017-02-20/lod.pn
53. Geschiedenis
• Geïnteresseerd in:
• mensen
• gebeurtenissen
• Veel historici zijn geïnteresseerd in:
• analyse van grotere datasets
• kwantitatieve methoden
image source: https://upload.wikimedia.org/wikipedia/commons/7/74/York_Pioneers'_social_re-union_St_George's_Hall,_Toronto,_March_3,_1911_(HS85-10-23694).jpg
55. 2009 - 2013
• Doel van het project: relaties leggen tussen Rijksmuseum en Beeld en Geluid collecties
• Digital Hermeneutics
• Herkennen van gebeurtenissen en participanten in objectbeschrijvingen (Taaltechnologie)
• Modelleren van gebeurtenissen en narratieven (Semantisch Web)
• Marieke van Erp, Johan Oomen, Roxane Segers, Chiel van den Akker, Lora Aroyo, Geertje
Jacobs, Susan Legêne, Lourens van der Meij, Jacco van Ossenbruggen and Guus Schreiber
(2011) Automatic Heritage Metadata Enrichment with Historic Events. Museums and the Web
2011. Philadelphia, PA, USA, April 6-9 2011.
• Van Den Akker, C., Legêne, S., Van Erp, M., Aroyo, L., Segers, R., van Der Meij, L., Van
Ossenbruggen, J., Schreiber, G., Wielinga, B., Oomen, J. and Jacobs, G., 2011, June. Digital
hermeneutics: Agora and the online understanding of cultural heritage. In Proceedings of the
3rd International Web Science Conference (p. 10). ACM.
76. Semantic web
“The Semantic Web is not a separate Web but an
extension of the current one, in which information is
given well-defined meaning, better enabling computers
and people to work in cooperation” (Tim Berners-Lee,
Scientific American 2001)
92. Open data, Wikipedia en crowdsourcing voor ondergrondse
kranten uit WO2
Olaf Janssen, Koninklijke Bibliotheek
Historicidagen 2017, Utrecht, 25 augustus
olaf.janssen@kb.nl - @ookgezellig - slideshare.net/OlafJanssenNL
96. tot hele kleine onbekende eenmalige uitgaven… (pamfletten, 1-
2 velletjes)
97. Na de oorlog heeft het NIOD
± 1.300 titels verzameld, bewaard…
https://commons.wikimedia.org/wiki/File:Verzetskrant_in_archiefdozen_bij_het_NIOD.jpg – CC-BY-SA - OlafJanssen
99. In 2010 zijn deze ondergrondse kranten gedigitaliseerd…..
100. www.delpher.nl/kranten
…en staan nu in Delpher.
(1.300 titels)
Verzamelplaats voor historische full-text
• Kranten
• Boeken
• Tijdschriften
101. Dus ook De Geus onder studenten
http://www.delpher.nl/nl/kranten/results?coll=dddtitel&cql[]=ppn+any+(107123223)
102. Op Delpher kun je deze krant
lezen en op woordniveau (full-text) doorzoeken…
103. Maar stel, ik wil meer over deze krant weten
• Wat voor soort verzetskrant was De Geus?
• Wat is de geschiedenis van deze krant?
• Wie werkten aan de krant?
• Waar werd deze krant gedrukt?
• Hoe werd De Geus verspreid?
• Waren er relaties met andere verzetskranten/groepen?
• Etc…
104. Maar stel, ik wil meer over deze krant weten
• Wat voor soort verzetskrant was De Geus?
• Wat is de geschiedenis van deze krant?
• Wie werkten aan de krant?
• Waar werd deze krant gedrukt?
• Hoe werd De Geus verspreid?
• Waren er relaties met andere verzetskranten/groepen?
• Etc…
105. Maar stel, ik wil meer over deze krant weten
• Wat voor soort verzetskrant was De Geus?
• Wat is de geschiedenis van deze krant?
• Wie werkten aan de krant?
• Waar werd deze krant gedrukt?
• Hoe werd De Geus verspreid?
• Waren er relaties met andere verzetskranten/groepen?
• Etc…
De antwoorden vindt je
niet op Delpher!
106. Gebrek in Delpher:
Geen contextuele informatie
over illegale kranten
https://thejungleisneutral.files.wordpress.com/2013/11/lost.jpg
107. Waar zouden veel mensen die meer over
De Geus willen weten, eerst gaan kijken?
Wikipedia zeer vermoedelijk! (via Google)
108. Waar zouden veel mensen die meer over
De Geus willen weten, eerst gaan kijken?
Wikipedia zeer vermoedelijk! (via Google)
118. Wikiproject Verzetskranten
“op Wikipedia systematisch en uniform beschrijven van alle ± 1.300
Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven”
tinyurl.com/verzetskranten
119. Wikiproject Verzetskranten
“op Wikipedia systematisch en uniform beschrijven van alle ± 1.300
Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven”
tinyurl.com/verzetskranten
Groot publieksbereik
128. We hebben dit boek gescand en als
PDF met vrije licentie online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
129. We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrije licentie (CC-BY-SA)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
130. We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
131. We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
132. We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
133. We hebben dit boek geOCRed +
als PDF onder CC-BY-SA online gezet
http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
134. Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
Database-expert
Gerard Kuys
135. Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
139. Beschikbaar online (PDF, platte file)
Vrij voor hergebruik (CC-BY-SA licentie)
---------------------------------------------------
Converteer PDF naar database
Koppel: titels plaatsen, personen, andere titels
Koppel: titels bieb-cat (metadata) en Delpher (full-text)
Koppel: titels, personen & plaatsens externe bronnen
140. Zomer 2016 - Unieke database
Eerste keer dat data over verzetskranten
systematisch online bijeengebracht en gekoppeld is!
https://www.pinterest.com/freethewronged/world-war-ii/
143. We hebben dus een database met informatie over 1.300 verzetskranten
M.b.v. een artikelsjabloon kunnen we vervolgens systematisch uniforme WP-
artikelbeginnetjes genereren
https://c1.staticflickr.com/9/8281/7699231918_11a7356c38_b.jpg
148. Dit is handmatig toegevoegd om van het beginnetje
een volwaardig artikel te maken
Crowdsourcing door Nederlandse
Wikipedia-gemeenschap
https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
149. Wikipedia-vrijwilligers breiden de
1.300 beginnetjes uit…
…en maken langzaam maar zeker steeds meer volwaardige artikelen.
Door Sebastiaan ter Burg [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons
Benadruk: handgeschreven bronnen even buiten de scope gehouden, gefocust op getypt. Wij zijn enige op studiedag die aan getypt materiaal aandacht besteden.
We hebben OCR-cijfers voor getypt materiaal: bijv. kranten in KB: automatische metingen van de Koninklijke Bibliotheek voor kranten uit het decennium 1990-2000 wijzen op een “word error rate” van circa 12% (intern document KB)
Waar draait dit project om: hoe kun je van een ongestructureerd analoog archief bruikbare digitale data maken? Uitleggen dat veel archieven slechts beschreven zijn op metadataniveau, collectie of deelcollectie (bijvoorbeeld ‘correspondentie 33-39’, ‘het dossier van meneer Jansen’, etc.) Dit gaat erom om losse documenten machineleesbaar te maken.
Standaard slide
89 scans afkomstig uit 2 dossiers van CABR, leg uit dat het privacy-gevoelige informatie omvat
Meest documenten 80 of hoger Word Accuracy Rate, klein deel slecht
Dit zijn belangrijkste cijfers uit het onderzoek: 4/5de van alle woorden correct machineleesbaar gemaakt in volautomatisch proces!!!! 30.000 woorden in totaal, dat staat gelijk aan de omvang van een gemiddelde roman.
file:///F:/Eindanalyse/evaluation/548_050_report.html. Alle data is bewerkt, namen veranderd en ook plaatsnamen en datums.
Sittara is ook voornaam . Pen Helder kan ook oud-voetballer Glen Helder zijn
Voor CABR uitbreiden FROG met Engelse en Duitse termen. Uitbreiden voor het herkennen van date en time, monetaire waarden etc. Heideltime, dates and time.
Volautomatisch machineleesbaar maken van getypte of hybride documenten heeft veel potentie. Zowel OCR als NER is veelbelovend.
Het doel van dit project is ervoor te zorgen dat er meer kwalitatief hoogwaardige digitale bronnen rondom het thema Tweede Wereldoorlog ter beschikking worden gesteld aan het brede publiek. We doen dit door:
voor een selecte set digitale collectiedata de rechten te onderzoeken en dit materiaal via een open licentie voor vrijelijk hergebruik door derden beschikbaar te stellen.
via een aantal erkende en al goed zichtbare publiekskanalen (Wikipidia, WikiCommons, Wikidata, Tweedewereldoorlog.nl, Oorlogsbronnen.nl, OpenBeelden.nl, liberationroute.com, Youtube, Flickr, Instagram) de digitale collectiedata beschikbaar te stellen.
Het verzamelde materiaal kan vrijelijk worden gebruikt door particulieren op eigen websites, door scholieren in hun werkstuk, door media in kranten, tijdschriften of anderszins, door documentairemakers in hun producties, door leraren in de klas, door conservatoren en curatoren in tentoonstellingen, door bedrijven in apps of games, etc.
We bouwen niet de zoveelste website, maar het WO2 open data depot is een duurzaam reservoir met voorgeselecteerd, rechtenvrij, aantrekkelijk bronnenmateriaal rondom een dertigtal kernthema’s en gebeurtenissen. We werken actief samen met platforms waar het grote publiek al is, zoals bijvoorbeeld Wikipedia, WikiCommons en WikiData.
Het project beoogt hiermee:
het digitale bronnenaanbod in het publieke domein kwalitatief te versterken
de zichtbaarheid van bronnenmateriaal te vergroten
het vrijgeven van collectiedata als ‘open data’ onder erfgoedinstellingen te promoten
de kennis rondom het “clearen” van de rechten van digitaal bronnenmateriaal te vergroten
bronnen en publiek dichter bij elkaar te brengen
Met “open data” wordt bedoeld: gegevens die je vrij mag (her)gebruiken en verspreiden, zie DEN, http://www.den.nl/thema/134/
zullen er 30 onderwerpen worden vastgesteld waarvan op voorhand kan worden aangenomen dat hier een breed publiek voor is. Als startpunt gelden de onderwerpen, die zijn benoemd in het kader van de Canon van de Duitse bezetting in 2010. De lijst zal worden aangescherpt op basis van een inventarisatie van de specifieke behoeften onder de leden van de SMH 40-45 en het Collectieoverleg Oorlogsmusea, Nationaal Comité 4 en 5 mei en de Stichting Liberation Route Europe. Deze leden zullen ook worden geraadpleegd over de algemene selectiecriteria voor het bronnenmateriaal. Om praktische redenen zal er een mix worden gemaakt tussen materiaal dat eenvoudig open gedeeld kan worden en lastigere, maar inhoudelijk prominente bronnen.
David Barnouw, Geschiedenis van Nederland 1940-1945. De canon van de Duitse Bezetting (Zutphen 2010):
Standaard slide
Registratie van opgepakte joden in de Hollandsche Schouwburg aan de Plantage Middenlaan. Na de eerste transporten in de zomer van 1942 gaven steeds minder mensen gehoor aan de Duitse oproep zich te melden voor vertrek naar Westerbork. De Amsterdamse politie haalde de joden van huis op en bracht ze naar de Hollandsche Schouwburg. De Joodsche Raad had een aantal voorzieningen in het theater getroffen, maar deze bleken bij lange na niet voldoende om drie- tot vierhonderd mensen redelijk op te vangen. Soms verbleven de opgepakten er slechts een dag, maar het verblijf kon ook een week duren. In het duister van de nacht vertrokken de joden naar Westerbork.
Verzet in Zelhem, Achterhoek, Doetinchem
Het doel van de pilot Geocoderen Oorlogsbronnen was tweeledig:
Een data-analyse van de huidige geografische metadata in portal oorlogsbronnen.
- Hoe is de kwaliteit van de metadata en welke (niet)bruikbare resultaten levert geocoderen van de metadata op,
- een goede en praktische wijze vinden om de door Oorlogsbronnen geharveste metadata te geocoderen en te verrijken. Deze wijze moet aansluiten bij de bestaande technische infrastructuur van oorlogsbronnen.
Uitgangspunt van de pilot is dat geografische metadata in de volgende velden kan worden aangetroffen: titel (dc:title) beschrijving (dc:description) dekking/plaats/tijd (dc:coverage) onderwerp/trefwoorden (dc:subject)
BAG (Basisadministratie Adressen en Gebouwen)
Historische Geocoder, TGN, Geonames
GeoNames is de handigste thesaurus gebleken om plaatsen, provincies, landen (en typen als water, eiland, museum, etc) mee te benoemen.
Geografische thesauri verbeteren helpt jezelf en anderen. We hebben een aantal historische namen (‘Nederlands-Indië’, ‘Sovjet-Unie’, ‘Joegoslavië’, ‘Oranjehotel’) en een aantal kampen (‘Kampong Makassar’, ‘Lampersari’, ‘Kamp Westerbork’) aan GeoNames toegevoegd.
Het NIOD zou kunnen overwegen de intern gebruikte lijst met kampen, etc. te publiceren, liefst als linked data. Daarbij kunnen o.a. links naar bestaande of aan te maken GeoNames items opgenomen worden. Dit vanuit het idee dat het NIOD niet alleen de aangewezen partij is om oorlogsgerelateerde collectiemetadata centraal te ontsluiten, maar dat datzelfde geldt voor oorlogsgerelateerde terminologie.
De BAG is de beste (en eigenlijk ook de enige) thesaurus gebleken om (huidige Nederlandse) adressen en gebouwen te benoemen.
Termen uit Coverage leveren vrijwel geen false positives op, maar een kwart tot een derde van de termen is niet in één keer eenduidig te geocoderen.
Met NER verkregen termen uit tekstvelden komen we op 10-20% false positives. Met semi-automatische processen is dat percentage tot onder de 10% te brengen.
In de hele keten (aggregatie, collectiebeheersysteem, data-ontsluiting) zou gebruik van URI’s mogelijk gemaakt moeten worden.
Verrijkingen die niet in het collectiebeheersysteem, maar alleen bij een aggregator leven zijn beperkt houdbaar.
De verrijkingen moeten aan de leverende instellingen worden aangeboden.
Het NIOD zou de verrijkingen in ieder geval in haar eigen collectiebeheersystemen (Bibliotheek, Archief en Beeldbank) op moeten nemen.
Anne Frank in Bunschoten
Standaard slide
Standaard slide
Personen met de meeste beschrijvingen in bronnen bovenaan. Timeline per persoon: het grootste deel van de timeline is gereserveerd voor de periode 1940-1945.
Gedateerde gebeurtenissen in een leven hebben een bolletje.
Als een gebeurtenis (bijvoorbeeld verblijf in een kamp) een bekende begin- en einddatum hebben dan wordt het tussenliggende vlak oranje.
Als een persoon op onbekende datum van een kamp naar een ander kamp is gegaan dan wordt dit aangegeven met oranje verloop.
Per persoon worden beschrijvingen weergegeven, monumenten en beeldmateriaal getoond.
De tijdbalk is uitgewerkt voor zovel bekend vanuit de bronnen.
Per persoon een kaart van de plekken waar een persoon is geweest.
Gebeurtenissen zonder begin en einddatum worden benoemd.
Alle databronnen worden getoond. Je kunt vanuit hier direct naar de databron gaan (als deze online beschikbaar is)
Er is nu een schuifje ingebouwd waarmee je kunt melden dat een databron niet juist is/niet aan de juiste persoon is gekoppeld). Dit is optioneel.
Tot slot volgt een lijst van personen/namen waarvan de computer denkt dat het NIET dezelfde personen zijn.
Hier zijn ook schuifjes geplaatst: je kunt een persoon alsnog koppelen aan een naam.
Iedereen zit in de Personenportal, maar soms is er te weinig info om mensen te matchen of om gebeurtenissen te dateren.
We tonen alles, maar deze gegevens blijven los/ongekoppeld. Waarschijnlijk betreft het wel dezelfde persoon maar matches gebeuren beargumenteerd.
Met beargumenteerd bedoelen we dat we altijd een achternaam (inclusief voorvoegsels) en dateringen (geboorte- en sterfdatum, gevangenneming en lokatie) nodig hebben.
De personenportal bestaat uit een aantal zoek- en match strategiën: met behulp van google en google achtige zoekstrategiën brengen we bronnen samen.
We halen eerst brongegevens op. Dit kan als XML, excel, csv, JSON etc bestand.
De brongegevens halen we door de zoekstrategiën heen. De resultaten van de zoekstrategiën slaan we op als indexen.
Het hele proces duurt enkele minuten en daarna kunnen de bronbestanden in principe verwijderd worden waardoor we een beheersbare hoeveelheid data overhouden (belangrijk voor opslag en milieu).
We kunnen periodiek nieuwe bronbestanden ophalen en opnieuw indexeren. Zo houden we de data actueel.
Michel Velleman, beter bekend onder de artiestennaam Ben Ali Libi, (Groningen, 5 januari 1895 - Sobibór, 2 juli 1943) was een Nederlandse goochelaar en illusionist. Tijdens de Tweede Wereldoorlog is hij door de nazi's vermoord.