SlideShare a Scribd company logo
1 of 37
Project Volautomatische
archiefontsluiting
Anne Gorter (Nationaal Archief), Edwin Klijn (Netwerk Oorlogsbronnen)
Studiedag Googelen in archieven, 13 oktober 2016
Onderzoeksteam
• Rafael Carrasco, Isabel Martínez (IMPACT Centre of Competence)
• Martin Reynaert (Centre for Language and Speech Technology,
Nijmegen)
• Anne Gorter, Liesbeth Keijser, Joop Korswagen (Nationaal Archief)
• Edwin Klijn (Netwerk Oorlogsbronnen)
Doel
• In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity
recognition”-tools?
• Met welke settings krijg je de beste OCR?
• Meten, meten, meten
• Volautomatisch
• Uitgangspunt: proven technology (Abbyy Finereader 11 SDK,
TICCL/FROG)
• Eindrapport met conclusie en aanbevelingen
Ontsluiting op DOCUMENT-niveau
In verband met privacywetgeving is deze
afbeelding uit de presentatie gelaten
Stappen
3. Voorbewerking
4. Transcriptie
(OCR of HTR)
Machineleesbaar
document
5. Postcorrectie
Origineel document
2. Scannen
1. Selectie
1. Selectie testset
• 89 scans
• Centraal Archief Bijzondere Rechtspleging
• Geen gewogen representatieve selectie
• Verschillende soorten papier (doorslag, origineel)
• Blauwe/paarse tekst, doorgestreept, formulieren
• “Blurry” tekst
• Tekst in kolommen
2. Scannen
• 300 ppi kleur, NA-specs
• Getest met verschillende achtergronden (wit, grijs, zwart, in context)
• Zwarte achtergrond geeft beste OCR-resultaat
3. Voorbewerking
• Getest met verschillende tools
• Beste workflow:
1. deskewing
2. border removal
3. OCR
• Geen binarisation!
4. Transcriptie (OCR)
• Getest met verschillende versies van Abbyy Finereader
• Abbyy FR 11 SDK geeft betere resultaten dan FR 12 Pro
• Input van externe woordenboeken (Geonames, INL Gazetteers) geeft
geen beter resultaat
Word Accuracy Rate (ongewogen)
Word accuracy rates (gewogen)
• 81,06% word accuracy rate (volgorde onafhankelijk, “bag of words”)
• 75,95% word accuracy rate (volgorde afhankelijk)
Waar houdt OCR-software niet van?
• Doorslagen
• Tabellen, kolommen, complexe lay-out
• Handgeschreven notities in de tekst
• 1’tjes en I’tjes en l’tjes
• Onregelmatige inktdikte van tekst
• Weinig contrast achtergrond en tekst
Grootste mislukking: 0% word accuracy
rate (volgorde onafhankelijk)
. 6AA^y X^ 7* ^4, .- /^-/<9 - 4^^. TV V ' *"' ^ ^ ^^ 4<*?-7. G
GKONiNgEi^ * Qi<^ - %%^ -?%. 'j?4 . /<n^- jy? /
In verband met privacywetgeving is deze afbeelding uit
de presentatie gelaten
Ook slecht: 0% herkend
In verband met privacywetgeving is deze afbeelding
uit de presentatie gelaten
Slecht
1
In verband met privacywetgeving is deze afbeelding uit de
presentatie gelaten
Slecht: 52,86% word accuracy rate
(volgorde onafhankelijk)
bebendald.Deze lljaten werden ingaleverd bij do Ohef van de SBDoze Hoekte
hiervan een doorlopende 11 jat en met diana advlaa ging de 11 jat naar da Be*
fahlehaber dor Slchar&eltddlenat.Deze beellate dan wat ar set de pevanpanen
soaat gebeuren*ongeveer vier weken voor do atrijd om Groningen bevonden aldh
neg vereehlllende arrestanten ia het Halo van Bewaring te 9roalagen.ock hier
In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
Slecht: een bloemlezing
In verband met privacywetgeving zijn deze afbeeldingen uit de
presentatie gelaten
Waar houdt OCR-software wel van?
• Eenvoudige lay-out (portret, geen tabellen of kolommen)
• Tekst met een gelijkmatige inktdikte
• Duidelijk contrast tussen tekstgebieden en lichte achtergrond
• Rechte tekstregels
• Ruimte tussen de woorden
Koploper: 98,31% word accuracy rate
(volgorde onafhankelijk)
zich ophield. Mijn zuster deelde mij mede, dat deze man de volgen(
de Maandag zou terugkomen. Ik ben toen Maandags naar de woning
van mijn zuster gegaan. Ik bevond mij in de woning van mijn zus
ter, toen volgens mijn zuster, de zelfde persoon, die enige dagen
terag aan haar woning was geweest, zich daar vervoegde. Mijn zus�
ter heeft deze man toen aan de deur van haar woning te woord ge
In verband met privacywetgeving is deze afbeelding uit de presentatie
gelaten
Ook goed: 97,97% word accuracy rate
(volgorde onafhankelijk)
Om omstreeks zes uur die avond kwam de dochter van de bewoonster
thuis. Ik herinner mij niet, dat deze van ons de opdracht kreeg
op de divan in de huiskamer te gaan zitten en, dat wij haar
hebben verboden het huis te verlaten, om een brief te posten.
Kort daarna kwam de Joodse persoon, dus de man van de Joodse
vrouw thuis. Ik herinner mij niet meer, dat ik van deze Joodse
man een actetas, inhoudende een paar duizend gulden heb in beslag
genomen. Dit is echter mogelijk en ik zal de tas met geld dan
hebben afgedragen aan het bureau van de Zentrallstelle. Daarna
In verband met privacywetgeving is deze afbeelding uit de presentatie
gelaten
bracht naar het politiebureau te Koog aan de Zaan. Tijdens hun
overbrenging door ons van de bewuste wonina.naar het nolitiehure�
hebben wij die Joodse man en vrouw nie� gedreigd met te zullen
schieten, indien zij zouden pogen te**öhtvluchten. Als anders
wordt verklaard, dan is dat onjuist.
In verband met privacywetgeving is deze afbeelding uit de presentatie
gelaten
Gemiddeld, 81,95% word accuracy rate
(volgorde onafhankelijk)
Naam en voornamen: #achternaam#,#voornaam# Geboortep!aats en-datum: Zaandam, 29
October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats
en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te
Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche
personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D.
Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van
Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens
overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik,
optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het
Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A
Domeinspecifieke woorden: bewaring, agent van Politie, Persoonsbewijs, vijand, joodsche goederen, verdachte,
verdacht, Mode! A, in dienst was getreden
Personen: #achternaam#, #voornaam#, joodsche personen, Nederlander, Chef Opsporingsdienst D.P.M.
Organisaties: S.D., Opsporingsdienst D.P.M., Lippmann en Rosenthal, afdeeling joodsche zaken te Amsterdam, P.O.D.
Geografische lokatie: Zaandam, Kanaalstraat 25 II Amsterdam, Amsterdam, Huis van Bewaring, Leeuwarden
Datum : 29 October 1897, 28 Mei 1945
Bovenstaand voorbeeld is fictief
5. Post-correctie
• Named entity recognition; herkennen en eventueel verbeteren van
persoonsnamen, geografische termen, namen van organisaties,
datum en tijd, overige belangrijke termen
• Getest met FROG- en TICCL-software op ge-OCR’de bestanden
• Gold standard niet aligned dus metingen zijn indicatief
Voorbeeld Gold Standard-annotatie
• P.O.D.@B@ORG
• District@I@
• Gro�ngen.@I@LOC-C
• telex@O@
• was@O@
• reeds@O@
• vern�eld@O@
• zodat@O@
• een@O@
• melding@O@
• van@O@
• #achternaam#@B@PER
Voorbeeld Gold Standard-annotatie
• P.O.D.@B@ORG
• District@I@
• Gron�gen.@I@LOC-C
• #achternaam#@B@PER
Voorbeeld FROG-annotatie 1
Regel 1 FROG: P.o. loc GS: P.O.D.@B@ORG District@I@
Groningen.@I@LOC-C
Regel 2 FROG: Groningen loc GS: #achternaam#@B@PER
….
Regel 12 FROG: 12 #achternaam# loc GS grenspolitiebeambte@B@MISC
Voorbeeld FROG-annotatie 2
• SUMCLASS: dat ANNOT: 7
• SUMCLASS: eve ANNOT:
• SUMCLASS: loc 19 ANNOT: 22
• SUMCLASS: misc 13 ANNOT: 6
• SUMCLASS: org 4 ANNOT: 3
• SUMCLASS: per 15 ANNOT: 21
• SUMCLASS: pro 2 ANNOT:
• SUM: total 53 ANNOT: 59
Postcorrectie met bestaande lijsten
• Geografie: Westerbora, Wester- 6^ Börk, Imsterdam, Sittara, Joasene
Scnouwbarg, Pen Helder, Ulterwaardestraat AMSTERDAM.
• Organisaties: Zentrallstelle f&r jEdische Auswanderung,
Bevolkiageregiêter
• Namen: HENNEIOKE, CHRISTCF^EL, LEOPüLD
• Datum: t943, 25 Ootober 1545, 2 October l9ü6
• Woorden: <olshorloge, recnercneur
• WO2-woorden: volkagonoo- ten, gédëpUrteerd, gevwgenan, die JGdin
Sophie, cndorgc oko&
• Ook spellingsfouten in origineel verbeteren?
5. Post-correctie: conclusies
• Named entities uit ground truth lijken goed tot zeer goed herkend te
worden door de software
• Hoe beter de OCR, hoe beter de NER
• Verbeteringen:
1. Doorontwikkeling NER-tools zoals TICCL en FROG
2. Domeinspecifieke training van TICCL en FROG
3. Inzet andere postcorrectie-tools zoals Heideltime
Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
Ja het is zinvol.
Kansen: automatisch sorteren
In verband met privacywetgeving is deze afbeelding uit de presentatie
gelaten
Kansen!
• Onderzoek: doorzoekbaar tot documentniveau, nieuwe
onderzoeksvragen, grootschalig vergelijkend onderzoek,
statistische analyses, etc etc
• Collectie-ontsluiting: koppeling met andere informatiebronnen!
Project thesaurus WO2 Project Geocoding
Project personenportal WO2 Project open data WO2
www.oorlogsbronnen.nl
www.nationaalarchief.nl

More Related Content

More from Netwerk Oorlogsbronnen

Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Netwerk Oorlogsbronnen
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Netwerk Oorlogsbronnen
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalNetwerk Oorlogsbronnen
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenNetwerk Oorlogsbronnen
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Netwerk Oorlogsbronnen
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Netwerk Oorlogsbronnen
 
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Netwerk Oorlogsbronnen
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Netwerk Oorlogsbronnen
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...Netwerk Oorlogsbronnen
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019Netwerk Oorlogsbronnen
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Netwerk Oorlogsbronnen
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Netwerk Oorlogsbronnen
 
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomHet succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomNetwerk Oorlogsbronnen
 
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno LansWikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno LansNetwerk Oorlogsbronnen
 
Open data rechten en plichten | Workshop Open Data WO2 | Maarten Zeinstra
Open data rechten en plichten | Workshop Open Data WO2 | Maarten ZeinstraOpen data rechten en plichten | Workshop Open Data WO2 | Maarten Zeinstra
Open data rechten en plichten | Workshop Open Data WO2 | Maarten ZeinstraNetwerk Oorlogsbronnen
 
Het WO2 Open Data Depot | Workshop Open Data WO2 | Janneke Jorna
Het WO2 Open Data Depot | Workshop Open Data WO2 | Janneke JornaHet WO2 Open Data Depot | Workshop Open Data WO2 | Janneke Jorna
Het WO2 Open Data Depot | Workshop Open Data WO2 | Janneke JornaNetwerk Oorlogsbronnen
 
Beeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd Blom
Beeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd BlomBeeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd Blom
Beeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd BlomNetwerk Oorlogsbronnen
 
De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...
De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...
De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...Netwerk Oorlogsbronnen
 

More from Netwerk Oorlogsbronnen (20)

Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de Vooren
 
Van archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin KlijnVan archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin Klijn
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
 
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
 
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomHet succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
 
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno LansWikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
 
Open data rechten en plichten | Workshop Open Data WO2 | Maarten Zeinstra
Open data rechten en plichten | Workshop Open Data WO2 | Maarten ZeinstraOpen data rechten en plichten | Workshop Open Data WO2 | Maarten Zeinstra
Open data rechten en plichten | Workshop Open Data WO2 | Maarten Zeinstra
 
Het WO2 Open Data Depot | Workshop Open Data WO2 | Janneke Jorna
Het WO2 Open Data Depot | Workshop Open Data WO2 | Janneke JornaHet WO2 Open Data Depot | Workshop Open Data WO2 | Janneke Jorna
Het WO2 Open Data Depot | Workshop Open Data WO2 | Janneke Jorna
 
Beeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd Blom
Beeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd BlomBeeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd Blom
Beeld en Geluid in het publieke domein | Workshop Open Data WO2 | Ruurd Blom
 
De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...
De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...
De (Her)inrichting van Herinneringscentra | Sessie 3 | Herinrichting NM Kamp ...
 

Volautomatische archiefontsluiting | Edwin Klijn & Anne Gorter

  • 1. Project Volautomatische archiefontsluiting Anne Gorter (Nationaal Archief), Edwin Klijn (Netwerk Oorlogsbronnen) Studiedag Googelen in archieven, 13 oktober 2016
  • 2. Onderzoeksteam • Rafael Carrasco, Isabel Martínez (IMPACT Centre of Competence) • Martin Reynaert (Centre for Language and Speech Technology, Nijmegen) • Anne Gorter, Liesbeth Keijser, Joop Korswagen (Nationaal Archief) • Edwin Klijn (Netwerk Oorlogsbronnen)
  • 3. Doel • In hoeverre is het zinvol om getypte of hybride archiefdocumenten te OCR’en en nader toegankelijk te maken met “named entity recognition”-tools? • Met welke settings krijg je de beste OCR? • Meten, meten, meten • Volautomatisch • Uitgangspunt: proven technology (Abbyy Finereader 11 SDK, TICCL/FROG) • Eindrapport met conclusie en aanbevelingen
  • 4. Ontsluiting op DOCUMENT-niveau In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 5. Stappen 3. Voorbewerking 4. Transcriptie (OCR of HTR) Machineleesbaar document 5. Postcorrectie Origineel document 2. Scannen 1. Selectie
  • 6. 1. Selectie testset • 89 scans • Centraal Archief Bijzondere Rechtspleging • Geen gewogen representatieve selectie • Verschillende soorten papier (doorslag, origineel) • Blauwe/paarse tekst, doorgestreept, formulieren • “Blurry” tekst • Tekst in kolommen
  • 7. 2. Scannen • 300 ppi kleur, NA-specs • Getest met verschillende achtergronden (wit, grijs, zwart, in context) • Zwarte achtergrond geeft beste OCR-resultaat
  • 8. 3. Voorbewerking • Getest met verschillende tools • Beste workflow: 1. deskewing 2. border removal 3. OCR • Geen binarisation!
  • 9. 4. Transcriptie (OCR) • Getest met verschillende versies van Abbyy Finereader • Abbyy FR 11 SDK geeft betere resultaten dan FR 12 Pro • Input van externe woordenboeken (Geonames, INL Gazetteers) geeft geen beter resultaat
  • 10. Word Accuracy Rate (ongewogen)
  • 11. Word accuracy rates (gewogen) • 81,06% word accuracy rate (volgorde onafhankelijk, “bag of words”) • 75,95% word accuracy rate (volgorde afhankelijk)
  • 12. Waar houdt OCR-software niet van? • Doorslagen • Tabellen, kolommen, complexe lay-out • Handgeschreven notities in de tekst • 1’tjes en I’tjes en l’tjes • Onregelmatige inktdikte van tekst • Weinig contrast achtergrond en tekst
  • 13. Grootste mislukking: 0% word accuracy rate (volgorde onafhankelijk) . 6AA^y X^ 7* ^4, .- /^-/<9 - 4^^. TV V ' *"' ^ ^ ^^ 4<*?-7. G GKONiNgEi^ * Qi<^ - %%^ -?%. 'j?4 . /<n^- jy? / In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 14. Ook slecht: 0% herkend In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 15. Slecht 1 In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 16. Slecht: 52,86% word accuracy rate (volgorde onafhankelijk) bebendald.Deze lljaten werden ingaleverd bij do Ohef van de SBDoze Hoekte hiervan een doorlopende 11 jat en met diana advlaa ging de 11 jat naar da Be* fahlehaber dor Slchar&eltddlenat.Deze beellate dan wat ar set de pevanpanen soaat gebeuren*ongeveer vier weken voor do atrijd om Groningen bevonden aldh neg vereehlllende arrestanten ia het Halo van Bewaring te 9roalagen.ock hier In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 17. Slecht: een bloemlezing In verband met privacywetgeving zijn deze afbeeldingen uit de presentatie gelaten
  • 18. Waar houdt OCR-software wel van? • Eenvoudige lay-out (portret, geen tabellen of kolommen) • Tekst met een gelijkmatige inktdikte • Duidelijk contrast tussen tekstgebieden en lichte achtergrond • Rechte tekstregels • Ruimte tussen de woorden
  • 19. Koploper: 98,31% word accuracy rate (volgorde onafhankelijk) zich ophield. Mijn zuster deelde mij mede, dat deze man de volgen( de Maandag zou terugkomen. Ik ben toen Maandags naar de woning van mijn zuster gegaan. Ik bevond mij in de woning van mijn zus ter, toen volgens mijn zuster, de zelfde persoon, die enige dagen terag aan haar woning was geweest, zich daar vervoegde. Mijn zus� ter heeft deze man toen aan de deur van haar woning te woord ge In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 20. Ook goed: 97,97% word accuracy rate (volgorde onafhankelijk) Om omstreeks zes uur die avond kwam de dochter van de bewoonster thuis. Ik herinner mij niet, dat deze van ons de opdracht kreeg op de divan in de huiskamer te gaan zitten en, dat wij haar hebben verboden het huis te verlaten, om een brief te posten. Kort daarna kwam de Joodse persoon, dus de man van de Joodse vrouw thuis. Ik herinner mij niet meer, dat ik van deze Joodse man een actetas, inhoudende een paar duizend gulden heb in beslag genomen. Dit is echter mogelijk en ik zal de tas met geld dan hebben afgedragen aan het bureau van de Zentrallstelle. Daarna In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 21. bracht naar het politiebureau te Koog aan de Zaan. Tijdens hun overbrenging door ons van de bewuste wonina.naar het nolitiehure� hebben wij die Joodse man en vrouw nie� gedreigd met te zullen schieten, indien zij zouden pogen te**öhtvluchten. Als anders wordt verklaard, dan is dat onjuist. In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 22. Gemiddeld, 81,95% word accuracy rate (volgorde onafhankelijk) Naam en voornamen: #achternaam#,#voornaam# Geboortep!aats en-datum: Zaandam, 29 October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D. Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik, optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A Domeinspecifieke woorden: bewaring, agent van Politie, Persoonsbewijs, vijand, joodsche goederen, verdachte, verdacht, Mode! A, in dienst was getreden Personen: #achternaam#, #voornaam#, joodsche personen, Nederlander, Chef Opsporingsdienst D.P.M. Organisaties: S.D., Opsporingsdienst D.P.M., Lippmann en Rosenthal, afdeeling joodsche zaken te Amsterdam, P.O.D. Geografische lokatie: Zaandam, Kanaalstraat 25 II Amsterdam, Amsterdam, Huis van Bewaring, Leeuwarden Datum : 29 October 1897, 28 Mei 1945 Bovenstaand voorbeeld is fictief
  • 23. 5. Post-correctie • Named entity recognition; herkennen en eventueel verbeteren van persoonsnamen, geografische termen, namen van organisaties, datum en tijd, overige belangrijke termen • Getest met FROG- en TICCL-software op ge-OCR’de bestanden • Gold standard niet aligned dus metingen zijn indicatief
  • 24. Voorbeeld Gold Standard-annotatie • P.O.D.@B@ORG • District@I@ • Gro�ngen.@I@LOC-C • telex@O@ • was@O@ • reeds@O@ • vern�eld@O@ • zodat@O@ • een@O@ • melding@O@ • van@O@ • #achternaam#@B@PER
  • 25. Voorbeeld Gold Standard-annotatie • P.O.D.@B@ORG • District@I@ • Gron�gen.@I@LOC-C • #achternaam#@B@PER
  • 26. Voorbeeld FROG-annotatie 1 Regel 1 FROG: P.o. loc GS: P.O.D.@B@ORG District@I@ Groningen.@I@LOC-C Regel 2 FROG: Groningen loc GS: #achternaam#@B@PER …. Regel 12 FROG: 12 #achternaam# loc GS grenspolitiebeambte@B@MISC
  • 27. Voorbeeld FROG-annotatie 2 • SUMCLASS: dat ANNOT: 7 • SUMCLASS: eve ANNOT: • SUMCLASS: loc 19 ANNOT: 22 • SUMCLASS: misc 13 ANNOT: 6 • SUMCLASS: org 4 ANNOT: 3 • SUMCLASS: per 15 ANNOT: 21 • SUMCLASS: pro 2 ANNOT: • SUM: total 53 ANNOT: 59
  • 28.
  • 29. Postcorrectie met bestaande lijsten • Geografie: Westerbora, Wester- 6^ Börk, Imsterdam, Sittara, Joasene Scnouwbarg, Pen Helder, Ulterwaardestraat AMSTERDAM. • Organisaties: Zentrallstelle f&r jEdische Auswanderung, Bevolkiageregiêter • Namen: HENNEIOKE, CHRISTCF^EL, LEOPüLD • Datum: t943, 25 Ootober 1545, 2 October l9ü6 • Woorden: <olshorloge, recnercneur • WO2-woorden: volkagonoo- ten, gédëpUrteerd, gevwgenan, die JGdin Sophie, cndorgc oko& • Ook spellingsfouten in origineel verbeteren?
  • 30. 5. Post-correctie: conclusies • Named entities uit ground truth lijken goed tot zeer goed herkend te worden door de software • Hoe beter de OCR, hoe beter de NER • Verbeteringen: 1. Doorontwikkeling NER-tools zoals TICCL en FROG 2. Domeinspecifieke training van TICCL en FROG 3. Inzet andere postcorrectie-tools zoals Heideltime
  • 31. Algemene conclusie In hoeverre is het zinvol om getypte of hybride archiefdocumenten te OCR’en en nader toegankelijk te maken met “named entity recognition”- tools?
  • 32. Algemene conclusie In hoeverre is het zinvol om getypte of hybride archiefdocumenten te OCR’en en nader toegankelijk te maken met “named entity recognition”- tools? Ja het is zinvol.
  • 33. Kansen: automatisch sorteren In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
  • 34. Kansen! • Onderzoek: doorzoekbaar tot documentniveau, nieuwe onderzoeksvragen, grootschalig vergelijkend onderzoek, statistische analyses, etc etc • Collectie-ontsluiting: koppeling met andere informatiebronnen!
  • 35.
  • 36. Project thesaurus WO2 Project Geocoding Project personenportal WO2 Project open data WO2