Presentatie van het project 'Volautomatische archiefontsluiting' tijdens de studiedag Googelen door archieven op 13 oktober 2016 bij het Nationaal Archief.
2. Onderzoeksteam
• Rafael Carrasco, Isabel Martínez (IMPACT Centre of Competence)
• Martin Reynaert (Centre for Language and Speech Technology,
Nijmegen)
• Anne Gorter, Liesbeth Keijser, Joop Korswagen (Nationaal Archief)
• Edwin Klijn (Netwerk Oorlogsbronnen)
3. Doel
• In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity
recognition”-tools?
• Met welke settings krijg je de beste OCR?
• Meten, meten, meten
• Volautomatisch
• Uitgangspunt: proven technology (Abbyy Finereader 11 SDK,
TICCL/FROG)
• Eindrapport met conclusie en aanbevelingen
6. 1. Selectie testset
• 89 scans
• Centraal Archief Bijzondere Rechtspleging
• Geen gewogen representatieve selectie
• Verschillende soorten papier (doorslag, origineel)
• Blauwe/paarse tekst, doorgestreept, formulieren
• “Blurry” tekst
• Tekst in kolommen
7. 2. Scannen
• 300 ppi kleur, NA-specs
• Getest met verschillende achtergronden (wit, grijs, zwart, in context)
• Zwarte achtergrond geeft beste OCR-resultaat
8. 3. Voorbewerking
• Getest met verschillende tools
• Beste workflow:
1. deskewing
2. border removal
3. OCR
• Geen binarisation!
9. 4. Transcriptie (OCR)
• Getest met verschillende versies van Abbyy Finereader
• Abbyy FR 11 SDK geeft betere resultaten dan FR 12 Pro
• Input van externe woordenboeken (Geonames, INL Gazetteers) geeft
geen beter resultaat
11. Word accuracy rates (gewogen)
• 81,06% word accuracy rate (volgorde onafhankelijk, “bag of words”)
• 75,95% word accuracy rate (volgorde afhankelijk)
12. Waar houdt OCR-software niet van?
• Doorslagen
• Tabellen, kolommen, complexe lay-out
• Handgeschreven notities in de tekst
• 1’tjes en I’tjes en l’tjes
• Onregelmatige inktdikte van tekst
• Weinig contrast achtergrond en tekst
13. Grootste mislukking: 0% word accuracy
rate (volgorde onafhankelijk)
. 6AA^y X^ 7* ^4, .- /^-/<9 - 4^^. TV V ' *"' ^ ^ ^^ 4<*?-7. G
GKONiNgEi^ * Qi<^ - %%^ -?%. 'j?4 . /<n^- jy? /
In verband met privacywetgeving is deze afbeelding uit
de presentatie gelaten
14. Ook slecht: 0% herkend
In verband met privacywetgeving is deze afbeelding
uit de presentatie gelaten
16. Slecht: 52,86% word accuracy rate
(volgorde onafhankelijk)
bebendald.Deze lljaten werden ingaleverd bij do Ohef van de SBDoze Hoekte
hiervan een doorlopende 11 jat en met diana advlaa ging de 11 jat naar da Be*
fahlehaber dor Slchar&eltddlenat.Deze beellate dan wat ar set de pevanpanen
soaat gebeuren*ongeveer vier weken voor do atrijd om Groningen bevonden aldh
neg vereehlllende arrestanten ia het Halo van Bewaring te 9roalagen.ock hier
In verband met privacywetgeving is deze afbeelding uit de presentatie gelaten
17. Slecht: een bloemlezing
In verband met privacywetgeving zijn deze afbeeldingen uit de
presentatie gelaten
18. Waar houdt OCR-software wel van?
• Eenvoudige lay-out (portret, geen tabellen of kolommen)
• Tekst met een gelijkmatige inktdikte
• Duidelijk contrast tussen tekstgebieden en lichte achtergrond
• Rechte tekstregels
• Ruimte tussen de woorden
19. Koploper: 98,31% word accuracy rate
(volgorde onafhankelijk)
zich ophield. Mijn zuster deelde mij mede, dat deze man de volgen(
de Maandag zou terugkomen. Ik ben toen Maandags naar de woning
van mijn zuster gegaan. Ik bevond mij in de woning van mijn zus
ter, toen volgens mijn zuster, de zelfde persoon, die enige dagen
terag aan haar woning was geweest, zich daar vervoegde. Mijn zus�
ter heeft deze man toen aan de deur van haar woning te woord ge
In verband met privacywetgeving is deze afbeelding uit de presentatie
gelaten
20. Ook goed: 97,97% word accuracy rate
(volgorde onafhankelijk)
Om omstreeks zes uur die avond kwam de dochter van de bewoonster
thuis. Ik herinner mij niet, dat deze van ons de opdracht kreeg
op de divan in de huiskamer te gaan zitten en, dat wij haar
hebben verboden het huis te verlaten, om een brief te posten.
Kort daarna kwam de Joodse persoon, dus de man van de Joodse
vrouw thuis. Ik herinner mij niet meer, dat ik van deze Joodse
man een actetas, inhoudende een paar duizend gulden heb in beslag
genomen. Dit is echter mogelijk en ik zal de tas met geld dan
hebben afgedragen aan het bureau van de Zentrallstelle. Daarna
In verband met privacywetgeving is deze afbeelding uit de presentatie
gelaten
21. bracht naar het politiebureau te Koog aan de Zaan. Tijdens hun
overbrenging door ons van de bewuste wonina.naar het nolitiehure�
hebben wij die Joodse man en vrouw nie� gedreigd met te zullen
schieten, indien zij zouden pogen te**öhtvluchten. Als anders
wordt verklaard, dan is dat onjuist.
In verband met privacywetgeving is deze afbeelding uit de presentatie
gelaten
22. Gemiddeld, 81,95% word accuracy rate
(volgorde onafhankelijk)
Naam en voornamen: #achternaam#,#voornaam# Geboortep!aats en-datum: Zaandam, 29
October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats
en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te
Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche
personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D.
Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van
Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens
overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik,
optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het
Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A
Domeinspecifieke woorden: bewaring, agent van Politie, Persoonsbewijs, vijand, joodsche goederen, verdachte,
verdacht, Mode! A, in dienst was getreden
Personen: #achternaam#, #voornaam#, joodsche personen, Nederlander, Chef Opsporingsdienst D.P.M.
Organisaties: S.D., Opsporingsdienst D.P.M., Lippmann en Rosenthal, afdeeling joodsche zaken te Amsterdam, P.O.D.
Geografische lokatie: Zaandam, Kanaalstraat 25 II Amsterdam, Amsterdam, Huis van Bewaring, Leeuwarden
Datum : 29 October 1897, 28 Mei 1945
Bovenstaand voorbeeld is fictief
23. 5. Post-correctie
• Named entity recognition; herkennen en eventueel verbeteren van
persoonsnamen, geografische termen, namen van organisaties,
datum en tijd, overige belangrijke termen
• Getest met FROG- en TICCL-software op ge-OCR’de bestanden
• Gold standard niet aligned dus metingen zijn indicatief
26. Voorbeeld FROG-annotatie 1
Regel 1 FROG: P.o. loc GS: P.O.D.@B@ORG District@I@
Groningen.@I@LOC-C
Regel 2 FROG: Groningen loc GS: #achternaam#@B@PER
….
Regel 12 FROG: 12 #achternaam# loc GS grenspolitiebeambte@B@MISC
27. Voorbeeld FROG-annotatie 2
• SUMCLASS: dat ANNOT: 7
• SUMCLASS: eve ANNOT:
• SUMCLASS: loc 19 ANNOT: 22
• SUMCLASS: misc 13 ANNOT: 6
• SUMCLASS: org 4 ANNOT: 3
• SUMCLASS: per 15 ANNOT: 21
• SUMCLASS: pro 2 ANNOT:
• SUM: total 53 ANNOT: 59
30. 5. Post-correctie: conclusies
• Named entities uit ground truth lijken goed tot zeer goed herkend te
worden door de software
• Hoe beter de OCR, hoe beter de NER
• Verbeteringen:
1. Doorontwikkeling NER-tools zoals TICCL en FROG
2. Domeinspecifieke training van TICCL en FROG
3. Inzet andere postcorrectie-tools zoals Heideltime
31. Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
32. Algemene conclusie
In hoeverre is het zinvol om getypte of hybride archiefdocumenten te
OCR’en en nader toegankelijk te maken met “named entity recognition”-
tools?
Ja het is zinvol.