SlideShare a Scribd company logo
1 of 41
Download to read offline
KWALITEITSCONTROLE
BIJ DIGITALISERING VAN
KRANTEN
Tuur Van Hove
Rony Vissers (PACKED vzw)
17/09/2015
KWALITEITSCONTROLE
§ vooral gebaseerd op ervaringen project Nieuws van de Groote
Oorlog
§ aangevuld met ervaringen andere digitaliseringsprojecten
§ Nieuws van de Groote Oorlog
§  initiatief: VIAA, Vlaamse Erfgoedbibliotheek, FARO en PACKED vzw
§  digitalisering van frontpers WO1
§  bijzondere aandacht voor zogenaamde frontblaadjes
§  looptijd: 2013 - 2015
§  270.000 krantenpagina’s, uit 1.000-tal unieke titels en 52.000 verschillende
edities
§  online toegankelijk via https://hetarchief.be/
§  (plus 90 000 krantenpagina’s uit 1914-1918 van CegeSoma, Studie- en
Documentatiecentrum Oorlog en Hedendaagse Maatschappij)
2
NIEUWS VAN DE GROOTE OORLOG
3
NIEUWS VAN DE GROOTE OORLOG
4
WAT IS KWALITEITSCONTROLE?
§ integraal onderdeel van digitaliseringsproject
§ verifieert of opgeleverde digitale bestanden
§  kwaliteit hebben die beantwoordt aan vooropgestelde eisen
§  geschikt zijn voor opname in digitale archief voor langetermijnbewaring
(archiveringsbestanden)
§  geschikt zijn voor gewenste vormen van ontsluiting
(raadplegingsbestanden)
§ ook belangrijk voor afronden betaling bij uitbesteding
§ veronderstelt vooropgestelde kwaliteitseisen (lastenboek)
§ kan gedeeltelijk manueel / geautomatiseerd gebeuren
§ wordt vaak verwaarloosd: vereist mankracht, kennis, tools en tijd!
5
UITGEBREID PROCES
§ zijn ontvangen bestanden virusvrij?
§ is alle materiaal gedigitaliseerd? zijn alle bestanden opgeleverd?
§ zijn alle ontvangen bestanden identiek aan die werden verstuurd?
§ dragen mappen en bestanden correcte benaming?
§ is bestandsformaat juist en valide?
§ beantwoorden alle bestanden aan vooropgestelde kwaliteitseisen
(digitaliserinsgparameters)?
§ hebben alle bestanden gepaste metadata?
§ beantwoordt kwaliteit van OCR-tekst aan verwachtingen?
6
VIRUSCONTROLE
§ zijn ontvangen bestanden virusvrij?
§ zeker belangrijk wanneer digitalisering extern gebeurt
§ vereist:
§  bijgewerkte anti-virussoftware
§  computer losgekoppeld van intern netwerk, maar met mogelijkheid tot
aansluiting op internet (voor update software)
§ best twee keer uitgevoerd, gemiddeld met maand tussenin
(updates antivirusdefinities)
§ tussen twee anti-viruscontroles wel andere kwaliteitscontroles op
bestanden, maar ze moeten in ‘quarantaine’ blijven
7
CONTROLE OP VOLLEDIGHEID
§ is alle geselecteerde (kranten)materiaal terug ontvangen en
gedigitaliseerd?
§ zijn alle digitale bestanden aanwezig:
§  moederbestanden / archiveringsbestanden?
§  afgeleide bestanden / raadplegingsbestanden?
§  metadata (ingebed, METS XML)?
§  OCR
§ uitgangspunt: lastenboek en lijst te digitaliseren materiaal
§ manueel of geautomatiseerd
8
CONTROLE OP VOLLEDIGHEID
§ VIAA:
§  gebruik van PIDs, ook te digitaliseren materiaal wordt vooraf geregistreerd
in databank
§  nadien geautomatiseerde vergelijking van geregistreerde PID’s met
gearchiveerde PID’s
§ alternatief: voor elke batch CSV-bestand vragen
§  inventarisnummer te digitaliseren object
§  bestandsnaam moederbestand / archiveringsbestand
§  netwerkpad van moederbestand / archiveringsbestand
§  MD5-checksum moederbestand / archiveringsbestand
§  bestandsnaam afgeleide bestand / raadplegingsbestand
§  netwerkpad van afgeleide bestand / raadplegingsbestand
§  MD5-checksum afgeleide bestand / raadplegingsbestand
9
INTEGRITEITSCONTROLE
§ geen corrupte digitale bestanden? controle van integriteit van
bestand (bitintegriteit)
§ waarom? uitsluiten dat bij verzending over netwerk of bij kopiëren
iets is misgelopen
§ controle m.b.v. checksums of controlegetal
§  unieke code berekend op waarde (bv. ander getal of bitstream)
§  herhaalde berekening maakt duidelijk of oorspronkelijke waarde is
gewijzigd
§  (laatste 2 cijfers van Belgische bankrekeningnummers en laatste cijfer van
ISBN-nummer zijn controlegetallen)
10
INTEGRITEITSCONTROLE
§ bitintegriteit vaak gecontroleerd m.b.v. MD5-checksum
11
INTEGRITEITSCONTROLE
§ nodig:
§  ontvangen lijst met checksums
§  software voor berekenen checksums (bv. Checksum Checker, Fsum
Frontend, Jacksum, Fixity)
§ VIAA:
§  MD5-checksums in METS XML-bestand
12
CONTROLE NAMEN MAPPEN EN
BESTANDEN
§ uitgangspunt: voorschriften in het lastenboek
§  Revue de la Mode (1899), no.3 >>> RM_1899_03_001.tif
§ hoofdzakelijk manuele controle
§ elk bestand uniek identificeren
§ enkel letters, cijfers, liggend streepje ( _ underscore) of
koppelteken (- "hyphen”)
§ vermijd speciale tekens zoals bv. haakjes, streepjes en
leestekens, alsook diakritische tekens (accenten, trema's).
§ betekenisloze structuur of betekenisvolle structuur met zo beperkt
mogelijk aantal onderdelen (bv. identificatienummer
tekstdocument + volgnummer pagina)
13
CONTROLE NAMEN MAPPEN EN
BESTANDEN
§ kan worden achterhaald welke digitale bestanden
overeenstemmen met de analoge originelen?
§ is samenhang tussen digitale bestanden en analoge originelen
helder?
§ zijn metadata en de gedigitaliseerde documenten op logische
wijze aan elkaar gerelateerd?
§ zijn bestandsnamen van digitale bestanden voorzien zijn van
correcte extensies?
§ VIAA:
§  bij ingest validatie bestandsnamen aan hand van registratiegevens in AMS
database
§  gebruik van PIDs (in elk VIAA-platform voor identificatie assets)
14
CONTROLE BESTANDSFORMAAT
§ zijn bestanden in gevraagde bestandsformaat aangeleverd?
§ dient systematisch en voor alle aangeleverde bestanden te
gebeuren
§ onderscheid tussen bestandsidentificatie en bestandsvalidatie
§  bestandsidentificatie: exact vaststellen van type en versie van
bestandsformaat van digitaal bestand, bv. DROID, EXIFTOOL, FITS
§  bestandsvalidatie: vaststellen of de inhoud en structuur van bestand
beantwoorden aan eisen gesteld in specificatie van bestandsformaat, bv.
JHOVE2
§ bestandsvalidatie is niet evident omdat JHOVE2 niet altijd
voldoet, ook afwijking tussen JHOVE2 v2.0 en JHOVE v2.1
15
CONTROLE BESTANDSFORMAAT
§ VIAA:
§  wel bestandsidentificatie maar geen bestandsvalidatie (JPLYZER,
FFPROBE en EXIFTOOL)
§  PACKED: bestandsvalidatie op ong. 12.000 TIFF-bestanden (JHOVE2:
Uncompressed Baseline IBM TIFF v6.0 RGB)
16
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ uitgangspunt is lastenboek
§ bepalen van exacte digitaliseringsparameters is specialistenwerk
> teruggrijpen naar bestaande richtlijnen, bv. Metamorfoze of
FADGI
§ parameters hebben betrekking op bv. belichting, witbalans,
opnameresolutie en scherpte
§ stellen technische kwaliteit vast waaraan opgeleverde
reproducties moeten voldoen
§ technische controle na ontvangst: nagaan of minimale parameters
werden gerespecteerd
17
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
18
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ VIAA:
§  lastenboek VIAA: Metamorfoze Light
> bepaalt reeks te meten waarden, maar ook gebruik testkaarten (welke
en wanneer)
§  praktijk VIAA: Metamorfoze Extra Light, geen testkaart per individuele
opname > wegknippen testkaart in raadplegingsbestand niet voorzien in
workflow
§  kwaliteitscontrole op punt gesteld tijdens testfase
§  cruciaal: zowel meetwaarden afspreken als welke testkaarten moeten
worden gebruikt, wanneer en ook hoe ze te meten
§ Metamorfoze legt uit welke testkaarten hoe en wanneer te
gebruiken, hoe ze te meten en welke meetwaarden dit moet
opleveren
19
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ gebruik testkaarten op drie momenten:
§  bij opstart project bij instellen van camera / scanner
§  bij begin van elke dag of ploegwissel om te verifiëren of camera /scanner
nog goed ingesteld staat
§  bij eigenlijke opname van originelen
§  (tijdens testfase controle van eerste; tijdens / na project tweede (en
eventueel derde))
§ twee types testkaarten:
§  testkaarten voor controleren witbalans, belichting, uitlichting,
contrastoverdracht en ruis: Digital ColorChecker SG, Kodak of Tiffen Gray
Scale (Q-13), (egaal) wit stuk karton
§  testkaarten voor controleren van opnameresolutie, scherpte, verscherping
en geometrische vervorming: QA-62-SFR-P-RP en de QA-2
20
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ benodigde software: Adobe Photoshop CC, Imcheck 3v8 en IQ
Analyzer V5.2.17
§  enkel Imcheck is gratis open source sofware
§ controle:
§  witbalans
§  belichtingstolerantie
§  gain modulation (in de hoge lichten)
§  uitlichting
§  ruis
§  kleurnauwkeurigheid
§  gebruikte testkaarten: Digital ColorChecker SG en Kodak / Tiffen Gray
Scale (Q-13) en (egaal) wit stuk karton
§  gebruikte software: Adobe Photoshop CC, Imcheck 3v8 en IQ Analyzer
V5.2.17
21
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
22
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
23
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
24
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
25
Venster – info (F8)
Pipet 11 x 11 pixels
Vakjes aflopen – 2 onderste negeren,
worden niet meegenomen voor
Metamorfoze Light – met pipet in
midden van vakje en RGB waarden in
Excel invullen
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
26
Venster – histogram – uitgebreide
weergave
Selecteerraster
Vakjes aflopen met selecteerraster en
Standaard deviatie (Std. Deviatie)
waarde in Excel invullen
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ controle:
§  vereiste sampling rate
§  verschil tussen claimed sampling rate en obtained sampling rate
§  Sampling Efficiency, horizontaal en verticaal
§  MTF50, horizontaal en verticaal
§  maximale modulatie
§  kleurmisregistratie per kleurkanaal
§  gebruikte testkaarten: QA-62-SFR-P-RP en QA-2
§  gebruikte software: Imcheck 3v8
27
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
28
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
29
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
30
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
31
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ controle:
§  geometrische vervorming
§  gebruikte testkaarten: QA-2
§  gebruikte software: Adobe Photoshop CC
§ controle:
§  andere artefacten
§  visuele inspectie
§ lessons learnt:
§  vereist medewerker die zich hierin bekwaamd
§  vereist veel tijd: ongeveer dag voor week productie
§  belangrijk: niet te wachten tot op einde van project, maar regelmatige
oplevering af te spreken en dan meteen te controleren
32
CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ more lessons learnt:
§  opdrachtnemer zelf verplichten tot kwaliteitscontrole en dwingen resultaten
samen met bestanden aan te leveren > maar er niet op vetrouwen!
§  indien testresultaat onbevredigend blijkt, volledige batch afkeuren
§  door controle worden schommelingen in kwaliteit beperkt / vermeden
§  afwijkende resultaten als andere softwareversies worden gebruikt
§  op voorhand afspreken wat referentiewaarden zijn: theoretische waarden
opgelijst in Metamorfoze, of waarden die fabrikant van testkaart meelevert?
§  belangrijk dat gebruikte testkaarten in goede staat zijn
§  opname testkaart per batch is louter indicatief voor kwaliteit individuele
opname
§  ook visuele inspectie van individuele opnamen vereist om bv. onscherpe
opname te detecteren
§  ook belangrijk om te verifiëren of opnamedatum van testkaart
welovereenkomt met die van opnamen: controle m.b.v. metadata van
opnamedatum, gebruikte camera, …
33
CONTROLE METADATA
§ ingebed in bestand zelf
§ gecodeerd in UTF-8? consistent? volledig?
§ in lastenboek formuleren welke metadata ingebed moet zijn, bv.
§  inventarisnummer
§  copyright statement
§  model en merk gebruikte scanner of camera
§  tijdstip van creatie van bestand
§  diafragma en sluitertijd (indien van toepassing)
§  kleurprofiel
§  kleurruimte
§  sampling rate (pixels per inch)
§  lengte en breedte in pixels
§  bitdiepte
§ geautomatiseerd uitlezen met bv. FITS
34
CONTROLE METADATA
§ VIAA:
§  geen controle van ingebedde metadata
§  focus op PREMIS metadata in de METS XML
§  geen controle van overeenkomst tussen PREMIS metadata en ingebedde
metadata
§  SIP (submission information package) met zip bestaande uit o.a.
archiveringsbestanden, raadplegingsbestanden, OCR-tekstbestanden
vergezeld van METS XML
§  METS XML bevat beschrijvende metadata, technische metadata en MD-5
van elke individuele reproducties, en structurele metadata
§  METS XML bevat ook informatie over verschillende stappen die tijdens
proces doorlopen werden > volgens PREMIS-standaard: stelt in staat
levenscyclus te volgen
§  METS XML met PREMIS metadata wordt gevalideerd aan hand van XSD
(XML Schema Definition) > zekerheid dat alle velden correct zijn ingevuld.
35
CONTROLE KWALITEIT OCR
§ OCR: Optical Character Recognition
§ VIAA:
§  OCR-tekst met ALTO XML Schema opgenomen in METS XML
§  ALTO = Analyzed Layout and Text Object
§  ALTO XML-bestand bevat niet alleen OCR-tekst, maar ook gegevens over
waar precies verschillende stukjes OCR-tekst moeten worden weergeven
om gestructureerde tekst van fysieke pagina’s te representeren
§  PACKED: steekproef uitgevoerd van vijftal testbestanden met
ocrevalUAtion 1.3.0: vergelijking platte tekst uit XML met ‘ground-thruth-
tekst’
§  geschatte CER (character error rate) en WER (word error rate) voor
sample
§  beste afstemming tussen ‘ground-truth-tekst’ en OCR-tekst
§  gedetailleerde statistieken over aantal fouten voor elk karakter
36
CONTROLE KWALITEIT OCR
37
CONTROLE KWALITEIT OCR
38
CONTROLE KWALITEIT OCR
§  met Quack enkele controles gedaan van ALTO XML
§  Quack: open source programma om ALTO XML-bestanden weer te geven
en te controleren
39
CONTROLE KWALITEIT OCR
40
DANK U!
Tuur Van Hove: tuur.vanhove@gmail.com
Rony Vissers: rony@packed.be

More Related Content

Similar to Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerders
Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerdersDigitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerders
Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerdersdatable_be
 
Aan de slag met archief en documentatie: Digitaliseren
Aan de slag met archief en documentatie: DigitaliserenAan de slag met archief en documentatie: Digitaliseren
Aan de slag met archief en documentatie: DigitaliserenHeemkunde Vlaanderen
 
RFID-infomarkt: Presentatie 3M
RFID-infomarkt: Presentatie 3MRFID-infomarkt: Presentatie 3M
RFID-infomarkt: Presentatie 3Mpslb pslb
 
Basisvorming digitaliseren, digitaal bewaren en online publiceren
Basisvorming digitaliseren, digitaal bewaren en online publicerenBasisvorming digitaliseren, digitaal bewaren en online publiceren
Basisvorming digitaliseren, digitaal bewaren en online publicerendatable_be
 
Kwaliteitswaarborging in scantrajecten
Kwaliteitswaarborging in scantrajectenKwaliteitswaarborging in scantrajecten
Kwaliteitswaarborging in scantrajectenMarc Holtman
 
DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...
DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...
DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...Deltares
 
Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014
Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014
Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014Luuk Danes
 
Nord Toelichting Techniek
Nord Toelichting TechniekNord Toelichting Techniek
Nord Toelichting Techniektjercus
 
Versiebeheer van database changes
Versiebeheer van database changesVersiebeheer van database changes
Versiebeheer van database changesArjen van Vliet
 
Wat is een (CAD) bestand?
Wat is een (CAD) bestand?Wat is een (CAD) bestand?
Wat is een (CAD) bestand?datable_be
 
2 watiscadbestand
2 watiscadbestand2 watiscadbestand
2 watiscadbestandfneggers
 
20180328 heemkunde digitale_preservering
20180328 heemkunde digitale_preservering20180328 heemkunde digitale_preservering
20180328 heemkunde digitale_preserveringPACKED vzw
 

Similar to Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches (20)

Opstartmoment nieuwe content partners VIAA 2018
Opstartmoment nieuwe content partners VIAA 2018Opstartmoment nieuwe content partners VIAA 2018
Opstartmoment nieuwe content partners VIAA 2018
 
Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerders
Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerdersDigitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerders
Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerders
 
Aan de slag met archief en documentatie: Digitaliseren
Aan de slag met archief en documentatie: DigitaliserenAan de slag met archief en documentatie: Digitaliseren
Aan de slag met archief en documentatie: Digitaliseren
 
RFID-infomarkt: Presentatie 3M
RFID-infomarkt: Presentatie 3MRFID-infomarkt: Presentatie 3M
RFID-infomarkt: Presentatie 3M
 
VIAA introductie 15/10/14
VIAA introductie 15/10/14VIAA introductie 15/10/14
VIAA introductie 15/10/14
 
Introductie 24/11/14
Introductie 24/11/14Introductie 24/11/14
Introductie 24/11/14
 
Debat Wegwijs in het landschap van archiefbeheersysteem
Debat Wegwijs in het landschap van archiefbeheersysteemDebat Wegwijs in het landschap van archiefbeheersysteem
Debat Wegwijs in het landschap van archiefbeheersysteem
 
Basisvorming digitaliseren, digitaal bewaren en online publiceren
Basisvorming digitaliseren, digitaal bewaren en online publicerenBasisvorming digitaliseren, digitaal bewaren en online publiceren
Basisvorming digitaliseren, digitaal bewaren en online publiceren
 
Duurzaam digitaliseren. Praktijk
Duurzaam digitaliseren. PraktijkDuurzaam digitaliseren. Praktijk
Duurzaam digitaliseren. Praktijk
 
Kwaliteitswaarborging in scantrajecten
Kwaliteitswaarborging in scantrajectenKwaliteitswaarborging in scantrajecten
Kwaliteitswaarborging in scantrajecten
 
3M
3M3M
3M
 
DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...
DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...
DSD-NL 2019 WAQUA-productieberekeningen en sommengenerator bij het SSC-Campus...
 
Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014
Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014
Correct toepassen van cryptografie - (ISC)2 NL - 10 juni 2014
 
SGS Skybase (NL) .pdf
SGS Skybase (NL) .pdfSGS Skybase (NL) .pdf
SGS Skybase (NL) .pdf
 
Nord Toelichting Techniek
Nord Toelichting TechniekNord Toelichting Techniek
Nord Toelichting Techniek
 
Versiebeheer van database changes
Versiebeheer van database changesVersiebeheer van database changes
Versiebeheer van database changes
 
Hoe bouw ik een PKI omgeving?
Hoe bouw ik een PKI omgeving?Hoe bouw ik een PKI omgeving?
Hoe bouw ik een PKI omgeving?
 
Wat is een (CAD) bestand?
Wat is een (CAD) bestand?Wat is een (CAD) bestand?
Wat is een (CAD) bestand?
 
2 watiscadbestand
2 watiscadbestand2 watiscadbestand
2 watiscadbestand
 
20180328 heemkunde digitale_preservering
20180328 heemkunde digitale_preservering20180328 heemkunde digitale_preservering
20180328 heemkunde digitale_preservering
 

More from Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD)

More from Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD) (20)

Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -
 
ChatGPT, chatboxes en het einde van de databases
ChatGPT, chatboxes en het einde van de databasesChatGPT, chatboxes en het einde van de databases
ChatGPT, chatboxes en het einde van de databases
 
Connecting libraries to EU resources
Connecting libraries to EU resourcesConnecting libraries to EU resources
Connecting libraries to EU resources
 
Ben je klaar voor innovatie?
Ben je klaar voor innovatie?Ben je klaar voor innovatie?
Ben je klaar voor innovatie?
 
Hoe maak ik mijn project impactvol?
Hoe maak ik mijn project impactvol?Hoe maak ik mijn project impactvol?
Hoe maak ik mijn project impactvol?
 
Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?
Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?
Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?
 
Netwerken bij Informatie aan Zee
Netwerken bij Informatie aan ZeeNetwerken bij Informatie aan Zee
Netwerken bij Informatie aan Zee
 
Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?
Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?
Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?
 
Waarderen van archieven
Waarderen van archievenWaarderen van archieven
Waarderen van archieven
 
Okapi2-Vlaanderen een hulp richting data driven management
Okapi2-Vlaanderen een hulp richting data driven managementOkapi2-Vlaanderen een hulp richting data driven management
Okapi2-Vlaanderen een hulp richting data driven management
 
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
 
Het gebruik van AI bij het catalogiseren van boeken in KBR
Het gebruik van AI bij het catalogiseren van boeken in KBRHet gebruik van AI bij het catalogiseren van boeken in KBR
Het gebruik van AI bij het catalogiseren van boeken in KBR
 
Data-interoperabiliteit in de praktijk
Data-interoperabiliteit in de praktijkData-interoperabiliteit in de praktijk
Data-interoperabiliteit in de praktijk
 
Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...
Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...
Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...
 
Participative Registration of Intangible Cultural Heritage on immaterieelerfg...
Participative Registration of Intangible Cultural Heritage on immaterieelerfg...Participative Registration of Intangible Cultural Heritage on immaterieelerfg...
Participative Registration of Intangible Cultural Heritage on immaterieelerfg...
 
Een MaakBib voor iedereen in elke bib
Een MaakBib voor iedereen in elke bibEen MaakBib voor iedereen in elke bib
Een MaakBib voor iedereen in elke bib
 
De bib als derde plek? Ja, selvølgelig
De bib als derde plek? Ja, selvølgeligDe bib als derde plek? Ja, selvølgelig
De bib als derde plek? Ja, selvølgelig
 
ZB Bibliotheek van Zeeland maakt het verschil
ZB Bibliotheek van Zeeland maakt het verschilZB Bibliotheek van Zeeland maakt het verschil
ZB Bibliotheek van Zeeland maakt het verschil
 
Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...
Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...
Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...
 
De bib is mens- en buurtversterkend
De bib is mens- en buurtversterkendDe bib is mens- en buurtversterkend
De bib is mens- en buurtversterkend
 

Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

  • 1. KWALITEITSCONTROLE BIJ DIGITALISERING VAN KRANTEN Tuur Van Hove Rony Vissers (PACKED vzw) 17/09/2015
  • 2. KWALITEITSCONTROLE § vooral gebaseerd op ervaringen project Nieuws van de Groote Oorlog § aangevuld met ervaringen andere digitaliseringsprojecten § Nieuws van de Groote Oorlog §  initiatief: VIAA, Vlaamse Erfgoedbibliotheek, FARO en PACKED vzw §  digitalisering van frontpers WO1 §  bijzondere aandacht voor zogenaamde frontblaadjes §  looptijd: 2013 - 2015 §  270.000 krantenpagina’s, uit 1.000-tal unieke titels en 52.000 verschillende edities §  online toegankelijk via https://hetarchief.be/ §  (plus 90 000 krantenpagina’s uit 1914-1918 van CegeSoma, Studie- en Documentatiecentrum Oorlog en Hedendaagse Maatschappij) 2
  • 3. NIEUWS VAN DE GROOTE OORLOG 3
  • 4. NIEUWS VAN DE GROOTE OORLOG 4
  • 5. WAT IS KWALITEITSCONTROLE? § integraal onderdeel van digitaliseringsproject § verifieert of opgeleverde digitale bestanden §  kwaliteit hebben die beantwoordt aan vooropgestelde eisen §  geschikt zijn voor opname in digitale archief voor langetermijnbewaring (archiveringsbestanden) §  geschikt zijn voor gewenste vormen van ontsluiting (raadplegingsbestanden) § ook belangrijk voor afronden betaling bij uitbesteding § veronderstelt vooropgestelde kwaliteitseisen (lastenboek) § kan gedeeltelijk manueel / geautomatiseerd gebeuren § wordt vaak verwaarloosd: vereist mankracht, kennis, tools en tijd! 5
  • 6. UITGEBREID PROCES § zijn ontvangen bestanden virusvrij? § is alle materiaal gedigitaliseerd? zijn alle bestanden opgeleverd? § zijn alle ontvangen bestanden identiek aan die werden verstuurd? § dragen mappen en bestanden correcte benaming? § is bestandsformaat juist en valide? § beantwoorden alle bestanden aan vooropgestelde kwaliteitseisen (digitaliserinsgparameters)? § hebben alle bestanden gepaste metadata? § beantwoordt kwaliteit van OCR-tekst aan verwachtingen? 6
  • 7. VIRUSCONTROLE § zijn ontvangen bestanden virusvrij? § zeker belangrijk wanneer digitalisering extern gebeurt § vereist: §  bijgewerkte anti-virussoftware §  computer losgekoppeld van intern netwerk, maar met mogelijkheid tot aansluiting op internet (voor update software) § best twee keer uitgevoerd, gemiddeld met maand tussenin (updates antivirusdefinities) § tussen twee anti-viruscontroles wel andere kwaliteitscontroles op bestanden, maar ze moeten in ‘quarantaine’ blijven 7
  • 8. CONTROLE OP VOLLEDIGHEID § is alle geselecteerde (kranten)materiaal terug ontvangen en gedigitaliseerd? § zijn alle digitale bestanden aanwezig: §  moederbestanden / archiveringsbestanden? §  afgeleide bestanden / raadplegingsbestanden? §  metadata (ingebed, METS XML)? §  OCR § uitgangspunt: lastenboek en lijst te digitaliseren materiaal § manueel of geautomatiseerd 8
  • 9. CONTROLE OP VOLLEDIGHEID § VIAA: §  gebruik van PIDs, ook te digitaliseren materiaal wordt vooraf geregistreerd in databank §  nadien geautomatiseerde vergelijking van geregistreerde PID’s met gearchiveerde PID’s § alternatief: voor elke batch CSV-bestand vragen §  inventarisnummer te digitaliseren object §  bestandsnaam moederbestand / archiveringsbestand §  netwerkpad van moederbestand / archiveringsbestand §  MD5-checksum moederbestand / archiveringsbestand §  bestandsnaam afgeleide bestand / raadplegingsbestand §  netwerkpad van afgeleide bestand / raadplegingsbestand §  MD5-checksum afgeleide bestand / raadplegingsbestand 9
  • 10. INTEGRITEITSCONTROLE § geen corrupte digitale bestanden? controle van integriteit van bestand (bitintegriteit) § waarom? uitsluiten dat bij verzending over netwerk of bij kopiëren iets is misgelopen § controle m.b.v. checksums of controlegetal §  unieke code berekend op waarde (bv. ander getal of bitstream) §  herhaalde berekening maakt duidelijk of oorspronkelijke waarde is gewijzigd §  (laatste 2 cijfers van Belgische bankrekeningnummers en laatste cijfer van ISBN-nummer zijn controlegetallen) 10
  • 12. INTEGRITEITSCONTROLE § nodig: §  ontvangen lijst met checksums §  software voor berekenen checksums (bv. Checksum Checker, Fsum Frontend, Jacksum, Fixity) § VIAA: §  MD5-checksums in METS XML-bestand 12
  • 13. CONTROLE NAMEN MAPPEN EN BESTANDEN § uitgangspunt: voorschriften in het lastenboek §  Revue de la Mode (1899), no.3 >>> RM_1899_03_001.tif § hoofdzakelijk manuele controle § elk bestand uniek identificeren § enkel letters, cijfers, liggend streepje ( _ underscore) of koppelteken (- "hyphen”) § vermijd speciale tekens zoals bv. haakjes, streepjes en leestekens, alsook diakritische tekens (accenten, trema's). § betekenisloze structuur of betekenisvolle structuur met zo beperkt mogelijk aantal onderdelen (bv. identificatienummer tekstdocument + volgnummer pagina) 13
  • 14. CONTROLE NAMEN MAPPEN EN BESTANDEN § kan worden achterhaald welke digitale bestanden overeenstemmen met de analoge originelen? § is samenhang tussen digitale bestanden en analoge originelen helder? § zijn metadata en de gedigitaliseerde documenten op logische wijze aan elkaar gerelateerd? § zijn bestandsnamen van digitale bestanden voorzien zijn van correcte extensies? § VIAA: §  bij ingest validatie bestandsnamen aan hand van registratiegevens in AMS database §  gebruik van PIDs (in elk VIAA-platform voor identificatie assets) 14
  • 15. CONTROLE BESTANDSFORMAAT § zijn bestanden in gevraagde bestandsformaat aangeleverd? § dient systematisch en voor alle aangeleverde bestanden te gebeuren § onderscheid tussen bestandsidentificatie en bestandsvalidatie §  bestandsidentificatie: exact vaststellen van type en versie van bestandsformaat van digitaal bestand, bv. DROID, EXIFTOOL, FITS §  bestandsvalidatie: vaststellen of de inhoud en structuur van bestand beantwoorden aan eisen gesteld in specificatie van bestandsformaat, bv. JHOVE2 § bestandsvalidatie is niet evident omdat JHOVE2 niet altijd voldoet, ook afwijking tussen JHOVE2 v2.0 en JHOVE v2.1 15
  • 16. CONTROLE BESTANDSFORMAAT § VIAA: §  wel bestandsidentificatie maar geen bestandsvalidatie (JPLYZER, FFPROBE en EXIFTOOL) §  PACKED: bestandsvalidatie op ong. 12.000 TIFF-bestanden (JHOVE2: Uncompressed Baseline IBM TIFF v6.0 RGB) 16
  • 17. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § uitgangspunt is lastenboek § bepalen van exacte digitaliseringsparameters is specialistenwerk > teruggrijpen naar bestaande richtlijnen, bv. Metamorfoze of FADGI § parameters hebben betrekking op bv. belichting, witbalans, opnameresolutie en scherpte § stellen technische kwaliteit vast waaraan opgeleverde reproducties moeten voldoen § technische controle na ontvangst: nagaan of minimale parameters werden gerespecteerd 17
  • 19. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § VIAA: §  lastenboek VIAA: Metamorfoze Light > bepaalt reeks te meten waarden, maar ook gebruik testkaarten (welke en wanneer) §  praktijk VIAA: Metamorfoze Extra Light, geen testkaart per individuele opname > wegknippen testkaart in raadplegingsbestand niet voorzien in workflow §  kwaliteitscontrole op punt gesteld tijdens testfase §  cruciaal: zowel meetwaarden afspreken als welke testkaarten moeten worden gebruikt, wanneer en ook hoe ze te meten § Metamorfoze legt uit welke testkaarten hoe en wanneer te gebruiken, hoe ze te meten en welke meetwaarden dit moet opleveren 19
  • 20. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § gebruik testkaarten op drie momenten: §  bij opstart project bij instellen van camera / scanner §  bij begin van elke dag of ploegwissel om te verifiëren of camera /scanner nog goed ingesteld staat §  bij eigenlijke opname van originelen §  (tijdens testfase controle van eerste; tijdens / na project tweede (en eventueel derde)) § twee types testkaarten: §  testkaarten voor controleren witbalans, belichting, uitlichting, contrastoverdracht en ruis: Digital ColorChecker SG, Kodak of Tiffen Gray Scale (Q-13), (egaal) wit stuk karton §  testkaarten voor controleren van opnameresolutie, scherpte, verscherping en geometrische vervorming: QA-62-SFR-P-RP en de QA-2 20
  • 21. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § benodigde software: Adobe Photoshop CC, Imcheck 3v8 en IQ Analyzer V5.2.17 §  enkel Imcheck is gratis open source sofware § controle: §  witbalans §  belichtingstolerantie §  gain modulation (in de hoge lichten) §  uitlichting §  ruis §  kleurnauwkeurigheid §  gebruikte testkaarten: Digital ColorChecker SG en Kodak / Tiffen Gray Scale (Q-13) en (egaal) wit stuk karton §  gebruikte software: Adobe Photoshop CC, Imcheck 3v8 en IQ Analyzer V5.2.17 21
  • 25. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS 25 Venster – info (F8) Pipet 11 x 11 pixels Vakjes aflopen – 2 onderste negeren, worden niet meegenomen voor Metamorfoze Light – met pipet in midden van vakje en RGB waarden in Excel invullen
  • 26. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS 26 Venster – histogram – uitgebreide weergave Selecteerraster Vakjes aflopen met selecteerraster en Standaard deviatie (Std. Deviatie) waarde in Excel invullen
  • 27. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § controle: §  vereiste sampling rate §  verschil tussen claimed sampling rate en obtained sampling rate §  Sampling Efficiency, horizontaal en verticaal §  MTF50, horizontaal en verticaal §  maximale modulatie §  kleurmisregistratie per kleurkanaal §  gebruikte testkaarten: QA-62-SFR-P-RP en QA-2 §  gebruikte software: Imcheck 3v8 27
  • 32. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § controle: §  geometrische vervorming §  gebruikte testkaarten: QA-2 §  gebruikte software: Adobe Photoshop CC § controle: §  andere artefacten §  visuele inspectie § lessons learnt: §  vereist medewerker die zich hierin bekwaamd §  vereist veel tijd: ongeveer dag voor week productie §  belangrijk: niet te wachten tot op einde van project, maar regelmatige oplevering af te spreken en dan meteen te controleren 32
  • 33. CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § more lessons learnt: §  opdrachtnemer zelf verplichten tot kwaliteitscontrole en dwingen resultaten samen met bestanden aan te leveren > maar er niet op vetrouwen! §  indien testresultaat onbevredigend blijkt, volledige batch afkeuren §  door controle worden schommelingen in kwaliteit beperkt / vermeden §  afwijkende resultaten als andere softwareversies worden gebruikt §  op voorhand afspreken wat referentiewaarden zijn: theoretische waarden opgelijst in Metamorfoze, of waarden die fabrikant van testkaart meelevert? §  belangrijk dat gebruikte testkaarten in goede staat zijn §  opname testkaart per batch is louter indicatief voor kwaliteit individuele opname §  ook visuele inspectie van individuele opnamen vereist om bv. onscherpe opname te detecteren §  ook belangrijk om te verifiëren of opnamedatum van testkaart welovereenkomt met die van opnamen: controle m.b.v. metadata van opnamedatum, gebruikte camera, … 33
  • 34. CONTROLE METADATA § ingebed in bestand zelf § gecodeerd in UTF-8? consistent? volledig? § in lastenboek formuleren welke metadata ingebed moet zijn, bv. §  inventarisnummer §  copyright statement §  model en merk gebruikte scanner of camera §  tijdstip van creatie van bestand §  diafragma en sluitertijd (indien van toepassing) §  kleurprofiel §  kleurruimte §  sampling rate (pixels per inch) §  lengte en breedte in pixels §  bitdiepte § geautomatiseerd uitlezen met bv. FITS 34
  • 35. CONTROLE METADATA § VIAA: §  geen controle van ingebedde metadata §  focus op PREMIS metadata in de METS XML §  geen controle van overeenkomst tussen PREMIS metadata en ingebedde metadata §  SIP (submission information package) met zip bestaande uit o.a. archiveringsbestanden, raadplegingsbestanden, OCR-tekstbestanden vergezeld van METS XML §  METS XML bevat beschrijvende metadata, technische metadata en MD-5 van elke individuele reproducties, en structurele metadata §  METS XML bevat ook informatie over verschillende stappen die tijdens proces doorlopen werden > volgens PREMIS-standaard: stelt in staat levenscyclus te volgen §  METS XML met PREMIS metadata wordt gevalideerd aan hand van XSD (XML Schema Definition) > zekerheid dat alle velden correct zijn ingevuld. 35
  • 36. CONTROLE KWALITEIT OCR § OCR: Optical Character Recognition § VIAA: §  OCR-tekst met ALTO XML Schema opgenomen in METS XML §  ALTO = Analyzed Layout and Text Object §  ALTO XML-bestand bevat niet alleen OCR-tekst, maar ook gegevens over waar precies verschillende stukjes OCR-tekst moeten worden weergeven om gestructureerde tekst van fysieke pagina’s te representeren §  PACKED: steekproef uitgevoerd van vijftal testbestanden met ocrevalUAtion 1.3.0: vergelijking platte tekst uit XML met ‘ground-thruth- tekst’ §  geschatte CER (character error rate) en WER (word error rate) voor sample §  beste afstemming tussen ‘ground-truth-tekst’ en OCR-tekst §  gedetailleerde statistieken over aantal fouten voor elk karakter 36
  • 39. CONTROLE KWALITEIT OCR §  met Quack enkele controles gedaan van ALTO XML §  Quack: open source programma om ALTO XML-bestanden weer te geven en te controleren 39
  • 41. DANK U! Tuur Van Hove: tuur.vanhove@gmail.com Rony Vissers: rony@packed.be