2. KWALITEITSCONTROLE
§ vooral gebaseerd op ervaringen project Nieuws van de Groote
Oorlog
§ aangevuld met ervaringen andere digitaliseringsprojecten
§ Nieuws van de Groote Oorlog
§ initiatief: VIAA, Vlaamse Erfgoedbibliotheek, FARO en PACKED vzw
§ digitalisering van frontpers WO1
§ bijzondere aandacht voor zogenaamde frontblaadjes
§ looptijd: 2013 - 2015
§ 270.000 krantenpagina’s, uit 1.000-tal unieke titels en 52.000 verschillende
edities
§ online toegankelijk via https://hetarchief.be/
§ (plus 90 000 krantenpagina’s uit 1914-1918 van CegeSoma, Studie- en
Documentatiecentrum Oorlog en Hedendaagse Maatschappij)
2
5. WAT IS KWALITEITSCONTROLE?
§ integraal onderdeel van digitaliseringsproject
§ verifieert of opgeleverde digitale bestanden
§ kwaliteit hebben die beantwoordt aan vooropgestelde eisen
§ geschikt zijn voor opname in digitale archief voor langetermijnbewaring
(archiveringsbestanden)
§ geschikt zijn voor gewenste vormen van ontsluiting
(raadplegingsbestanden)
§ ook belangrijk voor afronden betaling bij uitbesteding
§ veronderstelt vooropgestelde kwaliteitseisen (lastenboek)
§ kan gedeeltelijk manueel / geautomatiseerd gebeuren
§ wordt vaak verwaarloosd: vereist mankracht, kennis, tools en tijd!
5
6. UITGEBREID PROCES
§ zijn ontvangen bestanden virusvrij?
§ is alle materiaal gedigitaliseerd? zijn alle bestanden opgeleverd?
§ zijn alle ontvangen bestanden identiek aan die werden verstuurd?
§ dragen mappen en bestanden correcte benaming?
§ is bestandsformaat juist en valide?
§ beantwoorden alle bestanden aan vooropgestelde kwaliteitseisen
(digitaliserinsgparameters)?
§ hebben alle bestanden gepaste metadata?
§ beantwoordt kwaliteit van OCR-tekst aan verwachtingen?
6
7. VIRUSCONTROLE
§ zijn ontvangen bestanden virusvrij?
§ zeker belangrijk wanneer digitalisering extern gebeurt
§ vereist:
§ bijgewerkte anti-virussoftware
§ computer losgekoppeld van intern netwerk, maar met mogelijkheid tot
aansluiting op internet (voor update software)
§ best twee keer uitgevoerd, gemiddeld met maand tussenin
(updates antivirusdefinities)
§ tussen twee anti-viruscontroles wel andere kwaliteitscontroles op
bestanden, maar ze moeten in ‘quarantaine’ blijven
7
8. CONTROLE OP VOLLEDIGHEID
§ is alle geselecteerde (kranten)materiaal terug ontvangen en
gedigitaliseerd?
§ zijn alle digitale bestanden aanwezig:
§ moederbestanden / archiveringsbestanden?
§ afgeleide bestanden / raadplegingsbestanden?
§ metadata (ingebed, METS XML)?
§ OCR
§ uitgangspunt: lastenboek en lijst te digitaliseren materiaal
§ manueel of geautomatiseerd
8
9. CONTROLE OP VOLLEDIGHEID
§ VIAA:
§ gebruik van PIDs, ook te digitaliseren materiaal wordt vooraf geregistreerd
in databank
§ nadien geautomatiseerde vergelijking van geregistreerde PID’s met
gearchiveerde PID’s
§ alternatief: voor elke batch CSV-bestand vragen
§ inventarisnummer te digitaliseren object
§ bestandsnaam moederbestand / archiveringsbestand
§ netwerkpad van moederbestand / archiveringsbestand
§ MD5-checksum moederbestand / archiveringsbestand
§ bestandsnaam afgeleide bestand / raadplegingsbestand
§ netwerkpad van afgeleide bestand / raadplegingsbestand
§ MD5-checksum afgeleide bestand / raadplegingsbestand
9
10. INTEGRITEITSCONTROLE
§ geen corrupte digitale bestanden? controle van integriteit van
bestand (bitintegriteit)
§ waarom? uitsluiten dat bij verzending over netwerk of bij kopiëren
iets is misgelopen
§ controle m.b.v. checksums of controlegetal
§ unieke code berekend op waarde (bv. ander getal of bitstream)
§ herhaalde berekening maakt duidelijk of oorspronkelijke waarde is
gewijzigd
§ (laatste 2 cijfers van Belgische bankrekeningnummers en laatste cijfer van
ISBN-nummer zijn controlegetallen)
10
12. INTEGRITEITSCONTROLE
§ nodig:
§ ontvangen lijst met checksums
§ software voor berekenen checksums (bv. Checksum Checker, Fsum
Frontend, Jacksum, Fixity)
§ VIAA:
§ MD5-checksums in METS XML-bestand
12
13. CONTROLE NAMEN MAPPEN EN
BESTANDEN
§ uitgangspunt: voorschriften in het lastenboek
§ Revue de la Mode (1899), no.3 >>> RM_1899_03_001.tif
§ hoofdzakelijk manuele controle
§ elk bestand uniek identificeren
§ enkel letters, cijfers, liggend streepje ( _ underscore) of
koppelteken (- "hyphen”)
§ vermijd speciale tekens zoals bv. haakjes, streepjes en
leestekens, alsook diakritische tekens (accenten, trema's).
§ betekenisloze structuur of betekenisvolle structuur met zo beperkt
mogelijk aantal onderdelen (bv. identificatienummer
tekstdocument + volgnummer pagina)
13
14. CONTROLE NAMEN MAPPEN EN
BESTANDEN
§ kan worden achterhaald welke digitale bestanden
overeenstemmen met de analoge originelen?
§ is samenhang tussen digitale bestanden en analoge originelen
helder?
§ zijn metadata en de gedigitaliseerde documenten op logische
wijze aan elkaar gerelateerd?
§ zijn bestandsnamen van digitale bestanden voorzien zijn van
correcte extensies?
§ VIAA:
§ bij ingest validatie bestandsnamen aan hand van registratiegevens in AMS
database
§ gebruik van PIDs (in elk VIAA-platform voor identificatie assets)
14
15. CONTROLE BESTANDSFORMAAT
§ zijn bestanden in gevraagde bestandsformaat aangeleverd?
§ dient systematisch en voor alle aangeleverde bestanden te
gebeuren
§ onderscheid tussen bestandsidentificatie en bestandsvalidatie
§ bestandsidentificatie: exact vaststellen van type en versie van
bestandsformaat van digitaal bestand, bv. DROID, EXIFTOOL, FITS
§ bestandsvalidatie: vaststellen of de inhoud en structuur van bestand
beantwoorden aan eisen gesteld in specificatie van bestandsformaat, bv.
JHOVE2
§ bestandsvalidatie is niet evident omdat JHOVE2 niet altijd
voldoet, ook afwijking tussen JHOVE2 v2.0 en JHOVE v2.1
15
16. CONTROLE BESTANDSFORMAAT
§ VIAA:
§ wel bestandsidentificatie maar geen bestandsvalidatie (JPLYZER,
FFPROBE en EXIFTOOL)
§ PACKED: bestandsvalidatie op ong. 12.000 TIFF-bestanden (JHOVE2:
Uncompressed Baseline IBM TIFF v6.0 RGB)
16
17. CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ uitgangspunt is lastenboek
§ bepalen van exacte digitaliseringsparameters is specialistenwerk
> teruggrijpen naar bestaande richtlijnen, bv. Metamorfoze of
FADGI
§ parameters hebben betrekking op bv. belichting, witbalans,
opnameresolutie en scherpte
§ stellen technische kwaliteit vast waaraan opgeleverde
reproducties moeten voldoen
§ technische controle na ontvangst: nagaan of minimale parameters
werden gerespecteerd
17
19. CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ VIAA:
§ lastenboek VIAA: Metamorfoze Light
> bepaalt reeks te meten waarden, maar ook gebruik testkaarten (welke
en wanneer)
§ praktijk VIAA: Metamorfoze Extra Light, geen testkaart per individuele
opname > wegknippen testkaart in raadplegingsbestand niet voorzien in
workflow
§ kwaliteitscontrole op punt gesteld tijdens testfase
§ cruciaal: zowel meetwaarden afspreken als welke testkaarten moeten
worden gebruikt, wanneer en ook hoe ze te meten
§ Metamorfoze legt uit welke testkaarten hoe en wanneer te
gebruiken, hoe ze te meten en welke meetwaarden dit moet
opleveren
19
20. CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ gebruik testkaarten op drie momenten:
§ bij opstart project bij instellen van camera / scanner
§ bij begin van elke dag of ploegwissel om te verifiëren of camera /scanner
nog goed ingesteld staat
§ bij eigenlijke opname van originelen
§ (tijdens testfase controle van eerste; tijdens / na project tweede (en
eventueel derde))
§ twee types testkaarten:
§ testkaarten voor controleren witbalans, belichting, uitlichting,
contrastoverdracht en ruis: Digital ColorChecker SG, Kodak of Tiffen Gray
Scale (Q-13), (egaal) wit stuk karton
§ testkaarten voor controleren van opnameresolutie, scherpte, verscherping
en geometrische vervorming: QA-62-SFR-P-RP en de QA-2
20
21. CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ benodigde software: Adobe Photoshop CC, Imcheck 3v8 en IQ
Analyzer V5.2.17
§ enkel Imcheck is gratis open source sofware
§ controle:
§ witbalans
§ belichtingstolerantie
§ gain modulation (in de hoge lichten)
§ uitlichting
§ ruis
§ kleurnauwkeurigheid
§ gebruikte testkaarten: Digital ColorChecker SG en Kodak / Tiffen Gray
Scale (Q-13) en (egaal) wit stuk karton
§ gebruikte software: Adobe Photoshop CC, Imcheck 3v8 en IQ Analyzer
V5.2.17
21
32. CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ controle:
§ geometrische vervorming
§ gebruikte testkaarten: QA-2
§ gebruikte software: Adobe Photoshop CC
§ controle:
§ andere artefacten
§ visuele inspectie
§ lessons learnt:
§ vereist medewerker die zich hierin bekwaamd
§ vereist veel tijd: ongeveer dag voor week productie
§ belangrijk: niet te wachten tot op einde van project, maar regelmatige
oplevering af te spreken en dan meteen te controleren
32
33. CONTROLE CONFORMITEIT
DIGITALISERINGSPARAMETERS
§ more lessons learnt:
§ opdrachtnemer zelf verplichten tot kwaliteitscontrole en dwingen resultaten
samen met bestanden aan te leveren > maar er niet op vetrouwen!
§ indien testresultaat onbevredigend blijkt, volledige batch afkeuren
§ door controle worden schommelingen in kwaliteit beperkt / vermeden
§ afwijkende resultaten als andere softwareversies worden gebruikt
§ op voorhand afspreken wat referentiewaarden zijn: theoretische waarden
opgelijst in Metamorfoze, of waarden die fabrikant van testkaart meelevert?
§ belangrijk dat gebruikte testkaarten in goede staat zijn
§ opname testkaart per batch is louter indicatief voor kwaliteit individuele
opname
§ ook visuele inspectie van individuele opnamen vereist om bv. onscherpe
opname te detecteren
§ ook belangrijk om te verifiëren of opnamedatum van testkaart
welovereenkomt met die van opnamen: controle m.b.v. metadata van
opnamedatum, gebruikte camera, …
33
34. CONTROLE METADATA
§ ingebed in bestand zelf
§ gecodeerd in UTF-8? consistent? volledig?
§ in lastenboek formuleren welke metadata ingebed moet zijn, bv.
§ inventarisnummer
§ copyright statement
§ model en merk gebruikte scanner of camera
§ tijdstip van creatie van bestand
§ diafragma en sluitertijd (indien van toepassing)
§ kleurprofiel
§ kleurruimte
§ sampling rate (pixels per inch)
§ lengte en breedte in pixels
§ bitdiepte
§ geautomatiseerd uitlezen met bv. FITS
34
35. CONTROLE METADATA
§ VIAA:
§ geen controle van ingebedde metadata
§ focus op PREMIS metadata in de METS XML
§ geen controle van overeenkomst tussen PREMIS metadata en ingebedde
metadata
§ SIP (submission information package) met zip bestaande uit o.a.
archiveringsbestanden, raadplegingsbestanden, OCR-tekstbestanden
vergezeld van METS XML
§ METS XML bevat beschrijvende metadata, technische metadata en MD-5
van elke individuele reproducties, en structurele metadata
§ METS XML bevat ook informatie over verschillende stappen die tijdens
proces doorlopen werden > volgens PREMIS-standaard: stelt in staat
levenscyclus te volgen
§ METS XML met PREMIS metadata wordt gevalideerd aan hand van XSD
(XML Schema Definition) > zekerheid dat alle velden correct zijn ingevuld.
35
36. CONTROLE KWALITEIT OCR
§ OCR: Optical Character Recognition
§ VIAA:
§ OCR-tekst met ALTO XML Schema opgenomen in METS XML
§ ALTO = Analyzed Layout and Text Object
§ ALTO XML-bestand bevat niet alleen OCR-tekst, maar ook gegevens over
waar precies verschillende stukjes OCR-tekst moeten worden weergeven
om gestructureerde tekst van fysieke pagina’s te representeren
§ PACKED: steekproef uitgevoerd van vijftal testbestanden met
ocrevalUAtion 1.3.0: vergelijking platte tekst uit XML met ‘ground-thruth-
tekst’
§ geschatte CER (character error rate) en WER (word error rate) voor
sample
§ beste afstemming tussen ‘ground-truth-tekst’ en OCR-tekst
§ gedetailleerde statistieken over aantal fouten voor elk karakter
36
39. CONTROLE KWALITEIT OCR
§ met Quack enkele controles gedaan van ALTO XML
§ Quack: open source programma om ALTO XML-bestanden weer te geven
en te controleren
39