Presentatie Regionaal DIV overleg Tilburg

1,658 views

Published on

Presentation on imaging file format standards in relation to dutch archival rules & regulations

Published in: Business, Technology, Art & Photos
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,658
On SlideShare
0
From Embeds
0
Number of Embeds
21
Actions
Shares
0
Downloads
38
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Presentatie Regionaal DIV overleg Tilburg

  1. 1. Fileformaten:<br />De praktijk van het scannen In de praktijk loop je bij het scannen van documenten nogal eens tegen praktische problemen aan die je vooraf met de meeste fantasie niet kon voorzien. Voetangels, klemmen en praktische tips vanuit de praktijk.<br />Door Leon van Oosterom cdia+,<br />Directeur Elveo B.V.<br />1<br />
  2. 2. www.Elveo.nl<br />2<br />
  3. 3. Rosetta Stone<br />3<br />Rosetta Stone<br />Gedurende 1400 jaar ( tot 1799) was het de mensheid onmogelijk de Egyptische hiëroglyfen te lezen. <br />Rosettastone:drie talen één gebeurtenis <br /><ul><li>Egyptische hiëroglyfen,
  4. 4. Demotisch schrift
  5. 5. Grieks. </li></ul>‘Jean FrancoisChampollion’ vertaalde gedurende 14 jaar de betekenis van de hiëroglyfen.<br />Twee zaken dus van belang: <br />De duurzaamheid van de materialen waarop de Egyptische hiëroglyfen waren opgetekend <br />De mogelijkheid om die gegevens correct te interpreteren. <br />
  6. 6. Regeling ocw artikel 6<br />4<br />
  7. 7. Substitutie en digitaliseren<br />Beleidsregels voor digitale vervanging archiefbescheiden<br />13 februari 2008<br />5<br />
  8. 8. Richtlijn digitale substitutie<br />http://www.nationaalarchief.nl/archiefbeheer/archiefzorg/substitutie/<br />6<br />Parameters<br />Voor gedrukte tekst worden de volgende parameters gebruikt:<br />- indien kleur relevant is1: 300dpi met bitdiepte 24;<br />- indien grijstinten relevant zijn: 300 dpi met bitdiepte 8;<br />- indien kleur en grijstinten niet relevant zijn: 300 dpi met bitdiepte 1.<br />1 Scanning geschiedt in kleur, tenzij scanning in zwartwit geen informatieverlies oplevert. <br />
  9. 9. Substitutie bestandsformaat<br />Bestandsformaat<br />A. Ten aanzien van het bestandsformaat wordt gebruik gemaakt van zogenoemde open standaarden2.<br />B. Indien bij het scanproces gebruik wordt gemaakt van een tussenformaat, dan mag geen kwaliteitsverlies optreden bij de omzetting van het tussenformaat naar het uiteindelijke formaat3.<br />3 Een omzetting van TIFF als tussenformaat naar JPEG als eindformaat is ongewenst, omdat die omzetting gepaard gaat met kwaliteitsverlies.<br />7<br />
  10. 10. Verschil tussen rijk en overige overheden<br />Volgens de archiefinspectie beperkt de genoemde richtlijn zich tot het Rijk en “on the fly substitutie” en niet bulkscanning. De overige overheden richten zich op de Provinciale Beleidsregels.<br />Deze hanteren alleen de kwaliteitsindex en géén absolute waarden en spreken zich niet uit over compressie<br />8<br />
  11. 11. Nieuwe ministeriele archiefregeling<br />Ruime omschrijving “conversie”<br />Conversie = om- of overzetten in een ander opslagformaat. Bijvoorbeeld MSWord naar PDF.<br />Is scanning conversie of substitutie, oftewel machtiging vereist of niet???<br />9<br />
  12. 12. Opslagformaten<br />Artikel 26. Algemene eisen aan opslagformaten voor digitale archiefbescheiden<br />1. Digitale archiefbescheiden worden, uiterlijk op het tijdstip van overbrenging, opgeslagen in een valideerbaar en volledig gedocumenteerd bestandsformaat dat voldoet aan een open standaard, tenzij dit redelijkerwijs niet van de zorgdrager kan worden verlangd. Alsdan vindt met de beheerder van de voor overbrenging aangewezen archiefbewaarplaats overleg plaats over een alternatief bestandsformaat.<br />2. Voor zover op het tijdstip van overbrenging gebruik wordt gemaakt van encryptietechniek, wordt aan de beheerder van de archiefbewaarplaats de bijbehorende decryptiesleutel verstrekt.<br />3. Gebruikmaking van compressietechniek is slechts toegestaan, voor zover daarbij niet zodanig verlies van informatie optreedt, dat niet langer aan de bij deze regeling gestelde eisen ten aanzien van de toegankelijke en geordende staat van digitale archiefbescheiden kan worden voldaan.<br />10<br />
  13. 13. Toegankelijke staat<br />Artikel 20. Toegankelijke staat<br />De zorgdrager zorgt ervoor dat het archiveringssysteem de toegankelijke staat van archiefbescheiden waarborgt, zodanig dat elk van de archiefbescheiden binnen een redelijke termijn<br />a. kan worden gevonden<br /> 1°. aan de hand van de daaraan gekoppelde metagegevens; of<br /> 2°. door middel van een andere ontsluitingsmethode; en<br />b. leesbaar of waarneembaar te maken is.<br />11<br />
  14. 14. Belangrijk verschil<br />Niet langer wordt voorgeschreven welke resolutie gescan moet worden.<br />Niet langer wordt compressie per definitie verboden.<br />12<br />
  15. 15. 13<br />Tiff uncompressed volume<br />één pagina A4 op 300 DPI 24 bits kleur levert een bestand op van 25 Mb.<br />één productiescanner genereert per dag 1 tot 1½ Terabyte<br />voor 100 meter archief is bijna 10 Terabyte geheugenruimte nodig (1 meter = 100 Gbyte)<br />
  16. 16. Veelheid van brondocumenten<br />14<br />Kies voor een eenduidige archiveringsstrategie en wanneer dat digitaal is, kies voor een standaard en open formaat.<br />Zie: OS_lijst_open_standaarden_voor_pas_toe_of_leg_uit[1].pdf<br />Leg de organisatie simpel te volgen regels op ten aanzien van kwaliteit en conformiteit.<br />Office formaten zijn géén archieveringsformaten, ook Open Document Formats niet (ODF).<br />
  17. 17. ODF geen archiefformaat<br />15<br />Een ander en veel belangrijker probleem van het ODF-formaat is dat een eenduidige weergave van de documentopmaak tussen verschillende viewers en omgevingen niet is te garanderen. <br />Zo kunnen verschillen optreden in regeleindes, pagina-eindes, de positionering van elementen als afbeeldingen en tabellen, en fonts. <br />Doordat fonts niet ingebed kunnen worden in het ODF-formaat, is een eenduidige weergave -op computers waar het betreffende font niet aanwezig is- onmogelijk.<br />
  18. 18. De output vormen bij scanning<br />16<br />Hoeveel DPI?<br />100 DPI<br />200 DPI<br />300 DPI<br />Meer?<br />Hoeveel bit?<br />Bilevel<br />Greyscale<br />Indexed color<br />Full color<br />Welke format<br />tiff<br />jpg<br />PDF<br />PDF/A-1b<br />ODF ????<br />Welke samenstelling<br />Single page<br />Multipage<br />Bookmarks<br />OCR<br />Indexering<br />Document<br />Zone OCR<br />Tagged Metadata<br />
  19. 19. AnalyseImagingproces<br />17<br />Document analyse<br />Stel output structuur en vorm vast<br />Bepaal scannersoort<br />Kies juiste aansturing scanner<br />Bepaal en richt het imaging proces in<br />Validatie<br />Logprocedures<br />
  20. 20. Imaging proces<br />18<br />Imaging post processing<br />Logdata scanoutput<br />Image enhancement<br />QC image kwaliteit<br />Herkennen barcodes/patchcodes<br />Structureren output<br />Vastleggen Metatags<br />Data extractie door OCR<br />Data Entry<br />Full tekst OCR<br />Volledigheidscontrole<br />Definitieve Output<br />
  21. 21. File-formaten welke keuze?<br />19<br /><ul><li>Tiff groep 4 (ITU4-6)
  22. 22. Tiff uncompressed
  23. 23. PNG
  24. 24. JPEG
  25. 25. JPEG-2000 (wavelet)
  26. 26. JPEG-2000 lossless
  27. 27. JBIG
  28. 28. JPEG XR
  29. 29. Hoge kwaliteit compressie.alleen binair
  30. 30. Hoge kwaliteit, geen compressie
  31. 31. Hoge kwaliteit, 30:1 compressie
  32. 32. Redelijke kwaliteit 40:1 compressie
  33. 33. Goede kwaliteit 90:1 compressie
  34. 34. Hoge kwaliteit, 4:1 compressie
  35. 35. Hoge kwaliteit 20-40:1 compr. binair/ grijs
  36. 36. Goede kwaliteit 90:1 compressie</li></ul>En PDF dan?<br />
  37. 37. Verschil tussen pfd en pdf/a<br />Het verschil tussen PDF en PDF/A wordt gevormd door dat wat moet en niet mag <br />PDF/A-1 files moeten opgebouwd zijn inclusief: <br />• Embedded fonts <br />• Device-independent color <br />• XMP metadata <br /> <br />PDF/A-1 files mogen niet bevatten: <br />• Encryptie<br />• LZW Compressie<br />• Embedded files <br />• Externe content referenties <br />• PDF Transparantie<br />• Multi-media <br />• JavaScript <br />20<br />
  38. 38. PDF/A twee keuzes<br />PDF/A-1a<br />PDF/A-1b<br />21<br />
  39. 39. PDF versie 8 duurzaam<br />Per de versie 1.7 (8) is PDF ISO genormeerd onder nummer: ISO 32000-1<br />Quote:<br />ISO Secretary-General Alan Bryden comments: “As an ISO standard, we can ensure that this useful and widely popular format is easily available to all interested stakeholders. The standard will benefit both software developers and users by encouraging the propagation and dissemination of a common technology that cuts across systems and is designed for long term survival.”<br />22<br />
  40. 40. PDF/A-2<br />JPEG 2000 image compressie <br />Meer geavanceerde digital signature support <br />OpenType fonts <br />3D graphics <br />Audio/video content <br />Consistentie met andere op PDF-gebaseerde standaarden<br />23<br />
  41. 41. JPEG 2000 binnen PDF?<br />Met ingang van PDF/A-2 zal Jpeg2000 toegepast kunnen worden als compressie methode binnen PDF/A.<br />Lossless JPEG 2000 verminderd de data met een factor 2 tot 4 !!<br />Lossy JPEG 2000 vertoont substantieel minder compressiefouten ten opzichte van JPEG en comprimeert daardoor 2 x zo sterk<br />24<br />
  42. 42. Pdf/a is géén garantie<br />Tussen het scanmoment en de daadwerkelijke vorming van een PDF/A bestand kan veel misgaan!<br />PDF/A voorschriften.<br />Metadatavelden (XMP tags)<br />Resolutie en compresssie?<br />Validatiecriteria vast?<br />25<br />
  43. 43. 26<br />
  44. 44. Validatie pdf/a bestanden<br />Een zorgvuldige validatie van de output op PDF/A 1b is aan te bevelen.<br />Verschillende leveranciers leveren daartoe tools:<br />Adobe<br />Apagao<br />Callas Software AG<br />PDF Tools AG<br />Intarsys<br />Seal Systems AG<br />SolidDocuments<br />27<br />
  45. 45. Kwaliteitsindex 1<br />28<br />Stel een A4 document met als kleinste letter de letter “e” met een hoogte van 2 millimeter.<br />Doelstelling is een goede kwaliteit binaire scan te maken (Q1=5). Gewenste resolutie wordt dan:<br />3x5 / 0,039 x 2mm= 15 / 0,078 = 192dpi (200 dpi)<br />Quality Index :<br />3 = nauwelijks leesbaar<br />3.6 = marginaal<br />5 = goed<br />8 = uitstekend<br />De Quality Index gebruiken bij binair scannen:<br /><ul><li>dpi = 3QI / (.039h)
  46. 46. QI = dpi x .039h)/3
  47. 47. h = 3QI / (.039dpi)</li></li></ul><li>Kwaliteitsindex 2<br />29<br />Stel een A4 document met als kleinste letter de letter “e” met een hoogte van 2 millimeter.<br />Doelstelling is een goede kwaliteit scan met 256 grijswaarden te maken. Gewenste resolutie wordt dan:<br />2x5 / 0,039 x 2mm= 10 / 0,078 = 128dpi (150 dpi)<br />Quality Index :<br />3 = nauwelijks leesbaar<br />3.6 = marginaal<br />5 = goed<br />8 = uitstekend<br />De Quality Index gebruiken bij grijs of kleur scannen:<br /><ul><li>dpi = 2QI / (.039h)
  48. 48. QI = dpi x .039h)/2
  49. 49. h = 2QI / (.039dpi)</li></li></ul><li>Veilige uitgangsregels<br />30<br />Zwart wit scannen documenten; 300DPI<br />Kleur scannen documenten; 200DPI<br />Scannen t.b.v. OCR; 300DPI<br />Zwart wit scannen tekeningen; 200DPI<br />Scannen voor internet; 100DPI<br />Historische documenten; grijs of kleur<br />Zwakke documenten; grijs of kleur<br />
  50. 50. Een bitje meer of minder<br />31<br />1 bit (21) = 2 kleuren<br />8 bits (28) = 256 grijstonen<br />24 bits (224) = 16,7 miljoen kleurtonen<br />
  51. 51. 32<br />Een bitje meer of minder<br />het menselijk oog kan van elk van de drie basiskleuren 256 helderheidgradaties onderscheiden, wat overeen komt met 16,7 miljoen kleuren. <br />Niet elke kleur geeft ook werkelijk nieuwe informatie door. Sommige kleuren kunnen samengevoegd worden, zonder dat dit echt opvalt. In de praktijk blijkt dat het menselijk oog maar ongeveer 16 helderheidsgradaties kan waarnemen. <br />Kleuren die op elkaar lijken krijgen dezelfde kleurwaarde en men spreekt in dit geval van redundante (lees onnodige) kleuren. Redundante kleuren spelen in de compressietechnieken uiteraard een belangrijke rol.<br />
  52. 52. Voorbeeld typisch overheidsdocument<br />33<br />Resolutie 300 DPI<br />Volledig in kleur<br />
  53. 53. Snippets gecomprimeerd<br />34<br />Tiff (25MB)<br />JPG2000<br />JPG 12<br />JPF 70<br />JPG 7<br />JPF 2 (500Kb)<br />
  54. 54. 35<br />
  55. 55. gevoel<br />36<br />Kleur in documenten geeft het gevoel terug dat ook in de originele vorm aanwezig is. Draagt daarmee zeer bij aan de authenticiteit<br />
  56. 56. 37<br />Of bij zwakke documenten<br />
  57. 57. Voorbeeld 2<br />38<br />
  58. 58. 39<br />
  59. 59. 40<br />Resolutie en compressie<br />Tiff 11,3Mb<br />JPEG 1,2Mb<br />JPEG 2000 223Kb<br />200 DPI<br />
  60. 60. Voordelen van kleur bij bulkscan<br />Alle informatie in één keer vastgelegd en is ook na opslag nog ruim te beïnvloeden (lees: verbeteren)<br />Geen of zeer weinig herscans.<br />Meer toepassingsmogelijkheden.<br />Beter leesbaar dus minder fouten.<br /><ul><li>Voor de mens (data-entry)
  61. 61. Voor software (OCR, barcode, patchcode) </li></ul>Snellere werkvoorbereiding door kleurcodering<br />41<br />
  62. 62. 42<br />Links en resources<br />Cornell University<br />http://www.library.cornell.edu/preservation/tutorial/contents.html<br />TMSSequoia<br />http://www.tmsinc.com<br />Adobe<br />http://blogs.adobe.com/insidepdf/<br />http://blogs.adobe.com/insidepdf/2009/01/digital_signatures_the_europea.html<br />http://blogs.adobe.com/insidepdf/2009/01/digital_signatures_pdf.html<br />Diversen<br />http://www.ArchiveBuilders.com<br />http://www.jpeg2000info.com/<br />http://www.isit.com<br />http://www.kb.nl/coop/metamorfoze/home.html<br />http://www.nationaalarchief.nl/archiefbeheer/archiefzorg/substitutie/<br />
  63. 63. 43<br />Einde<br />

×