INTELLIGENT      SEPARATION
                 COMPOSITION   MODEL
                               BiTe Congres
Henk Gianotten                 Groningen, 19-02-2009
Untitled en documentaanmaak
•   De inleider en het onderwerp
•   Digitalisering en de effecten
•   Documentproductie in stappen
•   Kleur en profilering
•   Tekst en encoding
•   PDF-standaards in gebruik
•   Zoekmachineoptimalisatie
Opmerking: 27800 untitled RUG-bestanden!
Digitalisering en E-volutie
•   Alle processen worden gedigitaliseerd
•   Extreme groei browsertoepassingen
•   Data applicatie-overschreidend
•   Tekst- en beeldtransformatie
•   Vector- en kleurtransformatie
•   Dwingende en gecontroleerde transfer
•   Universele zoekstandaards essentieel
PDF/X
                                                       Druk-
                                                                  o.a.:
De documentstappen                                      of
                                                       print
                                                                  Print
                                                                  Scherm
                    Beeld         CAD-
Kaart    Scanner    Vector         of
                                                       PDF/E      Mobile
 Of                                                   Engineer.
Foto
                      of
                     RGB
                                  GIS-
                                document
                                                        + 3-D     Druk
                                                                  E-mail
         Input                    ODF-       PDF-     Certified
                   MS-Word         of          of         of      Internet
copy
         OCR
                   Excel e.d.    OXML-
                                document
                                             XPS-
                                            bestand
                                                      Optimized
                                                        PDF
                                                                  Browser
                                                                  Intranet
                    Beeld         Quark,
Camera
                    Vector      InDesign,              PDF/A      CMS
  of
                      of         of TEX-              Archival
Tablet
                     RGB        document
                                                                  E-book
                                                                  E-archief
Bestanden en tekst
• Tekst als afbeelding
• Tekst als outline
• 4 soorten letterfonts
  •   PS of PostScript Type 1 Mac-versie
  •   PS of PostScript Type 1 PC-versie
  •   TT of TrueType
  •   OT of OpenType
• Encoding bepaalt zoekmogelijkheden
Elk teken kent een ‘encoding’
•   Heel vroeger Morse code
•   Digitaal in PC volgens ASCII (128 tekens)
•   Daarna ASCII extended (8-bit)
•   Maximaal 256 codes (pagecodes)
•   Verschillende indelingen van Mac en PC
•   Verschil talen en toepassingen bv Central Europe
•   Vele slechte ‘huisvlijtfonts’ zijn in omloop
•   Unicode is nu ISO 10646 wereldwijde standaard
1982: IBM Personal Computer




∎ =ISO 646 US
∎ =ISO 646 US
Letter en glyphs
•   Letter kent meerdere varianten of glyphs
•   Gewicht (light/bold) en cursivering als E, E, E en E
•   Cijfers als tabelcijfer, tekstcijfer e.d. als 1,₁ ① en ¹
•   Ligaturen met combinaties als æ, ij, fi, fl, ffi en ffl
•   Zoekmachine ziet de code niet; wij de afdruk wel
•   Foutieve encoding is niet zichtbaar
•   Zelfs goedgekeurde PDF’s kunnen foute fonts
    bevatten; fout wordt niet vooraf geconstateerd
Meerdere varianten zelfde letter
Unicode is basis OpenType
•   Codering glyphs U+0001 – U+FFFF (Hex)
•   We hanteren nu Unicode versie 5.0
•   Elk teken heeft eigen positie; ook Dingbats
•   Vrijwel onbeperkt aantal glyphs
•   Zoekmachine selecteert op charactercode
•   Font moet juiste tabellen bezitten
•   HTML, XML en webtoepassingen in Unicode
•   Browsers in UTF-8, UTF-16, UTF-32 en Unicode
Typografische mogelijkheden OT
•   Kleinkapitalen
•   Ligaturen
•   Add. ligaturen
•   Echte breuken
•   Kapitaalafhankelijk
•   Tabelcijfers
•   Old Style cijfers
Unicode/OT zoekroutine
•   Unicode codering is belangijk
•   Foutief encoded fonts hebben verkeerde code
•   Teken wel zichtbaar in document en op scherm
•   Ook indien het bewuste font embedded is
•   Juiste code is soms niet in bestand
•   Bewuste teken is dan niet te traceren
•   Zoeksystemen kunnen het ook niet vinden
•   Vooral oude PS-fonts geven die problemen
Euroleed en encoding




De foute eurotekens van Océ zijn zichtbaar maar niet ‘searchable’!
Kleur en profielen
• Kleurobjecten beschrijft men in RGB
• Kleurtemperatuur (lichtkleur) belangrijk
• 2 kleuren D50 en D65 (5000° resp. 6500° Kelvin)
  zijn als standaard vastgelegd
• Kleurtransformatie met behulp van ICC-profielen
• Profielinformatie geeft bron of doel weer
• Profielen werken 2 kanten uit; daardoor blijft bron-
  informatie behouden voor andere output
Intelligent Separation Model




   Additief RGB versus Subtractief CMY
Kleurruimtetransformatie




Kleurruimtes zijn sterk verschillend; transformaties
moeten gecontroleerd worden uitgevoerd ⇆ ISM
Color Management System
Bestanden ook voor later
•   PDF, PDF/X (grafisch) en PDF/E zijn voor productie
    •   X is inclusief procesdata JDF (Job Definition Format)
•   PDF/E (Engineering) is ook ISO-standaard
•   PDF/UA (Universal Access) voor o.a. blinden (iv)
•   PDF/H (Healthcare) is in voorbereiding (EPD?)
•   PDF/A is ISO-standaard voor archivering
    • Viewers en printers kunnen PDF/A altijd weergeven
• PDF/A wordt verplicht bij overheid en bedrijven
    • Versie voor tekst en beeld inclusief tagged tekst A-1a
    • Versie voor beeld zonder zoekdata A-1b
Untitled en metadata
•   Zorg voor de juiste OT-fonts in PDF-bestand
    •   Zoeken op juiste encoding is dan verzekerd
• Zorg dat profielen bij het beeld blijven
    • Juiste kleur kan dan bij elke uitvoer worden gerealiseerd
• Optimaliseer voor webweergave
    • Bestandsreductie door juiste resolutie, data en tags
• Vul altijd relevante metadata in de juiste velden in
    • Zoekmachine zoekt op titel, metadata en inhoud
• ‘Untitled’ verlaagt de ranking en dus het resultaat!
Opmerking: 287.000 files untitled!
Henk Gianotten - Untitled

Henk Gianotten - Untitled

  • 1.
    INTELLIGENT SEPARATION COMPOSITION MODEL BiTe Congres Henk Gianotten Groningen, 19-02-2009
  • 2.
    Untitled en documentaanmaak • De inleider en het onderwerp • Digitalisering en de effecten • Documentproductie in stappen • Kleur en profilering • Tekst en encoding • PDF-standaards in gebruik • Zoekmachineoptimalisatie
  • 3.
  • 4.
    Digitalisering en E-volutie • Alle processen worden gedigitaliseerd • Extreme groei browsertoepassingen • Data applicatie-overschreidend • Tekst- en beeldtransformatie • Vector- en kleurtransformatie • Dwingende en gecontroleerde transfer • Universele zoekstandaards essentieel
  • 5.
    PDF/X Druk- o.a.: De documentstappen of print Print Scherm Beeld CAD- Kaart Scanner Vector of PDF/E Mobile Of Engineer. Foto of RGB GIS- document + 3-D Druk E-mail Input ODF- PDF- Certified MS-Word of of of Internet copy OCR Excel e.d. OXML- document XPS- bestand Optimized PDF Browser Intranet Beeld Quark, Camera Vector InDesign, PDF/A CMS of of of TEX- Archival Tablet RGB document E-book E-archief
  • 6.
    Bestanden en tekst •Tekst als afbeelding • Tekst als outline • 4 soorten letterfonts • PS of PostScript Type 1 Mac-versie • PS of PostScript Type 1 PC-versie • TT of TrueType • OT of OpenType • Encoding bepaalt zoekmogelijkheden
  • 7.
    Elk teken kenteen ‘encoding’ • Heel vroeger Morse code • Digitaal in PC volgens ASCII (128 tekens) • Daarna ASCII extended (8-bit) • Maximaal 256 codes (pagecodes) • Verschillende indelingen van Mac en PC • Verschil talen en toepassingen bv Central Europe • Vele slechte ‘huisvlijtfonts’ zijn in omloop • Unicode is nu ISO 10646 wereldwijde standaard
  • 8.
    1982: IBM PersonalComputer ∎ =ISO 646 US ∎ =ISO 646 US
  • 12.
    Letter en glyphs • Letter kent meerdere varianten of glyphs • Gewicht (light/bold) en cursivering als E, E, E en E • Cijfers als tabelcijfer, tekstcijfer e.d. als 1,₁ ① en ¹ • Ligaturen met combinaties als æ, ij, fi, fl, ffi en ffl • Zoekmachine ziet de code niet; wij de afdruk wel • Foutieve encoding is niet zichtbaar • Zelfs goedgekeurde PDF’s kunnen foute fonts bevatten; fout wordt niet vooraf geconstateerd
  • 13.
  • 14.
    Unicode is basisOpenType • Codering glyphs U+0001 – U+FFFF (Hex) • We hanteren nu Unicode versie 5.0 • Elk teken heeft eigen positie; ook Dingbats • Vrijwel onbeperkt aantal glyphs • Zoekmachine selecteert op charactercode • Font moet juiste tabellen bezitten • HTML, XML en webtoepassingen in Unicode • Browsers in UTF-8, UTF-16, UTF-32 en Unicode
  • 15.
    Typografische mogelijkheden OT • Kleinkapitalen • Ligaturen • Add. ligaturen • Echte breuken • Kapitaalafhankelijk • Tabelcijfers • Old Style cijfers
  • 16.
    Unicode/OT zoekroutine • Unicode codering is belangijk • Foutief encoded fonts hebben verkeerde code • Teken wel zichtbaar in document en op scherm • Ook indien het bewuste font embedded is • Juiste code is soms niet in bestand • Bewuste teken is dan niet te traceren • Zoeksystemen kunnen het ook niet vinden • Vooral oude PS-fonts geven die problemen
  • 18.
    Euroleed en encoding Defoute eurotekens van Océ zijn zichtbaar maar niet ‘searchable’!
  • 19.
    Kleur en profielen •Kleurobjecten beschrijft men in RGB • Kleurtemperatuur (lichtkleur) belangrijk • 2 kleuren D50 en D65 (5000° resp. 6500° Kelvin) zijn als standaard vastgelegd • Kleurtransformatie met behulp van ICC-profielen • Profielinformatie geeft bron of doel weer • Profielen werken 2 kanten uit; daardoor blijft bron- informatie behouden voor andere output
  • 20.
    Intelligent Separation Model Additief RGB versus Subtractief CMY
  • 21.
    Kleurruimtetransformatie Kleurruimtes zijn sterkverschillend; transformaties moeten gecontroleerd worden uitgevoerd ⇆ ISM
  • 22.
  • 23.
    Bestanden ook voorlater • PDF, PDF/X (grafisch) en PDF/E zijn voor productie • X is inclusief procesdata JDF (Job Definition Format) • PDF/E (Engineering) is ook ISO-standaard • PDF/UA (Universal Access) voor o.a. blinden (iv) • PDF/H (Healthcare) is in voorbereiding (EPD?) • PDF/A is ISO-standaard voor archivering • Viewers en printers kunnen PDF/A altijd weergeven • PDF/A wordt verplicht bij overheid en bedrijven • Versie voor tekst en beeld inclusief tagged tekst A-1a • Versie voor beeld zonder zoekdata A-1b
  • 24.
    Untitled en metadata • Zorg voor de juiste OT-fonts in PDF-bestand • Zoeken op juiste encoding is dan verzekerd • Zorg dat profielen bij het beeld blijven • Juiste kleur kan dan bij elke uitvoer worden gerealiseerd • Optimaliseer voor webweergave • Bestandsreductie door juiste resolutie, data en tags • Vul altijd relevante metadata in de juiste velden in • Zoekmachine zoekt op titel, metadata en inhoud • ‘Untitled’ verlaagt de ranking en dus het resultaat!
  • 25.