Van ‘nieuwstydinghe’ tot digitaal dagblad

  • 792 views
Uploaded on

Tijdens de diplomauitreiking gaf Edwin Klijn, projectleider digitalisering bij de KB een presentatie over de Databank Digitale Dagbladen. In het kader van dit project worden in de komende jaren 8 …

Tijdens de diplomauitreiking gaf Edwin Klijn, projectleider digitalisering bij de KB een presentatie over de Databank Digitale Dagbladen. In het kader van dit project worden in de komende jaren 8 miljoen krantenpagina's gedigitaliseerd

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
792
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Van ‘nieuwstydinghe’ tot digitaal dagblad Databank Digitale Dagbladen GO Nationaal Archief 12 oktober 2007 Edwin Klijn, Koninklijke Bibliotheek
  • 2. Databank Digitale Dagbladen (DDD)
    • Nationaal Programma Grootschalige Onderzoeksfaciliteiten
    • 2006-2011
    • 8 miljoen pagina’s
    • Lokale, regionale, nationale, koloniale kranten
    • 1618-1995
    • Niet alles, maar ongeveer 3% van beschikbare materiaal
    • Doelgroepen: onderzoekers en grote publiek
  • 3. 10 mei 1940…het grote nieuws
  • 4. En…het kleine nieuws
  • 5. Digitalisering kranten
    • Belangrijke bron voor wetenschappelijk onderzoek
    • Krantenpapier bedoeld voor eenmalig gebruik
    • Microfilms alleen on site te bekijken en niet gebruiksvriendelijk
    • Materiaal is verspreid bewaard
    • Verwacht gebruik is groot
    • Moeilijk materiaal!
  • 6. 30 titels online
  • 7.
    • In uitvoering
    • 30 projecten
    • 124 titels
    • 32 organisaties
  • 8. Before…
  • 9. After…
  • 10. Enkele stappen
    • Selectie
    • Materiaalanalyse
    • Digitalisering
    • Ontsluiting
    • Beschikbaarstelling
  • 11. 1. Selectie
  • 12. 2. Materiaalanalyse
  • 13. 3. Digitalisering A: Images B: OCR-tekst C: Metadata
  • 14. 4. Digitalisering: lastig
  • 15. 5. Ontsluiting: optische tekenherkenning (OCR) Blijkens verschillende mededeeelingen in de dag- bladen is de Indische regeering den laatsten tijd rege- lend opgetreden ten aanzien van het Indische handels- verkeer, in het bijzonder ten aanzien van den uitvoer van Indische producten.
  • 16. 5. Ontsluiting: optische tekenherkenning (OCR) Blijken a ver a chillende mededeeelingen in de dag- bladen is de Indische regeering den 1 aatsten tijd rege- l o nd opgetreden ten aanzien van het Indische handels- verkeer, in het l ijzonder ten a 3 nzien van den uitvo a r van Indische producten. Woord accuratesse: 7/33=79% Teken accuratesse: 7/202=97%
  • 17. 5. Ontsluiting: optische tekenherkenning (OCR) IINCOLXis   strangely   forgotten   by   b   visitors   to   in   Washington   WashingtonThe   Thesightseers   who   whotluck   flock   to   the   National   ntionnl   Capital at   all   sea   seasons   scaon8   seasons   ¬   Lsons   on8   of   the   year   for   some   som   unknown   reason   jeeni   to   find   more   moreinteresting   moreintNe8ting   moreinteresting  interestingthe   thing   things   of   less   historic   importane than   the   therelics   thcreliC   therelics  relicspertaining   pertainh   g   iu   ti   >   the   fmt   martyred   President   whose   un   untimely   untimely   untimely   ¬   timelydeath   was   as   mourned   by   the   entire   oiTiHzed   world   Bron: http://www.loc.gov/chroniclingamerica/
  • 18. 5. Ontsluiting: optische tekenherkenning (OCR)
  • 19. Voorbeeld OCR: resultaten
    • Pilot project Historische kranten (bitonaal, vanaf microfilm): tussen 60% en 70% woord accuratesse
    • DDD-test je (grijswaarden, vanaf microfilm): 80% woord accuratesse
    • Resultaten voor historisch tekstmateriaal vaak nog laag
  • 20. 6. Beschikbaarstelling: presentatie op het web
    • Zoekfunctie, markeren van ‘hits’ in de plaatjes
    • Artikel – of/en pagina-niveau
    • ‘ Zoning’, zie http:// demo.x-cago.com /lc250/
  • 21. Zoning en segmentering voorbeeld http:// niod .x- cago .com/ maleise _ kranten
  • 22. ‘ Hitterm highlighting’ voorbeeld
  • 23. ‘ Hitterm highlighting’ voorbeeld (2) <Page ID=&quot;PAGE1&quot; HEIGHT=&quot;21672&quot; WIDTH=&quot;17952&quot; PHYSICAL_IMG_NR=&quot;1&quot;> <TextBlock ID=&quot;BLOCK1&quot; HEIGHT=&quot;13921&quot; WIDTH=&quot;2725&quot; HPOS=&quot;303“ VPOS=&quot;1618&quot;> <TextLine ID=&quot;LINE1&quot; HEIGHT=&quot;268&quot; WIDTH=“760&quot; HPOS=&quot;418&quot; VPOS=&quot;1487&quot;> ----- <String ID=&quot;S2&quot; CONTENT=&quot; revolutie &quot; HEIGHT=&quot;222&quot; WIDTH=“416&quot; HPOS=&quot;567&quot; VPOS=&quot;1487&quot;/> <String ID=&quot;S3&quot; CONTENT=&quot;afgewimpeld&quot; HEIGHT=“268&quot; WIDTH=“740&quot; HPOS=“721&quot; VPOS=&quot;1487&quot;/> </TextLine> ------ </TextBlock> ------- </Page> XML-bestand
  • 24. Planning
    • Eind 2008: 2 miljoen pagina’s online
    • 2011: 8 miljoen pagina’s online
  • 25. Lees verder…
    • Historische kranten, http:// www.kb.nl /kranten/
    • Databank Digitale Dagbladen, http:// www.kb.nl /projectdagbladen/
    • Chronicling America, http:// www.loc.gov / chroniclingamerica /
    • British Newspapers 1800-1900 http:// www.bl.uk / collections /britishnewspapers1800to1900.html
    • [email_address]