Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Tekstkwaliteit
Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten
Marian Hellema, 24 maart 2015
Hoe goed het is …. (1850)
Hoe slecht het is …. (1650)
Hoe is de tekst gemaakt?
• OCR: geautomatiseerd (docWorks/Finereader)
• deels met historische woordenlijst
• krantenkoppen...
Veelgestelde vraag
“Hoe goed is de tekstkwaliteit?”
Antwoord: dat weten we niet precies.
Meten van tekstkwaliteit
Kwaliteitscijfers
• precieze meting van het aantal fouten op het totaal
• arbeidsintensief
• niet...
Veelgestelde vraag
“Waarom zorgen jullie niet voor betere tekstkwaliteit?”
Antwoord 1: er wordt aan gewerkt
Antwoord 2:
• ...
Verbetering tekstkwaliteit
Project voor tekstverbetering:
Meertens Instituut
• editor voor overtikken krantenartikelen
• g...
Verbetering tekstkwaliteit
Iets meer detail:
• 160 vrijwilligers, waarvan de helft actief
• 30-40 % van de 17e Nederlandst...
Verbetering tekstkwaliteit
Iets meer detail:
• woordcoördinaten worden meeverbeterd (highlighting)
• confidence levels wor...
Keuzes
• geautomatiseerde tekstverbetering of overtikken?
• oude versies bewaren?
• hoe gegevens over verbeteringen/verrij...
Vragen?
marian.hellema@kb.nl
10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus
Upcoming SlideShare
Loading in …5
×

10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

632 views

Published on

KB symposium historische kranten als big data,
Den Haag, 24 maart 2015

Published in: Government & Nonprofit
  • Be the first to comment

  • Be the first to like this

10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

  1. 1. Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten Marian Hellema, 24 maart 2015
  2. 2. Hoe goed het is …. (1850)
  3. 3. Hoe slecht het is …. (1650)
  4. 4. Hoe is de tekst gemaakt? • OCR: geautomatiseerd (docWorks/Finereader) • deels met historische woordenlijst • krantenkoppen zo nodig handmatig gecorrigeerd tot 99.8% correcte tekens • overige tekst niet gecorrigeerd
  5. 5. Veelgestelde vraag “Hoe goed is de tekstkwaliteit?” Antwoord: dat weten we niet precies.
  6. 6. Meten van tekstkwaliteit Kwaliteitscijfers • precieze meting van het aantal fouten op het totaal • arbeidsintensief • niet beschikbaar versus Confidence levels • hoe zeker de ocr-software is van correcte tekenherkenning • beste benadering van kwaliteitscijfers die we hebben (maar het is dus iets anders) • wel beschikbaar
  7. 7. Veelgestelde vraag “Waarom zorgen jullie niet voor betere tekstkwaliteit?” Antwoord 1: er wordt aan gewerkt Antwoord 2: • afweging kwaliteit versus kwantiteit • m.a.w. waar geef je je geld aan uit? • voor toekomstige digitalisering: differentiatie in kwaliteit • soms heel hoge tekstkwaliteit (bv. DBNL) • soms heel hoge beeldkwaliteit • afhankelijk van doel
  8. 8. Verbetering tekstkwaliteit Project voor tekstverbetering: Meertens Instituut • editor voor overtikken krantenartikelen • groep vrijwilligers • 17e eeuwse kranten KB • software om verbeterde tekst te verwerken • en in Delpher beschikbaar te stellen NIOD • vrijwilligers voor oorlogskranten
  9. 9. Verbetering tekstkwaliteit Iets meer detail: • 160 vrijwilligers, waarvan de helft actief • 30-40 % van de 17e Nederlandstalige eeuwse kranten gedaan • ±1.900 kranten (van de ±6200) • ±18.500 artikelen (van de ±46000)
  10. 10. Verbetering tekstkwaliteit Iets meer detail: • woordcoördinaten worden meeverbeterd (highlighting) • confidence levels worden opgehoogd • oorspronkelijke versie van de tekst wel bewaard, maar niet direct toegankelijk • beschikbaarstelling als dataset en in Delpher zal geleidelijk gaan • uitbreidbaar: • andere delen van de krantencollectie. (Wie wil?) • (met aanpassingen) andere collecties
  11. 11. Keuzes • geautomatiseerde tekstverbetering of overtikken? • oude versies bewaren? • hoe gegevens over verbeteringen/verrijkingen publiceren? (verantwoording) • betekenis van identifiers? • het object • of een versie van het object • gedifferentieerd kwaliteitsbeleid
  12. 12. Vragen? marian.hellema@kb.nl

×