Successfully reported this slideshow.

Computerlexica in OCR en zoekmachines by Katrien Depuydt

667 views

Published on

Presentation given on the KB IMPACT Demo Day on 16 February 2011 in The Hague.

Published in: Education
  • Be the first to comment

  • Be the first to like this

Computerlexica in OCR en zoekmachines by Katrien Depuydt

  1. 1. Computerlexica in OCR en Zoekmachines Katrien Depuydt (Instituut voor Nederlandse Lexicologie, Leiden)
  2. 2. Overzicht <ul><li>Wat is een computerlexicon </li></ul><ul><li>Lexica in IMPACT </li></ul><ul><li>Gereedschappen voor lexiconbouw en toepassing lexica </li></ul><ul><li>Een aantal resultaten </li></ul><ul><li>Demonstratie zoeken </li></ul>
  3. 3. Wat is een computerlexicon?
  4. 4. Computerlexicon vs. electronisch woordenboek (1) Een electronisch woordenboek heeft: <ul><li>Gedigitaliseerde full text (geen plaatjes) </li></ul><ul><li>Voor menselijk gebruik </li></ul><ul><li>Idealiter:doorzoekbaar met expliciet gecodeerde informatie (XML) zoals lemma, woordsoort, betekenis, citaten etc. </li></ul><ul><li>Voorbeelden: OED online, WNT online </li></ul>
  5. 5. Dictionary XML (example)
  6. 6. Computerlexicon vs. electronisch woordenboek (2) <ul><li>Een computerlexicon is: </li></ul><ul><li>Altijd in gestructureerd digitaal formaat (XML, relationele database) </li></ul><ul><li>Hoofddoel: computertoepassing </li></ul><ul><li>Met expliciet gecodeerde informatie (eg. lemma, woordsoort, morfologie, syntaxis…). </li></ul><ul><li>Voorbeelden van gebruik: </li></ul><ul><li>Taalkundige verrijking van tekstmateriaal </li></ul><ul><li>‘ geavanceerder’ zoeken (woord met alle spellingen en verbuigingen) </li></ul><ul><li>Automatisch samenvatten, keyword extraction… </li></ul>
  7. 8. Lexica in IMPACT
  8. 9. Het OCR-lexicon Een OCR lexicon is <ul><li>Een nagekeken lijst van woorden in een taal </li></ul><ul><li>Gebaseerd op een corpus van gedateerde teksten (selectie!) </li></ul><ul><li>Bij voorkeur met frequentieinformatie </li></ul><ul><li>Bij voorkeur van dezelfde tijdperiode of hetzelfde teksttype als de teksten die je wilt scannen </li></ul>
  9. 10. OCR-lexicon: voorbeeld wechgerukt 5 wechgeschickt 6 wechgeven 6 wech-gevoerde 11 wechgevoerde 14 wech-gevoert 59 wechgevoert 98 wechgeworpen 21 wechghenomen 12 wechghevoert 7 wechginck 5 wechloopen 6 wechneemt 11 wechneme 6 wech-nemen 20 wechnemen 74 wechneminge 12 wech-neminge 6 wechrapen 6 wechrucken 6 wechruiming 7 wecht 7 absoluut 8 absoluyt 2 absoluyter 1 absolveren 3 absolverende 1 absorbeeren 1 absorbeert 1 absorberen 1 absorptie 3 absoute 2 abstineeren 1 abstinencie 1 abstinentie 2 abstineren 1 abstrackheyt 1 abstract 7 abstracta 1 abstracte 7 abstracten 4 abstractheid 1 abstractie 1 abstractiën 1 Van het historisch corpus van de DBNL Van het WNT attestation lexicon
  10. 11. Het IR-lexicon <ul><li>IR-lexicon : belangrijkste informatiecategorieën woordvormen (lijst van woorden) + - frequentieinformatie - citaten (gedateerde bronnen) uit corpora of electronische woordenboeken - MODERN LEMMA (// ingang wdb.) toegekend aan spellingvarianten en geflecteerde varianten van hetzelfde woord </li></ul><ul><li>Het modern lemma wordt gebruikt bij het zoeken in teksten </li></ul><ul><li>Standaard gebruik in corpuslinguistiek en moderne historische lexicografie </li></ul>
  11. 12. <?xml version='1.0'?> <!DOCTYPE lexicon SYSTEM 'NL_Structure.dtd'> <lexicon> <lexical_entry><lemma_id>219490</lemma_id> < modern_lemma > aantuilen </modern_lemma> <gloss></gloss> <POS>VRB</POS> <ne_label></ne_label> <language_id></language_id> <portmanteau_lemma_id></portmanteau_lemma_id> <wordform><form_representation> <wordform_id>850026</wordform_id> < written_form > tuyld </written_form> <attestation><id>92141</id> <token_id></token_id> < quote >Verhael ick (<I>t.w. een als vrouw verkleede man</I>) haer mijn min in Vrouwelijcker schynen: Sy acht het boertery, en tuyld daer weer op an , Vermits een Vrou niet op een Vrou verlieven kan,</quote> <derivation_id>0</derivation_id> <document_id>204</document_id> <start_pos>119</start_pos> <end_pos>124</end_pos> </attestation> </form_representation> </wordform>
  12. 13. Gereedschappen voor lexiconbouw en toepassing lexica
  13. 14. Types variatie (spelling, verbuiging…) uytterlijcste uyterlijkste d'uyterlijke uiterlyke uyterlijcke uiterlijke uyterlijck uiterlyken uiterlijkste uiterlicke wterlicke wterlijcke ulterlijk uiterlyk uiterlijk uyterlick wterlicken d'uyterlijcke uiterlijken uiterlijks wterlijck uytterlicke uitterlijke ujterlijke uytterlijk uyterlycke uyterlicken uijterlicke d'uiterlijcke wtterlijcke wterlyke wtterlijk uuterlick uuterlic uyterlijke uyterlijcken uyterlicke d'uiterlyke wterlijke vuyterlijcke uuterlycke uuterlicke wterlijken uyterlijcksten uuyterlicke uuyterlick uuyterlycke uytterlijcke uytterlycke uytterlick vuytterlicke uiterlijker uyterlyck uterliek wterlijcken uiterlijkst uitterlijk uytterlijcken uyterlyk wterlick uutterlijck uuyterlicken uyttelijck uijterlijk uytterlijck uuterlijck uiterlick uitterlyk uuyterlic uuyterlyck uuyterlijck uiterlijck uytterlyck uterlyc wterlijk I werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerels zwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werlts werrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weerelts werlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled II (patronen om variatie te voorspellen) (een aantal voorspelbaar met patronen, andere moet je uit een lexicon halen)
  14. 15. Computerlexica <ul><li>Voor OCR and OCR postcorrectie </li></ul><ul><li>Verbeteren doorzoekbaarheid historisch tekstmateriaal door de bouw van een lexicon met varianten met een modern lemma als zoeksleutel </li></ul><ul><li>Gereedschappen voor lexiconbouw </li></ul><ul><li>Gereedschappen voor toepassing van het lexicon in zoekmachines </li></ul><ul><li>Lexicon cookbook </li></ul><ul><li>Voorschriften en tools om de lexica te gebruiken in OCR </li></ul>
  15. 16. Gereedschappen (Tools) <ul><li>Lexiconbouw uit corpusmateriaal en woordenboeken </li></ul><ul><li>Gebruik van lexicon in zoekmachines </li></ul><ul><li>Tool om spellingvariatiepatronen uit historisch materiaal te halen </li></ul><ul><li>Tool om met gebruik van patronen nog niet aangetroffen spellingvariaties te relateren aan hun standaardvorm </li></ul><ul><li>Tool om nog niet aangetroffen verbogen vormen naar de grondvorm terug te brengen </li></ul>
  16. 17. Gewone woordenschat vs. Namen (NE’s) <ul><li>Gereedschappen voor de automatische herkenning, classificatie en terugvinden van varianten van namen </li></ul><ul><li>- wens van bibliotheken - gewone vocabulaire van namen scheiden in teksten - verhinderen van onaangename resultaten: Abimelech  apemelk! (b/p; i/e; e/0; k/ch ) </li></ul><ul><li>NE lexica </li></ul>
  17. 18. Een aantal resulaten voor het Nederlands
  18. 19. Ground truth data: Nederlands Type and genre # woorden Gold Standard Boek 300k Random Set Boeken 340k Random Set Staten Generaal 2.5M Gold Standard Staten Generaal 500k Gold Standard Kranten 1 3.4M Gold Standard Kranten 2 170k Random Set Kranten 3.2M totaal 13.1M
  19. 20. Lexicon dekking (1: ground truth boeken) Type coverage Token coverage Modern lexicon (e-Lex) 46% 76% Core general lexicon 56% 84% 1 + 2 63% 89% Uitbreiding met corpus-materiaal 78% 95%
  20. 21. Lexicon dekking (2: gt kranten 18 e -19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 40% 83% Core general lexicon 41% 84% 1 + 2 51% 89% Uitbreiding met corpus-materiaal 62% 95%
  21. 22. Lexicon coverage (3: gt Staten Generaal 19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 51% 89% Core general lexicon 47% 88% 1 + 2 58% 93% Uitbreiding met corpus-materiaal 68% 97%
  22. 23. Lexicon coverage (4: gt Staten Generaal 20 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 70% 93% Core general lexicon 66% 93% 1 + 2 76% 96% Uitbreiding met corpusmateriaal 81% 98%
  23. 24. Lexicon coverage (5: Genesis, 1637 bijbel) Type coverage Token coverage Modern lexicon (e-Lex) 31% 61% Core lexicon 62% 83% 1 + 2 65% 89% Uitbreiding met corpusmateriaal 87% 98.6%
  24. 25. Lexicon coverage (6: Hooft, historiën) Type coverage Token coverage Modern lexicon (e-Lex) 26% 67% Core lexicon 47% 88% 1 + 2 50% 90% Uitbreiding met corpusmateriaal 58% 96%
  25. 26. Evaluatie van OCR <ul><li>Finereader SDK (versie 9) </li></ul><ul><li>External dictionary interface (implementatiemodule) </li></ul><ul><li>Uitdaging </li></ul><ul><ul><li>Vertaling van corpusfrequenties naar gewichten 0-100 </li></ul></ul><ul><ul><li>Afgebroken woorden, case-sensitivity, … </li></ul></ul><ul><ul><li>Probleem met de lange s (work around) </li></ul></ul><ul><li>Lexicon Data </li></ul><ul><li>IMPACT OCR-lexicon voor het Nederlands </li></ul><ul><li>Finereader internal lexicon </li></ul>
  26. 27. OCR resultaten: word recognition rate 94.9% 94.9% 90.9% Staten Gen., 1826-27 selectie 94.4 % 90.9% 88.8% DPO35 Met het IMPACT lexicon voorhet Nederlands (case hyphenation) + lange S-probleem Met het IMPACT lexicon voorhet Nederlands (case hyphenation) Met ABBYY intern Nederlands lexicon Dataset
  27. 28. Een voorbeeld: A. De eerste was de gevaarlykste om de verlei- ding aan 't Hof; de tweede de stilste en veiligste; de derde de zwaarste, daar hy byna drie millioenen harde en onbeschaafde Menschen bestieren moest. A. De eerde was de gevaarlykflti om de verlei¬ ding aan 't Hof; de tweede de ftillie en veiligde ; de derde de zwaarde , daar hy byna drie millioenen harde en onbefchaafde Menfchen beftieren moest. Resultaten: OCR aan het begin van het project:
  28. 29. Retrieval demonstrator <ul><li>Indexing and retrieval library (java) geïmplementeerd op de lucene search engine </li></ul><ul><li>Lexicon in MySQL database </li></ul><ul><li>OCR met Finereader SDK en external dictionary interface van ongeveer 2000 images van de Nederlandse Ground Truth selectie </li></ul><ul><li>Page XML output [in framework] </li></ul><ul><li>NE tagging </li></ul><ul><li>Indexing and retrieval met gebruikmaking van lexicon and NE tagging </li></ul>

×