3. Enerzijds gebruiker
• (Oudste) voorkomens van woorden/begrippen
• Opsporen nog onbekende woorden/begrippen
Anderzijds: probeer bij te dragen aan ontsluiting materiaal
• Lexica voor tekstherkenning (OCR)
• Named entity recognition
• Zoeken onafhankelijk van vormvariatie
• Zoeken naar concepten die vroegen anders benoemd werden (aap;
boer; slager; dokter, .....)
INL en KB kranten
4. 4
Lexica voor tekstherkenning
• 18th and 19th century books, newspapers, parliamentary papers
• ……..
• Provinciale Overijsselsche en Zwolsche courant : staats-, handels-, nieuws- en
advertentieblad, 1852-1852
• Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan
de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...]
op den 7 january 1796. / By B. Voorda et al, 1796-1796
• Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben,
te Utrecht, 1784-1784
• Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen
bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk
tot eene Nationaale Conventie, 1795-1795
7. Historisch NE gold standard corpus:
Tool voor produktie gold standard: https://github.com/INL/AttestationTool
Dataset OCR? Genre time period number of words
CONLL no Belgian (Flemish) newspapers 20th c. 332,000
DBNL no
prose, poetry, plays,
non-fiction
18th and 19thc.
18th c: 581,099
19th c: 272,720
Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c.
19th c: 273,797
20th c: 280,805
Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253
Named entity recognition
8. Named entity recognition
NE-recognition op
historisch materiaal is
niet noodzakelijk slechter
dan op modern materiaal
Belang van overeenkomst
tussen trainingset (tijd,
genre) en dataset waarop
NE recognition moet
worden uitgevoerd
Reductie van
spellingvariatie en
gebruik van gazetteers
verbeteren de NE
recognition
• Training files die bestaan uit random geselecteerde zinnen geven een beter
resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen
materiaal als de DBNL.
10. Historisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, ....
• http://www.delpher.nl/
11. Historisch semantisch
lexicon
• Historisch wordnet
• Voegt tijdsdimensie toe
• Enerzijds betekenisverandering van woorden die
zowel vroeger als nu voorkwamen
• Anderzijds historische equivalenten van moderne
woorden
• Ontwikkelen op basis van
– Historische woordenboeken (VMNW, MNW, WNT)
– Open Dutch Wordnet (vgl http://cornetto.inl.nl)
– Corpusmateriaal
12. Volgende stap: historisch
semantisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, ....
• VOORBEELD uit Delpher halen
19. WNT:
NARCOTICUM -1: middel om iemand onder narcose te brengen
Dodonaeus, Ars Medica [ed. post 1624]; [1962]
NARCOTICUM-2: drug, bedwelmend middel
[1923]; [1938]; [1962]
DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een
verdoovende, stimuleerende of hallucineerende werking
[1968][1969][1970]
20.
21. Distributionele methoden
• (Kwantitatieve) Analyse van betekenisprofielen
in corpora
• “You shall know a word by the company it
keeps”
• Success stories:
– Gerelateerde/verwante woorden vinden
– Vectorruimten met betekenisvolle dimensies
– Cross-lectale” correspondenties (QLVL
30. Uitdagingen
• OCR en spellingvariatie
• Betekenisindeling woordenboeken niet geschikt (te veel detail)
• Afbakeningen: wat is een (bijna-)synoniem, etc..
• Welke woordrelaties hebben we nodig?
• Voor corpus-gebaseerde methoden: homonymie; integreren van
token-gebaseerde benadering
• Voor oudere fasen: meer corpusmateriaal nodig
• Etc, etc...