16 depuydt inl

1
KB 24 maart 2015
Het INL en de KB-kranten
Katrien Depuydt, hoofd Taalbank Nederlands

Bron van informatie
KB-krantenmateriaal: relatieve frequenties

Enerzijds gebruiker
• (Oudste) voorkomens van woorden/begrippen
• Opsporen nog onbekende woorden/begrippen
Anderzijds: probeer bij te dragen aan ontsluiting materiaal
• Lexica voor tekstherkenning (OCR)
• Named entity recognition
• Zoeken onafhankelijk van vormvariatie
• Zoeken naar concepten die vroegen anders benoemd werden (aap;
boer; slager; dokter, .....)
INL en KB kranten

4
Lexica voor tekstherkenning
• 18th and 19th century books, newspapers, parliamentary papers
• ……..
• Provinciale Overĳsselsche en Zwolsche courant : staats-, handels-, nieuws- en
advertentieblad, 1852-1852
• Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan
de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...]
op den 7 january 1796. / By B. Voorda et al, 1796-1796
• Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben,
te Utrecht, 1784-1784
• Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen
bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk
tot eene Nationaale Conventie, 1795-1795

Titles:
Curante uyt Italien, Duytslandt, & c, 1629
amsterdamse dingsdaegse courant, 1670
courante uyt italien duytslandt, 1618
1600-1700

Historisch NE gold standard corpus:
Tool voor produktie gold standard: https://github.com/INL/AttestationTool
Dataset OCR? Genre time period number of words
CONLL no Belgian (Flemish) newspapers 20th c. 332,000
DBNL no
prose, poetry, plays,
non-fiction
18th and 19thc.
18th c: 581,099
19th c: 272,720
Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c.
19th c: 273,797
20th c: 280,805
Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253
Named entity recognition

 NE-recognition op
historisch materiaal is
niet noodzakelijk slechter
dan op modern materiaal
 Belang van overeenkomst
tussen trainingset (tijd,
genre) en dataset waarop
NE recognition moet
worden uitgevoerd
 Reductie van
spellingvariatie en
gebruik van gazetteers
verbeteren de NE
recognition
• Training files die bestaan uit random geselecteerde zinnen geven een beter
resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen
materiaal als de DBNL.

http://inl-labs.inl.nl

Historisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, ....
• http://www.delpher.nl/

Historisch semantisch
lexicon
• Historisch wordnet
• Voegt tijdsdimensie toe
• Enerzijds betekenisverandering van woorden die
zowel vroeger als nu voorkwamen
• Anderzijds historische equivalenten van moderne
woorden
• Ontwikkelen op basis van
– Historische woordenboeken (VMNW, MNW, WNT)
– Open Dutch Wordnet (vgl http://cornetto.inl.nl)
– Corpusmateriaal

Volgende stap: historisch
semantisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, ....
• VOORBEELD uit Delpher halen

WNT-bier
WNT: zoeken naar “bier” in betekenisomschrijvingen van znw: 70 bieren

MNW-bier
MNW: zoeken naar “bier” in betekenisomschrijvingen van znw: 42 bieren

KB-kranten: frequenties van ‘bieren’ / thee (waterig, dun bier)

http://cornetto.inl.nl: narcoticum, drug

WNT:
NARCOTICUM -1: middel om iemand onder narcose te brengen
Dodonaeus, Ars Medica [ed. post 1624]; [1962]
NARCOTICUM-2: drug, bedwelmend middel
[1923]; [1938]; [1962]
DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een
verdoovende, stimuleerende of hallucineerende werking
[1968][1969][1970]

Distributionele methoden
• (Kwantitatieve) Analyse van betekenisprofielen
in corpora
• “You shall know a word by the company it
keeps”
• Success stories:
– Gerelateerde/verwante woorden vinden
– Vectorruimten met betekenisvolle dimensies
– Cross-lectale” correspondenties (QLVL

Vector space 1
(BN)
Vector space 2
(NN)

Uitdagingen
• OCR en spellingvariatie
• Betekenisindeling woordenboeken niet geschikt (te veel detail)
• Afbakeningen: wat is een (bijna-)synoniem, etc..
• Welke woordrelaties hebben we nodig?
• Voor corpus-gebaseerde methoden: homonymie; integreren van
token-gebaseerde benadering
• Voor oudere fasen: meer corpusmateriaal nodig
• Etc, etc...

16 depuydt inl

Recommended

Recommended

More Related Content

Similar to 16 depuydt inl

Similar to 16 depuydt inl (6)

More from ingeangevaare

More from ingeangevaare (15)

16 depuydt inl