Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1
KB 24 maart 2015
Het INL en de KB-kranten
Katrien Depuydt, hoofd Taalbank Nederlands
Bron van informatie
KB-krantenmateriaal: relatieve frequenties
Enerzijds gebruiker
• (Oudste) voorkomens van woorden/begrippen
• Opsporen nog onbekende woorden/begrippen
Anderzijds: pro...
4
Lexica voor tekstherkenning
• 18th and 19th century books, newspapers, parliamentary papers
• ……..
• Provinciale Overijss...
5
1700-2000
Titles:
Curante uyt Italien, Duytslandt, & c, 1629
amsterdamse dingsdaegse courant, 1670
courante uyt italien duytslandt, ...
Historisch NE gold standard corpus:
Tool voor produktie gold standard: https://github.com/INL/AttestationTool
Dataset OCR?...
Named entity recognition
 NE-recognition op
historisch materiaal is
niet noodzakelijk slechter
dan op modern materiaal
 ...
Named entity recognition
http://inl-labs.inl.nl
Historisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL ...
Historisch semantisch
lexicon
• Historisch wordnet
• Voegt tijdsdimensie toe
• Enerzijds betekenisverandering van woorden ...
Volgende stap: historisch
semantisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt i...
13
Vanuit de woordenboeken
WNT-bier
WNT: zoeken naar “bier” in betekenisomschrijvingen van znw: 70 bieren
MNW-bier
MNW: zoeken naar “bier” in betekenisomschrijvingen van znw: 42 bieren
KB-kranten: frequenties van ‘bieren’ / thee (waterig, dun bier)
Leidsche Courant 1749
http://cornetto.inl.nl: narcoticum, drug
WNT:
NARCOTICUM -1: middel om iemand onder narcose te brengen
Dodonaeus, Ars Medica [ed. post 1624]; [1962]
NARCOTICUM-2: ...
Distributionele methoden
• (Kwantitatieve) Analyse van betekenisprofielen
in corpora
• “You shall know a word by the compa...
Vector space 1
(BN)
Vector space 2
(NN)
Uitdagingen
• OCR en spellingvariatie
• Betekenisindeling woordenboeken niet geschikt (te veel detail)
• Afbakeningen: wat...
31
32
16 depuydt inl
16 depuydt inl
16 depuydt inl
16 depuydt inl
16 depuydt inl
16 depuydt inl
16 depuydt inl
16 depuydt inl
Upcoming SlideShare
Loading in …5
×

16 depuydt inl

802 views

Published on

KB symposium historische kranten als big data,
Den Haag, 24 maart 2015

Published in: Government & Nonprofit
  • Be the first to comment

  • Be the first to like this

16 depuydt inl

  1. 1. 1 KB 24 maart 2015 Het INL en de KB-kranten Katrien Depuydt, hoofd Taalbank Nederlands
  2. 2. Bron van informatie KB-krantenmateriaal: relatieve frequenties
  3. 3. Enerzijds gebruiker • (Oudste) voorkomens van woorden/begrippen • Opsporen nog onbekende woorden/begrippen Anderzijds: probeer bij te dragen aan ontsluiting materiaal • Lexica voor tekstherkenning (OCR) • Named entity recognition • Zoeken onafhankelijk van vormvariatie • Zoeken naar concepten die vroegen anders benoemd werden (aap; boer; slager; dokter, .....) INL en KB kranten
  4. 4. 4 Lexica voor tekstherkenning • 18th and 19th century books, newspapers, parliamentary papers • …….. • Provinciale Overijsselsche en Zwolsche courant : staats-, handels-, nieuws- en advertentieblad, 1852-1852 • Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...] op den 7 january 1796. / By B. Voorda et al, 1796-1796 • Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben, te Utrecht, 1784-1784 • Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk tot eene Nationaale Conventie, 1795-1795
  5. 5. 5 1700-2000
  6. 6. Titles: Curante uyt Italien, Duytslandt, & c, 1629 amsterdamse dingsdaegse courant, 1670 courante uyt italien duytslandt, 1618 1600-1700
  7. 7. Historisch NE gold standard corpus: Tool voor produktie gold standard: https://github.com/INL/AttestationTool Dataset OCR? Genre time period number of words CONLL no Belgian (Flemish) newspapers 20th c. 332,000 DBNL no prose, poetry, plays, non-fiction 18th and 19thc. 18th c: 581,099 19th c: 272,720 Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c. 19th c: 273,797 20th c: 280,805 Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253 Named entity recognition
  8. 8. Named entity recognition  NE-recognition op historisch materiaal is niet noodzakelijk slechter dan op modern materiaal  Belang van overeenkomst tussen trainingset (tijd, genre) en dataset waarop NE recognition moet worden uitgevoerd  Reductie van spellingvariatie en gebruik van gazetteers verbeteren de NE recognition • Training files die bestaan uit random geselecteerde zinnen geven een beter resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen materiaal als de DBNL.
  9. 9. Named entity recognition http://inl-labs.inl.nl
  10. 10. Historisch lexicon • Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, .... • http://www.delpher.nl/
  11. 11. Historisch semantisch lexicon • Historisch wordnet • Voegt tijdsdimensie toe • Enerzijds betekenisverandering van woorden die zowel vroeger als nu voorkwamen • Anderzijds historische equivalenten van moderne woorden • Ontwikkelen op basis van – Historische woordenboeken (VMNW, MNW, WNT) – Open Dutch Wordnet (vgl http://cornetto.inl.nl) – Corpusmateriaal
  12. 12. Volgende stap: historisch semantisch lexicon • Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, .... • VOORBEELD uit Delpher halen
  13. 13. 13 Vanuit de woordenboeken
  14. 14. WNT-bier WNT: zoeken naar “bier” in betekenisomschrijvingen van znw: 70 bieren
  15. 15. MNW-bier MNW: zoeken naar “bier” in betekenisomschrijvingen van znw: 42 bieren
  16. 16. KB-kranten: frequenties van ‘bieren’ / thee (waterig, dun bier)
  17. 17. Leidsche Courant 1749
  18. 18. http://cornetto.inl.nl: narcoticum, drug
  19. 19. WNT: NARCOTICUM -1: middel om iemand onder narcose te brengen Dodonaeus, Ars Medica [ed. post 1624]; [1962] NARCOTICUM-2: drug, bedwelmend middel [1923]; [1938]; [1962] DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een verdoovende, stimuleerende of hallucineerende werking [1968][1969][1970]
  20. 20. Distributionele methoden • (Kwantitatieve) Analyse van betekenisprofielen in corpora • “You shall know a word by the company it keeps” • Success stories: – Gerelateerde/verwante woorden vinden – Vectorruimten met betekenisvolle dimensies – Cross-lectale” correspondenties (QLVL
  21. 21. Vector space 1 (BN) Vector space 2 (NN)
  22. 22. Uitdagingen • OCR en spellingvariatie • Betekenisindeling woordenboeken niet geschikt (te veel detail) • Afbakeningen: wat is een (bijna-)synoniem, etc.. • Welke woordrelaties hebben we nodig? • Voor corpus-gebaseerde methoden: homonymie; integreren van token-gebaseerde benadering • Voor oudere fasen: meer corpusmateriaal nodig • Etc, etc...
  23. 23. 31
  24. 24. 32

×