SlideShare a Scribd company logo
1 of 32
Download to read offline
1
KB 24 maart 2015
Het INL en de KB-kranten
Katrien Depuydt, hoofd Taalbank Nederlands
Bron van informatie
KB-krantenmateriaal: relatieve frequenties
Enerzijds gebruiker
• (Oudste) voorkomens van woorden/begrippen
• Opsporen nog onbekende woorden/begrippen
Anderzijds: probeer bij te dragen aan ontsluiting materiaal
• Lexica voor tekstherkenning (OCR)
• Named entity recognition
• Zoeken onafhankelijk van vormvariatie
• Zoeken naar concepten die vroegen anders benoemd werden (aap;
boer; slager; dokter, .....)
INL en KB kranten
4
Lexica voor tekstherkenning
• 18th and 19th century books, newspapers, parliamentary papers
• ……..
• Provinciale Overijsselsche en Zwolsche courant : staats-, handels-, nieuws- en
advertentieblad, 1852-1852
• Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan
de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...]
op den 7 january 1796. / By B. Voorda et al, 1796-1796
• Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben,
te Utrecht, 1784-1784
• Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen
bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk
tot eene Nationaale Conventie, 1795-1795
5
1700-2000
Titles:
Curante uyt Italien, Duytslandt, & c, 1629
amsterdamse dingsdaegse courant, 1670
courante uyt italien duytslandt, 1618
1600-1700
Historisch NE gold standard corpus:
Tool voor produktie gold standard: https://github.com/INL/AttestationTool
Dataset OCR? Genre time period number of words
CONLL no Belgian (Flemish) newspapers 20th c. 332,000
DBNL no
prose, poetry, plays,
non-fiction
18th and 19thc.
18th c: 581,099
19th c: 272,720
Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c.
19th c: 273,797
20th c: 280,805
Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253
Named entity recognition
Named entity recognition
 NE-recognition op
historisch materiaal is
niet noodzakelijk slechter
dan op modern materiaal
 Belang van overeenkomst
tussen trainingset (tijd,
genre) en dataset waarop
NE recognition moet
worden uitgevoerd
 Reductie van
spellingvariatie en
gebruik van gazetteers
verbeteren de NE
recognition
• Training files die bestaan uit random geselecteerde zinnen geven een beter
resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen
materiaal als de DBNL.
Named entity recognition
http://inl-labs.inl.nl
Historisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, ....
• http://www.delpher.nl/
Historisch semantisch
lexicon
• Historisch wordnet
• Voegt tijdsdimensie toe
• Enerzijds betekenisverandering van woorden die
zowel vroeger als nu voorkwamen
• Anderzijds historische equivalenten van moderne
woorden
• Ontwikkelen op basis van
– Historische woordenboeken (VMNW, MNW, WNT)
– Open Dutch Wordnet (vgl http://cornetto.inl.nl)
– Corpusmateriaal
Volgende stap: historisch
semantisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, ....
• VOORBEELD uit Delpher halen
13
Vanuit de woordenboeken
WNT-bier
WNT: zoeken naar “bier” in betekenisomschrijvingen van znw: 70 bieren
MNW-bier
MNW: zoeken naar “bier” in betekenisomschrijvingen van znw: 42 bieren
KB-kranten: frequenties van ‘bieren’ / thee (waterig, dun bier)
Leidsche Courant 1749
http://cornetto.inl.nl: narcoticum, drug
WNT:
NARCOTICUM -1: middel om iemand onder narcose te brengen
Dodonaeus, Ars Medica [ed. post 1624]; [1962]
NARCOTICUM-2: drug, bedwelmend middel
[1923]; [1938]; [1962]
DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een
verdoovende, stimuleerende of hallucineerende werking
[1968][1969][1970]
Distributionele methoden
• (Kwantitatieve) Analyse van betekenisprofielen
in corpora
• “You shall know a word by the company it
keeps”
• Success stories:
– Gerelateerde/verwante woorden vinden
– Vectorruimten met betekenisvolle dimensies
– Cross-lectale” correspondenties (QLVL
Vector space 1
(BN)
Vector space 2
(NN)
Uitdagingen
• OCR en spellingvariatie
• Betekenisindeling woordenboeken niet geschikt (te veel detail)
• Afbakeningen: wat is een (bijna-)synoniem, etc..
• Welke woordrelaties hebben we nodig?
• Voor corpus-gebaseerde methoden: homonymie; integreren van
token-gebaseerde benadering
• Voor oudere fasen: meer corpusmateriaal nodig
• Etc, etc...
31
32

More Related Content

Similar to 16 depuydt inl

Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...Netwerk Oorlogsbronnen
 
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...Olaf Janssen
 
Verzetskranten Tweede Wereldoorlog naar Wikipedia
Verzetskranten Tweede Wereldoorlog naar WikipediaVerzetskranten Tweede Wereldoorlog naar Wikipedia
Verzetskranten Tweede Wereldoorlog naar WikipediaOlaf Janssen
 
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...Vlaamse Erfgoedbibliotheken
 

Similar to 16 depuydt inl (6)

"Goed genoeg is ruim voldoende"
"Goed genoeg is ruim voldoende""Goed genoeg is ruim voldoende"
"Goed genoeg is ruim voldoende"
 
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...
 
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...
 
Nederlab
NederlabNederlab
Nederlab
 
Verzetskranten Tweede Wereldoorlog naar Wikipedia
Verzetskranten Tweede Wereldoorlog naar WikipediaVerzetskranten Tweede Wereldoorlog naar Wikipedia
Verzetskranten Tweede Wereldoorlog naar Wikipedia
 
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
CERL. Internationaal platform voor samenwerking tussen erfgoedbibliotheken (O...
 

More from ingeangevaare

17. kb.nederlab.20150324
17. kb.nederlab.2015032417. kb.nederlab.20150324
17. kb.nederlab.20150324ingeangevaare
 
15. political discourseinthenewskb
15. political discourseinthenewskb15. political discourseinthenewskb
15. political discourseinthenewskbingeangevaare
 
14 hollink poli_media
14 hollink poli_media14 hollink poli_media
14 hollink poli_mediaingeangevaare
 
13. dunning europeana newspapers-kb big data workshop
13. dunning europeana newspapers-kb big data workshop13. dunning europeana newspapers-kb big data workshop
13. dunning europeana newspapers-kb big data workshopingeangevaare
 
12 janssen wikiproject_verzetskranten
12 janssen wikiproject_verzetskranten12 janssen wikiproject_verzetskranten
12 janssen wikiproject_verzetskranteningeangevaare
 
10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus
10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus
10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpusingeangevaare
 
07 verheul texcavator
07 verheul texcavator07 verheul texcavator
07 verheul texcavatoringeangevaare
 
05. de boer dutchships
05. de boer dutchships05. de boer dutchships
05. de boer dutchshipsingeangevaare
 
04 wijfjes pillarisationin_historicalresources
04 wijfjes pillarisationin_historicalresources04 wijfjes pillarisationin_historicalresources
04 wijfjes pillarisationin_historicalresourcesingeangevaare
 
02 claeyssens het_kb-krantencorpus
02 claeyssens het_kb-krantencorpus02 claeyssens het_kb-krantencorpus
02 claeyssens het_kb-krantencorpusingeangevaare
 
20111117 pdfa angevaare
20111117 pdfa angevaare20111117 pdfa angevaare
20111117 pdfa angevaareingeangevaare
 
20100906 kenniskoppelen
20100906 kenniskoppelen20100906 kenniskoppelen
20100906 kenniskoppeleningeangevaare
 

More from ingeangevaare (15)

17. kb.nederlab.20150324
17. kb.nederlab.2015032417. kb.nederlab.20150324
17. kb.nederlab.20150324
 
15. political discourseinthenewskb
15. political discourseinthenewskb15. political discourseinthenewskb
15. political discourseinthenewskb
 
14 hollink poli_media
14 hollink poli_media14 hollink poli_media
14 hollink poli_media
 
13. dunning europeana newspapers-kb big data workshop
13. dunning europeana newspapers-kb big data workshop13. dunning europeana newspapers-kb big data workshop
13. dunning europeana newspapers-kb big data workshop
 
12 janssen wikiproject_verzetskranten
12 janssen wikiproject_verzetskranten12 janssen wikiproject_verzetskranten
12 janssen wikiproject_verzetskranten
 
11 wilms kb_lab
11 wilms kb_lab11 wilms kb_lab
11 wilms kb_lab
 
10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus
10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus
10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus
 
07 verheul texcavator
07 verheul texcavator07 verheul texcavator
07 verheul texcavator
 
06 traub
06 traub06 traub
06 traub
 
05. de boer dutchships
05. de boer dutchships05. de boer dutchships
05. de boer dutchships
 
04 wijfjes pillarisationin_historicalresources
04 wijfjes pillarisationin_historicalresources04 wijfjes pillarisationin_historicalresources
04 wijfjes pillarisationin_historicalresources
 
02 claeyssens het_kb-krantencorpus
02 claeyssens het_kb-krantencorpus02 claeyssens het_kb-krantencorpus
02 claeyssens het_kb-krantencorpus
 
20111117 pdfa angevaare
20111117 pdfa angevaare20111117 pdfa angevaare
20111117 pdfa angevaare
 
20100923i pres
20100923i pres20100923i pres
20100923i pres
 
20100906 kenniskoppelen
20100906 kenniskoppelen20100906 kenniskoppelen
20100906 kenniskoppelen
 

16 depuydt inl

  • 1. 1 KB 24 maart 2015 Het INL en de KB-kranten Katrien Depuydt, hoofd Taalbank Nederlands
  • 3. Enerzijds gebruiker • (Oudste) voorkomens van woorden/begrippen • Opsporen nog onbekende woorden/begrippen Anderzijds: probeer bij te dragen aan ontsluiting materiaal • Lexica voor tekstherkenning (OCR) • Named entity recognition • Zoeken onafhankelijk van vormvariatie • Zoeken naar concepten die vroegen anders benoemd werden (aap; boer; slager; dokter, .....) INL en KB kranten
  • 4. 4 Lexica voor tekstherkenning • 18th and 19th century books, newspapers, parliamentary papers • …….. • Provinciale Overijsselsche en Zwolsche courant : staats-, handels-, nieuws- en advertentieblad, 1852-1852 • Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...] op den 7 january 1796. / By B. Voorda et al, 1796-1796 • Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben, te Utrecht, 1784-1784 • Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk tot eene Nationaale Conventie, 1795-1795
  • 6. Titles: Curante uyt Italien, Duytslandt, & c, 1629 amsterdamse dingsdaegse courant, 1670 courante uyt italien duytslandt, 1618 1600-1700
  • 7. Historisch NE gold standard corpus: Tool voor produktie gold standard: https://github.com/INL/AttestationTool Dataset OCR? Genre time period number of words CONLL no Belgian (Flemish) newspapers 20th c. 332,000 DBNL no prose, poetry, plays, non-fiction 18th and 19thc. 18th c: 581,099 19th c: 272,720 Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c. 19th c: 273,797 20th c: 280,805 Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253 Named entity recognition
  • 8. Named entity recognition  NE-recognition op historisch materiaal is niet noodzakelijk slechter dan op modern materiaal  Belang van overeenkomst tussen trainingset (tijd, genre) en dataset waarop NE recognition moet worden uitgevoerd  Reductie van spellingvariatie en gebruik van gazetteers verbeteren de NE recognition • Training files die bestaan uit random geselecteerde zinnen geven een beter resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen materiaal als de DBNL.
  • 10. Historisch lexicon • Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, .... • http://www.delpher.nl/
  • 11. Historisch semantisch lexicon • Historisch wordnet • Voegt tijdsdimensie toe • Enerzijds betekenisverandering van woorden die zowel vroeger als nu voorkwamen • Anderzijds historische equivalenten van moderne woorden • Ontwikkelen op basis van – Historische woordenboeken (VMNW, MNW, WNT) – Open Dutch Wordnet (vgl http://cornetto.inl.nl) – Corpusmateriaal
  • 12. Volgende stap: historisch semantisch lexicon • Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, .... • VOORBEELD uit Delpher halen
  • 14. WNT-bier WNT: zoeken naar “bier” in betekenisomschrijvingen van znw: 70 bieren
  • 15. MNW-bier MNW: zoeken naar “bier” in betekenisomschrijvingen van znw: 42 bieren
  • 16. KB-kranten: frequenties van ‘bieren’ / thee (waterig, dun bier)
  • 19. WNT: NARCOTICUM -1: middel om iemand onder narcose te brengen Dodonaeus, Ars Medica [ed. post 1624]; [1962] NARCOTICUM-2: drug, bedwelmend middel [1923]; [1938]; [1962] DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een verdoovende, stimuleerende of hallucineerende werking [1968][1969][1970]
  • 20.
  • 21. Distributionele methoden • (Kwantitatieve) Analyse van betekenisprofielen in corpora • “You shall know a word by the company it keeps” • Success stories: – Gerelateerde/verwante woorden vinden – Vectorruimten met betekenisvolle dimensies – Cross-lectale” correspondenties (QLVL
  • 22.
  • 23.
  • 24.
  • 25.
  • 27.
  • 28.
  • 29.
  • 30. Uitdagingen • OCR en spellingvariatie • Betekenisindeling woordenboeken niet geschikt (te veel detail) • Afbakeningen: wat is een (bijna-)synoniem, etc.. • Welke woordrelaties hebben we nodig? • Voor corpus-gebaseerde methoden: homonymie; integreren van token-gebaseerde benadering • Voor oudere fasen: meer corpusmateriaal nodig • Etc, etc...
  • 31. 31
  • 32. 32