Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...Olaf Janssen
Presentatie over Delpher (delpher.nl) voor de medewerkers van De Digitale Bibliotheek voor de Nederlandse Letteren. De DBNL vanaf 2015 ondergebracht bij de Koninklijke Bibliotheek (KB) in Den Haag (http://www.den.nl/nieuws/bericht/3697). De twee organisaties maken op dit moment kennis met elkaar en elkaars diensten, waaronder Delpher.
Delpher - presentatie voor Digitale Bibliotheek voor de Nederlandse Letteren ...Olaf Janssen
Presentatie over Delpher (delpher.nl) voor de medewerkers van De Digitale Bibliotheek voor de Nederlandse Letteren. De DBNL vanaf 2015 ondergebracht bij de Koninklijke Bibliotheek (KB) in Den Haag (http://www.den.nl/nieuws/bericht/3697). De twee organisaties maken op dit moment kennis met elkaar en elkaars diensten, waaronder Delpher.
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...Netwerk Oorlogsbronnen
De sessie 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken' op vrijdag 25 augustus om 16 uur tijdens de Historicidagen 2017.
Vooral op het terrein van vindbaarheid van bronnen is nog veel winst te behalen. En met de voortschrijdende techniek kan dit ook. Op dit moment is slechts een klein deel van alle collecties - het topje van de ijsberg - digitaal beschikbaar. Hoeveel onvindbare schatten zitten er nog in de Nederlandse archieven? Deze sessie geeft een kijkje in de keuken aan de hand van enkele praktische voorbeelden: automatische tekst- en handschriftherkenning, event modelling, linked open data, crowdsourcing, named entity recognition en andere methodieken. Wat kun je ermee als historicus en hoe gaat dit het onderzoek veranderen?
Moderator: Puck Huitsing (Netwerk Oorlogsbronnen).
Sprekers: Marieke van Erp (VU), Ceciel Huitema (Nationaal Archief), Olaf Janssen (Koninklijke Bibliotheek), Edwin Klijn (Netwerk Oorlogsbronnen) en Nico Vriend (Noord-Hollands Archief).
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...Olaf Janssen
Presentation (in Dtch) about the open data sets of the Koninklijke Bibliotheek (KB), the national library of the Netherlands (http://kb.nl/dataservices). What open data does the KB offer (dd. 8-6-2013), where can you find it and what are you allowed to do with it? What are the opportunities for reusing this data on Wikipedia, Wikimedia Commons en Wikisource? This slidedeck is also available on http://commons.wikimedia.org/wiki/File:Open_Data_KB_en_Wikipedia_8juni2013_OlafJanssen.pdf
Een laboratorium voor onderzoek naar de veranderingspatronen in de Nederlandse taal en cultuur
3,2 miljoen subsidie van NWO-groot, KNAW, CLARIN, CLARIAH
Prof. dr. Nicoline van der Sijs, projectleider Nederlab
Radboud universiteit Nijmegen / Meertens Instituut, Amsterdam
Verzetskranten Tweede Wereldoorlog naar WikipediaOlaf Janssen
Tijdens de Tweede Wereldoorlog zijn plusminus 1200 verzetskrantentitels uitgegeven. Deze zijn vrijwel allemaal full-tekst in www.Delpher.nl beschikbaar. Delpher biedt – behalve wat summiere publicatiegegevens - echter geen contextuele (achtergrond)informatie over die verzetskranten.
Voor veel mensen zal Wikipedia een natuurlijke plek zijn om dit soort informatie op te zoeken. Helaas is de inventarisatie en beschrijving van de WW2-verzetskranten op Wikipedia zeer onvolledig, van de 1200 worden er maar een handjevol beschreven.
Dit project heef twee doelen:
• Een Wikipedia-artikel (en geassocieerd Wikidata-item) maken voor elk van de 1200 verzetskrantentitels. Hierbij wordt gebruik gemaakt van informatie uit "De Ondergrondse Pers 1940-1945" van Lydia E. Winkel (http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945), Delpher en de KB-catalogus. Vanuit elk artikel worden koppelingen gelegd terug naar deze bronbestanden.
• Het gebruiken van deze artikelen om (via de Wikipedia API) de krantentitels in Delpher van extra context te voorzien.
Meer info: https://nl.wikipedia.org/wiki/Wikipedia:Wikiproject/Verzetskranten
Prof. dr. Pierre Delsaerdt (Universiteit Antwerpen, bestuurslid van CERL)
Sinds enkele jaren zijn de Vlaamse Erfgoedbibliotheek en haar partners lid van het Consortium of European Research Libraries. Wat doet CERL nu eigenlijk? En vooral: wat kan CERL betekenen voor (grote en kleine) bibliotheken in Vlaanderen? Pierre Delsaerdt vertelt u over enkele belangrijke realisaties van CERL en hoe u daarvan de vruchten kunt rapen.
Historicidagen 2017 'Collectie-ontsluiting next level: de ijsberg zichtbaar m...Netwerk Oorlogsbronnen
De sessie 'Collectie-ontsluiting next level: de ijsberg zichtbaar maken' op vrijdag 25 augustus om 16 uur tijdens de Historicidagen 2017.
Vooral op het terrein van vindbaarheid van bronnen is nog veel winst te behalen. En met de voortschrijdende techniek kan dit ook. Op dit moment is slechts een klein deel van alle collecties - het topje van de ijsberg - digitaal beschikbaar. Hoeveel onvindbare schatten zitten er nog in de Nederlandse archieven? Deze sessie geeft een kijkje in de keuken aan de hand van enkele praktische voorbeelden: automatische tekst- en handschriftherkenning, event modelling, linked open data, crowdsourcing, named entity recognition en andere methodieken. Wat kun je ermee als historicus en hoe gaat dit het onderzoek veranderen?
Moderator: Puck Huitsing (Netwerk Oorlogsbronnen).
Sprekers: Marieke van Erp (VU), Ceciel Huitema (Nationaal Archief), Olaf Janssen (Koninklijke Bibliotheek), Edwin Klijn (Netwerk Oorlogsbronnen) en Nico Vriend (Noord-Hollands Archief).
Open data sets of the Koninklijke Bibliotheek - Opportunities for reuse on Wi...Olaf Janssen
Presentation (in Dtch) about the open data sets of the Koninklijke Bibliotheek (KB), the national library of the Netherlands (http://kb.nl/dataservices). What open data does the KB offer (dd. 8-6-2013), where can you find it and what are you allowed to do with it? What are the opportunities for reusing this data on Wikipedia, Wikimedia Commons en Wikisource? This slidedeck is also available on http://commons.wikimedia.org/wiki/File:Open_Data_KB_en_Wikipedia_8juni2013_OlafJanssen.pdf
Een laboratorium voor onderzoek naar de veranderingspatronen in de Nederlandse taal en cultuur
3,2 miljoen subsidie van NWO-groot, KNAW, CLARIN, CLARIAH
Prof. dr. Nicoline van der Sijs, projectleider Nederlab
Radboud universiteit Nijmegen / Meertens Instituut, Amsterdam
Verzetskranten Tweede Wereldoorlog naar WikipediaOlaf Janssen
Tijdens de Tweede Wereldoorlog zijn plusminus 1200 verzetskrantentitels uitgegeven. Deze zijn vrijwel allemaal full-tekst in www.Delpher.nl beschikbaar. Delpher biedt – behalve wat summiere publicatiegegevens - echter geen contextuele (achtergrond)informatie over die verzetskranten.
Voor veel mensen zal Wikipedia een natuurlijke plek zijn om dit soort informatie op te zoeken. Helaas is de inventarisatie en beschrijving van de WW2-verzetskranten op Wikipedia zeer onvolledig, van de 1200 worden er maar een handjevol beschreven.
Dit project heef twee doelen:
• Een Wikipedia-artikel (en geassocieerd Wikidata-item) maken voor elk van de 1200 verzetskrantentitels. Hierbij wordt gebruik gemaakt van informatie uit "De Ondergrondse Pers 1940-1945" van Lydia E. Winkel (http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945), Delpher en de KB-catalogus. Vanuit elk artikel worden koppelingen gelegd terug naar deze bronbestanden.
• Het gebruiken van deze artikelen om (via de Wikipedia API) de krantentitels in Delpher van extra context te voorzien.
Meer info: https://nl.wikipedia.org/wiki/Wikipedia:Wikiproject/Verzetskranten
Prof. dr. Pierre Delsaerdt (Universiteit Antwerpen, bestuurslid van CERL)
Sinds enkele jaren zijn de Vlaamse Erfgoedbibliotheek en haar partners lid van het Consortium of European Research Libraries. Wat doet CERL nu eigenlijk? En vooral: wat kan CERL betekenen voor (grote en kleine) bibliotheken in Vlaanderen? Pierre Delsaerdt vertelt u over enkele belangrijke realisaties van CERL en hoe u daarvan de vruchten kunt rapen.
3. Enerzijds gebruiker
• (Oudste) voorkomens van woorden/begrippen
• Opsporen nog onbekende woorden/begrippen
Anderzijds: probeer bij te dragen aan ontsluiting materiaal
• Lexica voor tekstherkenning (OCR)
• Named entity recognition
• Zoeken onafhankelijk van vormvariatie
• Zoeken naar concepten die vroegen anders benoemd werden (aap;
boer; slager; dokter, .....)
INL en KB kranten
4. 4
Lexica voor tekstherkenning
• 18th and 19th century books, newspapers, parliamentary papers
• ……..
• Provinciale Overijsselsche en Zwolsche courant : staats-, handels-, nieuws- en
advertentieblad, 1852-1852
• Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan
de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...]
op den 7 january 1796. / By B. Voorda et al, 1796-1796
• Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben,
te Utrecht, 1784-1784
• Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen
bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk
tot eene Nationaale Conventie, 1795-1795
7. Historisch NE gold standard corpus:
Tool voor produktie gold standard: https://github.com/INL/AttestationTool
Dataset OCR? Genre time period number of words
CONLL no Belgian (Flemish) newspapers 20th c. 332,000
DBNL no
prose, poetry, plays,
non-fiction
18th and 19thc.
18th c: 581,099
19th c: 272,720
Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c.
19th c: 273,797
20th c: 280,805
Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253
Named entity recognition
8. Named entity recognition
NE-recognition op
historisch materiaal is
niet noodzakelijk slechter
dan op modern materiaal
Belang van overeenkomst
tussen trainingset (tijd,
genre) en dataset waarop
NE recognition moet
worden uitgevoerd
Reductie van
spellingvariatie en
gebruik van gazetteers
verbeteren de NE
recognition
• Training files die bestaan uit random geselecteerde zinnen geven een beter
resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen
materiaal als de DBNL.
10. Historisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, ....
• http://www.delpher.nl/
11. Historisch semantisch
lexicon
• Historisch wordnet
• Voegt tijdsdimensie toe
• Enerzijds betekenisverandering van woorden die
zowel vroeger als nu voorkwamen
• Anderzijds historische equivalenten van moderne
woorden
• Ontwikkelen op basis van
– Historische woordenboeken (VMNW, MNW, WNT)
– Open Dutch Wordnet (vgl http://cornetto.inl.nl)
– Corpusmateriaal
12. Volgende stap: historisch
semantisch lexicon
• Vormvarianten met gedateerde attestaties
• Lexicon web service
• Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, ....
• VOORBEELD uit Delpher halen
19. WNT:
NARCOTICUM -1: middel om iemand onder narcose te brengen
Dodonaeus, Ars Medica [ed. post 1624]; [1962]
NARCOTICUM-2: drug, bedwelmend middel
[1923]; [1938]; [1962]
DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een
verdoovende, stimuleerende of hallucineerende werking
[1968][1969][1970]
20.
21. Distributionele methoden
• (Kwantitatieve) Analyse van betekenisprofielen
in corpora
• “You shall know a word by the company it
keeps”
• Success stories:
– Gerelateerde/verwante woorden vinden
– Vectorruimten met betekenisvolle dimensies
– Cross-lectale” correspondenties (QLVL
30. Uitdagingen
• OCR en spellingvariatie
• Betekenisindeling woordenboeken niet geschikt (te veel detail)
• Afbakeningen: wat is een (bijna-)synoniem, etc..
• Welke woordrelaties hebben we nodig?
• Voor corpus-gebaseerde methoden: homonymie; integreren van
token-gebaseerde benadering
• Voor oudere fasen: meer corpusmateriaal nodig
• Etc, etc...