Ben Companjen, Peter Verhaar en Laurents Sesink, all from the Centre for Digital Scholarship, act together in an elaborate overview of the ins and outs of text and data mining and the services provided by Leiden University Libraries.
Laurents Sesink from the Centre for Digital Scholarship explores the possibilities for sustainable storage and access for special collections within the new repository infrastructure at Leiden University Libraries.
Held at KITLV, Royal Netherlands Institute of Southeast Asian and Caribbean Studies, 2016.
Visie op DLWO: case van Universiteit Maastricht - Jeroen ten Haaf - OWD13SURF Events
Sessieronde 2
Zaal: Leeuwen l + ll
Titel: Visie op DLWO: cases van twee instellingen
Sprekers: Robbert Bosch (Hogeschool van Amsterdam), Bas Bakker (Hogeschool van Amsterdam), Jeroen ten Haaf (Universiteit Maastricht), Lianne van Elk (SURF)
Laurents Sesink from the Centre for Digital Scholarship explores the possibilities for sustainable storage and access for special collections within the new repository infrastructure at Leiden University Libraries.
Held at KITLV, Royal Netherlands Institute of Southeast Asian and Caribbean Studies, 2016.
Visie op DLWO: case van Universiteit Maastricht - Jeroen ten Haaf - OWD13SURF Events
Sessieronde 2
Zaal: Leeuwen l + ll
Titel: Visie op DLWO: cases van twee instellingen
Sprekers: Robbert Bosch (Hogeschool van Amsterdam), Bas Bakker (Hogeschool van Amsterdam), Jeroen ten Haaf (Universiteit Maastricht), Lianne van Elk (SURF)
The document discusses the International Image Interoperability Framework (IIIF). It describes IIIF as a set of common APIs that allow images and image-based resources hosted in different repositories to be accessed and displayed interoperably. It outlines the benefits of IIIF for users, such as fast delivery of zoomable images and ability to annotate and compare images across repositories. It then provides details on the key IIIF APIs - the Image API for retrieving images, and the Presentation API for describing image-based objects and their structure.
Presentation by Fieke Schoots and Laurent Sesink held for the Research Data Alliance in Barcelona about the services for research data management provided to researchers at Leiden University.
Presentation at the Open Repositories 2017 Conference by Saskia van Bergen and Laurents Sesink on the new repository infrastructure that will be used to preserve and present the digital collections of Leiden University Libraries.
This document provides a high level overview of a reference architecture for research data management at Leiden University. It describes the architecture across multiple layers including an organization layer, process layer, functional layer, technical layer, and solutions layer. Key elements that are discussed include drivers and goals for open science, principles like FAIR data, architecture building blocks, and potential solution building blocks and how they map to requirements. The overall intent is to define a reference architecture that supports open science and improves reuse of research data over both short and long term.
Preservation by Laurents Sesink at a knowledge exchange session with subject librarians at Leiden University Libraries, september 2017. Topic of the session: online academic collaboration by use of virtual research environments.
Introduction by Mieneke van der Salm on the Leiden ORCID project held at the Persistent Identifier festival PIDapalooza. How to make sure that all Leiden researchers will acquire their own Open Researcher en Contributor Identifier, ORCID, https://orcid.org/
This document discusses research support at Leiden University. It describes the university's efforts to establish a Centre for Digital Scholarship within the university libraries to support open science practices like open access, data management, and data science. The centre aims to provide services across the entire research lifecycle, from the initial idea phase through publication. It will work with other expertise centers and administrative units to create a "one-stop-shop" for research support and facilitate digital scholarship practices. Implementing a comprehensive research data management program and developing shared research facilities and services are important goals. Stakeholder involvement, international cooperation, and building skills in areas like data stewardship will be key to success.
Fieke Schoots from the Centre of Digital Scholarship provides, in close collaboration with colleagues from other university libraries (UKB), an overview of the policies that publishers increasingly implement regarding the data underlying publications.
Held at the Seminar: ‘The Making of Research Data Management Policy, Wageningen 2016.
Presentation by Laurents Sesink on the International Image Interoperability Framework (IIIF) and its application for the storage, presentation, and annotation of digitized North Korean Posters
Mart van Duijn and Laurents Sesink gave this presentation at the 2017 LIBER conference. It deals with the challenges on the curation of born digital materials at Leiden University Libraries.
Presentation by Laurents Sesink on the role of the Centre for Digital Scholarship in promoting and facilitating open science.
Held on the occasion of the BEOPEN study visit to the Centre for Science and Technology Studies, Leiden University (CWTS), 2017
The Centre for Digital Scholarship aims to support academics in the transition to a more interactive academic environment.
Laurents Sesink presented an overview of the Centre's ambitions and activities at the Academy of Korean Studies, 2017.
Presentation during World Digital Preservation Day 2018 and International Conference 'Memory Makers' organised by DPC and the Dutch Digital Heritage Network
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen
De presentatie 'Hoe zoeken mensen door historische kranten?' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Door Martijn Kleppe (hoofd afdeling Onderzoek Koninklijke Bibliotheek) en Jacco van Ossenbruggen (hoofd Information Access Onderzoeksgroep Centrum voor Wiskunde en Informatica).
Digitale collecties zoals Delpher.nl worden steeds meer gebruikt. Hoe kunnen we het gebruik van dit soort digitale collecties analyseren? Wat voor soort zoekers kun je identificeren als je alle gebruikers analyseert? En wellicht net zo belangrijk: hoe kunnen we het gedrag van klanten op een verantwoorde en transparante manier analyseren?
The document discusses the International Image Interoperability Framework (IIIF). It describes IIIF as a set of common APIs that allow images and image-based resources hosted in different repositories to be accessed and displayed interoperably. It outlines the benefits of IIIF for users, such as fast delivery of zoomable images and ability to annotate and compare images across repositories. It then provides details on the key IIIF APIs - the Image API for retrieving images, and the Presentation API for describing image-based objects and their structure.
Presentation by Fieke Schoots and Laurent Sesink held for the Research Data Alliance in Barcelona about the services for research data management provided to researchers at Leiden University.
Presentation at the Open Repositories 2017 Conference by Saskia van Bergen and Laurents Sesink on the new repository infrastructure that will be used to preserve and present the digital collections of Leiden University Libraries.
This document provides a high level overview of a reference architecture for research data management at Leiden University. It describes the architecture across multiple layers including an organization layer, process layer, functional layer, technical layer, and solutions layer. Key elements that are discussed include drivers and goals for open science, principles like FAIR data, architecture building blocks, and potential solution building blocks and how they map to requirements. The overall intent is to define a reference architecture that supports open science and improves reuse of research data over both short and long term.
Preservation by Laurents Sesink at a knowledge exchange session with subject librarians at Leiden University Libraries, september 2017. Topic of the session: online academic collaboration by use of virtual research environments.
Introduction by Mieneke van der Salm on the Leiden ORCID project held at the Persistent Identifier festival PIDapalooza. How to make sure that all Leiden researchers will acquire their own Open Researcher en Contributor Identifier, ORCID, https://orcid.org/
This document discusses research support at Leiden University. It describes the university's efforts to establish a Centre for Digital Scholarship within the university libraries to support open science practices like open access, data management, and data science. The centre aims to provide services across the entire research lifecycle, from the initial idea phase through publication. It will work with other expertise centers and administrative units to create a "one-stop-shop" for research support and facilitate digital scholarship practices. Implementing a comprehensive research data management program and developing shared research facilities and services are important goals. Stakeholder involvement, international cooperation, and building skills in areas like data stewardship will be key to success.
Fieke Schoots from the Centre of Digital Scholarship provides, in close collaboration with colleagues from other university libraries (UKB), an overview of the policies that publishers increasingly implement regarding the data underlying publications.
Held at the Seminar: ‘The Making of Research Data Management Policy, Wageningen 2016.
Presentation by Laurents Sesink on the International Image Interoperability Framework (IIIF) and its application for the storage, presentation, and annotation of digitized North Korean Posters
Mart van Duijn and Laurents Sesink gave this presentation at the 2017 LIBER conference. It deals with the challenges on the curation of born digital materials at Leiden University Libraries.
Presentation by Laurents Sesink on the role of the Centre for Digital Scholarship in promoting and facilitating open science.
Held on the occasion of the BEOPEN study visit to the Centre for Science and Technology Studies, Leiden University (CWTS), 2017
The Centre for Digital Scholarship aims to support academics in the transition to a more interactive academic environment.
Laurents Sesink presented an overview of the Centre's ambitions and activities at the Academy of Korean Studies, 2017.
Presentation during World Digital Preservation Day 2018 and International Conference 'Memory Makers' organised by DPC and the Dutch Digital Heritage Network
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen
De presentatie 'Hoe zoeken mensen door historische kranten?' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Door Martijn Kleppe (hoofd afdeling Onderzoek Koninklijke Bibliotheek) en Jacco van Ossenbruggen (hoofd Information Access Onderzoeksgroep Centrum voor Wiskunde en Informatica).
Digitale collecties zoals Delpher.nl worden steeds meer gebruikt. Hoe kunnen we het gebruik van dit soort digitale collecties analyseren? Wat voor soort zoekers kun je identificeren als je alle gebruikers analyseert? En wellicht net zo belangrijk: hoe kunnen we het gedrag van klanten op een verantwoorde en transparante manier analyseren?
Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...SURF Events
Sessieronde 3 (14.00-14.45)
Sprekers : Marius van Zandwijk (Kennisnet)
Locatie : Veder
Omschrijving : Afgelopen jaar heeft bij ROC Noorderpoort een pilot plaatsgevonden waarin men op zoek is gegaan naar studentgebonden factoren die voorspellend zijn voor studiesucces. Vervolgens is gekeken op welke manier het intakeproces kan worden verbeterd. In de workshop presenteren we de werkwijze in de pilot en de hoofdlijn van de bevindingen.
Datamanagement for Research: A Case StudyDirk Roorda
How practices of data sharing can help researchers to produce more science.
Session in the data management course organized by RDNL (Research Data in the Netherlands)
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekElco van Staveren
Verhaal over het proces waarin de KB zich ontwikkelt tot een volwaardige digitale bibliotheek. Daarbij aandacht voor de positioneringsvraag van online diensten, en welke (nieuwe) afspraken met uitgevers daarvoor nodig zijn.
Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13SURF Events
Sessieronde 1
Zaal: Leeuwen l + ll
Titel: Visie op DLWO: de burchtmetafoor als model
Sprekers: Danny Greefhorst (ArchiXL), Nico Juist (SURF), Lianne van Elk (SURF)
The MyResearch Portal is a proof of concept online collaboration tool for researchers. On this portal they can make add third party gadgets and securely share it with they peers and colleague co-workers. In this particular case they can make use of almost all products resulted from the SURFshare progam, especially for making Enhanced Publications and deposit Research Data.
Valentijn Gilissen (DANS) vertelt in de workshop 'Certificering in de praktijk' van de NCDD en het Netwerk Digitaal Erfgoed over het traject richting de DIN/Nestor Seal. 16 maart 2017, Utrechts Archief
Presentation by Kristina Hettne at the 'Focus on Open Science' conference in Kaunas 2019 explaining how Leiden University translates best practices to the level of faculties, institutes, individual researchers.
The Abnormal Hieratic Global Portal aims to:
- Bring together published texts, i.e. transcriptions, transliterations and translations
- Teaching the study of Abnormal Hieratic with papyri
- Discuss and annotate texts
- Create a name book and dictionary to help new papyri be deciphered
By Ben Companjen, 27th June 2019
This document provides information about open science and opportunities for researchers at Leiden University. It discusses how open science aims to increase research quality, collaboration, and transparency. The document outlines practical steps researchers can take to engage in open science, such as publishing pre-prints and open access articles. Benefits of open science include expanding professional networks, increasing the impact and visibility of research, and opening new career opportunities in areas like data science. The document promotes engaging with the university's Centre for Digital Scholarship for training and support on open science practices.
This document discusses making research data Findable, Accessible, Interoperable, and Reusable (FAIR). It recommends planning for FAIR data management by creating a data management plan. The four steps to making data more FAIR are: 1) Put data in a repository, 2) Decide on data access conditions, 3) Describe data using metadata, and 4) Choose an appropriate license. Making data FAIR can increase exposure and reuse of data, help comply with funder requirements, and allow others to verify and build upon research findings.
Data mining or data science is the process of applying computational and algorithmic methods to large datasets.
Text mining is collection of methods used to extract information not from “formalised database records” but from “unstructured textual data”
Much of the Internet’s image-based resources are locked up in silos, with access restricted to bespoke, locally built applications.
By using IIIF we aim:
1. To give scholars an unprecedented level of uniform and rich access to image-based resources hosted around the world.
2. To define a set of common application programming interfaces that support interoperability between image repositories.
3. To develop, cultivate and document shared technologies, such as image servers and web clients, that provide a world-class user experience in viewing, comparing, manipulating and annotating images.
More from Centre for Digital Scholarship, Leiden University Libraries (6)
1. Bij ons leer je de wereld kennen
Text and Data Mining
Kennisdeelsessie
Ben Companjen, Laurents Sesink, Peter Verhaar 6 februari
2. Universiteit Leiden. Bij ons leer je de wereld kennen
Agenda
□ Wat is TDM?
□ Stand van zaken CDS en dienstverlening op het gebied van
TDM
□ Pilot Sino-Maleis
□ Pilot “Influence Networks”
□ Pilot “KITLV Digging into Military Memoires”
□ Discussie en vragen
3. Universiteit Leiden. Bij ons leer je de wereld kennen
Text and Data Mining
□ Een verzameling van computationele
methoden waarmee we bruikbare informatie
uit teksten of data kunnen halen.
§ Tekst Mining houdt in dat teksten in
natuurlijke talen worden geconverteerd
naar gestructureerde data
§ Data Mining houdt in dat er statistische
analyses worden uitgevoerd waarmee
correlaties, patronen en trends kunnen
worden ontdekt
4. Universiteit Leiden. Bij ons leer je de wereld kennen
□ Sinds januari 2017 zijn
auteursrechtvrije kranten in
Delpher te downloaden als zip-
bestand
□ Binnen TCP zijn ca. 25.000 teksten
uit EEBO getranscribeerd en
gecodeerd in TEI
□ API’s van DPLA, NYT, Guardian,
Europeana, Twitter
□ Data Stewardship: Gebruik van
omgevingen als Zenodo, Kaggle,
Dryad, Figshare
5. Universiteit Leiden. Bij ons leer je de wereld kennen
□ Geavanceerde Algorithmen
op het gebied van Machine
Learning en Deep Learning
□ Basale analyses (bijv.
Woordfrequenties,
collocatie, cooccurrence,
concordanties) kunnen
worden uitgevoerd via
gebruikersvriendelijke tools
6. “It was the best of times, it was the worst of times, it was the age
of wisdom, it was the age of foolishness, it was the epoch of
belief, it was the epoch of incredulity”
Tokens: 36
Types: 13
the 6
it 6
of 6
was 6
epoch 2
age 2
times 2
foolishness 1
wisdom 1
7. Voyant Type Frequencies Chart
• Distributie
• Collocation
• Coocurrence
• Ngrams (e.g. bigrams en
trigrams) of skip-grams
AntConc
11. □ Semantic Tagging, e.g. USAS; HGI, or the
Linguistic Inquiry and Word Count (LIWC)
Semantische analyse
It_Z8 was_A3+ the_Z5 best_A5.1+++ of_Z5 times_T1 ,_PUNC
it_Z8 was_A3+ the_Z5 worst_A5.1--- of_Z5 times_T1 ,_PUNC
it_Z8 was_A3+ the_Z5 age_T3 of_Z5 wisdom_X2.2+ ,_PUNC
it_Z8 was_A3+ the_Z5 age_T3 of_Z5 foolishness_S1.2.6-
,_PUNC it_Z8 was_A3+ the_Z5 epoch_T1.3 of_Z5 belief_X2.1
,_PUNC it_Z8 was_A3+ the_Z5 epoch_T1.3 of_Z5
incredulity_X2.1-
T1.3: Time: Period
S.1.6: Social actions: Sensible
X2.1: Psychological states: knowledge
12. Topic Modelling
[1] "conscience justice vices anger peace wicked holy act quarrel punishment"
[2] "love wife husband women marriage woman passion venus daughter affection" LOVE
[3] "things reason knowledge nature truth human plato force opinions gods"
[4] "country person arms brought courage gave general city rome called"
[5] "god thing body power senses animals heaven belief light mortal"
[6] "great men make good time part place opinion day age"
[7] "words read speaking study learning reading seneca learned language learn" STUDY
[8] "nature live socrates study seneca company talk conversation concern sick"
[9] "find people put contrary found judgment sort present head parts"
[10] "physic drink wine eat stone disease sick art physicians drinking“ MEDICINE
[11] "death die life kill dying blood died cruelty seneca lucretius“ DEATH
[12] "king enemy battle war army soldiers valour victory enemies caesar” WAR
[13] "subject laws custom fancy women soever vain law rules rule"
[14] "man life give soul fortune common reason mind hand pleasure"
[15] "virtue true speak cicero actions order art friends left plutarch"
13. Reagan et al., The emotional arcs of stories are
dominated by six basic shapes
16. □ Welke diensten kan het CDS leveren?
□ Diensten worden geordend aan de hand van
stappen in het onderzoeksproces:
□ Het verkrijgen van data
□ Het opschonen en verrijken van data
□ Het analyseren en visualiseren van data
□ Het delen van resultaten
□ Ontwikkeling van een protocol
□ Samenwerking met andere partijen
Roadmap TDM
18. Bij ons leer je de wereld kennen
Text & Data Mining
Laurents Sesink Vakreferenten
6 februari 2017
19. Universiteit Leiden. Bij ons leer je de wereld kennen
Universitair kader
Door de oprichting van een Centre for Digital Scholarship (CDS) bij de
Universitaire Bibliotheken Leiden (UBL) wil de Universiteit Leiden de impact
van haar onderzoek en onderwijs verbeteren.
Instellingsplan Universiteit Leiden 2015 – 2020
• Delen en samenwerken zijn sleutelwoorden in de huidige wetenschapsbeoefening. Met de opkomst van
open access en open data management worden het delen van onderzoeksgegevens en -resultaten en het
samenwerken bij het verzamelen, analyseren en publiceren daarvan steeds belangrijker.
• De Leidse universiteit wil het de wetenschappers door middel van state of the art ICT-ondersteuning en -
infrastructuur gemakkelijker maken om te delen en samen te werken.
• De universiteit zal daarom bij de Universitaire Bibliotheken Leiden een Centre for Digital Scholarship
inrichten dat onderzoekers en studenten service verleent bij het gebruik van nieuwe technologie, onder
meer ten behoeve van digitale onderzoeksmethoden, open access, data management en social networking
20. Universiteit Leiden. Bij ons leer je de wereld kennen
Doelstelling
‘Digital Scholarship’ is kort gezegd het beantwoorden van onderzoeksvragen
met behulp van nieuwe digitale technologieën.
Digital Scholarship heeft consequenties voor het:
• Onderzoek - Data Science
• Publicatieproces - Open Access.
• Onderzoeksproces - Datamanagement
21. Universiteit Leiden. Bij ons leer je de wereld kennen
Open Access, Datamanagement, Algemeen
Capaciteit 2017
Activiteit Medewerker FTE Uren Functieprofiel
Management
CDS Laurents Sesink 1,0 1400
Subtotaal 1,0 1400
Datamanagement
CDS Fieke Schoots 0,8 1120 DSL-A
CDS Michelle van den Berk 0,4 560 DSL-A
Matrix UBL FLD 0,2 280 Copyright
Subtotaal 1,4 1960
Open Access
CDS Michelle van den Berk 0,4 560 DSl-A
CDS Peter Verhaar 0,1 140 DSL-T
Matrix UBL FLD 0,1 280 Copyright
Subtotaal 0,6 980
Totaal 3,0 4200
22. Universiteit Leiden. Bij ons leer je de wereld kennen
Data Science Support
• Tekst & Data Mining
• Data & Metadata
• VRE’s
• GIS
• Databasebouw & websites
23. Universiteit Leiden. Bij ons leer je de wereld kennen
Capaciteit support for Data Science
Capaciteit 2017
Activiteit Medewerker FTE Uren Functieprofiel
Data-textmining
CDS Peter Verhaar 0,2 280 DSL-T
CDS Ben Companjen 0,5 700 DSL-T
Matrix UBL FLD 0,2 280 Copyright
Matrix UBL MDA 0,1 140 Licenties
Subtotaal 1.0 1400
Data & Metadata
CDS Ben Companjen 0,5 700 DSL-T
Matrix UBL DBC 1,0 1400 Digitalisering
Subtotaal 1,5 2100
Databasebouw & websites
Peter Verhaar 0,2 280 DSL-T
Subtotaal 0,2 280
Samenwerkingsomgevingen
Matrix UBL DD/IP 0,5 700 Consultancy/
configuratie
0,5 700
GIS
Matrix UBL FLD 0,1 140 GIS expertise
Subtotaal 0,1 140
Totaal 3,3 4620
FLD DBC IP MDA
100 200 400 200
Projectmatige activiteiten CDS. (UBL projectenkalender)
24. Universiteit Leiden. Bij ons leer je de wereld kennen
Text-Datamining activiteiten
• Volgen en (waar van belang en mogelijk) beïnvloeden universitaire, landelijke
en Europese beleidsontwikkeling
- Bijvoorbeeld verlagen drempels voor toegang tot data. Liber, LERU
• Zicht hebben op en mogelijkheden benutten van ‘state of the art’ technology
- Aanhaken bij (inter)nationale onderzoeksinfrastructuren zoals DARIAH en
CLARIAH
• Op en uitbouw samenwerkingsverbanden
- LCDH, LCDS, DTL, KNAW-E-Humanities Cluster, LURIS
• Kennisdeling, informatievoorziening
- Workshop FAIR, Workshop R, Workshop HPC
25. Universiteit Leiden. Bij ons leer je de wereld kennen
Text-Datamining activiteiten
• Advies
- Grant proposals
• Proof of Concepts, Pilots en Proeftuinen
- Influence Networks (FGGA), Sino-Maleis (KITLV), Digging into Military Memories
(KITLV),
• Diensten
- Ontwikkeling van een roadmap Tekst-Datamining
26. Universiteit Leiden. Bij ons leer je de wereld kennen
Werkwijze
• Onderzoeker staat centraal
• Er wordt gebruik gemaakt en voortgebouwd op de bestaande digitale
infrastructuur van de UBL
• Projectmatige activiteiten dragen bij aan het ontwikkelen van een roadmap
TDM
• Er is beperkte capaciteit beschikbaar
• De agile projectmethodiek wordt gehanteerd
• Voor iedere projectmatige activiteit wordt een projectbrief
opgesteld
• Overzicht activiteiten op interne CDS website
• Projecten verlopen volgens SCRUM
• Voortgang wordt bijgehouden in Trello
27. Universiteit Leiden. Bij ons leer je de wereld kennen
Bevindingen
• Behoefte aan:
- digitalisering analoog materiaal
- Metadatering
- Toegankelijk maken van digitale collectie
- Inzicht in en verbeteren van de kwaliteit van de OCR
- Het geschikt maken van collecties voor TDM, data curatie
- Overzicht van geschikte TDM tools
- Ondersteuning bij het gebruik van TDM tools
- Verrijken van de collectie (koppelen aan registries, Markup)
- Visualisatie van resultaten
29. Discover the world at Leiden University
PoC Sino-Maleis
Ben Companjen | Centre for Digital Scholarship
30. Proof of Concept Sino-Maleis
Onderzoeksproject van Tom Hoogervorst
31. Epic 1: Collecties als FAIR data
• Scans zijn belangrijk, maar aan scans alleen heb je
niet genoeg
• Epic 1 ("Grote Stap 1") is daarom:
- alle boeken verzamelen
- beschikbaarheid metadata inventariseren
- rechten uitzoeken
- elk digitaal boek in een voor mens en computers
bruikbaar formaat gieten
- kwaliteit van optical character recognition beoordelen en
indien mogelijk verbeteren
• FAIR: Findable, Accessible, Interoperable, Reusable
- o.a.: persistent identifier, metadata beschikbaar,
geaccepteerde open bestandsformaten,
32. Epic 2: Data on Demand
• Onderzoekers moeten niet afhankelijk zijn van
fysieke dragers zoals papier en USB-sticks – die
moeten gedigitaliseerde boeken online kunnen
vinden en gebruiken
• De gedigitaliseerde boeken willen ze:
- lezen (of ten minste doorbladeren), én
- als data downloaden
• Corpus voor onderzoek kan bestaan uit alle Sino-
Maleise boeken, of een deelverzameling
- online deelverzameling samenstellen
- boeken op inhoud doorzoeken en op metadata
35. Epic 3: Analysis on Demand
• Veel analyses kunnen online uitgevoerd worden
- vooraf uitgevoerd om te helpen selecteren
- on-demand, maar zonder downloaden
• We kunnen zelf tools beschikbaar maken, binnen of
buiten de repository
• Er is al een en ander beschikbaar:
- Voyant Tools – om de tekst (visueel) te verkennen
- Recogito – om te annoteren en op een kaart te plotten
39. Bij ons leer je de wereld kennen
Influence Networks
Ben Companjen, Laurents Sesink, Peter Verhaar 6 februari
40. Universiteit Leiden. Bij ons leer je de wereld kennen
Influence Networks
□ Onderzoeksproject van Mark Dechesne
§ UD bij FGGA / Leiden University Dual PhD Centre The
Hague
§ Politieke psychologie en de sociale psychologie
□ Onderzoek naar de aard en de samenstelling van de sociale
netwerken die in Nederlandse kranten worden genoemd
41. Universiteit Leiden. Bij ons leer je de wereld kennen
Corpus
□ Alle artikelen uit Nederlanstalige kranten (Volkskrant, het
NRC, het Parool, het Financieel Dagblad, het Algemeen
Dagblad, de Telegraaf en Trouw) uit de periode 2005-2015
□ Liefst ook alle artikelen uit The New York Times, The
Washington Post, of The Guardian uit dezelfde periode
□ Contact met LexisNexis
□ Omvang: 60 x 200 * 300 woorden per krant per jaar = 3,6
mln. Bij 8 kranten: 20 mln woorden (80 GB)
42. Universiteit Leiden. Bij ons leer je de wereld kennen
Doelen van het project
□ Namen met de hoogste frequenties vaststellen voor het hele
corpus
□ De dagelijkse/wekelijkse/maandelijkse frequenties van deze
namen in de verschillende kranten vaststellen
□ M.b.v. Factoranalyse of correspondentie-analyse nagaan of
bepaalde namen in clusters voorkomen
□ Nagaan of namen geassocieerd worden met specifieke
thema’s
□ Bepalen of namen geassocieerd worden met sentimenten
43. Universiteit Leiden. Bij ons leer je de wereld kennen
Ontwikkeling methodiek
□ Woordfrequenties
met Perl
44. Universiteit Leiden. Bij ons leer je de wereld kennen
Ontwikkeling methodiek
□ Frequenties van plaatsnamen via
GoogleMaps API
□ Visualisaties in R
□ Named Entity Recognition (FROG;
Stanford NER Tagger, NameScape
project)
□ Sentiment Analysis (Heem:
vertaling in NL van LIWC van VU)
□ Verkenning HPC
45. Universiteit Leiden. Bij ons leer je de wereld kennen
Samenstellen corpus
□ Web Services data kit van LexisNexis
heeft beperkingen
□ Verzoek indienen bij LexisNexis om
export te maken van full text van alle
relevant artikelen
□ Kosten die hiervoor in rekening
worden gebracht zijn nog onbekend
47. Universiteit Leiden. Bij ons leer je de wereld kennen
FutureTDM & The Hague Declaration
□ “A lack of clarity around the legality of TDM is inhibiting
TDM-based research in Europe”
□ “The solutions offered by publishers are insufficient to meet
the needs of researchers and are placing European
researchers at a disadvantage”
□ “The introduction of a mandatory copyright exception to
allow anyone to use computers to analyse anything to which
they have legal access is essential”
49. Bij ons leer je de wereld kennen
Text & Data Mining
E-Humanities. De oorlog
in Indonesie, 1945-1950.
Laurents Sesink Vakreferenten
6 februari 2017
50. Universiteit Leiden. Bij ons leer je de wereld kennen
E-Humanities. De oorlog in Indonesie,
1945-1950.
• Dekolonisatieoorlog, 1945-1949, staat de laatste jaren volop in de
belangstelling.
• Onderzoek naar ’oorlogsmisdaden’ staat centraal.
- 1969 Excessennota. 2017 Grootschalig onderzoek naar periode van dekolonisatie.
• KITLV onderzoek naar alle bekende gepubliceerde egodocumenten van
soldaten/militairen die dienden in de Nederlandse krijgsmacht in Indonesië.
• 700 egodocumenten, 100.000 bladzijden. (KITLV/UBL, NIOD)
• Database: metadata over egodocumenten; 1400 persoonsgegevens;
verwijzingen naar oorlogsmisdaden.
52. Universiteit Leiden. Bij ons leer je de wereld kennen
Onderzoeksmethoden
• Traditioneel
- Bladeren door egodocumenten
- Lezen passages over ’oorlogsmisdaden’
- Noteren in database
• E-Humanities
- Digitalisering egodocumenten
- Mining egoducementen
- Analyse
53. Universiteit Leiden. Bij ons leer je de wereld kennen
Digging into Dutch Military Memoirs on
Indonesia, 1945-1950
• Methodologen en historici
- welke vragen kunnen op welke wijzen en met welke mogelijke resultaten
worden gesteld en beantwoord op grond van gedigitaliseerde egodocumenten
van Nederlandse militairen uit de dekolonisatieoorlog.
- (on)mogelijkheden van dit onderzoek en concrete technische standaards voor
digitalisering. De kosten van optimale digitalisering, de ontwikkeling van
tools en (publieks)presentaties.
54. Universiteit Leiden. Bij ons leer je de wereld kennen
Digging into Dutch Military Memoirs on
Indonesia, 1945-1950
• Onderzoekers vertrouwd maken met de huidige mogelijkheden van
DH/CLARIAH-tools op basis van een goed gecureerd corpus en het oefenen
met een aantal use cases.
• Drie thema’s: visualisatie van metadata; textmining; en crowd sourcing.
• Conclusies van deze CLARIAH workshop bevestigen dat het beoogde DH
onderzoek uitvoerbaar en zowel inhoudelijk als methodologisch uitermate
interessant is
55. Universiteit Leiden. Bij ons leer je de wereld kennen
Doelstelling KITLV/CDS pilot
• Doelstelling van het project is om het corpus
- volledig te digitaliseren,
- beschikbaar te stellen en een
- Proof of Concept Data en Textmining te ontwikkelen
- om het corpus vervolgens geavanceerd te onderzoeken en op basis daarvan niet
alleen de reeds gestelde onderzoeksvragen grondiger en completer te onderzoeken,
- maar ook nieuwe onderzoeksvragen te stellen.
56. Universiteit Leiden. Bij ons leer je de wereld kennen
Vraag Gert Oostindie aan CDS
• Doelstelling van het project is om het corpus
- volledig te digitaliseren, (CDS)
- beschikbaar te stellen en een (CDS)
- Proof of Concept Data en Textmining te ontwikkelen (CDS/CLARIAH/KITLV)
- om het corpus vervolgens geavanceerd te onderzoeken en op basis daarvan niet
alleen de reeds gestelde onderzoeksvragen grondiger en completer te onderzoeken,
(KITLV/CDS)
- maar ook nieuwe onderzoeksvragen te stellen. (KITLV/CDS)
57. Universiteit Leiden. Bij ons leer je de wereld kennen
Wat zal dit project concreet opleveren?
• Een gedigitaliseerde collectie egodocumenten. 700 egodocumenten, ongeveer
100.000 pagina’s.
• Beschikbaarstelling van de collectie in de repository infrastructuur van de UBL
• Een inventarisatie en advies over geschikte Data en textmining tools.
• Een proof of concept werkomgeving waar Data en textmining tools op de data
kunnen worden toegepast.
58. Universiteit Leiden. Bij ons leer je de wereld kennen
Wat zal dit project, kortom,
wetenschappelijk opleveren?
• Een vergelijking tussen de resultaten van traditioneel en digital humanities
onderzoek.
• Intensieve samenwerking tussen het KITLV (Data Science) en het Centre for
Digital Scholarship (Data stewardship en Data engineering) van de UBL.
• Experimentele verbetering van de work flow: systematische dataverzameling
en -verwerking.
• De ontwikkeling van nieuwe tools die ook elders kunnen worden gebruikt.
59. Universiteit Leiden. Bij ons leer je de wereld kennen
Wat zal dit project, kortom,
wetenschappelijk opleveren?
• Een veel diepgaander analyse van relaties tussen kenmerken van de
egodocumenten, de betrokken militairen/veteranen, en de wijze waarop
uiteenlopende thema’s wel/niet worden aangesneden.
• Analyse van taalgebruik: variaties samenhangend met het type egodocument
en de karakteristieken van de betrokkenen, maar evenzeer met het verstrijken
van de tijd (bv. andere opvattingen over aanvaardbaar taalgebruik over
Indonesiërs, over geweld, over seks, etc.).
• In bredere zin: bouwstenen voor een sociaal-culturele geschiedschrijving van
de Nederlandse krijgsmacht in deze oorlog en de veteranen-beleving sindsdien.
60. Universiteit Leiden. Bij ons leer je de wereld kennen
Wat kan zo’n project opleveren in de sfeer
van valorisatie?
• Bijdrage aan vaak heftige maatschappelijke debatten waarin wetenschappelijke
inzichten dringend gewenst zijn.
• Daarmee ook zichtbaarheid voor het KITLV en het CDS.
61. Universiteit Leiden. Bij ons leer je de wereld kennen
Afbakening
• Het project richt zich primair op:
- Het digitaliseren van de collectie egodocumenten.
- Het beschikbaarstellen van de digitale collectie egodocumenten.
- Het inventariseren en adviseren over geschikte Data en Texmining Tools.
- Het opzetten van een Proof of Concept werkomgeving waar geëxperimenteerd kan
worden met Data en Textmining tools.