SlideShare a Scribd company logo
1 of 62
Download to read offline
Bij ons leer je de wereld kennen
Text and Data Mining
Kennisdeelsessie
Ben Companjen, Laurents Sesink, Peter Verhaar 6 februari
Universiteit Leiden. Bij ons leer je de wereld kennen
Agenda
□ Wat is TDM?
□ Stand van zaken CDS en dienstverlening op het gebied van
TDM
□ Pilot Sino-Maleis
□ Pilot “Influence Networks”
□ Pilot “KITLV Digging into Military Memoires”
□ Discussie en vragen
Universiteit Leiden. Bij ons leer je de wereld kennen
Text and Data Mining
□ Een verzameling van computationele
methoden waarmee we bruikbare informatie
uit teksten of data kunnen halen.
§ Tekst Mining houdt in dat teksten in
natuurlijke talen worden geconverteerd
naar gestructureerde data
§ Data Mining houdt in dat er statistische
analyses worden uitgevoerd waarmee
correlaties, patronen en trends kunnen
worden ontdekt
Universiteit Leiden. Bij ons leer je de wereld kennen
□ Sinds januari 2017 zijn
auteursrechtvrije kranten in
Delpher te downloaden als zip-
bestand
□ Binnen TCP zijn ca. 25.000 teksten
uit EEBO getranscribeerd en
gecodeerd in TEI
□ API’s van DPLA, NYT, Guardian,
Europeana, Twitter
□ Data Stewardship: Gebruik van
omgevingen als Zenodo, Kaggle,
Dryad, Figshare
Universiteit Leiden. Bij ons leer je de wereld kennen
□ Geavanceerde Algorithmen
op het gebied van Machine
Learning en Deep Learning
□ Basale analyses (bijv.
Woordfrequenties,
collocatie, cooccurrence,
concordanties) kunnen
worden uitgevoerd via
gebruikersvriendelijke tools
“It was the best of times, it was the worst of times, it was the age
of wisdom, it was the age of foolishness, it was the epoch of
belief, it was the epoch of incredulity”
Tokens: 36
Types: 13
the 6
it 6
of 6
was 6
epoch 2
age 2
times 2
foolishness 1
wisdom 1
Voyant Type Frequencies Chart
• Distributie
• Collocation
• Coocurrence
• Ngrams (e.g. bigrams en
trigrams) of skip-grams
AntConc
Vocabulary Diversity
□ Peter Garrard, Textual Pathology
□ Natural Language Processing
□ Bijvoorbeeld: Part of speech tagging
Taalkundige analyse
It/PRP was/VBD the/DT best/JJS of/IN
times/NNS ,/, it/PRP was/VBD the/DT
worst/JJS of/IN times/NNS ,/, it/PRP
was/VBD the/DT age/NN of/IN wisdom/NN ,/,
it/PRP was/VBD the/DT age/NN of/IN
foolishness/NN ,/, it/PRP was/VBD the/DT
epoch/NN of/IN belief/NN ,/, it/PRP was/VBD
the/DT epoch/NN of/IN incredulity/NN
Stylometrie en Auteursherkenning
□ Semantic Tagging, e.g. USAS; HGI, or the
Linguistic Inquiry and Word Count (LIWC)
Semantische analyse
It_Z8 was_A3+ the_Z5 best_A5.1+++ of_Z5 times_T1 ,_PUNC
it_Z8 was_A3+ the_Z5 worst_A5.1--- of_Z5 times_T1 ,_PUNC
it_Z8 was_A3+ the_Z5 age_T3 of_Z5 wisdom_X2.2+ ,_PUNC
it_Z8 was_A3+ the_Z5 age_T3 of_Z5 foolishness_S1.2.6-
,_PUNC it_Z8 was_A3+ the_Z5 epoch_T1.3 of_Z5 belief_X2.1
,_PUNC it_Z8 was_A3+ the_Z5 epoch_T1.3 of_Z5
incredulity_X2.1-
T1.3: Time: Period
S.1.6: Social actions: Sensible
X2.1: Psychological states: knowledge
Topic Modelling
[1] "conscience justice vices anger peace wicked holy act quarrel punishment"
[2] "love wife husband women marriage woman passion venus daughter affection" LOVE
[3] "things reason knowledge nature truth human plato force opinions gods"
[4] "country person arms brought courage gave general city rome called"
[5] "god thing body power senses animals heaven belief light mortal"
[6] "great men make good time part place opinion day age"
[7] "words read speaking study learning reading seneca learned language learn" STUDY
[8] "nature live socrates study seneca company talk conversation concern sick"
[9] "find people put contrary found judgment sort present head parts"
[10] "physic drink wine eat stone disease sick art physicians drinking“ MEDICINE
[11] "death die life kill dying blood died cruelty seneca lucretius“ DEATH
[12] "king enemy battle war army soldiers valour victory enemies caesar” WAR
[13] "subject laws custom fancy women soever vain law rules rule"
[14] "man life give soul fortune common reason mind hand pleasure"
[15] "virtue true speak cicero actions order art friends left plutarch"
Reagan et al., The emotional arcs of stories are
dominated by six basic shapes
Named Entity Recognition
Geografische termen
□ Welke diensten kan het CDS leveren?
□ Diensten worden geordend aan de hand van
stappen in het onderzoeksproces:
□ Het verkrijgen van data
□ Het opschonen en verrijken van data
□ Het analyseren en visualiseren van data
□ Het delen van resultaten
□ Ontwikkeling van een protocol
□ Samenwerking met andere partijen
Roadmap TDM
□ Huidige projecten:
https://teams.leidenuniv.nl/sites/ublintranet/
CDS/SitePages/Introductiepagina.aspx
Bij ons leer je de wereld kennen
Text & Data Mining
Laurents Sesink Vakreferenten
6 februari 2017
Universiteit Leiden. Bij ons leer je de wereld kennen
Universitair kader
Door de oprichting van een Centre for Digital Scholarship (CDS) bij de
Universitaire Bibliotheken Leiden (UBL) wil de Universiteit Leiden de impact
van haar onderzoek en onderwijs verbeteren.
Instellingsplan Universiteit Leiden 2015 – 2020
• Delen en samenwerken zijn sleutelwoorden in de huidige wetenschapsbeoefening. Met de opkomst van
open access en open data management worden het delen van onderzoeksgegevens en -resultaten en het
samenwerken bij het verzamelen, analyseren en publiceren daarvan steeds belangrijker.
• De Leidse universiteit wil het de wetenschappers door middel van state of the art ICT-ondersteuning en -
infrastructuur gemakkelijker maken om te delen en samen te werken.
• De universiteit zal daarom bij de Universitaire Bibliotheken Leiden een Centre for Digital Scholarship
inrichten dat onderzoekers en studenten service verleent bij het gebruik van nieuwe technologie, onder
meer ten behoeve van digitale onderzoeksmethoden, open access, data management en social networking
Universiteit Leiden. Bij ons leer je de wereld kennen
Doelstelling
‘Digital Scholarship’ is kort gezegd het beantwoorden van onderzoeksvragen
met behulp van nieuwe digitale technologieën.
Digital Scholarship heeft consequenties voor het:
• Onderzoek - Data Science
• Publicatieproces - Open Access.
• Onderzoeksproces - Datamanagement
Universiteit Leiden. Bij ons leer je de wereld kennen
Open Access, Datamanagement, Algemeen
Capaciteit 2017
Activiteit Medewerker FTE Uren Functieprofiel
Management
CDS Laurents Sesink 1,0 1400
Subtotaal 1,0 1400
Datamanagement
CDS Fieke Schoots 0,8 1120 DSL-A
CDS Michelle van den Berk 0,4 560 DSL-A
Matrix UBL FLD 0,2 280 Copyright
Subtotaal 1,4 1960
Open Access
CDS Michelle van den Berk 0,4 560 DSl-A
CDS Peter Verhaar 0,1 140 DSL-T
Matrix UBL FLD 0,1 280 Copyright
Subtotaal 0,6 980
Totaal 3,0 4200
Universiteit Leiden. Bij ons leer je de wereld kennen
Data Science Support
• Tekst & Data Mining
• Data & Metadata
• VRE’s
• GIS
• Databasebouw & websites
Universiteit Leiden. Bij ons leer je de wereld kennen
Capaciteit support for Data Science
Capaciteit 2017
Activiteit Medewerker FTE Uren Functieprofiel
Data-textmining
CDS Peter Verhaar 0,2 280 DSL-T
CDS Ben Companjen 0,5 700 DSL-T
Matrix UBL FLD 0,2 280 Copyright
Matrix UBL MDA 0,1 140 Licenties
Subtotaal 1.0 1400
Data & Metadata
CDS Ben Companjen 0,5 700 DSL-T
Matrix UBL DBC 1,0 1400 Digitalisering
Subtotaal 1,5 2100
Databasebouw & websites
Peter Verhaar 0,2 280 DSL-T
Subtotaal 0,2 280
Samenwerkingsomgevingen
Matrix UBL DD/IP 0,5 700 Consultancy/
configuratie
0,5 700
GIS
Matrix UBL FLD 0,1 140 GIS expertise
Subtotaal 0,1 140
Totaal 3,3 4620
FLD DBC IP MDA
100 200 400 200
Projectmatige activiteiten CDS. (UBL projectenkalender)
Universiteit Leiden. Bij ons leer je de wereld kennen
Text-Datamining activiteiten
• Volgen en (waar van belang en mogelijk) beïnvloeden universitaire, landelijke
en Europese beleidsontwikkeling
- Bijvoorbeeld verlagen drempels voor toegang tot data. Liber, LERU
• Zicht hebben op en mogelijkheden benutten van ‘state of the art’ technology
- Aanhaken bij (inter)nationale onderzoeksinfrastructuren zoals DARIAH en
CLARIAH
• Op en uitbouw samenwerkingsverbanden
- LCDH, LCDS, DTL, KNAW-E-Humanities Cluster, LURIS
• Kennisdeling, informatievoorziening
- Workshop FAIR, Workshop R, Workshop HPC
Universiteit Leiden. Bij ons leer je de wereld kennen
Text-Datamining activiteiten
• Advies
- Grant proposals
• Proof of Concepts, Pilots en Proeftuinen
- Influence Networks (FGGA), Sino-Maleis (KITLV), Digging into Military Memories
(KITLV),
• Diensten
- Ontwikkeling van een roadmap Tekst-Datamining
Universiteit Leiden. Bij ons leer je de wereld kennen
Werkwijze
• Onderzoeker staat centraal
• Er wordt gebruik gemaakt en voortgebouwd op de bestaande digitale
infrastructuur van de UBL
• Projectmatige activiteiten dragen bij aan het ontwikkelen van een roadmap
TDM
• Er is beperkte capaciteit beschikbaar
• De agile projectmethodiek wordt gehanteerd
• Voor iedere projectmatige activiteit wordt een projectbrief
opgesteld
• Overzicht activiteiten op interne CDS website
• Projecten verlopen volgens SCRUM
• Voortgang wordt bijgehouden in Trello
Universiteit Leiden. Bij ons leer je de wereld kennen
Bevindingen
• Behoefte aan:
- digitalisering analoog materiaal
- Metadatering
- Toegankelijk maken van digitale collectie
- Inzicht in en verbeteren van de kwaliteit van de OCR
- Het geschikt maken van collecties voor TDM, data curatie
- Overzicht van geschikte TDM tools
- Ondersteuning bij het gebruik van TDM tools
- Verrijken van de collectie (koppelen aan registries, Markup)
- Visualisatie van resultaten
Bij ons leer je de wereld kennen
Vragen?
Discover the world at Leiden University
PoC Sino-Maleis
Ben Companjen | Centre for Digital Scholarship
Proof of Concept Sino-Maleis
Onderzoeksproject van Tom Hoogervorst
Epic 1: Collecties als FAIR data
• Scans zijn belangrijk, maar aan scans alleen heb je
niet genoeg
• Epic 1 ("Grote Stap 1") is daarom:
- alle boeken verzamelen
- beschikbaarheid metadata inventariseren
- rechten uitzoeken
- elk digitaal boek in een voor mens en computers
bruikbaar formaat gieten
- kwaliteit van optical character recognition beoordelen en
indien mogelijk verbeteren
• FAIR: Findable, Accessible, Interoperable, Reusable
- o.a.: persistent identifier, metadata beschikbaar,
geaccepteerde open bestandsformaten,
Epic 2: Data on Demand
• Onderzoekers moeten niet afhankelijk zijn van
fysieke dragers zoals papier en USB-sticks – die
moeten gedigitaliseerde boeken online kunnen
vinden en gebruiken
• De gedigitaliseerde boeken willen ze:
- lezen (of ten minste doorbladeren), én
- als data downloaden
• Corpus voor onderzoek kan bestaan uit alle Sino-
Maleise boeken, of een deelverzameling
- online deelverzameling samenstellen
- boeken op inhoud doorzoeken en op metadata
Offline analyse met gedownloade data
Gevonden plaatsnamen in Indonesië
Epic 3: Analysis on Demand
• Veel analyses kunnen online uitgevoerd worden
- vooraf uitgevoerd om te helpen selecteren
- on-demand, maar zonder downloaden
• We kunnen zelf tools beschikbaar maken, binnen of
buiten de repository
• Er is al een en ander beschikbaar:
- Voyant Tools – om de tekst (visueel) te verkennen
- Recogito – om te annoteren en op een kaart te plotten
Voyant Tools – "See through your text"
Recogito – annotaties
Bij ons leer je de wereld kennen
Vragen?
Bij ons leer je de wereld kennen
Influence Networks
Ben Companjen, Laurents Sesink, Peter Verhaar 6 februari
Universiteit Leiden. Bij ons leer je de wereld kennen
Influence Networks
□ Onderzoeksproject van Mark Dechesne
§ UD bij FGGA / Leiden University Dual PhD Centre The
Hague
§ Politieke psychologie en de sociale psychologie
□ Onderzoek naar de aard en de samenstelling van de sociale
netwerken die in Nederlandse kranten worden genoemd
Universiteit Leiden. Bij ons leer je de wereld kennen
Corpus
□ Alle artikelen uit Nederlanstalige kranten (Volkskrant, het
NRC, het Parool, het Financieel Dagblad, het Algemeen
Dagblad, de Telegraaf en Trouw) uit de periode 2005-2015
□ Liefst ook alle artikelen uit The New York Times, The
Washington Post, of The Guardian uit dezelfde periode
□ Contact met LexisNexis
□ Omvang: 60 x 200 * 300 woorden per krant per jaar = 3,6
mln. Bij 8 kranten: 20 mln woorden (80 GB)
Universiteit Leiden. Bij ons leer je de wereld kennen
Doelen van het project
□ Namen met de hoogste frequenties vaststellen voor het hele
corpus
□ De dagelijkse/wekelijkse/maandelijkse frequenties van deze
namen in de verschillende kranten vaststellen
□ M.b.v. Factoranalyse of correspondentie-analyse nagaan of
bepaalde namen in clusters voorkomen
□ Nagaan of namen geassocieerd worden met specifieke
thema’s
□ Bepalen of namen geassocieerd worden met sentimenten
Universiteit Leiden. Bij ons leer je de wereld kennen
Ontwikkeling methodiek
□ Woordfrequenties
met Perl
Universiteit Leiden. Bij ons leer je de wereld kennen
Ontwikkeling methodiek
□ Frequenties van plaatsnamen via
GoogleMaps API
□ Visualisaties in R
□ Named Entity Recognition (FROG;
Stanford NER Tagger, NameScape
project)
□ Sentiment Analysis (Heem:
vertaling in NL van LIWC van VU)
□ Verkenning HPC
Universiteit Leiden. Bij ons leer je de wereld kennen
Samenstellen corpus
□ Web Services data kit van LexisNexis
heeft beperkingen
□ Verzoek indienen bij LexisNexis om
export te maken van full text van alle
relevant artikelen
□ Kosten die hiervoor in rekening
worden gebracht zijn nog onbekend
Universiteit Leiden. Bij ons leer je de wereld kennen
Universiteit Leiden. Bij ons leer je de wereld kennen
FutureTDM & The Hague Declaration
□ “A lack of clarity around the legality of TDM is inhibiting
TDM-based research in Europe”
□ “The solutions offered by publishers are insufficient to meet
the needs of researchers and are placing European
researchers at a disadvantage”
□ “The introduction of a mandatory copyright exception to
allow anyone to use computers to analyse anything to which
they have legal access is essential”
Bij ons leer je de wereld kennen
Vragen?
Bij ons leer je de wereld kennen
Text & Data Mining
E-Humanities. De oorlog
in Indonesie, 1945-1950.
Laurents Sesink Vakreferenten
6 februari 2017
Universiteit Leiden. Bij ons leer je de wereld kennen
E-Humanities. De oorlog in Indonesie,
1945-1950.
• Dekolonisatieoorlog, 1945-1949, staat de laatste jaren volop in de
belangstelling.
• Onderzoek naar ’oorlogsmisdaden’ staat centraal.
- 1969 Excessennota. 2017 Grootschalig onderzoek naar periode van dekolonisatie.
• KITLV onderzoek naar alle bekende gepubliceerde egodocumenten van
soldaten/militairen die dienden in de Nederlandse krijgsmacht in Indonesië.
• 700 egodocumenten, 100.000 bladzijden. (KITLV/UBL, NIOD)
• Database: metadata over egodocumenten; 1400 persoonsgegevens;
verwijzingen naar oorlogsmisdaden.
Universiteit Leiden. Bij ons leer je de wereld kennen
Resultaten onderzoek gepubliceerd in:
Universiteit Leiden. Bij ons leer je de wereld kennen
Onderzoeksmethoden
• Traditioneel
- Bladeren door egodocumenten
- Lezen passages over ’oorlogsmisdaden’
- Noteren in database
• E-Humanities
- Digitalisering egodocumenten
- Mining egoducementen
- Analyse
Universiteit Leiden. Bij ons leer je de wereld kennen
Digging into Dutch Military Memoirs on
Indonesia, 1945-1950
• Methodologen en historici
- welke vragen kunnen op welke wijzen en met welke mogelijke resultaten
worden gesteld en beantwoord op grond van gedigitaliseerde egodocumenten
van Nederlandse militairen uit de dekolonisatieoorlog.
- (on)mogelijkheden van dit onderzoek en concrete technische standaards voor
digitalisering. De kosten van optimale digitalisering, de ontwikkeling van
tools en (publieks)presentaties.
Universiteit Leiden. Bij ons leer je de wereld kennen
Digging into Dutch Military Memoirs on
Indonesia, 1945-1950
• Onderzoekers vertrouwd maken met de huidige mogelijkheden van
DH/CLARIAH-tools op basis van een goed gecureerd corpus en het oefenen
met een aantal use cases.
• Drie thema’s: visualisatie van metadata; textmining; en crowd sourcing.
• Conclusies van deze CLARIAH workshop bevestigen dat het beoogde DH
onderzoek uitvoerbaar en zowel inhoudelijk als methodologisch uitermate
interessant is
Universiteit Leiden. Bij ons leer je de wereld kennen
Doelstelling KITLV/CDS pilot
• Doelstelling van het project is om het corpus
- volledig te digitaliseren,
- beschikbaar te stellen en een
- Proof of Concept Data en Textmining te ontwikkelen
- om het corpus vervolgens geavanceerd te onderzoeken en op basis daarvan niet
alleen de reeds gestelde onderzoeksvragen grondiger en completer te onderzoeken,
- maar ook nieuwe onderzoeksvragen te stellen.
Universiteit Leiden. Bij ons leer je de wereld kennen
Vraag Gert Oostindie aan CDS
• Doelstelling van het project is om het corpus
- volledig te digitaliseren, (CDS)
- beschikbaar te stellen en een (CDS)
- Proof of Concept Data en Textmining te ontwikkelen (CDS/CLARIAH/KITLV)
- om het corpus vervolgens geavanceerd te onderzoeken en op basis daarvan niet
alleen de reeds gestelde onderzoeksvragen grondiger en completer te onderzoeken,
(KITLV/CDS)
- maar ook nieuwe onderzoeksvragen te stellen. (KITLV/CDS)
Universiteit Leiden. Bij ons leer je de wereld kennen
Wat zal dit project concreet opleveren?
• Een gedigitaliseerde collectie egodocumenten. 700 egodocumenten, ongeveer
100.000 pagina’s.
• Beschikbaarstelling van de collectie in de repository infrastructuur van de UBL
• Een inventarisatie en advies over geschikte Data en textmining tools.
• Een proof of concept werkomgeving waar Data en textmining tools op de data
kunnen worden toegepast.
Universiteit Leiden. Bij ons leer je de wereld kennen
Wat zal dit project, kortom,
wetenschappelijk opleveren?
• Een vergelijking tussen de resultaten van traditioneel en digital humanities
onderzoek.
• Intensieve samenwerking tussen het KITLV (Data Science) en het Centre for
Digital Scholarship (Data stewardship en Data engineering) van de UBL.
• Experimentele verbetering van de work flow: systematische dataverzameling
en -verwerking.
• De ontwikkeling van nieuwe tools die ook elders kunnen worden gebruikt.
Universiteit Leiden. Bij ons leer je de wereld kennen
Wat zal dit project, kortom,
wetenschappelijk opleveren?
• Een veel diepgaander analyse van relaties tussen kenmerken van de
egodocumenten, de betrokken militairen/veteranen, en de wijze waarop
uiteenlopende thema’s wel/niet worden aangesneden.
• Analyse van taalgebruik: variaties samenhangend met het type egodocument
en de karakteristieken van de betrokkenen, maar evenzeer met het verstrijken
van de tijd (bv. andere opvattingen over aanvaardbaar taalgebruik over
Indonesiërs, over geweld, over seks, etc.).
• In bredere zin: bouwstenen voor een sociaal-culturele geschiedschrijving van
de Nederlandse krijgsmacht in deze oorlog en de veteranen-beleving sindsdien.
Universiteit Leiden. Bij ons leer je de wereld kennen
Wat kan zo’n project opleveren in de sfeer
van valorisatie?
• Bijdrage aan vaak heftige maatschappelijke debatten waarin wetenschappelijke
inzichten dringend gewenst zijn.
• Daarmee ook zichtbaarheid voor het KITLV en het CDS.
Universiteit Leiden. Bij ons leer je de wereld kennen
Afbakening
• Het project richt zich primair op:
- Het digitaliseren van de collectie egodocumenten.
- Het beschikbaarstellen van de digitale collectie egodocumenten.
- Het inventariseren en adviseren over geschikte Data en Texmining Tools.
- Het opzetten van een Proof of Concept werkomgeving waar geëxperimenteerd kan
worden met Data en Textmining tools.
Bij ons leer je de wereld kennen
Vragen?

More Related Content

Viewers also liked

Viewers also liked (15)

The Academic Library as a Centre of Expertise in the field of Text and Data M...
The Academic Library as a Centre of Expertise in the field of Text and Data M...The Academic Library as a Centre of Expertise in the field of Text and Data M...
The Academic Library as a Centre of Expertise in the field of Text and Data M...
 
International Image Interoperability Framework (IIIF)
International Image Interoperability Framework (IIIF)International Image Interoperability Framework (IIIF)
International Image Interoperability Framework (IIIF)
 
RDM Services catalogue @ Leiden University
RDM Services catalogue @ Leiden UniversityRDM Services catalogue @ Leiden University
RDM Services catalogue @ Leiden University
 
Centre for Digital Scholarship and LURIS
Centre for Digital Scholarship and LURISCentre for Digital Scholarship and LURIS
Centre for Digital Scholarship and LURIS
 
The repository as an interactive research tool
The repository as an interactive research toolThe repository as an interactive research tool
The repository as an interactive research tool
 
Referentie Architectuur Onderzoeksdata en Onderzoeksdata diensten catalogus
Referentie Architectuur Onderzoeksdata en Onderzoeksdata diensten catalogusReferentie Architectuur Onderzoeksdata en Onderzoeksdata diensten catalogus
Referentie Architectuur Onderzoeksdata en Onderzoeksdata diensten catalogus
 
Virtual Research Environments at Leiden University
Virtual Research Environments at Leiden UniversityVirtual Research Environments at Leiden University
Virtual Research Environments at Leiden University
 
From DAI to ORCID; Implementation and beyond in Leiden
From DAI to ORCID; Implementation and beyond in LeidenFrom DAI to ORCID; Implementation and beyond in Leiden
From DAI to ORCID; Implementation and beyond in Leiden
 
Research Support at Leiden University
Research Support at Leiden UniversityResearch Support at Leiden University
Research Support at Leiden University
 
Publishers and RDM
Publishers and RDMPublishers and RDM
Publishers and RDM
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text Mining
 
International Image Interoperability Framework (IIIF)
International Image Interoperability Framework (IIIF)International Image Interoperability Framework (IIIF)
International Image Interoperability Framework (IIIF)
 
A comprehensive approach towards the curation of born digital material by Lei...
A comprehensive approach towards the curation of born digital material by Lei...A comprehensive approach towards the curation of born digital material by Lei...
A comprehensive approach towards the curation of born digital material by Lei...
 
Championing Open Science
Championing Open ScienceChampioning Open Science
Championing Open Science
 
Centre for Digital Scholarship at Leiden University Libraries
Centre for Digital Scholarship at Leiden University LibrariesCentre for Digital Scholarship at Leiden University Libraries
Centre for Digital Scholarship at Leiden University Libraries
 

Similar to Text and Data Mining: kennisdeelsessie

Erika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualErika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualNetwerk Digitaal Erfgoed
 
Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Jeroen Rombouts
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDirk Roorda
 
100624 peak 4 durf te surfen (wim plas)
100624 peak 4   durf te surfen (wim plas)100624 peak 4   durf te surfen (wim plas)
100624 peak 4 durf te surfen (wim plas)KennisLAB
 
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen
 
Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...
Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...
Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...SURF Events
 
Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!SOD Next
 
2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&L
2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&L2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&L
2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&LNetwerkDigitaalErfgoed
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDirk Roorda
 
E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012
E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012
E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012ErfGeo
 
E&L-presentatie Provinciale Portals - 14/11/2012
E&L-presentatie Provinciale Portals - 14/11/2012E&L-presentatie Provinciale Portals - 14/11/2012
E&L-presentatie Provinciale Portals - 14/11/2012ErfGeo
 
0240 Spin P Resentatie Jun 2002
0240 Spin P Resentatie Jun 20020240 Spin P Resentatie Jun 2002
0240 Spin P Resentatie Jun 2002wilmar_de_lange
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekElco van Staveren
 
Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13
Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13
Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13SURF Events
 
Certificering bij DANS - Valentijn Gilissen
Certificering bij DANS - Valentijn GilissenCertificering bij DANS - Valentijn Gilissen
Certificering bij DANS - Valentijn GilissenNetwerk Digitaal Erfgoed
 
Research Data Management Update
Research Data Management UpdateResearch Data Management Update
Research Data Management UpdateMariëtte van Selm
 

Similar to Text and Data Mining: kennisdeelsessie (20)

Erika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualErika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties Annual
 
Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case Study
 
Jansen Hans
Jansen HansJansen Hans
Jansen Hans
 
100624 peak 4 durf te surfen (wim plas)
100624 peak 4   durf te surfen (wim plas)100624 peak 4   durf te surfen (wim plas)
100624 peak 4 durf te surfen (wim plas)
 
Research Data Management aan de KU Leuven
Research Data Management aan de KU LeuvenResearch Data Management aan de KU Leuven
Research Data Management aan de KU Leuven
 
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
 
Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...
Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...
Op zoek naar waardevolle inzichten voor het vergroten van studiesucces- Mariu...
 
Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!
 
2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&L
2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&L2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&L
2F1 Parallelsessie Week Digitaal Erfgoed Ralph Kits / E&L
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case Study
 
E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012
E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012
E&L-presentatie Convent Regionale Historische Centra (RHC) - 15/11/2012
 
E&L-presentatie Provinciale Portals - 14/11/2012
E&L-presentatie Provinciale Portals - 14/11/2012E&L-presentatie Provinciale Portals - 14/11/2012
E&L-presentatie Provinciale Portals - 14/11/2012
 
0240 Spin P Resentatie Jun 2002
0240 Spin P Resentatie Jun 20020240 Spin P Resentatie Jun 2002
0240 Spin P Resentatie Jun 2002
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
 
Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13
Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13
Visie op DLWO: de burchtmetafoor als model - Danny Greefhorst - OWD13
 
Werkgroep Open Data
Werkgroep Open DataWerkgroep Open Data
Werkgroep Open Data
 
MyResearch Portal
MyResearch PortalMyResearch Portal
MyResearch Portal
 
Certificering bij DANS - Valentijn Gilissen
Certificering bij DANS - Valentijn GilissenCertificering bij DANS - Valentijn Gilissen
Certificering bij DANS - Valentijn Gilissen
 
Research Data Management Update
Research Data Management UpdateResearch Data Management Update
Research Data Management Update
 

More from Centre for Digital Scholarship, Leiden University Libraries (6)

Narrowing the gap between international FAIR Best Practices for Open Science ...
Narrowing the gap between international FAIR Best Practices for Open Science ...Narrowing the gap between international FAIR Best Practices for Open Science ...
Narrowing the gap between international FAIR Best Practices for Open Science ...
 
Building the Abnormal Hieratic Global Portal
Building the Abnormal Hieratic Global PortalBuilding the Abnormal Hieratic Global Portal
Building the Abnormal Hieratic Global Portal
 
Open Science Opens Careers
Open Science Opens CareersOpen Science Opens Careers
Open Science Opens Careers
 
Let your research bloom: practical steps for FAIR data
Let your research bloom: practical steps for FAIR dataLet your research bloom: practical steps for FAIR data
Let your research bloom: practical steps for FAIR data
 
Data Science Workshop
Data Science WorkshopData Science Workshop
Data Science Workshop
 
IIIF at the UBL
IIIF at the UBLIIIF at the UBL
IIIF at the UBL
 

Text and Data Mining: kennisdeelsessie

  • 1. Bij ons leer je de wereld kennen Text and Data Mining Kennisdeelsessie Ben Companjen, Laurents Sesink, Peter Verhaar 6 februari
  • 2. Universiteit Leiden. Bij ons leer je de wereld kennen Agenda □ Wat is TDM? □ Stand van zaken CDS en dienstverlening op het gebied van TDM □ Pilot Sino-Maleis □ Pilot “Influence Networks” □ Pilot “KITLV Digging into Military Memoires” □ Discussie en vragen
  • 3. Universiteit Leiden. Bij ons leer je de wereld kennen Text and Data Mining □ Een verzameling van computationele methoden waarmee we bruikbare informatie uit teksten of data kunnen halen. § Tekst Mining houdt in dat teksten in natuurlijke talen worden geconverteerd naar gestructureerde data § Data Mining houdt in dat er statistische analyses worden uitgevoerd waarmee correlaties, patronen en trends kunnen worden ontdekt
  • 4. Universiteit Leiden. Bij ons leer je de wereld kennen □ Sinds januari 2017 zijn auteursrechtvrije kranten in Delpher te downloaden als zip- bestand □ Binnen TCP zijn ca. 25.000 teksten uit EEBO getranscribeerd en gecodeerd in TEI □ API’s van DPLA, NYT, Guardian, Europeana, Twitter □ Data Stewardship: Gebruik van omgevingen als Zenodo, Kaggle, Dryad, Figshare
  • 5. Universiteit Leiden. Bij ons leer je de wereld kennen □ Geavanceerde Algorithmen op het gebied van Machine Learning en Deep Learning □ Basale analyses (bijv. Woordfrequenties, collocatie, cooccurrence, concordanties) kunnen worden uitgevoerd via gebruikersvriendelijke tools
  • 6. “It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity” Tokens: 36 Types: 13 the 6 it 6 of 6 was 6 epoch 2 age 2 times 2 foolishness 1 wisdom 1
  • 7. Voyant Type Frequencies Chart • Distributie • Collocation • Coocurrence • Ngrams (e.g. bigrams en trigrams) of skip-grams AntConc
  • 8. Vocabulary Diversity □ Peter Garrard, Textual Pathology
  • 9. □ Natural Language Processing □ Bijvoorbeeld: Part of speech tagging Taalkundige analyse It/PRP was/VBD the/DT best/JJS of/IN times/NNS ,/, it/PRP was/VBD the/DT worst/JJS of/IN times/NNS ,/, it/PRP was/VBD the/DT age/NN of/IN wisdom/NN ,/, it/PRP was/VBD the/DT age/NN of/IN foolishness/NN ,/, it/PRP was/VBD the/DT epoch/NN of/IN belief/NN ,/, it/PRP was/VBD the/DT epoch/NN of/IN incredulity/NN
  • 11. □ Semantic Tagging, e.g. USAS; HGI, or the Linguistic Inquiry and Word Count (LIWC) Semantische analyse It_Z8 was_A3+ the_Z5 best_A5.1+++ of_Z5 times_T1 ,_PUNC it_Z8 was_A3+ the_Z5 worst_A5.1--- of_Z5 times_T1 ,_PUNC it_Z8 was_A3+ the_Z5 age_T3 of_Z5 wisdom_X2.2+ ,_PUNC it_Z8 was_A3+ the_Z5 age_T3 of_Z5 foolishness_S1.2.6- ,_PUNC it_Z8 was_A3+ the_Z5 epoch_T1.3 of_Z5 belief_X2.1 ,_PUNC it_Z8 was_A3+ the_Z5 epoch_T1.3 of_Z5 incredulity_X2.1- T1.3: Time: Period S.1.6: Social actions: Sensible X2.1: Psychological states: knowledge
  • 12. Topic Modelling [1] "conscience justice vices anger peace wicked holy act quarrel punishment" [2] "love wife husband women marriage woman passion venus daughter affection" LOVE [3] "things reason knowledge nature truth human plato force opinions gods" [4] "country person arms brought courage gave general city rome called" [5] "god thing body power senses animals heaven belief light mortal" [6] "great men make good time part place opinion day age" [7] "words read speaking study learning reading seneca learned language learn" STUDY [8] "nature live socrates study seneca company talk conversation concern sick" [9] "find people put contrary found judgment sort present head parts" [10] "physic drink wine eat stone disease sick art physicians drinking“ MEDICINE [11] "death die life kill dying blood died cruelty seneca lucretius“ DEATH [12] "king enemy battle war army soldiers valour victory enemies caesar” WAR [13] "subject laws custom fancy women soever vain law rules rule" [14] "man life give soul fortune common reason mind hand pleasure" [15] "virtue true speak cicero actions order art friends left plutarch"
  • 13. Reagan et al., The emotional arcs of stories are dominated by six basic shapes
  • 16. □ Welke diensten kan het CDS leveren? □ Diensten worden geordend aan de hand van stappen in het onderzoeksproces: □ Het verkrijgen van data □ Het opschonen en verrijken van data □ Het analyseren en visualiseren van data □ Het delen van resultaten □ Ontwikkeling van een protocol □ Samenwerking met andere partijen Roadmap TDM
  • 18. Bij ons leer je de wereld kennen Text & Data Mining Laurents Sesink Vakreferenten 6 februari 2017
  • 19. Universiteit Leiden. Bij ons leer je de wereld kennen Universitair kader Door de oprichting van een Centre for Digital Scholarship (CDS) bij de Universitaire Bibliotheken Leiden (UBL) wil de Universiteit Leiden de impact van haar onderzoek en onderwijs verbeteren. Instellingsplan Universiteit Leiden 2015 – 2020 • Delen en samenwerken zijn sleutelwoorden in de huidige wetenschapsbeoefening. Met de opkomst van open access en open data management worden het delen van onderzoeksgegevens en -resultaten en het samenwerken bij het verzamelen, analyseren en publiceren daarvan steeds belangrijker. • De Leidse universiteit wil het de wetenschappers door middel van state of the art ICT-ondersteuning en - infrastructuur gemakkelijker maken om te delen en samen te werken. • De universiteit zal daarom bij de Universitaire Bibliotheken Leiden een Centre for Digital Scholarship inrichten dat onderzoekers en studenten service verleent bij het gebruik van nieuwe technologie, onder meer ten behoeve van digitale onderzoeksmethoden, open access, data management en social networking
  • 20. Universiteit Leiden. Bij ons leer je de wereld kennen Doelstelling ‘Digital Scholarship’ is kort gezegd het beantwoorden van onderzoeksvragen met behulp van nieuwe digitale technologieën. Digital Scholarship heeft consequenties voor het: • Onderzoek - Data Science • Publicatieproces - Open Access. • Onderzoeksproces - Datamanagement
  • 21. Universiteit Leiden. Bij ons leer je de wereld kennen Open Access, Datamanagement, Algemeen Capaciteit 2017 Activiteit Medewerker FTE Uren Functieprofiel Management CDS Laurents Sesink 1,0 1400 Subtotaal 1,0 1400 Datamanagement CDS Fieke Schoots 0,8 1120 DSL-A CDS Michelle van den Berk 0,4 560 DSL-A Matrix UBL FLD 0,2 280 Copyright Subtotaal 1,4 1960 Open Access CDS Michelle van den Berk 0,4 560 DSl-A CDS Peter Verhaar 0,1 140 DSL-T Matrix UBL FLD 0,1 280 Copyright Subtotaal 0,6 980 Totaal 3,0 4200
  • 22. Universiteit Leiden. Bij ons leer je de wereld kennen Data Science Support • Tekst & Data Mining • Data & Metadata • VRE’s • GIS • Databasebouw & websites
  • 23. Universiteit Leiden. Bij ons leer je de wereld kennen Capaciteit support for Data Science Capaciteit 2017 Activiteit Medewerker FTE Uren Functieprofiel Data-textmining CDS Peter Verhaar 0,2 280 DSL-T CDS Ben Companjen 0,5 700 DSL-T Matrix UBL FLD 0,2 280 Copyright Matrix UBL MDA 0,1 140 Licenties Subtotaal 1.0 1400 Data & Metadata CDS Ben Companjen 0,5 700 DSL-T Matrix UBL DBC 1,0 1400 Digitalisering Subtotaal 1,5 2100 Databasebouw & websites Peter Verhaar 0,2 280 DSL-T Subtotaal 0,2 280 Samenwerkingsomgevingen Matrix UBL DD/IP 0,5 700 Consultancy/ configuratie 0,5 700 GIS Matrix UBL FLD 0,1 140 GIS expertise Subtotaal 0,1 140 Totaal 3,3 4620 FLD DBC IP MDA 100 200 400 200 Projectmatige activiteiten CDS. (UBL projectenkalender)
  • 24. Universiteit Leiden. Bij ons leer je de wereld kennen Text-Datamining activiteiten • Volgen en (waar van belang en mogelijk) beïnvloeden universitaire, landelijke en Europese beleidsontwikkeling - Bijvoorbeeld verlagen drempels voor toegang tot data. Liber, LERU • Zicht hebben op en mogelijkheden benutten van ‘state of the art’ technology - Aanhaken bij (inter)nationale onderzoeksinfrastructuren zoals DARIAH en CLARIAH • Op en uitbouw samenwerkingsverbanden - LCDH, LCDS, DTL, KNAW-E-Humanities Cluster, LURIS • Kennisdeling, informatievoorziening - Workshop FAIR, Workshop R, Workshop HPC
  • 25. Universiteit Leiden. Bij ons leer je de wereld kennen Text-Datamining activiteiten • Advies - Grant proposals • Proof of Concepts, Pilots en Proeftuinen - Influence Networks (FGGA), Sino-Maleis (KITLV), Digging into Military Memories (KITLV), • Diensten - Ontwikkeling van een roadmap Tekst-Datamining
  • 26. Universiteit Leiden. Bij ons leer je de wereld kennen Werkwijze • Onderzoeker staat centraal • Er wordt gebruik gemaakt en voortgebouwd op de bestaande digitale infrastructuur van de UBL • Projectmatige activiteiten dragen bij aan het ontwikkelen van een roadmap TDM • Er is beperkte capaciteit beschikbaar • De agile projectmethodiek wordt gehanteerd • Voor iedere projectmatige activiteit wordt een projectbrief opgesteld • Overzicht activiteiten op interne CDS website • Projecten verlopen volgens SCRUM • Voortgang wordt bijgehouden in Trello
  • 27. Universiteit Leiden. Bij ons leer je de wereld kennen Bevindingen • Behoefte aan: - digitalisering analoog materiaal - Metadatering - Toegankelijk maken van digitale collectie - Inzicht in en verbeteren van de kwaliteit van de OCR - Het geschikt maken van collecties voor TDM, data curatie - Overzicht van geschikte TDM tools - Ondersteuning bij het gebruik van TDM tools - Verrijken van de collectie (koppelen aan registries, Markup) - Visualisatie van resultaten
  • 28. Bij ons leer je de wereld kennen Vragen?
  • 29. Discover the world at Leiden University PoC Sino-Maleis Ben Companjen | Centre for Digital Scholarship
  • 30. Proof of Concept Sino-Maleis Onderzoeksproject van Tom Hoogervorst
  • 31. Epic 1: Collecties als FAIR data • Scans zijn belangrijk, maar aan scans alleen heb je niet genoeg • Epic 1 ("Grote Stap 1") is daarom: - alle boeken verzamelen - beschikbaarheid metadata inventariseren - rechten uitzoeken - elk digitaal boek in een voor mens en computers bruikbaar formaat gieten - kwaliteit van optical character recognition beoordelen en indien mogelijk verbeteren • FAIR: Findable, Accessible, Interoperable, Reusable - o.a.: persistent identifier, metadata beschikbaar, geaccepteerde open bestandsformaten,
  • 32. Epic 2: Data on Demand • Onderzoekers moeten niet afhankelijk zijn van fysieke dragers zoals papier en USB-sticks – die moeten gedigitaliseerde boeken online kunnen vinden en gebruiken • De gedigitaliseerde boeken willen ze: - lezen (of ten minste doorbladeren), én - als data downloaden • Corpus voor onderzoek kan bestaan uit alle Sino- Maleise boeken, of een deelverzameling - online deelverzameling samenstellen - boeken op inhoud doorzoeken en op metadata
  • 33. Offline analyse met gedownloade data
  • 35. Epic 3: Analysis on Demand • Veel analyses kunnen online uitgevoerd worden - vooraf uitgevoerd om te helpen selecteren - on-demand, maar zonder downloaden • We kunnen zelf tools beschikbaar maken, binnen of buiten de repository • Er is al een en ander beschikbaar: - Voyant Tools – om de tekst (visueel) te verkennen - Recogito – om te annoteren en op een kaart te plotten
  • 36. Voyant Tools – "See through your text"
  • 38. Bij ons leer je de wereld kennen Vragen?
  • 39. Bij ons leer je de wereld kennen Influence Networks Ben Companjen, Laurents Sesink, Peter Verhaar 6 februari
  • 40. Universiteit Leiden. Bij ons leer je de wereld kennen Influence Networks □ Onderzoeksproject van Mark Dechesne § UD bij FGGA / Leiden University Dual PhD Centre The Hague § Politieke psychologie en de sociale psychologie □ Onderzoek naar de aard en de samenstelling van de sociale netwerken die in Nederlandse kranten worden genoemd
  • 41. Universiteit Leiden. Bij ons leer je de wereld kennen Corpus □ Alle artikelen uit Nederlanstalige kranten (Volkskrant, het NRC, het Parool, het Financieel Dagblad, het Algemeen Dagblad, de Telegraaf en Trouw) uit de periode 2005-2015 □ Liefst ook alle artikelen uit The New York Times, The Washington Post, of The Guardian uit dezelfde periode □ Contact met LexisNexis □ Omvang: 60 x 200 * 300 woorden per krant per jaar = 3,6 mln. Bij 8 kranten: 20 mln woorden (80 GB)
  • 42. Universiteit Leiden. Bij ons leer je de wereld kennen Doelen van het project □ Namen met de hoogste frequenties vaststellen voor het hele corpus □ De dagelijkse/wekelijkse/maandelijkse frequenties van deze namen in de verschillende kranten vaststellen □ M.b.v. Factoranalyse of correspondentie-analyse nagaan of bepaalde namen in clusters voorkomen □ Nagaan of namen geassocieerd worden met specifieke thema’s □ Bepalen of namen geassocieerd worden met sentimenten
  • 43. Universiteit Leiden. Bij ons leer je de wereld kennen Ontwikkeling methodiek □ Woordfrequenties met Perl
  • 44. Universiteit Leiden. Bij ons leer je de wereld kennen Ontwikkeling methodiek □ Frequenties van plaatsnamen via GoogleMaps API □ Visualisaties in R □ Named Entity Recognition (FROG; Stanford NER Tagger, NameScape project) □ Sentiment Analysis (Heem: vertaling in NL van LIWC van VU) □ Verkenning HPC
  • 45. Universiteit Leiden. Bij ons leer je de wereld kennen Samenstellen corpus □ Web Services data kit van LexisNexis heeft beperkingen □ Verzoek indienen bij LexisNexis om export te maken van full text van alle relevant artikelen □ Kosten die hiervoor in rekening worden gebracht zijn nog onbekend
  • 46. Universiteit Leiden. Bij ons leer je de wereld kennen
  • 47. Universiteit Leiden. Bij ons leer je de wereld kennen FutureTDM & The Hague Declaration □ “A lack of clarity around the legality of TDM is inhibiting TDM-based research in Europe” □ “The solutions offered by publishers are insufficient to meet the needs of researchers and are placing European researchers at a disadvantage” □ “The introduction of a mandatory copyright exception to allow anyone to use computers to analyse anything to which they have legal access is essential”
  • 48. Bij ons leer je de wereld kennen Vragen?
  • 49. Bij ons leer je de wereld kennen Text & Data Mining E-Humanities. De oorlog in Indonesie, 1945-1950. Laurents Sesink Vakreferenten 6 februari 2017
  • 50. Universiteit Leiden. Bij ons leer je de wereld kennen E-Humanities. De oorlog in Indonesie, 1945-1950. • Dekolonisatieoorlog, 1945-1949, staat de laatste jaren volop in de belangstelling. • Onderzoek naar ’oorlogsmisdaden’ staat centraal. - 1969 Excessennota. 2017 Grootschalig onderzoek naar periode van dekolonisatie. • KITLV onderzoek naar alle bekende gepubliceerde egodocumenten van soldaten/militairen die dienden in de Nederlandse krijgsmacht in Indonesië. • 700 egodocumenten, 100.000 bladzijden. (KITLV/UBL, NIOD) • Database: metadata over egodocumenten; 1400 persoonsgegevens; verwijzingen naar oorlogsmisdaden.
  • 51. Universiteit Leiden. Bij ons leer je de wereld kennen Resultaten onderzoek gepubliceerd in:
  • 52. Universiteit Leiden. Bij ons leer je de wereld kennen Onderzoeksmethoden • Traditioneel - Bladeren door egodocumenten - Lezen passages over ’oorlogsmisdaden’ - Noteren in database • E-Humanities - Digitalisering egodocumenten - Mining egoducementen - Analyse
  • 53. Universiteit Leiden. Bij ons leer je de wereld kennen Digging into Dutch Military Memoirs on Indonesia, 1945-1950 • Methodologen en historici - welke vragen kunnen op welke wijzen en met welke mogelijke resultaten worden gesteld en beantwoord op grond van gedigitaliseerde egodocumenten van Nederlandse militairen uit de dekolonisatieoorlog. - (on)mogelijkheden van dit onderzoek en concrete technische standaards voor digitalisering. De kosten van optimale digitalisering, de ontwikkeling van tools en (publieks)presentaties.
  • 54. Universiteit Leiden. Bij ons leer je de wereld kennen Digging into Dutch Military Memoirs on Indonesia, 1945-1950 • Onderzoekers vertrouwd maken met de huidige mogelijkheden van DH/CLARIAH-tools op basis van een goed gecureerd corpus en het oefenen met een aantal use cases. • Drie thema’s: visualisatie van metadata; textmining; en crowd sourcing. • Conclusies van deze CLARIAH workshop bevestigen dat het beoogde DH onderzoek uitvoerbaar en zowel inhoudelijk als methodologisch uitermate interessant is
  • 55. Universiteit Leiden. Bij ons leer je de wereld kennen Doelstelling KITLV/CDS pilot • Doelstelling van het project is om het corpus - volledig te digitaliseren, - beschikbaar te stellen en een - Proof of Concept Data en Textmining te ontwikkelen - om het corpus vervolgens geavanceerd te onderzoeken en op basis daarvan niet alleen de reeds gestelde onderzoeksvragen grondiger en completer te onderzoeken, - maar ook nieuwe onderzoeksvragen te stellen.
  • 56. Universiteit Leiden. Bij ons leer je de wereld kennen Vraag Gert Oostindie aan CDS • Doelstelling van het project is om het corpus - volledig te digitaliseren, (CDS) - beschikbaar te stellen en een (CDS) - Proof of Concept Data en Textmining te ontwikkelen (CDS/CLARIAH/KITLV) - om het corpus vervolgens geavanceerd te onderzoeken en op basis daarvan niet alleen de reeds gestelde onderzoeksvragen grondiger en completer te onderzoeken, (KITLV/CDS) - maar ook nieuwe onderzoeksvragen te stellen. (KITLV/CDS)
  • 57. Universiteit Leiden. Bij ons leer je de wereld kennen Wat zal dit project concreet opleveren? • Een gedigitaliseerde collectie egodocumenten. 700 egodocumenten, ongeveer 100.000 pagina’s. • Beschikbaarstelling van de collectie in de repository infrastructuur van de UBL • Een inventarisatie en advies over geschikte Data en textmining tools. • Een proof of concept werkomgeving waar Data en textmining tools op de data kunnen worden toegepast.
  • 58. Universiteit Leiden. Bij ons leer je de wereld kennen Wat zal dit project, kortom, wetenschappelijk opleveren? • Een vergelijking tussen de resultaten van traditioneel en digital humanities onderzoek. • Intensieve samenwerking tussen het KITLV (Data Science) en het Centre for Digital Scholarship (Data stewardship en Data engineering) van de UBL. • Experimentele verbetering van de work flow: systematische dataverzameling en -verwerking. • De ontwikkeling van nieuwe tools die ook elders kunnen worden gebruikt.
  • 59. Universiteit Leiden. Bij ons leer je de wereld kennen Wat zal dit project, kortom, wetenschappelijk opleveren? • Een veel diepgaander analyse van relaties tussen kenmerken van de egodocumenten, de betrokken militairen/veteranen, en de wijze waarop uiteenlopende thema’s wel/niet worden aangesneden. • Analyse van taalgebruik: variaties samenhangend met het type egodocument en de karakteristieken van de betrokkenen, maar evenzeer met het verstrijken van de tijd (bv. andere opvattingen over aanvaardbaar taalgebruik over Indonesiërs, over geweld, over seks, etc.). • In bredere zin: bouwstenen voor een sociaal-culturele geschiedschrijving van de Nederlandse krijgsmacht in deze oorlog en de veteranen-beleving sindsdien.
  • 60. Universiteit Leiden. Bij ons leer je de wereld kennen Wat kan zo’n project opleveren in de sfeer van valorisatie? • Bijdrage aan vaak heftige maatschappelijke debatten waarin wetenschappelijke inzichten dringend gewenst zijn. • Daarmee ook zichtbaarheid voor het KITLV en het CDS.
  • 61. Universiteit Leiden. Bij ons leer je de wereld kennen Afbakening • Het project richt zich primair op: - Het digitaliseren van de collectie egodocumenten. - Het beschikbaarstellen van de digitale collectie egodocumenten. - Het inventariseren en adviseren over geschikte Data en Texmining Tools. - Het opzetten van een Proof of Concept werkomgeving waar geëxperimenteerd kan worden met Data en Textmining tools.
  • 62. Bij ons leer je de wereld kennen Vragen?