Digital History lecture about modelling the maritime careers of sailors at the Dutch East India Company and the challenges of gathering, selecting, modelling, normalizing and classifying historical data.
5. ● Zijn er verschillen in sociale mobiliteit van maritiem personeel bij de VOC
tussen inwoners van de republiek en migranten?
○ De VOC had geen juridische barrières voor migranten (veel gildes wel)
○ In de VOC kon je ‘carrière maken’
○ Reductionistisch: sociale mobiliteit is veel meer dan een serie contracten
● Hoe kunnen we carrières van maritiem personeel van de VOC bestuderen en
in kaart brengen?
Onderzoeksvraag
8. Op Kleine Schaal: Close Reading
● Kunnen we de carrière van één persoon in kaart brengen?
○ Hoe doen we dat?
○ Alle records van dezelfde persoon bij elkaar brengen
○ Maar hoe weten we of twee records dezelfde persoon betreffen?
9. ● Hoe kunnen we zien of Daniel Engel
meerdere reizen maakte?
● Namen: historische spelling, veel variatie
○ Persoonsnamen en geboorteplaatsen
○ Klerken schreven op wat ze hoorden
○ 17-18de eeuwse spelling en linguistische variatie
○ Digitale transcriptie is ook niet foutloos
● Dantzig komt 7801 keer voor, met 126
verschillende spellingsvarianten
● Werknemers vertelden niet altijd de
waarheid
Bronnenkritiek en Data Curatie
Spelling Frequentie
Dantzig 1873
Dantzik 1650
Dantsigh 938
Dantsig 917
Dantzigh 531
...
Dantsiegt 1
Dankzich 1
Dankzig 1
11. Op Grote Schaal: Distant Reading
● Kunnen we de carriere van alle personen in kaart brengen?
○ Hoe doen we dat?
○ Alle records van dezelfde persoon bij elkaar brengen
● Ander soort bronnenkritiek
○ Klerken schreven op wat ze hoorden
○ Zit er systematiek in hoe ze dat opschreven?
○ We moeten nu kennis over historische linguistiek in detail op grote schaal toepassen
○ Hoe compleet is het archief van soldijkboeken?
● Record linkage
○ Van 774,200 records naar ? personen
12. Plaatsnamen
● Meer dan 150,000 unieke plaatsnaam-attestaties.
○ Maar slechts 5,176 verschillende plaatsen
● Normaliseren en standardiseren van plaatsnamen
○ OpenRefine software voor detecteren van spellingsvarianten
○ De records zijn grotendeels handmatig gelinkt aan plaatsnamen in GeoNames
○ Voor historisch plaatsen die niet meer bestaan is vaak handmatig een huidige plaats in de
buurt gekozen
https://www.geonames.org
16. ● Wanneer betreffen twee records dezelfde persoon?
● Meer dan 554,148 unieke persoonsnamen
○ Maar sommige varianten zijn misschien dezelfde naam (of i.i.g. dezelfde persoon)
○ ‘Arnoldus Coutrel’ vs. ‘Arnoldus Coetrel’
● Hoe gaan we dat op zo’n grote schaal doen?
○ We moeten automatiseren
● Stap 1: Automatische spellingsnormalisatie
○ Normalisatieregels voor 17de+18de eeuws Nederlands door Gerrit Bloothooft
○ https://www.gerritbloothooft.nl/Publications/VREGELS.pdf
○ ‘ae’ -> ‘aa’
○ ‘ck’ -> ‘k’
○ ‘szoon’ -> ‘s’
○ ‘sz.’ -> ‘s’
Persoonsnamen
18. Persoonsnamen - Clustering
● Stap 2: Regels voor het groeperen (clusteren) van records
○ Persoonsnamen moet bijna hetzelfde zijn
○ Geboorteplaats moet hetzelfde zijn
○ Reizen mogen niet overlappen in tijd
○ Er mag ook geen lange periode tussen zitten (kans op vader en zoon)
○ Overlijden is einde carrière
● Methodologische kritiek
○ Dit proces maakt fouten
20. Reason End Service Frequency
Deceased 366,419
Repatriated 221,335
Not recorded 35,653
Last record 29,183
Amsterdam chamber 25,102
Missing 18,087
Deserted 14,708
Absent upon departure 14,313
Shipwrecked 11,948
23. Bevindingen
● Geen grote verschillen tussen mensen uit de Republiek en migranten in
termen van promoties
○ Grootste verschil zit bij eerste stap: aangenomen worden
● Grotere ontwikkelingen
○ Gaandeweg leunt VOC meer op migranten
○ Officiersklasse blijft overwegend NL
○ Grote schommelingen tussen 1742 en 1755 door radicale reorganisaties binnen de VOC
● Veel bewerkingen
○ Allerlei data-transformaties nodig om personen en carrières te modelleren
○ Nieuwe, afgeleide data set wordt gepubliceerd.