DANS is an institute of KNAW and NWO
From “me and my database” to linked
data resources in the humanities
Peter Doorn - Director, Data Archiving and Networked
Services (DANS); coordinator, “Preparing DARIAH” (Digital
Research Infrastructure for the Arts and Humanities)
Presentation for European Science Foundation (ESF) Standing
Committee for the Humanities (SCH) Strategic Workshop on
research communities and research infrastructures in the
Humanities Strasbourg – France, 29-30 October 2010, Theme 5:
Integrating extant resources
Data Archiving and Networked Services
Contents
− Data silos
− Preserving silos
− 1980s & 1990s: me & my database
− Last decade: linking resources in collaboratories,
portals, etc.
− Infrastructures needed to support this
− The next phase: linked open data?
Data Archiving and Networked Services
Thousands of data silos in the humanities
Historical databases Archaeological GIS
Linguistic corpora
Arts image collections
Literary text bases
Data Archiving and Networked Services
Thousands of data silos in the humanities
Historical databases Archaeological GIS
Linguistic corpora
Arts image collections
Literary text bases
Data Archiving and Networked Services
Digital preservation is necessary!
Data Archiving and Networked Services
Digital preservation is no luxury!
Storing the tapes of the population census 1973 of Sudan
Courtesy: Robert McCaa, IPUMS
Data Archiving and Networked Services
1980s and 1990s: Me & my data
Me & my database in History and Computing:
− This is the source I use
− This is the software I used
− This is how I put my source in the database
Me & my GIS in Archaeological Computing:
− These are my finds
− This is how I entered them in a GIS
− Look at the nice maps I can make!
Data Archiving and Networked Services
Data Archiving and Networked Services
Since the last decade:
let’s open up and connect the silos!
Data Archiving and Networked Services
Collaboratories
Data Archiving and Networked Services
Data Archiving and Networked Services
Services:
ADS Archive – W/S
ADS ArchSearch – W/S
CIMEC NMR (TB z39.50)
DANS, EASY – OAI PMH
RCAHMS – W/S
KUAS NMR – W/S
ADS ARENA II Technical Demonstrator
ARENA portal
Data Archiving and Networked Services
14
Jan Luiten van Zanden
Data Archiving and Networked Services
Gapminder to visualize world inequality
Data Archiving and Networked Services
Digital Collaboratory for Cultural
Dendrochronology
Esther Jansma
Data Archiving and Networked Services
Dendrochronology: the science or technique of dating events, environmental
change, and archaeological artifacts by using the characteristic patterns of
annual growth rings in timber and tree trunks
Applications in the humanities:
• Dating of objects (when was the tree lumbered?)
• Origin of objects (where did the wood come from?)
• Studies of wood technology
• Studies about the ways ancient landscapes were exploited
Spin-offs: knowledge about economy, technology and
landscape/environmental change in the past
Data Archiving and Networked Services
Data Archiving and Networked Services
Data collection RING
Data collections of ‘old wood’ for The Netherlands
− Private sector in The Netherlands (6000 BC-present):
• > 2000 research projects
• > 20.000 measurement series at 13.000 trees (60%
dated)
− Private sector and universities in Germany:
• Archaeology: e.g. Dorestad
• Cultural heritage: many objects from The Netherlands
and Flanders
• Architectural history: North and East NL, Amsterdam
Data Archiving and Networked Services
DCCD architecture
Data layer
Controlled vocabulary
User layer
Depositors control
access to their data
Persistent storage in DANS
Electronic Archiving System
Data Archiving and Networked Services
5 Criteria
16 guidelines
The research data:
− can be found on the Internet
− are accessible (clear rights
and licenses)
− are in a usable format
− are reliable
− can be referred to (persistent
identifier)
www.datasealofapproval.org
Data Archiving and Networked Services
Infrastructures are required to support and maintain
the collaborative efforts
− Services need to be sustainable
− Therefore they need to be generic and re-usable
DARIAH, the emerging
Digital Research
Infrastructure for the Arts
and Humanities aims to
“link and provide access to
distributed digital source
materials of many kinds”
Data Archiving and Networked Services
Starting infrastructure project of Holocaust archives
and researchers in collaboration with DARIAH
Data Archiving and Networked Services
Infrastructure proposals in preparation
Calls
− INFRA-2011-1.1.3. Integrating Digital Archives and
Resources for Research on Medieval and Modern
European History
− INFRA-2011-1.1.4. Integrating Archives for research
on Contemporary European Social History
Data Archiving and Networked Services
The next phase
− Linking different kinds of
information
− Linked open data: semantic
web technologies
Data Archiving and Networked Services
http://www.ted.com/talks/tim_berners_lee_
on_the_next_web.html
Data Archiving and Networked Services
Four principles of linked data (T.B.L.)
1. Use URIs to identify things
2. Use HTTP URIs so that these things can be referred to
and looked up ("dereferenced") by people and user
agents
3. Provide useful information about the thing when its
URI is dereferenced, using standard formats such as
RDF/XML
4. Include links to other, related URIs in the exposed
data to improve discovery of other related
information on the Web
Data Archiving and Networked Services
Linked Library
Cloud mid-
2010
Ross Singer, Code4Lib2010 - http://code4lib.org/conference/2010/singer
Data Archiving and Networked Services
Examples of Linked Data projects
−UK: http://data.gov.uk/
−US: http://www.data.gov/
−NL: http://politicalmashup.nl/
Data Archiving and Networked Services
Linked data and Open Annotations in Alfalab project
TextLab, SpaceLab, LifeLab
Data Archiving and Networked Services
Finally, an integrated
data infrastructure!
Yeah. Now if I can
just remember where
I put that file...

ESF Strasbourg Peter Doorn October 2010

  • 1.
    DANS is aninstitute of KNAW and NWO From “me and my database” to linked data resources in the humanities Peter Doorn - Director, Data Archiving and Networked Services (DANS); coordinator, “Preparing DARIAH” (Digital Research Infrastructure for the Arts and Humanities) Presentation for European Science Foundation (ESF) Standing Committee for the Humanities (SCH) Strategic Workshop on research communities and research infrastructures in the Humanities Strasbourg – France, 29-30 October 2010, Theme 5: Integrating extant resources
  • 2.
    Data Archiving andNetworked Services Contents − Data silos − Preserving silos − 1980s & 1990s: me & my database − Last decade: linking resources in collaboratories, portals, etc. − Infrastructures needed to support this − The next phase: linked open data?
  • 3.
    Data Archiving andNetworked Services Thousands of data silos in the humanities Historical databases Archaeological GIS Linguistic corpora Arts image collections Literary text bases
  • 4.
    Data Archiving andNetworked Services Thousands of data silos in the humanities Historical databases Archaeological GIS Linguistic corpora Arts image collections Literary text bases
  • 5.
    Data Archiving andNetworked Services Digital preservation is necessary!
  • 6.
    Data Archiving andNetworked Services Digital preservation is no luxury! Storing the tapes of the population census 1973 of Sudan Courtesy: Robert McCaa, IPUMS
  • 7.
    Data Archiving andNetworked Services 1980s and 1990s: Me & my data Me & my database in History and Computing: − This is the source I use − This is the software I used − This is how I put my source in the database Me & my GIS in Archaeological Computing: − These are my finds − This is how I entered them in a GIS − Look at the nice maps I can make!
  • 8.
    Data Archiving andNetworked Services
  • 9.
    Data Archiving andNetworked Services Since the last decade: let’s open up and connect the silos!
  • 10.
    Data Archiving andNetworked Services Collaboratories
  • 11.
    Data Archiving andNetworked Services
  • 12.
    Data Archiving andNetworked Services Services: ADS Archive – W/S ADS ArchSearch – W/S CIMEC NMR (TB z39.50) DANS, EASY – OAI PMH RCAHMS – W/S KUAS NMR – W/S ADS ARENA II Technical Demonstrator ARENA portal
  • 13.
    Data Archiving andNetworked Services
  • 14.
  • 15.
    Data Archiving andNetworked Services Gapminder to visualize world inequality
  • 16.
    Data Archiving andNetworked Services Digital Collaboratory for Cultural Dendrochronology Esther Jansma
  • 17.
    Data Archiving andNetworked Services Dendrochronology: the science or technique of dating events, environmental change, and archaeological artifacts by using the characteristic patterns of annual growth rings in timber and tree trunks Applications in the humanities: • Dating of objects (when was the tree lumbered?) • Origin of objects (where did the wood come from?) • Studies of wood technology • Studies about the ways ancient landscapes were exploited Spin-offs: knowledge about economy, technology and landscape/environmental change in the past
  • 18.
    Data Archiving andNetworked Services
  • 19.
    Data Archiving andNetworked Services Data collection RING Data collections of ‘old wood’ for The Netherlands − Private sector in The Netherlands (6000 BC-present): • > 2000 research projects • > 20.000 measurement series at 13.000 trees (60% dated) − Private sector and universities in Germany: • Archaeology: e.g. Dorestad • Cultural heritage: many objects from The Netherlands and Flanders • Architectural history: North and East NL, Amsterdam
  • 20.
    Data Archiving andNetworked Services DCCD architecture Data layer Controlled vocabulary User layer Depositors control access to their data
  • 21.
    Persistent storage inDANS Electronic Archiving System
  • 22.
    Data Archiving andNetworked Services 5 Criteria 16 guidelines The research data: − can be found on the Internet − are accessible (clear rights and licenses) − are in a usable format − are reliable − can be referred to (persistent identifier) www.datasealofapproval.org
  • 23.
    Data Archiving andNetworked Services Infrastructures are required to support and maintain the collaborative efforts − Services need to be sustainable − Therefore they need to be generic and re-usable DARIAH, the emerging Digital Research Infrastructure for the Arts and Humanities aims to “link and provide access to distributed digital source materials of many kinds”
  • 24.
    Data Archiving andNetworked Services Starting infrastructure project of Holocaust archives and researchers in collaboration with DARIAH
  • 25.
    Data Archiving andNetworked Services Infrastructure proposals in preparation Calls − INFRA-2011-1.1.3. Integrating Digital Archives and Resources for Research on Medieval and Modern European History − INFRA-2011-1.1.4. Integrating Archives for research on Contemporary European Social History
  • 26.
    Data Archiving andNetworked Services The next phase − Linking different kinds of information − Linked open data: semantic web technologies
  • 27.
    Data Archiving andNetworked Services http://www.ted.com/talks/tim_berners_lee_ on_the_next_web.html
  • 28.
    Data Archiving andNetworked Services Four principles of linked data (T.B.L.) 1. Use URIs to identify things 2. Use HTTP URIs so that these things can be referred to and looked up ("dereferenced") by people and user agents 3. Provide useful information about the thing when its URI is dereferenced, using standard formats such as RDF/XML 4. Include links to other, related URIs in the exposed data to improve discovery of other related information on the Web
  • 29.
    Data Archiving andNetworked Services Linked Library Cloud mid- 2010 Ross Singer, Code4Lib2010 - http://code4lib.org/conference/2010/singer
  • 30.
    Data Archiving andNetworked Services Examples of Linked Data projects −UK: http://data.gov.uk/ −US: http://www.data.gov/ −NL: http://politicalmashup.nl/
  • 31.
    Data Archiving andNetworked Services Linked data and Open Annotations in Alfalab project TextLab, SpaceLab, LifeLab
  • 32.
    Data Archiving andNetworked Services Finally, an integrated data infrastructure! Yeah. Now if I can just remember where I put that file...

Editor's Notes

  • #18 Bomen in de gematigde klimaatzones maken elk jaar onder hun schors een nieuwe houtring aan. Hoe breed deze ring wordt, hangt af van de groeiomstandigheden: regen, temperatuur, bodem, schaduw/licht. Omdat een deel van deze factoren voor bomen van dezelfde soort over grotere gebieden gelijk zijn, lijken de patronen van deze boomsoorten op elkaar. Dat betekent dat hun patronen met elkaar vergeleken kunnen worden. Gebruikmakend van dit fenomeen hebben dendrochronologen voor vele gebieden in de wereld lange gemiddelde groeikalenders gebouwd, die door hen benut worden als referentie bij het dateren van hout met een onbekende leeftijd. In osn deel van de wereld wordt daarbij overwegend gewerkt met eikenhout, maar ook es, iep, beuk en naaldhoutsoorten zoals den, zilverspar en fijnspar worden door ons gedateerd. Datering betekent bij de dendrochronologie dat er een kalenderjaar gekoppeld wordt aan iedere jaarring in het hout. Als een stuk hout compleet is, is de datering van de laatste ring idicatief voor het jaar, of zelfs seisoen, waarin een boom is omgehakt. In veel gevallen komt zo’n datering zeer dicht bij de datering van de bouw van het object waarin het hout is verwerkt.
  • #19 Voordat ik afsluit, wil ik tot slot toch even de grens over naar de Geowetenschappen. Onze data zijn namelijk niet alleen relevant voor de geschiedwetenschappen, maar ook, uiteinelijk, na strenge selectie en analyse, voor de reconstructie van het voormalig klimaat. Op deze grafiek ziet u in rood een jarenlange groeidepressie in nederlandse veeneiken (natuurlijke resten van bossen, in het veen geconserveerd), die start in het jaar 1628 v.Chr. Rond dezelfde tijd vond een van de grootste vulcaanerupties plaats in de geschreven geschiedenis, namelijk de Minoische eruptie van de Thera (ook de Santorini eruptie genoemd). Door as in de atmosfeer kon mider zonnestraling de aarde bereiken, en volgde een afkoeling. Het effect daarvan lijkt te zien te zijn in de eiken die rond die tijd in West Nederland groeiden en die in voormalige venen bewaard zijn gebleven. Het opzetten van een goede databibliotheek voor dendrochronologie stelt ons in staat dit tyope fenomeen veel beter te bestuderen dan op dit moment mogelijk is.
  • #20 Dataverzameling Stichting RING ten dele opgebouwd uit elders niet beheerde collecties universiteiten en publieke sector. Dataverzamelingen ‘oud hout’ anno 2009 voor Nederland: Private sector NL (6000 v.Chr.-heden): > 2000 onderzoeksprojecten, > 20.000 meetreeksen aan ca. 13.000 bomen (60% gedateerd) Op de afbeelding bovenaan de slide ziet u de gegevens van mijn eigen lab, met in lila de kiemdata van het hout en in blauw de kapdata. Overigens is deze collectie ten dele opgebouwd uit elders niet meer beheerde collecties van universiteiten (zoals het materiaal van mijn eigen promotieonderzoek aan de UvA) en de publieke sector. De schaal van de y-as is logarithmisch. De afgelopen 5 millennia zijn in de data goed vertegenwoordigd, en de belangrijkste chronologische lacunes in de data zitten rond 5200 en 4400 v.Chr. De gegevens lopen terug tot 6012 v.Chr, de datering van de oudste ring die in mijn lab ooit is opgemeten. Hoe groot de Nederlandse collecties ook zijn, ze zijn niet volledig. In de jaren 70 is dateringsonderzoek aan archeologisch hout, bijvoorbeeld afkomstig uit het vroeg middeleeuwse handelscentrum Dorestad, uitbesteed naar de Universiteit van Hamburg, eenvoudigweg omdat we in Nederland nog niet over de technologie en kennis beschikten om het onderzoek zelf uit te voeren. Daarnaast is deze universiteit tot op heden actief bij het dateren van objecten uit de Gouden Eeuw, waaronder de schilderijen van Rembrandt. Er zijn honderden, zo niet duizenden objecten gedateerd door de Hamburgse onderzoeker Peter Klein, objecten die in de Lage Landen zijn vervaardigd en over de hele wereld verspreid zijn geraakt. Twee weken geleden nog was Klein te gast bij het Rijksmuseum om een aantal schilderijen te onderzoeken. Ten derde zijn in Nederland in toenemende mate buitenlandse bedrijven actief. Omdat de opdrachtgevers van dze buitenlandse partijen geen eisen stellen aan de omgang met de gegevens, vindt met andere woorden al decennialang een drain plaats van historisch zeer relevante data.
  • #21 Dat de toegang tot de gegevens in handen is van de eigenaren, is een maatregel die tegemoetkomt aan de weerstand bij commerciele dendrochronologen om de eigen, vaak niet wetenschappelijk gepubliceerde gegevens zomaar aan derden ter beschikking te stellen. Uiteraard zijn er metadata die voor iedere bezoeker van de DCCD-website te zien zijn, en die dus verplicht openbaar zijn. Maar gegevens zoals dateringen, houtsoort en de feitelijke meetreeksen zijn af te schermen en kunnen door de eigenaren gericht aan individuele geinteresseerden opgengesteld worden. Ik verwacht dat feitelijke openstelling van data zal gaan gebeuren in concrete onderzoekssamenwerkingen die een helder juridisch kader krijgen. Mijn eigen hoop is dat deelnemers gaan beseffen dat openbaarmaking van de eigen data leidt tot een toenemende citering van het onderzoek en de onderzoekers, en tot een toenemende vraag om samenwerking, ook met andere disciplines. Maar goed, zolang men angstig is voor concurentie en oneigenlijk gebruik van gegevens, is een afschermingsmaatregel zeer gewenst.