13. PERSISTENTE URI’S
- Alle kunstwerken en afbeeldingen binnen de collecties
voorzien van uniek webadres
- Ook kunstenaars, objectnamen en dateringen genormaliseerd
- Data verrijkt met informatie uit externe bronnen (131.266
naamvarianten van vervaardigers, objectnamen in 4 talen …)
- Data over dezelfde kunstwerken in verschillende databanken
gelinkt met elkaar
- Genormaliseerde data terug aan de collectieverantwoordelijke
bezorgt
kunstwerken kunstenaars objectnamen
Exports musea 43.264 10.183 697
Uniek 34.358 7.025 344
14. VERVAARDIGERS
>> 90% van de 10.183 naamsvermeldingen geidentificieerd
>> Aantal unieke personen in de 10 collecties – geschat tussen 7.025 en
7.750
Aantal naams-
vermeldingen
Aantal unieke
strings in de
naams-
vermeldingen
Aantal records
geïdentificeerd
met maar 1 pURI
Aantal records
geïdentificeerd
met maar 2 pURI
Aantal records
geïdentificeerd
met maar 3 pURI
Aantal records
geïdentificeerd
met maar 4 pURI
10.183 7.750 1.373 (14%) 3.424 (34%) 4.083 (40%) 204 (2%)
Externe bron Aantal geidentificieerde
naamsvermeldingen
Aantal unieke
kunstenaars
Aantal naamsvarianten
gehaald uit de externe
bron
RKDartists 8.708 7.025 21.413
VIAF 7.791 4.584 111.711
Wikidata 4.463 2.326 9.156
ODIS 347 165 -
15. VERVAARDIGERS
De doorzoekbaarheid van de collectiecatalogus verbetert door een betere
herkenning met naamsvarianten van kunstenaars (zoeken op een
naamsvariant geeft alle werken van een bepaalde kunstenaar)
1. Het gebruik van reconciliation service en API-services zorgt voor versnelling van het
proces van identificatie.
>> vb. 86% van de voorstellen van RKD-reconciliation service waren correct
2. Bereik van gekozen externe standaardterminologieen:
Van de 7.750 unieke waardes aangeleverd door de instellingen werden er: 90% geïdentificeerd
door unieke RKD-agents, 59% door unieke VIAF-agents, 30% door Wikidata-agents en 2% door
ODIS-agents.
>> 1.100 naamsvermeldingen nog niet geïdentificeerd (10% van 10.183)
• 441 van anonieme vervaardigers
• 659 naamsvermeldingen nog te analyseren en aan een externe autoriteit voorstellen
3. Doorzoekbaarheid van de collecties is verbeterd
>> Collectiedata is verrijkt met 131.266 unieke naamsvarianten
>> Demonstrator
16. VERVOLGTRAJECT (2014 – 2015)
1. ‘Hoe word ik data uitgever?’
PACKED ondersteunt de musea in het activeren, online zetten en
beheren van de aangemaakte persistente URI’s via de Resolver
2. ‘Event-based objectbeschrijving’
Identificatie van de levensloop van kunstwerken (creatie,
tentoonstelling, bruiklenen…)
3. ‘Linked Open Data (LOD) publicatie via Wikidata’
Basis identificatiegegevens vindbaar maken op het web voor grote
publiek met behulp van duurzame bronvermelding en bestaande
gratis applicaties (zoals Wikidata)
16
Deze presentatie is een toelichting van het afgeronde project ‘Persistente identificatie’ 2013 – 2014 en het vervolgtraject voor 2015
Tot nu: musea vooral als de bewaarders van collecties en informatie erover. Dit is aan het veranderen. De nieuwe rol die musea moeten opnemen is een katalysator zijn van de kennis en creativiteit van onderzoekers en de brede publiek
In 2013 PACKED launched a set of digitazation projects to facilitate this transformation of museums to their new role. We are doing research, think the workflows through and build and test the needed infrastructure.
The goal of our projects is to make knowledge and facts about the Flemish art collections open and accessible for modern day research and exploration and provoke new ideas for digital humanities research inside and outside their organisation.
Doel - onderzoeken of het gebruik van persistente URI’s:
beheer van collectiedata stroomlijnt;
uitwisseling van collectiedata efficiënter maakt; en
dynamische verwerking van collectiedata in andere websites of mobiele toepassingen makkelijker maakt
Persistente identificatie gaat over het maken van ‘goede’ webadressen voor kunstwerken.
Een webadres is een link naar een document (foto, beschrijving, ruwe data) naar een kunstwerk.
Vaak worden die maar door een applicatie gebruikt (bvb de collectiewebsite)
En daarom is er weinig aandacht voor de vorm. Die is vaak heel complex.
Dat wordt een probleem als je die link wil gebruiken in meerdere applicaties, voorbij de gewone website. Voor zoekmachines (google, europeana, wikipedia), maar ook in verschillende mobiele applicaties.
Vooral nu beelden meer decentraal in beeldbanken, en data via API’s beschikbaar komen.
Hoe Object online identificieren: een locatie en een naam geven mbv URI
Daarvoor heb je duurzame webadressen nodig.
Daarvoor heb je webadressen nodig die niet veranderen (als je nieuwe software gebruikt)
Daarvoor heb je eenvoudige webadressen nodig waarmee IT’ers makkelijk kunnen ontwikkelen.
Daarvoor heb je webadressen nodig die kunstwerken juis, en ondubbelzinnig identificeren.
To prove the point we build A closed simulation of an aggregator where the data from the museums was searchable
Three different search results::
Simple: zoekodracht wordt uitgevoerd op collectiedata voor de normalisering
Indexed: zoekopdracht wordt uitgevoerd op collectiedata voor de normalisering, maar met behulp van een soundex zoekfunctie, waarbij fonetsich-gelijke termen ook terug worden gegeven in de resultaten
Normalized: zoekopdracht op de genormalizeerde data
To show the clusters
From 43.264 -> naar 34.358 unique arworks (some organisations register data about artworks on other museums)
All artwokrs got a persistent URI
All data and representations got their persistent URI
Resultaten van het project
Identificieren van vervaardigers hebben we semi-automatisch uitgevoerd met behulp van Open Refine – een tool om je data te clenen. Wikidata en VIAF konden we automatisch aanspreken vanuit Open Refine, voor RKD en ODIS hadden we met behulp van exports zelf een service gebouwd voor dit project
165 personen is niet weinig. De rijke contextuele data die achter die records bestaat is zeer waardevol
Niet kwantiteit, maar kwaliteit is belangrijk
>> resultaat: voor de 165 hebben we ook de links naar VIAF, Wikidata en RKDartits ook meegegeven, dus eigenlijk mogelijkheid gecreerd om te verrijken. ook als ODIS zelf naar andere databanken linkt om eigen data te verrijken
Met ODIS hebben we niet kunnen verrijken omdat de data niet onder open licentie was. Nu is het wel zo, maar automatische verrijking en een API voor identificatie is jammer genoeg niet toegankelijk. Er is niet veel aan de openlicentie als je het niet op grote schaal kan krijgen.
Eerste vervolgproject is om de resultaten van persistente identificatie in de praktijk te brengen
Dus 1 is een project waarin we elk museum begeleiden om de informatie en beelden die ze hebben te publiceren op het web via persistente URI’s.
Project 2 is de identificatie met pURI’s doortrekken naar de ‘levensloop’ van een kunstwerk, omdat dit interessante informatie is waarmee ontwikkelaars innovatieve visualisaties kunnen produceren.
Project 3: Identificatiegegevens uit het eerste project vindbaar maken op het web: de geïnteresseerde personen weg kunnen vinden naar basisdata wie wat waar en wanneer over kunstwerk . ipv zelf databanken bouwen wouden we onderzoeken of we gebruik kunnen maken van tools die al bestaan, gratis zijn en waar veel mensen al gebruik van maken – WIKIDATA
Initatief om een vervolgtraject uit te schrijven, bestaande uit 3 deelprojecten. Vorige week een goedkeuring en subsidies gekregen van de overheid. Momenteel zijn we de gedetaileerde projectplannen aan het opstellen.
Resultaten van het project
Tool waarmee elke instelling zelf die unieke web-adressen voor kunstwerken beheert en daar verschillende documenten aan koppelt:
bestaande eigen webpublicaties (vb. link naar Ensembles)
publicaties op andere websites (vb. link naar Erfgoedinzicht)
niets
We wanted to structure data that is often only implicitly present in the records about artworks, stuck in traditional collection mgmgt systems and only beeing registerd for administration: production, ownership, restoration, exposition, acquisitions, loans.
This rich context around an artwork that may provoke new ideas and possibilities for digital humanities research is hardly accessible for any external users, lies deeply embedded in collection management oriented data structures, often spread over different software systems.
Our current project will look into the possibilities for extracting this information from these data structures and systems and find a sustainable way to make it available for research.
A way to transform this management data to data usable for research is to look at this data through a lens of ‘event’.
Initiatives such as CIDOC-CRM and LIDO introduced the concept of the ‘event’ in museum documentation practice as an instrument to identify and cluster factual information about the life of an artwork. Events are generic containers that reveal what happened at a particular time and place to a work of art (the WHO?WHEN?WHERE? information)
Na de analyse van data zal het duidelijk zijn of ODIS interessant s voor dit project ook, terug contact opnemen met Peter en of de data als export krijgen of we kunnen ook webscrapen