3. DATA CLEANING
… is arbeidsintensief
Open Refine is een gratis open-source tool
waarmee je data snel kan:
analyseren
schonen
normaliseren
verrijken
4. AGENDA
Wat is Open Refine?
Schonen van data
Normaliseren en verrijken (RKD, VIAF, AAT,
Wikidata, Geonames…)
Exporteren
CEST:
http://www.projectcest.be/index.php/Handleiding_Open_Refine
Handout:
http://www.projectcest.be/images/3/38/20150430_Handout_Ope
n_Refine_workshop.pdf
7. WAT?
“a powerful tool for working with messy data”
open-source project
- Freebase Gridworks (may 2010)
- aankoop Google -> Google Refine (juli 2010)
- 2010-2012: v.2.0 > v2.5
- Stop Google support > Open refine (October 2012) beta versie 2.6
- 2015: RefinePro – Cloud oplossing
stand alone desktop application, geen internet nodig
data schonen, normaliseren, transformeren naar verschillende
formaten
26. SEMI-AUTOMATISCHE IDENTIFICATIE EN
VERRIJKING
Vier mogelijkheden:
• Via een export van een authority
• Met behulp van een Reconciliation service
• Automatisch gegevens ophalen uit externe
standaardterminologieën via URLs
• DERI RDF Extension
Een van de kerntaken van een collectiebeherende instelling is informatie over objecten bijhouden en toegankelijk maken. Niet gestandaardiseerde en rommelige data zijn echter zeer lastig voor intern en extern gebruik. Om de kwaliteit van data te verhogen moet men aan arbeidsintensieve data-cleaning doen. Deze opdracht kan op snellere semi-automatische manieren uitgevoerd worden met behulp van gespecialiseerde softwaretools, zoals OpenRefine. Deze gratis open-source applicatie biedt een mogelijkheid om verschillende data snel te Analyseren, Transformeren en verrijken met contextuele gegevens.