Herfstschool Tools voor Onderzoekers SURF Academy 2 – 4 november 2009 Universiteit Leiden
INLEIDING OP ‘TOOLS VOOR ONDERZOEKERS’ OPSLAAN EN DELEN VAN ONDERZOEKSDATA <ul><li>Ysbrand van der Veen </li></ul>
Uitgangspunten bij deze presentatie <ul><li>opslaan van onderzoeksdata heeft hergebruik van de data ten doel </li></ul><ul...
Randvoorwaarden <ul><li>instellingen en sponsoren (o.a. overheden) onderkennen dat herbruikbaarheid kosten met zich mee br...
Inhoud van de presentatie <ul><li>Prepareren </li></ul><ul><li>Baseren </li></ul><ul><li>(je) Realiseren </li></ul><ul><li...
A. Prepareren: welke (onderzoeks)data sla je op, voor wie en waarom <ul><li>selectiecriteria </li></ul><ul><li>doelstellin...
Selectie hoe dan ook noodzakelijk 1999 : de wereld produceert tussen 1 and 2 exabytes met unieke informatie per jaar, d.w....
B. Baseren: waar, hoe sla je de data op <ul><li>hosting van de nieuwe digitale data-bibliotheek; creëren van het digitale ...
B. Waar en hoe sla je de data op We duizenden jaren oude kleitabletten lezen, duizend jaar oude boeken en honderd jaar oud...
C. (je) Realiseren: het gaat om artefacten (1) <ul><li>die op een bepaald moment in de tijd </li></ul><ul><li>een bepaalde...
C. (je) Realiseren: het gaat om artefacten (2) <ul><li>Contextsensitiviteit </li></ul><ul><ul><ul><li>paradigma van waarui...
C. (je) Realiseren: het gaat om artefacten (3) <ul><li>‘ tijdloosheid’ bronnen </li></ul><ul><ul><ul><li>publicaties zulle...
D. Traceren: vindbaarheid en doorzoekbaarheid van datacollecties <ul><li>vindbaarheid door derden (maar bijv. tien jaar la...
E. Presenteren: van tools, metadata en onderzoeksgegevens (1) <ul><li>gebruikersvriendelijke tooling met een hoge gemaksfa...
E. Presenteren: van tools, metadata en onderzoeksgegevens (2) <ul><li>‘ scanbare’ vormen van fysieke (re)presentatie van o...
Upcoming SlideShare
Loading in...5
×

Herfstschool Tools Voor Onderzoekers Yvd V

472

Published on

Presentation by Ysbrand van der Veen at SURFacademy Autumn School, Tools for Researchers, 2-4 november 2009, Leiden.

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
472
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Herfstschool Tools Voor Onderzoekers Yvd V

  1. 1. Herfstschool Tools voor Onderzoekers SURF Academy 2 – 4 november 2009 Universiteit Leiden
  2. 2. INLEIDING OP ‘TOOLS VOOR ONDERZOEKERS’ OPSLAAN EN DELEN VAN ONDERZOEKSDATA <ul><li>Ysbrand van der Veen </li></ul>
  3. 3. Uitgangspunten bij deze presentatie <ul><li>opslaan van onderzoeksdata heeft hergebruik van de data ten doel </li></ul><ul><li>onderzoeksdata dienen zowel longitudinaal door de onderzoeker zelf als binnen een discipline of multidisciplinair herbruikbaar te zijn i.e. een ‘Spel zonder grenzen’ in termen van tijd, organisatie en discipline </li></ul>
  4. 4. Randvoorwaarden <ul><li>instellingen en sponsoren (o.a. overheden) onderkennen dat herbruikbaarheid kosten met zich mee brengt – ‘ de kost gaat voor de baat uit ’ </li></ul><ul><li>onderzoekers onderschrijven dat doelstellingen rondom hergebruik ‘meerwerk’ voor hen meebrengt i.v.m. de ontsluiting en representatie van de onderzoeksdata </li></ul><ul><li>naadloze samenwerking business-IT met business i.e. onderzoekers ‘in the lead’ </li></ul>
  5. 5. Inhoud van de presentatie <ul><li>Prepareren </li></ul><ul><li>Baseren </li></ul><ul><li>(je) Realiseren </li></ul><ul><li>Traceren </li></ul><ul><li>Presenteren </li></ul>
  6. 6. A. Prepareren: welke (onderzoeks)data sla je op, voor wie en waarom <ul><li>selectiecriteria </li></ul><ul><li>doelstelling (waarom) </li></ul><ul><li>doelgroep (voor wie) </li></ul><ul><ul><li>speciale aandacht voor ‘tijdloze’ representatie van de organisatie van de wetenschap </li></ul></ul><ul><li>a . t/m c . te representeren in metadata bij de onderzoeksdata vanwege gebruik door derden (n.b. ook redenen van uitsluiting expliciet vermelden) </li></ul>
  7. 7. Selectie hoe dan ook noodzakelijk 1999 : de wereld produceert tussen 1 and 2 exabytes met unieke informatie per jaar, d.w.z. ongeveer 250 megabytes voor iedere man, vrouw, kind en baby op aarde. Eén exabyte is een miljard gigabytes of 1.000.000.000.000.000.000 i.e.10 18 bytes. Gedrukte documenten van alle denkbare types zijn slechts .003% van het totaal 2002 : in 2002 alleen is ongeveer 5 exabytes aan nieuwe informatie gegenereerd via de print, film/tv, magnetische and optische opslag systemen op de wereld, d.w.z. ongeveer 800 megabytes voor iedere man, vrouw, kind en baby op aarde. De aanwas aan nieuwe, unieke informatie bedroeg ongeveer 30% per jaar tussen 1999 and 2002. Er zijn 500.000 Libraries of Congress voor nodig om 5 exabytes te evenaren! In de Library of Congress bibliotheek bevinden zich 19 miljoen boeken and 56 miljoen manuscripten 2010 : tussen 2006 en 2010 zal de jaarlijkse hoeveelheid aan het digitale universum toegevoegde hoeveelheid informatie toenemen tot 988 exabytes (i.e. het tijdperk van praten in zetta- en yottabytes is nabij) ‘ How much information’, School of Information Management and Systems, University of California, Berkeley ‘ A Forecast of Worldwide Information Growth Through 2010’ , IDC, maart 2007
  8. 8. B. Baseren: waar, hoe sla je de data op <ul><li>hosting van de nieuwe digitale data-bibliotheek; creëren van het digitale equivalent van de UB en de UB catalogus </li></ul><ul><li>beheer vraagstuk van de nieuwe digitale bibliotheek </li></ul><ul><li>standaards voor dataopslag en metadata </li></ul><ul><li>speciale aandacht voor ‘houdbaarheid’ van mediaformaten zoals mp3, mpeg4, RAW e.d. </li></ul><ul><li>standaards compliant tooling (synchrone en diachrone dimensie) </li></ul>
  9. 9. B. Waar en hoe sla je de data op We duizenden jaren oude kleitabletten lezen, duizend jaar oude boeken en honderd jaar oude microfilms, maar kunnen we straks onze moderne media nog lezen variërend van VHS tapes tot Blueray disks en harde schijven ?
  10. 10. C. (je) Realiseren: het gaat om artefacten (1) <ul><li>die op een bepaald moment in de tijd </li></ul><ul><li>een bepaalde selectie uit de werkelijkheid representeren </li></ul>
  11. 11. C. (je) Realiseren: het gaat om artefacten (2) <ul><li>Contextsensitiviteit </li></ul><ul><ul><ul><li>paradigma van waaruit is onderzocht </li></ul></ul></ul><ul><ul><ul><li>welke classificatie (bijv. ICD-10, ICPC), taxonomie of ontologie ligt ten grondslag; bijv. bij natuurwetenschappelijk onderzoek de explicitering van het bestudeerde fenomeen binnen de fysieke werkelijkheid (verg. Boeing handleiding) </li></ul></ul></ul><ul><ul><ul><li>welke algoritmes zijn gebruikt bij het processen van de data </li></ul></ul></ul><ul><ul><ul><li>welke instrumenten zijn toegepast om de data te verzamelen </li></ul></ul></ul><ul><ul><ul><li>relatie naar publicatie(s) </li></ul></ul></ul><ul><ul><ul><li>e-mail als referentie ? </li></ul></ul></ul><ul><li>'tijdloosheid' technisch </li></ul><ul><ul><ul><li>zijn de data echt onafhankelijk van enige applicatie opgeslagen </li></ul></ul></ul><ul><ul><ul><li>duurzaamheid van de 'drager' (papier, microfilm, tape, harde schijf, DVD etc) </li></ul></ul></ul><ul><ul><ul><li>'tracking and tracing' (data een soort watermerk meegeven zodat de herkomst altijd duidelijk is’; persistentie bronnen) </li></ul></ul></ul><ul><ul><ul><ul><li>vanwege bronvermelding (ere wie ere toekomt) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>vanwege herkenbaarheid herkomst (i.v.m. hergebruik data door de decennia heen in potentieel steeds complexere mengelingen van data) en referenties (wetenschappelijke publicaties) </li></ul></ul></ul></ul>
  12. 12. C. (je) Realiseren: het gaat om artefacten (3) <ul><li>‘ tijdloosheid’ bronnen </li></ul><ul><ul><ul><li>publicaties zullen in toenemende mate non-textueel danwel cross-mediaal zijn </li></ul></ul></ul><ul><ul><ul><li>speciaal voor de menswetenschappen geldt dat zij fenomenen bestuderen die steeds meer in de digitale wereld worden gerealiseerd en gerepresenteerd met alle gevolgen van dien voor de ‘houdbaarheid’ van de bronnen (websites, e-books, mp3, user generated content, etc.) waaraan onderzoeksdata refereren </li></ul></ul></ul>
  13. 13. D. Traceren: vindbaarheid en doorzoekbaarheid van datacollecties <ul><li>vindbaarheid door derden (maar bijv. tien jaar later ook door jezelf) is afhankelijk van rijke vormen van metadateren </li></ul><ul><li>en van metametadateren want metadateren (d.w.z. metametadatateren) van de metadata wordt van toenemend belang </li></ul><ul><li>coderen (conform classificaties) en metadateren/metadateren kunnen door de vereiste expertkennis van de onderzoeksdata (n.b. artefacten) niet aan de (faciliterende) ‘bieb' overgelaten worden </li></ul>
  14. 14. E. Presenteren: van tools, metadata en onderzoeksgegevens (1) <ul><li>gebruikersvriendelijke tooling met een hoge gemaksfactor voor onderzoekers is nodig t.b.v. coderen (bijv. diagnotische classificatie) en metadateren / metametadateren </li></ul><ul><li>in nauwe samenwerking tussen business en IT zullen robuuste controlled vocabularies en ontologies ontwikkeld moeten worden </li></ul><ul><li>in zowel het academisch onderwijs als in opleidingen van aankomende onderzoekers zullen coderen, controlled vocabularies en metadateren hoger op de prioriteitenlijst moeten komen te staan </li></ul>
  15. 15. E. Presenteren: van tools, metadata en onderzoeksgegevens (2) <ul><li>‘ scanbare’ vormen van fysieke (re)presentatie van onderzoeksdata en metadata zijn nodig om onderzoekers snel benodigde informatie te kunnen laten vinden </li></ul>
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×