How to get FUN out of
sharing your data
FUN meeting, 02-04-2015
l.osinski@tue.nl, TU/e IEC/Library
Available under CC BY-SA license, which permits copying and
redistributing the material in any medium or format &
adapting the material for any purpose, provided the original
author and source are credited & you distribute the adapted
material under the same license as the original
This is not about me
but about the referee
Be open
Source: http://www.gettyimages.co.uk/detail/news-photo/referee-nigel-
owens-of-wales-speaks-with-the-opposing-news-photo/467336590
Sharing. No PhD required
Open Science Framework
Data sharing as such is
pretty straightforward
Before reusable, your data
have first to be usable
Be organized, or: are you
able to find the correct
data set in 2 minutes?
Good data practices
Be safe, or: protect your data
against loss and unauthorized use
Good data practices
Be clear, or: provide
metadata
Good data practices
Use standards
Good data practices
Source: https://twitter.com/markusdahlem/status/580732476940775424
Use an established
data repository
Good data practices
Link your data with your
publications
Good data practices
The first and most important step in
sharing your data is that you are willing to
share your data
Good data practices
But what about your
department or research group?
References:
1. Borer, E.T., Seabloom, E.W., Jones, M.B., et al. (2009) Some simple guidelines for effective data management,
Bulletin of the Ecological Society of America, 90(2), p. 205-214. doi: 10.1890/0012-9623-90.2.205
2. White, E.P., Baldridge, E., Brym, T. et al. (2013) Nine simple ways to make it easier to (re)use your data, Ideas in
Ecology and Evolution, 6(2), p. 1-10. doi: 10.4033/iee.2013.6b.6.f
3. Goodman, A., Pepe, A., Blocker, A.W., et al. (2014) Ten simple rules for the care and feeding of scientific data,
PLOS Computional Biology, 10(4), e10033542. doi: 10.1371/journal.pcbi.1003542

How to get FUN out of sharing your data : FUN meeting, 02-04-2015 by Leon Osinski

  • 1.
    How to getFUN out of sharing your data FUN meeting, 02-04-2015 l.osinski@tue.nl, TU/e IEC/Library Available under CC BY-SA license, which permits copying and redistributing the material in any medium or format & adapting the material for any purpose, provided the original author and source are credited & you distribute the adapted material under the same license as the original
  • 2.
    This is notabout me but about the referee
  • 3.
  • 4.
    Sharing. No PhDrequired Open Science Framework Data sharing as such is pretty straightforward
  • 5.
    Before reusable, yourdata have first to be usable
  • 6.
    Be organized, or:are you able to find the correct data set in 2 minutes? Good data practices
  • 7.
    Be safe, or:protect your data against loss and unauthorized use Good data practices
  • 8.
    Be clear, or:provide metadata Good data practices
  • 9.
    Use standards Good datapractices Source: https://twitter.com/markusdahlem/status/580732476940775424
  • 10.
    Use an established datarepository Good data practices
  • 11.
    Link your datawith your publications Good data practices
  • 12.
    The first andmost important step in sharing your data is that you are willing to share your data Good data practices But what about your department or research group?
  • 13.
    References: 1. Borer, E.T.,Seabloom, E.W., Jones, M.B., et al. (2009) Some simple guidelines for effective data management, Bulletin of the Ecological Society of America, 90(2), p. 205-214. doi: 10.1890/0012-9623-90.2.205 2. White, E.P., Baldridge, E., Brym, T. et al. (2013) Nine simple ways to make it easier to (re)use your data, Ideas in Ecology and Evolution, 6(2), p. 1-10. doi: 10.4033/iee.2013.6b.6.f 3. Goodman, A., Pepe, A., Blocker, A.W., et al. (2014) Ten simple rules for the care and feeding of scientific data, PLOS Computional Biology, 10(4), e10033542. doi: 10.1371/journal.pcbi.1003542

Editor's Notes

  • #2 Of: It is FUN to share your data; Hoe jij en anderen plezier kunnen beleven aan het delen van data? Vragen tijdens de presentatie geen bezwaar. Integendeel.
  • #3 Kleine introductie van mezelf. Werkzaam bij IEC / Bibliotheek van de TUe als datalibrarian. Zoals je ziet heb ik vroeger – in mijn studententijd, zeg 30 jaar geleden - gerugbyd. Waarom deze foto over rugby. Het gaat op deze foto niet om mij maar om de scheidsrechter. Vergelijk deze scheidsrechter eens met een huidige rugby-scheidsrechter. Zie de volgende slide: foto van hedendaags rugby
  • #4 Rugby: open en transparant. Iedereen – in het stadion en op TV - kan horen wat de scheidsrechter zegt; waarom hij welke beslissing heeft genomen. Op de foto zien we de scheidsrechter in gesprek met beide aanvoerders omdat hij iets gezien heeft wat niet mag. Er is een backup van video-scheidsrechter. Open en transparent en eerlijk. Vergelijk dit met voetbal waarbij een scheidsrechter achteraf voor de camera bij wat beelden mag uitleggen waarom hij een bepaalde beslissing heft genomen. Be open: wees open, zonder t want gebiedende wijs. Open science = Open data Open publications Open software Open workflow Het gaat vooral over open data, dat wil zeggen over het delen / beschikbaar stellen van je onderzoeksdata met / aan anderen. Waarom zou je dat doen? Diverse redenen maar uiteindelijk is de reden dat je wilt of moet samenwerken met anderen en dat jij en anderen er in het kader van samenwerken plezier aan beleven. Dat plezier kan ook zijn dat het onderzoeksproces efficienter verloopt, tijd bespaart. Open science = collaborative science
  • #5 Scheidslijn: data delen tijdens het onderzoek (links) en na het onderzoek (rechts). Wat links staat zijn geen archieven maar meer samenwerkingsomgevingen; het delen van data om er gezamenlijk aan of mee te kunnen werken. Dataverse is voor beiden geschikt. ICPSR: political and social data; gisteren bericht dat het ‘goedgekeurd’ is door het tijdschrift Scientific Data Wat staat er niet op? Dropbox, Google Drive
  • #6 [ Uitspraak vrij naar Ralph Johnson: “Before software can be reusable, it first has to be usable” ] Sharing your research data is just the first step in allowing reuse. To be reused data need to be easy to understand and easy to work with. Good data practices = making your data understandable, easy to work with, and available to other scientists Voorbeeld: spectra-data zonder dat de chemische verbinding gegeven wordt
  • #7 Foto van mijn boekenkast uit mijn studententijd. Was ik in staat het juiste boek te vinden binnen 2 minuten? Waarschijnlijk wel. Maar kan iemand anders dat ook? Waarschijnlijk niet? En zou ik het nog steeds kunnen over zeg 2 jaar (ervan uitgaande dat mijn boekenkast er nog steeds zo bij stond)? Mijn boekenkast ziet er inmiddels georganiseerder uit en dat is gekomen omdat het aantal boeken dat ik heb sterk gegroeid is. Grotere volumes vragen om meer organisatie. Niet alleen grotere volumes maar ook diversiteit vraagt om betere organisatie Op het gebied van digitale data heeft ‘being organized’ te maken met: Filenaming: descriptief en consistent Organising data in folders Versioning Data classification: wat te bewaren en wat niet? It will be my pleasure, even though I think Leon just overrate my report, It is far from excellent. The plan that I wrote is just what I did “many times”(not always, because it takes a lot of time) in my previous workplace. Especially when you should share the data with different people like undergraduate students,  professor, company man, or even the lab technician. I know they will keep asking more questions during the time if something is not clear. I think the biggest challenge is now because we have so many portable hard-drive, we can copy everything and do not manage it well.  
  • #9 Sharing your research data is just the first step in allowing reuse. To be reused data need to be easy to understand and easy to work with. The first key to using data is understanding it. Ensuring understandability: what does the variable mean, how were the results produced, what instruments and measurements were used?  Sources: lab notebooks, research protocols, codebooks, equipment settings Voorbeeld: spectra-data zonder dat de chemische verbinding gegeven wordt  dan is data delen geen FUN Metadata is information about the data, including how it was collected, what the units of measurement are, and descriptions of how to best use the data Discovery metadata ; study metadata ; data metadata Bij de metadata hoort ook (als je de data voor hergebruik beschikbaar stelt) ook license information: “Include an explicit license with your data to let others know what they can and cannot do with the data you shared”
  • #10 Use file formats that are readable by most software and, when possible, are non-proprietary. Some disciplines have well established standard formats. Use these. To make your data as useful as possible it is best to share the data in as raw a form as possible. This gives data users the most flexibility in the analysis of the data Data that not have a well-defined standard format are often stored in tables. Tabular data should be stored in a format that can be opened by any type of software, i.e. text files. Use standard table structures in which 1each row represents a single observation (record) and each column a single variable or type of measurement (field) 2every cell should contain only a single value 3there should be only one column for each type of information. Use a relational database: zie plaatje: Computing skills
  • #11 After your research: Choose a repository where other researchers in your discipline are sharing their data. See re3data.org If not available: Export to anther format, if necessary A proper trustworthy repository will at least assign a persistent identifier to your data [ allowing your data to be easily cited and discovered ] and require that you provide adequate metadata [ allowing your data to be easily used ]
  • #12 After your research
  • #13 Je moet je onderzoeksdata willen delen! Paradigma-verandering. Wat houdt je tegen om het doen? Hoeveelheid werk? Mag het wel (zijn de data van mij)? Gevoelige data? PhD-ers voelen zich in dezen ‘alleen gelaten’. Het is niet alleen jouw verantwoordelijkheid, van de individuele onderzoeker. Ook de instelling waar je werkt (de TUe, de faculteit, de onderzoeksgroep) heeft een taak in dezen. Afspraken maken, procedures afspreken over hoe wij hier bepaalde zaken doen. Starten met zoals het nu gebeurt, ook al is dat niet ideal. Van daaruit naar verbeteringen werken. Kunnen SURFdrive en DataverseNL iets betekenen daarbij?