CSC – Suomalainen tutkimuksen, koulutuksen ja julkishallinnon ICT-osaamiskeskus
Digitaaliset tutkimusaineistot
Jessica Parland-von Essen 13.4.2017
Tutkimuksessa tuotettava ja/tai
käytettävä materiaali, jota
analysoimalla pyritään vastaamaan
tutkimusongelmaan
Tutkimusaineiston määritelmä
Reuse open research datasets
avaa.tdata.fi
Tutkimusaineiston hallinta
• Avoimen tieteen käsikirja http://avointiede.fi/www-kasikirja
• Tietoarkisto http://www.fsd.uta.fi/fi/
oKäsikirja http://www.fsd.uta.fi/aineistonhallinta/fi/
• DMPTuuli https://www.dmptuuli.fi/
oRights
oRisks
• Etsin https://etsin.avointiede.fi/fi
• Aineistojen lähde (usein tietojen
kohde)
• Aineiston koostaja (tutkija)
• Rekisterinpitäjä (tiedon
“omistaja”)
• Aineiston käsittelijä
• Aineiston käyttäjä
• Viranomaiset, lainsäätäjä
• Suuri yleisö
12/04/175
Monta toimijaa
Lainsäädäntöä
• Suomen perustuslaki
• Julkisuuslaki
• Valtioneuvoston asetus tietoturvallisuudesta 681/2019
• Henkilötieto 523/199
• Laki sosiaali- ja terveyshuollon asiakastietojen sähköisestä
käsittelystä …
12/04/176
Arkaluontoidet tutkimusaineistot Suomessa
• Lähinnä henkilötietoja
oGenomidata
oVideo/Audio, jossa ihmiset puhuvat henkilökohtaista asioista
oVähemmän: tekstiaineistot (voi yleensä anonymisoida)
• Henkilötietolaki sallii henkilötietojen käytön tutkimuksessa
• Henkilötietoja on silti käsiteltävä huolellisesti (esim
rekisteriselosteet)
• Suojaustoimet:
oPääsyrajoitukset
oAnonymisointi
oKryptaus
12/04/177
FAIR principles
• Force11; elävä dokumentti http://datafairport.org/
• Wilkinson, M. D. et al. The FAIR Guiding Principles for
scientific data management and stewardship. Sci. Data
3:160018 doi: 10.1038/sdata.2016.18 (2016).
• Täydentää Data Seal of Approval –data-arkistojen
sertifikaattia
FAIR
Findable
Accessible
Interoperable
Reusable
By Martin Grandjean - Own work : http://www.martingrandjean.ch/wp-content/uploads/2013/10/Graphe3.png, CC BY-SA 3.0,
https://commons.wikimedia.org/w/index.php?curid=29364647
TO BE FINDABLE
• F1. (meta)data are assigned a globally unique and
persistent identifier
• F2. data are described with rich metadata (defined by
R1 below)
• F3. metadata clearly and explicitly include the identifier
of the data it describes
• F4. (meta)data are registered or indexed in a searchable
resource
TO BE ACCESSIBLE
• A1. (meta)data are retrievable by their identifier using a
standardized communications protocol
oA1.1 the protocol is open, free, and universally
implementable
oA1.2 the protocol allows for an authentication and
authorization procedure, where necessary
• A2. metadata are accessible, even when the data are no
longer available
TO BE INTEROPERABLE
• I1. (meta)data use a formal, accessible, shared, and
broadly applicable language for knowledge
representation.
• I2. (meta)data use vocabularies that follow FAIR
principles
• I3. (meta)data include qualified references to other
(meta)data
TO BE REUSABLE
• R1. meta(data) are richly described with a plurality of
accurate and relevant attributes
oR1.1. (meta)data are released with a clear and accessible
data usage license
oR1.2. (meta)data are associated with detailed provenance
oR1.3. (meta)data meet domain-relevant community
standards
Pysyvät tunnisteet - PID
• Uniikkeja
• Ikuisia linkkejä
• Läpinäkymättömiä
• Käytännössä tänään sidottuja verkko-osoitteisiin tai verkon
nimiavaruuksiin
• Vaativat hallintaa ja resolvointia
Viittaaminen on linkittämistä
• Datan linkittäminen
otekijät
otuotokset
orahoittajat
oohjelmistot
oinfrat
• Vaikuttavuuden mittaaminen
Viittaaminen puutteellista
Muuttuvat aineistot ja tekijyyden
monimuotoisuus
Pysyvät tunnisteet
• JHS 193 Paikkatiedon yksilöivät tunnukset
• ELI European Legislation Identifier
• Tutkijatunniste ORCID
• Persistent Uniform Resource Locator PURL
• Cool URI …?
Linking Open Data cloud diagram (2011), by Richard Cyganiak and Anja Jentzsch.
http://lod-cloud.net License: CC-BY-SA
Käytäntö
Aineisto-
katalogi
Resolv
eri
PID
Datatiedosto
Sopimusteksti
Konfiguraatio
tiedostot
Read me
Pysyvät tunnisteet
• DOI versio 4.0 syyskuussa 2016
Avoin ja ajantasainen laskeutumissivu
Saatavuustieto
Metatiedot
Muistosivu
• URN, Kansalliskirjasto resolvoi

Yhteiskuntatieteen aineistot

  • 1.
    CSC – Suomalainentutkimuksen, koulutuksen ja julkishallinnon ICT-osaamiskeskus Digitaaliset tutkimusaineistot Jessica Parland-von Essen 13.4.2017
  • 2.
    Tutkimuksessa tuotettava ja/tai käytettävämateriaali, jota analysoimalla pyritään vastaamaan tutkimusongelmaan Tutkimusaineiston määritelmä
  • 3.
    Reuse open researchdatasets avaa.tdata.fi
  • 4.
    Tutkimusaineiston hallinta • Avoimentieteen käsikirja http://avointiede.fi/www-kasikirja • Tietoarkisto http://www.fsd.uta.fi/fi/ oKäsikirja http://www.fsd.uta.fi/aineistonhallinta/fi/ • DMPTuuli https://www.dmptuuli.fi/ oRights oRisks • Etsin https://etsin.avointiede.fi/fi
  • 5.
    • Aineistojen lähde(usein tietojen kohde) • Aineiston koostaja (tutkija) • Rekisterinpitäjä (tiedon “omistaja”) • Aineiston käsittelijä • Aineiston käyttäjä • Viranomaiset, lainsäätäjä • Suuri yleisö 12/04/175 Monta toimijaa
  • 6.
    Lainsäädäntöä • Suomen perustuslaki •Julkisuuslaki • Valtioneuvoston asetus tietoturvallisuudesta 681/2019 • Henkilötieto 523/199 • Laki sosiaali- ja terveyshuollon asiakastietojen sähköisestä käsittelystä … 12/04/176
  • 7.
    Arkaluontoidet tutkimusaineistot Suomessa •Lähinnä henkilötietoja oGenomidata oVideo/Audio, jossa ihmiset puhuvat henkilökohtaista asioista oVähemmän: tekstiaineistot (voi yleensä anonymisoida) • Henkilötietolaki sallii henkilötietojen käytön tutkimuksessa • Henkilötietoja on silti käsiteltävä huolellisesti (esim rekisteriselosteet) • Suojaustoimet: oPääsyrajoitukset oAnonymisointi oKryptaus 12/04/177
  • 8.
    FAIR principles • Force11;elävä dokumentti http://datafairport.org/ • Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016). • Täydentää Data Seal of Approval –data-arkistojen sertifikaattia
  • 9.
    FAIR Findable Accessible Interoperable Reusable By Martin Grandjean- Own work : http://www.martingrandjean.ch/wp-content/uploads/2013/10/Graphe3.png, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=29364647
  • 10.
    TO BE FINDABLE •F1. (meta)data are assigned a globally unique and persistent identifier • F2. data are described with rich metadata (defined by R1 below) • F3. metadata clearly and explicitly include the identifier of the data it describes • F4. (meta)data are registered or indexed in a searchable resource
  • 11.
    TO BE ACCESSIBLE •A1. (meta)data are retrievable by their identifier using a standardized communications protocol oA1.1 the protocol is open, free, and universally implementable oA1.2 the protocol allows for an authentication and authorization procedure, where necessary • A2. metadata are accessible, even when the data are no longer available
  • 12.
    TO BE INTEROPERABLE •I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation. • I2. (meta)data use vocabularies that follow FAIR principles • I3. (meta)data include qualified references to other (meta)data
  • 13.
    TO BE REUSABLE •R1. meta(data) are richly described with a plurality of accurate and relevant attributes oR1.1. (meta)data are released with a clear and accessible data usage license oR1.2. (meta)data are associated with detailed provenance oR1.3. (meta)data meet domain-relevant community standards
  • 14.
    Pysyvät tunnisteet -PID • Uniikkeja • Ikuisia linkkejä • Läpinäkymättömiä • Käytännössä tänään sidottuja verkko-osoitteisiin tai verkon nimiavaruuksiin • Vaativat hallintaa ja resolvointia
  • 15.
    Viittaaminen on linkittämistä •Datan linkittäminen otekijät otuotokset orahoittajat oohjelmistot oinfrat • Vaikuttavuuden mittaaminen Viittaaminen puutteellista Muuttuvat aineistot ja tekijyyden monimuotoisuus
  • 16.
    Pysyvät tunnisteet • JHS193 Paikkatiedon yksilöivät tunnukset • ELI European Legislation Identifier • Tutkijatunniste ORCID • Persistent Uniform Resource Locator PURL • Cool URI …? Linking Open Data cloud diagram (2011), by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net License: CC-BY-SA
  • 17.
  • 18.
    Pysyvät tunnisteet • DOIversio 4.0 syyskuussa 2016 Avoin ja ajantasainen laskeutumissivu Saatavuustieto Metatiedot Muistosivu • URN, Kansalliskirjasto resolvoi