Material del curso Introducción a la Gestión de Datos de Investigación impartido por Yusnelkis Milanés Guisado en el marco del programa de formación de la Biblioteca/CRAI para estudiantes de doctorado de la Universidad Pablo de Olavide en mayo de 2021
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Introducción a la Gestión de Datos de Investigación
1. Introducción a la Gestión
de Datos de Investigación
Yusnelkis Milanes Guisado. PhD
Biblioteca / CRAI
2. Objetivos
Introducir la relevancia de una adecuada Gestión de los
datos de investigación …
Introducir el Servicio de Datos de Investigación de la
Biblioteca/CRAI
Tips y buenas prácticas de herramientas, metodologías y
estrategias para:
• Planificar
• Crear Planes de Gestión de datos de investigación
• Generar, organizar y documentar
• Tratar y normalizar
• Almacenar
• Preservar y compartir
Picture with (CC BY-NC-SA 2.0) Licence from http://www.Flickr.com/potos/bibhop/
4. Ciencia abierta vs Acceso abierto
Open Access ≠ Open Science
Acceso libre y gratuito a:
• Publicaciones
científicas
• Datos de investigación
1. Acceso libre y gratuito a:
• Publicaciones científicas
• Datos de investigación (FAIR)
• Métricas abiertas
• Software libre
• Recursos educativos en abierto
• Open peer-review
• Ciencia ciudadana
5. Requisitos de las agencias de financiación
“… open access to scientific data should be adopted as the international
norm for the exchange of scientific data derived from publicly funded
research.”
OECD Principles and Guidelines for Access to Research Data from
Public Funding (2004-2007)
“requires, in all proposals a supplementary document of no more than
two pages describing a Data Management Plan for the proposed
research.“
The National Science Foundation, January2011
“…primary data, as well as data-related products such as computer
codes, is deposited in the relevant databases as soon as possible,
preferably immediately after publication and in any case not later than
six months after the date of publication.”
European Research Council , Open Access Guidelines for
Researchers, June 2012
6. − Cualquier propuesta de proyecto presentado como “Acciones de
Investigación e Innovación” así como “Acciones de Innovación”
incluirá una sección en Gestión de Datos de Investigación que será
evaluada bajo el criterio “Impacto”.
− Los solicitantes han de aportar un esquema con:
Tipos de datos que generará y recopilará el proyecto.
Estándares que se utilizarán.
Cómo serán explotados y/o compartidos/accesibles los datos
para su verificación y reutilización. Si los datos no pudieran estar
disponibles, es necesario explicar el motivo.
Cómo se conservarán y preservarán los datos.
Directrices para la Gestión de Datos en Horizonte 2020
(Guidelines on Data Management in Horizon 2020)
Requisitos de las agencias de financiación
7. Ciencia abierta en Horizonte Europa
Stakeholder workshop: Novelties in Horizon Europe MGA (9 October 2020).
https://ec.europa.eu/research/participants/docs/h2020-funding-guide/other/event201009.htm
Requisitos de las agencias de financiación
9. NACIONAL
Ministerio de Ciencia e Innovación (2020) Resolución de la Convocatoria de Proyectos de I+D+I 2020 de la
Agencia Estatal de Investigación [en línea] Disponible en:
https://www.ciencia.gob.es/stfls/MICINN/Ayudas/PE_2017_2020/PE_Orientada_Retos_Sociedad/FICHEROS/Pro
yectos_IDI_Retos_Investigacion/ConvocatoriaPID2020_Resolucion20201111.pdf
11. Gestión de datos de investigación
Research Data management and Sharing. Coursera.
https://www.ukdataservice.ac.uk/media/187718/dmplanningdm24apr2013.pdf
12. Ciclo de vida de los datos
Data Life Cicle. UK Data Service.
https://www.ukdataservice.ac.uk/media/187718/dmplanning
dm24apr2013.pdf
13. Porqué le sería útil tener habilidades gestionando los
datos de su investigación...
Para guardar sus archivos en formatos a los que todos puedan acceder, sin
importar si tienen acceso a cierto software o no.
Para mantener su computadora organizada,
Para documentar su proceso de investigación, decisiones y cambios.
Si no lo anota, ¡lo olvidará!
Para realizar copias de seguridad de sus datos con regularidad, en varios
lugares y en más de un tipo de medios, teniendo en cuenta una estrategia
de seguridad
Para re-utilizar sus datos cuando lo necesite, usted y otros
investigadores.
Gestión de datos de investigación
16. Ciclo de vida de los datos: Etapas
• Planificación,
• Analizar las necesidades en
materia de datos durante el
proyecto,
• Se redacta la primera versión
del plan de gestión de datos
(DMP)
• Se establece qué tipos de
datos vamos a crear o
recopilar, cómo vamos a
organizarlos, denominarlos,
etc.
• Tareas relacionadas con recopilación,
organización, descripción y almacenamiento a
corto plazo de los datos
• Crear una versión máster para ser
analizada y archivada eventualmente
• Se redacta una versión intermedia del PGDI
• Almacenamiento y depósito a
largo plazo de los datos
• Se comparten los datos y se
difunden
• Se citan los datos
• Versión final del PGDI.
17. Herramientas en la Gestión de datos
Adaptado de: Luis Urbine . Taller de datos. 14º Workshop de REBIUN de
Proyectos Digitales: los horizontes de los repositorios (Universidad de
Córdoba, 2015)
18. Datos de investigación
“datos que son recolectados,
observados o creados para ser
analizados y producir resultados de
investigación originales”
•Numéricos, descriptivos o visuales.
•Encontrarse en estado bruto o analizado,
pueden ser experimentales u
observacionales.
19. Datos de investigación abiertos
Son datos de investigación que:
Están disponibles de manera
libre en internet;
Permiten ser descargados,
copiados, analizados, usados ,
reprocesados, etc.;
Sin barreras de tipo económico,
legal o técnicas (aparte de
tener acceso a internet).
Sparc Europe (2017) What is Open Data?
[Online] http://sparceurope.org/what-we-
do/open-data/what-is-open-data/
Boulton G (2012) Open your minds and
share your results. Nature.
486(7404):441. doi: 10.1038/486441a1
20. Datos FAIR
• se pueden encontrar en Internet,
• son accesibles (derechos y licencias claros),
• están en un formato utilizable,
• se identifican de una manera única y persistente
para que se pueda hacer referencia a ellos.
Herramientas para valorar si tus datos son FAIR:
FAIR data self-assessment tool (https://ardc.edu.au/resources/working-with-data/fair-
data/fair-self-assessment-tool/)
FAIR-Aware (https://fairaware.dans.knaw.nl/)
21. Datos FAIR vs Datos abiertos
Tan abierto como sea posible, tan cerrado
como sea necesario
La accesibilidad limitada, por ejemplo, debido a la
protección de la privacidad de los datos, no
contradice los principios FAIR.
Se han de permitir excepciones de mantener los
datos con restricciones de acceso por razones de
derechos de propiedad industrial, de protección
datos personales, por confidencialidad en materia
de seguridad, por comprometer el objetivo del
proyecto, o por otras razones a justificar.
22. PLANIFICAR
¿Cómo responder a los requisitos de los organismos
financiadores?
¿Qué es una Plan de Gestión de Datos de
Investigación y cómo crearlo ?
24. Plan de Gestión de Datos de Investigación
Planes de Gestión de Datos de Investigación
“Documentos que describen
que harás con tus datos
durante tu investigación y una
vez que termines con tu
proyecto”
EL DMP debe contener solo la información más
importante y preferiblemente no debería exceder
los 10,000 caracteres (incluidos los espacios).
25. Plan de Gestión de Datos de Investigación
Planes de Gestión de Datos de Investigación
DMP es un entregable del proyecto, no forma parte de
la propuesta (salvo excepciones).
Instrumento vivo, primera versión en los 6 primeros
meses del proyecto: no es un documento estático,
debe evolucionar y ganar en precisión. Otras
versiones: intermedia y final del proyecto.
En el DMP se indica qué datos estarán en abierto y
cuáles no, y por qué.
Hay numerosos formatos específicos, en función de
los distintos programas o (financiadores).
27. Plantillas para crear un PGD
Template for the Horizon 2020 Data Management Plan [ODT
format]
https://ec.europa.eu/research/participants/data/ref/h2020/g
m/reporting/h2020-tpl-oa-data-mgt-plan_en.docx
DCC (2013) Checklist for a Data Management Plan. v.4.0.
Edinburgh: Digital Curation Centre. Disponible en:
http://www.dcc.ac.uk/resources/data-management-plans
29. Herramientas para crear un PGD
DMP Online
https://dmponline.dcc.ac.uk/
http://www.consorciomadrono.es/investigam/crear-su-pgd/
https://argos.openaire.eu
30. Herramientas para crear un PGD
PGDonline
http://www.consorciomadrono.es/investigam/crear-su-pgd/
La ventaja de estar en español.
Una de las diferencias es que el
PGDonline diferencia entre el PGD
inicial, el PGD detallado y el PGD final.
32. ORGANIZAR, DESCRIBIR, ALMACENAR
Inicio de la recolección de datos
Procesamiento y análisis de los datos
Organización de carpetas
Nomenclatura de ficheros
Control de versiones
Describir y documentar los procedimientos
Crear una versión máster para ser
analizada y archivada eventualmente
Almacenamiento y seguridad.
Tratamiento de los datos sensibles
33. Organizar carpetas
• Los ficheros de datos y carpetas tiene que denotarse
y organizarse de forma sistemática.
•Criterios
Organización
Contexto
Tipologías
• Recomendable un máximo de tres niveles de
carpetas.
• Conveniente separar los trabajos finalizados de los
en curso.
• No es necesario guardar todos los archivos
intermedios o que no aportan valor; se deben
evaluar los materiales durante o al final del
proyecto y eliminar los sobrantes.
• No nombres investigadores
34. Denominación de archivos (1)
La nomenclatura ha de ser significativa,
coherente y descriptiva, de forma que facilite la
gestión y localización de archivos.
Utilizar nombres únicos, no asignar nombres iguales
en carpetas diferentes
Elegir nombres cortos y representativos,
Evitar el uso de espacios, así como barras diagonales
y caracteres especiales como: ~! @ # $% ^ & * () `; :
<>? . , [] {} ‚“|Usa guión bajo “_”.
De lo general a los específico
fechas como AAAMMDD o en su defecto como
AAAA-MM-DD (ISO 8601 aplicada a la gestión de
datos de investigación).
Especifica contribuidor (Ex:YMG)
Utilizar el control de versiones para indicar la versión
más actual, p. Ej. filename_v02.xxx
Sincroniza ficheros si trabajas con más de una
computadora
Ejemplo:
01_Modelosdata2021_V3_20201121_YMG.
01 – Paquete de trabajo
Modelosdata2021 – Datos del
experimento, actividad, etc.
V3 – Versión
20201121 – Fecha
YMG – Autor(a)
35. Control de versiones
Especial cuando se trata de conjuntos de datos
dinámico, es decir, que requieren cambios y
revisiones.
Se puede optar por un control automático de
versiones o, en su defecto, se deberá asignar
manualmente un número de versión o a través
del uso de fechas.
Se recomienda evitar el uso de términos
ambiguos como "final" o "revisión".
Debes registrar los cambios en la data, no
importa cuán pequeños o "insignificantes"
sean en ese momento. Usa autobackup para
esto, en lugar de guardar y archivar múltiples
versiones.
Puedes borrar o descartar versiones antiguas
de tu data. Pero, asegúrate siempre de
mantener la copia original.
36. Herramientas de soft. para control de versiones
Apache®
Subversion®
Un sistema de control de versiones
de código abierto fundado en 2000
por CollabNet, Inc.
https://git-scm.com/book/es/v2/Inicio---Sobre-el-Control-de-
Versiones-Acerca-del-Control-de-Versiones
37. Consideraciones al elegir el formato adecuado
Seleccionar formatos abiertos, no propietarios.
Elegir formatos comunes al campo disciplinar al que se está trabajando:
Para asegurar la interoperabilidad y la reutilización de los datos.
Tener en cuenta el tiempo en que se espera conservar los datos: Cuanto
mayor sea el periodo de tiempo que se desea conservar los datos, mayor
será la necesidad de seleccionar formatos abiertos, estandarizados y bien
documentados.
Formatos que cuando se comprima , no se pierda información ("sin
pérdida"). (Formatos multiplataforma, Ej: archivo de audio .wav, archivo de
imagen .tiff
Seleccione formatos sin cifrar y sin compilar
Ventajas de guardar en TEXT (.txt, .csv, .html, .xml):
•El archivo de dato puede ser leído en un editor de texto plano (Ej: NotePad).
•Puede, entonces, ser abierto en cualquier sistema operativo y por un amplio
rango de aplicaciones.
Es importante contar con formatos estándar y
a poder ser abiertos, que aseguren el acceso a
largo plazo a los datos.
38. Consideraciones al elegir el formato adecuado
Type of data Recommended formats Acceptable formats
Tabular data with
extensive
metadata
variable labels,
code labels, and
defined missing
values
SPSS portable format (.por)
delimited text and command ('setup')
file (SPSS, Stata, SAS, etc.)
structured text or mark-up file of
metadata information, e.g. DDI XML file
proprietary formats of statistical
packages: SPSS (.sav), Stata (.dta), MS
Access (.mdb/.accdb)
Tabular data with
minimal
metadata
column headings,
variable names
comma-separated values (.csv)
tab-delimited file (.tab)
delimited text with SQL data definition
statements
delimited text (.txt) with characters not
present in data used as delimiters
widely-used formats: MS Excel
(.xls/.xlsx), MS Access (.mdb/.accdb),
dBase (.dbf), OpenDocument
Spreadsheet (.ods)
Geospatial data
vector and raster
data
ESRI Shapefile (.shp, .shx, .dbf, .prj, .sbx,
.sbn optional)
geo-referenced TIFF (.tif, .tfw)
CAD data (.dwg)
tabular GIS attribute data
Geography Markup Language (.gml)
ESRI Geodatabase format (.mdb)
MapInfo Interchange Format (.mif) for
vector data
Keyhole Mark-up Language (.kml)
Adobe Illustrator (.ai), CAD data (.dxf or
.svg)
binary formats of GIS and CAD packages
UK Data Service. Format your data. "Create well organised and sustainable data"
https://www.ukdataservice.ac.uk/manage-data/format/file-formats.aspx
39. Consideraciones al elegir el formato adecuado
UK Data Service. Format your data. "Create well organised and sustainable data"
https://www.ukdataservice.ac.uk/manage-data/format/file-formats.aspx
Type of data Recommended formats Acceptable formats
Tabular data with
extensive metadata
variable labels,
code labels, and
defined missing
values
SPSS portable format (.por)
delimited text and command ('setup') file
(SPSS, Stata, SAS, etc.)
structured text or mark-up file of metadata
information, e.g. DDI XML file
proprietary formats of statistical packages:
SPSS (.sav), Stata (.dta), MS Access
(.mdb/.accdb)
Tabular data with
minimal metadata
column headings,
variable names
comma-separated values (.csv)
tab-delimited file (.tab)
delimited text with SQL data definition
statements
delimited text (.txt) with characters not
present in data used as delimiters
widely-used formats: MS Excel (.xls/.xlsx),
MS Access (.mdb/.accdb), dBase (.dbf),
OpenDocument Spreadsheet (.ods)
Geospatial data
vector and raster
data
ESRI Shapefile (.shp, .shx, .dbf, .prj, .sbx,
.sbn optional)
geo-referenced TIFF (.tif, .tfw)
CAD data (.dwg)
tabular GIS attribute data
Geography Markup Language (.gml)
ESRI Geodatabase format (.mdb)
MapInfo Interchange Format (.mif) for
vector data
Keyhole Mark-up Language (.kml)
Adobe Illustrator (.ai), CAD data (.dxf or
.svg)
binary formats of GIS and CAD packages
40. Documentación
Debe acompañar a los datos para que estos se
puedan comprender y reutilizar.
El contexto de la recopilación de datos: historia del proyecto, objetivos
e hipótesis
Métodos de recopilación de datos: muestreo, proceso de recopilación
de datos, instrumentos utilizados, hardware y software utilizado,
escala y resolución, cobertura temporal y geográfica y fuentes de datos
secundarias utilizadas
Estructura de los archivos de datos y relaciones entre archivos
Validación de datos, verificación, limpieza y procedimientos llevados a
cabo para asegurar su calidad
Cambios realizados en los datos a lo largo del tiempo desde su
creación original e identificación de las diferentes versiones
Información sobre el acceso, condiciones de uso o confidencialidad
41. Documentación
Niveles fundamentales para la documentación
1. A nivel de proyecto: Se documenta objetivos del estudio,
preguntas de investigación, metodologías, instrumentos de
medida, etc
2. A nivel de Base de datos y Fichero: Se documenta cómo
todos los ficheros que conforman el data-set se relacionan. Se
incluye un fichero "readme.txt" con la información relevante.
3. A nivel de Variables e ítems: Se incluye un fichero tipo
diccionario, no sólo con los nombres de las variables, sino con
sus respectivas etiquetas explicando su significado en el
contexto del estudio.
42. Documentación
Readme.txt
Fichero en que se describe la
información necesaria para que los
conjuntos de datos sean comprensibles
y reutilizables: autoría, título,
descripción, metodología, proyectos
financiadores, cobertura temporal y
geográfica, derechos de uso y
privacidad, etc.
https://edatos.consorciomadrono.es/re
adme.xhtml
https://data.research.cornell.edu/content/readme#fileoverview
46. Metadatos
Proporcionan información sobre el origen
de un conjunto de datos completo.
Título:
Autor / investigador principal:
Colaboradores (contributor):
Identificador:
Tipo de datos:
Derechos:
Fechas:
Idioma:
Lugar:
Resumen de contenido y palabras
Investigación.
Relaciones:
Estándares
http://www.dcc.ac.uk/resources/metadata-standards
47. Almacenamiento
El que se requiere durante la ejecución del proyecto (en
general interno y privado), y el lugar de almacenamiento de
cara a la difusión y a la preservación de los materiales.
Las cuestiones esenciales a las que se ha de dar respuesta
son:
¿Dónde se almacenarán sus datos y cómo se harán las
copias de seguridad?
¿Quién será responsable de controlar el acceso a sus
datos y cómo se controlará que el acceso sea seguro?
48. Almacenamiento
Por ejemplo Dropbox y Google Drive, incluyen en sus
contratos renuncias de responsabilidad legal, de modo que
en caso de que hubiera algún problema con la seguridad de
archivos a terceros el responsable del tratamiento de datos
es el usuario.
Almacén de datos personal o del proyecto (por ejemplo, utilizando discos
USB, discos duros de ordenadores portátiles o unidades en red dentro de
la institución), recomendados únicamente para ser utilizadas en el curso de
la investigación
Repositorio institucional (Repositorio Institucional Olavide RIO)
Servicios nacionales de archivo de datos, como el UK Data Service
Almacén de datos en la nube
Sistemas de almacenamiento institucionales ( Filesender@UPO CONSIGNA )
Repositorio disciplina
50. Almacenamiento temático
En algunas disciplinas hay también servicios de almacenamiento, entre
otros muchos recursos:
BlueBridge https://bluebridge.d4science.org/home para las ciencias
del mar
Elixir https://elixir-europe.org/ para ciencias de la vida
Software Heritage https://www.softwareheritage.org/?lang=es, para
software en formato de código fuente)
Para un almacenamiento a largo plazo, que además permita la difusión
y preservación de los datos sin duda lo más conveniente es la elección
de un repositorio apropiado. Los repositorios pueden ser
institucionales, temáticos o generales.
51. Tratamiento de datos sensibles
Los datos personales son aquellos relacionados con una persona
viva, lo que permite que ésta sea identificada.
Los datos confidenciales o sensibles son datos personales sobre:
origen racial o étnico, opiniones políticas, creencias religiosas,
membresía sindical, salud física y mental, vida sexual, delitos y
procedimientos judiciales.
52. Anonimización y seudonimización (ver Coursera curso)
UK Data Service. Format your data. "Create well organised and sustainable data"
https://www.ukdataservice.ac.uk/manage-data/format/file-formats.aspx
Será necesario anonimizar o seudonimizar datos para compartir
dichos datos con investigadores y terceros sin comprometer la
privacidad del usuario cuando:
se quiera compartir o ceder datos a destinatarios con los que
no se ha firmado un acuerdo de confidencialidad.
se quiera publicar datos abiertamente.
la reducción de la calidad de la información sea aceptable y no
afecte al uso de los datos.
Una vez que los datos se anonimizan, no sería necesario el
consentimiento. Si las personas pudieran ser identificadas de
alguna forma es contar con un formulario de consentimiento
informado, firmado por los participantes.
53. Anonimización y seudonimización
El proceso de seudonimización y anonimización implica que los datos sobre
los individuos se vean alterados a través de distintos procesos: pueden ser
suprimidos, sustituidos, distorsionados, generalizados o agregados. Es
importante que esto no afecte al posterior uso de la información.
Ejemplos de eliminación y generalización de datos:
Alicia Fatima Gomez Sanchez, & Elli Papadopoulou. (2020, November). OpenAIRE tools and
resources: supporting research data management services for libraries and researchers.
http://doi.org/10.5281/zenodo.4317181
58. Compartir, Reutilizar y citar
Acompañar los datos de un Readme.txt file
Publicar los datos en formatos abiertos, para que puedan ser
reproducidos sin trabas
Publicar los datos con una declaración explícita de los deseos del
investigador para con los datos.
Utilizar licencias apropiadas y que reconozcan los derechos de autor.
Ante la fuerte recomendación de publicación de datos producidos con
fondos públicos, se recomienda que se hagan públicos siguiendo los
Science Commons Protocol for Implementing Open Access Data and the
Open Knowledge/Data Definition.
Recomendaciónes para compartir datos
59. ¿Dónde depositar?
Requisitos a tener en cuenta en la
selección de un repositorio:
Que cumpla con los criterios FAIR
Que permita almacenar datos abiertos, con embargo,
restringidos o cerrados, en especial para datos sensibles
Que sirva para materiales diversos de investigación (distintos
tipos, formatos, etc.)
Que proporcione visibilidad, para facilitar la citación y aumentar
el impacto
Que se integre con otras infraestructuras
Que sea transparente y fiable
60. ¿Dónde depositar?
Para depositar sus datos puede tener en
cuenta los diferentes tipos de
repositorios:
En un repositorio institucional. Puede depositar sus datos en respositorios
institucionales como Repositorio Institucional Olavide (RIO), Digital CSIC,
Harvard Dataverse.
En un repositorio temático. Se puede consultar directorios como Re3data o
Data Repositories, por ejemplo, en Ciencias Sociales World Values Survey o
Wellcome Library en Historia de la Medicina
En un repositorio multidisciplinar como Zenodo, Dryad, Dataverse, Figshare,
Mendeley Data,
Junto a las publicaciones científicas ODISEA
61. ¿Dónde depositar?
Recomendación UPO:
Repositorio Institucional Olavide (RIO).
Además que complementariamente se deposite en
el repositorio multidisciplinar Zenodo (creado por el
CERN y la iniciativa OpenAire de la Comisión
Europea).
También es de interés depositar
complementariamente los datos en un repositorio
temático.
62. Compartir o no compartir …
Compartir o no
compartir…
Stodden, V. (2010). The scientific method in
practices: Reproducibility in the computational
sciences. MIT Sloan School Working Paper 4773-10.
Limpiar los datos (55,64%)
Falta de atribución (43,61%)
Barreras legales o de copyright (40,70%)
Falta de tiempo para verificar privacidad
(39,1%)
Pérdida potencial de publicar (35,82%)
Ventajas para los competidores (34,33%)
Tener que responder a preguntas de
usuarios (33,83)
64. Aspectos éticos y marco legal.
Derecho de autor
Licencias y protección
Aspectos éticos
65. Derechos de autor
El derecho de autor es un derecho de propiedad sobre
ciertos tipos de obras literarias, artísticas y científicas
originales, si bien los derechos de autor no protegen las
ideas. Por su parte, la información confidencial puede estar
protegida por contrato.
A su vez, las ideas pueden estar protegidas por patentes, que
son derechos registrados sobre nuevas invenciones o
procesos.
Por último, se puede dar el caso de que los datos de
investigación no estar protegidos legalmente o por una
patente, aun así, estarían sometidos a normas de uso morales
y éticas.
66. Derechos de autor
Derecho Sui Generis de propiedad intelectual
El derecho sui generis sobre una base de datos se refiere no a la originalidad de una base
de datos, sino a la protección de la inversión de tiempo y esfuerzo, tanto cualitativa
como cuantitativa, que ha realizado la persona que la crea (medios financieros, de
tiempo, esfuerzo, energía u otros de similar naturaleza), para la obtención, verificación o
presentación de su contenido.
Mediante este derecho, “el fabricante de una base de datos, puede prohibir la extracción
y/o reutilización de la totalidad o de una parte sustancial del contenido de ésta, evaluada
cualitativa o cuantitativamente, siempre que la obtención, la verificación o la
presentación de dicho contenido representen una inversión sustancial desde el punto de
vista cuantitativo o cualitativo”.
Este derecho podrá transferirse, cederse o darse en licencia contractual” (Artículo 133 de
la Ley de Propiedad Intelectual)
67. Derechos de autor
Excepciones
En caso de que los datos estén protegidos y no estén acompañados de una licencia
de uso, habría que contactar directamente al propietario de los derechos para
obtener permiso
Hay un número limitado de excepciones que permiten el uso sin una licencia o
permiso específico, sin embargo, habría que asegurarse en cada caso cuáles serían
dichas excepciones –por ejemplo, difiere entre los distintos países de la Unión
Europea–.
Algunos de las excepciones de reutilización que aplican a obras protegidas por
derechos de autor son:
la investigación;
la crítica, cita y reseña;
la administración pública;
la minería de texto y datos; etc.
68. Licencias para reutilizar los datos
Licencias para la reutilización de datos
Una licencia es un contrato legal que especifica restricciones y
permisos estándar para un trabajo, que luego puede ser utilizado
por cualquier persona a quien se le otorgue la licencia, aunque
los derechos de propiedad no se transfieren.
Las licencias que se apliquen a un determinado set de datos de
investigación dependerán de qué tipo de datos se trata y de si
está sujeto a legislación, y de los usos permitidos o restricciones
aplicables, en función del contenido (por ejemplo, hay revistas
que requieren un tipo específico de licencias para los sets de
datos que se publiquen en sus webs).
69. Licencias para reutilizar los datos
Tipos
–Creative Commons
–Open Data Commons
–Open GovernmentLicence
–GILF/AusGOALLicences
–DesignScience Licence
–PublicDomain
http://www.dcc.ac.uk/resources/how-
guides/license-research-data
•http://www.ausgoal.gov.au/research-
data-faqs
70. Licencias para reutilizar los datos
Atribución
(BY)
El beneficiario de la licencia tiene el derecho de copiar,
distribuir, exhibir y representar la obra y hacer obras
derivadas siempre y cuando reconozca y cite la obra de
la forma especificada por el autor o el licenciante.
No Comercial
(NC)
El beneficiario de la licencia tiene el derecho de copiar,
distribuir, exhibir y representar la obra y hacer obras
derivadas para fines no comerciales.
Sin Obra Derivada
(ND)
El beneficiario de la licencia solamente tiene el derecho
de copiar, distribuir, exhibir y representar copias literales
de la obra y no tiene el derecho de producir obras
derivadas.
Compartir Igual
(SA)
El beneficiario de la licencia tiene el derecho de distribuir
obras derivadas bajo una licencia idéntica a la licencia
que regula la obra original.
Las licencias Creative Commons contemplan 4 posibles
condiciones:
71. Licencias para reutilizar los datos
Licencias Creative Commons
La idea surgió a finales de los años 90 con el objetivo de
establecer un modelo normalizado para proteger la propiedad
intelectual de los autores, permitiendo su reutilización bajo
condiciones concretas.
Sirven para que el creador de una obra pueda decidir bajo qué
condiciones de uso se puede utilizar su música, imagen, obra de
arte, etc.
Creative Commons (CC) se refiere a una organización sin fines de
lucro que surgió a fines de 2001 en los Estados Unidos y fue
fundada por los profesores Lawrence Lessing, de la Universidad
de Stanford, y James Boyle, de la Facultad de Derecho de Duke.
72. Licencias para reutilizar los datos
En función de cómo se combinen dan lugar a 6 tipos de licencias:
Atribución CC BY
Atribución – Compartir Igual CC BY-SA
Atribución – Sin Obra Derivada CC BY-ND
Atribución – No Comercial CC BY-NC
Atribución – No Comercial –
Compartir Igual
CC BY-NC-SA
Atribución – No Comercial – Sin
Obra Derivada
CC BY-NC-ND
73. Licencias para reutilizar los datos
Si un autor decide utilizar una de las licencias Creative Commons, se
recomienda usar las de la versión 4.0. Esta cubre tanto las
cuestiones de copyright como de base de datos.
Las licencias Creative Common no son adecuadas para los
software. Existen otras licencias para este fin:
•MIT License (Open Source Initiative, n.d.a.);
•Apache Licence 2 (Open Source Initiative, n.d.b.);
•GNU General Public Licence 3 (GNU, n.d.).
74. Licencias para reutilizar los datos
La licencia se puede:
elegir al cargar sus datos en un repositorio;
especificar haciendo referencia a la licencia en la página desde la que se
obtendrán los datos de investigación;
adjuntar a los metadatos que acompañan a los datos de la investigación;
especificar en el archivo Readme.txt que acompaña a los datos.
Algunos de los aspectos que se han de tener en cuenta son:
Si una parte de los datos de la investigación no puede estar disponible.
Si los datos están sujetos a derechos de autor o derecho sui generis.
Si el investigador tiene alguna obligación de confidencialidad o ética con
respecto a los datos.
75. Aspectos éticos
• Para el tratamiento de los datos y su posterior difusión, debe
contemplar las cuestiones éticas que rigen la investigación y el
tratamiento de datos confidenciales.
• Y aún cuando los datos son tratados para que no aparezcan datos
sensibles o de carácter confidencial, igualmente se considera ético
informar a los sujetos sobre el uso y destino de los datos.
• Puede consultar al Comité ético del Área de Investigación en la UPO
76. Licencias para reutilizar los datos
Recomendaciones de OpenAIRE en el uso de licencias
CC:
Si los datos de investigación se refieren a un artículo de revista o un software, la CC
BY 4.0 suele ser la mejor opción.
Se debe evitar el uso no comercial ya que no es compatible con Open Access. La
opción de no derivado es compleja y debe evitarse, ya que puede resultar no ser
compatible con la definición de acceso abierto.
Las licencias CC sólo se refieren a derechos de autor y asuntos relacionados con los
derechos de autor. Los datos personales no están cubiertos por las CC y se han de
tratar por separado.
77. Reglamento General de Protección de Datos (RGPD)
Los datos afectados por el RGDP pueden ser:
Datos personales, relacionados con una persona física que se puede identificar por
atributos como un nombre, un número de identificación, edad, ubicación, etc.
Datos personales sensibles. referidos a información relacionada con el origen racial
o étnico de una persona, opiniones políticas, religión, datos de salud, vida sexual,
genéticos, biométricos o delitos penales.
Soluciones:
Datos seudonimizados, que siguen siendo datos personales pero que no permiten
identificar a un sujeto, ya que la información adicional que permitiría dicha
identificación se mantiene por separado (ejemplo de seudonimización es la
sustitución de un nombre por un código o por un seudónimo).
Datos anonimizados, referidos a información que no puede asociarse a una persona
identificable o datos personales anónimos de tal manera que el interesado no es o
ya no es identificable. La anonimización pueden ser por generalización, por
aleatorización y por eliminación.
78. Reglamento General de Protección de Datos (RGPD)
EL RGPD reconoce dos distintos usos de datos en investigaciones:
El uso de datos directamente recopilados para un propósito específico. (Uso primario)
El uso de datos inicialmente recopilados para un propósito científico pero que
posteriormente pudieran ser usados para otro propósito de investigaciones. (Uso
secundario).
El interesado ha de saber con claridad las razones y usos de sus datos personales en momento
en el que se recopila la información del interesado; una modificación en el uso de los datos
personales durante una investigación podría restringir el uso de dichos datos.
Los responsables han considerar los aspectos de privacidad y tratamiento de los datos
personales de los interesados desde el comienzo de un estudio de forma transparente, lo que
afecta a la gestión de los datos desde antes de empezar a compilarlos.