M3.Curso Apoyo Investigación Bibliotecas. Compartir datos (data sharing) en ciencia

2,999 views

Published on

Published in: Education, Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,999
On SlideShare
0
From Embeds
0
Number of Embeds
16
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

M3.Curso Apoyo Investigación Bibliotecas. Compartir datos (data sharing) en ciencia

  1. 1. [email_address] Módulo 3 Compartir datos (data sharing) en ciencia daniel torres-salinas [email_address] Curso de Formación Biblioteca Universidad de Navarra, Febrero 2010
  2. 2. [email_address] imparte : daniel torres-salinas (CIMA, GRUPO EC3, torressalinas@gmail.com) lugar : biblioteca de la universidad de navarra, pamplona fecha : días 12-13 de febrero de 2010 duración : 8 horas • Introducción general a los repositorios de datos • El poder de los datos. Wolfram Alpha • Compartir datos en aplicaciones genéricas on-line • Compartir datos en las universidades. Ejemplos. • La iniciativa DAF y el DCC Lifecycle Model
  3. 3. [email_address] Módulo 3 Introducción general a los repositorios de datos
  4. 4. [email_address] By "final research data", we mean recorded factual material commonly accepted in the scientific community as necessary to validate research findings. Final research data do not include laboratory notebooks, partial datasets, preliminary analyses, drafts of scientific papers, plans for future research, peer review reports, communications with colleagues, or physical objects, such as gels or laboratory specimens.  LOS DATOS DE INVESTIGACIÓN: DEFINICIÓN http://www.ncbi.nlm.nih.gov/Database/index.html
  5. 5. [email_address] <ul><ul><ul><li>Experimentales </li></ul></ul></ul><ul><ul><ul><li>- Generales por equipos de laboratorio. Suelen ser reemplazables y caros </li></ul></ul></ul><ul><ul><ul><li>- Ejms: Secuencias genómicas, cromatografías, etc… </li></ul></ul></ul><ul><ul><ul><li>Modelos o simulaciones. </li></ul></ul></ul><ul><ul><ul><li>- Generados por modelos, el modelo y los metada (inputs) es lo más importante </li></ul></ul></ul><ul><ul><ul><li>Observacionales </li></ul></ul></ul><ul><ul><ul><li>- Reproducibles, capturados en tiempo real, irremplazables </li></ul></ul></ul><ul><ul><ul><li>- Ejms: datos de sensores, encuestas, telemetría, Neuroimagénes </li></ul></ul></ul><ul><ul><ul><li>Datos derivados. </li></ul></ul></ul><ul><ul><ul><li>- Surgen de la combinación de raw data y otros datos </li></ul></ul></ul><ul><ul><ul><li>- Bases de datos en 3D, Data mining </li></ul></ul></ul>CLASIFICACIÓN DE LOS DATOS DE INVESTIGACIÓN
  6. 6. [email_address] LOS DATOS DE INVESTIGACIÓN SEGÚN SU FORMATO TIPO FORMATO Texto ascii, Word, PDF Numérico ascii, SPSS, STATA, Excel, Access, MySQL Multimedia jpeg, tiff, dicom, mpeg, quicktime Modelos 3D, statistical Software Java, C Específico de disciplina FITS in astronomy, CIF in chemistry Específico de instrumentos Olympus Confocal Microscope Data Format
  7. 7. [email_address] CÓDIGO HABITUALES EMPLEADOS EN LOS DATOS PURL  -- A PURL is a Persistent Uniform Resource Locator. Functionally, a PURL is a URL. However, instead of pointing directly to the location of an Internet resource, a PURL points to an intermediate resolution service. The PURL resolution service associates the PURL with the actual URL and returns that URL to the client. DOI  -- A DOI (Digital Object Identifier) is a name (not a location) for an entity on digital networks. It provides a system for persistent and actionable identification and interoperable exchange of managed information on digital networks. ACCESSION  -- Accession numbers used by the National Center for Biotechnology Information (NCBI) are unique and citable. InChI  -- The IUPAC International Chemical Identifier (InChITM) is a non-proprietary identifier for chemical substances that can be used in printed and electronic data sources thus enabling easier linking of diverse data compilations. URI  -- Uniform Resource Identifier (URI) consists of a string of characters used to identify or name a resource on the Internet. Such identification enables interaction with representations of the resource over a network, typically the World Wide Web, using specific protocols. http://libraries.mit.edu/guides/subjects/data-management/organizing.html
  8. 8. [email_address] CÓDIGO HABITUALES EMPLEADOS EN LOS DATOS
  9. 9. [email_address] LOS CÓDIGOS TAMBIÉN SIRVEN PARA CITAR DATOS
  10. 10. [email_address] DE LOS DATOS AL TRABAJO / DEL TRABAJO A LOS DATOS RECORDAD LOS TRABAJOS NOS INDICAN EL REPOSITORIO Y EL Nº NORMALIZADO POR LO QUE PODEMOS IR DE LOS TRABAJOS A LOS DATOS … Y ASIMISMO SI HEMOS LOCALIZADO UNOS DATOS ESTOS SUELEN HACER REFERENCIA AL TRABAJO QUE LOS UTILIZÓ POR LO QUE PODEMOS IR DE LOS DATOS A LOS TRABAJOS
  11. 11. [email_address] OTRO EJEMPLO DE CÓDIGOS HABITUALES
  12. 12. https://webmeeting.nih.gov/p29657145 [email_address] ¿DÓNDE SE ALMACENAN LOS DATOS) (PIWOWAR, 2008) Descripción Productores Consumidores Financiación CENTRALIZADO Diversos conjuntos de datos almacenados en una sola localización en un formato común Los datos se comparten a través de interfaces bien desarrollados. Libre a todos el mundo Alta visibilidad, fácil recuperación y subida de datos al repositorio Normalmente los datos almacenados son muy comunes por lo que solo requiere gastos de mantenimiento y desarrollo FEDERADOS Los conjuntos de datos están separados físicamente pero se crean de forma virtual conjuntos comunes Se limita a los participantes del programa y requiere una alta estandarización de los datos Es relativamente fácil unir y recuperar los conjuntos de datos para los participantes Requiere fuerte financiación, una infraestructura compleja y participantes muy implicados DISTRIBUIDOS Los datos están separados física y virtualmente Los datos suelen estar colgados de web sites (grupos, revistas, etc..) como información suplementaria Poca normalización, depende de las científicos que los comparten, pueden ser difíciles de interpretar, recuperar No requiere financiación centralizada y a menudo los datos se pierden y no se conservan por mucho tiempo
  13. 13. [email_address] EJEMPLO DE DATOS CENTRALIZADOS: THE CANCER GENOME ATLAS
  14. 14. [email_address] EJEMPLO DE DATOS CENTRALIZADOS: THE CANCER GENOME ATLAS
  15. 15. [email_address] EJEMPLO DE DATOS FEDERADOS: EL CASO DE CABIG
  16. 16. [email_address] ¿CÓMO FUNCIONAN LOS VRE?
  17. 17. [email_address] EJEMPLO DE DATOS DISTRIBUIDOS
  18. 18. https://webmeeting.nih.gov/p29657145 [email_address] TIPOLOGÍA DE LOS DATOS SEGÚN CONTROL DE LOS DATOS (PIWOWAR, 2008) ABIERTO Todos los datos pueden ser utilizados y reutilizados por otros investigadores Se comparten en abierto todos los datos. No se puede reducir el riesgo sobre la reutilización de los datos Participación fácil y abierta para todo tipo de proyectos e investigadores Maximiza los beneficios de la reutilización de los datos. Es muy apropiado para datos no sensibles. HÍBRIDO Una parte de los datos se distribuye libremente y otra usuarios restringidos con límites en la reutilización de los datos Se busca un uso apropiado y eficiente de los datos. Se intenta limitar el riesgo en la utilización de determinados datos Fácil y abierta para aquellos datos sin riesgos. Se requieren cualificación y permisos para ciertas colecciones de datos Maximiza la reutilización a la vez que protege los datos sensibles. Requiere verificación de accesos CONTROLADO Solo usuarios autorizados pueden tener acceso a los datos Permite la compartir apropiadamente y sin riesgo los datos, se minimizan los peligros Los permisos y la reutilización de los datos es complejo y consumen bastante tiempo Por encima de otros criterios se busca la privacidad y la seguridad en los datos
  19. 19. [email_address] EJEMPLO DE REPOSITORIO DE DATOS ABIERTO: SNP
  20. 20. [email_address] EJEMPLO DE REPOSITORIO HIBRIDO: dbGAP Why is access restricted?   NIH is committed to respecting the privacy and intentions of research participants with regard to how data pertaining to their individual information is used. Data access is therefore intended only for scientific investigators pursuing research questions that are consistent with the informed consent agreements provided by individual research participants. Furthermore, investigators provided access will be expected to utilize appropriate  data security measures . Who is an authorized user within the data access request system?   Authorized users include the researchers who may request data sets for specific research uses, the Institutional Signing Officials from the PI's home organization who certify and submit such requests, and the NIH staff who review and process requests (e.g., members of the Data Access Committees).
  21. 21. [email_address] EJEMPLO DE REPOSITORIO CONTROLADO: NIMH Access Certification Investigators who do not have NIMH grant funding to analyze these data must submit an access request. Access requests will be considered based on experience and qualifications of the investigators in conducting genetic research on complex disorders, and consist of an original of the following: A letter containing the name, mailing address, e-mail address, …. This letter should be written on the letterhead of the sponsoring institution at which the research will be conducted.The curriculum vitae of the principal investigator and all co-investigators. A completed  Distribution Agreement  (one agreement per disorder), including specification of the research project to be conducted and signatures of the principal investigator and an authorized representative of the recipient institution.
  22. 22. https://webmeeting.nih.gov/p29657145 [email_address] ¿QUIÉN CONTROLA EL ACCESO y LOS PERMISOS A LOS REPOSITORIOS? (PIWOWAR, 2008) LOCAL El acceso a los datos se realiza a través de los responsables de colecciones locales dedicadas a un estudio concreto Los productores de datos están cómodos porque ellos otorgan el permiso a sus datos El acceso depende de las condiciones ad-hoc establecidas en cada una de las colecciones. Puede ser opaco. CENTRAL EL acceso lo otorga un comité de expertos de uso de datos o una autoridad central Los productores de los datos deben confiar en la autoridad central El acceso depende de que se respete todas las condiciones establecidas
  23. 23. https://webmeeting.nih.gov/p29657145 [email_address] ¿CÓMO IDENTIFICA REPOSITORIOS DE DATOS? Para identificar repositorios de datos podemos acudir a las instrucciones de autores de las revistas científicas
  24. 24. [email_address] Tema x El poder de los datos. Wolfram Alpha
  25. 25. [email_address] AAGCTAGCTAGC define dogs {{1.3, 2.2}, {2.1, 5.8}… ¿Es un buscador científico? ¿Una calculadora?¿Un diccionario? NO. Es un motor de conocimientos computacional
  26. 26. [email_address] <ul><li>Algunas características de Wolfram: </li></ul><ul><li>No es Google así que no lo trates igual que a Google </li></ul><ul><li>Es como una gran de datos mezclada con análisis computacionales </li></ul><ul><li>Obtiene los datos de bases públicas </li></ul><ul><li>Contiene 10 trillones de datos, +50000 algoritmos y modelos </li></ul><ul><li>Las búsquedas se realizan por lenguaje natural aunque hay que conocer el modo correcto de introducir la pregunta </li></ul><ul><li>Presenta y prepara los datos de manera espectacular y la Url se puede utilizar para ser enviados directamente </li></ul>
  27. 27. [email_address] Ve al tema y aprende la forma de introducir la información. Busca los resultados Comprueba que el sistema te ha comprendido y listo!
  28. 28. Money & Finance Dates & Times Places & Geography Socioeconomic Data Weather Health & Medicine Food & Nutrition Words & Linguistics Culture & Media People & History Education Organizations Sports & Games Music Colors [email_address] Mathematics Statistics & Data Analysis Physics Chemistry Materials Engineering Astronomy Earth Sciences Life Sciences Technological World Transportation Computational Sciences Web & Computer Systems Units & Measures Money & Finance Dates & Times Places & Geography Socioeconomic Data Weather Health & Medicine Food & Nutrition Words & Linguistics Culture & Media People & History Education Organizations Sports & Games Music Colors SOBRE QUE TEMAS PODEMOS INTERROGAR A WOLFRAM?
  29. 29. Money & Finance Dates & Times Places & Geography Socioeconomic Data Weather Health & Medicine Food & Nutrition Words & Linguistics Culture & Media People & History Education Organizations Sports & Games Music Colors [email_address] Ejemplo: se puede ver la estructura 3D de una molécula
  30. 30. Money & Finance Dates & Times Places & Geography Socioeconomic Data Weather Health & Medicine Food & Nutrition Words & Linguistics Culture & Media People & History Education Organizations Sports & Games Music Colors [email_address] Ejemplo: realizar análisis estadísticos
  31. 31. Money & Finance Dates & Times Places & Geography Socioeconomic Data Weather Health & Medicine Food & Nutrition Words & Linguistics Culture & Media People & History Education Organizations Sports & Games Music Colors [email_address] Ejemplo: ver el tiempo que hizo y hará en pamplona
  32. 32. Money & Finance Dates & Times Places & Geography Socioeconomic Data Weather Health & Medicine Food & Nutrition Words & Linguistics Culture & Media People & History Education Organizations Sports & Games Music Colors [email_address] Ejemplo: saber la fórmula de la aspirina
  33. 33. Money & Finance Dates & Times Places & Geography Socioeconomic Data Weather Health & Medicine Food & Nutrition Words & Linguistics Culture & Media People & History Education Organizations Sports & Games Music Colors [email_address] los repositorios de datos + Wolfram Alpha GGATGCACTA
  34. 34. [email_address] Módulo 3 Compartir datos en aplicaciones genéricas on-line
  35. 35. [email_address]
  36. 36. [email_address] Ventajas: - Permite trabajar directamente con ficheros excel - Gráficos interactivos - Permite crear informes - Permite compartirlos - Bien embebidos en la web - Bien a través de urls
  37. 37. [email_address] CONSOLA DE SWIWEL
  38. 38. [email_address] Módulo 3 Compartir datos en las universidades. Ejemplos.
  39. 39. [email_address] ¿Por que proteger los datos en universidades? 1. Proteger la inversión en investigación . Los datos son también un output de la investigación por lo que se debería crear una infraestructura adecuada para su protección. Hay datos que una vez perdidos son irremplazables. 2. Se preservan oportunidades para investigaciones futuras . Otros investigadores pueden realizar trabajos diferentes del original. Se puede entender como una forma de transferencia del conocimiento. 3. Promocionar el trabajo de las instituciones y los investigadores. La utilización de los datos por otros ayuda a conocer investigaciones de forma diferente por lo que le otorgan una segunda fase de visibilidad. 4. Apoya flujos de trabajo en investigación y enseñanza. La disposición on-line de datos normalizados supone ahorro de tiempo y facilidad de acceso de los datos para la enseñanza, para procesos evaluativos y para los propios equipos
  40. 40. [email_address] EDINBURG UNIVERSITY: EDINA AND DATA LIBRARY DIVISION
  41. 41. [email_address] THE EDINBURGH DATASHARE
  42. 42. [email_address] THE EDINBURGH DATASHARE
  43. 43. [email_address] COLUMBIA: DIGITAL SOCIAL SCIENCE CENTER
  44. 44. [email_address] COLUMBIA: CU SPATIAL DATA CATALOG CU SPATIAL DATA CATALOG
  45. 45. [email_address] COLUMBIA: DATAGATE: NUMERIC DATA CATALOG
  46. 46. [email_address] Módulo 3 La iniciativa DAF y el DCC Lifecycle Model
  47. 47. [email_address] LA INICIATIVA DAF ¿QUÉ ES ES? Básicamente es una auditoria: conocer qué datos son generados por sus departamentos y poner en marcha políticas de sensibilización y preservación de los mismos <ul><li>Ver dónde se generan los datos, de qué tipo son, cómo se almacenan, gestionan y comparten. </li></ul><ul><li>Identificar problemas: pérdidas, mal uso, localizar datos en riesgo, formatos desfasados. </li></ul><ul><li>Conocer las actitudes de los investigadores a la hora de crear y compartir datos. </li></ul><ul><li>Sugerir mejoras para la gestión de datos. </li></ul>
  48. 48. [email_address] LA INICIATIVA DAF, ALGUNAS CONCLUSIONES DE LAS AUDITORÍAS <ul><li>No existe una política clara entre los investigadores acerca de cómo conservar sus datos </li></ul><ul><li>Los datos suelen estar dispersos por CDs, DVDs, discos duros externos, PCs (trabajo y domésticos). </li></ul><ul><li>Se producen pérdidas irrecuperables y en ocasiones es difícil identificar la última versión o encontrar a la persona responsable </li></ul><ul><li>Los investigadores no utilizan ninguna convención para denominar a sus archivos, ni crean catálogos de las colecciones de datos </li></ul><ul><li>No tienen en cuenta su preservación a largo plazo y aunque algunos se lo plantean no tienen las herramientas y conocimientos para atajar el problema. </li></ul>
  49. 49. [email_address] LA INICIATIVA DAF: LA APLICACIÓN
  50. 50. [email_address] RECOMENDACIONES
  51. 51. [email_address] Luis Martinez, 2009
  52. 52. [email_address] Luis Martinez, 2009
  53. 53. [email_address] AGENTES IMPLICADOS
  54. 54. [email_address] Open Archival Information System (OAIS) (ISO 14721:2003) (SIP) Submission Information Package (AIP) Archival Information Package (DIP) Dissemination Information Package

×