Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

668 views

Published on

Visión general de los repositorios de datos.

Published in: Technology
  • Be the first to comment

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

  1. 1. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Parte 1 Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 1
  2. 2. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Contenido Hablaremos sobre: • El problema de la ubicación, preservación y uso de colecciones de datos científicas • Tendencias en la colaboración científica • Herramientas que pueden ayudar a solucionar algunos de los problemas Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 2
  3. 3. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Los datos producto de una investigación científica Partamos de las preguntas básicas: • Los datos que yo necesito… existen? • Donde están? • Como los obtengo? La mayoria de los científicos se han planteado estas preguntas alguna vez Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 3
  4. 4. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO 4 axiomas para la ciencia intensiva en datos Acceso • Global y abierto • Colecciones completas • Reservorios distribuidos (BD, repositorios de datos, datos en “la nube” ) • Preservación Interacción • Metadata • Servicios web de herramientas • Reutilización Flujo • • • • Procesos Curaduría Gerencia y mantenimiento Publicación Compartir • • • Estándares, XML esquemas, ontologías Redes sociales Minería de datos Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 4
  5. 5. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Problemas-retos a los que nos enfrentamos Tenemos que tener capacidades para… • Manejar volumen de datos generados actualmente • Preservarlos • Encontrarlos • Compartirlos, distribuirlos • Usarlos, reusarlos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 5
  6. 6. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO …Problemas a los que nos enfrentamos Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo Momento de publicación e d s od ne no C i t nó ca m o n i r f I Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo Retiro o cambio de carrera del científico recolector Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida de registros restantes Tiempo (Michener, 1997) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 6
  7. 7. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO El problema del “diluvio” de datos. La era del Petabyte Volumen de datos… www.wired.com 7 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
  8. 8. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Nuevas formas de colaboración científica Ante estos retos, tenemos posibilidades y nuevas maneras de… • Producir datos, • de compartirlos (publicarlos), y… • de trabajar colaborativamente Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 8
  9. 9. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Nuevas formas de colaboración científica Frecuentemente o cada vez más escuchamos y hablamos de… • • • • • • • “ciberinfraestructura” “e-ciencia” “e-investigación” “colaboracion ubicua” “data-driven Science” “computación grid” “computación social” • “acceso abierto al conocimiento” …refiriendose a nuevas formas de producción y diseminación del conocimiento Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 9
  10. 10. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO e-ciencia • El termino e-ciencia es usado para representar la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 10
  11. 11. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Ejemplos de colecciones de datos: Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.): • Datos del LHC generados en el CERN • Datos generados por las redes mundiales de sensores sísmicos • Estudios sobre cambios globales (GCMD-NASA) • Astronomía, los “telescopios virtuales” (Global Internet Telescope) • Banco de datos de Proteinas (PDB, Protein Data Bank) • Datos del genoma humano y de otras especies Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 11
  12. 12. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Iniciativas de Acceso Abierto A esto se unen las iniciativas por el uso sin restricciones de la información y datos: • Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives) • Movimiento Datos Libres (OD, Open Data) • Repositorios Institucionales y por disciplina (temáticos) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 12
  13. 13. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO - Ejemplos: CERN LHC Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 13
  14. 14. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Necesidad de usar tecnologías de información (TICs) Para… • • • • Ubicar Accesar Recuperar Compartir …datos La mayoría usa LA RED (la Web) para satisfacer estas necesidades Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 14
  15. 15. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Un objetivo importante Qué debemos hacer para lograr el… Uso secundario y a largo plazo de colecciones de datos científicos Se debe… Garantizar permanencia de los datos en el tiempo Poder ubicar y recuperar la información Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 15
  16. 16. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Herramientas Herramientas organizativas y tecnológicas que pueden hacer esto posible: Formación de Redes de colaboración entre científicos y entre usuarios de información Tecnologías de Información y Comunicaciones Uso de metadatos y estándares de intercambio de información Creación y mantenimiento de repositorios de datos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 16
  17. 17. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Qué significa la palabra “metadatos”? • " Datos sobre los datos " . • "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997). a) b) c) Mc M D M1 M D D Metadatos como parte de los datos M2 Metadatos externos al recurso de información D Meta-metadatos (colecciones de metadatos) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 17
  18. 18. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Para qué “metadatos”? Preguntas que se deberían poder responder usando metadatos: •Qué datos describe una coleccion de datos científicos? •Quién produjo la colección? •Porqué fue creada la colección? •Cómo fue creada la colección? •Qué datos componen la colección? •Cuan confiables son los datos. Que problemas persisten en la colección? •Cómo alguien puede obtener una copia de la colección? •Quién escribio los metadatos? Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 18
  19. 19. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Para qué “metadatos”? • El valor científico y económico de las colecciones de datos es muy grande • Para asegurar su uso posterior, la comunidad científica necesita acceso eficiente a estos datos • Los datos tienen que ser confiables y persistentes en el tiempo • La calidad de los datos debe poder probarse Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 19
  20. 20. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Que hacer? • Tratar a los datos como si fueran una publicación científica tradicional – – – – – Edición Agregación (documentación con metadatos) Análisis Revisión por pares Publicación …para que sean útiles a los usuarios finales Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 20
  21. 21. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Ejemplos de metadatos y de comunidades que usan metadatos Muestra datos NBII http://www.nbii.gov/ Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 21
  22. 22. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Ejemplos de metadatos y de comunidades que usan metadatos Documentación de datos geoespaciales (Interfaz a Clearinghouse FGDC, GCMD Data Documenter, Data.gov) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 22
  23. 23. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO   Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y ambientales más usados •FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov] •FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov]. •Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la Tierra. [gcmd.gsfc.nasa.gov] •Darwin Core (DwC). Colecciones de Historia Natural. •Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos ecológicos. Base del estándar EML. [lternet.washington.edu] •Dublin Core. Estandar general de identificacion de objetos de información en Internet. [www.dublincore.org] •CCLRC Scientific metadata model (CSMD). study-data set orientated model Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 23
  24. 24. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios • Almacenan y preservan la producción de una institución o de una disciplina científica. • Contienen información académica y científica. Artículos de revista, tesis, congresos, informes, colecciones de datos, etc. • Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es la tendencia actual. Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 24
  25. 25. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios institucionales • Incluyen los contenidos académicos de una institución (universidad, centro de investigación, etc.). Ejemplos: • CERN Document Server: http://cdsweb.cern.ch/ • Repositorio SABER-ULA: http://www.saber.ula.ve • Dspace@MIT: http://dspace.mit.edu Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 25
  26. 26. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios temáticos • Incluyen los contenidos académicos de una disciplina o ámbito temático. Ejemplos: – – – – E-LIS (biblioteconomía y documentación), ArXiv (física), Cogprints (psicología), Repec (economía). Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 26
  27. 27. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios temáticos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 27
  28. 28. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios de datos • Publican y preservan colecciones de datos • Organizados frecuentemente por disciplinas científicas como por ejemplo: – – – – – – HEP, Genómica Datos geoespaciales, Datos biológicos Datos astronómicos Datos gubernamentales Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 28
  29. 29. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Plataforma Dspace • DSpace es una plataforma de software de Código Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos. www.dspace.org Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 29
  30. 30. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Donde usan Dspace? www.dspace.org Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 30
  31. 31. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios de datos con Dspace Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 31
  32. 32. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Dificultades comunes • Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos • Poca disposición de los científicos para compartir los datos. • Poca receptividad o disposición para aportar metadatos que documenten las colecciones de datos. • Confusiones y reservas que tienen que ver con los derechos de propiedad, publicación y uso de los datos. • Dificultades (aún) con la conexión a internet (conectividad, velocidad) • Costos de los instrumentos de captura de datos • No existe la figura de “gerente local de información”, o es muy costoso tenerlos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 32
  33. 33. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO El Futuro • Redes de gestión de conocimientos basadas en datos y metadatos • Herramientas analíticas "en-línea" con acceso a datos de red de científicos • Herramientas que facilitan la creación de diferentes formas de metadatos • Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones • Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids) • Por último…Comunidades y sociedades del conocimiento Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 33
  34. 34. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO A manera de conclusión para esta parte • El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos • Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 34
  35. 35. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Gracias por la atención!! torrens@ula.ve Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 35

×