Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Open Data in the world of Science” by Dr. Claudio Gutiérrez

419 views

Published on

Open Data in the world of Science”, Dr. Claudio Gutiérrez, DCC, Universidad de Chile / CIWS - presented at the 4th LEARN RDM Workshop in Santiago, Chile: http://learn-rdm.eu/

Published in: Education
  • Be the first to comment

  • Be the first to like this

Open Data in the world of Science” by Dr. Claudio Gutiérrez

  1. 1. Datos abiertos en ciencias (4to. Taller LEARN, CEPAL, Santiago, 27 octubre 2016) Claudio Guti´errez • DCC, Universidad de Chile / CIWS • cgutierr@dcc.uchile.cl
  2. 2. . ”[...] la Compa˜n´ıa de Jes´us que no permite al profano el acceso a sus colecciones, por lo que tantos problemas de la historia quedar´an siempre desesperadamente oscuros, o el Banco de Francia que no permite a los especialistas del primer Imperio consultar sus registros [...] as´ı seguiremos, hasta que las sociedades consientan organizar racionalmente, con su memoria, el conocimiento de s´ı mismas. No lo lograr´an sino luchando cuerpo a cuerpo con los dos principales responsables del olvido y la ignorancia: la negligencia que extrav´ıa documentos, y, m´as peligroso a´un, la pasi´on por el secreto [...] Nuestra civilizaci´on habr´a hecho un inmenso progreso el d´ıa en que el disimulo, erigido en m´etodo de acci´on y casi en virtud burguesa, deje el lugar al gusto por la informaci´on. (MARC BLOCH, APOLOG´IA PARA LA HISTORIA, 1943)
  3. 3. M´as informaci´on, m´as comunicaci´on no elimina la fundamental imprecisi´on del todo, mas bien la agrava. [...] La masa de informaci´on no engendra ninguna verdad. Cuanta m´as informaci´on se pone en marcha, tanto m´as intrincado se hace el mundo. La hiperinformaci´on y la hipercomunicaci´on no inyecta ninguna luz en la oscuridad. (BYUNG-CHUL HAN, LA SOCIEDAD DE LA TRANSPARENCIA, 2012)
  4. 4. ASUNTO POL´ITICO Y T ´ECNICO
  5. 5. En esta charla: el desaf´ıo t´ecnico I. Datos abiertos hoy II. Entender los datos A- Datos B- Datos abiertos C- Datos abiertos cient´ıficos III. Desaf´ıos
  6. 6. I. DATOS ABIERTOS HOY
  7. 7. Resumen:
  8. 8. • Portales de datos cient´ıficos • APIs para datos cient´ıficos online • Datasets y journals • Visualizaciones y herramientas • Marcos legales y regulaciones • Iniciativas pro datos abiertos • ... ¿qu´e m´as?... ¿c´omo jerarquizar?
  9. 9. II. ENTENDER LOS DATOS
  10. 10. II.A. DATOS
  11. 11. ACLARACI ´ON NECESARIA Datos = informaci´on; Datos = conocimiento conocimiento = informaci´on + metainformaci´on informaci´on = datos + metadatos datos = ?
  12. 12. DATOS (DEFINICI ´ON DE BUR ´OCRATA) hechos y estad´ısticas reunidas para referencia o an´alisis COMPUTACI ´ON. cantidades, caracteres o s´ımbolos sobre las que opera un computador, almacenadas y transmitidas en forma de se˜nales el´ectricas y almacenadas en medios magn´eticos, ´opticos o mec´anicos. FILOSOF´IA. cosas conocidas o asumidas como hechos, que forman la base de un razonamiento o c´alculo
  13. 13. DATOS (DEFINICI ´ON ENTRE NOS) Datos Mundo virtual = Atomos Mundo material O sin matem´aticas: Ciencia de los datos = qu´ımica del mundo virtual
  14. 14. ¿QU ´E ES UN DATO? UN DATASET? 1. Definici´on extensional: • Un archivo de datos • Un conjunto (red) de archivos de datos 2. Definici´on intensional: • Una URI (o una direcci´on o una API) • La salida (el output) de un sensor • Un concepto: “los jugadores de la Premier League”
  15. 15. GESTIONAR DATOS VERSI ´ON 1.0 (el enfoque tradicional) 1. Limpiar, organizar, clasificar 2. Sistema de curator´ıa y almacenamiento 3. Sistema de recuperaci´on (cat´alogos, lenguajes consulta, etc.)
  16. 16. Ejemplo de enfoque tradicional: NATURE SCIENTIFIC DATA JOURNAL: “Scientific Data is a peer-reviewed, open-access journal for descriptions of scientifically valuable datasets, and research that advances the sharing and reuse of scientific data.”
  17. 17. GESTIONAR DATOS VERSI ´ON 2.0 JIM GRAY: No mover los datos... La Web como unificador, como infraestrutura de datos 1. Repositorios locales de los propios productores y organizaciones que los producen 2. Infraestructura para integrarlos (virtualmente) y enlazarlos 3. Sistema de archivo para efectos de seguridad ¿Y los bibliotecarios d´onde quedan?: dise˜no integraci´on, est´andares de metadatos, sistemas de archivo.
  18. 18. ¿POR QU ´E HABLAMOS DE ESTO hoy? 1. Nuevas tecnolog´ıas de captura, transformaci´on y almacenamiento de datos. Diluvio datos 2. Alcanzamos las fronteras de nuestro “hogar com´un”. Empezamos a “toparnos” (Brundtland Report). Interconectiviidad 3. Nueva forma de crear conocimiento. Otra “ciencia”.
  19. 19. I.B. DATOS CIENT´IFICOS
  20. 20. PREGUNTA (NADA) INGENUA: ¿Qu´e son “datos cient´ıficos” (de “investigaci´on”)? Los datos cient´ıficos se definen como informaci´on recolectada usando m´etodos espec´ıficos para un prop´osito espec´ıfico de estudio o an´alisis. Datos recolectados en un experimento de laboratorio hecho bajo condiciones controladas es un ejemplo de datos cient´ıficos. “Datos generados en el ciclo de vida de una investigaci´on como de sus resultados.” (Biblioteca CEPAL).
  21. 21. PREGUNTA (NADA) INGENUA: ¿Qu´e son “datos cient´ıficos”? (OECD) “Research data” are defined as factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings. A research data set constitutes a systematic, partial representation of the subject being investigated.
  22. 22. PREGUNTA (NADA) INGENUA: ¿Qu´e son “datos cient´ıficos”? 1. Diferencia importante: datos “usados” versus datos “recolectados” o “generados” 2. M´as amplio que datos que generan (o que dejan) los proyectos cient´ıficos (e.g. para efectos de replicaci´on) 3. Verdadero desaf´ıo que viene: datos de sensores 4. Otros no menores: privacidad, seguridad (datos m´edicos)
  23. 23. II.C. DATOS ABIERTOS
  24. 24. Un dato es abierto si cualquiera es libre para acceder a ´el, usarlo, modificarlo y compartirlo bajo condiciones que, como mucho, preserven su autor´ıa y su apertura. (Handbook of Open Data)
  25. 25. NSF Principles: Public Accesible Described Reusable Complete Timely Managed Post Release
  26. 26. OECD Principles Openness Flexibility Transparency Legal conformity Professionalism Interoperability Quality Security Efficiency Accountability Sustainability Formal responsability Protection of intellectual property
  27. 27. OKF Principles Access (whole, cost, form) Redistribution & Reuse Atribution & Integrity No discrimination against persons or groups No discrimination gaints fields of endeavor Distribution of License License must not be specific to package License must not restrict distribution of other works
  28. 28. Cinco enfoques y argumentos para “open”: 1. Democracia: acceso est´a hoy desigualmente distribu´ıdo 2. Econom´ıa: baja los costos y promueve la innovaci´on 3. T´ecnico: ventajas t´ecnicas de arquitecturas abiertas 4. Transparencia: datos deben ser accesibles a todo p´ublico 5. Accountability: mejora la replicabilidad y la auditor´ıa (tomado y modificado de Fecher & Friesike, 2014)
  29. 29. Open realmente open At the end of the day, information outlives software and transcends software and is more valuable than software. I think any online service can call itself “Open” if it makes, and lives up to, this commitment: Any data that you give us, we’ll let you take away again, without withholding anything, or encoding it in a proprietary format, or claiming any intellectual-property rights whatsoever. (Set My Data Free, Tim Bray, 2006)
  30. 30. III. DESAF´IOS
  31. 31. ALGUNOS DESAF´IOS: 1. “Negligencia que extrav´ıa.” Hacer conciencia sobre el valor de los datos. 2. “Pasi´on por el secreto” (y crisis del concepto de propiedad para datos, informaci´on, conocimiento). Cambiar mentalidad. 3. Modelos de incentivos y negocios adecuados. Entender los commons del mundo virtual. 4. M´as desafiante que los anteriores: lidiar con la avalancha de datos.
  32. 32. “Some of the design flaws of current open data sites are pretty obvious. The datasets that are more important, or could potentially be more useful, are not brought into the surface of these sites” (C´esar Hidalgo) DESAF´IO 1: ¿C´omo calcular el valor de los datos? Ante la avalancha de datos, ¿c´omo jerarquizar los datos?
  33. 33. Cantidad de datos excede por mucho las capacidades humanas de “I/O”. DESAF´IO 2: Visualizaci´on, interfaces para m´aquinas, recuperaci´on automatizada de datos
  34. 34. Mentalidad cl´asica: bases de datos, repositorios “finitos”, accesos locales, enfoque centralizado. DESAF´IO 3: Datos globales como extensi´on de los locales o cualitativamente diferentes? (infinitos, globales, decentralizados)
  35. 35. Los datos (´atomos) est´an naturalmente enlazados DESAF´IO 4: La estructura de enlazamiento (de red) de los datos Cu´anto replicar, c´omo (e.g. portales de datos abiertos). El tema de las dificultades t´ecnicas.
  36. 36. Test de las cinco estrellas: 1. disponga sus datos en la Web (en cualquier formato) bajo licencias abiertas 2. disp´ongalos como datos estructurados (e.g. use Excel en vez de la imagen escaneadas de una tabla) 3. h´agalos disponibles en formatos abiertos no propietarios (e.g. CSV en vez de Excel) 4. use URIs para denotar cosas, de forma que las personas puedan apuntar a, o referenciar vuestros datos 5. enlace sus datos a otros datos para proveer contexto
  37. 37. GRACIAS POR LA ATENCI ´ON cgutierr@dcc.uchile.cl

×