Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Cerrando el círculo: requisitos de los datos
abiertos como recursos para la
investigación abierta
PKP Scholarly Publishing...
Contenido
 Preguntas de investigación

 Objetivos
 Contexto
 Propuesta de metodología
 Datos de los repositorios de C...
Preguntas de investigación
Métricas de datos abiertos:
 ¿Cuáles son las condiciones técnico/legales que se
deben cumplir ...
Objetivos
 Diseño de la metodología para evaluar el
grado de apertura de datos en repositorios de
Ciencias Sociales de ac...
CONTEXTO
¿Porqué Ciencia Abierta?
(Stodden, 2011)

Facilita
Reproductibilidad
Innovación académica e industria
Acceso al conoci...
Razones para compartir datos
(Borgman, 2012)

4th Int. PKP Conference, México

N. D. Gómez, G. Bueno (2013)
Ciclo del dato (ICPSR, 2012)

4th Int. PKP Conference, México

N. D. Gómez, G. Bueno (2013)
Incentivos que influencian la
publicación y difusión de los datos
(Stodden, 2011)

Fondos de investigación (NSF, NIH, etc...
Motivos que disuaden a los científicos
en la publicación de datos abiertos
(Stodden, 2010)

 Tiempo en documentar y limpi...
Las revistas y los datos
(Stodden, 2013)

 Estudio realizado sobre 170 revistas de
computación ISI.





62% no menci...
Formas de simplificar la reutilización
de los datos (White et al., 2013)
 Proveer metadatos

 Usar formatos de datos est...
Recomendaciones
(White et al. 2013)
 Datos bien documentados son más fáciles de
comprender para reutilizar
 Datos con fo...
Datos abiertos y procesamiento
 Estándares y buenas prácticas de citación para los
datos (Datacite.org).
 Uso de identif...
PROPUESTA
METODOLÓGICA
Combinación de métodos
1. Medición del nivel de apertura de datos a
nivel legal y técnico:
 Diseño de matriz de priorizac...
Matriz de evaluación (BETA)
Matriz de priorización

Variables consideradas:
1. Instrumento legal (copyright, licencias, av...
Asignación de pesos a las variables

¿80%?

4th Int. PKP Conference, México

¿20%?

N. D. Gómez, G. Bueno (2013)
Variable 1: Instrumento legal
(Korn & Oppenheim, 2011)

Quién y bajo que términos se puede utilizar el dato
Cualquiera

10...
Variable 2: Formatos
Escala LOD 5 estrellas (Berners Lee, 2010)

4th Int. PKP Conference, México

N. D. Gómez, G. Bueno (2...
Formula
Valor licencia

Valor formato

Grado
apertura

(U x 0,3 + M x 0,5) + (pF x 0,2) = 0-1
Términos de uso: U
Posibil...
Selección de la muestra
 Conjuntos de datos en
CCSS.
 Criterios de selección:
 Data Citation
Index:http://wokinfo.com//...
Datos en Ciencias Sociales
 Investigación en CCSS: diseño-recolección-análisis. Los
datos son la materia prima.
 Métodos...
Características de la muestra
 Repositorios de organismos de la administración pública
principalmente.
 Datos estadístic...
OBSERVACIONES
PRELIMINARES
Variable 1: Instrumento legal
 Escasez de licencias explícitas asociadas a los datasets 
Términos/condiciones generales ...
Variable 2: Formatos
Formatos más comunes de los datos
cuantitativos en CCSS :
★★ SPSS, SAS, Stata…
Sistemas propietarios...
Próximos pasos…
 Reformulación de la matriz teniendo en cuenta otras
variables, como nivel de accesibilidad,
interoperabi...
Bibliografía


Berners-Lee, T. (2009). Putting government data online. Retrieved agosto/5, 2012, from
http://www.w3.org/D...
Upcoming SlideShare
Loading in …5
×

PKP datos abiertos Gómez - Bueno-De-La-Fuente

528 views

Published on

Published in: Education
  • Be the first to comment

  • Be the first to like this

PKP datos abiertos Gómez - Bueno-De-La-Fuente

  1. 1. Cerrando el círculo: requisitos de los datos abiertos como recursos para la investigación abierta PKP Scholarly Publishing Conference 2013 Universidad Nacional Autónoma de México 20 Agosto 2013 Nancy Diana Gómez Gema Bueno de La Fuente Universidad Carlos III de Madrid
  2. 2. Contenido  Preguntas de investigación  Objetivos  Contexto  Propuesta de metodología  Datos de los repositorios de Ciencias Sociales  Observaciones preliminares. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  3. 3. Preguntas de investigación Métricas de datos abiertos:  ¿Cuáles son las condiciones técnico/legales que se deben cumplir para saber si un dato es abierto?  ¿Es posible establecer métricas para medir el nivel de apertura de los datos? Set de datos en repositorios de Ciencias Sociales:  ¿Qué datos se están publicando en los repositorios de Ciencias Sociales como open data?  ¿Qué nivel de apertura legal y técnico tienen los datos de los repositorios de Ciencias Sociales? 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  4. 4. Objetivos  Diseño de la metodología para evaluar el grado de apertura de datos en repositorios de Ciencias Sociales de acuerdo a sus condiciones legales y técnicas.  Comprobación de la validez de la metodología con un conjunto seleccionado de datos abiertos del área de Ciencias Sociales. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  5. 5. CONTEXTO
  6. 6. ¿Porqué Ciencia Abierta? (Stodden, 2011) Facilita Reproductibilidad Innovación académica e industria Acceso al conocimiento 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  7. 7. Razones para compartir datos (Borgman, 2012) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  8. 8. Ciclo del dato (ICPSR, 2012) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  9. 9. Incentivos que influencian la publicación y difusión de los datos (Stodden, 2011) Fondos de investigación (NSF, NIH, etc.) Editoriales de revistas (PLOSone) Promociones institucionales (premios, promociones, etc.) Integridad científica 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  10. 10. Motivos que disuaden a los científicos en la publicación de datos abiertos (Stodden, 2010)  Tiempo en documentar y limpiar datos para publicar (54%)  Lidiar con preguntas de los usuarios de los datos (34%)  No recibir atribución o citación como autores de los datos (42%)  Barreras legales –copyright (41%)  Perdida potencial de futuras publicaciones (35%)  Ventaja que pueden obtener los competidores en el campo (33%) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  11. 11. Las revistas y los datos (Stodden, 2013)  Estudio realizado sobre 170 revistas de computación ISI.     62% no menciona política de datos 79% no menciona política sobre el código/programa 66% tiene política para material suplementario Las revistas que incrementan demandas a sus autores, como datos son aquellas que tienen alto factor de impacto.  La proporción de revistas de AA con política de datos abiertos es levemente superior a las de suscripción 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  12. 12. Formas de simplificar la reutilización de los datos (White et al., 2013)  Proveer metadatos  Usar formatos de datos estándar  Proveer el dato de forma no procesada o cruda  Uso de un repositorio establecido  Uso de una licencia abierta y establecida (usar la licencia más abierta posible) como CC0 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  13. 13. Recomendaciones (White et al. 2013)  Datos bien documentados son más fáciles de comprender para reutilizar  Datos con formatos apropiados son más fáciles de usar en una variedad de software.  Datos que han sido depositado en repositorios establecidos, más durables y citables. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  14. 14. Datos abiertos y procesamiento  Estándares y buenas prácticas de citación para los datos (Datacite.org).  Uso de identificadores únicos de conjuntos de datos (DOI) y productores (ORCID).  Metadatos de calidad para la descripción de datasets en catálogos de datos (DCAT).  Integración de catálogos Open Data con otras herramientas (metabúsqueda).  Dataverse Network – 2006 - IQCSS (Guía para gestión de los datos-2012 5th edición) Permite a los autores subir código y datos con sus propios términos de uso. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  15. 15. PROPUESTA METODOLÓGICA
  16. 16. Combinación de métodos 1. Medición del nivel de apertura de datos a nivel legal y técnico:  Diseño de matriz de priorización  Convalidación de los pesos de la matriz: crowdsourcing.  2. Recogida y tratamiento de datos abiertos. 3. Caracterización de los datos de repositorios en CCSS. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  17. 17. Matriz de evaluación (BETA) Matriz de priorización Variables consideradas: 1. Instrumento legal (copyright, licencias, aviso legal).  Korn y Oppenheim (2011). 2. Formatos de ficheros de datos:  Norma ISO 2145/2010.  Clasificación de cinco estrellas LOD de T. Berners Lee. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  18. 18. Asignación de pesos a las variables ¿80%? 4th Int. PKP Conference, México ¿20%? N. D. Gómez, G. Bueno (2013)
  19. 19. Variable 1: Instrumento legal (Korn & Oppenheim, 2011) Quién y bajo que términos se puede utilizar el dato Cualquiera 10 Restricción para usos comerciales 5 Posibilidad de modificación del dato Sin restricciones de ningún tipo 10 Sin restricciones pero con atribución 7 Compartir igual 3 No se modifican 0 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  20. 20. Variable 2: Formatos Escala LOD 5 estrellas (Berners Lee, 2010) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  21. 21. Formula Valor licencia Valor formato Grado apertura (U x 0,3 + M x 0,5) + (pF x 0,2) = 0-1 Términos de uso: U Posibilidad de modificación del dato: M Valor promedio de formato: pF 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  22. 22. Selección de la muestra  Conjuntos de datos en CCSS.  Criterios de selección:  Data Citation Index:http://wokinfo.com//products _tools/multidisciplinary/dci/  Categoría CCSS.  >100 datasets Repositorio Organismo Archaeological Data Service University of York National Archives U.S. National Archives and Records Administration IQSS The Dataweb Eurostat Australian Data Archive UK Data Archive Finnish Social Science Data Archive Inter University Consortium for Political and Social Research Harvard University US Census Bureau European Union Australian National University University of Essex University of Tampere University of Michigan Odum Insitute, University of North Carolina Office for National Statistics UK Statistics Authority Roper Center  Volumen muestra: 13 repositorios Odum Institute Roper Center, University of Connecticut National Research N. D. Gómez, G. Bueno (2013) Foundation South African Data Archive 4th Int. PKP Conference, México
  23. 23. Datos en Ciencias Sociales  Investigación en CCSS: diseño-recolección-análisis. Los datos son la materia prima.  Métodos de obtención de datos: observación, encuestas, documentación, experimentación.  Tipos de métodos tipos de datos  formatos  Cuantitativos: paquetes estadísticos, hojas de cálculo y texto tabulado  Datos estructurados.  Cualitativos: amplio rango de contenidos y formatos (texto, imagen, video, audio y otra documentación).  Retos para su publicación como datos abiertos:  Normalización, integración, redundancia…  Aspectos éticos y legales. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  24. 24. Características de la muestra  Repositorios de organismos de la administración pública principalmente.  Datos estadísticos, censales y otros estudios.  Dataverse Network.  Registros metadatos datasets: DDI XML  Opciones descarga datos: API, FTP y descarga en lotes, exportar en XLS y otros formatos.  Niveles de acceso a los datos: abierto, especial y restringido.  Licencias de descarga, solicitudes formales. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  25. 25. OBSERVACIONES PRELIMINARES
  26. 26. Variable 1: Instrumento legal  Escasez de licencias explícitas asociadas a los datasets  Términos/condiciones generales de acceso y uso.  Repositorios admin. pública: los más abiertos, dominio público (Eurostat, US. Census Bureau, US NARA, US NASA…)  Repositorios de investigación (auto-depósito): condiciones establecidas por autores/propietarios datasets, financiadores (Australian Data Archive, UK Data Archive, ICPSR, IQSS, )  Licencias en relación con el nivel de acceso a los datasets.  Limitaciones de uso y reutilización (no comercial, sólo investigación y académicos), restricciones (confidencialidad, intimidad), condiciones (citación). 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  27. 27. Variable 2: Formatos Formatos más comunes de los datos cuantitativos en CCSS : ★★ SPSS, SAS, Stata… Sistemas propietarios, posibilidad de exportar en otros formatos. ★★ .xls (MS Excel) ★★★ R (open source) ★★★ .csv, .tsv, xml ★★★★ .sdmx-ml 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
  28. 28. Próximos pasos…  Reformulación de la matriz teniendo en cuenta otras variables, como nivel de accesibilidad, interoperabilidad, documentación adicional o material explicativo.  Convalidación de la nueva matriz a través de crowdsourcing con infomediarios  Obtención de un grupo de datos en Ciencias Sociales para aplicar la nueva matriz.  Dimensiones de los datos: Grado de apertura. Grado de interoperabilidad. Grado de reutilización.
  29. 29. Bibliografía  Berners-Lee, T. (2009). Putting government data online. Retrieved agosto/5, 2012, from http://www.w3.org/DesignIssues/GovData.html  Borgman, C. L. (2012). The conundrum of sharing research data. Journal of the American Society for Information Science and Technology, 63(6), 1059; 1059-1078; 1078.  Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to social science data preparation and archiving: Best practice throughout the data life cycle (5th ed.). Ann Arbor, M:  Korn, N., & Oppenheim, C. (2011). Licensing open data: A practical guide. Jisc, v. 2.0 Retrieved from http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf  Stodden, V. C. (2011). Transparency in scientific discovery: Innovation and knowledge dissemination. Retrieved from http://hdl.handle.net/10022/AC:P:13496  Stodden, V., Guo, P., & Ma, Z. (2013). Toward reproducible computational research: An empirical analysis of data and code policy adoption by journals. PloS One, 8(6), e67111.  White, E. P., Baldridge, E., Brym, Z. T., Locey, K. J., McGlinn, D. J., & Supp, S. R. (2013). Nine simple ways to make it easier to (re) use your data. Peerj Preprints, 1, e7. Retrieved from https://peerj.com/preprints/7/ 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)

×