• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
PKP datos abiertos Gómez - Bueno-De-La-Fuente
 

PKP datos abiertos Gómez - Bueno-De-La-Fuente

on

  • 131 views

 

Statistics

Views

Total Views
131
Views on SlideShare
131
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    PKP datos abiertos Gómez - Bueno-De-La-Fuente PKP datos abiertos Gómez - Bueno-De-La-Fuente Presentation Transcript

    • Cerrando el círculo: requisitos de los datos abiertos como recursos para la investigación abierta PKP Scholarly Publishing Conference 2013 Universidad Nacional Autónoma de México 20 Agosto 2013 Nancy Diana Gómez Gema Bueno de La Fuente Universidad Carlos III de Madrid
    • Contenido  Preguntas de investigación  Objetivos  Contexto  Propuesta de metodología  Datos de los repositorios de Ciencias Sociales  Observaciones preliminares. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Preguntas de investigación Métricas de datos abiertos:  ¿Cuáles son las condiciones técnico/legales que se deben cumplir para saber si un dato es abierto?  ¿Es posible establecer métricas para medir el nivel de apertura de los datos? Set de datos en repositorios de Ciencias Sociales:  ¿Qué datos se están publicando en los repositorios de Ciencias Sociales como open data?  ¿Qué nivel de apertura legal y técnico tienen los datos de los repositorios de Ciencias Sociales? 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Objetivos  Diseño de la metodología para evaluar el grado de apertura de datos en repositorios de Ciencias Sociales de acuerdo a sus condiciones legales y técnicas.  Comprobación de la validez de la metodología con un conjunto seleccionado de datos abiertos del área de Ciencias Sociales. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • CONTEXTO
    • ¿Porqué Ciencia Abierta? (Stodden, 2011) Facilita Reproductibilidad Innovación académica e industria Acceso al conocimiento 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Razones para compartir datos (Borgman, 2012) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Ciclo del dato (ICPSR, 2012) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Incentivos que influencian la publicación y difusión de los datos (Stodden, 2011) Fondos de investigación (NSF, NIH, etc.) Editoriales de revistas (PLOSone) Promociones institucionales (premios, promociones, etc.) Integridad científica 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Motivos que disuaden a los científicos en la publicación de datos abiertos (Stodden, 2010)  Tiempo en documentar y limpiar datos para publicar (54%)  Lidiar con preguntas de los usuarios de los datos (34%)  No recibir atribución o citación como autores de los datos (42%)  Barreras legales –copyright (41%)  Perdida potencial de futuras publicaciones (35%)  Ventaja que pueden obtener los competidores en el campo (33%) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Las revistas y los datos (Stodden, 2013)  Estudio realizado sobre 170 revistas de computación ISI.     62% no menciona política de datos 79% no menciona política sobre el código/programa 66% tiene política para material suplementario Las revistas que incrementan demandas a sus autores, como datos son aquellas que tienen alto factor de impacto.  La proporción de revistas de AA con política de datos abiertos es levemente superior a las de suscripción 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Formas de simplificar la reutilización de los datos (White et al., 2013)  Proveer metadatos  Usar formatos de datos estándar  Proveer el dato de forma no procesada o cruda  Uso de un repositorio establecido  Uso de una licencia abierta y establecida (usar la licencia más abierta posible) como CC0 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Recomendaciones (White et al. 2013)  Datos bien documentados son más fáciles de comprender para reutilizar  Datos con formatos apropiados son más fáciles de usar en una variedad de software.  Datos que han sido depositado en repositorios establecidos, más durables y citables. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Datos abiertos y procesamiento  Estándares y buenas prácticas de citación para los datos (Datacite.org).  Uso de identificadores únicos de conjuntos de datos (DOI) y productores (ORCID).  Metadatos de calidad para la descripción de datasets en catálogos de datos (DCAT).  Integración de catálogos Open Data con otras herramientas (metabúsqueda).  Dataverse Network – 2006 - IQCSS (Guía para gestión de los datos-2012 5th edición) Permite a los autores subir código y datos con sus propios términos de uso. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • PROPUESTA METODOLÓGICA
    • Combinación de métodos 1. Medición del nivel de apertura de datos a nivel legal y técnico:  Diseño de matriz de priorización  Convalidación de los pesos de la matriz: crowdsourcing.  2. Recogida y tratamiento de datos abiertos. 3. Caracterización de los datos de repositorios en CCSS. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Matriz de evaluación (BETA) Matriz de priorización Variables consideradas: 1. Instrumento legal (copyright, licencias, aviso legal).  Korn y Oppenheim (2011). 2. Formatos de ficheros de datos:  Norma ISO 2145/2010.  Clasificación de cinco estrellas LOD de T. Berners Lee. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Asignación de pesos a las variables ¿80%? 4th Int. PKP Conference, México ¿20%? N. D. Gómez, G. Bueno (2013)
    • Variable 1: Instrumento legal (Korn & Oppenheim, 2011) Quién y bajo que términos se puede utilizar el dato Cualquiera 10 Restricción para usos comerciales 5 Posibilidad de modificación del dato Sin restricciones de ningún tipo 10 Sin restricciones pero con atribución 7 Compartir igual 3 No se modifican 0 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Variable 2: Formatos Escala LOD 5 estrellas (Berners Lee, 2010) 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Formula Valor licencia Valor formato Grado apertura (U x 0,3 + M x 0,5) + (pF x 0,2) = 0-1 Términos de uso: U Posibilidad de modificación del dato: M Valor promedio de formato: pF 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Selección de la muestra  Conjuntos de datos en CCSS.  Criterios de selección:  Data Citation Index:http://wokinfo.com//products _tools/multidisciplinary/dci/  Categoría CCSS.  >100 datasets Repositorio Organismo Archaeological Data Service University of York National Archives U.S. National Archives and Records Administration IQSS The Dataweb Eurostat Australian Data Archive UK Data Archive Finnish Social Science Data Archive Inter University Consortium for Political and Social Research Harvard University US Census Bureau European Union Australian National University University of Essex University of Tampere University of Michigan Odum Insitute, University of North Carolina Office for National Statistics UK Statistics Authority Roper Center  Volumen muestra: 13 repositorios Odum Institute Roper Center, University of Connecticut National Research N. D. Gómez, G. Bueno (2013) Foundation South African Data Archive 4th Int. PKP Conference, México
    • Datos en Ciencias Sociales  Investigación en CCSS: diseño-recolección-análisis. Los datos son la materia prima.  Métodos de obtención de datos: observación, encuestas, documentación, experimentación.  Tipos de métodos tipos de datos  formatos  Cuantitativos: paquetes estadísticos, hojas de cálculo y texto tabulado  Datos estructurados.  Cualitativos: amplio rango de contenidos y formatos (texto, imagen, video, audio y otra documentación).  Retos para su publicación como datos abiertos:  Normalización, integración, redundancia…  Aspectos éticos y legales. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Características de la muestra  Repositorios de organismos de la administración pública principalmente.  Datos estadísticos, censales y otros estudios.  Dataverse Network.  Registros metadatos datasets: DDI XML  Opciones descarga datos: API, FTP y descarga en lotes, exportar en XLS y otros formatos.  Niveles de acceso a los datos: abierto, especial y restringido.  Licencias de descarga, solicitudes formales. 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • OBSERVACIONES PRELIMINARES
    • Variable 1: Instrumento legal  Escasez de licencias explícitas asociadas a los datasets  Términos/condiciones generales de acceso y uso.  Repositorios admin. pública: los más abiertos, dominio público (Eurostat, US. Census Bureau, US NARA, US NASA…)  Repositorios de investigación (auto-depósito): condiciones establecidas por autores/propietarios datasets, financiadores (Australian Data Archive, UK Data Archive, ICPSR, IQSS, )  Licencias en relación con el nivel de acceso a los datasets.  Limitaciones de uso y reutilización (no comercial, sólo investigación y académicos), restricciones (confidencialidad, intimidad), condiciones (citación). 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Variable 2: Formatos Formatos más comunes de los datos cuantitativos en CCSS : ★★ SPSS, SAS, Stata… Sistemas propietarios, posibilidad de exportar en otros formatos. ★★ .xls (MS Excel) ★★★ R (open source) ★★★ .csv, .tsv, xml ★★★★ .sdmx-ml 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
    • Próximos pasos…  Reformulación de la matriz teniendo en cuenta otras variables, como nivel de accesibilidad, interoperabilidad, documentación adicional o material explicativo.  Convalidación de la nueva matriz a través de crowdsourcing con infomediarios  Obtención de un grupo de datos en Ciencias Sociales para aplicar la nueva matriz.  Dimensiones de los datos: Grado de apertura. Grado de interoperabilidad. Grado de reutilización.
    • Bibliografía  Berners-Lee, T. (2009). Putting government data online. Retrieved agosto/5, 2012, from http://www.w3.org/DesignIssues/GovData.html  Borgman, C. L. (2012). The conundrum of sharing research data. Journal of the American Society for Information Science and Technology, 63(6), 1059; 1059-1078; 1078.  Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to social science data preparation and archiving: Best practice throughout the data life cycle (5th ed.). Ann Arbor, M:  Korn, N., & Oppenheim, C. (2011). Licensing open data: A practical guide. Jisc, v. 2.0 Retrieved from http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf  Stodden, V. C. (2011). Transparency in scientific discovery: Innovation and knowledge dissemination. Retrieved from http://hdl.handle.net/10022/AC:P:13496  Stodden, V., Guo, P., & Ma, Z. (2013). Toward reproducible computational research: An empirical analysis of data and code policy adoption by journals. PloS One, 8(6), e67111.  White, E. P., Baldridge, E., Brym, Z. T., Locey, K. J., McGlinn, D. J., & Supp, S. R. (2013). Nine simple ways to make it easier to (re) use your data. Peerj Preprints, 1, e7. Retrieved from https://peerj.com/preprints/7/ 4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)