1. Agenda
1. Introdução aos sistemas de gestão de ciência
2. Diretrizes nacionais e internacionais, infraestruturas e
serviços
3. Repositórios: Desafios de alinhamento com
diretrizes nacionais/internacionais
4. Repositórios e a política de acesso aberto da FCT
5. DSpaceCRIS: Gerir ciência com um repositório
institucional
6. DSpaceCRIS e o RCAAP
7. Questões, debate e encerramento
07/11/2016 1
3. Agenda
1. Regulatory framework
a. CASRAI
b. Identifiers (ORCID, Org Ids, works (doi, handle,
WoS, Scopus))
c. CERIF
d. OpenAIRE profile
07/11/2016 3
4. Cadeia de valor CRIS
07/11/2016 4
Serviços
Portal pesquisa
CV
Repositório
Institucional
etc
Infraestruturas
Base de dados
organizações
Base de dados
investigadores
Etc.
Quadro normativo
Ids
Pessoas, Orgs,
Proj., public.
Semantica Vocabulário
Modelo
dados
etc
Programa
5. Cadeia de valor
07/11/2016 5
Serviços
Portal pesquisa
CV
Repositório
Institucional
etc
Infraestruturas
Organizações
Investigadores
Financiamento
Trabalhos
Quadro normativo
Ids
Pessoas, Orgs, Proj.,
public.
Semantica /
Vocabulário
Transporte
(XML)
Dados
Estrutura
Dados
Programa
10. Cadeia de valor
07/11/2016 10
Serviços
Portal pesquisa
CV
Repositório
Institucional
etc
Infraestruturas
Organizações
Investigadores
Financiamento
Trabalhos
Quadro normativo
Ids
Pessoas, Orgs, Proj.,
public.
Semantica /
Vocabulário
Transporte
(XML)
Dados
Estrutura
Dados
Programa
11. Quadro normativo: Identificadores
Problema
• Dificuldade em identificar de forma unívoca os diferentes atores do universo de Ciência e
Tecnologia
• Como não há uma conexão entre os registos que atravesse toda a cadeia de
fornecedores, falham as ligações entre os diferentes atores e os produtos destas
interações, por exemplo:
- Autores não associados à sua investigação
- Agências de financiamento não associadas à investigação/instituição
que financiam
- Autores e indivíduos não conectados às suas instituições
O que resulta em:
• Formulação de relatórios/documentos pouco precisos
• Dificuldades de análise
• Dificuldade nas tomadas de decisão
12. Solução
• Identificadores únicos e persistentes
Pessoas
Organizações
Projetos
Publicações
• Qualidade dos dados
• Unicidade
• “Linking” entre sistemas
• Deduplicação
Quadro normativo: Identificadores
13. (adaptado a partir de http://www.slideshare.net/mimran15/a-realtime-heuristicbased-unsupervised-
method-for-name-disambiguation-in-digital-libraries)
Identificadores de autor
16. Adaptado de apresentação por Laura Cox, Ringgold
Desambiguar Consolidar Hierarquizar
UCL:
• University College
London (UK)
• Université Catholique de
Louvain (Belgium)
• Universidade Cristiana
Latinoamericana
(Ecuador)
• University College
Lillebaelt (Denmark)
• Centro Universitario
Celso Lisboa (Brazil)
• Union County Library
(USA)
Universidade de Oxford:
• University of Oxford
• Univ. Oxford
• Oxford University
• Library, Oxford Univ.
• Radcliffe Science Library
• Bodleian Library
• Bodleian, Oxford
• Oxford, University of
Universidade/Faculda-
de/Departamento:
• University of Northampton
• Northampton
Business School
• School of Education
• School of Health
• School of Science and
Technology
• Division of
Computing
• necessários para identificar de forma inequívoca cada instituição, centro de investigação,
unidade, laboratório, universidade, departamento, etc.
• funcionam como um mecanismo que agrega a informação permitindo que a informação
se mantenha atualizada e sem duplicações por toda a cadeia.
Identificadores institucionais - OrgIDs
17. O uso disseminadode identificadoresinstitucionaispermite:
- Prevenir a duplicação de contas e registos
- Manter os dados atualizados e os sistemas sincronizados
- Aumentar a eficácia do trabalho de quem necessita dos dados (e a
qualidade dos serviços)
- Simplificar a transferência de dados intra e inter organizações
- Melhorar a qualidade dos dados
- Diminuir o tempo necessário para transferência de dados
- Reduzir os custos associados à transferência de dados
- Garantir que publicações, autores, organizações e agências de
financiamento ficam devidamente associados
- Melhorar a capacidade de decisão de todos os envolvidos
15-Jan-2015 17
Identificadores institucionais - OrgIDs
18. Desafios
• Adoção universal de normas
• Consistência de metadados
• Curadoria dos dados
• Etc.
Recomendação JISC-CASRAI-UK OrgID
ISNI +
Identificadores institucionais - OrgIDs
19. Cadeia de valor
07/11/2016 26
Serviços
Portal pesquisa
CV
Repositório
Institucional
etc
Infraestruturas
Organizações
Investigadores
Financiamento
Trabalhos
Quadro normativo
Ids
Pessoas, Orgs, Proj.,
public.
Semantica /
Vocabulário
Transporte
(XML)
Dados
Estrutura
Dados
Programa
20. Cadeia de valor
07/11/2016 28
Serviços
Portal pesquisa
CV
Repositório
Institucional
etc
Infraestruturas
Organizações
Investigadores
Financiamento
Trabalhos
Quadro normativo
Ids
Pessoas, Orgs, Proj.,
public.
Semantica /
Vocabulário
Transporte
(XML)
Dados
Estrutura
Dados
Programa
22. CERIF 1.6 Tutorial
Jan Dvořák
May 11th, 2015
euroCRIS Strategic Membership
Meeting
Paris, Paris
cfExpertise
AndSkills
cfEquipmentcfFunding
cfFacility
cfService
cfCitation
cfEvent
cfLanguage cfCurrency
cfCountry
cfCurriculum
Vitae
cfPrize
cfQualificatio
n
cfGeographic
BoundingBox
cfPostalAddress
cfElectronicAddress
cfPerson
cfProject
cfOrganisatio
n
Unit
cfResultPatent
cfResult
Publication
cfResultProduct
cfIndicator cfMeasurement
cfFederated
Identifier
23. What is Research Information?
www.eurocris.orgwww.eurocris.org
Information about:
• Researchers
• Organisations
– Research performing orgs, Funders, Publishers, Facility Operators
• Scientific Disciplines
• Funding
– Funding Programmes, Calls
• Projects
– Proposed, Ongoing, Completed
• Research infrastructures
– Facilities, Equipment, Services
• Outputs
– Publications, Patents, Research Data, Research Software, Products
• Outcomes
– New product on the market, Improved treatment procedure, Regulation update
• Impacts
– Increased market share, Reduced death rate of a disease
• And their Relationships
24. The Ultimate Answer:
Common European Research Information Format
www.eurocris.orgwww.eurocris.org
cfExpertise
AndSkills
cfEquipmentcfFunding
cfFacility
cfService
cfCitation
cfEvent
cfLanguage cfCurrency
cfCountry
cfCurriculum
Vitae
cfPrize
cfQualification
cfGeographic
BoundingBox
cfPostalAddres
s
cfElectronicAddress
cfPerson
cfProject
cfOrganisation
Unit
cfResultPatent
cfResult
Publication
cfResultProduct
cfIndicator cfMeasurement
cfFederated
Identifier
25. Common European Research Information Format
CERIF is an EU Recommendation
to Member States
http://cordis.europa.eu/cerif/
The European Commission (EC)
has authorised euroCRIS to maintain
and develop CERIF and its usage
http://www.eurocris.org/Index.php?page=CERIFrel
eases&t=1
www.eurocris.org
26. Model Levels
www.eurocris.orgwww.eurocris.org
• Conceptual Level (Specification)
Concepts relevant for the research domain
and their relationships
• Logical Level (ER Model)
Entities and their relationships
• Physical Level (Database Scripts)
Data Definition commands for the database
• Semantic Layer (Declared Semantics)
A formalized controlled vocabulary describing a
general contextual semantics of the research domain
inline with the conceptual, logical and machine description
Equipment
ProjectProject
OrganisationOrganisation
Service
Funding
Patent
Skills
CV
Product
Event
PersonPerson
Classification
(Semantics )
Classification
(Semantics )
Publication
SQL Script
-----------------------------
CREATE Table cfPers (...);
CREATE Table cfProj (...);
CREATE Table cfOrgUnit (...);
27. CERIF Semantic Layer
www.eurocris.orgwww.eurocris.org
Allows to capture any Schema or Structure
• Flat Lists
• Thesauri
• Classification Systems (e.g. SKOS, ...)
• Taxonomies
• Ontologies
Open / Extensible in all directions
• New Schemas
• New Concepts / Terms
• New Relationships
Enables to manage
• Roles / Types Semantics
• Subject Headings
• Archiving (Time component)
Allows for Mappings between Schemes
28. CERIF Federated Identifiers
• ResultPublication
– ISBN
– ISSN
– DOI
– WoS Accession Number
– Scopus EID
– PubMed Central ID
• Person
– Social Security Number
– Staff Id in HR system
– Author identifier
• ORCID
• IdRef
• Project/Grant
– Funder’s reference
number
– Organisation’s
reference number
• Organisation
– VAT Identification
Number
– Internal Code
– FundId
• Classification
– External Code
www.eurocris.org
29. CERIF XML 1.6 Interchange Format
www.eurocris.orgwww.eurocris.org
For point-to-point interchange
XML namespace
XML Schema
Based on the ER model
cfExpertise
AndSkills
cfEquipmentcfFunding
cfFacility
cfService
cfCitation
cfEvent
cfLanguage cfCurrency
cfCountry
cfCurriculum
Vitae
cfPrize
cfQualificatio
n
cfGeographic
BoundingBox
cfPostalAddres
s
cfElectronicAddress
cfPerson
cfProject
cfOrganisatio
n
Unit
cfResultPaten
t
cfResult
Publication
cfResultProduc
t
cfIndicator cfMeasurement
cfFederated
Identifier
30. CERIF 1.6 XML Interchange Format
www.eurocris.orgwww.eurocris.org
<CERIF xmlns=“urn:xmlns:org:eurocris:cerif-1.6-2”>
<cfProj>
<cfProjId>internal-project-identifier</cfProjId>
<cfAcro>ACRO</cfAcro>
<cfURI>http://www.project-url.ac.uk/acro.html</cfURI>
<cfTitle cfLangCode="en" cfTrans="o">The title of the project</cfTitle>
<cfAbstr cfLangCode=”en" cfTrans="o">The goals of the project</cfAbstr>
<cfProj_Class>
<cfClassId>infrastructure-project-uuid</cfClassId>
<cfClassSchemeId>-project-types-scheme-uuid</cfClassSchemeId>
</cfProj_Class>
<cfFedId>
<cfFedId>PROJECT NUMBER</cfFedId>
<cfClassId>project-number-uuid</cfClassId>
<cfClassSchemeId>-federated-identifier-type-uuid</cfClassSchemeId>
</cfFedId>
<cfProj_OrgUnit>
<cfOrgUnitId>orgunit-1-identifier</cfOrgUnitId>
<cfClassId>coordinator-uuid</cfClassId>
<cfClassSchemeId>orgunit-project-roles-scheme-uuid</cfClassSchemeId>
<cfStartDate>from-datetime</cfStartDate>
<cfEndDate>to-datetime</cfEndDate>
</cfProj_OrgUnit>
</cfProj>
</CERIF>
31. CERIF highlights
• Right level of abstraction
• Normalized model
– Record information only once
– Reference rather than copy
• Versatile Semantic Layer
• Time-based relationships
• Clean design, regular structure
www.eurocris.org
32. The CERIF Evolution
www.eurocris.orgwww.eurocris.org
EU
Working Group
on Research
Databases
Workshop
1987 1991
CERIF 91
PROJECT
Similar Ideas
UN/UNESCO
OECD
CODATA
Acronym: ERGO
Participant:
Keith Jeffery, Anne Asser
son, many more
Organisations:
Rutherford Appleton, Uni-
versity of Bergen, …
2000
CLASSIFICATION
RESULTS EQUIPMENT
PROJECT
OrgUnit PERSON
EXPERTISERoles
CERIF 2000 Model
- Networking of DBs
- Exchange of Records
- EC Recommendation to
Member States
- Data Model
- Multilinguality
- Controlled Vocabulary
- Roles / Types
- User-driven
- EC Recommendation to
Member States
ProjectProject
OrganisationOrganisation
Service
Funding Programme
Patent
Skills
CV
Product
Event
PersonPerson
Classification
(Semantics)
Classification
(Semantics)
Publication
Equipment
2ndLevel
Base
Language
Semantics
Link
CERIF 2006 / 2008
Model
- Data Model
- Model Normalization
- Robust/Consistent Structure
- Extensible Structure
- Semantic Layer
- XML Exchange Specification
- Elaboration on Publication
- CERIF Core Semantics (2008 1.2)
2006 2008 2012
Measurement GEO
Citation
CV
Prize
Qualification
ExpertiseAndSkills
Equipment
Facility
Funding
Service
ElectronicAddresse
PostalAddress
Country
CurrencyLanguage
Event
Metrics
ResultProduct
ResultPublication
ResultPatent ResultProduct
ResultPublicationResultPublication
ResultPatent
Person OrganisationUnit
Project
PersonPerson OrganisationUnitOrganisationUnit
ProjectProject
Indicator Measurement
2ndLevel
Base
CERIF 1.3
Semantics Language
Link
Infrastructure
- Data Model
- Infrastructure
- Facility, Equipment, Service
- Measurement & Indicator
- Entities and Link Tables
- Geographic Bounding Box
- CERIF 1.3 Vocabulary
- UUIDs
- Terms
- Schemes
- CERIF 1.4 new XML format
- CERIF 1.5 Federated Identifiers
- CERIF 1.6 Dataset-ready
CERIF 1.6
CERIF 1.5
CERIF 1.4 (XML)
CERIF 1.3
F
O
R
M
A
L
S
E
M
A
N
T
I
C
S
+ Linked
Data
2013
33. International Council for Science;
Commission on Data Access
European Association of Research
Managers and Administrators
All European Academies
www.eurocris.org
34. Cadeia de valor
07/11/2016 77
Serviços
Portal pesquisa
CV
Repositório
Institucional
etc
Infraestruturas
Organizações
Investigadores
Financiamento
Trabalhos
Quadro normativo
Ids
Pessoas, Orgs, Proj.,
public.
Semantica /
Vocabulário
Transporte
(XML)
Dados
Estrutura
Dados
Programa
Profile
35. Cadeia de valor
07/11/2016 78
Serviços
Portal pesquisa
CV
Repositório
etc
Infraestruturas
Base de dados
organizações
Base de dados
investigadores
Etc.
Quadro normativo
Ids
Pessoas, Orgs,
Proj., public.
Semantica Vocabulário
Modelo
dados
etc
Programa
Profile
36. The CERIF profile in the
OpenAIRE Guidelines
for CRIS Managers
Jan Dvořák
CERIF Task Group leader, euroCRIS
Charles University in Prague
InfoScience Praha
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
79
37. The Guidelines
Nikos Houssos, Brigitte Jörg, Jan Dvořák: OpenAIRE Guidelines
for CRIS Managers 1.0. June 2015. DOI 10.5281/zenodo.17065
Contents:
• Specification
• XML Schema
• Semantic vocabulary
• Examples
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
80
38. The OpenAIRE research
information interchange
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
82
CRIS OpenAIRE
Infrastructure
OpenAIRE CERIF
within
OAI-PMH
39. A CERIF profile
Profile:
A set of data elements in a research information interchange
scenario.
CERIF Profile:
• A subset of CERIF entities will be populated
• The populated entities will only be used for some of the
objects they represent in the full model
• Attributes are given more precise interpretations
• Only specific semantic terms are allowed as
types/statutes/roles
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
83
40. The OpenAIRE CERIF entities I
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
84
41. The OpenAIRE CERIF entities II
2.4
Organisation
(cfOrgUnit)
The CERIF entity cfOrganisationUnit (cfOrgUnit)
is used in the context of OpenAIRE to represent
research performing organizations producing
research results and/or involved in funded
projects (e.g. coordinators, participants), or
funder organisations.
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
85
Vs
An organization (or organisation - see spelling differences)
is a social group which distributes tasks for a collective goal.
The word itself is derived from the Greek word organon,
itself derived from the better-known word ergon - as we know `organ` -
and it means a compartment for a particular job.
Definition Source: http://en.wikipedia.org/wiki/Organization
42. The OpenAIRE CERIF Attributes
2.5 Project
(cfProj)
The CERIF entity cfProject (cfProj) in the context
of OpenAIRE is used to represent funded
projects.
Attributes Applicable Vocabularies Multiplicity
Internal Identifier
cfProj.cfProjId
1
Start Date
cfProj.cfStartDate
1
End Date
cfProj.cfEndDate
1
Acronym
cfProj.cfAcro
0..1
Title
cfProj.cfTitle
1
... ... ...
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
86
43. The OpenAIRE CERIF Semantics
2.1
Publication
(cfResPubl)
The CERIF entity cfResultPublication (cfResPubl) is used in the context of
OpenAIRE to represent research results that are considered text
publications. Metadata about scientific journals or other sources that
contain the research results are also represented using the cfResPubl
entity.
Attributes Applicable Vocabularies Multiplicity
Publication Type
cfResPubl.cfResPubl_Class
The range of allowed types is limited to the following terms:
- Book
- Anthology
- Monograph
- Encyclopedia
…
from the “Output Types” scheme.
1
Open Access Type
cfResPubl.cfResPubl_Class
The range of allowed types is limited to the following terms:
- Closed Access
- Embargoed Access
- Open Access
- Restricted Access
from the “Open Access Types” scheme.
1
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
87
44. The OpenAIRE CERIF Semantics
2.1
Publication
(cfResPubl)
…
Attributes Applicable Vocabularies Multiplicity
Federated
Identifiers
cfResPubl.cfFedId.cfFedId
(where the type of identifier is
given through
cfResPubl.cfFedId.cfFedId_Cla
ss)
The range of allowed identifier types is limited
to the following terms:
- DOI
- Handle
- PMCID
- ISI-Number
- SCP-Number
- ISSN
- ISBN
- URL
- URN
from the “Identifier Types” scheme.
0..N
euroCRISStrategicMembershipMeeting—November9-11,2015@Barcelona
89
Governos para a definição de políticas
Entidades financiadoras
Os editores que tratam e vendem as publicações científicas
A industria que procura inovar através de transferência de tecnologia
Governos para a definição de políticas
Entidades financiadoras
Os editores que tratam e vendem as publicações científicas
A industria que procura inovar através de transferência de tecnologia
Ao cumprirem essas três funções, o uso disseminado de um mesmo sistema de identificadores tem as seguintes vantagens:
Assim é necessário gerar identificadores institucionais que identifiquem as instituições de forma inequívoca e assim providenciem uma base simples que possibilita a troca de informação entre todos os seus atores, interactores, produtos etc, de modo que a informação não se disperse, havendo assim um mecanismo que agrega a informação por toda a cadeia, um modelo em que a passagem de informação tem um elemento condutor, um identificador único da organização ao qual estão associados elementos como nome, morada, outros identificadores usados por outras organizações (staff, equipamento, metadata?), etc, permitindo que a informação se mantenha atualizada e sem duplicações por toda a cadeia.
________________________
Original:
O uso de identificadores institucionais permite que se passe de um modelo em que a informação se dispersa, pois não há um mecanismo que a agregue por toda a cadeia de fornecedores, para um modelo em que a passagem de informação tem um elemento condutor, um identificador único da organização ao qual estão associados elementos como nome, morada, outros identificadores usados por outras organizações, etc, permitindo que a informação se mantenha atualizada e sem duplicações por toda a cadeia.
Muitas instituições tem nomes iguais ou mesmo semelhantes (por isso o nome não é um bom identificador)
Por outro lado, muitas instituições são conhecidas por mais do que 1 nome!
Ao cumprirem essas três funções, o uso disseminado de um mesmo sistema de identificadores tem as seguintes vantagens: