Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Présentation	des	évolutions	2017
20	septembre	2017,	Villeurbanne
Yannick	Barborini,	Christine	Berthaud,	Sarah	Denoux,	Raph...
Plan
• Nouvelle interface de dépôt
• API d’affiliation
• Littérature citée dans les documents
• Le portail data.archives-o...
Nouvelle	interface	de	dépôt
Déposez	votre	fichier,	HAL	fait	(presque)	le	reste
Les	objectifs
• Plusieurs constats :
• 1 seul fichier pour 467 000 sur 555 000 depôt avec fichiers (~85%)
• 42 000 avec 2 ...
Les	principes	de	l’interface
• 1 seule page dans laquelle on
navigue
• navigation + libre entre les étapes
• navigation + ...
Les	principes	de	l’interface
• 2 vues : Simple / Détaillée pour chaque étape
Les	principes	de	l’interface
• Seules les métadonnées obligatoires sont affichées par défaut
• + de préférences de dépôt d...
Validité	du	dépôt
• Seules les métadonnées nécessaires à la citation sont
obligatoires
• Pour consulter la liste en foncti...
Les	nouvelles	métadonnées
• A paraître : choix d’une date de publication OU a paraître
Article dans une revue, Ouvrage, Ch...
Schéma	du	dépôt
La	récupération	des	métadonnées
Système	de	notifications
• Une notification est
envoyée à tous les
co-auteurs, référents
structure et
administrateurs de
p...
Partage	de	propriété	avec	les	co-auteurs
• Le partage de propriété est automatique pour les co-auteurs identifiés
API	d’affiliation
API	Affiliation
Pourquoi	une	API	affiliation	?
• Améliorer la détection des auteurs/structures
• Éviter la création de doublons
• Simplifi...
Algorithme
• Récupération du développement Laurence Farhi (DSI-INRIA)
pour Bib2HAL / X2HAL
• Adaptation dans le contexte d...
Quelles	données	utiliser	?
GROBID
Métadonnées
avec Identifiants
Auteurs + dates :
Métadonnées récupérées du PDF
Auteurs + ...
Paramètres	de	l’API
En entrée :
• Une forme Auteur (nom + prénom + email)
• Date de publication
• Une ou plusieurs affilia...
Cas	1	:	pas	d’affiliation
1. Recherche de documents dans HAL correspondant à la forme
auteur
2. Recherche dans la TEI des ...
Cas	2	:	Avec	affiliations
1. Recherche de documents dans HAL correspondant à la forme
auteur avec les mêmes affiliations
2...
Score	des	résultats
Calc_Certain
Calc_TresProbable
Calc_Probable
Calc_Possible
du	plus	certain	au	moins	sûr
Démo	Auteur	Nom	+	Prénom
https://api-preprod.archives-ouvertes.fr/ref/affiliation/?lastName_t=Frezza-Buet&firstName_t=Hervé
Démo	Auteur	Nom	+	Prénom	+	année
https://api-preprod.archives-ouvertes.fr/ref/affiliation/?lastName_t=Frezza-
Buet&firstNa...
Démo	Auteur	Nom	+	Prénom	+	affiliation	trouvée
/ref/affiliation/?lastName_t=pierrel&firstName_t=Jean-Marie&structName_t=at...
Démo	Auteur	Nom	+	Prénom	+	affiliation	NON	
trouvée
• /ref/affiliation/?lastName_t=Petit&firstName_t=Jean&structName_t=ccsd
Perspectives
• Création d’un projet commun DSI-INRIA/CCSD
• Amélioration de l’algorithme
• Ouverture du code
Littérature	citée	dans	les	
documents
Naviguez,	identifiez,	téléchargez
Objectif
• Mise à disposition de la littérature citée présente dans les
fichiers PDF déposés dans HAL.
• Faciliter l'accès...
Fonctionnement
Dépôt	
dans	HAL
GROBID Citations	
non	analysées
Recherche
dans	HAL
Citations	
analysées
Recherche
De	DOI
Re...
Affichage	de	la	littérature	citée
• Dans	la	fiche	d’un	document
• Dans	l’export	TEI
Edition	/	Complétion
Possibilité d’éditer et de compléter la liste des citations analysée.
- Pour le déposant
- Pour les c...
data.archives-ouvertes.fr
Un	grand	pas	vers	le	web	sémantique
Le	portail	data.archives-ouvertes.fr
https://data.archives-ouvertes.fr
• Accès aux données de l’archive ouverte HAL et des...
RDF	- Resource	Description	Framework	
• Langage de base du Web Sémantique
• Standard développé par le W3C https://www.w3.o...
Triplet	RDF
• Unité de données la plus petite contenue dans un graphe RDF
• Permet de décrire un objet, document
Sujet, Pr...
Triplet	RDF	- exemples
Sujet, Prédicat, Objet
• Le document hal-00000001v2 est de type article
• Le document hal-00000001v...
Syntaxe	N3
• <https://data.archives-ouvertes.fr/document/hal-00000001v2>
<http://purl.org/dc/terms/type> <https://data.arc...
Représentation	sous	forme	de	graphe
<hal-00000001v2>
<Article> <hal-00296897>
"Do	we	really	understand	
quantum	mechanics?...
Vocabulaires	et	Ontologies
FaBiO
FOAF
Description	de	Thésaurus
Description	de	personne
Description	de	Types	de	documents
D...
Le	contenu	du	Triplestore
• Un graphe par référentiel d’AURéHAL
• Auteurs : https://data.archives-ouvertes.fr/author
• Str...
Les	Auteurs
Namespaces
foaf: <http://xmlns.com/foaf/0.1/>
owl: <http://www.w3.org/2002/07/owl#>
skos: <http://www.w3.org/2...
Les	identifiants	IDHAL
Namespaces
hal:	<http://data.archives-ouvertes.fr/schema/>
foaf:	<http://xmlns.com/foaf/0.1/>
owl:	...
Les	Structures
Namespaces
hal:	<http://data.archives-ouvertes.fr/schema/>
org:	<http://www.w3.org/ns/org#>
owl:	<http://ww...
Les	Types	de	document
Namespaces
dc:	<http://purl.org/dc/elements/1.1/>
owl:	<http://www.w3.org/2002/07/owl#>
rdfs:	<http:...
Les	Disciplines	Scientifiques
Namespaces
dc:	<http://purl.org/dc/elements/1.1/>
dcterms:	<http://purl.org/dc/terms/>
skos:...
Les	Revues
Namespaces
dcterms:	<http://purl.org/dc/terms/>
fabio:	<http://purl.org/spar/fabio/>
prism:	<http://prismstanda...
Les	projets	ANR	et	européens
Namespaces
cerif:	<http://www.eurocris.org/ontologies/cerif/1.3/>
cerif:title
cerif:startDate...
dcterms: bibliographicCitation
dcterms:identifier
Identifiants
ext.
xsd:string
Citation
xsd:string
Identifiant(s)
xsd:stri...
Interrogation	du	Triplestore
• Via le langage SPARQL
• Via le SPARQL endpoint
• https://data.archives-ouvertes.fr/sparql
•...
Autres	nouveautés
AuréHAL	– 6	niveaux	de	structures
Authentification	ORCID
• Conditions
• Création d’un compte
HAL
• Création d’un IDHAL
• Avoir un compte ORCID
• Association...
Evolutions	du	dépôt	SWORD
Header	onBehalfOf
• Plus de limitation au login HAL.
• Accepte les différents identifants HAL ai...
Evolutions	du	dépôt	SWORD
Ajout	du	texte	intégral	sur	une	notice
• Permet de compléter une notice HAL avec le texte intégr...
Nouvelle	documentation
https://doc.archives-ouvertes.fr/
GitLab	au	CCSD
https://gitlab.ccsd.cnrs.fr
• Dans la perspective de la mise en Open Source du code de
HAL
• Mise à disposi...
Dépôt	de	Logiciels
• Nouveau type de document accepté dans HAL
• Présent dans un premier temps sur le portail HAL-INRIA pu...
Upcoming SlideShare
Loading in …5
×

Les évolutions de HAL : présentation du 20 septembre 2017

9,831 views

Published on

Slides utilisés pour la présentation des nouveautés de HAL. 20 septembre 2017 : Nouvelle interface de dépôt, API affiliation, Affichage de la littérature citée et Portail data.archives-ouvertes.fr (Triple store)

Published in: Science
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Les évolutions de HAL : présentation du 20 septembre 2017

  1. 1. Présentation des évolutions 2017 20 septembre 2017, Villeurbanne Yannick Barborini, Christine Berthaud, Sarah Denoux, Raphael Tournoy
  2. 2. Plan • Nouvelle interface de dépôt • API d’affiliation • Littérature citée dans les documents • Le portail data.archives-ouvertes.fr • Autres nouveautés
  3. 3. Nouvelle interface de dépôt Déposez votre fichier, HAL fait (presque) le reste
  4. 4. Les objectifs • Plusieurs constats : • 1 seul fichier pour 467 000 sur 555 000 depôt avec fichiers (~85%) • 42 000 avec 2 fichiers (~8%) • Peu de métadonnées remplies • Faciliter la procédure de dépôt par les chercheurs + rapide (moins de clics) + ergonomique / visuellement épuré • Conserver la qualité des métadonnées • Conserver une familiarité avec l’interface existante
  5. 5. Les principes de l’interface • 1 seule page dans laquelle on navigue • navigation + libre entre les étapes • navigation + rapide • Mise en avant de la récupération automatique des métadonnées • à partir du PDF • à partir d’un identifiant (DOI, arXiv, etc)
  6. 6. Les principes de l’interface • 2 vues : Simple / Détaillée pour chaque étape
  7. 7. Les principes de l’interface • Seules les métadonnées obligatoires sont affichées par défaut • + de préférences de dépôt dans le profil utilisateur
  8. 8. Validité du dépôt • Seules les métadonnées nécessaires à la citation sont obligatoires • Pour consulter la liste en fonction des types de document : • https://doc.archives-ouvertes.fr/deposer/ • 1 affiliation obligatoire
  9. 9. Les nouvelles métadonnées • A paraître : choix d’une date de publication OU a paraître Article dans une revue, Ouvrage, Chapitre d’Ouvrage, Direction d’Ouvrage • Type de la publication (Article de blog, Notice de dictionnaire, etc) Autre Publication
  10. 10. Schéma du dépôt
  11. 11. La récupération des métadonnées
  12. 12. Système de notifications • Une notification est envoyée à tous les co-auteurs, référents structure et administrateurs de portail identifiés sauf s’ils sont déposant de l’article ou qu’ils ont choisi de ne pas les recevoir.
  13. 13. Partage de propriété avec les co-auteurs • Le partage de propriété est automatique pour les co-auteurs identifiés
  14. 14. API d’affiliation
  15. 15. API Affiliation
  16. 16. Pourquoi une API affiliation ? • Améliorer la détection des auteurs/structures • Éviter la création de doublons • Simplifier le dépôt • Trouver la meilleure forme auteur • Trouver la meilleure affiliation
  17. 17. Algorithme • Récupération du développement Laurence Farhi (DSI-INRIA) pour Bib2HAL / X2HAL • Adaptation dans le contexte de HAL • Code ré-intégré dans HAL sous forme d’API publique
  18. 18. Quelles données utiliser ? GROBID Métadonnées avec Identifiants Auteurs + dates : Métadonnées récupérées du PDF Auteurs + affiliations + dates : + autres API…
  19. 19. Paramètres de l’API En entrée : • Une forme Auteur (nom + prénom + email) • Date de publication • Une ou plusieurs affiliation(s) potentielle(s)
  20. 20. Cas 1 : pas d’affiliation 1. Recherche de documents dans HAL correspondant à la forme auteur 2. Recherche dans la TEI des formes auteurs les plus probables + leurs affiliations correspondantes
  21. 21. Cas 2 : Avec affiliations 1. Recherche de documents dans HAL correspondant à la forme auteur avec les mêmes affiliations 2. Si on trouve des documents correspondants, on cherche dans la TEI l'auteur avec la bonne affiliation 3. Sinon, si pas de document trouvé on cherche l’affiliation toute seule
  22. 22. Score des résultats Calc_Certain Calc_TresProbable Calc_Probable Calc_Possible du plus certain au moins sûr
  23. 23. Démo Auteur Nom + Prénom https://api-preprod.archives-ouvertes.fr/ref/affiliation/?lastName_t=Frezza-Buet&firstName_t=Hervé
  24. 24. Démo Auteur Nom + Prénom + année https://api-preprod.archives-ouvertes.fr/ref/affiliation/?lastName_t=Frezza- Buet&firstName_t=Hervé&producedDate_s=2012
  25. 25. Démo Auteur Nom + Prénom + affiliation trouvée /ref/affiliation/?lastName_t=pierrel&firstName_t=Jean-Marie&structName_t=atilf
  26. 26. Démo Auteur Nom + Prénom + affiliation NON trouvée • /ref/affiliation/?lastName_t=Petit&firstName_t=Jean&structName_t=ccsd
  27. 27. Perspectives • Création d’un projet commun DSI-INRIA/CCSD • Amélioration de l’algorithme • Ouverture du code
  28. 28. Littérature citée dans les documents Naviguez, identifiez, téléchargez
  29. 29. Objectif • Mise à disposition de la littérature citée présente dans les fichiers PDF déposés dans HAL. • Faciliter l'accès au fulltext des documents cités • Utilisation de GROBID (GeneRation Of BIbliographic Data) https://github.com/kermitt2/grobid • Traitement effectué sur les 537 000 PDF
  30. 30. Fonctionnement Dépôt dans HAL GROBID Citations non analysées Recherche dans HAL Citations analysées Recherche De DOI Recherche version Open Access Document trouvé Document Non trouvé
  31. 31. Affichage de la littérature citée • Dans la fiche d’un document • Dans l’export TEI
  32. 32. Edition / Complétion Possibilité d’éditer et de compléter la liste des citations analysée. - Pour le déposant - Pour les co-propriétaires - Pour les référents laboratoires
  33. 33. data.archives-ouvertes.fr Un grand pas vers le web sémantique
  34. 34. Le portail data.archives-ouvertes.fr https://data.archives-ouvertes.fr • Accès aux données de l’archive ouverte HAL et des référentiels AuréHAL • Triplestore : Base de données contenant des données RDF • Triplestore utilisé : Virtuoso https://virtuoso.openlinksw.com/
  35. 35. RDF - Resource Description Framework • Langage de base du Web Sémantique • Standard développé par le W3C https://www.w3.org/RDF/ • Modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de ces descriptions • Un document structuré en RDF est un ensemble de triplets
  36. 36. Triplet RDF • Unité de données la plus petite contenue dans un graphe RDF • Permet de décrire un objet, document Sujet, Prédicat, Objet • Sujet : ressource à décrire • Prédicat : type de propriété, relation • Objet : valeur de la propriété
  37. 37. Triplet RDF - exemples Sujet, Prédicat, Objet • Le document hal-00000001v2 est de type article • Le document hal-00000001v2 a comme titre « Do we really understand quantum mechanics? » • Le document hal-00000001v2 cite le document hal-00296897
  38. 38. Syntaxe N3 • <https://data.archives-ouvertes.fr/document/hal-00000001v2> <http://purl.org/dc/terms/type> <https://data.archives- ouvertes.fr/doctype/Article> . • <https://data.archives-ouvertes.fr/document/hal-00000001v2> <http://purl.org/dc/terms/title> "Do we really understand quantum mechanics?"@en . • <https://data.archives-ouvertes.fr/document/hal-00000001v2> <http://purl.org/dc/terms/references> <https://data.archives- ouvertes.fr/document/hal-00296897> . • Autres formats disponibles : XML/RDF, Turtle, N3, JSON
  39. 39. Représentation sous forme de graphe <hal-00000001v2> <Article> <hal-00296897> "Do we really understand quantum mechanics?"@en dcterms:type dcterms:title dcterms:reference
  40. 40. Vocabulaires et Ontologies FaBiO FOAF Description de Thésaurus Description de personne Description de Types de documents Description de Documents Description de métadonnées
  41. 41. Le contenu du Triplestore • Un graphe par référentiel d’AURéHAL • Auteurs : https://data.archives-ouvertes.fr/author • Structures : https://data.archives-ouvertes.fr/structure • Types de documents : https://data.archives-ouvertes.fr/doctype • Disciplines scientifiques : https://data.archives-ouvertes.fr/subject • Revues : https://data.archives-ouvertes.fr/revue • Projets ANR : https://data.archives-ouvertes.fr/anrProject • Projets européens : https://data.archives-ouvertes.fr/europeanProject • Un graphe pour les documents de HAL • https://data.archives-ouvertes.fr/document
  42. 42. Les Auteurs Namespaces foaf: <http://xmlns.com/foaf/0.1/> owl: <http://www.w3.org/2002/07/owl#> skos: <http://www.w3.org/2004/02/skos/core#> ore: <http://www.openarchives.org/ore/terms/> ore:isAggregatedBy owl:sameAs foaf:interest foaf:name foaf:firstName Nom xsd:string Nom complet xsd:string Prénom xsd:string foaf:familyName Adresse mail xsd:string foaf:mbox_shaIsum Mots clés xsd:string foaf:topic_interest foaf:member Site perso xsd:string foaf:homepage Auteur foaf:Person Idhal URI ORCID, IDREF, … URI Domaine scientifique URI Etab. Appartenance URI
  43. 43. Les identifiants IDHAL Namespaces hal: <http://data.archives-ouvertes.fr/schema/> foaf: <http://xmlns.com/foaf/0.1/> owl: <http://www.w3.org/2002/07/owl#> ore: <http://www.openarchives.org/ore/terms/> ore:aggregates owl:sameAs foaf:name foaf:firstName Nom xsd:string Nom complet xsd:string Prénom xsd:string foaf:familyName Adresse mail xsd:string foaf:mbox_sha1sum foaf:publications Identifiants externes xsd:string hal:iderf hal:orcid hal:researcherid hal:viaf hal:isni IdHAL foaf:Person Formes auteurs URI Publications URI ORCID, IDREF, … URI
  44. 44. Les Structures Namespaces hal: <http://data.archives-ouvertes.fr/schema/> org: <http://www.w3.org/ns/org#> owl: <http://www.w3.org/2002/07/owl#> skos: <http://www.w3.org/2004/02/skos/core#> vcard: <http://www.w3.org/2006/vcard/ns#> skos:prefLabel skos:altLabel Adresse xsd:string Nom xsd:string Acronyme xsd:string org:siteAddress Code Structure xsd:string dc:identifier Identifiant externe xsd:string hal:rnsr hal:idref hal:isni org:classification org:unitOf vcard:url vcard:country-name owl:sameAs hal:status Structure org:Organization Structure supérieure URI RNSR URI IdRef URI owl:sameAs Pays URI Web site URI Type de structure URI Statut URI
  45. 45. Les Types de document Namespaces dc: <http://purl.org/dc/elements/1.1/> owl: <http://www.w3.org/2002/07/owl#> rdfs: <http://www.w3.org/2000/01/rdf-schema#> skos: <http://www.w3.org/2004/02/skos/core#> dc:identifier skos:prefLabel Code xsd:string Label xsd:string owl:sameAs ou rdfs:seeAlso owl:sameAs ou rdfs:seeAlso owl:sameAs ou rdfs:seeAlso skos:inScheme Type de dépôt skos:Concept Schéma URI Fabio URI Bibo URI COAR URI
  46. 46. Les Disciplines Scientifiques Namespaces dc: <http://purl.org/dc/elements/1.1/> dcterms: <http://purl.org/dc/terms/> skos: <http://www.w3.org/2004/02/skos/core#> skos:prefLabel dc:identifier Code arXiv xsd:string Label xsd:string Code xsd:string dcterms:identifier skos:inScheme skos:broader skos:narrower Domaine skos:Concept Schéma URI Domaine général URI Domaine précis URI
  47. 47. Les Revues Namespaces dcterms: <http://purl.org/dc/terms/> fabio: <http://purl.org/spar/fabio/> prism: <http://prismstandard.org/namespaces/basic/2.0/> skos: <http://www.w3.org/2004/02/skos/core#> vcard: <http://www.w3.org/2006/vcard/ns#> dcterms:publisher skos:prefLabel skos:altLabel ISSN xsd:string Label xsd:string Acronyme xsd:string prism:issn eISSN xsd:string prism:eIssn URL URI prism:url vcard:organization-name Label xsd:string Revue fabio:Journal Editeur vcard:Organiz ation
  48. 48. Les projets ANR et européens Namespaces cerif: <http://www.eurocris.org/ontologies/cerif/1.3/> cerif:title cerif:startDate Descriptif xsd:string Label xsd:string Année xsd:string cerif:abstract Acronyme xsd:string cerif:acronym Identifiant URI cerif:internalIdentifier Projet cerif:Project
  49. 49. dcterms: bibliographicCitation dcterms:identifier Identifiants ext. xsd:string Citation xsd:string Identifiant(s) xsd:string DOI xsd:string Titre URI Document fabio:Document hal:arXivId hal:pmcid hal:pubmed bibo:doi Document URI dcterms:isVersionOf Contributeur foaf:Person dcterms:contributor foaf:name foaf:firstname Nom xsd:string Prénom xsd:string DOI xsd:string Typdoc URI dcterms:type dcterms:title Sous titre URI dcterms:alternative Résumé URI dcterms:abstract Discipline URI hal:topic Langue URIdcterms:language Projet URI dcterms:source Auteur hal:Author dcterms:creator Personne URI Laboratoire URI hal:person hal:structure Les documents
  50. 50. Interrogation du Triplestore • Via le langage SPARQL • Via le SPARQL endpoint • https://data.archives-ouvertes.fr/sparql • Synchronisation quotidienne du triplestore avec HAL / AuréHAL • Création mensuelle d’une archive ZIP téléchargeable des données RDF prefix foaf: <http://xmlns.com/foaf/0.1/> select distinct ?name where { ?s a foaf:Person . ?s foaf:topic_interest "TEI" . ?s foaf:name ?name }
  51. 51. Autres nouveautés
  52. 52. AuréHAL – 6 niveaux de structures
  53. 53. Authentification ORCID • Conditions • Création d’un compte HAL • Création d’un IDHAL • Avoir un compte ORCID • Association de l’IDHAL avec l’ORCID
  54. 54. Evolutions du dépôt SWORD Header onBehalfOf • Plus de limitation au login HAL. • Accepte les différents identifants HAL ainsi que les identifiants externes • Documentation : https://api.archives-ouvertes.fr/docs/sword login|marvin uid|42 idhal|arthur-dent ORCID|0000-0002-9079-593X
  55. 55. Evolutions du dépôt SWORD Ajout du texte intégral sur une notice • Permet de compléter une notice HAL avec le texte intégral • Dépôt classique SWORD avec le texte intégral (URL ou fichier associé) • Doublon non détecté : dépôt normal • Doublon detecté : • ajout du texte intégral • conservation des métadonnées de la notice • ajout des métadonnées supplémentaires
  56. 56. Nouvelle documentation https://doc.archives-ouvertes.fr/
  57. 57. GitLab au CCSD https://gitlab.ccsd.cnrs.fr • Dans la perspective de la mise en Open Source du code de HAL • Mise à disposition des nouveaux services • Portail data.archives-ouvertes.fr • API d’affiliation
  58. 58. Dépôt de Logiciels • Nouveau type de document accepté dans HAL • Présent dans un premier temps sur le portail HAL-INRIA puis déployé sur HAL (et autres portails s’ils le souhaitent) • Collaboration avec Software Heritage • Projet, à l'initiative d'Inria, qui a pour objectif de collecter, organiser, préserver, et rendre accessible, à tous, le code source de tous les logiciels disponibles. • Transfert possible des logiciels sur Software Heritage

×