SlideShare a Scribd company logo
1 of 21
Download to read offline
Utilisations de bases et référentiels ouverts
pour aider au pilotage de politiques
publiques
Exemple de ScanR et du Baromètre de la Science Ouverte
JABES
29 Mai 2019
Mai 2019Départements outils d’aide à la décision 1
Agenda
2Départements outils d’aide à la décision Mai 2019
■ Qui sommes nous ?
■ Comment avons nous construit ScanR et le Baromètre de la
Science Ouverte ?
■ Quels enseignements en avons nous tirés ?
Qui sommes nous ?
Mai 2019Départements outils d’aide à la décision 3
Qui sommes nous ? Notre philosophie …
4Départements outils d’aide à la décision Mai 2019
➔ On n’entretient pas de référentiel propre
○ mais (ré)utilisons, transformons, croisons les référentiels existants
➔ On ne produit pas directement de sources
○ mais on les structure, on les enrichit
➔ On partage le fruit de nos travaux (APIs, Open Data ..)
➔ Avec un positionnement transversal
○ Enseignement supérieur, recherche et d’innovation
○ public et privé
○ international
○ transdisciplinaire et transmétier (RH, finance, immobilier, brevets,
publications)
De la collecte d’informations à l’exposition
de services ouverts
5Départements outils d’aide à la décision Mai 2019
www
API
BDD
www
www
BDD
Collecte des données
➔ Identification des
sources
➔ Récupération des
données (stock et
mises à jour)
➔ Formats très
hétérogènes
Enrichissement et
croisement des données
➔ Ajout d’identifiants
(alignement)
➔ Croisement des
informations
concernant un
même objet
➔ Liaisons des objets
entre eux
Structuration de
l’information
➔ Extraction des
informations
➔ Normalisation
des informations
(schémas de
données)
Exposition de nouveaux
services ouverts
➔ Site web
➔ Widgets
➔ APIs
➔ Open Data
ScanR
Baromètre
Science Ouverte
dataESR
EESRI
...
Construction du Baromètre
de la Science Ouverte
Mai 2019Départements outils d’aide à la décision 6
Les Objectifs du Baromètre de la science ouverte
7Départements outils d’aide à la décision Mai 2019
Piloter la Science Ouverte en France
Engagement du 1er axe du Plan National pour la Science
Ouverte (Juillet 2018)
Mesurer régulièrement les tendances de l’Open
Access en France
- à partir de données ouvertes
- de façon décomposable (par champ disciplinaire
notamment)
- à partir de données interopérables et partageables
Baromètre de la science ouverte
Une méthodologie en 3 étapes
8Départements outils d’aide à la décision Mai 2019
1 - Identifier les publications avec une affiliation française
Approche en entonnoir: d’une liste la plus exhaustive de
publications vers une liste de publications “françaises”
(un auteur avec une affiliation FR)
2 - Enrichir les méta-données de ces publications
- Champ disciplinaire
- Ajout d’identifiants pour les auteurs et affiliations quand
c’est possible
3 - Déterminer quelles publications sont Open Access
- A partir du service Unpaywall (basé sur le DOI)
Baromètre de la science ouverte
Premiers résultats sur 2013 - 2017
9Départements outils d’aide à la décision Mai 2019
Taux Open Access par discipline en 2017
Evolution du taux Open Access 2013 - 2017
➔ Des résultats très hétérogènes entre champs
disciplinaires
➔ Le statut OA est dynamique : le délai de passage OA
+ délai d’observation crée un décalage expliquant le
léger repli de 2017
Baromètre de la science ouverte
Quels services utilisés ? Qu’avons nous dû construire ?
10Départements outils d’aide à la décision Mai 2019
Services et données utilisés
➔ Pour lister les publications et détecter leur statut
Open Access
➔ Pour lister des noms de personnes ayant (eu) une
affiliation française
➔ Pour bâtir une base de données d’apprentissage
➔ Pour identifier les publications
Ce que nous avons dû
construire
➔ Outil de détection des affiliations françaises
dans une page web (redirection DOI)
➔ Algorithme de machine learning pour inférer le
champ disciplinaire à partir du titre d’une
publication et de sa revue
Baromètre de la science ouverte
Quelles difficultés avons nous rencontrées ?
11Départements outils d’aide à la décision Mai 2019
➔ Accès à la donnée d’affiliations
○ Donnée peu disponible directement dans des sources ouvertes
○ Recours à des techniques d’analyse de pages web
⇒ Implique nécessairement des erreurs, mais que nous tentons de maîtriser en mesurant le taux
d’erreur (4% de faux positifs dans ce cas)
➔ Détection Open Access (basée sur Unpaywall et HAL)
○ Unpaywall aussi peut fournir un résultat erroné
○ Le statut Open Access peut varier dans le temps
(Closed → Open mais aussi Open → Closed)
⇒ Les résultats fournis sont des photos à un instant donné mais les chiffres peuvent évoluer, y compris
en historique
⇒ Nous tâcherons de mesurer la “vitesse” d’évolution : à quel rythme une publication devient-elle OA ?
➔ Publications sans DOI
○ Quelle(s) sources utiliser ? Quel identifiant ?
○ Comment repérer si OA ? (Unpaywall est basé sur les DOI)
⇒ Pour le moment nous nous restreignons aux publications avec un DOI
Construction de ScanR
Mai 2019Départements outils d’aide à la décision 12
Les Objectifs de ScanR
13Départements outils d’aide à la décision Mai 2019
➔ Rendre accessible à tous (sans contrôle d’accès) une vision du paysage des acteurs
français de la recherche (publics/privés, tous domaines) , via un moteur de
recherche combiné à des filtres (discipline, géographie …)
➔ Améliorer la pertinence des résultats avec une approche participative avec
modération : corrections, repérages complémentaires, suggestions de sites à
crawler, …
La 1ere version sortie en 2016 présente deux grands modes de restitution :
• « Fiche structure » : carte d’identité, listes d’objets (publications, projets) qui
sont reliés à la structure, visualisation du voisinage/relations
• « Vue synthétique » d’un ensemble de structures (répartition géographique,
disciplinaire/sectorielle, …)
La nouvelle version de ScanR prévue pour 2019
14Départements outils d’aide à la décision Mai 2019
➔ Les résultats du moteur de
recherche sont des Entités, mais
aussi des Personnes, Projets de
Recherche et Publications, qui,
chacun, ont une carte d’identité
➔ Mise en évidence des liens entre
ces objets
➔ Une nouvelle UI repensée en
multilingue (EN / FR)
➔ Des focus thématiques utilisant la
richesse de la base de données
ScanR
Quels services utilisés ? Qu’avons nous dû construire ?
15Départements outils d’aide à la décision Mai 2019
Services et données utilisés
Principales sources parmi les 60+ utilisées
➔ Référentiels de structures
➔ Référentiel de personnes
➔ Publications
➔ Projets
Ce que nous avons dû
construire
➔ Un outil de d’alignement pour les personnes au
sein du référentiel IdRef (avec utilisation des
co-contributeurs Sudoc pour aider à la
désambiguïsation)
⇒ Cela a notamment mis en lumière 14 000
personnes, avec une affiliation française, et sans
IdRef, permettant ainsi un double
enrichissement ScanR / IdRef
➔ Un méta-référentiel de structures, regroupant
RNSR, Sirene et Grid
➔ des tentatives d’alignement des structures au
sein de ce méta-référentiel
➔ Un moteur de recherche pour explorer ces
données et les liens entre elles au sein d’une
application web
Baromètre
Science Ouverte
ScanR
Quelles difficultés avons nous rencontrées ?
16Départements outils d’aide à la décision Mai 2019
➔ Il n’y a pas de référentiel global des entités de recherche (public et privé)
○ Nous avons eu recours à une combinaison de référentiels (RNSR, Sirene et Grid)
⇒ Impliquant donc un risque de doublons … et de “trou”
➔ La difficultés d’accès aux données est très variable suivant les sources
○ Des cas simples (Dump d’une BDD, API) ou plus coûteux selon les cas (web scraping, parsing …)
➔ L’alignement de données avec un référentiel est un exercice difficile
○ Très spécifique au type de données : alignement de personnes est très différent d’une méthode
d’alignement de structures par exemple
○ Nécessite des données contextuelles pour aider à la désambiguïsation
○ Pour le moment, les référentiels utilisés ne fournissent pas de service d’alignement ouvert
⇒ Un alignement automatique comment nécessairement des erreurs, coûteuses à contrôler
➔ Performance du moteur de recherche : comment aller au-delà du mot clé ?
➔ Produire une interface intuitive sans simplisme qui présente une grande
diversité de sources complexes interconnectées
Quels enseignements en
tirons nous ?
Mai 2019Départements outils d’aide à la décision 17
Pour nos usages, nos attentes vis à vis des référentiels
18Départements outils d’aide à la décision Mai 2019
➔ Un référentiel administré actif en matière de couverture, de qualité, et de suivi
historique
➔ Un référentiel riche d’un écosystème qui facilite sa réutilisation et son
intégration via des services
○ recherche mots clé, filtres
○ alignements
○ suggestions ...
➔ Un référentiel interconnecté avec d’autres référentiels, notamment
internationaux ou d’autres domaines (exemple SIRENE)
➔ Un référentiel ouvert
○ Code ouvert
○ Données ouvertes
○ Services ouverts
Un chantier prioritaire pour nos usages, l’alignement
19Départements outils d’aide à la décision Mai 2019
➔ Notre équipe a testé plusieurs approches :
○ règles de matching associée à une intervention humaine assistée
○ approche générique (machine à données) à partir d’un moteur de recherche
○ approche mixte
➔ Aucune n’est infaillible, et génère donc des erreurs
○ il faut tenter de mesurer ces erreurs
○ l’équilibre taux d’erreur / couverture de l’alignement est à arbitrer en
fonction de l’objectif de l’alignement
➔ Dans quelle mesure peut-on viser une approche participative ?
○ Pour corriger / enrichir les alignements faits ?
○ Pour contribuer à bâtir des briques pour des algorithmes d’alignement au
sein d’un écosystème ?
Conclusion
20Départements outils d’aide à la décision Mai 2019
➔ Nos attentes vis-à-vis des référentiels sont nombreuses
➔ Les référentiels ouverts sont d’autant plus utiles s’ils
bénéficient d’un écosystème de services ouverts ...
➔ … pour faciliter leur utilisation et amélioration par la
communauté …
➔ … favorisant en retour le référentiel lui-même sur le long
terme
Contacts
Emmanuel Weisenburger
emmanuel.weisenburger@recherche.gouv.fr
Eric Jeangirard
eric.jeangirard@recherche.gouv.fr
21Départements outils d’aide à la décision Mai 2019

More Related Content

Similar to Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"

Similar to Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique" (20)

Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
 
Guide Des Guides Pour La Planification Du Transfert Des Connaissances
Guide Des Guides Pour La Planification Du Transfert Des ConnaissancesGuide Des Guides Pour La Planification Du Transfert Des Connaissances
Guide Des Guides Pour La Planification Du Transfert Des Connaissances
 
Partenariat de recherche aurore slideshare
Partenariat de recherche aurore slidesharePartenariat de recherche aurore slideshare
Partenariat de recherche aurore slideshare
 
Projet hubble et Learning analytics 2015
Projet hubble et Learning analytics 2015Projet hubble et Learning analytics 2015
Projet hubble et Learning analytics 2015
 
Veille diaporama
Veille   diaporamaVeille   diaporama
Veille diaporama
 
IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
Partenariat de recherche aurore 2018
Partenariat de recherche aurore 2018Partenariat de recherche aurore 2018
Partenariat de recherche aurore 2018
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Veille documentaire, flux rss, agrégateurs de flux et social bookmarking
Veille documentaire, flux rss, agrégateurs de flux et social bookmarkingVeille documentaire, flux rss, agrégateurs de flux et social bookmarking
Veille documentaire, flux rss, agrégateurs de flux et social bookmarking
 
JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...
JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...
JABES 2016 - Focus sur les axes stratégiques de l’ABES - Réorganisation de l’...
 
Gestion, marketing et promotion d'archives ouvertes
Gestion, marketing et promotion d'archives ouvertesGestion, marketing et promotion d'archives ouvertes
Gestion, marketing et promotion d'archives ouvertes
 
Présentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille TechnologiquePrésentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille Technologique
 
Presentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonusPresentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonus
 
La politique d’aide aux revues scientifiques de l’InSHS : bonnes pratiques et...
La politique d’aide aux revues scientifiques de l’InSHS : bonnes pratiques et...La politique d’aide aux revues scientifiques de l’InSHS : bonnes pratiques et...
La politique d’aide aux revues scientifiques de l’InSHS : bonnes pratiques et...
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Stage pgd 2021-04-07
Stage pgd 2021-04-07Stage pgd 2021-04-07
Stage pgd 2021-04-07
 
Outils de veille et curation de contenu
Outils de veille et curation de contenuOutils de veille et curation de contenu
Outils de veille et curation de contenu
 
Forum du GFII paris 2013
Forum du GFII paris 2013Forum du GFII paris 2013
Forum du GFII paris 2013
 
Première rencontre Infolab Montpellier
Première rencontre Infolab MontpellierPremière rencontre Infolab Montpellier
Première rencontre Infolab Montpellier
 

More from ABES

Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
ABES
 

More from ABES (20)

FOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibreFOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibre
 
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
 
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
 
Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"
 
JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"
 
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
 
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
 
JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"
 
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
 
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels" JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
 
Jabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesJabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'Abes
 
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
 
Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2
 
Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1
 
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
 
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
 
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
 
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
 
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
 

Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"

  • 1. Utilisations de bases et référentiels ouverts pour aider au pilotage de politiques publiques Exemple de ScanR et du Baromètre de la Science Ouverte JABES 29 Mai 2019 Mai 2019Départements outils d’aide à la décision 1
  • 2. Agenda 2Départements outils d’aide à la décision Mai 2019 ■ Qui sommes nous ? ■ Comment avons nous construit ScanR et le Baromètre de la Science Ouverte ? ■ Quels enseignements en avons nous tirés ?
  • 3. Qui sommes nous ? Mai 2019Départements outils d’aide à la décision 3
  • 4. Qui sommes nous ? Notre philosophie … 4Départements outils d’aide à la décision Mai 2019 ➔ On n’entretient pas de référentiel propre ○ mais (ré)utilisons, transformons, croisons les référentiels existants ➔ On ne produit pas directement de sources ○ mais on les structure, on les enrichit ➔ On partage le fruit de nos travaux (APIs, Open Data ..) ➔ Avec un positionnement transversal ○ Enseignement supérieur, recherche et d’innovation ○ public et privé ○ international ○ transdisciplinaire et transmétier (RH, finance, immobilier, brevets, publications)
  • 5. De la collecte d’informations à l’exposition de services ouverts 5Départements outils d’aide à la décision Mai 2019 www API BDD www www BDD Collecte des données ➔ Identification des sources ➔ Récupération des données (stock et mises à jour) ➔ Formats très hétérogènes Enrichissement et croisement des données ➔ Ajout d’identifiants (alignement) ➔ Croisement des informations concernant un même objet ➔ Liaisons des objets entre eux Structuration de l’information ➔ Extraction des informations ➔ Normalisation des informations (schémas de données) Exposition de nouveaux services ouverts ➔ Site web ➔ Widgets ➔ APIs ➔ Open Data ScanR Baromètre Science Ouverte dataESR EESRI ...
  • 6. Construction du Baromètre de la Science Ouverte Mai 2019Départements outils d’aide à la décision 6
  • 7. Les Objectifs du Baromètre de la science ouverte 7Départements outils d’aide à la décision Mai 2019 Piloter la Science Ouverte en France Engagement du 1er axe du Plan National pour la Science Ouverte (Juillet 2018) Mesurer régulièrement les tendances de l’Open Access en France - à partir de données ouvertes - de façon décomposable (par champ disciplinaire notamment) - à partir de données interopérables et partageables
  • 8. Baromètre de la science ouverte Une méthodologie en 3 étapes 8Départements outils d’aide à la décision Mai 2019 1 - Identifier les publications avec une affiliation française Approche en entonnoir: d’une liste la plus exhaustive de publications vers une liste de publications “françaises” (un auteur avec une affiliation FR) 2 - Enrichir les méta-données de ces publications - Champ disciplinaire - Ajout d’identifiants pour les auteurs et affiliations quand c’est possible 3 - Déterminer quelles publications sont Open Access - A partir du service Unpaywall (basé sur le DOI)
  • 9. Baromètre de la science ouverte Premiers résultats sur 2013 - 2017 9Départements outils d’aide à la décision Mai 2019 Taux Open Access par discipline en 2017 Evolution du taux Open Access 2013 - 2017 ➔ Des résultats très hétérogènes entre champs disciplinaires ➔ Le statut OA est dynamique : le délai de passage OA + délai d’observation crée un décalage expliquant le léger repli de 2017
  • 10. Baromètre de la science ouverte Quels services utilisés ? Qu’avons nous dû construire ? 10Départements outils d’aide à la décision Mai 2019 Services et données utilisés ➔ Pour lister les publications et détecter leur statut Open Access ➔ Pour lister des noms de personnes ayant (eu) une affiliation française ➔ Pour bâtir une base de données d’apprentissage ➔ Pour identifier les publications Ce que nous avons dû construire ➔ Outil de détection des affiliations françaises dans une page web (redirection DOI) ➔ Algorithme de machine learning pour inférer le champ disciplinaire à partir du titre d’une publication et de sa revue
  • 11. Baromètre de la science ouverte Quelles difficultés avons nous rencontrées ? 11Départements outils d’aide à la décision Mai 2019 ➔ Accès à la donnée d’affiliations ○ Donnée peu disponible directement dans des sources ouvertes ○ Recours à des techniques d’analyse de pages web ⇒ Implique nécessairement des erreurs, mais que nous tentons de maîtriser en mesurant le taux d’erreur (4% de faux positifs dans ce cas) ➔ Détection Open Access (basée sur Unpaywall et HAL) ○ Unpaywall aussi peut fournir un résultat erroné ○ Le statut Open Access peut varier dans le temps (Closed → Open mais aussi Open → Closed) ⇒ Les résultats fournis sont des photos à un instant donné mais les chiffres peuvent évoluer, y compris en historique ⇒ Nous tâcherons de mesurer la “vitesse” d’évolution : à quel rythme une publication devient-elle OA ? ➔ Publications sans DOI ○ Quelle(s) sources utiliser ? Quel identifiant ? ○ Comment repérer si OA ? (Unpaywall est basé sur les DOI) ⇒ Pour le moment nous nous restreignons aux publications avec un DOI
  • 12. Construction de ScanR Mai 2019Départements outils d’aide à la décision 12
  • 13. Les Objectifs de ScanR 13Départements outils d’aide à la décision Mai 2019 ➔ Rendre accessible à tous (sans contrôle d’accès) une vision du paysage des acteurs français de la recherche (publics/privés, tous domaines) , via un moteur de recherche combiné à des filtres (discipline, géographie …) ➔ Améliorer la pertinence des résultats avec une approche participative avec modération : corrections, repérages complémentaires, suggestions de sites à crawler, … La 1ere version sortie en 2016 présente deux grands modes de restitution : • « Fiche structure » : carte d’identité, listes d’objets (publications, projets) qui sont reliés à la structure, visualisation du voisinage/relations • « Vue synthétique » d’un ensemble de structures (répartition géographique, disciplinaire/sectorielle, …)
  • 14. La nouvelle version de ScanR prévue pour 2019 14Départements outils d’aide à la décision Mai 2019 ➔ Les résultats du moteur de recherche sont des Entités, mais aussi des Personnes, Projets de Recherche et Publications, qui, chacun, ont une carte d’identité ➔ Mise en évidence des liens entre ces objets ➔ Une nouvelle UI repensée en multilingue (EN / FR) ➔ Des focus thématiques utilisant la richesse de la base de données
  • 15. ScanR Quels services utilisés ? Qu’avons nous dû construire ? 15Départements outils d’aide à la décision Mai 2019 Services et données utilisés Principales sources parmi les 60+ utilisées ➔ Référentiels de structures ➔ Référentiel de personnes ➔ Publications ➔ Projets Ce que nous avons dû construire ➔ Un outil de d’alignement pour les personnes au sein du référentiel IdRef (avec utilisation des co-contributeurs Sudoc pour aider à la désambiguïsation) ⇒ Cela a notamment mis en lumière 14 000 personnes, avec une affiliation française, et sans IdRef, permettant ainsi un double enrichissement ScanR / IdRef ➔ Un méta-référentiel de structures, regroupant RNSR, Sirene et Grid ➔ des tentatives d’alignement des structures au sein de ce méta-référentiel ➔ Un moteur de recherche pour explorer ces données et les liens entre elles au sein d’une application web Baromètre Science Ouverte
  • 16. ScanR Quelles difficultés avons nous rencontrées ? 16Départements outils d’aide à la décision Mai 2019 ➔ Il n’y a pas de référentiel global des entités de recherche (public et privé) ○ Nous avons eu recours à une combinaison de référentiels (RNSR, Sirene et Grid) ⇒ Impliquant donc un risque de doublons … et de “trou” ➔ La difficultés d’accès aux données est très variable suivant les sources ○ Des cas simples (Dump d’une BDD, API) ou plus coûteux selon les cas (web scraping, parsing …) ➔ L’alignement de données avec un référentiel est un exercice difficile ○ Très spécifique au type de données : alignement de personnes est très différent d’une méthode d’alignement de structures par exemple ○ Nécessite des données contextuelles pour aider à la désambiguïsation ○ Pour le moment, les référentiels utilisés ne fournissent pas de service d’alignement ouvert ⇒ Un alignement automatique comment nécessairement des erreurs, coûteuses à contrôler ➔ Performance du moteur de recherche : comment aller au-delà du mot clé ? ➔ Produire une interface intuitive sans simplisme qui présente une grande diversité de sources complexes interconnectées
  • 17. Quels enseignements en tirons nous ? Mai 2019Départements outils d’aide à la décision 17
  • 18. Pour nos usages, nos attentes vis à vis des référentiels 18Départements outils d’aide à la décision Mai 2019 ➔ Un référentiel administré actif en matière de couverture, de qualité, et de suivi historique ➔ Un référentiel riche d’un écosystème qui facilite sa réutilisation et son intégration via des services ○ recherche mots clé, filtres ○ alignements ○ suggestions ... ➔ Un référentiel interconnecté avec d’autres référentiels, notamment internationaux ou d’autres domaines (exemple SIRENE) ➔ Un référentiel ouvert ○ Code ouvert ○ Données ouvertes ○ Services ouverts
  • 19. Un chantier prioritaire pour nos usages, l’alignement 19Départements outils d’aide à la décision Mai 2019 ➔ Notre équipe a testé plusieurs approches : ○ règles de matching associée à une intervention humaine assistée ○ approche générique (machine à données) à partir d’un moteur de recherche ○ approche mixte ➔ Aucune n’est infaillible, et génère donc des erreurs ○ il faut tenter de mesurer ces erreurs ○ l’équilibre taux d’erreur / couverture de l’alignement est à arbitrer en fonction de l’objectif de l’alignement ➔ Dans quelle mesure peut-on viser une approche participative ? ○ Pour corriger / enrichir les alignements faits ? ○ Pour contribuer à bâtir des briques pour des algorithmes d’alignement au sein d’un écosystème ?
  • 20. Conclusion 20Départements outils d’aide à la décision Mai 2019 ➔ Nos attentes vis-à-vis des référentiels sont nombreuses ➔ Les référentiels ouverts sont d’autant plus utiles s’ils bénéficient d’un écosystème de services ouverts ... ➔ … pour faciliter leur utilisation et amélioration par la communauté … ➔ … favorisant en retour le référentiel lui-même sur le long terme