Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Aligner vos données avec Wikidata grâce à l'outil Open Refine

597 views

Published on

Tutoriel sous la forme d'un pas à pas pour aligner des données avec Wikidata grâce à l'outil Open Refine. Dans ce tutoriel, les données alignées proviennent de la plateforme HAL récupérées via le Sparql endpoint.

Published in: Technology
  • Be the first to comment

Aligner vos données avec Wikidata grâce à l'outil Open Refine

  1. 1. Aligner vos données avec Wikidata grâce à l’outil Open Refine Gautier Poupeau gautier.poupeau@gmail.com @lespetitescases http://www.lespetitescases.net
  2. 2. Présentation de l’outil Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... » • Outil créé en par David Huynh et Stefano Mazzochi au sein de la société Metaweb • S’est appelé « Griworks » puis « Google Refine » et enfin « Open Refine » • Depuis 2012 dans la communauté • La V3.0 est sortie officiellement le 16 septembre 2018 après plusieurs années sans sortie • Très apprécié dans le monde des bibliothèques • Open source Pour télécharger l’outil  http://openrefine.org/download.html
  3. 3. Les serveurs de réconciliation Open Refine •Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine- wikidata/fr/api •ORCID http://refine.codefork.com/reconcile/orcid et http://refine.codefork.com/reconcile/orcid/smartnames • VIAF http://refine.codefork.com/reconcile/viaf Outil de réconciliation Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF La requête SPARQL : https://data.archives-ouvertes.fr/sparql PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf <https://hal.inria.fr/INRIA>; dcterms:creator ?creator. ?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name. OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')} } GROUP BY ?person ?name ?same ORDER BY DESC(?nbs) LIMIT 300 https://bit.ly/2C3APY2 Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier- une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
  4. 4. Aller sur l’IHM du sparql endpoint de HAL https://data.archives-ouvertes.fr/sparql
  5. 5. Saisir la requête qui permet de retrouver les personnes qui vous intéressent
  6. 6. Récupérer l’URL de la requête dans la page de réponse
  7. 7. Aller sur le site https://meyerweb.com/eric/tools/dencoder/ pour encoder la requête conformément aux URLs Cliquer sur Encode
  8. 8. Récupérer la requête encodé conformément aux URLs
  9. 9. Modifier le paramètre query avec la chaîne encodée et le paramètre format avec la valeur « csv »
  10. 10. Lancer Open Refine et cliquer sur « Web address (URLs) »
  11. 11. Copier l’URL modifiée de la requête et cliquer sur « Next »
  12. 12. Après récupération des données, vous obtenez cette interface Cliquer ici pour modifier l’encodage des caractères
  13. 13. Choisir l’encodage « UTF-8 »
  14. 14. Avec le bon encodage…
  15. 15. Modifier le nom du projet et cliquer sur « Create project »
  16. 16. Vous pouvez augmenter le nombre de lignes affichées
  17. 17. Modifier un champ texte en nombre…
  18. 18. …pour permettre de faire une facette de nombres par exemple
  19. 19. Pour transformer une chaîne de caractères, cliquer sur « Transform »
  20. 20. pour afficher la boîte de manipulation des champs
  21. 21. et par exemple ici supprimer une partie de la chaîne de caractère
  22. 22. Et voilà le résultat
  23. 23. Vous pouvez renommer une colonne
  24. 24. Et voilà le résultat
  25. 25. Pour réconcilier/aligner vos données avec Wikidata, Orcid, VIAF…
  26. 26. L’interface de réconciliation s’affiche, vous pouvez ajouter un service de réconciliation
  27. 27. par exemple, la réconciliation avec des entrées Wikidata par leur étiquette en français
  28. 28. Vous cliquez sur le service ajouté
  29. 29. Vous pouvez préciser une propriété pour faciliter l’alignement Une auto-complétion permet de choisir sur quelle propriété aligner les valeurs de la colonne
  30. 30. Quand tout est prêt, vous pouvez cliquer sur le bouton « Start Reconciling »
  31. 31. Et le processus de réconciliation se lance en tâche de fond…
  32. 32. Lorsque le processus est terminé, les entrées alignées ont un lien et les autres ont des propositions
  33. 33. Pour choisir une proposition, il suffit de cliquer sur la coche En cliquant sur le lien, vous pouvez aller sur la pageEn cliquant sur la coche, vous sélectionnez l’entrée
  34. 34. Et voilà le résultat
  35. 35. Pour récupérer l’identifiant, il faut ajouter une colonne
  36. 36. Il faut entrer le nom de la nouvelle colonne et indiquer dans l’expression « cell.recon.match.id »
  37. 37. Et voilà le résultat
  38. 38. Si on veut à présent aligner avec ORCID…
  39. 39. Sélectionner les entrées qui n’ont pas déjà un ORCID, en créant une facette
  40. 40. En cliquant sur true, on sélectionne les lignes sans entrée ORCID
  41. 41. Il faut d’abord créer une autre colonne pour lancer la réconciliation
  42. 42. On donne un nouveau nom à la colonne et on clique sur « OK »
  43. 43. On relance l’interface de réconciliation sur la nouvelle colonne
  44. 44. On ajoute le service de réconciliation à l’adresse « http://refine.codefork.com/reconcile/orcid » puis on clique sur « Start Reconciling »
  45. 45. Le processus de réconciliation se lance
  46. 46. Et lorsqu’il aboutit, on retrouve la même interface que pour wikidata
  47. 47. Il est possible de créer de nouvelles colonnes avec des données provenant de Wikidata
  48. 48. Une boîte de dialogue s’ouvre pour pouvoir choisir la propriété à récupérer
  49. 49. En cliquant sur une propriété, vous pouvez voir une prévisualisation
  50. 50. puis le processus de récupération se lance
  51. 51. Et voilà le résultat après avoir filtré les entrées qui avaient une réponse
  52. 52. Une fois le travail terminé, vous pouvez exporter le résultat

×