Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la r...
Objectifs :
 Créer et alimenter des corpus qui font sens.
 Les réunir autour d’une problématique commune pour
parvenir à...
– Campus Condorcet (coordinateur)
– Bibliothèque nationale de France
– CESR, Tours (UMR 7323)
– CIHAM, Lyon-Avignon (UMR 5...
• Un projet sur 7 ans (2012-2019)
• 100 chercheurs et ingénieurs
• environ 45 contrats / an
• une “équipe portail”: 5 pers...
une cinquantaine de projets
scientifiques et techniques
Engranger, créer, exposer des données
à une grande échelle et à di...
une infrastructure numérique
créer un système
de gestion et d’analyse des données historiques pour
donner un accès simple
...
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la r...
mission accomplie : le portail
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investiss...
10 423 manuscrits
18 557 imprimés
anciens
6 659 éditions
5 249 œuvres
5 178 collections
7 094 personnes
1 642 collectivité...
http://beta.biblissima.fr/
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissemen...
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la r...
Alimenter et maintenir via OpenRefine un fichier de
fusion et de normalisation de toutes les cotes
présentes dans les diff...
Alimenter et maintenir via OpenRefine un fichier de
fusion et de normalisation de toutes les cotes
présentes dans les diff...
Ces formes canoniques et ces identifiants sont
ensuite injectés grâce à des scripts dans les exports
XML pivot de chaque b...
Au moment de l'import des données dans le portail
Biblissima, Cubicweb se base sur ces identifiants
pour fusionner les inf...
Au moment de l'import des données dans le portail
Biblissima, Cubicweb se base sur ces identifiants
pour fusionner les inf...
Ce référentiel est accessible en bout de chaîne sur
le portail à travers le point d'entrée « Manuscrits et
imprimés ancien...
Sous une forme structurée, ce référentiel pourrait se
composer des éléments suivants (quand la cote existe)
:
 forme cano...
Quelques chiffres :
— Medium (IRHT) : 80 000 cotes
(tous pays, diverses langues)
mapping avec les 258 000
citations de man...
Step by step
1. Harmonisation et nettoyage au sein de Bibale et de Medium
(terminé)
 liste des manuscrits sans ID Medium ...
Step by step
2. Harmoniser Bibale / Pinakes / Jonas / Medium en ce qui
concerne les cotes BnF
(dans le but de lister toute...
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour ...
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour ...
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour ...
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour ...
http://beta.biblissima.fr/
http://www.biblissima-condorcet.fr/
merci à
eduard.frunzeanu@biblissima-condorcet.fr
benedicte....
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de m...
Upcoming SlideShare
Loading in …5
×

Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

294 views

Published on

Présentation d'Anne-Marie Turcan-Verkerk, Eduard Frunzeanu, Bénédicte Giffard et Régis Robineau. Journées d'étude "Manuscript IDs – Identifiants des manuscrits" (IRHT, Paris, 26-27 avril 2017)

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

  1. 1. Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007. Artefacts attestés et conservés, cotes historiques, factices, actuelles… pour la création d'un référentiel (et d’un ISMSN ? International Standard Manuscript Shelfmark Number) Eduard Frunzeanu, Bénédicte Giffard, Régis Robineau avec la collaboration d’Anne-Marie Turcan-Verkerk
  2. 2. Objectifs :  Créer et alimenter des corpus qui font sens.  Les réunir autour d’une problématique commune pour parvenir à une masse de données significative.  Permettre leur interrogation conjointe,  et leur réutilisation. Bibliotheca bibliothecarum novissima équipement de données sur la transmission des textes anciens
  3. 3. – Campus Condorcet (coordinateur) – Bibliothèque nationale de France – CESR, Tours (UMR 7323) – CIHAM, Lyon-Avignon (UMR 5648) – CRAHAM, Caen (UMR 6273) – Ecole nationale des chartes, CJM (EA 3624) – Ecole Pratique des Hautes Etudes, SAPRAT (EA 4116) – Institut de recherche et d’histoire des textes (UPR 841) – Pôle document numérique de la MRSH de Caen (USR 3486) – … et bientôt les Archives Nationales les partenaires
  4. 4. • Un projet sur 7 ans (2012-2019) • 100 chercheurs et ingénieurs • environ 45 contrats / an • une “équipe portail”: 5 personnes en 2017 coord. : Régis Robineau (Biblissima / EPHE) Biblissima c’est
  5. 5. une cinquantaine de projets scientifiques et techniques Engranger, créer, exposer des données à une grande échelle et à différents niveaux, selon des thématiques et des priorités définies par le projet.
  6. 6. une infrastructure numérique créer un système de gestion et d’analyse des données historiques pour donner un accès simple à des données complexes et hétérogènes
  7. 7. Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007. la mission de Biblissima :  fédérer les bibliothèques numériques  structurer les corpus et les communautés : politique scientifique  former les communautés  faciliter l’accès aux ressources textuelles et documentaires
  8. 8. mission accomplie : le portail Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
  9. 9. 10 423 manuscrits 18 557 imprimés anciens 6 659 éditions 5 249 œuvres 5 178 collections 7 094 personnes 1 642 collectivités 961 lieux
  10. 10. http://beta.biblissima.fr/ Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
  11. 11. Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007. l’objectif opérationnel : créer de facto un référentiel de manuscrits et d'imprimés, pour :  permettre la fusion des données d'un même manuscrit décrit dans plusieurs bases  normaliser les différentes formes de cotes issues des bases, en retenant une forme dite « canonique »  avoir des URI stables et uniques pour chaque manuscrit (en tant qu'URL de la page web d'un manuscrit dans le portail, et en tant qu'identifiant du manuscrit en tant que tel dans les données RDF)
  12. 12. Alimenter et maintenir via OpenRefine un fichier de fusion et de normalisation de toutes les cotes présentes dans les différentes bases à traiter (à partir des exports xml fournis directement par les partenaires ou générés par Biblissima à partir de dumps). Pour chaque manuscrit ou imprimé, il s'agit de :  aligner toutes les formes possibles des cotes et vérifier qu’il s’agit bien d’un même manuscrit ou imprimé  récupérer la forme « canonique » de la cote (quand elle existe) telle qu’elle est employée dans la bibliothèque concernée Etape 1
  13. 13. Alimenter et maintenir via OpenRefine un fichier de fusion et de normalisation de toutes les cotes présentes dans les différentes bases à traiter (à partir des exports xml fournis directement par les partenaires ou générés par Biblissima à partir de dumps). Pour chaque manuscrit ou imprimé, il s'agit de :  aligner toutes les formes possibles des cotes et vérifier qu’il s’agit bien d’un même manuscrit ou imprimé  récupérer la forme « canonique » de la cote (quand elle existe) telle qu’elle est employée dans la bibliothèque concernée  générer pour chaque item un identifiant unique alphanumérique sur la base de la concaténation de l'identifiant unique de l'établissement de conservation et de la chaîne de caractères de la cote « canonique ». Etape 1
  14. 14. Ces formes canoniques et ces identifiants sont ensuite injectés grâce à des scripts dans les exports XML pivot de chaque base de données. Exemple de la BnF : c'est à cette étape que l'on récupère automatiquement les URL des numérisations Gallica (si elles ne sont pas déjà indiquées dans la base source) ainsi que les identifiants ARK de BAM (qui permettent de construire le lien pérenne vers la notice BAM qui apparaîtra dans la section "Sources des données" de la page du manuscrit). Etape 2
  15. 15. Au moment de l'import des données dans le portail Biblissima, Cubicweb se base sur ces identifiants pour fusionner les informations et créer une seule page web pour un même manuscrit. Etape 3
  16. 16. Au moment de l'import des données dans le portail Biblissima, Cubicweb se base sur ces identifiants pour fusionner les informations et créer une seule page web pour un même manuscrit. Avantage : une solution pragmatique applicable de manière unifiée à tous les cas présents dans les données :  manuscrits attestés  Incunables sans cote  manuscrits ou incunables conservés  manuscrits ou incunables avec / sans URI pré- existante (BAM ou Medium par ex.)  Manuscrits ou incunables avec plusieurs URI potentielles (doublons BAM, BAM+Medium...)  et tous les cas imprévisibles… Etape 3
  17. 17. Ce référentiel est accessible en bout de chaîne sur le portail à travers le point d'entrée « Manuscrits et imprimés anciens ». A terme il sera aussi exploitable et requêtable par des programmes informatiques à travers le Sparql endpoint. Il pourrait également être disponible sous la forme d'un gros fichier à télécharger (CSV ou autre). Etape 4
  18. 18. Sous une forme structurée, ce référentiel pourrait se composer des éléments suivants (quand la cote existe) :  forme canonique de la cote (celle utilisée sur le portail et qui a servi à créer l'identifiant Biblissima du manuscrit)  forme canonique de la cote complète (telle qu'affichée partout sur le portail) : concaténation de "Pays / Ville / Etablissement de conservation / [Département] / Cote / [Folios] »  URI Biblissima du manuscrit (ex. http://beta.biblissima.fr/ark:/43093/ mdatad8066ee591c0b7ddc381b7072a0e4679fa32b34b)  forme retenue du nom de l'établissement de conservation  URI Biblissima de l'établissement de conservation (ex. http://beta.biblissima.fr/fr/ark:/43093/cdatacb12511198k)  URI externes, avec le cas échéant : URI BAM (ex. http://archivesetmanuscrits.bnf.fr/ark:/12148/cc73235f/cd0e 1607), URI Medium (ex. http://medium.irht.cnrs.fr/ark:/63955/md5370796399)
  19. 19. Quelques chiffres : — Medium (IRHT) : 80 000 cotes (tous pays, diverses langues) mapping avec les 258 000 citations de manuscrits dans Scriptorium : ID Medium — 100 000 cotes au minimum dans les ressources Biblissima Accroissements à prévoir : exemplaires imprimés cotes d’archives
  20. 20. Step by step 1. Harmonisation et nettoyage au sein de Bibale et de Medium (terminé)  liste des manuscrits sans ID Medium (attestés, perdus, en mains privées… : 1132 mss)  harmonisation du libellé des cotes entre les deux bases  nettoyage et « normalisation » du libellé des manuscrits attestés  vérification et correction des ID fautifs (ID Medium qui était fautivement attribué à deux manuscrits différents ou à un manuscrit qui n’avait rien à voir)  élimination des doublons éventuels Export initial de Bibale + Medium = 6330 composants une fois le nettoyage fini : 5113.
  21. 21. Step by step 2. Harmoniser Bibale / Pinakes / Jonas / Medium en ce qui concerne les cotes BnF (dans le but de lister toutes les cotes BnF présentes dans les bases IRHT, afin de récupérer leur ID BnF pour ensuite leur attribuer un ID Biblissima) Travail par étapes (exports trop lourds pour être traités par Open Refine d’un coup) :  Récupérer les manuscrits BnF pour Bibale et Jonas  Ajouter Medium et enfin Pinakes. A chaque étape :  Repérer et éliminer les doublons, afin d’établir une seule liste des composants BnF présents dans les 4 bases.  Comparer la forme de la cote dans la base étudiée et celle de BAM. Ajouter à chaque manuscrit, la cote libellée selon la forme canonique BnF.
  22. 22. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles
  23. 23. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles
  24. 24. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles 5. Assurer la pérennisation du référentiel, et donc de Biblissima
  25. 25. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles 5. Assurer la pérennisation du référentiel, et donc de Biblissima 6. Pas de pérennisation sans gouvernance : fixer les règles de maintien et développement du référentiel avec tous les partenaires
  26. 26. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles 5. Assurer la pérennisation du référentiel, et donc de Biblissima 6. Pas de pérennisation sans gouvernance : fixer les règles de maintien et développement du référentiel avec tous les partenaires Merci !
  27. 27. http://beta.biblissima.fr/ http://www.biblissima-condorcet.fr/ merci à eduard.frunzeanu@biblissima-condorcet.fr benedicte.giffard@irht.cnrs.fr regis.robineau@biblissima-condorcet.fr et kevin.bois@biblissima-condorcet.fr pauline.charbonnier@biblissima-condorcet.fr elizabeth.macdonald@biblissima-condorcet.fr anciennes collaboratrices : Stefanie Gehrke, Anita Mazur, Marie Muffat

×