SlideShare a Scribd company logo
1 of 36
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
Artefacts attestés et conservés,
cotes historiques, factices, actuelles…
pour la création d'un référentiel
(et d’un ISMSN ? International Standard Manuscript Shelfmark Number)
Eduard Frunzeanu, Bénédicte Giffard, Régis Robineau
avec la collaboration d’Anne-Marie Turcan-Verkerk
Objectifs :
 Créer et alimenter des corpus qui font sens.
 Les réunir autour d’une problématique commune pour
parvenir à une masse de données significative.
 Permettre leur interrogation conjointe,
 et leur réutilisation.
Bibliotheca bibliothecarum novissima
équipement de données sur la transmission
des textes anciens
– Campus Condorcet (coordinateur)
– Bibliothèque nationale de France
– CESR, Tours (UMR 7323)
– CIHAM, Lyon-Avignon (UMR 5648)
– CRAHAM, Caen (UMR 6273)
– Ecole nationale des chartes, CJM (EA 3624)
– Ecole Pratique des Hautes Etudes, SAPRAT (EA 4116)
– Institut de recherche et d’histoire des textes (UPR 841)
– Pôle document numérique de la MRSH de Caen (USR 3486)
– … et bientôt les Archives Nationales
les partenaires
• Un projet sur 7 ans (2012-2019)
• 100 chercheurs et ingénieurs
• environ 45 contrats / an
• une “équipe portail”: 5 personnes en 2017
coord. : Régis Robineau (Biblissima / EPHE)
Biblissima c’est
une cinquantaine de projets
scientifiques et techniques
Engranger, créer, exposer des données
à une grande échelle et à différents niveaux,
selon des thématiques et des priorités
définies par le projet.
une infrastructure numérique
créer un système
de gestion et d’analyse des données historiques pour
donner un accès simple
à des données complexes et hétérogènes
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
la mission de Biblissima :
 fédérer les bibliothèques numériques
 structurer les corpus et les communautés :
politique scientifique
 former les communautés
 faciliter l’accès aux ressources textuelles et
documentaires
mission accomplie : le portail
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
10 423 manuscrits
18 557 imprimés
anciens
6 659 éditions
5 249 œuvres
5 178 collections
7 094 personnes
1 642 collectivités
961 lieux
http://beta.biblissima.fr/
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
l’objectif opérationnel :
créer de facto un référentiel de manuscrits et d'imprimés, pour :
 permettre la fusion des données d'un même manuscrit décrit dans
plusieurs bases
 normaliser les différentes formes de cotes issues des bases, en
retenant une forme dite « canonique »
 avoir des URI stables et uniques pour chaque manuscrit (en tant
qu'URL de la page web d'un manuscrit dans le portail, et en tant
qu'identifiant du manuscrit en tant que tel dans les données RDF)
Alimenter et maintenir via OpenRefine un fichier de
fusion et de normalisation de toutes les cotes
présentes dans les différentes bases à traiter (à
partir des exports xml fournis directement par les
partenaires ou générés par Biblissima à partir de
dumps).
Pour chaque manuscrit ou imprimé, il s'agit de :
 aligner toutes les formes possibles des cotes et vérifier
qu’il s’agit bien d’un même manuscrit ou imprimé
 récupérer la forme « canonique » de la cote (quand elle
existe) telle qu’elle est employée dans la bibliothèque
concernée
Etape 1
Alimenter et maintenir via OpenRefine un fichier de
fusion et de normalisation de toutes les cotes
présentes dans les différentes bases à traiter (à
partir des exports xml fournis directement par les
partenaires ou générés par Biblissima à partir de
dumps).
Pour chaque manuscrit ou imprimé, il s'agit de :
 aligner toutes les formes possibles des cotes et vérifier
qu’il s’agit bien d’un même manuscrit ou imprimé
 récupérer la forme « canonique » de la cote (quand elle
existe) telle qu’elle est employée dans la bibliothèque
concernée
 générer pour chaque item un identifiant unique
alphanumérique sur la base de la concaténation de
l'identifiant unique de l'établissement de conservation et
de la chaîne de caractères de la cote « canonique ».
Etape 1
Ces formes canoniques et ces identifiants sont
ensuite injectés grâce à des scripts dans les exports
XML pivot de chaque base de données.
Exemple de la BnF : c'est à cette étape que l'on
récupère automatiquement les URL des
numérisations Gallica (si elles ne sont pas déjà
indiquées dans la base source)
ainsi que les identifiants ARK de BAM (qui
permettent de construire le lien pérenne vers la
notice BAM qui apparaîtra dans la section "Sources
des données" de la page du manuscrit).
Etape 2
Au moment de l'import des données dans le portail
Biblissima, Cubicweb se base sur ces identifiants
pour fusionner les informations et créer une seule
page web pour un même manuscrit.
Etape 3
Au moment de l'import des données dans le portail
Biblissima, Cubicweb se base sur ces identifiants
pour fusionner les informations et créer une seule
page web pour un même manuscrit.
Avantage : une solution pragmatique
applicable de manière unifiée à tous les cas présents
dans les données :
 manuscrits attestés
 Incunables sans cote
 manuscrits ou incunables conservés
 manuscrits ou incunables avec / sans URI pré-
existante (BAM ou Medium par ex.)
 Manuscrits ou incunables avec plusieurs URI
potentielles (doublons BAM, BAM+Medium...)
 et tous les cas imprévisibles…
Etape 3
Ce référentiel est accessible en bout de chaîne sur
le portail à travers le point d'entrée « Manuscrits et
imprimés anciens ».
A terme il sera aussi exploitable et requêtable par
des programmes informatiques à travers le Sparql
endpoint.
Il pourrait également être disponible sous la forme
d'un gros fichier à télécharger (CSV ou autre).
Etape 4
Sous une forme structurée, ce référentiel pourrait se
composer des éléments suivants (quand la cote existe)
:
 forme canonique de la cote (celle utilisée sur le portail et qui a
servi à créer l'identifiant Biblissima du manuscrit)
 forme canonique de la cote complète (telle qu'affichée partout
sur le portail) : concaténation de "Pays / Ville / Etablissement
de conservation / [Département] / Cote / [Folios] »
 URI Biblissima du manuscrit (ex.
http://beta.biblissima.fr/ark:/43093/
mdatad8066ee591c0b7ddc381b7072a0e4679fa32b34b)
 forme retenue du nom de l'établissement de conservation
 URI Biblissima de l'établissement de conservation (ex.
http://beta.biblissima.fr/fr/ark:/43093/cdatacb12511198k)
 URI externes, avec le cas échéant : URI BAM
(ex. http://archivesetmanuscrits.bnf.fr/ark:/12148/cc73235f/cd0e
1607), URI Medium
(ex. http://medium.irht.cnrs.fr/ark:/63955/md5370796399)
Quelques chiffres :
— Medium (IRHT) : 80 000 cotes
(tous pays, diverses langues)
mapping avec les 258 000
citations de manuscrits
dans Scriptorium : ID Medium
— 100 000 cotes au minimum dans les ressources Biblissima
Accroissements à prévoir :
exemplaires imprimés
cotes d’archives
Step by step
1. Harmonisation et nettoyage au sein de Bibale et de Medium
(terminé)
 liste des manuscrits sans ID Medium (attestés, perdus, en mains privées… :
1132 mss)
 harmonisation du libellé des cotes entre les deux bases
 nettoyage et « normalisation » du libellé des manuscrits attestés
 vérification et correction des ID fautifs (ID Medium qui était fautivement
attribué à deux manuscrits différents ou à un manuscrit qui n’avait rien à
voir)
 élimination des doublons éventuels
Export initial de Bibale + Medium = 6330 composants
une fois le nettoyage fini : 5113.
Step by step
2. Harmoniser Bibale / Pinakes / Jonas / Medium en ce qui
concerne les cotes BnF
(dans le but de lister toutes les cotes BnF présentes dans les bases
IRHT, afin de récupérer leur ID BnF pour ensuite leur attribuer un ID
Biblissima)
Travail par étapes (exports trop lourds pour être traités par Open Refine
d’un coup) :
 Récupérer les manuscrits BnF pour Bibale et Jonas
 Ajouter Medium et enfin Pinakes.
A chaque étape :
 Repérer et éliminer les doublons, afin d’établir une seule liste des
composants BnF présents dans les 4 bases.
 Comparer la forme de la cote dans la base étudiée et celle de BAM.
Ajouter à chaque manuscrit, la cote libellée selon la forme canonique
BnF.
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
5. Assurer la pérennisation du référentiel, et donc de Biblissima
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
5. Assurer la pérennisation du référentiel, et donc de Biblissima
6. Pas de pérennisation sans gouvernance : fixer les règles de
maintien et développement du référentiel avec tous les partenaires
Step by step
3. Poursuivre ce travail pour l’ensemble des ressources Biblissima
actuelles
4. Prévoir le même travail pour les ressources nouvelles
5. Assurer la pérennisation du référentiel, et donc de Biblissima
6. Pas de pérennisation sans gouvernance : fixer les règles de
maintien et développement du référentiel avec tous les partenaires
Merci !
http://beta.biblissima.fr/
http://www.biblissima-condorcet.fr/
merci à
eduard.frunzeanu@biblissima-condorcet.fr
benedicte.giffard@irht.cnrs.fr
regis.robineau@biblissima-condorcet.fr
et
kevin.bois@biblissima-condorcet.fr
pauline.charbonnier@biblissima-condorcet.fr
elizabeth.macdonald@biblissima-condorcet.fr
anciennes collaboratrices : Stefanie Gehrke, Anita Mazur, Marie Muffat

More Related Content

What's hot

7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
CTLes
 
6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...
6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...
6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...
CTLes
 
7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...
7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...
7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...
CTLes
 
7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...
7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...
7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...
CTLes
 

What's hot (20)

7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
 
L'Observatoire Biblissima : état des lieux et perspectives
L'Observatoire Biblissima : état des lieux et perspectivesL'Observatoire Biblissima : état des lieux et perspectives
L'Observatoire Biblissima : état des lieux et perspectives
 
6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte
6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte
6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte
 
6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...
6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...
6jpros - Réactivation du PEB en Île-de-France, un service dédié aux chercheur...
 
L'utilisation d’ontologies dans le cadre de Biblissima
L'utilisation d’ontologies dans le cadre de BiblissimaL'utilisation d’ontologies dans le cadre de Biblissima
L'utilisation d’ontologies dans le cadre de Biblissima
 
6es journées professionnelles (6jpros) - Notices biographiques et résumé
6es journées professionnelles (6jpros) - Notices biographiques et résumé6es journées professionnelles (6jpros) - Notices biographiques et résumé
6es journées professionnelles (6jpros) - Notices biographiques et résumé
 
Enjeux pour l’historien de demain : l’exploitation des sources numériques
Enjeux pour l’historien de demain : l’exploitation des sources numériquesEnjeux pour l’historien de demain : l’exploitation des sources numériques
Enjeux pour l’historien de demain : l’exploitation des sources numériques
 
A la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail BiblissimaA la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail Biblissima
 
7Jpros : Collections de périodiques et politique d’ouverture par Mme Isabelle...
7Jpros : Collections de périodiques et politique d’ouverture par Mme Isabelle...7Jpros : Collections de périodiques et politique d’ouverture par Mme Isabelle...
7Jpros : Collections de périodiques et politique d’ouverture par Mme Isabelle...
 
Assemblée générale 2016 du programme de recherche BVH : Catalogues régionaux ...
Assemblée générale 2016 du programme de recherche BVH : Catalogues régionaux ...Assemblée générale 2016 du programme de recherche BVH : Catalogues régionaux ...
Assemblée générale 2016 du programme de recherche BVH : Catalogues régionaux ...
 
Introduction à IIIF
Introduction à IIIFIntroduction à IIIF
Introduction à IIIF
 
7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...
7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...
7Jpros : Politique documentaire physique et numérique de la BnF : la compléme...
 
Assemblée générale 2016 du programme de recherche BVH : Corpus d'auteur Rabelais
Assemblée générale 2016 du programme de recherche BVH : Corpus d'auteur RabelaisAssemblée générale 2016 du programme de recherche BVH : Corpus d'auteur Rabelais
Assemblée générale 2016 du programme de recherche BVH : Corpus d'auteur Rabelais
 
Assemblée générale 2016 du programme de recherche BVH : Corpus d'auteur Monta...
Assemblée générale 2016 du programme de recherche BVH : Corpus d'auteur Monta...Assemblée générale 2016 du programme de recherche BVH : Corpus d'auteur Monta...
Assemblée générale 2016 du programme de recherche BVH : Corpus d'auteur Monta...
 
7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...
7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...
7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...
 
6jpros_CollEx et le soutien au PEB, par Mme véronique de kok
6jpros_CollEx et le soutien au PEB, par Mme véronique de kok6jpros_CollEx et le soutien au PEB, par Mme véronique de kok
6jpros_CollEx et le soutien au PEB, par Mme véronique de kok
 
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
 
7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...
7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...
7Jpros : La nouvelle bibliothèque de l’INHA en salle Labrouste : les partenar...
 
Entrer dans les bibliothèques disparues : le portail Biblissima
Entrer dans les bibliothèques disparues : le portail BiblissimaEntrer dans les bibliothèques disparues : le portail Biblissima
Entrer dans les bibliothèques disparues : le portail Biblissima
 
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérienceApplication Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
 

Similar to Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Documentation Electronique
Documentation  ElectroniqueDocumentation  Electronique
Documentation Electronique
rapettis
 

Similar to Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits (20)

Les publications en série dans le Sudoc - Journées MEDICI, sept. 2019
Les publications en série dans le Sudoc - Journées MEDICI, sept. 2019Les publications en série dans le Sudoc - Journées MEDICI, sept. 2019
Les publications en série dans le Sudoc - Journées MEDICI, sept. 2019
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
 
Présentation de l'ABES aux élèves conservateurs à l'Enssib
Présentation de l'ABES aux élèves conservateurs à l'EnssibPrésentation de l'ABES aux élèves conservateurs à l'Enssib
Présentation de l'ABES aux élèves conservateurs à l'Enssib
 
Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialités
 
Jabes 2019 - Poster "EzlibrAPI : plateforme d'outils bibliographiques"
Jabes 2019  - Poster "EzlibrAPI : plateforme d'outils bibliographiques"Jabes 2019  - Poster "EzlibrAPI : plateforme d'outils bibliographiques"
Jabes 2019 - Poster "EzlibrAPI : plateforme d'outils bibliographiques"
 
HAL-SHS accompagner les chercheurs et les laboratoires : exporter les données...
HAL-SHS accompagner les chercheurs et les laboratoires : exporter les données...HAL-SHS accompagner les chercheurs et les laboratoires : exporter les données...
HAL-SHS accompagner les chercheurs et les laboratoires : exporter les données...
 
Produits doc et services mai 2012
Produits doc et services mai 2012Produits doc et services mai 2012
Produits doc et services mai 2012
 
Nouveaux catalogues de bibliothèques
Nouveaux catalogues de bibliothèquesNouveaux catalogues de bibliothèques
Nouveaux catalogues de bibliothèques
 
Méthodologie de la recherche documentaire M1 Langues romanes
Méthodologie de la recherche documentaire M1 Langues romanesMéthodologie de la recherche documentaire M1 Langues romanes
Méthodologie de la recherche documentaire M1 Langues romanes
 
Formation à la recherche documentaire Master SACIM
Formation à la recherche documentaire Master SACIMFormation à la recherche documentaire Master SACIM
Formation à la recherche documentaire Master SACIM
 
A la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail BiblissimaA la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail Biblissima
 
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
 
Documentation Electronique
Documentation  ElectroniqueDocumentation  Electronique
Documentation Electronique
 
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
 
Méthodologie de la recherche documentaire M1 Anglais
Méthodologie de la recherche documentaire M1 AnglaisMéthodologie de la recherche documentaire M1 Anglais
Méthodologie de la recherche documentaire M1 Anglais
 
Methododologie de la recherche documentaire M1 Lettres modernes
Methododologie de la recherche documentaire M1 Lettres modernesMethododologie de la recherche documentaire M1 Lettres modernes
Methododologie de la recherche documentaire M1 Lettres modernes
 
Journées ABES 2014 - intervention sponsor - OCLC
Journées ABES 2014 - intervention sponsor - OCLC Journées ABES 2014 - intervention sponsor - OCLC
Journées ABES 2014 - intervention sponsor - OCLC
 
Dématérialisation des supports et nouveaux usages en bibliothèques
Dématérialisation des supports et nouveaux usages en bibliothèquesDématérialisation des supports et nouveaux usages en bibliothèques
Dématérialisation des supports et nouveaux usages en bibliothèques
 
Des données aux méta-données
Des données aux méta-donnéesDes données aux méta-données
Des données aux méta-données
 
Kutxa : aide à la recherche
Kutxa : aide à la rechercheKutxa : aide à la recherche
Kutxa : aide à la recherche
 

More from Equipex Biblissima

More from Equipex Biblissima (20)

Da Biblissima a Biblissima+ : per un osservatorio delle culture scritte
Da Biblissima a Biblissima+ : per un osservatorio delle culture scritteDa Biblissima a Biblissima+ : per un osservatorio delle culture scritte
Da Biblissima a Biblissima+ : per un osservatorio delle culture scritte
 
eScriptorium: An Open Source Platform for Historical Document Analysis
eScriptorium: An Open Source Platform for Historical Document AnalysiseScriptorium: An Open Source Platform for Historical Document Analysis
eScriptorium: An Open Source Platform for Historical Document Analysis
 
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
 
Appliquer les techniques d'apprentissage profond pour détecter les enluminure...
Appliquer les techniques d'apprentissage profond pour détecter les enluminure...Appliquer les techniques d'apprentissage profond pour détecter les enluminure...
Appliquer les techniques d'apprentissage profond pour détecter les enluminure...
 
Représentations du chant du Moyen Âge dans les images IIIF
Représentations du chant du Moyen Âge dans les images IIIFReprésentations du chant du Moyen Âge dans les images IIIF
Représentations du chant du Moyen Âge dans les images IIIF
 
Réflexions et explorations croisées autour de IIIF, Omeka-s et NumaHOP à la B...
Réflexions et explorations croisées autour de IIIF, Omeka-s et NumaHOP à la B...Réflexions et explorations croisées autour de IIIF, Omeka-s et NumaHOP à la B...
Réflexions et explorations croisées autour de IIIF, Omeka-s et NumaHOP à la B...
 
Mise en œuvre de IIIF pour la reconnaissance automatique de documents
Mise en œuvre de IIIF pour la reconnaissance automatique de documentsMise en œuvre de IIIF pour la reconnaissance automatique de documents
Mise en œuvre de IIIF pour la reconnaissance automatique de documents
 
Nakala et IIIF
Nakala et IIIFNakala et IIIF
Nakala et IIIF
 
Actualités et perspectives de IIIF
Actualités et perspectives de IIIFActualités et perspectives de IIIF
Actualités et perspectives de IIIF
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
 
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
 
IIIF360: A Service to Support and Promote IIIF in France
IIIF360: A Service to Support and Promote IIIF in FranceIIIF360: A Service to Support and Promote IIIF in France
IIIF360: A Service to Support and Promote IIIF in France
 
The Biblissima Authority File of Geographical Names
The Biblissima Authority File of Geographical NamesThe Biblissima Authority File of Geographical Names
The Biblissima Authority File of Geographical Names
 
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
 
Biblissima: Connecting Manuscripts Collections
Biblissima: Connecting Manuscripts CollectionsBiblissima: Connecting Manuscripts Collections
Biblissima: Connecting Manuscripts Collections
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
Browse and Visualize Manuscripts Illuminations with IIIF
Browse and Visualize Manuscripts Illuminations with IIIFBrowse and Visualize Manuscripts Illuminations with IIIF
Browse and Visualize Manuscripts Illuminations with IIIF
 
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
 
The Biblissima Portal: Current state and future plans
The Biblissima Portal: Current state and future plansThe Biblissima Portal: Current state and future plans
The Biblissima Portal: Current state and future plans
 
Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...
Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...
Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...
 

Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

  • 1. Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007. Artefacts attestés et conservés, cotes historiques, factices, actuelles… pour la création d'un référentiel (et d’un ISMSN ? International Standard Manuscript Shelfmark Number) Eduard Frunzeanu, Bénédicte Giffard, Régis Robineau avec la collaboration d’Anne-Marie Turcan-Verkerk
  • 2. Objectifs :  Créer et alimenter des corpus qui font sens.  Les réunir autour d’une problématique commune pour parvenir à une masse de données significative.  Permettre leur interrogation conjointe,  et leur réutilisation. Bibliotheca bibliothecarum novissima équipement de données sur la transmission des textes anciens
  • 3. – Campus Condorcet (coordinateur) – Bibliothèque nationale de France – CESR, Tours (UMR 7323) – CIHAM, Lyon-Avignon (UMR 5648) – CRAHAM, Caen (UMR 6273) – Ecole nationale des chartes, CJM (EA 3624) – Ecole Pratique des Hautes Etudes, SAPRAT (EA 4116) – Institut de recherche et d’histoire des textes (UPR 841) – Pôle document numérique de la MRSH de Caen (USR 3486) – … et bientôt les Archives Nationales les partenaires
  • 4. • Un projet sur 7 ans (2012-2019) • 100 chercheurs et ingénieurs • environ 45 contrats / an • une “équipe portail”: 5 personnes en 2017 coord. : Régis Robineau (Biblissima / EPHE) Biblissima c’est
  • 5. une cinquantaine de projets scientifiques et techniques Engranger, créer, exposer des données à une grande échelle et à différents niveaux, selon des thématiques et des priorités définies par le projet.
  • 6. une infrastructure numérique créer un système de gestion et d’analyse des données historiques pour donner un accès simple à des données complexes et hétérogènes
  • 7. Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007. la mission de Biblissima :  fédérer les bibliothèques numériques  structurer les corpus et les communautés : politique scientifique  former les communautés  faciliter l’accès aux ressources textuelles et documentaires
  • 8. mission accomplie : le portail Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
  • 9. 10 423 manuscrits 18 557 imprimés anciens 6 659 éditions 5 249 œuvres 5 178 collections 7 094 personnes 1 642 collectivités 961 lieux
  • 10. http://beta.biblissima.fr/ Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18. Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007. l’objectif opérationnel : créer de facto un référentiel de manuscrits et d'imprimés, pour :  permettre la fusion des données d'un même manuscrit décrit dans plusieurs bases  normaliser les différentes formes de cotes issues des bases, en retenant une forme dite « canonique »  avoir des URI stables et uniques pour chaque manuscrit (en tant qu'URL de la page web d'un manuscrit dans le portail, et en tant qu'identifiant du manuscrit en tant que tel dans les données RDF)
  • 19. Alimenter et maintenir via OpenRefine un fichier de fusion et de normalisation de toutes les cotes présentes dans les différentes bases à traiter (à partir des exports xml fournis directement par les partenaires ou générés par Biblissima à partir de dumps). Pour chaque manuscrit ou imprimé, il s'agit de :  aligner toutes les formes possibles des cotes et vérifier qu’il s’agit bien d’un même manuscrit ou imprimé  récupérer la forme « canonique » de la cote (quand elle existe) telle qu’elle est employée dans la bibliothèque concernée Etape 1
  • 20.
  • 21.
  • 22. Alimenter et maintenir via OpenRefine un fichier de fusion et de normalisation de toutes les cotes présentes dans les différentes bases à traiter (à partir des exports xml fournis directement par les partenaires ou générés par Biblissima à partir de dumps). Pour chaque manuscrit ou imprimé, il s'agit de :  aligner toutes les formes possibles des cotes et vérifier qu’il s’agit bien d’un même manuscrit ou imprimé  récupérer la forme « canonique » de la cote (quand elle existe) telle qu’elle est employée dans la bibliothèque concernée  générer pour chaque item un identifiant unique alphanumérique sur la base de la concaténation de l'identifiant unique de l'établissement de conservation et de la chaîne de caractères de la cote « canonique ». Etape 1
  • 23. Ces formes canoniques et ces identifiants sont ensuite injectés grâce à des scripts dans les exports XML pivot de chaque base de données. Exemple de la BnF : c'est à cette étape que l'on récupère automatiquement les URL des numérisations Gallica (si elles ne sont pas déjà indiquées dans la base source) ainsi que les identifiants ARK de BAM (qui permettent de construire le lien pérenne vers la notice BAM qui apparaîtra dans la section "Sources des données" de la page du manuscrit). Etape 2
  • 24. Au moment de l'import des données dans le portail Biblissima, Cubicweb se base sur ces identifiants pour fusionner les informations et créer une seule page web pour un même manuscrit. Etape 3
  • 25. Au moment de l'import des données dans le portail Biblissima, Cubicweb se base sur ces identifiants pour fusionner les informations et créer une seule page web pour un même manuscrit. Avantage : une solution pragmatique applicable de manière unifiée à tous les cas présents dans les données :  manuscrits attestés  Incunables sans cote  manuscrits ou incunables conservés  manuscrits ou incunables avec / sans URI pré- existante (BAM ou Medium par ex.)  Manuscrits ou incunables avec plusieurs URI potentielles (doublons BAM, BAM+Medium...)  et tous les cas imprévisibles… Etape 3
  • 26. Ce référentiel est accessible en bout de chaîne sur le portail à travers le point d'entrée « Manuscrits et imprimés anciens ». A terme il sera aussi exploitable et requêtable par des programmes informatiques à travers le Sparql endpoint. Il pourrait également être disponible sous la forme d'un gros fichier à télécharger (CSV ou autre). Etape 4
  • 27. Sous une forme structurée, ce référentiel pourrait se composer des éléments suivants (quand la cote existe) :  forme canonique de la cote (celle utilisée sur le portail et qui a servi à créer l'identifiant Biblissima du manuscrit)  forme canonique de la cote complète (telle qu'affichée partout sur le portail) : concaténation de "Pays / Ville / Etablissement de conservation / [Département] / Cote / [Folios] »  URI Biblissima du manuscrit (ex. http://beta.biblissima.fr/ark:/43093/ mdatad8066ee591c0b7ddc381b7072a0e4679fa32b34b)  forme retenue du nom de l'établissement de conservation  URI Biblissima de l'établissement de conservation (ex. http://beta.biblissima.fr/fr/ark:/43093/cdatacb12511198k)  URI externes, avec le cas échéant : URI BAM (ex. http://archivesetmanuscrits.bnf.fr/ark:/12148/cc73235f/cd0e 1607), URI Medium (ex. http://medium.irht.cnrs.fr/ark:/63955/md5370796399)
  • 28. Quelques chiffres : — Medium (IRHT) : 80 000 cotes (tous pays, diverses langues) mapping avec les 258 000 citations de manuscrits dans Scriptorium : ID Medium — 100 000 cotes au minimum dans les ressources Biblissima Accroissements à prévoir : exemplaires imprimés cotes d’archives
  • 29. Step by step 1. Harmonisation et nettoyage au sein de Bibale et de Medium (terminé)  liste des manuscrits sans ID Medium (attestés, perdus, en mains privées… : 1132 mss)  harmonisation du libellé des cotes entre les deux bases  nettoyage et « normalisation » du libellé des manuscrits attestés  vérification et correction des ID fautifs (ID Medium qui était fautivement attribué à deux manuscrits différents ou à un manuscrit qui n’avait rien à voir)  élimination des doublons éventuels Export initial de Bibale + Medium = 6330 composants une fois le nettoyage fini : 5113.
  • 30. Step by step 2. Harmoniser Bibale / Pinakes / Jonas / Medium en ce qui concerne les cotes BnF (dans le but de lister toutes les cotes BnF présentes dans les bases IRHT, afin de récupérer leur ID BnF pour ensuite leur attribuer un ID Biblissima) Travail par étapes (exports trop lourds pour être traités par Open Refine d’un coup) :  Récupérer les manuscrits BnF pour Bibale et Jonas  Ajouter Medium et enfin Pinakes. A chaque étape :  Repérer et éliminer les doublons, afin d’établir une seule liste des composants BnF présents dans les 4 bases.  Comparer la forme de la cote dans la base étudiée et celle de BAM. Ajouter à chaque manuscrit, la cote libellée selon la forme canonique BnF.
  • 31. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles
  • 32. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles
  • 33. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles 5. Assurer la pérennisation du référentiel, et donc de Biblissima
  • 34. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles 5. Assurer la pérennisation du référentiel, et donc de Biblissima 6. Pas de pérennisation sans gouvernance : fixer les règles de maintien et développement du référentiel avec tous les partenaires
  • 35. Step by step 3. Poursuivre ce travail pour l’ensemble des ressources Biblissima actuelles 4. Prévoir le même travail pour les ressources nouvelles 5. Assurer la pérennisation du référentiel, et donc de Biblissima 6. Pas de pérennisation sans gouvernance : fixer les règles de maintien et développement du référentiel avec tous les partenaires Merci !