Au dela des autorites du Sudoc

1,218 views

Published on

L'utilisation des autorités du Sudoc au delà du Sudoc

Published in: Education, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,218
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Par sélection à partir du descripteur
  • Par sélection à partir du descripteur
  • Par sélection à partir du descripteur
  • Par sélection à partir du descripteur
  • Au dela des autorites du Sudoc

    1. 1. Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre du TGE Adonis Jabes 2010
    2. 2. Equipe Projet <ul><li>Equipe de recherche Graphik du LIRMM </li></ul><ul><ul><li>Equipe de recherche en informatique (UM2, CNRS, INRIA) </li></ul></ul><ul><ul><li>Domaine : Représentation des connaissances et les raisonnements (branche de l’intelligence artificielle) </li></ul></ul><ul><ul><li>Spécificité : approche « réseau sémantique » </li></ul></ul><ul><ul><li>Collaboration avec l’ABES : Michel Chein, Michel Leclère </li></ul></ul><ul><li>ABES </li></ul><ul><ul><li>Christophe Bonnefond </li></ul></ul><ul><ul><li>Yann Nicolas </li></ul></ul><ul><ul><li>Olivier Rousseaux </li></ul></ul>
    3. 3. Contexte de la collaboration : <ul><li>Appel à projets Adonis : </li></ul><ul><li>plate-forme d’accès unifié aux données </li></ul><ul><li>Verrous technologiques et scientifiques </li></ul><ul><ul><li>Unification des formats des méta-données </li></ul></ul><ul><ul><li>=> utilisation de RDF(S) </li></ul></ul><ul><ul><li>Unification des vocabulaires de description des méta-données </li></ul></ul><ul><ul><ul><li>Classes et Propriétés => Définition d’ontologies </li></ul></ul></ul><ul><ul><ul><li>Entités individuelles => Pb de l’identification d’entité </li></ul></ul></ul>
    4. 4. Présentation <ul><li>Objectif général : Identifier des co-références à la même entité individuelle dans deux notices bibliographiques </li></ul><ul><ul><li>Reconnaître dans différentes notices bibliographiques des réfèrences au même document, même auteur, même sujet… </li></ul></ul><ul><li>Principe général : Utiliser la base d’autorités du Sudoc comme standard de référencement de ces entités </li></ul><ul><ul><li>Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc pour ajouter dans cette notice l’identifiant Sudoc de cette entité : la liaison </li></ul></ul><ul><li>Objectif du projet : définir un service d’identification d’autorités </li></ul>Autorités Sudoc Entités référencées dans une notice … … Autorités Sudoc
    5. 5. La liaison aux autorités : les différentes approches <ul><li>Liaison manuelle </li></ul><ul><ul><li>Soit un « terme » et un « type d’autorité », on recherche dans les formes retenues ou rejetées les autorités correspondantes </li></ul></ul><ul><ul><li>Pour chaque autorité, on propose les informations de la notice d’autorités et des notices biblios liées </li></ul></ul><ul><ul><li>L’annotateur sélectionne l’autorité « la plus pertinente » ou décide d’en créer une nouvelle </li></ul></ul><ul><li>Liaison automatique par mesures de proximité </li></ul><ul><ul><li>Soit quelques attributs (ex. nom, prénom, dates pour les personnes) sur l’autorité recherchée </li></ul></ul><ul><ul><li>Pour chaque autorité, une mesure de « proximité » aux attributs correspondants de l’autorité est calculée </li></ul></ul><ul><ul><li>Le système sélectionne l’autorité « la plus proche » (avec seuil minimal) </li></ul></ul>
    6. 6. Approche « Connaissance » <ul><li>Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle </li></ul><ul><li>Représenter le SUDOC en RDF(S) </li></ul><ul><li>Construire une base d’autorités enrichies </li></ul><ul><li>Définir des opérateurs de liaison sémantique aux autorités </li></ul>
    7. 7. Définition d’une ontologie formelle pour les connaissances du Sudoc <ul><li>Fondée sur le modèle FRBRoo 1.0 (2009) </li></ul><ul><ul><li>Modélisation riche de l’univers bibliographique intégrant les modèles FRBR et CIDOC CRM </li></ul></ul><ul><li>Formalisée en RDFS </li></ul><ul><li>Etendue pour : </li></ul><ul><ul><li>Représenter des propriétés spécifiques sous-propriétés de propriétés FRBRoo </li></ul></ul><ul><ul><li>Séparer les entités conceptuelles des données les référençant </li></ul></ul><ul><ul><ul><li>Un titre vs. une chaîne de caractères lue sur la couverture </li></ul></ul></ul><ul><ul><li>Représenter des propriétés associées aux notices (date, origine, sources…) en plus de celles associées aux entités </li></ul></ul>
    8. 8. Transformation des notices Unimarc en annotation RDF : exemple d’autorité Personne <ul><li>Fiche Sudoc « brute » support à l’indexation </li></ul><ul><li>001A $0751062103:02-12-04 </li></ul><ul><li>001B $0751062103:02-12-04$t11:43:29.000 </li></ul><ul><li>001D $0751062103:02-12-04 </li></ul><ul><li>001U $0utf8 </li></ul><ul><li>001X $00 </li></ul><ul><li>002@ $0Tp5 </li></ul><ul><li>003@ $0XXXXXX36 </li></ul><ul><li>010@ $S##$afre </li></ul><ul><li>012C $S##$a0$b1$c0 </li></ul><ul><li>012E $S##$ab </li></ul><ul><li>019@ $S##$aFR </li></ul><ul><li>028A $S#1$40y$dChristian$aBernard </li></ul><ul><li>037F $S##$aDessinateur de bandes dessinées </li></ul><ul><li>047M $S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003 </li></ul><ul><li>Fiche Sudoc interprétable par un utilisateur </li></ul><ul><li>No notice : XXXXXX36 Vedette Nom de personne </li></ul><ul><li>Forme retenue : Bernard, Christian Forme savante ou à valeur internationale </li></ul><ul><li>Pays : France </li></ul><ul><li>Langues : français </li></ul><ul><li>Notes : Dessinateur de bandes dessinées </li></ul><ul><li>Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003  </li></ul><ul><li>Annotation sémantique support aux raisonnements (vision simplifiée RDF) </li></ul><ul><li>  </li></ul>Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr Notes langue «Dessinateur… » «  Hépatite… / Dr. Léo Py, Christian Bernard » Sources Pays : FR pays
    9. 9. Approche « Connaissance » <ul><li>Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle </li></ul><ul><li>Représenter le SUDOC en RDF </li></ul><ul><li>Construire une base d’autorités enrichies </li></ul><ul><ul><li>Explicitant les connaissances présentes dans les notices d’autorité </li></ul></ul><ul><ul><li>Les enrichissant par des inférences exploitant les liens aux notices bibliographiques </li></ul></ul><ul><li>Définir des opérateurs de liaison sémantique aux autorités </li></ul>
    10. 10. Les outils de l’enrichissement <ul><li>Règles d’inférences </li></ul><ul><li>Si connaissance observée alors ajouter nouvelle connaissance </li></ul><ul><ul><li>Exemple </li></ul></ul><ul><li>Fusion des entités liées à la même autorité </li></ul><ul><ul><li>Deux entités de même type repérées par le même identifiant sont identiques </li></ul></ul>Manifestation : Personne: thématique sujet Matière : responsable
    11. 11. Une notice d’autorité Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue
    12. 12. Explicitation des connaissances internes à un attribut Notice : 36 Personne : aPropos «   Bernard, Christian » formeRetenueSavante Langue : fr langue
    13. 13. Explicitation des connaissances internes à un attribut Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom
    14. 14. Intégration des connaissances bibliographiques Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 Personne: Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
    15. 15. Fusion des entités Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 Personne: Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
    16. 16. Fusion des entités Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
    17. 17. Enrichissement par inférences Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar Manifestation Personne thématique sujet Matière : responsable
    18. 18. Enrichissement par inférences Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar thématique Manifestation Personne thématique sujet Matière : responsable
    19. 19. Obtention d’un autorité enrichie Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Personne : co-auteur « Léo» nom « Christian» prénom
    20. 20. Approche « Connaissance » <ul><li>Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle </li></ul><ul><li>Représenter le SUDOC en RDF </li></ul><ul><li>Construire une base de descripteurs sémantiques des autorités Sudoc </li></ul><ul><li>Définir des opérateurs de liaison sémantique aux autorités </li></ul><ul><ul><li>Identification par raisonnement des attributs à comparer </li></ul></ul><ul><ul><li>Sélection des autorités par requêtage sur la base des descripteurs </li></ul></ul><ul><ul><li>Contrôle de la cohérence globale du rapprochement des attributs </li></ul></ul>
    21. 21. Outil pour l’identification des attributs à comparer <ul><li>Définition d’un schéma de sélection par type d’autorité </li></ul><ul><ul><li>Partie obligatoire : les connaissances pour lesquelles une correspondance forte doit exister avec l’autorité enrichie </li></ul></ul><ul><ul><ul><li>La partie obligatoire sélectionne des autorités candidates </li></ul></ul></ul><ul><ul><li>Partie additionnelle : les connaissances qui renforceront ou affaibliront les rapprochements aux autorités candidates </li></ul></ul><ul><ul><ul><li>La partie additionnelle permet d’ordonner les autorités candidates </li></ul></ul></ul><ul><li>Exemple : schéma pour les personnes </li></ul>Personne : Langue : langue nom prénom Sujet : Manifestation : rôle thématique forme date Liaison 1
    22. 22. Identification des attributs à comparer <ul><li>Enrichissement préalable de la nouvelle notice </li></ul>Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom Personne: Liaison 1 thématique thématique co-auteur
    23. 23. Identification des attributs Thèse : directeur «Modelisation… » titre auteur Personne: Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique <ul><li>Appariement du schéma de sélection </li></ul>Liaison 1 co-auteur
    24. 24. <ul><li>Requête de sélection obtenue </li></ul>Thèse : directeur «Modelisation… » titre auteur Personne: Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Identification des attributs <ul><li>Appariement du schéma de sélection </li></ul>Liaison 1 co-auteur Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos
    25. 25. Thèse : directeur «Modelisation… » titre auteur Personne: Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Identification des attributs <ul><li>Appariement du schéma de sélection </li></ul><ul><li>Critère de classement obtenu </li></ul>Liaison 1 co-auteur Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse : Notice : ? aPropos
    26. 26. Recherche des autorités candidates <ul><li>Recherche des notices qui satisfont la requête de sélection </li></ul>Liaison 2 Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos
    27. 27. Recherche des autorités candidates Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelliigence artificielle» formeRejetée « Machines Intelligentes»
    28. 28. Classement des autorités <ul><li>La partie additionnelle est utilisée comme critère de classement des autorités sélectionnés </li></ul><ul><ul><li>On mesure le coût de la transformation de l’autorité enrichie pour qu’elle satisfasse la partie additionnelle </li></ul></ul><ul><ul><li>L’utilisation de mesures de proximité entre données à apparier permet d’affiner le classement </li></ul></ul>Liaison 2 Notice : ? aPropos Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse :
    29. 29. Classement des autorités Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
    30. 30. Classement des autorités Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
    31. 31. directeur Thèse : Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
    32. 32. directeur Thèse : Le second est privilégié Classement des autorités Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
    33. 33. Contrôle de la cohérence des liaisons <ul><li>Utilisation de contraintes sur les relations entre autorités </li></ul><ul><ul><li>Exemple : deux co-auteurs doivent avoir des dates, des langues… cohérentes </li></ul></ul><ul><li>Sélection de combinaisons cohérentes d’autorités </li></ul><ul><ul><li>En fonction des connaissances contenues dans les autorités enrichies sélectionnées </li></ul></ul><ul><ul><li>Privilégiant les autorités les mieux classées </li></ul></ul><ul><li>Exemple : </li></ul><ul><ul><li>Si </li></ul></ul><ul><ul><ul><li>«Jean Petit», [a11, a41, a35] </li></ul></ul></ul><ul><ul><ul><li>«Christian Bernard», [a55, a36] </li></ul></ul></ul><ul><ul><ul><li>(a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents </li></ul></ul></ul><ul><ul><li>Renvoyer («Jean Petit»,«Christian Bernard»), [(a11, a36),(a35,a55),(a35,a36)] </li></ul></ul>Liaison 3
    34. 34. Travail en cours <ul><li>Poursuite du travail de formalisation et transformation des différentes notices </li></ul><ul><li>Définition des règles d’enrichissement </li></ul><ul><li>Définition du schéma pour chaque type d’autorité </li></ul><ul><li>Expérimentations pour affiner les critères de rapprochement </li></ul>
    35. 35. Perspectives <ul><li>Définition de correspondances avec d’autres ontologies (Dublin Core, Bibo…) pour faciliter l’intégration de notices externes </li></ul><ul><li>Introduire le service d’identification d’autorité lors du catalogage </li></ul><ul><li>Extension à des procédures de gestion de la qualité des autorités </li></ul><ul><ul><li>Suppression des doublons </li></ul></ul><ul><ul><li>Identification d’erreurs de liaison </li></ul></ul>

    ×