Your SlideShare is downloading. ×
Les Catalogues au Défi du Web: Projets et Réalisations d’OCLC en Matière de FRBRisation
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Les Catalogues au Défi du Web: Projets et Réalisations d’OCLC en Matière de FRBRisation

801
views

Published on

Journée d’information CNFPT, 16 May 2013, Angers, France

Journée d’information CNFPT, 16 May 2013, Angers, France

Published in: Education

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
801
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
5
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Avec un grand mercià mescollègues de OCLC Research (en particulierJaniferGatenby, Thom Hickey et Jenny Toves) et à FrançoiseLeresche de la BnF (pouravoirrelu et améliorélefrançais).
  • OCLC Research est ledépartement de la recherche à OCLC oùtravaillentunecinquantaine de chercheurs.C’estuneressourcecommunautaire qui travaille pour et avec les bibliothèquesmembres de la cooperative OCLC. Je tiens à le souligner, parceque le caractèrecollaboratifd’OCLC Research esttrèspeuconnu en Europe et ilfaut changer cela: les bibliothèques en Europe peuvent et doivent en profiter plus!
  • Les efforts de regroupementavaient pour but d’améliorer la qualité de la base de donnéesWorldCatdans son ensemble – sans toucher à la qualité des notices individuellesprovenant des bibliothèques. Et en même temps, le regroupementdevaitaussiaméliorerl’expérience de la recherchedansWorldCat. Au lieu d’afficher des centaines et même des milliers de résultats pour un titre, au niveau des exemplaires, ilvalaitmieuxregrouper les exemplaires et afficher les résultats au niveau de l’oeuvre et sesdifférentes expressions et manifestations. Le modèle FRBR étaitvenu au bon moment pour aider à la restructuration des donnéesdans la base WorldCat.
  • Les niveaux desentités FRBR selonTillett, Barbara. 2004. What is FRBR?: A Conceptual Model for the Bibliographic Universe.http://www.loc.gov/cds/downloads/FRBR.PDFTraductionfrançaisedisponible : FRBR, qu'est-ce que c'est ? : un modèle conceptuel pour l'univers bibliographique / Barbara Tillett ; traduction française établie par la BnF.www.loc.gov/catdir/cpso/FRBRFrench.pdf‎
  • En 2004 OCLC Research pouvaitprésenterles premiers résultats de sesexpérimentations :une analyse des données de WorldCatpermettantd’identifier les catégories FRBR et ledéveloppementd’unalgorithme FRBR;2) deux prototypes implémentantl’algorithme FRBRet 3) uneplanificationpourl’implémentation à échelle dans WorldCat.
  • Ledéveloppement de l’algorithme FRBR n’a pas été facile.Surtout la catégorie “Expressions” posait desproblèmes.Toutes les traductions se regroupent au niveau de l’expressionmaiselless’avèrentdifficiles à identifier, parceque lestitressontdifférents – mêmesil’auteurest le même.Pour les révisions: en principe tout peut changer (titre, auteur, nombre de pages, etc.)Et ladémarcation entre une nouvelle expression et une nouvelle oeuvre estsouventfloue : quellescaractéristiques font d’une augmentation une nouvelle oeuvre?
  • Cette illustration du document FRBR montrebien les zones grises entre les catégories FRBR ...
  • Les variations dans la pratique du catalogage et les erreurs ou omissions pendant la transcription et la saisie des données conduit à des regroupements (clusters) faux;Les définitions des catégories FRBR ne sont pas suffisamentclaires. Il vautmieuxpouvoirexpliciter les différencessaillantes (examples: braille et e-books).Le travail empiriquesoutient et informe le travail de modélisation FRBR (Working group on the expression entity)
  • Leschiffresextrapolésmontrent la répartitionsuivante des catégories FRBR dans WorldCat. Ce sont les mesures de 2004.
  • Ledépartement de recherche a aussiconstruit 2 prototypes: FictionFinder – quiregroupe les noticesbibliographiquespour la fictionxISBN – quiregroupetous les ISBNs des manifestationsappartenant à la même categorie d’oeuvre.FictionFinder est intéressantparcequ’on a du prendre des décisionspratiques, làoùl’algorithme FRBR nepermettait pas d’identifier les expressions de manièrefiable.
  • Dans FictionFinder, toutes les expressionssont des traductions. Donc, onpasse de l’oeuvreauxmanifestations à travers un niveau quiregroupetoutes les traductions.Le niveau supérieur est déterminé par les donnéesconcernantl’oeuvre, comme les résumés, les genres de fiction et les sujets. Puis on choisit la langue – danscetexempleil y a un choix entre 4 manifestations de l’oeuvre en anglais.Auniveauinférieur, celui de la manifestation, les éléments de différenciationsont la date de publication, l’éditeur, le numéroiSBN, etc.
  • Voiciunemanière de visualiserla méthode de regroupement FRBR dansWorldCat,tellequ’elles’estdéveloppéedepuis2006.Il s’agitd’uneamélioration continue des algorithmes.En allant du centre à la périphérie : 1) L’ensemble des manifestations contient les examplaires qui représententexactement le même document physique ; 2) Au niveau de l’expression, l’ensemble des reproductions qui sontunecopieexacte du contenumais sous uneautreforme (livre; e-book; HTML; PDF; microforme) ;3) Toujours encore au niveau de l’expression : l’ensemble des traductions ; 4) Au niveau de l’œuvre : l’ensemble des oeuvres qui se distinguent par leur genre(film, musique, pièce de théatre,...)
  • Avant 2004, il y avaitpresqueune relation 1-à-1 entre les identifiants des notices d’OCLC et les manifestations.Mais avec la croissanceexponentielle de WorldCat àpartir de 2003 et le nombre croissant des notices parallèles et des doublons, cette relation a disparu.
  • Le but du projet GLIMIR étaitdonc de regrouper les notices d’unemême manifestation et d’accorder un identifiant à cegroupe.
  • Vousvoyezici à quelniveau la méthode GLIMIR estemployée.
  • Récemment nous avonscommencé un nouveau projet pour regrouper les notices d’un titre et desestraductions – et d’attribuer un identifiant à cegroupe.
  • Etvoicioù se situeceprojetdansla visualisation des ensembles FRBR de WorldCat.
  • Tousces efforts de regroupementconduisent à desstatistiquesintéressantes: par example le nombre de titres publiés par le même auteur, le nombre de traductions, le nombred’exemplaireslocalisésdans les bibliothèques, etc.Cesdonnéespeuventêtreconsultées en cherchantdansWorldCat Identities.Ici, une page sur Baudelaire et son oeuvre.Remarquez les différentsrôles de Beaudelaire (traducteur, créateur, illustrateur, ...) qui dénotent la relation de Beaudelaire avec une publication.
  • Et en déroulant la page, vousvoyez les publications de Baudelaire, et pour chaqueœuvre: le nombred’éditions, de traductions et d’examplaires.
  • Voici un exempled’une notice bibliographique de WorldCat avec sa version en Schema.org.
  • On reconnaît par exemple le champ Schema.org pour l’auteur (schema: author) et vouspouvezvoirqu’unnuméro VIAF a étéremplidansce champs, avec un URI qui renvoie à la page VIAF de Baudelaire.
  • Et voici la page VIAF de Baudelaire, qui rassembletoutes les donnéesfournies par les notices d’autorité des différentesbibliothèquesnationales.Cette page contient à son tour des liens qui renvoientversd’autresressourcessur Baudelaire, comme par exemplel’article Wikipedia.Nous noustrouvons en plein Web de données.
  • Pour réaliserla promesse du Web de données, les entités les plus importantes , commel’auteur et son oeuvre, doiventêtreidentifiées sans ambiguïté et reliéestrèsexplicitement avec des identifiants URI. Les notices d’autoritépeuventdoncjouer un rôleessentieldans le Web de données.
  • Il s’agitdonc de préparer les donnéesbibliographiques et de les exposer sur le Web de manière à cequeleurpotentielpuisseêtreréalisésur le Web. Et OCLC peut et veutjouer un rôle de pivot dans tout ça.
  • Je suisarrivée à la fin de ma présentation – et je voudraisterminer avec quelques observations concernant RDA – le sujet de cettejournée.De ce qui précède, ildécoulequ’ondoitsurtout codifier les donnéesbibliographiques à l’aide de notices d’autorité et qu’ondoitsurtoutéviter les champs en textelibre. Nous avons besoin d'encoder les données de manière à ce qu’elles puissent être réutilisées par des machines, pas seulement en fonction des utilisateurs finaux.
  • MAIS, le message le plus important c’estpeut-êtrebiencelui de ne pas trop vouloir encoder ! Après tout les machines sont plus précises et plus rapides.On a vu qu’ilexiste des possibilitésd’extraire les entitésnommées des millions de notices bibliographiques et de les relier entre-elles.On a vu le rôle de pivot que les grandsagrégateurspeuventjouer pour préparer les donnéesbibliographiques pour le Web de données. La pratique du catalogagedoitdonctirerparti de cesavantages.
  • Transcript

    • 1. The world’s libraries. Connected. Les catalogues au défi du Web: projets et réalisations d‟OCLC en matière de FRBRisation Journée d‟information CNFPT Angers, 16 mai 2013 Titia van der Werf Senior Program Officer OCLC
    • 2. The world’s libraries. Connected. OCLC Research
    • 3. The world’s libraries. Connected. OCLC Research •Département de la recherche (50+ personnes localisées à Dublin/San Mateo/Leiden); •Ressource communautaire pour et avec les bibliothèques.
    • 4. The world’s libraries. Connected. La croissance de WorldCat 39 41 44 47 50 52 55 61 67 86 108 139 197 236 264 0 50 100 150 200 250 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 Millions of notices Mesures en April 2012
    • 5. The world’s libraries. Connected. OCLC Research et FRBR WorldCat: base de données qui renvoie aux documents se trouvant dans les bibliothèques; Croissance et „contamination‟ de la base avec des notices de toutes sortes = plus de richesse - moins d‟uniformité Nécessité d‟afficher les résultats à un niveau d‟entité plus élevé (exemplaire => oeuvre) Utiliser le modèle FRBR
    • 6. The world’s libraries. Connected. Niveaux des entités FRBR (2002) Item Manifestation Expression Work The novel Original Text Translation Critical Edition Paper Copy 1 Autographed Copy 2 PDF HTML The movie Original Version Based on a graphic in Tillett, Barbara: http://www.iccu.sbn.it/upload/documenti/Tillett.ppt
    • 7. The world’s libraries. Connected. 2004 : premiers résultats • Analyse de WorldCat: Fouille de données et développement d‟un algorithme FRBR • Prototypes (FictionFinder, xISBN) • Planification pour l‟implémentation de l‟algorithme FRBR dans WorldCat (2004- 2006)
    • 8. The world’s libraries. Connected. 2004 : algorithme FRBR Catégorie problématique: Expressions • Traductions • Augmentations • Révisions • etc. et la démarcation avec les catégories adjacentes
    • 9. The world’s libraries. Connected.
    • 10. The world’s libraries. Connected. 2004 : algorithme FRBR Spoken word Illustrated edition Spanish edition Abridged edition Adaptation Expressions Oeuvre¹ Oeuvre² e¹ e² e³ e¹e4 http://www.loc.gov/cds/downloads/FRBR.PDF
    • 11. The world’s libraries. Connected. 2004 : conclusions • La capacité à regrouper rétrospectivement des notices dans une même catégorie est limitée par les données bibliographiques disponibles; • Les distinctions entre les catégories FRBR ne sont pas suffisament explicites (zones grises). • Le travail empirique soutient et informe le travail de modélisation FRBR
    • 12. The world’s libraries. Connected. 2004 : statistiques • Œuvres avec une seule manifestation: 78% • Œuvres avec une seule expression mais plusieurs manifestations: 16% • Œuvres avec plusieurs expressions: 6%
    • 13. The world’s libraries. Connected. 2004 : prototype FictionFinder • Un prototype où 2.6+ millions de notices bibliographiques pour la fiction ont été regroupées en fonction de l‟algorithme FRBR • En raison de la difficulté d'identifier les expressions de manière fiable, les manifestations sont organisées par la langue d'expression
    • 14. The world’s libraries. Connected. FictionFinder : affichage oeuvre/expression & manifestation
    • 15. The world’s libraries. Connected. Manifestations Reproductions Traductions Genres FRBRisation de WorldCat : 2006 Ŕ aujourd‟hui
    • 16. The world’s libraries. Connected. Avec la croissance de WorldCat après 2003 : augmentation du nombre de notices “parallèles” pour une même manifestation 2009: GLIMIR
    • 17. The world’s libraries. Connected. • Améliorer les “clusters” • par le dédoublement des notices • et le regroupement des notices de manifestations cataloguées dans des langues différentes et faites en suivant des règles de catalogage différentes • Attribuer un identifiant à chaque groupe de manifestations. 2009: GLIMIR
    • 18. The world’s libraries. Connected. Manifestations Reproductions Traductions Genres FRBRisation de WorldCat : 2006 Ŕ aujourd‟hui GLIMIR: Regroupe des notices différentes par la langue et les règles de catalogage
    • 19. The world’s libraries. Connected. • Regrouper le titre original et toutes ses traductions • Créer des notices d‟autorité pour les titres au niveau de l‟œuvre 2011 : Multilingual Bib Structure
    • 20. The world’s libraries. Connected. Manifestations Reproductions Traductions Genres FRBRisation de WorldCat: 2006 Ŕ aujourd‟hui Multilingual Bib structure : regroupe les notices du titre original + ses traductions.
    • 21. The world’s libraries. Connected.
    • 22. The world’s libraries. Connected.
    • 23. The world’s libraries. Connected. Used by permission of William Denton
    • 24. The world’s libraries. Connected. Efforts de recherche à partir de 2011 Fouille de données / machines sémantiques : extraction d‟entités nommées et de relations qui se trouvent cachées dans les champs en texte libre des notices bibliographiques
    • 25. The world’s libraries. Connected. Efforts de recherche à partir de 2011 Efforts de modélisation des données liées • FRBR et Schema.org • W3C Schema Bib Extend Community Group • BIBFRAME (Bibliothèque du Congrès)
    • 26. The world’s libraries. Connected.
    • 27. The world’s libraries. Connected.
    • 28. The world’s libraries. Connected.
    • 29. The world’s libraries. Connected. • Entités et liens doivent être non-ambigus et explicités • Maintenir des notices d‟autorité pour les entités importantes : personnes, œuvres, etc. (VIAF, work-authorities) • Identifiants URI pour les personnes (ISNI), les œuvres, etc. • Exprimer et codifier les liens entre les entités Pour réaliser la promesse du Web des données
    • 30. The world’s libraries. Connected. • Objectif : renforcer la présence/visibilité des bibliothèques sur le Web => les ressources bibliographiques ont besoin d‟identifiants URI • Relation entre work-id, manifestation-id et oclc-record-id ? • En tant qu‟agrégateur, OCLC joue un rôle de pivot qui relie les autorités gérées par les bibliothèques. Example : VIAF. A propos des URI
    • 31. The world’s libraries. Connected. - Codifier les entités importantes (QUOI, QUI, OÙ, QUAND) dans des notices d‟autorité - Gérer les liens entre les éléments de description et les notices d‟autorité par identifiant numérique/URI - Codifier la langue de catalogage, les règles suivies (RDA, Afnor, AACR2, etc.), pas d‟abréviations, moins de texte non-structuré… Quelques observations pour RDA
    • 32. The world’s libraries. Connected. MAIS… il faut balancer l‟effort humain. La possibilité d‟appliquer des techniques informatiques pour extraire les entités nommées des millions de notices bibliographiques et les relier entre elles est pleine de promesses. Les agrégateurs de métadonnées comme OCLC et l‟ABES ont un rôle à jouer pour transformer les notices en triplets et un rôle de pivot pour relier les entités avec les autorités. Quelques observations pour RDA
    • 33. The world’s libraries. Connected. Questions? Titia van der Werf Titia.vanderwerf@oclc.org

    ×