• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Métadonnées hors de contrôle: agrégations au niveau du réseau
 

Métadonnées hors de contrôle: agrégations au niveau du réseau

on

  • 543 views

Douzièmes Journées ABES, 14 & 15 May 2013, Montpelleir, France

Douzièmes Journées ABES, 14 & 15 May 2013, Montpelleir, France

Statistics

Views

Total Views
543
Views on SlideShare
543
Embed Views
0

Actions

Likes
1
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • C’est un plaisir d’être parmivous,ici à Montpellier.Je propose de continuer làoù Cal Grant s’estarrêté, cematin. Vousvousrappelezqu’il nous avaitmontré les différentes interfaces locales de découverteque nous offrons à nosutilisateurs – en disantque nous faisons un bon travail de les confondre. Il a ditaussiqu’ilfallaitêtre plus focussé. Il a signalé le compterendu fait par OCLC d’unerechercheutilisateurs et de leur perception des bibliothèques et puisil a cité le blog de Lorcan Dempsey a propos des 13 façons de regarder les bibliothèques, la découvertesur le Web et le catalogue. Lorcan Dempsey est le chef du department de la recherche à OCLC, oùtravaillentunecinquantaine de chercheurs.C’estuneressourcecommunautaire qui travaille pour et avec les bibliothèquesmembres de la cooperative OCLC. Je tiens à le souligner, parceque OCLC Research et son caractèrecollaboratifesttrèspeuconnu en Europe et ilfaut changer cela: les bibliothèques en Europe peuvent et doivent en profiter plus!Je ne vais pas vousdonner un exposé détailléde nostravaux de recherche, maisilestvraiquec’estjustementce travail soutenu qui nous permet de regarderversl’avenir et d’expérimenter avec des scenarios du futur. Je propose donc de partager avec vousaujourd’hui le scenario que nous developpons en ce moment même, concernant la découvertesur le Web, le web des données et le role des bibliothèques.
  • Raymond Bérardutilisaitcematinla métaphore du SUDOC commeuneusine de viande ... la métaphore des agrégations commesupermarchésestpeut-êtremieuxconnue. Elle aétésouventutilisée pour expliquer le passage des catalogues locauxvers les grandsréservoirs de métadonnéesagrégées.Prenez par example WorldCat, SUDOC ou Europeana, cesonttous des agrégateursqui offrent un large éventail de collections. Et...déjà nous pénétronsdansl’Internet deschoses et le web de données qui vont pour ainsi dire, au delà du supermarchétraditionnel.Les développementsvontsivite, que les bibliothèquesontsérieusement du mal à suivre.
  • En fait, lesbibliothèquessont encore en plein milieud’aménagerl’infrastructure et la logistiquenécessaires pour dirigerleurssupermarchésd’information. Ellessonttoujours en train de développer des circuits de moissonnage des données, occupéesd’harmoniserleursmétadonnées et d’enrichirleursprocédures, etc. Ellesconstruisent des grandsmagasinsnumériques pour pouvoirfournir à partir de leurs collections numérisées et électroniques.La promessed’un flux efficace de la découverte à la fourniture n’est pas encore réalisée au sein des agrégations contrôlées par les bibliothèques … et déjà les développementssur le web déferlent et renvoient la logistique aucanevas du web.
  • Allonsjeter un oeil plus attentif à cecanevas!
  • Voici la page de résultatd’unerecherche avec Google (à partir des Pays-Bas) sur “Charles Baudelaire”:On voit Wikipedia en tête de liste et 5 autres sites spécialisés en poésieousur Baudelaire. Sur le côté droit le graphe de Google (Knowledge Graph) qui donne des informations biographiques, bibliographiques et généalogiques sur Baudelaire.
  • Choisissons de continuer notrechemin en cliquantsur le lien “les Fleurs du Mal”.
  • ... La page de résultatsvousdonne encore Wikipedia et des liens versd’autres sites.Maisclairementtousces sites ne sont pas pertinentssurl’oeuvre. Par exemplevousavez un lien YouTubeversune chanson intituléeLes Fleurs du Mal et un lien versunemarque de lingerie provocante.Le graphe de Google donnequelquesdonnéesbibliographiques et des informationscontextuellessur le livrevenant de Wikipedia. Si vouscliquezmaintenantsur le premier résultat en liste: la page Wikipedia ...
  • ... vousobtiendrezcet article donnant un aperçusur le contenu du livre.
  • Et sivousdéroulez la page,vousobtiendrez des liens externessusceptibles de vousmener au texteintégral du livre.
  • Et en effetWikisource France, aussidénommée la bibliothèquelibre, vousoffreuneédition des Fleurs du Mal en ligne.
  • C’estl’édition de 1857.
  • Et vouspouveztéléchargerunecopie des Fleurs du Mal au format d’exportation EPUB de Wikipedia et le lire à votreconvenance!
  • Pendant que nous suivions le chemin des Fleurs du Mal sur le web, nous n’avons pas rencontré debibliothèquesnid’archives.Où se trouvent-ellesdanscecanevas du Web?On ne les voit pas, parcequ’elles nejouent pas le jeu du Web. Ellesjouentleurproprejeu.
  • Le nouveau jeu du Web consiste à “épouser le Web”; “ne fairequ’un avec le Web”. Pour jouer le jeu et le gagner, il y a quatrerègles pour les bibliothèques à suivre.Règlenuméro.1: le web est le systèmed’information. Il n’y a pas d’autressystèmesd’informationdanscejeu.Le Web estaussil’endroitoù les utilisateurs setrouvent. Il n’y a plus d’utilsateursconnectés avec des systèmeslocaux. Tous les utilisateurssontconnectés au Web à travers des “réseauxsociaux” (Facebook, Google+). Le Web est non seulementdevenu la seuleagrégation de métadonnées qui compte – ellecontientaussil’informationpropre. Le Web estune “collection” d’elle-même, qui a besoin d’être soignée et préservée.Le Web estaussiune infrastructure sous-jacente pour la logistique et la fourniture de l’informationnumérisée. Non pas dans le sensd’uneautoroute, où les bibliothèquesconçoiventleurspropresmoyens de transport (pensez aux protocols Z39.50 et OAI-PMH) et au long de laquelleellesinstallentleurspropres super-marchés. Non, Le Web fonctionne beaucoup plus comme le système de circulation sanguine d’un organisme vivant: les donnéessontpompées et se déplacent avec le flux et pénètrent par osmose les différentes parties du Web. Les protocols qui dirigent le jeu, sont les protocols du Web. Finalement, le Web enregistre les mesures, le flot de clics des usagers en train de faire leurschoixquandilsnaviguentsur le web. Les cheminsqu’ilssuiventfournissent des donnéesd’analyseprécieusessurleurscomportement. Cesdonnéespeuventêtreexploités pour mieuxcomprendre les utilisateurs et nous permettre de répondre à leursbesoins.
  • Donc, ... ilfaut savoir queceux qui ne jouent pas le jeu du Web, ne comptent pas.
  • C’étaitcomme la sonnerie d’un réveilmatin, l’annéedernière, lorsqueSimone Kortekaasdonnaitsaprésentation à la conférence LIBER à Tartu. Elle expliquaitpourquoisabibliothèqueavaitdécidé de ne pas acheter un outil de découverte local pour ses collections. Sescollèguesavaient fait des recherches pour mieuxcomprendre comment leurs collections étaientdécouvertessur le Web: ils en sontvenus à la conclusion qu’avec Google, Google Scholar, Google Livres, WorldCat et les bases de donnéessous licence com “Web of Science” et “Scopus” – la découverte des collections bibliothécairesétaitsuffisanteet qu’iln’yavait pas besoin d’un service de découverte local.
  • Au lieu d’investirdans la découverte, ilsontdécidéd’investirdans la fourniture des documents électroniquessous licence pour leursuniversitaires et étudiants.Leur catalogue local devaitdevenir un outildédié à la localisation des exemplairesconnus pour en donnerl’accès.  En fait, ils se sontréaliséque “la découverte se passeailleurs” et quecelaétait la nouvelle réalité.
  • La règlenuméro 2 du jeuestdonc de séparer la découverte et la fourniture et de les considérercommel’amont et l’aval de la logistique du Web. Les aggrégateurs de données pour la découverte se situent en avant-plan du Web (comme Google et Bing) et les aggrégateurs de données pour la livraison de l’informationdemandée, se situent en arrière-plan. Pour gagner le jeu, les bibliothèquesdevraient se situer auniveau de la fourniture finale en tantqu’agrégateursd’approvisionement.Nosagrégations de métadonnéessontessentielles pour la fourniture de documents connus.  
  • Et, ce passage desbibliothèques à l’arrière plan du Web, prendformetandisque je vous en parle. Voyez comment Google Scholar assiste les bibliothèques pour accrocher la fourniture et l’accès à leurs resources dans les pages Google. Il y a un programme liens vers les bibliothèques, pour resolver les liens qui permettentl’accèsdirecte aux articles en ligne.
  • Et un service pour localiser le livre recherché dansunebibliothèque locale.
  • A propos du programme liens vers les bibliothèques, voici un example.Les liens affichés à droite des résultatssont des liens vers le contenu en texteintégral des articles scientifiquesofferts par les bibliothèques.Le lien encercléva, par example, vers les archives ouvertes HAL.
  • Le service de Google Scholar qui permet la recherchedans les collections de bibliothèques, indexe les agrégationscommeWorldCat.org et SUDOC.Voici un example qui vavousmener à WolrdCat. Cliquonssur le titre “Sociologie du sport”.
  • Ce lien vous amène en premier lieu vers Google Livre et offre la version numérisée du livre, s’il y en a une.Souvent le texte intégral du livre numérisé n’est pas accèssible.Dans le panneau de gauche, Google Livre offre des liens pour trouver le livre dans une librairie ou une bibliothèque.
  • Lelien vers la bibliothèque, vousamène à WorldCat, qui affiche les bibliothèquesquipossèdentcetteédition et quisontsituéesprès de chezvous, dans votrerégion.
  • Faisonsuneautre recherche dans Google Livre. Par example, cherchonsavecle mot “Maupassant” et choisissonsensuitele 1er lien en liste sur la page des résultats.
  • Le lien nous mène sur la page du livre intitulé «Maupassant» dans la Collection «Panorama d’un auteur».Suivons le lien pour trouver ce titre dans une bibliothèque
  • Cela nous mène au SUDOC, qui à son tour facilite le prêt, la photocopie et d’autres services de livraison à travers son réseau de bibliothèques.
  • Les agrégateursdoiventdonc se postionnerdans la chaîne de la logistique du web et décideroúilsveulent se placer – en amontou en aval, en avant-plan ou en arrière plan du système web.On a vu que les grandesagrégationsbibliothécaires, comme SUDOC et WorldCat, alimentent avec leursdonnées les moteurs de recherchesur Internet – et se faisant, elles se placent en arrière-plan. Et nous avons vu queles moteurs de recherche, comme Google, préfèrentinteragir avec les grandsagrégateursqu’avec des sites Web individuels. Les bibliothèquesdoiventdonc plus quejamaistravailler ensemble pour agregerleursdonnées.
  • Et cesont lesagrégateursfournisseurs,comme le SUDOC et WorldCat, qui sont le mieuxplacés pour pousser les données enamont du web.Et faisons le bien. Les moteurs de rechercheseraientbiendésserviss’ilsrecevaienttoutesnosmétadonnées.Quellesdonnéessontimportantes?Pour pouvoirrépondre à cette question, ilfautsuivre et comprendre le comportement del’utilisateur du Web. Comment cherchet’il?
  • Les utilisateurs du web sont à la recherche de données qui les aideront à trouver et obtenirl’informationdontilsontbesoin.Et générallement, larecherched’information commence avec le quoi, le qui, le quand, et le où. Ce sont les 4 points cardinaux de la boussole qui aide toutepersonne à naviguer le Web.Voyez comment Google suit le schema logique de l’esprithumain en quêted’information: Google Rechercherépond au Quoi; Google Knowledge Graph répond au Qui et Google Maps répond à l’où. Il n’y a pas encore de service Google pour répondre au quand, maisl’Internet Archive est un example à suivre.
  • Evidemment, nosmétadonnéespeuventtrèsbienfournir laréponse au quoi, qui, quand et où à propos des publications que nous géronsdansnosbibliothèques.OCLC a déjà investi beaucoup d’effort et de resssourcesdansl’amélioration de la qualité de cesdonnéesdansWorldCat.D’abord avec VIAF: le fichierd’autoritévirtuel qui regroupetoutes les donnéesd’autoritésur 29 Millions d’auteurs, provenant des bibliothèquesnationales du monde (en ce moment 25bibliothèquesnationalesparticipent à VIAF). Ensuite, avec le regroupementselon le modèle FRBR des notices bibliographiques: au niveau de l’oeuvre et de la manifestation.Onn’enest pas encore tout à fait là, mais on fait des progrèsdans la bonne direction.Et, propos du “où”, il y a le service de WorldCatpour “Trouverunebibliothèqueprès de chez vous”,basésur le régistre des bibliothèques (qui nécessite beaucoup d’entretien et doitêtrecontinuellementamélioré – il y a par example encore quelquesproblèmes pour trouver les bibliothèques en France) – et il y a aussi les liens directesvers le contenu en ligne des collections numérisées. Cettefonctionalitépeutaussiêtreaméliorée.
  • Ilestintéressant, je trouve, de noter comment dans les annéespassées la communauté des bibliothèquess’estconcentréesur les nouveaux modèles de données(EDM, BibFrame, etc.) en essayant de restructurer les métadonnées de façonqu’elles correspondent mieux avec le Web des données.D’ores et déjà, ilest important de se souvenir que la remodélisation des donnéesn’améliore pas la qualité des donnéeselles-mêmes. L’amélioration de la qualitéest un processus de maintenance continu et fastidieux, et non un effort de modélisation.
  • Ilestintéressant de remarquer comment Google ou Wikipedia travaillentdifféremment. Ilsressemblent plus à des systèmesd’apprentissage. Ils ne changent pas significativementl’architecture des données au cours des années, maisilsaméliorentcontinuellement la qualité des leursdonnées.Pas-à-pas et en s’appuyantsur le crowd sourcing.Voici un exemple de Dora Russel. Le Knowledge Graph de Google contenait des liens vers des titres de livresdontellen’était pas l’auteur. Quandj’aidécouvertcela, il y a quelquesmois, j’aisignalél’erreur et maintenantces liens sontdisparus. Dora Russelavaitbienécrit des livres, maisapparemment les titres corrects n’ont pas encore émergédans son profil de Google Knowledge Graph. Je suissûrequ’ilsapparaîtront un jour prochain.
  • Enfin, la qualité du systèmedans son ensemble dépent de la qualité des donnéessous-jacente au système. Google Maps est un bon exemple. Avez-vousessayé de naviguerdans les rues de Bruxellesoù les noms de rue sont à la fois en Flamand et en Français? C’est loin d’être parfait – maiscelas’améliore de jour en jour!
  • Enfin, la dernièrerègle du jeu Web est la plus critique pour les bibliothèques: c’est de fournir aux utilisateursl’informationrequise et les documents commandés.C’est à cestadequel’expérience du service livré par les bibliothèquesdéterminerasi les utilisateurs du web serontsatisfaitou non.Pour cela, la livraison par les bibliothèquesindividuelles à travers les agrégateurs (SUDOC, WorldCat) doitêtrecomplètementintégréedans le système web, mêmesi la fournitureellemêmen’est pas toujoursnumérique.
  • Voicidonc, les 4 règles du jeu Web - Nous avons vu que la bibliothèque de l’université de Utrecht a déjachoisi de jouer. ABES et OCLC sont des joueursaussi, avec SUDOC et WorldCat. Il y en a d’autresbienentendu. Il y en a qui jouent le jeu sans s’enrendrecompte. Et il y en a qui jouentleurproprejeu.Si on jouaittous ensemble le mêmejeu, les bibliothèquespourraientdevenir indispensables sur le web.

Métadonnées hors de contrôle: agrégations au niveau du réseau Métadonnées hors de contrôle: agrégations au niveau du réseau Presentation Transcript

  • The world’s libraries. Connected. Métadonnées hors de contrôle: agrégations au niveau du réseau. JABES 2013 Montpellier, 14 mai 2013 Titia van der Werf Senior Program Officer OCLC
  • The world’s libraries. Connected. http://old-photos.blogspot.nl/2011_01_01_archive.html http://upload.wikimedia.org/wikipedia/en/1/1e/T%26T_Supermarket.jpg Des catalogues locaux ... aux grands réservoirs de métadonnées agrégées. .
  • The world’s libraries. Connected. Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ http://www.theeuropeanlibrary.org/confluence/display/wiki/A+Library+domain+aggregator D’une infrastructure d’agrégateurs ... ... au canevas du web de données.
  • The world’s libraries. Connected. Regardons plus attentivement ce canevas émergeant du web de données!
  • The world’s libraries. Connected.
  • The world’s libraries. Connected.
  • The world’s libraries. Connected.
  • The world’s libraries. Connected.
  • The world’s libraries. Connected.
  • The world’s libraries. Connected.
  • The world’s libraries. Connected.
  • The world’s libraries. Connected.
  • The world’s libraries. Connected. Où sont les bibliothèques et les archives dans ce canevas du Web?
  • The world’s libraries. Connected. Ne faire qu’un avec le Web Règle no 1: le Web = LE Système • Web = Là où se trouvent les utilisateurs • Web = une importante agrégation de contenu • Web = l’infrastructure sous-jacente pour le e- commerce de détail, la e-logistique, la traçabilité, etc. • Web = les mesures (flot de clics)
  • The world’s libraries. Connected. Il faut savoir que ... Ceux qui ne jouent pas le jeu du Web ne comptent pas ...
  • The world’s libraries. Connected. Repenser l’avenir des catalogues Penser l’impensable: une bibliothèque sans catalogue -- Reconsidérer l’avenir des outils de découverte pour la bibliothèque universitaire d’Utrecht Simone Kortekaas à la Conférence LIBER 2012
  • The world’s libraries. Connected. “Nos utilisateurs sont sur Internet et utilisent Google ou les outils de découverte “comme Google”. Ils trouvent le contenu dont ils ont besoin et s’attendent à ce que la bibliothèque fournisse le contenu. Nous en concluons que si le Web est le monde de nos utilisateurs, c’est donc notre réalité, (…) Les bibliothèques n’ont vraiment pas besoin d’essayer de ramener tous leurs utilisateurs vers les systèmes de bibliothèque.” http://www.libereurope.eu/blog/thinking-the-unthinkable-a-library-without-a-catalogue-reconsidering-the-future-of-discovery-to
  • The world’s libraries. Connected. Règle no 2: séparer la découverte et la fourniture En avant-plan du Web (le frontal): Les agrégateurs de découverte (Google, etc.) En arrière-plan du Web (back-end): Les agrégateurs d’approvisionement (bibliothèques)
  • The world’s libraries. Connected. Le flux entre l’avant et l’arrière plan
  • The world’s libraries. Connected. Le flux entre l’avant et l’arrière plan
  • The world’s libraries. Connected. Programme liens vers les bibliothèques
  • The world’s libraries. Connected. La recherche dans les bibliothèques
  • The world’s libraries. Connected. La recherche dans les bibliothèques
  • The world’s libraries. Connected. La recherche dans les bibliothèques
  • The world’s libraries. Connected. La recherche dans les bibliothèques
  • The world’s libraries. Connected. La recherche dans les bibliothèques
  • The world’s libraries. Connected. La recherche dans les bibliothèques
  • The world’s libraries. Connected. La logistique du Web: oú se positionner?
  • The world’s libraries. Connected. Règle 3: Pousser les données de qualité en amont du Web Quelles sont les données importantes?
  • The world’s libraries. Connected. Quoi, Qui, Quand, Où
  • The world’s libraries. Connected. La qualité des données et OCLC • Qui = regroupement de toutes les données sur les auteurs => VIAF • Quoi = regroupement des données sur les oeuvres et leurs manifestations => FRBRisation and Glimirisation de WorldCat • Où = localisation au niveau des exemplaires => Registre des bibliothèques (“trouver une bibliothèque près de chez vous”) et liens directes vers le contenu en ligne
  • The world’s libraries. Connected. Amélioration continuelle de la qualité • En observant les nouvelles solutions de modélisation: Europeana (EDM), LoC (BibFrame), BL, etc. • Les bibliothèques sont des systèmes structurés – organisant et réorganisant continuellement les mêmes données.
  • The world’s libraries. Connected. Wikipedia et Google sont des systèmes d’apprentissage – en ce qui concerne l’amélioration continuelle des données. Ils s'appuyent sur le « crowd sourcing » pour corriger et améliorer la qualité des données. Amélioration continuelle de la qualité
  • The world’s libraries. Connected. La qualité du système dépent de la qualité des données sous-jacentes
  • The world’s libraries. Connected. •Livraison rapide = en ligne et commander en 1-click •L’utilisateur reçoit ce qu’il a demandé = pas de mauvaises surprises! Règle 4: Fournir l’information requise en aval du Web
  • The world’s libraries. Connected. 1. Le Web = LE système 2. Séparer la découverte et la fourniture 3. Pousser les données de qualité en amont 4. Fournir l’information requise en aval du Web Les 4 règles du jeu Web
  • The world’s libraries. Connected. Questions? Titia van der Werf Titia.vanderwerf@oclc.org