Introduction à l'informatique documentaire

15,259 views
15,076 views

Published on

Support du cours présenté aux étudiants de licence pro métier du livre, section bibliothèque de l'IUT de Bordeaux en mars 2010.

Published in: Education, Technology

Introduction à l'informatique documentaire

  1. 1. 12 MARS 2 0 1 0 Informatique documentaire Sylvain Machefert
  2. 2. Généralités Identifiants Structuration Métadonnées Échanges Informatique documentaire 2
  3. 3. Généralités CC-BY // Patrick Hoesly // Flickr
  4. 4. Le document numérique « Dans son acception courante un document est généralement défini comme le support physique d'une information. Plus précisément on peut le définir comme un ensemble de données informatives présentes sur un support, sous une forme permanente et lisible par l’homme ou par une machine (permanent par opposition à volatil). » http://fr.wikipedia.org/wiki/Document Généralités 4
  5. 5. Le document numérique Le document numérique peut être compris dans un sens plus large, comme étant un ensemble de données informatives sous forme de chiffres (= numérique) lisible par un dispositif informatique restituant les informations. Généralités 5
  6. 6. Éléments de vocabulaire ● bit → le fameux 0 ou 1 ● octet → 8 bits → 256 combinaisons ● kilooctets → 1024 octets ● mégaoctet → 1024 kilooctets ● gigaoctet → 1024 mégaoctets ● téraoctet → 1024 gigaoctets Généralités 6
  7. 7. Le codage des caractères Codage Création bits Valeurs Caractères possibles disponibles ASCII 1961 7 128 95 ISO-8859-1 / Latin-1 1987 8 256 191 (accents) UTF-8 1993 8-32 > 2 milliards > 100 000 Généralités 7
  8. 8. Enjeux ● Interopérabilité des systèmes ● Accessibilité des informations ● Pérennité des informations Généralités 8
  9. 9. Identifiants CC-BY // Joe Shlabotnik // Flickr
  10. 10. Identifiants ● Différents types d'identifiants : ensemble numérique ou alpha-numérique ● Pour des unités d'information qui peuvent concerner : – une entité physique – une entité logique (article, contribution dans un périodique, un livre, voir une partie dans un article : différents niveaux de granularité) Identifiants 10
  11. 11. Identifier l'unité physique ● Numéro international normalisé du livre imprimé : ISBN 978-2-7654-0954-0 ● Numéro international normalisé des publications en série : ISSN 0335-1793 ● Numéro international normalisé de la musique imprimée : ISMN M-060-11561-5 Identifiants 11
  12. 12. Identifier l'unité physique ● Code international normalisé des enregistrements musicaux (sonore et audiovisuel) : ISRC FR-AB5-07-12345 ● Numéro international normalisé d’œuvre audiovisuelle : ISAN ISAN : 0000-0002-29D9-0098-U-0000-0000-L ● Code international normalisé des textes : ISTC ISTC A02-2009-000004BE-A ● Serial Item and Contribution Identifier : SICI 0002-8231(199412)45:10<737:TIODIM>2.3.TX;2-M Identifiants 12
  13. 13. Identifier en ligne ● Enjeu important ● Dépasse le cadre des identifiants « physiques » ● Principe générique des URI : ensemble des technologies et moyens permettant de – Nommer, – Adresser, – Jusqu'à un certain point, décrire les ressources du Web Identifiants 13
  14. 14. URN ● Uniform Resource Name ● Identifie la ressource indépendamment de son emplacement → nécessite un mécanisme capable de faire le lien entre l'identifiant et l'emplacement de la ressource ● Repose sur un répertoire de correspondance urn:isbn:0-395-36341-1 Identifiants 14
  15. 15. URL ● Uniform Resource Locator ● Utilisé par le protocole HTTP pour la localisation des pages Web ● Très lié à l'institution hébergeante → Non pérenne http://fr.wikipedia.org/wiki/URL protocole sous-domaine nom de domaine de 2nd niveau nom de domaine de 1er niveau nom de la ressource Identifiants 15
  16. 16. Pérennité, lisibilité des URL ● Nécessité pour un accès direct ● Facilite la citation ● Indexation dans les moteurs de recherche ● Moissonnage OAI Identifiants 16
  17. 17. ARK ● Archival Resource Key ● Créé et maintenu par la California Digital Library ● Faciliter la citabilité et le référencement de document numériques ● Mis en place par la BnF pour Gallica et BN Opale Plus ● Différents niveau de granularité : – Page précise d'un document – Une image dans un lot d'images Identifiants 17
  18. 18. ARK http://catalogue.bnf.fr/ ark:/12148/bpt6k103226k/f263.pagination http://gallica.bnf.fr/ adresse du résolveur (optionnel) espace de nom institution Identifiant unique niveau plus fin Identifiants 18
  19. 19. DOI ● Digital Object Identifier (1998) ● Sous-partie d'un élément plus important : handle ● Gérés par Crossref pour le domaine de la recherche ● Fin 2009 : 43 millions d'enregistrements http://dx.doi.org/ doi:10.1045/may2006-apps http://hdl.handle.net/ résolveur espace de nom code handle du DOI organisme gestionnaire identifiant de l'objet Identifiants 19
  20. 20. La structuration CC-BY-SA // Aloriel // Flickr
  21. 21. HTML ● Langage de structuration des pages web (1989) ● Langage de présentation (peu de sémantique) ● Support varié Structuration 21
  22. 22. CSS ● Feuille de style en cascade (~1995) ● Structure // Présentation main.css Structuration 22
  23. 23. XML ● eXtensible Markup Language (1998) ● Recommandation du W3C ● Lié aux technologies du web ● Structure arborescente ● Format générique de balisage décliné en schémas Structuration 23
  24. 24. Validation - DTD ● Document Type Definition ● Description des éléments du XML – Noms des éléments <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE annuaire SYSTEM "annuaire.dtd"> <annuaire> – Contenus <personne> <nom>Stéphane Dupond</nom> – Attributs <sexe>Masculin</sexe> <date_naiss>1er janv. 82</date_naiss> </personne> ● Peut être décrit en XML </annuaire> ● Pas de typage XML Valide <!ELEMENT annuaire (personne*)> <!ELEMENT personne (nom, sexe?, date_naiss?)> DTD Structuration 24
  25. 25. Validation - XSD <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE annuaire SYSTEM "annuaire.dtd"> <personne ● XML Schema xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="personne.xsd"> <nom>Stéphane Dupond</nom> <sexe>Masculin</sexe> ● Définition plus précise <date_naiss>1982-01-01</date_naiss> </personne> ● Typage des données XML valide <?xml version="1.0" encoding="UTF-8"?> <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"> <xs:element name="personne"> <xs:complexType> <xs:sequence> <xs:element name="nom" type="xs:string" minOccurs="1" /> <xs:element name="date_naiss" type="xs:date"/> <xs:element name="sexe"> <xs:simpleType> <xs:restriction base="xs:string"> <xs:enumeration value="Masculin"/> <xs:enumeration value="Féminin"/> </xs:restriction> </xs:simpleType> </xs:element> </xs:sequence> </xs:complexType> </xs:element> </xs:schema> XSD Structuration 25
  26. 26. XSL ● Extensible stylesheet language CC-BY-SA // Ripounet // Wikimedia Commons ● Feuilles de styles associées au XML – XSLT : transformation – XPath : navigation dans le document – XSL-FO : mise en forme //personne[@prenom='david'] Chemin XPath Transformation XSL Structuration 26
  27. 27. XML - Applications ● TEI : Text Encoding Initiative Structuration de textes électroniques en Sciences Humaines et Sociales ● EAD : Encoded Archival Description Encodage des instruments de recherches archivistiques (utilisé dans Calames) ● TEF : Thèses Électroniques Françaises Regroupe la description et les informations de gestion ● METS : Metadata Encoding and Transmission Standard Description de collections d'objets numériques Structuration 27
  28. 28. Application émergente : EPUB ● Format ouvert (1997) pour les livres électroniques : .epub ● Archive de XHTML, CSS, images CC-BY // Dan Taylor // Flickr Structuration 28
  29. 29. Les métadonnées CC-BY // MG Shelton // Flickr
  30. 30. Généralités ● Plusieurs types – Métadonnées descriptives – Métadonnées techniques – Métadonnées juridiques ● Importance des choix de format ● Suivre une norme pour ne pas s'isoler ● Stockage des métadonnées – Dans la ressource – Dans une base associée Les métadonnées 30
  31. 31. Description vs Stockage Format de description Dublin Core, MARC, Onix ≠ Format de stockage Iso2709, XML, Format binaire Les métadonnées 31
  32. 32. Description – Formats MARC ● Depuis 1965 ● Par et pour les bibliothécaires ● Arborescence à deux niveaux ● Variations nationales (Unimarc, marc-21 ...) ● Principaux formats en bibliothèques Les métadonnées 32
  33. 33. Description – ONIX ● Première version en 2000 ● Initié par les acteurs commerciaux (éditeurs, libraires) ● Plus de 200 champs différents (~30 constituant la base) ● Passerelles vers les formats MARC pour les bibliothèques ● Données enrichies : – Résumés – Image de couverture – Prix, disponibilité Les métadonnées 33
  34. 34. Description – Dublin Core ● Plus récent (1995), plus connu ● Dublin Core Element Sets : 15 éléments de base – Contenu : titre, type, sujet ... – Propriété intellectuelle : créateur, éditeur ... – Instanciation : date, identifiant, format ● Étendus par le Dublin Core qualifié Les métadonnées 34
  35. 35. Description – RDF ● Resource Description Framework ● Description des ressources du Web et leurs Métadonnées ● Définition à l'aide de triplets : Sujet – Prédicat – Objet – <Écrivain> <Auteur_de> <Livre> – <Écrivain> <Date_de_Naissance> <Année> ● Relations définies dans des vocabulaires – FOAF : pour la description des personnes et leurs relations – SKOS : relations de types thésaurus et classification Le linked Data Exemples d'utilisation dans DBPedia Les métadonnées 35
  36. 36. Stockage : OÙ ? ● Dans le document : – Métadonnées exif, xmp pour les photos – RDF sur une page web ● Dans une base associée, lien par un identifiant – Notice associée par un code barre – Notice associée par un DOI Les métadonnées 36
  37. 37. Stockage - XML ● Utilisation d'un format lisible ● Nombreux formats définis (ou adaptations) Les métadonnées 37
  38. 38. Stockage - iso2709 ● Lié aux formats MARC ● Spécification ouverte ● Format très spécifiques aux bibliothèques Les métadonnées 38
  39. 39. Stockage – format binaire ● Solution utilisée par certains éditeurs pour stocker leurs données en base. ● Nécessite le programme de l'éditeur pour décoder ● Être sûr que l'on a les outils associés Les métadonnées 39
  40. 40. Choix du format ● Importance de la normalisation par rapport au domaine ● Qui peut le plus peut le moins Les métadonnées 40
  41. 41. Échange & Interopérabilité CC-BY // JC i Nuria // Flickr
  42. 42. Échanger ses données pour ... ● Être présent sur le web ● Limiter les opérations de saisie déjà faites ailleurs ● Faciliter l'intégration au sein du SI ● Faciliter la vie des usagers ● Permettre de faire vivre le système Échanges & Interopérabilité 42
  43. 43. OAI - PMH ● Format d'échange basé sur XML ● Fourniture des données en Dublin Core ● Protocole très simple – Informations sur un serveur – Liste des enregistrements ● Nécessite d'avoir des urls pérennes Échanges & Interopérabilité 43
  44. 44. Web services (usagers divers) ● Technologies web ● Échange de données entre applications web ● Pour faciliter : – l'intégration avec d'autres outils – Les possibilités de développements annexes (mash-up) ● AJAX : Asynchronous JavaScript and XML exemple : Disponibilité dans les B.U. Échanges & Interopérabilité 44
  45. 45. Z39.50 (Interrogation) ● Norme historique des bibliothèques (1970) ● Protocole client-serveur ● Possibilités très étendues, implantation variable ● Utilisé pour – Dériver des notices – Faire des moteurs de recherche fédérée Échanges & Interopérabilité 45
  46. 46. SRU / SRW (Recherche) ● Interrogation de base de données via CQL ● Technologies du web, exemple de Web Services ● Réponse en XML ● Trois services de base http://copac.ac.uk:3000/copac?operation=searchRetrieve&version=1.1&query=dc.title %3d%22bordeaux%22&maximumRecords=10&recordSchema=mods Échanges & Interopérabilité 46
  47. 47. OpenURL ● Lier les métadonnées à la ressource qu'elles décrivent en fonction des accès dont dispose l'utilisateur ● « résolveur de lien » pour fournir ce lien et/ou d'autres services Échanges & Interopérabilité 47
  48. 48. OpenURL Notice repérée Recherche au catalogue Site de Texte l’éditeur intégral Échanges & Interopérabilité 48
  49. 49. OpenURL Notice repérée Recherche au catalogue Site de Texte l’éditeur intégral Échanges & Interopérabilité 49
  50. 50. OpenURL 1 2 Échanges & Interopérabilité 50
  51. 51. COinS ● Cacher des métadonnées dans une page web <span class="Z3988" title="ctx_ver=Z39.88-2004&amp; ft_val_fmt=info:ofi/fmt:kev:mtx:journal&amp; rft.issn=1045-4438"/> ● Exemple sur un article de wikipédia : OpenURL ● De plus en plus présents – Copac – Sudoc depuis l'année dernière – ... Échanges & Interopérabilité 51
  52. 52. RSS ● Really Simple Syndication / Rich Site Summary ● S'abonner aux mises à jour d'un site ● Centraliser les alertes sur ces mises à jour Échanges & Interopérabilité 52
  53. 53. Aller plus loin Décembre 2005 Septembre 2007 ISBN : 2-7654-0915-3 ISBN : 978-2-7654-0953-3 Échanges & Interopérabilité 53
  54. 54. Support mis à disposition sous licence Creative Commons BY SA smachefert @ u-bordeaux3.fr MERCI symac Inspiré du support de cours d'Anita Largouet SCD Bordeaux 3

×