EBD 2013 le document, document numérique
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

EBD 2013 le document, document numérique

on

  • 686 views

numérisation, document numérique, formation à destination des étudiants de 1° année à l'Ecole des bibliothécaires et documentalistes (ebd.fr)

numérisation, document numérique, formation à destination des étudiants de 1° année à l'Ecole des bibliothécaires et documentalistes (ebd.fr)

Statistics

Views

Total Views
686
Views on SlideShare
686
Embed Views
0

Actions

Likes
0
Downloads
18
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • La représentation d’un document : <br /> Document noble, document non noble <br /> Charge symbolique <br /> Charge sémantique <br /> Charge émotionnelle <br />
  • Introduire la notion de métadonnées, que l’accès au document passe par sa description <br />
  • L’approche qu’on a un d’un document dépend aussi du traitement qui a été fait de ce document. <br /> Le fonds, s’il n’a pas été classé, inventorié, n’est pris que dans un ensemble flou <br /> S’il est classé, on sait qu’il est composé de parties consacrées à tel ou tel sujet <br /> S’il est inventorié, on sait avec plus ou moins de détails les documents qui le compose <br /> S’il est numérisé on peut savoir le contenu de chaque document. <br /> Analyse d’un document <br />
  • Sans perte : Les fichiers sont pourvus d&apos;algorithmes de compression, qui réduisent leur taille, mais la restituent sans perte de données, ni en couleurs, ni en pixels. <br />
  • (IUT Groupe 4) <br />
  • (JPEG très utilisée en numérisation pour les illustrations) <br />

EBD 2013 le document, document numérique Presentation Transcript

  • 1. Le document 1 Luc Bellier septembre–octobre 2013
  • 2. PLAN  Définir la notion de ‘document’  Travail de groupe  Définitions  Approches du document   Exemples Analyse d’un document  La chaine documentaire  Traitements  Documentaires  Matériels  Le cas de la numérisation  Accès 2
  • 3. Définitions  Définition ISO (International Organisation for Standardization)   Vocabulaire de la documentation  3 Ensemble formé par un support et une information généralement enregistré de façon permanente et tel qu’il puisse être lu par l’homme ou la machine Ensemble d’un support d’information, quel qu’il soit, des données enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome.
  • 4. Approches du document   « Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951 Le vu, le lu, le su (Jean-Michel Salaün)   Le lu : le texte, le contenu, le fond  4 Le vu : la forme, le support Le su : le medium, l’attention, le système d’échange
  • 5. Approches du document  Le document ne peut être dissocié de ses environnements :  Fond, forme, destination font parti intégrante du document si celui-ci doit s’inscrire dans un système (documentaire, d’échanges etc.)  En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces trois dimensions, et traité en conséquence :   La forme (description, reproduction, déclinaisons de différents supports etc.)  5 La diffusion (médium) Le fond (la pertinence du contenu au regard des deux autres dimensions)
  • 6. Qu’est-ce qu’un document ? Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus : textes sacrés
  • 7. Qu’est-ce qu’un document ? Films Fiches
  • 8. Qu’est-ce qu’un document ? Contenu/co ntenant Lecture et dispositif de lecture
  • 9. Qu’est-ce qu’un document ? Contenu/contenant Lecture et dispositif de lecture
  • 10. Qu’est-ce qu’un document ? Un système de valeurs autour des documents, symbolique, sémiotique et économique.
  • 11. Organiser les documents Les ranger, les trouver, les décrire
  • 12. Approches du document : exemples Fonds Fonds classé Fonds numérisé Fonds inventorié 13
  • 13. Approches du document  Approche métier • •  Objet porteur d’information, pris indépendamment du support, de la nature de l’information ou de toute autre caractéristique A traiter à la fois au niveau de l’objet lui-même et de l’information qu’il supporte Remarques • • Les métiers de la gestion de l’information découlent de ces fonctions qui sont liées aux besoins des organismes • 14 Un même document peut cumuler plusieurs fonctions Autres fonctions dans le contexte des bibliothèques de lecture publique : essentiellement la mise à disposition d’un patrimoine culturel
  • 14. Approches du document Approches professionnelles :  Document de travail (au sens large)    Tout type de document dès lors qu’il est pertinent pour améliorer la qualité et l’efficacité du travail des collaborateurs Durée de vie variable mais le contenu doit rester pertinent par rapport à des besoins identifiés Enjeux :    Document patrimonial    15 Le retrouver facilement et rapidement Le mettre à disposition sur le support qui convient Valeur généralement historique ; de l’ordre de 3% des documents produits Durée de vie très longue Enjeux : le conserver sur le long terme.
  • 15. Approches du document Approche fonctionnelle :  Document à valeur probante   Durée de vie variable, pouvant faire l’objet d’une réglementation   Valeur de preuve en cas de contrôle ou de contentieux Enjeux : tracer le document et en garantir l’intégrité pour qu’il garde sa valeur de preuve Principales conditions d’exploitation o o 16 Technologiques, notamment en fonction du support (papier, électronique, film…) Juridiques (droits d’exploitation) o Modes d’utilisation (besoins des utilisateurs)
  • 16. Estimation et analyse de besoins Recherche et collecte d’informations Sélection, acquisition des documents Traitement des documents Traitement matériel : •Enregistrement du document •Équipement, reproduction, conservation (reliure etc.) Classement 17 Traitement intellectuel : •Catalogage et indexation •Analyse, résumé etc. Enregistrement de l’information Diffusion de l’information : •Prêt •Mise à disposition des produits secondaires (catalogue, bibliographies, revue de presse etc.)
  • 17. Le traitement documentaire Les différents niveau de traitement du document  Document primaire o o  Document secondaire o o  Présente un document primaire à partir d’informations extraites (auteur, titre…) ou créées (mots clés, résumé) Exemples : notices bibliographiques, bibliographies, catalogues de bibliothèques, index, répertoires de signets… Document tertiaire o 18 Présente une information à caractère original c’est-à-dire lisible par le lecteur telle que l’auteur l’a écrite Soumis à une législation régissant les droits d’utilisation et de reproduction o Synthèses réalisées à partir de plusieurs documents Exemples : encyclopédies, états de l’art…
  • 18. Le traitement documentaire Typologies des documents primaires  Pourquoi une catégorisation des documents ?    Pour mieux organiser les fonds documentaires. Mais ces systèmes de catégorisation ont des limites : un livre peut aussi comporter un DVD ; un texte pourra être à la fois sur support papier (analogique) et électronique Pour mieux rechercher les documents Critères de catégorisation courants   Le mode de codage : analogique ou numérique  La nature des informations : juridique, économique, scientifique…  19 Le support : papier, film, magnétique, optique Le mode de représentation : information textuelle, graphique (image), sonore
  • 19. Le traitement documentaire Document secondaire  Composition  Il comporte des informations permettant de décrire le document primaire :      En cas de document électronique ces éléments d’information s ’appellent les métadonnées (données sur les données) Usages   La recherche dans un fonds physique ou un système informatique La prise de connaissance rapide de son contenu pour   20 Ses caractéristiques « objectives » : auteur, titre, date…. Son contenu : mots clés, résumé… Son mode de gestion (par exemple : en prêt, cote, n° d’exemplaire pour un livre) Identifier son niveau d’intérêt S’approprier les informations synthétisées dans le résumé
  • 20. Le traitement documentaire Exemples de documents secondaires  Catalogue ou fichier bibliographique      Produits documentaires basés sur des documents secondaires     21 Très majoritairement informatisé Appelé OPAC (online public access catalog) dans les bibliothèques Règles de description pouvant varier selon les contextes Exemples à voir : catalogues des bibliothèques de la Ville de Paris, de la médiathèque de la Cité des sciences, de la BPI, de la BNF… Revue de presse (à distinguer du panorama de presse) Liste des nouveautés Bibliographie Bulletins de sommaires
  • 21. Le traitement matériel Ranger et conserver le document  Principes      Distinguer stockage et conservation Définir le besoin réel et les coûts supportables La numérisation (dématérialisation) permet de créer un support de substitution évitant les risques liés à la consultation et la diffusion des documents Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/ Techniques  Validées pour le document papier : règles, normes …   En forte évolution pour le document électronique  22 Relèvent plutôt des métiers de l’archivistique Relèvent plutôt des métiers de l’informatique
  • 22. Le traitement matériel Document papier et électronique  Document papier    Document électronique     23 Objet matériel, tangible et fini ; accessible directement par les sens Lien entre la forme et le sens : le support conditionne l’accès au contenu Objet « immatériel » composé d’unités binaires permettant les traitements informatiques et lisible par l’intermédiaire d’une machine Les possibilités liées à l’informatique (liens hypertexte par ex. ) gomment les limites du document ; Évolution vers la notion de ressource électronique Modes de production : - Documents directement produits sous forme électronique à l’aide de logiciels (logiciels bureautiques….) - Documents analogiques (papier…) transformés en documents électroniques
  • 23. Le cas de la numérisation Principaux modes de codage numériques Mode de codage alphabétique (mode texte ou caractère) Mode image bitmap Type de codage Codage selon une norme ex. codage ASCII sur 8 bits exemple A : 01000001 a : 01100001 représentation des images selon une mosaïque de points représentation selon les Mode vectoriel éléments géométriques qui les composent 24 Remarques - Codage des signes des documents textuels (caractères, blancs, ponctuation…) -Fichiers utilisables en recherche et de faible volume. - American Standard Code for Information Interchange - Fichiers non directement utilisables en recherche. - Volumes très importants avant compression. Utilisé pour les plans, graphiques.. En CAO et DAO essentiellement
  • 24.  Processus   Passage d’un support physique à un état dit dématérialisé Changement de mode de codage : passage d’un mode de codage analogique à un codage numérique    Information analogique : le signal est continu Information numérisée : représentée par un échantillon de valeurs du signal analogique et codé à l’aide de numéraux (0 ou 1) Caractéristiques techniques    25 Le cas de la numérisation Ces changements se font par un processus technologique : la numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner) Le fichier résultant de la numérisation est un fichier bitmap Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/
  • 25. Le cas de la numérisation o o La capture de l’image Capture du document par un signal lumineux analyse de l’intensité lumineuse par un capteur CDD (charged-coupled device) - o o une seule analyse pour le noir et blanc analyse de 3 faisceaux lumineux séparés par un prisme et des filtres rouges, verts et bleus (RVB) pour des documents en couleur conversion en signal électrique binaire selon une grille propre au mode de codage Production du fichier bitmap 26
  • 26. Le cas de la numérisation Le mode de traitement des images RESTITUTION NUMERISATION 0000000000 0001110000 0010001100 0100000100 1000000010 1111111111 1000000000 1000000000 0100000010 0010000100 0001111000 In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987. Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs) Le mode de compression La taille de l’image est fonction de ces trois paramètres 27
  • 27. Le cas de la numérisation Définition et profondeur de l’analyse (*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie. Type d’image Nbre de bits/point avec des niveaux de gris couleur analyse RVB(*) 28 Remarques 2 noir = 1 blanc = 0 utilisé pour le texte 8 256 niveaux de gris utilisé pour les documents iconographiques noir et blanc 3x8 noir et blanc Valeurs codées 3 x 256 niveaux par couleur soit 16,4 millions de couleurs 3 couleurs : rouge/vert/bleu (codage utilisé par les moniteurs et les téléviseurs)
  • 28. Le cas de la numérisation Caractéristiques des fichiers bitmap  Caractéristiques générales o reproduction à l’identique o volume des fichiers très important, ce qui a un impact sur : o o o  le choix des supports de stockage les possibilités et les temps de transmission par réseau document non modifiable (pas d’accès au contenu) Qualité o La qualité et la lisibilité du document numérique restitué est variable selon : o o la résolution retenue o 29 l’état initial du document les performances du numériseur (scanner) et le niveau du réglage des contrastes
  • 29. Le cas de la numérisation La compression des images  Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité.  Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs    30 Compression sans perte Compression avec perte Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images
  • 30. Le cas de la numérisation La compression des images Codage ligne par ligne puis corrélation des lignes entre elles es lignes qui se suivent se ressemblent, n va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre 31
  • 31. Le cas de la numérisation La compression des images Format de compression JPEG codage compression restitution Paramétrage du taux de qualité (0 à 100%) Pour un taux = 80%) la compression est comprise entre 5 et 10 32 Utilisé pour les images 8 bits et 24 bits
  • 32. Le cas de la numérisation Les traitements sur les fichiers après numérisation  Mise  en forme de l’image nettoyage de l’image : élimination des éléments parasites, détourage, pivotement, redressement  Compression  Opération permettant de réduire le poids du fichier bitmap ce qui permet de :   limiter les besoins de stockage faciliter la transmission par réseau  Reconnaissance  33 optique de caractère : OCR passage d’un fichier bitmap à un fichier codé en ASCII
  • 33. Le cas de la numérisation O.C.R. (Optical Character Recognition)  Objectif o automatisation de la saisie en mode caractère -  document retraitable, modifiable et indexable par un moteur réduction de la taille Processus o o o o o o o 34 segmentation de l’image du document numérisé détermination des caractéristiques de chaque caractère comparaison par rapport à des jeux de police et décision traitements complémentaires identification de mots par comparaison avec un dictionnaire Établissement d’un niveau de confiance pour chaque mot apprentissage de nouvelles polices de caractères
  • 34. Le cas de la numérisation Ce qu’il faut faire pour : la recherche plein texte, le surlignage, la vocalisation page à page, le mode e-book TopMargin PrintSpace BottomMargin
  • 35. Le cas de la numérisation O.C.R. (Optical Character Recognition)  Attributs génériques  WC : Note de confiance de la reconnaissance de chaque mot, notée de 0 à 1 : 0,1; 0,2 etc.  WD : appartenance à un dictionnaire (true, false) Le texte affiché peut comporter un certain nombre d'erreurs. Il a été généré par O.C.R. Le taux de reconnaissance obtenu pour ce document est de 92,32 %. iôU Repopulation {Dédié à M. MOT, sénateur) — Qu'est-ce que tu veux, maman?... Gaston est si distrait!. 36 Forte dépendance de la structure physique qui traduit la structure logique du document original.
  • 36. Le cas de la numérisation Limites de l’ O.C.R.  Au niveau des caractères o o caractères peu nets ou liés, effets de lignes ou de bandes sur les fax o annotations, marques, tâches… o tableaux et soulignés o écriture manuscrite (ICR, Intelligent Character Recognition) o  définition insuffisante Difficultés pour évaluer la qualité réelle du document reconnu Au niveau du document o o problèmes de contraste o 37 fonds colorés Structure complexe
  • 37. Le cas de la numérisation Les métadonnées Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux identifiant unique (localisation / identification) Métadonnées descriptives ? •rattacher le document à l’original / différentes versions d’un document •donner accès à la copie numérique / électronique Métadonnées de structure Métadonnées administratives •rattacher les fichiers entre eux •gérer les droits d’accès •reconstituer la structure du document •gérer la collection, c’est-à-dire •préserver les informations techniques nécessaires à la lecture des fichiers •garantir l ’intégrité des fichiers et le suivi de leurs éventuelles modifications
  • 38. Le cas de la numérisation  Document objet     L’accès au document Organisation du fonds physique selon des critères permettant de retrouver les documents selon un nombre limité de critères ; exemple en BM : auteur pour les romans, thème/sous-thème pour les documentaires Nécessité de faire un catalogue pour des recherches selon d’autres critères A voir : organisation d’une BM et son catalogue en ligne Document dématérialisé  Recherche automatisée sur des critères prédéfinis organisés selon la logique des catalogues (logique différente de celle du web)    39 Les éléments de recherche, appelés métadonnées, sont regroupés dans des notices Suppose une description préalable (encore faite « à la main ») Recherche directement dans le document numérique
  • 39. Le cas de la numérisation L’accès au document Catalogue Moteur
  • 40. L’accès au document  Enjeux  La qualité des résultats de recherche    Le coût de traitement   Exemple : de l’ordre de 15 minutes pour la réalisation d’une notice Evolutions en cours    41 Bruit : documents non pertinents sélectionnées par le moteur de recherche en réponse à une question Silence : documents pertinents non sélectionnés par le moteur de recherche Amélioration des performances des moteurs de recherche sur le texte « brut » : analyse linguistique du texte Balisage du texte (tags) pour le structurer en fonction de critères de recherche (question de l’usage des métadonnées par les moteurs) Évolution des usages : de la recherche structurée à la recherche plein texte
  • 41. L’accès au document • • • Recherche en texte intégral Recherche statistique ou associative – fréquence du mot à l’intérieur du document – rareté du mot dans la collection – longueur du mot trouvé par rapport à la longueur du champ Recherche linguistique – exploitation du vocabulaire et de la grammaire – lemmatisation de l’index – catégorisation des mots-outils – extraction d’entités nommées
  • 42. L’accès au document • Recherche sémantique : exploitation d’un modèle de connaissance ou référentiel – extraction terminologique (couplée à l'analyse sémantique) – détection du contexte global du document – classification automatique des mots du texte – expansion de requête – navigation dans un thésaurus de haut niveau – calcul des relations entre thèmes (lexicométrie) – filtrage des thèmes en fonction de leur pertinence – À voir : http://www.adbs.fr/le-web-de-donnees-perspectives-pour-les-metiers-del-information-documentation-79361.htm 43
  • 43.  Que peut voir un moteur de recherche dans une bibliothèque numérique ?
  • 44. Bibliographie  Approche générale   Le pentagone de l'industrialisation de la mémoire - Bloc-notes de Jean-Michel Salaün, 2006, http://blogues.ebsi.umontreal.ca/jms/index.php/post/2006/11/29/127-le-pentagone-de-lindustrialisation-de-la-memoire  Briet Suzanne, Qu’est-ce que la documentation ?, EDIT, 1951 consultable ici : http://martinetl.free.fr/suzannebriet/questcequeladocumentation/   Claude Morizio, La recherche d’information, Paris : ADBS, Armand Colin, 2004. (128 : information documentation) Guillaud Hubert, Les trois dimensions de l’économie de la publication | La Feuille, http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-lapublication/ Document numérique  45 Le gestion électronique documentaire / Jean-Yves Prax, Simon Larcher . – 3ème ed. . – Paris : Dunod, 2004 . Pour cette première approche du document numérique, voir le chapitre 3 en se limitant aux thèmes abordés en cours.